CN114611499A

CN114611499A - 信息抽取模型训练方法、信息抽取方法、装置和电子设备

Info

Publication number: CN114611499A
Application number: CN202011430367.9A
Authority: CN
Inventors: 魏梦溪; 贺一帆
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-10

Abstract

本申请实施例提供了信息抽取模型训练方法、信息抽取方法、装置和电子设备。方法的实施例包括：获取已标注文档，已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；通过信息抽取模型的编码器对每个文本框进行编码，获得每个文本框中的文本信息，以及获得已标注文档的图结构信息；通过信息抽取模型的图卷积网络对图结构信息进行处理，获得已标注文档的布局信息；通过信息抽取模型的实体抽取网络根据文本信息以及布局信息，对每个文本框中的文本进行实体抽取；根据实体抽取的结果与实体标注，训练信息抽取模型的参数。该实施方式降低了人力成本，并提高了信息抽取结果的准确性。

Description

信息抽取模型训练方法、信息抽取方法、装置和电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种信息抽取模型训练方法、信息抽取方法、装置和电子设备。

背景技术

信息抽取(Information Extraction，IE)是指在非结构化数据(例如文本)中抽取实体等信息，抽取结果一般可以被下游任务利用，例如构建知识图谱等。

现有技术中，通常采用基于规则的抽取算法进行信息抽取，如采用TF-IDF(termfrequency–inverse document frequency，词频-逆文本频率指数)算法，然而，规则的制定较为耗费人力成本，且针对不同领域的文档无法快速迁移。现有的另一种信息抽取方式是依赖信息抽取模型来实现信息抽取功能，但现有的信息抽取模型在学习过程中的对原始文档的信息利用率较低，导致信息抽取结果的准确性较低。

发明内容

本申请实施例提出了信息抽取模型训练方法、信息抽取方法、装置和电子设备，以降低人力成本，并提高信息抽取结果的准确性。

第一方面，本申请实施例提供了一种信息抽取模型训练方法，包括：获取已标注文档，所述已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；通过信息抽取模型的编码器对所述每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述已标注文档的图结构信息；通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述已标注文档的布局信息；通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；根据所述实体抽取的结果与所述实体标注，训练所述信息抽取模型的参数。

第二方面，本申请实施例提供了一种信息抽取方法，包括：获取目标文档，所述目标文档包括至少一个文本框；通过预先训练的信息抽取模型的编码器对所述目标文档中的每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述目标文档的图结构信息；通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述目标文档的布局信息；通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；对所抽取的实体进行汇总，得到目标信息。

第三方面，本申请实施例还提供了一种信息抽取模型训练装置，包括：获取单元，被配置成获取单元，被配置成获取已标注文档，所述已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；编码单元，被配置成通过信息抽取模型的编码器对所述每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述已标注文档的图结构信息；处理单元，被配置成通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述已标注文档的布局信息；抽取单元，被配置成通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；训练单元，被配置成根据所述实体抽取的结果与所述实体标注，训练所述信息抽取模型的参数。

第四方面，本申请实施例还提供了一种信息抽取装置，包括：获取单元，被配置成获取目标文档，所述目标文档包括至少一个文本框；编码单元，被配置成通过预先训练的信息抽取模型的编码器对所述目标文档中的每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述目标文档的图结构信息；处理单元，被配置成通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述目标文档的布局信息；抽取单元，被配置成通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；生成单元，被配置成对所抽取的实体进行汇总，得到目标信息。

第五方面，本申请实施例还提供了一种电子设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的信息抽取模型训练方法。

第六方面，本申请实施例还提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的信息抽取模型训练方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，通过已标注文档集对包含编码器、图卷积网络和实体检测网络的信息抽取模型进行训练，从而利用信息提取模型对文档进行信息抽取，能够实现自动信息抽取，不需要人工设定抽取规则，大大降低了人力成本。同时，由于信息抽取模型中包括编码器和图卷积网络，可使模型学习过程中充分利用文本信息以及和文本框在文档中的布局、字体等视觉信息，提高了模型学习过程对文档中的信息的利用率，由此，使用此信息抽取模型，可提高信息抽取结果的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的信息抽取场景的示意图；

图2为本申请的信息抽取模型训练方法的一个实施例的流程图；

图3为本申请的信息抽取模型的结构示意图；

图4为本申请的信息抽取模型训练方法的又一个实施例的流程图；

图5为本申请的未标注文档中的相邻文本框的示意图；

图6是本申请的信息抽取方法的实施例的流程图；

图7是本申请的信息抽取模型训练装置的实施例的结构示意图；

图8是本申请的信息抽取装置的实施例的结构示意图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请的信息抽取方法可应用于数字化文档(digital-born)信息抽取场景等。其中，数字化文档可以包括视觉信息丰富的文档(Visually Rich Documents)，视觉信息丰富的文档通常为PDF(Portable Document Format，便携式文档格式)的文档，指除了文字信息之外，还具有图片、字体、布局等视觉信息的文档。视觉信息丰富的文档具体可包括但不限于简历文档、票据文档等。数字化文档可包括多个文本框，每个文本框中可包含文本。通常可使用开源工具(如PDF Miner工具)对数字化文档预先进行文本框划分，使其中的文本分布于第一或多个文本框中。

图1为本申请的一个信息抽取场景的示意图，该场景具体可以为简历信息抽取场景。在该场景的系统架构可包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102可以是具有显示屏并且支持网络通信的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机、台式计算机、可穿戴设备等，在此不做具体限定。

服务器104可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

用户可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用，例如文档编辑类应用、网页浏览器应用、即时通信工具等。

服务器104中可部署有预先训练的信息抽取模型，该信息抽取模型能够从简历文档中抽取关键的信息。终端设备101、102可以向服务器104发送请求，并在请求中携带需要进行信息抽取的简历文档，如分别为简历文档A和简历文档B。服务器104可以使用运行于其上的信息抽取模型对所接收到的简历文档A和简历文档B进行信息抽取，得到简历文档A和简历文档B中的关键信息，从而向终端设备101返回包含简历文档A中的关键信息的信息抽取结果，向终端设备102返回包含简历文档B中的关键信息的信息抽取结果。

需要说明的是，本申请实施例所提供的信息抽取方法一般由服务器104执行，相应地，信息抽取装置一般设置于服务器104中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

需要支出的是，信息抽取场景不限于针对简历文档的简历信息抽取场景，还可以是针对票据文档的票据信息抽取场景等，此处不再一一赘述。

继续参考图2，示出了本申请的信息抽取模型训练方法的一个实施例的流程图。

该信息抽取模型训练方法的流程，包括以下步骤：

步骤201，获取已标注文档。

在本实施例中，信息抽取模型训练方法的执行主体(如服务器等电子设备)可以通过多种方式来获取已标注文档。例如，执行主体可以通过有线连接方式或无线连接方式，从用于存储样本的另一服务器(例如数据库服务器)中获取存储于其中的现有的已标注文档集中获取已标注文档。再例如，可以在互联网中收集样本并基于样本的标签等信息对该样本进行标注，从而得到已标注文档。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband，超宽带)连接、以及其他现在已知或将来开发的无线连接方式。

已标注文档可以是已进行实体标注的数字化文档，如视觉信息丰富的PDF格式的文档，具体可包括但不限于简历文档、票据文档等。已标注文档中可包括文字信息，以及图片、字体、布局等视觉信息。

已标注文档中可以包括至少一个文本框。每个已标注文档中的文本框可使用开源工具(如PDF Miner工具)预先确定出。每个文本框中可包含文本。文本可以是各种语言的文本，如中文文本、英文文本等。此处对文本的语言类型不作限定。

已标注文档的每个文本框中的文本可以带有实体标注。此处的实体标注具体可以是对文本框中的文本的序列标注，如BIO标注。其中，B表示实体开始，I表示实体中间，O表示不是实体。例如，对于某一文本框中的文本“发票号码：123456”，该文本中包含词序列“发票号码”、“：”、“123456”。若“123456”为实体，则可将“发票号码”标记为O，将“：”标记为O，将“123456”标记为B。

步骤202，通过信息抽取模型的编码器对每个文本框进行编码，获得每个文本框中的文本信息，以及获得已标注文档的图结构信息。

在本实施例中，上述执行主体中可部署有预先构建的信息抽取模型。该信息抽取模型中可包含编码器、图卷积网络(Graph Convolutional Network,GCN)和实体检测网络。其中，编码器可以分别与图卷积网络和实体检测网络相连接，图卷积网络也可与实体检测网络相连接。编码器、图卷积网络和实体检测网络均可以是尚未训练的网络，也可以是经过预训练的网络，此处不作具体限定。

在本实施例中，编码器能够对文本中的词进行编码，得到文本中的词的向量表示。由此，上述执行主体可通过编码器对已标注文档中的每个文本框进行编码，获得每个文本框中的文本信息。每个文本框中的文本信息可包括该文本框中的各个词的编码，编码可采用向量的形式表示，也可称为编码向量。在实践过程中，可将已标注文档中的每个文本框中的文本作为一个词序列，输入至编码器，得到编码器针对每个词序列中的每个词输出的编码。

实践中，可直接采用预训练语言模型作为编码器，也可采用对预训练语言模型进行再训练(fine-tuning)后的所得到的模型作为编码器，还可直接使用已训练完成的编码器-解码器模型中的编码器部分等，且不限于上述列举。

在一些示例中，上述预训练语言模型可包括但不限于BERT(BidirectionalEncoder Representations from Transformer，基于变换器的双向编码器表示)模型、改进的BERT模型等。上述BERT模型可以包括但不限于包含12层transformer(变换器)结构的BERT-base模型、包含24层transformer结构的BERT-large模型等。上述改进的BERT模型可以包括但不限于RoBERTa(A Robustly Optimized BERT Pre-training Approach，一种鲁棒优化的BERT预训练方法)等模型。

需要说明的是，BERT模型是一种应用于自然语言处理任务的开源的语言模型。BERT模型具有包含多层transformer结构。transformer结构是一种基于注意力机制(Attention)的网络结构。该网络结构能够计算一个文本中的每个词与该文本中所有词的相互关系，并基于词与词之间的相互关系计算各词的重要程度(权重)，从而获得每个词新的表达(例如新的向量)。上述新的表达不但涉及了该词本身的特征，还涉及了其他词与这个词的关系，因此和传统的词向量相比更具有全局性。由于BERT模型使用多层transformer结构(具体为transformer结构中的编码器(encoder))，因而，BERT模型能够学习到文本中词之间的上下文关系。此外，transformer的encoder是采用一次性读取的方式进行文本的读取，支持了BERT模型对文本的双向学习，由此，相对于仅支持对文本单向学习的语言模型，BERT模型可更准确地学习到文本中的各词的上下文关系，对语境的理解比单向的语言模型更深刻，从而能够准确地对各种不易理解的文本进行处理。由此，BERT模型以及改进的BERT模型相较于处理自然语言处理任务的其他模型，具有更好的任务处理效果。

此外，在BERT模型的预训练过程中，会使用MLM(Masked Language Model，语言模型掩码)和NSP(Next Sentence Prediction,次句预测)两个无监督的训练任务。其中，MLM任务会随机掩盖序列中的一些词，并让模型去学习来恢复这些掩盖掉的词。而NSP任务则是一个2分类任务，用来判定两句话是否一句出现在另一句的后面。通过MLM任务和NSP任务使得BERT模型具备更好的自然语言处理性能，使之在各项自然语言处理任务中都表现得非常出色，因此使用BERT模型以及改进的BERT模型作为预训练语言模型，具有更好的任务处理效果。

在本实施例中，上述执行主体还可以获取已标注文档的图结构信息。其中，图结构(graph)是一种数据格式，用于表示具有某种关系的网络。图结构中可以包括节点和节点之间的边。节点之间的边用以表征节点之间的关联关系。图结构信息即为对图结构进行表征的信息，具体可包括用于表征节点的节点信息和用于表征节点之间的关联关系的边信息。

此处，可将已标注文档视为一个文本框网络，将已标注文档中的每个文本框视为节点，将文本框之间的关联关系视为节点之间的边，从而将已标注文档转换为图结构，记为G(V，E)，得到图结构信息。其中，V为图中的节点v的集合。若文档中有N个文本框，则图结构中即存在N个节点，此时V＝{v₁,v₂,v₃,……，v_N}。E为节点之间的边的集合，此处的边为无向边。E∈M×V×V。M是边的种类数。

在一些实现方式中，对于已标注文档中的某一个文本框(即节点)，可使用其文本信息来表征该文本框自身，此时文本信息即可作为节点的节点信息。此外，也可将文本框的文本信息与其他信息相融合，将融合后的信息来表征该文本框自身，此时融合后的信息即可作为节点的节点信息。此外，还可以使用其他方式表征文本框，不限于上述示例。

在一些实现方式中，可使用邻接矩阵来表示边信息。邻接矩阵也可称为图矩阵，是用于表示节点之间的关系的矩阵。若节点数为N，则邻接矩阵可以是n×n的对称矩阵。若某两个节点相关，则这两个节点在邻接矩阵中的对应元素的值可设为1；某两个节点相关，则这两个节点在邻接矩阵中的对应元素的值可设为0。例如，文本框A和文本框B分别对应节点v₁和v₂。若文本框A与文本框B相关，可认为v₁和v₂具有关联关系，此时可将邻接矩阵的第一行第二列以及第二行第一列的元素设置为1。反之，若文本框A与文本框B不相关，可认为v₁和v₂不具有关联关系，此时可将邻接矩阵的第一行第二列以及第二行第一列的元素设置为0。由此可得到邻接矩阵。需要说明的是，两节点是否具有相关性的评判标准可根据需要进行预先设定，此处不作限定。此外，邻接矩阵中的值也可设为其他，不限于上述示例中的0和1。

通过获取图结构信息，可在得到文本信息的基础上，获取到文本框之间的关联关系特征，从而提高对文档中的信息的利用率，使文档得到更准确的表征。

在本实施例的一些可选的实现方式中，执行主体可以通过如下步骤获得每个文本框中的文本信息：首先，对每个文本框中的文本的首字符前添加预设的标志位符号，如[CLS]。而后，通过信息抽取模型的编码器对添加有标志位符号的每个文本进行编码，获得与每个文本中的标志位符号对应的全局文本信息(即全局特征)，以及，获得与每个文本中的每个词对应的局部文本信息(即每个词的编码)。由此，得到包含全局文本信息和局部文本信息的文本信息。其中，编码器可针对所输入的文本中的每一项(包括符号和词)进行编码。

需要说明的是，每个词序列结尾还可添加用于表示结尾的标识(如[SEP])。此外，每个文本框对应的词序列可设置为固定长度，若某个词序列短于该长度，可对该次序列进行补齐。例如，可使用符号[PAD]进行补齐，从而便于模型处理。编码器也可同时对上述标识和符号进行编码，得到分别与上述标识和编码对应的局部文本信息。

在本实施例的一些可选的实现方式中，上述执行主体还可以结合字体信息，获得已标注文档的图结构信息，具体可参见如下子步骤S11至子步骤S13：

子步骤S11，获取每个文本框的字体信息。

由于数字化文档中的视觉信息通常较为丰富，不同区域内的文本通常包含不同的字体特征，因而为提高信息利用率，可结合字体特征对文本框进行表征。字体信息可以是表征字体特征的信息，如可采用编码向量等形式表示。上述字体特征可包括但不限于字体、字号等。

在一些示例中，可首先确定每个文本框中的文本的字体(如宋体、楷体、黑体等)和字号。而后，可将每个文本框中的文本的字体和字号的组合作为一个字体类型。之后，对不同的字体类型进行编码，将该编码作为字体信息，从而得到每个文本框的字体信息。

例如，已标注文档中包含5个文本框，分别为A、B、C、D、E。5个文本框共涉及3种字体类型。其中，文本框A和B涉及字体类型a，文本框C和D涉及字体类型b，文本框E涉及字体类型c。由此，文本框A和B具有相同的字体信息，文本框C和D具有相同的字体信息，文本框E具有单独的字体信息。

在实际应用中，对于文本框i，可将该文本框的字体类型记为f_i，其字体类型的编码记为e(f_i)。其中，e()表示一个词向量查找方法，其可通过随机初始化的方式得到f_i的词向量(即编码)，并将该词向量作为文本框i的字体信息。

子步骤S12，确定已标注文档中的文本框之间的邻接关系。

针对已标注文档，上述执行主体可以分别确定其中的每两个文本框之间的邻接关系，即确定这两个文本框是否相邻。判定文本框是否相邻的原则可以根据需要预先设定。

在一些示例中，可首先将已标注文档中的每两个文本框组成二元组。若二元组满足第一预设条件或第二预设条件，则可以确定二元组中的两个文本框的邻接关系为相邻。若二元组不满足第一预设条件且不满足第二预设条件，则确定两个文本框的邻接关系为不相邻。

其中，第一预设条件可以包括：两个文本框的上边界坐标相同且下边界坐标相同、两个文本框之间不存在其他文本框。第二预设条件可以包括：两个文本框的左边界坐标相同且右边界坐标相同、两文本框之间不存在其他文本框。

例如，若文本框A与文本框B具有相同的左边界坐标和相同的右边界坐标，且文本框A与文本框B之间不存在其他文本框，可认为二者相邻。若文本框C与文本框D具有相同的上边界坐标和相同的下边界坐标，且文本框C与文本框D之间不存在其他文本框，可认为二者相邻。

子步骤S13，基于字体信息和邻接关系，获得已标注文档的图结构信息。

第一步，上述执行主体可以将每个文本框作为图结构的节点，将每个节点的字体信息与其文本信息相结合，得到该节点的节点信息。

例如，文本信息和节点信息均可采用向量形式的编码表示，因而可将每个文本框的文本信息与字体信息进行拼接，获得每个节点的节点信息。

再例如，每个文本框的文本信息可包括全局文本信息和局部文本信息，可仅将每个文本框的全局文本信息与字体信息进行拼接，获得每个节点的节点信息，从而可减少数据量。具体地，针对文本框i，该文本框的字体类型记为f_i，该字体类型的编码为e(f_i)，该文本框的节点信息记为

则节点信息可表示为：

其中，||表示拼接操作，E_i0表示文本框i的全局文本信息。

第二步，可将文本框之间的邻接关系作为节点之间的关联关系，基于文本框之间的邻接关系，确定节点之间的边的边信息，如建立邻接矩阵。例如，文本框A和文本框B分别对应节点v₁和v₂。若文本框A与文本框B相邻，可认为v₁和v₂具有关联关系，此时可将邻接矩阵的第一行第二列以及第二行第一列的元素设置为1。反之，若文本框A与文本框B不相邻，可认为v₁和v₂不具有关联关系，此时可将邻接矩阵的第一行第二列以及第二行第一列的元素设置为0。由此可得到邻接矩阵。

第三步，基于节点信息和边信息，获得已标注文档的图结构信息。

例如，可直接将节点信息和边信息直接进行汇总，得到图结构信息。

由于数字化文档中的视觉信息非常丰富，若仅依赖文本信息进行模型训练，则无法使模型学习到文本框的字体信息、关联关系等视觉信息。通过获取图结构信息，可将字体信息、文本信息以及关联关系等多种因素进行融合，提高对对文档中的信息的利用率，从而使已标注文档得到更准确的表征。

步骤203，通过信息抽取模型的图卷积网络对图结构信息进行处理，获得上述已标注文档的布局信息。

在本实施例中，上述执行主体可以将图结构信息输入至信息抽取模型的图卷积网络，得到已标注文档的布局信息。

图结构信息中包含用于表征各节点(即已标注文档中的各文本框)的节点信息，如文本信息，或者文本信息与其他结合后的信息等。同时，包含用于表征节点关系的边信息，如邻接矩阵。在将图结构信息输入至图卷积网络后，图卷积网络的每一层均可使用边信息(如邻接矩阵)对从上一层输入至该层的各节点的节点信息进行处理，从而输出各节点的新的节点信息。图卷积网络的最后一层输出的节点信息即为融合了节点间的关联关系信息的布局信息。

具体地，图卷积网络的第一层会将每个节点(即文本框)的节点信息和与该节点相邻的节点信息进行卷积，图卷积网络的其他网络层可进一步建模更加复杂的节点关系，并由最后一层输出每个节点(即文本框)最终的节点信息。最后一层输出的节点信息融合了节点之间的关联关系，因而该节点信息可体现文本框在文档中的布局，可称之为布局信息。

针对节点i(即文本框i)，图卷积网络第l+1层输出的该文本框i的节点信息

为：

其中，N(i)代表所有和节点i相连的节点，包括i本身。N是N(i)集合的大小。

是节点i在第l层的特征，也即节点i在第l层的表示(即节点信息)。eLU代表激活单元。W^l、b^l分别为图卷积网络第l层的参数。

由于不同领域的文档中的视觉信息差异较大非常巨大，因而导致文本框在不同文档中的布局存在较大差异。比如，票据文档中的内容通常以列表的形式展现，简历文档中的内容通常以章节的形式呈现。若仅依赖文本框的位置坐标来表征文本框中的文本的布局特征，则无法充分学习到文本框独特的布局特征。通过图卷积网络，能够学习某类型文档中的文本框的独特的结构化特征，从而能够大大提高对对文档中的信息的利用率。

步骤204，通过信息抽取模型的实体抽取网络根据文本信息以及布局信息，对每个文本框中的文本进行实体抽取。

在本实施例中，上述执行主体可以将每个文本框的文本信息以及布局信息输入至实体抽取网络，得到实体抽取网络的结果。

实体检测网络可以是一个多分类网络，用以对文本框中的每个词进行分类。其所输出的类型可以包括三类，分别为实体开始(可记为B)，实体中间(可记为I)，不是实体(可记为O)。基于实体抽取网络输出的分类结果，可确定出文本框中的实体。例如，对于某一文本框中的文本“发票号码：123456”，针对该文本对应的词序列“发票号码”、“：”、“123456”，实体检测结果可输出“O，O，B-123456”。该输出结果表示“123456”为实体，其余词不为实体。

在本实施例的一些可选的实现方式中，文本框的文本信息可以包括全局文本信息(即与标志位符号对应的全局特征)和局部文本信息(即文本中的各词的编码)。对于每一个文本框，上述执行主体可以首先将该文本框的布局信息分别与该文本框中的每个词的局部文本信息进行拼接，得到该文本框中的每个词的综合信息。而后，通过信息抽取模型的实体抽取网络根据该综合信息，对该文本框中的文本进行实体抽取。

具体地，针对文本框i，布局信息可表示为G_i。该文本框中的各词的局部文本信息可依次表示为E_i1，E_i2，E_i3，以此类推。可分别将G_i与E_i1，E_i2，E_i3进行拼接，得到多个综合信息。将文本框i的全部综合信息组合为序列，输入至实体检测网络，得到实体抽取的结果。

步骤205，根据实体抽取的结果与实体标注，训练上述信息抽取模型的参数。

在本实施例中，上述执行主体可以基于实体抽取的结果和每个文本框的实体标注，计算损失值(loss)。损失值可以用于表征实体检测网络输出的实体抽取的结果与实体标注的差异。损失值越大，则差异越大。损失值可以采用常用的损失函数计算得到，如交叉熵损失函数等。在得到所选取的已标注文档对应的损失值后，可基于该损失值，更新信息抽取模型(包括编码器、图卷积网络和实体检测网络)的参数。

实践中，可使用大量的已标注文档执行上述步骤201至步骤205的训练步骤。每此执行上述流程，均可对更新信息抽取模型(包括编码器、图卷积网络和实体检测网络)的参数进行一次训练，从而使信息抽取模型(包括编码器、图卷积网络和实体检测网络)的参数得到一次更新。可迭代进行多次训练，直至训练完成。

实践中，可以通过多种方式确定是否训练完成。作为一个示例，可确定实体检测模型输出结果的准确率。若准确率大于预设阈值(例如98％)时，可确定训练完成。作为又一示例，若迭代训练次数等于预设次数时，可以确定训练完成。

下面结合图3所示的信息抽取模型的结构示意图，对使用某一已标注文档对模型进行训练的过程以及模型中各组成部分的输入输出关系进行介绍。如图3所示，模型可使用BERT模型作为编码器，同时包含图卷积网络(即GCN)和输出层。其中，输出层即为实体检测网络，可由一个多分类网络实现。

上述已标注文档中包括文本框i、j文本框，且不限于这两个文本框。文本框i中的文本为“Invoice Number：”。文本框i对应的词序列为“Invoice”、“Number”、“：”。

在使用该已标注文档进行模型训练时，可预先将各个文本框中的文本进行预处理，如在首字符前添加[CLS]标识、在尾字符后添加[SEP]标识、以[PAD]标识补齐词序列等，得到输入序列，该输入序列为“[CLS]”、“Invoice”、“Number”、“：”、“[SEP]”、“[PAD]”、“[PAD]”。

而后，可将输入序列输入至编码器(即BERT模型)后，编码器可输出分别与“[CLS]”、“Invoice”、“Number”、“：”、“[SEP]”、“[PAD]”、“[PAD]”对应的向量E_i0、E_i1、E_i2、E_i3、E_i4、E_i5、E_i6。其中，E_i0为文本框i中的全局文本信息(即[CLS]对应的编码，可作为全局特征)。E_i1、E_i2、E_i3、E_i4、E_i5、E_i6分别为文本框i中的其他各项(包括词和标识)的局部文本信息(即各项对应的编码)。同理，对文本框j以及其他文本框执行类似操作。

之后，可通过文本框i的字体和字号，获取到文本框i中的文本的字体信息F_i。可将F_i与E_i0进行拼接，得到文本框i对应的节点信息。同理，对文本框j以及其他文本框执行类似操作后，可得到各个文本框对应的节点信息。此外，可基于该已标注文档中的各文本框之间关系(如邻接关系)，获得一邻接矩阵(即边信息)。该邻接矩阵与各节点信息可构成已标注文档对应的图结构信息。

之后，可将各个文本框对应的拼接后的输入至GCN，GCN即可逐层进行处理，并通过最后一层输出各个文本框的布局信息。其中，文本框i的布局信息可记为G_i。G_i也可以是一个向量。

之后，可将文本框i的布局信息G_i分别与E_i1、E_i2、E_i3、E_i4、E_i5、E_i6拼接，得到6个拼接后的向量。将这6个拼接后的向量输入至输出层(即实体检测网络)，即可得到实体检测结果。同理，对文本框j以及其他文本框执行类似操作。

最终，可基于每个文本框的实体检测结果及该文本框的实体标注，得到一个损失值，将各文本框的损失值相加，可得到总损失值。基于总损失值，可采用梯度下降算法以及反向传导算法更新模型中各组成部分的参数，实现一次模型训练。

以上为使用已标注文档集中的某一个已标注文档训练模型的过程。通过使用大量的已标注文档训练模型后，可得到能够得到具备优秀的信息抽取性能的信息抽取模型。

本申请的上述实施例提供的方法，通过已标注文档集对包含编码器、图卷积网络和实体检测网络的信息抽取模型进行训练，从而利用信息提取模型对文档进行信息抽取，能够实现自动信息抽取，不需要人工设定抽取规则，大大降低了人力成本。同时，由于信息抽取模型中包括编码器和图卷积网络，可使模型学习过程中充分利用文本信息以及和文本框在文档中的布局、字体等视觉信息，提高了模型学习过程对文档中的信息的利用率，由此，使用此信息抽取模型，可提高信息抽取结果的准确性。

进一步参考图4，其示出了信息抽取模型训练方法的又一个实施例的流程图。

该信息抽取模型训练方法的流程，包括以下步骤：：

步骤401，基于预训练语言模型的参数，对编码器进行初始化。

在本实施例中，信息抽取模型训练方法的执行主体(如服务器等电子设备)可以部署有预先构建的未训练的编码器。上述执行主体可以基于预训练语言模型的参数，对编码器进行初始化，使之具有预训练语言模型的参数。

在一些示例中，可采用BERT模型作为预训练语言模型。BERT模型不限于包含12层transformer结构的BERT-base模型以及包含24层transformer结构的BERT-large模型。在预训练阶段，BERT模型会使用两个无监督的训练任务，分别是MLM和NSP。其中，MLM任务会随机掩盖序列中的一些词，并让模型去学习来恢复这些掩盖掉的词。而NSP任务则是一个二分类任务，用来判定两句话是否一句出现在另一句的后面。通过MLM任务和NSP任务可使BERT模型具备更好性能。由于BERT模型在各项自然语言处理任务中都表现得非常出色，因此可使用BERT模型作为预训练语言模型。

在另一些示例中，可采用改进的BERT模型作为预训练语言模型。改进的BERT模型可以包括但不限于RoBERTa等模型。改进的BERT模型在BERT模型的基础上进行了进一步优化，因此具备更好的性能，因而也可使用改进的BERT模型作为预训练语言模型。

步骤402，获取未标注文档。

在本实施例中，上述执行主体可以通过多种方式来获取未标注文档。例如，可以通过有线连接方式或无线连接方式，从用于存储样本的另一服务器(例如数据库服务器)中获取存储于其中的现有的未标注文档。再例如，可以在互联网中收集未标注样本。

未标注文档可以是未进行实体标注的数字化文档，如视觉信息丰富的PDF格式的文档，具体可包括但不限于简历文档、票据文档等。未标注文档中可包括文字信息，还可包括图片、字体、布局等视觉信息。

未标注文档中可以包括至少一个文本框。未标注文档中的文本框可使用开源工具(如PDF Miner工具)预先确定出。每个文本框中可包含文本。文本可以是各种语言的文本，如中文文本、英文文本等。此处对文本的语言类型不作限定。每个文本框中的文本不带有实体标注。未标注文档与已标注文档可以为同领域文档。

步骤403，根据未标注文档，训练编码器的参数。

在本实施例中，可利用未标注文档对预训练语言模型执行无监督训练任务。由于在信息抽取任务中，带有标注的文档的获取成本非常大，但是未标注的文档通常是非常丰富的，因此可以充分利用这些丰富的未标注文档来增强编码器的性能。相较于直接对编码器进行有监督训练，在有监督训练之前增加无监督训练的环节，可提高编码器输出的编码的准确性。

在本实施例的一些可选的实现方式中，在使用未标注文档对编码器训练时，可以对编码器执行BERT模型任务集中的MLM训练任务，以更新编码器的参数。

在本实施例的一些可选的实现方式中，还可构建SPRC(Sequences Positionalrelationship classification，序列位置关系分类)训练任务，通过对编码器执行该训练任务，可更新编码器的参数。具体可按照如下子步骤执行：

子步骤S21，选取未标注文档中的相邻文本框。

此处，相邻文本框可根据需要进行预先定义。作为示例，图5示出了未标注文档中的相邻文本框的示意图。此处的未标注文档具体可以是票据文档。如图5所示，若两文本框具有相同的左边界坐标和相同的右边界坐标，且这两个文本框之间不存在其他文本框，可认为二者为相邻文本框；或者，若两个文本框具有相同的上边界坐标和相同的下边界坐标，且这两个文本框之间不存在其他文本框，可认为二者为相邻文本框。

可选的，可以首先将未标注文档中的每两个文本框组成二元组。若二元组满足第一预设条件或第二预设条件，则可以确定二元组中的两个文本框的邻接关系为相邻。若二元组不满足第一预设条件且不满足第二预设条件，则确定两个文本框的邻接关系为不相邻。其中，第一预设条件可以包括：两个文本框的上边界坐标相同且下边界坐标相同、两个文本框之间不存在其他文本框。第二预设条件可以包括：两个文本框的左边界坐标相同且右边界坐标相同、两文本框之间不存在其他文本框。

子步骤S22，通过编码器对相邻文本框进行编码，得到相邻文本框的文本信息。

此处，上述执行主体可以将相邻文本框中的文本同时输入至编码器，得到相邻文本框的文本信息。

在一些示例中，可将相邻文本框中的文本通过预设的分割符号(如[SEP])连接，得到连接文本。而后，在连接文本的首字符前添加预设的标志位符号(如[CLS])。之后，通过编码器对将添加有标志位符号的连接文本进行编码，获得与标志位符号的编码，该编码可作为相邻文本框的全局文本信息(可视为全局特征)，以及获得与连接文本中的其他项对应的局部文本信息(即其他项的编码)。上述执行主体可以使用全局文本信息作为相邻文本框的文本信息，执行如下子步骤S23。也可以将全局文本信息和局部文本信息汇总，作为相邻文本框的文本信息，并执行如下子步骤S23。

子步骤S23，基于相邻文本框的文本信息，通过预设的分类网络对相邻文本框的位置关系类型进行预测，得到预测结果。

此处，上述执行主体可以将相邻文本框的文本信息输入至预设的分类网络，通过该分类网络对相邻文本框的位置关系类型进行预测，得到预测结果。其中，分类网络可以各种能够实现多分类功能的网络，例如，可以是由一个或多个全连接层所构成的神经网络。位置关系类型可包括“左-右”、“右-左”、“上-下”和“下-上”。

可选的，也可将相邻文本框的全局文本信息(即标志位符号对应的编码)输入至预设的分类网络，得到上述相邻文本框的位置关系类型的预测结果，以减少数据计算量。

子步骤S24，基于预测结果和相邻文本框的实际位置关系类型，训练编码器的参数。

此处，每组相邻文本框的实际位置关系类型可预先存储。上述执行主体可以基于预测结果和相邻文本框的实际位置关系类型，确定出损失值。而后基于该损失值更新编码器的参数。

通过上述SPRC训练任务对编码器进行调参，可使编码器充分学习到未标注文档中的文本的上下文关系，能够对大量的未标注文档进行充分利用，提升了编码器对文本编码的准确性。

在本实施例的一些可选的实现方式中，还可以既对预训练语言模型执行上述MLM训练任务，又对其执行上述SPRC训练任务，得到编码器。此外，还可以根据需要使用其他训练方式对预训练语言模型进行再训练，不限于上述列举。

需要说明的是，上述执行主体可使用多个未标注文档迭代执行训练编码器的参数的步骤。在编码器的性能达到预期指标或者训练次数达到预设次数后，即可认为训练结束。

步骤404，获取已标注文档。

在本实施例中，已标注文档中可包括至少一个文本框，每个文本框中的文本可带有实体标注。已标注文档集中的已标注文档与未标注文档集中的未标注文档为同领域文档。例如，可均为票据文档或者均为简历文档等。

本实施例中的步骤404可参见图2对应实施例的步骤201，此处不再赘述。

步骤405，通过信息抽取模型的编码器对每个文本框进行编码，获得每个文本框中的文本信息，以及获得已标注文档的图结构信息。

本实施例中的步骤405可参见图2对应实施例的步骤202，此处不再赘述。

步骤406，通过信息抽取模型的图卷积网络对图结构信息进行处理，获得已标注文档的布局信息。

本实施例中的步骤406可参见图2对应实施例的步骤203，此处不再赘述。

步骤407，通过信息抽取模型的实体抽取网络根据文本信息以及布局信息，对每个文本框中的文本进行实体抽取。

本实施例中的步骤407可参见图2对应实施例的步骤204，此处不再赘述。

步骤408，根据实体抽取的结果与实体标注，训练信息抽取模型的参数。

本实施例中的步骤408可参见图2对应实施例的步骤205，此处不再赘述。

从图4中可以看出，与图2对应的实施例相比，本实施例中的信息抽取模型训练方法的流程突出了在使用已标注文档训练信息抽取模型前，使用未标注文档集对编码器进行训练的步骤。由此，本实施例描述的方案可以充分利用这些丰富的未标注文档来增强编码器的性能，相较于直接对编码器进行有监督训练，可提高编码器输出的编码的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

继续参考图6，示出了本申请的信息抽取方法的一个实施例的流程图。该信息抽取方法的流程，包括以下步骤：

步骤601，获取目标文档。

在本实施例中，信息抽取方法的执行主体(如服务器等电子设备)可以获取待进行信息抽取的目标文档，如简历文档、票据文档等。目标文档可包括至少一个文本框，每个文本框中包含文本。实践中，可通过开源工具(如PDF Miner工具)确定出目标文档中的文本框。

步骤602，通过预先训练的信息抽取模型的编码器对目标文档中的每个文本框进行编码，获得每个文本框中的文本信息，以及获得目标文档的图结构信息。

在本实施例中，上述执行主体可以将每个文本框中的文本输入至预先训练的信息抽取模型中的编码器，得到每个文本框中的文本信息。此外，也可以获得标文档的图结构信息。此处，信息抽取模型可以是采用如上述各实施例所描述的方法而训练得到的。具体训练过程可以参见上述实施例的相关描述，此处不再赘述。获得目标文本的文本信息和图结构信息的步骤，与上述实施例中获得已标注文本的文本信息和图结构信息的步骤基本相同，此处不再赘述。

步骤603，通过信息抽取模型的图卷积网络对图结构信息进行处理，获得目标文档的布局信息。

在本实施例中，上述执行主体可以将图结构信息输入至信息抽取模型的图卷积网络，得到目标文档的布局信息。图卷积网络以及获得目标文档的布局信息的步骤，可参见上述实施例中的描述，在此不再赘述。

步骤604，通过信息抽取模型的实体抽取网络根据文本信息以及布局信息，对每个文本框中的文本进行实体抽取。

在本实施例中，上述执行主体可以分别将每个文本框的布局信息和该文本信息拼接后输入至信息抽取模型中的实体检测网络，实体检测网络可输出每个文本框中的各个词的类型，如实体开始、实体中间、不是实体。上述执行主体可基于信息抽取模型的输出结果，确定每个文本框中的实体。实体检测网络以及实体抽取的操作可参见上述实施例中的描述，在此不再赘述。

步骤605，对所抽取的实体进行汇总，得到目标信息。

在本实施例中，上述执行主体可以将实体进行汇总，得到目标文档中的目标信息。

本申请的上述实施例提供的方法，通过利用包含编码器、图卷积网络以及实体检测网络的信息提取模型对文档进行信息抽取，能够实现自动信息抽取，不需要人工设定抽取规则，大大降低了人力成本。同时，由于信息抽取模型中包括编码器和图卷积网络，可使模型学习过程中充分利用文本信息以及和文本框在文档中的布局、字体等视觉信息，提高了模型学习过程对文档中的信息的利用率，由此，使用此信息抽取模型，可提高信息抽取结果的准确性。

进一步参考图7，在上述实施例的基础上，本申请提供了一种信息抽取模型训练装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的信息抽取模型训练装置700包括：获取单元701，被配置成获取已标注文档，上述已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；编码单元702，被配置成通过信息抽取模型的编码器对上述每个文本框进行编码，获得上述每个文本框中的文本信息，以及获得上述已标注文档的图结构信息；处理单元703，被配置成通过上述信息抽取模型的图卷积网络对上述图结构信息进行处理，获得上述已标注文档的布局信息；抽取单元704，被配置成通过上述信息抽取模型的实体抽取网络根据上述文本信息以及上述布局信息，对上述每个文本框中的文本进行实体抽取；训练单元705，被配置成根据上述实体抽取的结果与上述实体标注，训练上述信息抽取模型的参数。

在本实施例的一些可选的实现方式中，上述编码单元702，进一步被配置成：获取上述每个文本框的字体信息；确定上述已标注文档中的文本框之间的邻接关系；基于上述字体信息和上述邻接关系，获得上述已标注文档的图结构信息。

在本实施例的一些可选的实现方式中，上述编码单元702，进一步被配置成：确定上述每个文本框中的文本的字体和字号；将上述每个文本框中的文本的字体和字号的组合作为一个字体类型，对不同的字体类型进行编码，得到上述每个文本框的字体信息。

在本实施例的一些可选的实现方式中，上述编码单元702，进一步被配置成：将上述已标注文档中的每两个文本框组成二元组；若上述二元组满足第一预设条件或第二预设条件，则确定上述二元组中的两个文本框的邻接关系为相邻；若上述二元组不满足上述第一预设条件且不满足上述第二预设条件，则确定上述两个文本框的邻接关系为不相邻；其中，上述第一预设条件包括：上述两个文本框的上边界坐标相同且下边界坐标相同、上述两个文本框之间不存在其他文本框；上述第二预设条件包括：上述两个文本框的左边界坐标相同且右边界坐标相同、上述两文本框之间不存在其他文本框。

在本实施例的一些可选的实现方式中，上述编码单元702，进一步被配置成：将上述每个文本框作为图结构的节点，分别将上述每个文本框的文本信息与字体信息进行拼接，获得每个节点的节点信息；基于上述邻接关系，确定节点之间的边的边信息；基于上述节点信息和上述边信息，获得上述已标注文档的图结构信息。

在本实施例的一些可选的实现方式中，上述每个文本框的文本信息包括全局文本信息和局部文本信息；以及，上述编码单元702，进一步被配置成：分别将上述每个文本框的全局文本信息与字体信息进行拼接，获得上述每个节点的节点信息。

在本实施例的一些可选的实现方式中，上述编码器通过如下步骤得到：基于预训练语言模型的参数，对上述编码器进行初始化；获取未标注文档，上述未标注文档包括至少一个文本框且每个文本框中的文本不带有实体标注，上述未标注文档与上述未标注文档为同领域文档；根据上述未标注文档，训练上述编码器的参数。

在本实施例的一些可选的实现方式中，上述预训练语言模型包括以下任一项：基于变换器的双向编码器表示BERT模型、改进的BERT模型。

在本实施例的一些可选的实现方式中，上述根据上述未标注文档，训练上述编码器的参数，包括：利用上述未标注文档，对上述预训练语言模型执行BERT模型任务集中的语言模型掩码训练任务，得到编码器。

在本实施例的一些可选的实现方式中，上述根据上述未标注文档，训练上述编码器的参数，包括：选取上述未标注文档中的相邻文本框；通过上述编码器对上述相邻文本框进行编码，得到上述相邻文本框的文本信息；基于上述相邻文本框的文本信息，通过预设的分类网络对上述相邻文本框的位置关系类型进行预测，得到预测结果；基于上述预测结果和上述相邻文本框的实际位置关系类型，训练上述编码器的参数。

在本实施例的一些可选的实现方式中，上述相邻文本框的文本信息包括全局文本信息和局部文本信息；以及，上述通过上述编码器对上述相邻文本框进行编码，得到上述相邻文本框的文本信息，包括：将上述相邻文本框中的文本通过预设的分割符号连接，得到连接文本；在上述连接文本的首字符前添加预设的标志位符号；通过上述编码器对将添加有上述标志位符号的上述连接文本进行编码，获得与上述标志位符号对应的全局文本信息，以及获得与上述连接文本中的其他项对应的局部文本信息。

在本实施例的一些可选的实现方式中，上述基于上述相邻文本框的文本信息，通过预设的分类网络对上述相邻文本框的位置关系类型进行预测，得到预测结果，包括：将上述相邻文本框的全局文本信息输入至预设的分类网络，得到上述相邻文本框的位置关系类型的预测结果。

在本实施例的一些可选的实现方式中，上述文本信息包括全局文本信息和局部文本信息；以及，上述编码单元702，进一步被配置成：对上述每个文本框中的文本的首字符前添加预设的标志位符号；通过上述信息抽取模型的编码器对添加有上述标志位符号的每个文本进行编码，获得与上述每个文本中的标志位符号对应的全局文本信息，以及，获得与上述每个文本中的每个词对应的局部文本信息。

在本实施例的一些可选的实现方式中，上述抽取单元704，被配置成：对于每一个文本框，将该文本框的布局信息分别与该文本框中的每个词的局部文本信息进行拼接，得到该文本框中的每个词的综合信息；通过上述信息抽取模型的实体抽取网络根据上述综合信息，对该文本框中的文本进行实体抽取。

在本实施例的一些可选的实现方式中，上述已标注文档包括以下至少一项：票据文档、简历文档。

本申请的上述实施例提供的装置，通过已标注文档集对包含编码器、图卷积网络和实体检测网络的信息抽取模型进行训练，从而利用信息提取模型对文档进行信息抽取，能够实现自动信息抽取，不需要人工设定抽取规则，大大降低了人力成本。同时，由于信息抽取模型中包括编码器和图卷积网络，可使模型学习过程中充分利用文本信息以及和文本框在文档中的布局、字体等视觉信息，提高了模型学习过程对文档中的信息的利用率，由此，使用此信息抽取模型，可提高信息抽取结果的准确性。

进一步参考图8，在上述实施例的基础上，本申请提供了一种信息抽取装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的信息抽取装置800包括：获取单元801，被配置成获取目标文档，上述目标文档包括至少一个文本框；编码单元802，被配置成通过预先训练的信息抽取模型的编码器对上述目标文档中的每个文本框进行编码，获得上述每个文本框中的文本信息，以及获得上述目标文档的图结构信息；处理单元803，被配置成通过上述信息抽取模型的图卷积网络对上述图结构信息进行处理，获得上述目标文档的布局信息；抽取单元804，被配置成通过上述信息抽取模型的实体抽取网络根据上述文本信息以及上述布局信息，对上述每个文本框中的文本进行实体抽取；生成单元805，被配置成对所抽取的实体进行汇总，得到目标信息。

在本实施例的一些可选的实现方式中，上述目标文档包括以下至少一项：票据文档、简历文档。

本申请的上述实施例提供的装置，通过利用包含编码器、图卷积网络以及实体检测网络的信息提取模型对文档进行信息抽取，能够实现自动信息抽取，不需要人工设定抽取规则，大大降低了人力成本。同时，由于信息抽取模型中包括编码器和图卷积网络，可使模型学习过程中充分利用文本信息以及和文本框在文档中的布局、字体等视觉信息，提高了模型学习过程对文档中的信息的利用率，由此，使用此信息抽取模型，可提高信息抽取结果的准确性。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置900。

对于一个实施例，图9示出了示例性装置900，该装置具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的控制模块(芯片组)904、被耦合到控制模块904的存储器906、被耦合到控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到控制模块904的一个或多个输入/输出设备910，以及被耦合到控制模块904的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置900能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置900可包括具有指令914的一个或多个计算机可读介质(例如，存储器906或NVM/存储设备908)以及与该一个或多个计算机可读介质相合并被配置为执行指令914以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与控制模块904通信的任意适当的设备或组件提供任意适当的接口。

控制模块904可包括存储器控制器模块，以向存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器906可被用于例如为装置900加载和存储数据和/或指令914。对于一个实施例，存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令914。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备908可包括在物理上作为装置900被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910进行访问。

(一个或多个)输入/输出设备910可为装置900提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为装置900提供接口以通过一个或多个网络通信，装置900可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置900可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置900可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置900包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个信息或者操作与另一个信息或操作区分开来，而不一定要求或者暗示这些信息或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的信息抽取模型训练方法、信息抽取方法、装置和电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息抽取模型训练方法，其特征在于，所述方法包括：

获取已标注文档，所述已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；

通过信息抽取模型的编码器对所述每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述已标注文档的图结构信息；

通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述已标注文档的布局信息；

通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；

根据所述实体抽取的结果与所述实体标注，训练所述信息抽取模型的参数。

2.根据权利要求1所述方法，其特征在于，所述获得所述已标注文档的图结构信息，包括：

获取所述每个文本框的字体信息；

确定所述已标注文档中的文本框之间的邻接关系；

基于所述字体信息和所述邻接关系，获得所述已标注文档的图结构信息。

3.根据权利要求2所述方法，其特征在于，所述获取所述每个文本框的字体信息，包括：

确定所述每个文本框中的文本的字体和字号；

将所述每个文本框中的文本的字体和字号的组合作为一个字体类型，对不同的字体类型进行编码，得到所述每个文本框的字体信息。

4.根据权利要求2所述方法，其特征在于，所述确定所述已标注文档中的文本框之间的邻接关系，包括：

将所述已标注文档中的每两个文本框组成二元组；

若所述二元组满足第一预设条件或第二预设条件，则确定所述二元组中的两个文本框的邻接关系为相邻；

若所述二元组不满足所述第一预设条件且不满足所述第二预设条件，则确定所述两个文本框的邻接关系为不相邻；

其中，所述第一预设条件包括：所述两个文本框的上边界坐标相同且下边界坐标相同、所述两个文本框之间不存在其他文本框；

所述第二预设条件包括：所述两个文本框的左边界坐标相同且右边界坐标相同、所述两文本框之间不存在其他文本框。

5.根据权利要求2所述方法，其特征在于，所述基于所述字体信息和所述邻接关系，获得所述已标注文档的图结构信息，包括：

将所述每个文本框作为图结构的节点，分别将所述每个文本框的文本信息与字体信息进行拼接，获得每个节点的节点信息；

基于所述邻接关系，确定节点之间的边的边信息；

基于所述节点信息和所述边信息，获得所述已标注文档的图结构信息。

6.根据权利要求5所述方法，其特征在于，所述每个文本框的文本信息包括全局文本信息和局部文本信息；以及，

所述分别将所述每个文本框的文本信息与字体信息进行拼接，获得所述每个节点的节点信息，包括：

分别将所述每个文本框的全局文本信息与字体信息进行拼接，获得所述每个节点的节点信息。

7.根据权利要求1所述方法，其特征在于，所述编码器通过如下步骤得到：

基于预训练语言模型的参数，对所述编码器进行初始化；

获取未标注文档，所述未标注文档包括至少一个文本框且每个文本框中的文本不带有实体标注，所述未标注文档与所述未标注文档为同领域文档；

根据所述未标注文档，训练所述编码器的参数。

8.根据权利要求7所述方法，其特征在于，所述预训练语言模型包括以下任一项：基于变换器的双向编码器表示BERT模型、改进的BERT模型。

9.根据权利要求7所述方法，其特征在于，所述根据所述未标注文档，训练所述编码器的参数，包括：

利用所述未标注文档，对所述预训练语言模型执行BERT模型任务集中的语言模型掩码训练任务，得到编码器。

10.根据权利要求7所述方法，其特征在于，所述根据所述未标注文档，训练所述编码器的参数，包括：

选取所述未标注文档中的相邻文本框；

通过所述编码器对所述相邻文本框进行编码，得到所述相邻文本框的文本信息；

基于所述相邻文本框的文本信息，通过预设的分类网络对所述相邻文本框的位置关系类型进行预测，得到预测结果；

基于所述预测结果和所述相邻文本框的实际位置关系类型，训练所述编码器的参数。

11.根据权利要求10所述方法，其特征在于，所述相邻文本框的文本信息包括全局文本信息和局部文本信息；以及，

所述通过所述编码器对所述相邻文本框进行编码，得到所述相邻文本框的文本信息，包括：

将所述相邻文本框中的文本通过预设的分割符号连接，得到连接文本；

在所述连接文本的首字符前添加预设的标志位符号；

通过所述编码器对将添加有所述标志位符号的所述连接文本进行编码，获得与所述标志位符号对应的全局文本信息，以及获得与所述连接文本中的其他项对应的局部文本信息。

12.根据权利要求11所述的方法，其特征在于，所述基于所述相邻文本框的文本信息，通过预设的分类网络对所述相邻文本框的位置关系类型进行预测，得到预测结果，包括：

将所述相邻文本框的全局文本信息输入至预设的分类网络，得到所述相邻文本框的位置关系类型的预测结果。

13.根据权利要求1所述的方法，其特征在于，所述文本信息包括全局文本信息和局部文本信息；以及，

所述通过信息抽取模型的编码器对所述每个文本框进行编码，获得所述每个文本框中的文本信息，包括：

对所述每个文本框中的文本的首字符前添加预设的标志位符号；

通过所述信息抽取模型的编码器对添加有所述标志位符号的每个文本进行编码，获得与所述每个文本中的标志位符号对应的全局文本信息，以及，获得与所述每个文本中的每个词对应的局部文本信息。

14.根据权利要求13所述的方法，其特征在于，所述通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取，包括：

对于每一个文本框，将该文本框的布局信息分别与该文本框中的每个词的局部文本信息进行拼接，得到该文本框中的每个词的综合信息；通过所述信息抽取模型的实体抽取网络根据所述综合信息，对该文本框中的文本进行实体抽取。

15.根据权利要求1所述的方法，其特征在于，所述已标注文档包括以下至少一项：票据文档、简历文档。

16.一种信息抽取方法，其特征在于，所述方法包括：

获取目标文档，所述目标文档包括至少一个文本框；

通过预先训练的信息抽取模型的编码器对所述目标文档中的每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述目标文档的图结构信息；

通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述目标文档的布局信息；

对所抽取的实体进行汇总，得到目标信息。

17.根据权利要求16所述的方法，其特征在于，所述目标文档包括以下至少一项：票据文档、简历文档。

18.一种信息抽取模型训练装置，其特征在于，所述装置包括：

获取单元，被配置成获取已标注文档，所述已标注文档包括至少一个文本框，每个文本框中的文本带有实体标注；

编码单元，被配置成通过信息抽取模型的编码器对所述每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述已标注文档的图结构信息；

处理单元，被配置成通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述已标注文档的布局信息；

抽取单元，被配置成通过所述信息抽取模型的实体抽取网络根据所述文本信息以及所述布局信息，对所述每个文本框中的文本进行实体抽取；

训练单元，被配置成根据所述实体抽取的结果与所述实体标注，训练所述信息抽取模型的参数。

19.一种信息抽取装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标文档，所述目标文档包括至少一个文本框；

编码单元，被配置成通过预先训练的信息抽取模型的编码器对所述目标文档中的每个文本框进行编码，获得所述每个文本框中的文本信息，以及获得所述目标文档的图结构信息；

处理单元，被配置成通过所述信息抽取模型的图卷积网络对所述图结构信息进行处理，获得所述目标文档的布局信息；

生成单元，被配置成对所抽取的实体进行汇总，得到目标信息。

20.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-17中一个或多个所述的方法。

21.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-17中一个或多个所述的方法。