CN116152841A

CN116152841A - 文档实体及关系抽取方法、装置及存储介质

Info

Publication number: CN116152841A
Application number: CN202310425886.3A
Authority: CN
Inventors: 殷飞; 戴鹤森; 刘成林
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-05-23

Abstract

本申请提供一种文档实体及关系抽取方法、装置及存储介质，属于计算机视觉和自然语言处理技术领域，该方法包括：确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质，基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类，获得文档实体的布局关系、实体类别和实体间的语义关系，使得视觉富文档实体信息的提取更加全面和准确。

Description

文档实体及关系抽取方法、装置及存储介质

技术领域

本申请涉及计算机视觉和自然语言处理技术领域，尤其涉及一种文档实体及关系抽取方法、装置及存储介质。

背景技术

在现实中通常存在视觉信息丰富的文档，即视觉富文档，比如购物发票、订单、报表等。这类文档中的主要信息不仅由文档中各个实体本身的语义决定，还与实体间关系有关。文档中的视觉信息和文本间的布局关系为了表达文档中的实体及其关系信息，通常具有一定的规律。

针对文档的信息提取，现有技术大多只关注了实体级别的信息提取，例如，多数方法将文档实体信息提取视作一个序列标记问题，并且采用命名实体识别方法提取文档中的信息。在这些类方法中，通常通过光学字符识别引擎获取文档文本后，将文本序列化，然后使用分类模型将每个文本分类为预定义的类别之一。但是序列化对于某些依赖于布局特征的文档来说，存在文档实体信息提取不全面、不准确的技术问题。

发明内容

本申请实施例提供一种文档实体及关系抽取方法、装置及存储介质，用以解决现有技术中视觉富文档的及关系抽取不全面、不准确的技术问题。

第一方面，本申请实施例提供一种文档实体及关系抽取方法，包括：

确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；

基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。

在一些实施例中，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系，包括：

基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体的布局关系。

在一些实施例中，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系，包括：

通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征；

基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类，获得所述实体的类别信息，并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体之间的语义关系。

在一些实施例中，确定图结构的顶点的视觉特征，包括：

对所述文档的文档图像的像素进行归一化处理，得到灰度图像；

基于所述灰度图像确定所述文档的图像特征；

基于所述图像特征利用插值法确定图结构的顶点的视觉特征。

在一些实施例中，确定所述图结构的边的视觉特征，包括：

对任意两个实体的外接框的中心点连线周围进行插值，获得所述边的视觉特征。

在一些实施例中，所述方法还包括：

基于所述文档的序列化文本的语义特征利用多层感知机进行预测，获得所述文档中的实体；

将属于同一实体的序列化文本的语义特征进行平均池化，获得所述顶点的语义特征。

在一些实施例中，所述方法还包括：

基于预定义词表将所述文档的序列化文本进行分词和令牌化，获得令牌化的词；

基于所述令牌化的词确定所述序列化文本的语义特征。

第二方面，本申请实施例提供一种文档实体及关系抽取装置，包括：

第一确定模块，用于确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；

第二确定模块，用于基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。

第三方面，本申请实施例提供一种电子设备，包括存储器，收发机，处理器；

所述存储器用于存储计算机程序；所述收发机用于在所述处理器的控制下收发数据；所述处理器用于读取所述存储器中的计算机程序并执行如上所述第一方面所述的文档实体及关系抽取方法。

第四方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行如上所述第一方面所述的文档实体及关系抽取方法。

第五方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行如上所述第一方面所述的文档实体及关系抽取方法。

第六方面，本申请实施例还提供一种通信设备可读存储介质，所述通信设备可读存储介质存储有计算机程序，所述计算机程序用于使通信设备执行如上所述第一方面所述的文档实体及关系抽取方法。

第七方面，本申请实施例还提供一种芯片产品可读存储介质，所述芯片产品可读存储介质存储有计算机程序，所述计算机程序用于使芯片产品执行如上所述第一方面所述的文档实体及关系抽取方法。

本申请实施例提供的文档实体及关系抽取方法、装置及存储介质，通过构建文档实体的图结构，基于实体的视觉特征和实体间的边的视觉特征进行顶点分类和边分类，得到实体的布局关系、所述实体的类别信息和所述实体之间的语义关系，实现了文档实体中的布局信息和语义信息的提取，使得对文档实体信息的提取更加完整和准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文档实体及关系抽取方法的流程示意图；

图2是本申请实施例提供的一种文档实体及关系抽取方法的边视觉特征插值示意图；

图3是本申请实施例提供的一种文档实体及关系抽取方法的系统流程图；

图4是本申请实施例提供的一种文档实体及关系抽取装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

文档信息提取一般是指从文档中提取预定义的结构化信息，对视觉富文档的信息提取往往涉及计算机视觉及自然语言处理相关技术。而现有技术中对于视觉富文档的信息提取通常只关注实体信息提取，一方面，由于忽略了布局关系，其实体信息提取不准确。另一方面，由于无法利用和提取实体间的关系，需要后续模块或者模型进行额外的关系提取。

基于上述技术问题，本申请实施例提出一种文档实体及关系抽取方法，从文档图像中提取视觉信息，从文本中解析语义，结合视觉特征及语义特征来确定目标实体的类别及其关系，提高了对实体信息提取的准确性，并减小对模块或模型设计的复杂度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的文档实体及关系抽取方法的流程示意图，如图1所示，本申请实施例提供一种文档实体及关系抽取方法。该方法包括：

步骤101、确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边。

具体地，文档中的实体指由单个或多个词组成的文本组合，例如，在一张购物小票中，有“名称”、“单价”、“数量”等多个实体。确定文档中的实体后，构建以文档中的实体为顶点，以所述实体的外接框之间的连线为边的图结构，这里的边即代表了实体之间的关系，构建图结构的方式有多种，例如，通过视线内构图法构图，或者用全连接的方式进行构图，或者用K最近邻算法构图等。

对于构建的图结构，分别确定顶点的视觉特征（即实体的视觉特征）和边的视觉特征。

例如，录入待处理的文档图像，基于卷积神经网络提取文档图像的图像特征。通过光学字符识别（Optical Character Recognition，OCR）文档图像获得序列化的文档文本和文本外接框。然后利用预训练的神经网络模型获得序列化文本的语义特征，根据该文本的语义特征利用多层感知机预测相邻文本或词是否属于同一实体，从而确定出文档中的所有实体。将每一实体包含的所有文本的最小外接框进行合并，得到该实体的外接框。对文档的图像特征进行插值处理，然后基于实体的外接框得到实体的视觉特征。将任意两个实体的外接框的中心点连线周围进行插值，获得边的视觉特征。

所述文档可以通过多种方式录入，例如，通过拍摄获得文档图像，然后通过蓝牙或者有线传输的方式录入文档图像，或者通过存储硬件插入系统等方式录入文档图像。再例如，通过扫描文档的方式录入文档。

步骤102、基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。

具体地，待提取的文档实体信息主要包括文档中实体的布局关系、实体的类别信息以及实体之间的语义关系。

其中，实体的布局关系指示了空间上实体的位置关系，例如，哪些实体位于同一行或者同一列，或者哪些实体同属一个单元格等更为复杂的布局关系。这些布局关系可以利用图神经网络根据所应用的下游任务及标记进行提取。

实体的类别信息指对实体进行分类得到的结果，例如，在购物小票中，“柠檬茶”、“抽纸”、“订书机”是一类，均为商品名称；“2”、“1”、“1”是一类，均为商品数量；“10.00”、“30.00”、“25.00”是一类，均为商品价格。

实体之间的语义关系包括键值对关系、指示哪些实体描述的是同一物体的关系或者其他更为复杂的语义关系。

例如，对于物体“订书机”，有多个实体如“订书机”、 “1”、“25.00”在描述该物体，这些实体间有语义关系，通过二分类确定实体是否描述同一物体。

再例如，对于物体“订书机”，复杂的语义关系可以为（“订书机”，“个数”，“1”）、（“订书机”，“单价”，“25.00”）等，以（实体a，关系，实体b）的形式给出。

实体的布局关系是基于所述顶点的视觉特征和所述边的视觉特征确定的，实体的类别信息以及实体之间的语义关系是基于所述顶点的视觉特征和语义特征、以及所述边的视觉特征确定的。

例如，将顶点的视觉特征作为图结构的顶点特征，将边的视觉特征作为图结构的边特征，然后将该图结构输入图神经网络中，利用基于图神经网络的结构化预测算法进行节点分类和边分类，通过节点分类可以获得实体的类别信息，通过边分类可以获得实体的布局关系和实体间的语义关系。

本申请实施例提供的文档实体及关系抽取方法，基于文档中实体的视觉特征和边的视觉特征对图结构进行顶点分类和边分类，得到实体的布局关系、实体类别和实体间的语义关系，实现了对文档中的实体布局信息和视觉信息的提取，使得对文档实体信息的提取更加完整和准确。

具体地，将所述顶点的视觉特征作为图结构的顶点特征，将所述边的视觉特征作为图结构的边特征，利用图神经网络的结构化预测算法对所述图结构的边进行分类，获得哪些边连接了同一行的实体，得到实体的布局关系。

例如，采用视线内构图法构建初始图结构

，获取文档实体的视觉特征以作为图结构的顶点特征，获取边的视觉特征作为边特征。将该初始图/>

输入图神经网络中，使得顶点聚合邻居边特征和顶点特征，边聚合顶点特征和边特征，得到更好融合了实体的上下文信息的预测图/>

，然后基于/>

的顶点标签和边标签对边进行二分类，判断边是否连接同一行实体，若连接的是同一行实体则输出1，若不是则输出0，对输出结果进行整合从而获得实体的布局关系。

再例如，表1是部分购物小票示例，如表1所示，该购物小票中的实体包括:“牛奶”、“面包”、“柠檬水”、“2”、“1”、“1”、“5.00”、“6.00”、“15.00”、“10.00”、“6.00”、“15.00”、“总计”、“31.00”。

表1 部分购物小票

获得该购物小票的图结构的顶点特征为实体的视觉特征，边特征为边的视觉特征。基于该顶点特征和边特征利用图神经网络的结构化预测算法对所述图结构的边进行分类，得到实体“牛奶”、“2”、“5.00”、“10.00”位于同一行，“面包”、“1”、“6.00”、“6.00”位于同一行，“柠檬水”、“1”、“15.00”、“15.00”位于同一行，“总计”、“31.00”位于同一行，获得连接了同一行实体边，从而得到实体的布局关系。

本申请实施例提供的文档实体及关系抽取方法，使用基于图神经网络的结构化预测算法可以更好地挖掘上下文信息，不仅考虑了单个顶点局部的特征信息，还考虑了单个顶点与其周围附近的顶点、边之间的联合信息，能够实现更准确的边分类。在实际应用中录入的文档可能是倾斜的，通过上述布局关系的提取方法能够正确判断实体的布局关系，从而提高实体布局关系提取的准确性。

具体地，将实体的语义特征与实体的视觉特征进行拼接，作为图结构的顶点特征，将所述边的视觉特征作为图结构的边特征，利用图神经网络的结构化预测算法对所述图结构的顶点进行分类，获得实体的类别信息，对所述图结构的边进行分类，判断哪些实体是描述的同一物体，获得实体之间的语义关系。

例如，采用视线内构图法构建初始图结构

，获取文档实体的视觉特征和语义特征，将二者进行拼接以作为图结构的顶点特征，获取边的视觉特征作为边特征。将该初始图

，然后基于/>

的顶点标签和边标签对顶点和边进行二分类，判断实体的类别并判断哪些边连接的实体是描述的同一物体，对输出的分类结果进行整合从而获得实体的类别信息和实体间的语义关系。

再例如，如表1所示，获得该购物小票的图结构的顶点特征由实体的视觉特征和实体的语义特征拼接得到，边特征为边的视觉特征。基于该顶点特征和边特征利用图神经网络的结构化预测算法对所述图结构的顶点进行分类，得到实体“牛奶”、“面包”、“柠檬水”为一类，实体“2”、“1”、“1”为一类，实体“5.00”、“6.00”、“15.00”为一类，实体“10.00”、“6.00”、“15.00”为一类，“总计”为一类，“31.00”为一类，将分类结果整合得到实体的类别信息；对所述图结构的边进行分类，得到实体“牛奶”、“2”、“5.00”、“10.00”具有语义关系，“面包”、“1”、“6.00”、“6.00”具有语义关系，“柠檬水”、“1”、“15.00”、“15.00”具有语义关系，“总计”和“31.00”具有语义关系，整合边分类结果得到实体间的语义关系。本例中，包含多个价格实体时，当确定价格的主体后，才能确定价格具体对应的实际意义，如价格“10.00”描述的是名称为“牛奶”的购物项，仅命名实体“10.00”无法得到有价值的信息。

本申请实施例提供的文档实体及关系抽取方法，使用基于图神经网络的结构化预测算法可以更好地挖掘上下文信息，不仅考虑了单个顶点局部的特征信息，还考虑了单个顶点与其周围附近的顶点、边之间的联合信息，能够实现更准确的顶点分类及边分类，从而提高实体类别信息和实体间语义关系提取的准确性。

在一些实施例中，确定图结构的顶点的视觉特征，包括：

基于所述灰度图像确定所述文档的图像特征；

具体地，要获取顶点的视觉特征首先要获取文档的图像特征，对文档的图像进行预处理，进行归一化处理得到像素转换后的灰度图像，然后基于该灰度图像利用卷积神经网络提取文档的图像特征。根据实体的外接框对文档的图像特征进行插值得到实体的视觉特征，即确定图结构的顶点的视觉特征。

例如，对文档图像进行预处理，假设该文档图像中某个坐标为

的像素点的RGB灰度值为/>

，其中，/>

表示所述像素点的颜色，/>

的取值范围为0至255。对文档图像进行归一化处理，使文档图像变换为灰度图像，则变换后该像素点的灰度值为/>

，然后基于卷积神经网络对处理后的文档图像提取其图像特征，根据实体的外接框对文档的图像特征进行插值得到顶点的视觉特征。

本申请实施例提供的文档实体及关系抽取方法，通过对文档图像进行归一化处理，能够更好地提取文档的图像特征，从而基于该图像特征确定顶点的视觉特征，提高了获得顶点的视觉特征的准确性，从而提高文档实体及关系抽取的准确性。

在一些实施例中，确定所述图结构的边的视觉特征，包括：

具体地，对于每条边，在对应两个顶点的外接框中心点连线周围插值，得到图的每条边的视觉特征。

例如，图2是本申请实施例提供的一种文档实体及关系抽取方法的边视觉特征插值示意图，如图2所示，虚线网格代表特征图，两个实线矩形框代表顶点对应的外接框，外接框之间的点代表在顶点外接框中心点连线周围进行的插值处理，得到固定大小的特征图，即边的视觉特征。

本申请实施例提供的文档实体及关系抽取方法，通过在实体外接框中心连线的周围进行插值确定边的视觉特征，使获得更为准确的边的视觉特征，从而提高文档实体及关系抽取的准确性。

在一些实施例中，所述方法还包括：

具体地，根据文档中文本的位置从上至下、从左至右对文本进行排序，得到序列化文本。基于序列化文本的语义特征利用多层感知机（Multilayer Perceptron，MLP）预测相邻文本是否属同一实体，从而确定出文档中的所有实体。对于属于同一实体的文本，对文本的语义特征进行平均池化（Average Pooling），得到各个实体的语义特征，即顶点的语义特征。

例如，对于序列化文本：“Lemon Tea 1 5.00 5.00 Bread 2 8.00 16.00 Total21.00”，利用多层感知机进行实体预测，得到实体“Lemon Tea”、“1”、“5.00”、“5.00”、“Bread”、“2”、“8.00”、“16.00”、“Total”、“21.00”。然后对已获得的该序列化文本的语义特征进行平均池化，即将文本“Lemon”的语义特征和文本“Tea”的语义特征平均池化，得到实体“Lemon Tea”的语义特征；同样地，获取其他各个实体的语义特征。同时，对于文档图像采用视线内构图法构图，图结构的顶点为各实体，故实体的语义特征即所述顶点的语义特征。

本申请实施例提供的文档实体及关系抽取方法，基于多层感知机预测序列文本中的实体，然后对序列文本的语义特征进行平均池化从而获得各文本的语义特征，能够准确预测文档文本中的实体，并获得更为准确的实体的语义特征，从而实现实体之间的语义关系的提取，并提高该语义关系提取的准确性。

在一些实施例中，所述方法还包括：

基于所述令牌化的词确定所述序列化文本的语义特征。

具体地，在获取文档的序列化文本后，根据预定义词表进行分词和令牌化（Tokenization），得到令牌化的词，然后将令牌化的词输入预训练模型中得到文本的语义特征，该预训练模型可以选择语言表示模型BERT。

本申请实施例提供的文档实体及关系抽取方法，通过构建文档实体的图结构，基于实体的视觉特征和实体间的边的视觉特征进行顶点分类和边分类，得到实体的布局关系、所述实体的类别信息和所述实体之间的语义关系，实现了文档实体中的布局信息和语义信息的提取，使得对文档实体信息的提取更加完整和准确。

下面通过具体示例对上述各实施例提供的文档实体及关系抽取方法进一步说明：

图3是本申请实施例提供的一种文档实体及关系抽取方法的系统流程图，如图3所示，基于实体的视觉特征和实体之间的边的视觉特征获取文档实体的布局关系、实体类别以及实体间的语义关系的具体步骤如下：

步骤1：获取文档图像、文档文本和文本外接框。

具体地，将待处理的文档录入系统中，获得文档图像，并经过光学字符识别（Optical Character Recognition，OCR）获得文档文本和文本外接框。其中，具体的录入方式可以通过拍摄得到文档图像，然后通过蓝牙或者有线传输的方式录入文档图像，或者通过存储硬件插入系统等方式录入文档图像；也可以通过扫描文档的方式录入文档。

步骤2：提取所述文档图像的特征。具体包括步骤2.1和步骤2.2：

步骤2.1：对文档图像进行预处理，假设该文档图像中某个坐标为

的像素点的RGB灰度值为/>

，其中，/>

表示所述像素点的颜色，/>

的取值范围为0至255。对文档图像进行归一化处理，使文档图像变换为灰度图像，则变换后该像素点的灰度值的表达式为：

其中，

表示变换后的像素点的灰度值；/>

表示所述文档图像中的像素点的灰度值；/>

函数表示取均值函数，/>

取值分别对应{0.485，0.456，0.406}；/>

函数表示取标准差函数，/>

取值分别对应{0.229，0.224，0.225}。

步骤2.2：基于卷积神经网络提取文档的图像特征。

步骤3：将文档文本输入至预训练语言的神经网络模型，提取文本的语义特征，具体包括步骤3.1至3.3：

步骤3.1：将所述文档文本序列化，根据文本位置从上到下，从左到右进行排序，获得序列化文本。

步骤3.2：将获得的序列化文本根据预定义词表进行分词、令牌化，获得令牌化的词。

步骤3.3：将该令牌化的词输入至预训练语言的神经网络模型，获得文本的语义特征。

步骤4：使用步骤3得到的文本的语义特征来预测实体，然后获取实体的语义特征、实体的外接框和视觉特征，具体包括步骤4.1至4.4：

步骤4.1：基于文本的语义特征利用多层感知机预测相邻文本是否属同一实体，从而确定文档的实体。

步骤4.2：对于属于同一实体的文本，将步骤3得到的文本的语义特征进行平均池化，得到各个实体的语义特征。

步骤4.3：将包含属于同一实体的所有词的最小外接框作为该实体的外接框。

步骤4.4：根据实体的外接框，在步骤2得到的文档的图像特征上通过插值的方法得到实体的视觉特征。

步骤5：基于实体的外接框进行构图，并进行布局关系分类，具体包括步骤5.1至5.3。

步骤5.1：根据各实体外接框的位置关系，采用视线内构图法构建图结构，所述视线内构图法构建的是一个视线（Line-of-Sight，LOS）图，其很好地捕捉了文档实体的视觉结构，该图结构以文档实体为顶点，以实体之间的连线为边，该图结构可以表示为

，其中，/>

代表图的边集合，/>

代表图的顶点集合。需要说明的是，这里的构图方法可以根据实际应用中的具体需求灵活选择，除了视线内构图法，还可以用K最近邻算法或者全连接等方式构图。

步骤5.2：将步骤4中获得的实体的视觉特征作为图结构的顶点特征。如图2所示，对于每条边，在对应两个顶点的外接框中心点连线周围插值，得到图的每条边的视觉特征，边的视觉特征即图结构的边特征。

步骤5.3：将上述图结构

作为一个初始图输入至图神经网络中，使用基于图神经网络的结构化预测算法得到最终的预测图/>

，预测图/>

更好地融合了文档实体的上下文信息，/>

的表达式如下：

其中，

表示预测图顶点及边的标签概率最大的预测图；argmax()函数用于计算使/>

取最大值时/>

的取值；/>

表示预测图；/>

表示初始图/>

的顶点特征；/>

代表初始图/>

的边特征；/>

表示系统权重；/>

代表/>

的边集合；/>

代表/>

的顶点集合。/>

表示概率函数，/>

表示预测图顶点及边的标签概率，该概率由图神经网络输出的顶点特征和边特征映射得到，/>

的计算式如下：

其中，

表示图神经网络的第/>

层顶点/>

的特征；/>

表示图神经网络的第/>

层边特征；图神经网络的第/>

层消息传递特征为/>

，其表达式如下：

其中，

，/>

表示图/>

中的某一顶点，/>

表示顶点/>

的邻居顶点，/>

表示顶点/>

的邻居边；/>

表示图/>

的第/>

层顶点/>

的邻居顶点/>

的特征；/>

表示消息特征提取函数，用以提取每对顶点和边的特征。图神经网络的第/>

层顶点特征/>

聚合了邻居边特征和第/>

层顶点特征，/>

的表达式如下：

其中，

表示消息聚合函数，用以聚合邻居消息特征；/>

表示特征聚合函数，用以融合顶点和邻居消息特征。图神经网络的第/>

层边特征/>

聚合了第/>

层顶点特征和第/>

层边特征，/>

的表达式如下：

其中，

表示特征聚合函数，用以融合顶点和边特征。根据图神经网络输出的预测图/>

的顶点标签及边标签，对边进行二分类，得到文档实体的布局关系。

步骤6：利用步骤5.1中的图结构

进行实体识别和实体间语义关系的分类，具体包括步骤6.1和步骤6.2：

步骤6.1：将步骤4中获得的实体的语义特征与实体的视觉特征进行拼接，作为图结构

的顶点特征，将步骤5中获得的边的视觉特征作为图结构的边特征。

步骤6.2：将上述图结构

作为一个初始图输入至图神经网络中，使得顶点聚合邻居边特征和顶点特征，边聚合顶点特征和边特征，然后对顶点进行二分类得到实体类别，对边进行二分类得到实体间的语义关系。需要说明的是，除了顶点特征与步骤5.3的顶点特征有区别外，这里基于图神经网络进行顶点和边分类的过程与步骤5.3基本一致。

步骤7：对步骤5和步骤6输出的分类结果进行整合，得到最终结果。

图4是本申请实施例提供的一种文档实体及关系抽取装置的结构示意图，如图4所示，本申请实施例提供一种文档实体及关系抽取装置，包括第一确定模块401和第二确定模块402。

所述第一确定模块401用于确定图结构的顶点的视觉特征和所述图结构的边的视觉特征；所述图结构以文档中的实体为顶点，以所述实体的外接框之间的连线为边；

所述第二确定模块402用于基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息；所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。

在一些实施例中，所述第二确定模块包括：

第一分类单元，用于基于所述顶点的视觉特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体的布局关系。

在一些实施例中，所述第二确定模块还包括：

拼接单元，用于通过将所述顶点的视觉特征和所述顶点的语义特征进行拼接获得所述图结构的顶点特征；

第二分类单元，用于基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类，获得所述实体的类别信息，并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类，获得所述实体之间的语义关系。

在一些实施例中，所述第一确定模块包括：

第一获取单元，用于对所述文档的文档图像的像素进行归一化处理，得到灰度图像；

第一确定单元，用于基于所述灰度图像确定所述文档的图像特征；

第二确定单元，用于基于所述图像特征利用插值法确定图结构的顶点的视觉特征。

在一些实施例中所述第一确定模块还包括：

第二获取单元，用于对任意两个实体的外接框的中心点连线周围进行插值，获得所述边的视觉特征。

在一些实施例中，还包括：

第一获取模块，用于基于所述文档的序列化文本的语义特征利用多层感知机进行预测，获得所述文档中的实体；

第二获取模块，用于将属于同一实体的序列化文本的语义特征进行平均池化，获得所述顶点的语义特征。

在一些实施例中，还包括：

第三获取模块，用于基于预定义词表将所述文档的序列化文本进行分词和令牌化，获得令牌化的词；

第三确定模块，用于基于所述令牌化的词确定所述序列化文本的语义特征。

具体地，本申请实施例提供的上述文档实体及关系抽取装置，能够实现上述文档实体及关系抽取方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是，本申请上述各实施例中对单元/模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

图5是本申请实施例提供的一种电子设备的结构示意图，如图5所示，所述电子设备包括存储器520，收发机500，处理器510，其中：

存储器520，用于存储计算机程序；收发机500，用于在所述处理器510的控制下收发数据；处理器510，用于读取所述存储器520中的计算机程序并执行上述的文档实体及关系抽取方法，所述方法包括：

在一些实施例中，确定图结构的顶点的视觉特征，包括：

基于所述灰度图像确定所述文档的图像特征；

在一些实施例中，确定所述图结构的边的视觉特征，包括：

在一些实施例中，所述方法还包括：

基于所述令牌化的词确定所述序列化文本的语义特征。

具体地，收发机500，用于在处理器510的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器510代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机500可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器510负责管理总线架构和通常的处理，存储器520可以存储处理器510在执行操作时所使用的数据。

处理器510可以是中央处理器（Central Processing Unit，CPU）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD），处理器也可以采用多核架构。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

在一些实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例提供的文档实体及关系抽取方法。

具体地，本申请实施例提供的上述计算机程序产品，能够实现上述各方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

在一些实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行上述各方法实施例提供的文档实体及关系抽取方法。

具体地，本申请实施例提供的上述计算机可读存储介质，能够实现上述各方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是：所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（MO）等）、光学存储器（例如CD、DVD、BD、HVD等）、以及半导体存储器（例如ROM、EPROM、EEPROM、非易失性存储器（NAND FLASH）、固态硬盘（SSD））等。

另外需要说明的是：本申请实施例中术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

本申请实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

本申请中的“基于A确定B”表示确定B时要考虑A这个因素。并不限于“只基于A就可以确定出B”，还应包括：“基于A和C确定B”、“基于A、C和E确定B”、基于“A确定C，基于C进一步确定B”等。另外还可以包括将A作为确定B的条件，例如，“当A满足第一条件时，使用第一方法确定B”；再例如，“当A满足第二条件时，确定B”等；再例如，“当A满足第三条件时，基于第一参数确定B”等。当然也可以是将A作为确定B的因素的条件，例如，“当A满足第一条件时，使用第一方法确定C，并进一步基于C确定B”等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文档实体及关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的布局关系，包括：

3.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，基于所述顶点的视觉特征和所述边的视觉特征确定所述实体的类别信息和所述实体之间的语义关系，包括：

4.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，确定图结构的顶点的视觉特征，包括：

基于所述灰度图像确定所述文档的图像特征；

5.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，确定所述图结构的边的视觉特征，包括：

6.根据权利要求1所述的文档实体及关系抽取方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的文档实体及关系抽取方法，其特征在于，所述方法还包括：

基于所述令牌化的词确定所述序列化文本的语义特征。

8.一种文档实体及关系抽取装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器，收发机，处理器；

所述存储器用于存储计算机程序；所述收发机用于在所述处理器的控制下收发数据；所述处理器用于读取所述存储器中的计算机程序并执行权利要求1至7中的任一项所述的文档实体及关系抽取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1至7中的任一项所述的文档实体及关系抽取方法。