CN117496542A

CN117496542A - 文档信息提取方法、装置、电子设备和存储介质

Info

Publication number: CN117496542A
Application number: CN202311841819.6A
Authority: CN
Inventors: 陈奕名; 徐淳波; 林金曙; 陈华华
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-02
Anticipated expiration: 2043-12-29
Also published as: CN117496542B

Abstract

本发明提出一种文档信息提取方法、装置、电子设备和存储介质，涉及智能文档分析技术领域。该方法包括：获取待处理文档图像中各语义实体对应的编码特征向量；获取各语义实体构成的图结构对应的图结构向量；将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，根据分类结果获得待处理文档图像对应的结构化文档信息。通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类，实现将SER和RE任务的算法模型融合到一起，进而实现端到端的SER+RE任务，不需要依赖于SER任务的结果来完成RE任务，提高了文档信息提取效率。

Description

文档信息提取方法、装置、电子设备和存储介质

技术领域

本发明涉及智能文档分析技术领域，具体而言，涉及一种文档信息提取方法、装置、电子设备和存储介质。

背景技术

智能文档分析技术，指的是VRD(Visually Rich Documents，视觉信息丰富的文档)场景下的智能分析技术。具体地：将发票、问卷、材料清单等文档图像作为输入，利用智能文档分析技术，输出文档内容的结构化信息。

智能文档分析技术的整体流程如图1所示，针对语义实体识别模块（SemanticEntity Recognition，SER）、实体连接模块（Relation Extraction，RE），目前的主流做法是分为两个阶段进行，具体地：SER任务主要做的是区分每个语义实体的类别；RE任务主要做的是根据SER获得的语义实体类别，判断可能存在联系的语义实体之间的关系，例如某文档图像中的语义实体“姓名”由SER判断的类别为Question（问题），语义实体“张三”由SER判断的类别为Answer（答案），在RE任务中，就会去判断这种Question-Answer关系是否存在，反之，类似Question-Question肯定不存在关系，就不用进行判断。

现有VRD场景的智能文档分析中，由于SER和RE两个任务通常都是分开执行的，两个任务的算法主体都极为相似（基于Transformer Encoder的网络模型），执行效率低。并且，SER输出维度是1xN（即N个语义实体的类别结果），RE输出的维度是M1xM2（即SER判断出的N个语义实体，其中有M1个有效的起点语义实体与M2个有效的终点语义实体之间的相互关系）。如果把两个任务的算法模型（基于Transformer Encoder的网络模型）融合到一起，属于不规则输出的算法模型融合问题，是一件比较困难的事情。

发明内容

有鉴于此，本发明的目的在于提供一种文档信息提取方法、装置、电子设备和存储介质，以解决现有技术中两个不规则输出的算法模型融合困难，执行效率低的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种文档信息提取方法，所述方法包括：

获取待处理文档图像中各语义实体对应的编码特征向量；

获取各所述语义实体构成的图结构对应的图结构向量；所述图结构向量表征所述图结构中各所述语义实体之间有无关联关系；

将所述图结构向量和所述编码特征向量输入预训练的第一图神经网络，利用所述第一图神经网络对各所述语义实体和各所述语义实体之间的关联关系进行分类，得到各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果；

根据各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果获得所述待处理文档图像对应的结构化文档信息。

在可选的实施方式中，所述获取各所述语义实体构成的图结构对应的图结构向量，包括：

将从所述待处理文档图像中识别到的文本内容输入预训练语言模型，获得所述待处理文档图像中各所述语义实体对应的特征向量；

获取各所述语义实体构成的初始图结构对应的初始图结构向量；所述初始图结构向量表征所述初始图结构中任意两个语义实体之间有关联关系；

将各所述语义实体对应的特征向量和所述初始图结构向量输入预训练的第二图神经网络，利用所述第二图神经网络对各所述语义实体之间的关联关系进行分类，得到各所述语义实体之间的关联关系的第二分类结果；

根据各所述语义实体之间的关联关系的第二分类结果，在所述初始图结构中将实际不存在关联关系的两个语义实体之间的边删除，最终得到各所述语义实体构成的图结构以及所述图结构对应的图结构向量。

在可选的实施方式中，所述第一图神经网络包括图卷积层、第一分类层和第二分类层，所述将所述图结构向量和所述编码特征向量输入预训练的第一图神经网络，利用所述第一图神经网络对各所述语义实体和各所述语义实体之间的关联关系进行分类，得到各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果，包括：

将所述图结构向量和所述编码特征向量输入所述图卷积层进行图卷积运算，得到各所述语义实体对应的更新特征向量；

将所述更新特征向量输入所述第一分类层，得到各所述语义实体的分类结果；

将所述图结构向量和所述更新特征向量输入所述第二分类层，得到各所述语义实体之间的关联关系的第一分类结果；其中，所述第二分类层仅对所述图结构向量中表征有关联关系的两个语义实体进行判断。

在可选的实施方式中，所述获取待处理文档图像中各语义实体对应的编码特征向量，包括：

获取待处理文档图像中各语义实体对应的向量表示；所述向量表示根据每个所述语义实体对应的语义特征向量和位置特征向量获得；

将各所述语义实体对应的向量表示输入预训练的编码器模块进行编码处理，得到每个所述语义实体对应的编码特征向量。

在可选的实施方式中，所述获取待处理文档图像中各语义实体对应的向量表示，包括：

获取待处理文档图像中的每个语义实体对应的语义特征向量和位置特征向量；

将每个所述语义实体对应的语义特征向量和位置特征向量相加，得到每个所述语义实体对应的向量表示。

第二方面，本发明提供一种文档信息提取装置，所述装置包括：

编码模块，用于获取待处理文档图像中各语义实体对应的编码特征向量；

图构建模块，用于获取各所述语义实体构成的图结构对应的图结构向量；所述图结构向量表征所述图结构中各所述语义实体之间有无关联关系；

分类模块，用于将所述图结构向量和所述编码特征向量输入预训练的第一图神经网络，利用所述第一图神经网络对各所述语义实体和各所述语义实体之间的关联关系进行分类，得到各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果；

提取模块，用于根据各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果获得所述待处理文档图像对应的结构化文档信息。

在可选的实施方式中，所述图构建模块用于将从所述待处理文档图像中识别到的文本内容输入预训练语言模型，获得所述待处理文档图像中各所述语义实体对应的特征向量；获取各所述语义实体构成的初始图结构对应的初始图结构向量；所述初始图结构向量表征所述初始图结构中任意两个语义实体之间有关联关系；将各所述语义实体对应的特征向量和所述初始图结构向量输入预训练的第二图神经网络，利用所述第二图神经网络对各所述语义实体之间的关联关系进行分类，得到各所述语义实体之间的关联关系的第二分类结果；根据各所述语义实体之间的关联关系的第二分类结果，在所述初始图结构中将实际不存在关联关系的两个语义实体之间的边删除，最终得到各所述语义实体构成的图结构以及所述图结构对应的图结构向量。

在可选的实施方式中，所述第一图神经网络包括图卷积层、第一分类层和第二分类层，所述分类模块用于将所述图结构向量和所述编码特征向量输入所述图卷积层进行图卷积运算，得到各所述语义实体对应的更新特征向量；将所述更新特征向量输入所述第一分类层，得到各所述语义实体的分类结果；将所述图结构向量和所述更新特征向量输入所述第二分类层，得到各所述语义实体之间的关联关系的第一分类结果；其中，所述第二分类层仅对所述图结构向量中表征有关联关系的两个语义实体进行判断。

第三方面，本发明提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如前述实施方式中任一项所述的文档信息提取方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的文档信息提取方法的步骤。

本发明实施例提供的文档信息提取方法、装置、电子设备和存储介质，该方法包括：获取待处理文档图像中各语义实体对应的编码特征向量；获取各语义实体构成的图结构对应的图结构向量；图结构向量表征图结构中各语义实体之间有无关联关系；将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，得到各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果；根据各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果获得待处理文档图像对应的结构化文档信息。通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类，实现将SER和RE任务的算法模型融合到一起，进而实现端到端的SER+RE任务，不需要依赖于SER任务的结果来完成RE任务，相比于现有技术中SER和RE两个任务分开执行的方式，提高了文档信息提取效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了现有的VRD场景下的智能文档分析技术的流程示意图；

图2示出了本发明实施例提供的文档信息提取方法的一种流程示意图；

图3示出了本发明实施例提供的文档信息提取方法的另一种流程示意图；

图4示出了第二神经网络的网络结构示意图；

图5示出了利用第二神经网络构建图结构的一种示例图；

图6示出了本发明实施例中的模型结构整体示例图；

图7示出了表格的连接示意图；

图8示出了本发明实施例提供的文档信息提取装置的一种功能模块图；

图9示出了本发明实施例提供的电子设备的一种方框示意图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；600-文档信息提取装置；610-编码模块；620-图构建模块；630-分类模块；640-提取模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

现有VRD场景的智能文档分析中，解决SER任务与RE任务较为先进的是layoutlmv3模型。这个模型主要是同时输入图片与文本信息（整张图像的OCR（Optical CharacterRecognition，光学字符识别）结果），通过transformer主干网络，以键值属性方式输出文本关系对，也称为键值对（问题-答案对，例如：日期-6月7日），达到输出文档/表单结构化信息的目的。

传统的SER任务算法模型结构为Transformer Encoder+全连接层1（1xN），用于判别语义实体类别；传统的RE任务算法模型结构为Transformer Encoder+全连接层2（M1xM2），用于判别语义实体之间有无关联关系。以这种方式来讲，全连接层2的结构依赖于全连接层1的结果，证明传统方式（layoutlm系列以及后续相关优化方法）难以融合。

由于SER任务和RE两个任务一直以来都是分为两个阶段执行的，而且两个任务的算法主体大致都极为相似（基于Transformer Encoder的网络模型），执行效率低。并且，SER输出维度是1xN（即N个语义实体的类别结果），RE输出的维度是M1xM2（即SER判断出的N个语义实体，其中有M1个有效的起点语义实体与M2个有效的终点语义实体之间的相互关系）。如果把两个任务的算法模型（基于Transformer Encoder的网络模型）融合到一起，属于不规则输出的算法模型融合问题，是一件比较困难的事情。

基于此，本发明实施例提出一种文档信息提取方法、装置、电子设备和存储介质，通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类，实现将SER和RE任务的算法模型融合到一起，进而实现端到端的SER+RE任务，不需要依赖于SER任务的结果来完成RE任务，提高了文档信息提取效率。

下面，将结合附图对本发明各实施例进行详细说明。

请参照图2，为本发明实施例所提供的文档信息提取方法的一种流程示意图。需要说明的是，本发明的文档信息提取方法并不以图2以及以下的具体顺序为限制。应当理解，在其它实施例中，本发明的文档信息提取方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该文档信息提取方法可应用于智能手机、平板电脑、PC（Personal Computer，个人计算机）等电子设备。下面将对图2所示的具体流程进行详细阐述。

步骤S401，获取待处理文档图像中各语义实体对应的编码特征向量。

在本实施例中，针对于待处理文档图像，可以通过图片校正、OCR检测与识别以及语义分割等处理获得待处理文档图像中的各语义实体，通过对各语义实体初始化生成的向量进行编码，可以得到对应的编码特征向量。可以理解，编码特征向量中会包含更多特征信息，更有助于完成任务。

步骤S402，获取各语义实体构成的图结构对应的图结构向量；图结构向量表征图结构中各语义实体之间有无关联关系。

在本实施例中，由于图结构可以完美融合不规则输入输出，故根据各语义实体构建的图结构中，每个图节点表示语义实体，两个图节点之间有无图边表示对应的两个语义实体之间有无关联关系。这样，SER任务就变成了图节点分类任务，RE任务就变成了图边分类任务。

步骤S403，将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，得到各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果。

在本实施例中，通过将图结构向量和编码特征向量输入预训练的第一图神经网络，由第一图神经网络同时进行图节点分类与图边分类，最终同时解决SER与RE任务。例如，语义实体的分类结果可以是问题、答案等；语义实体之间的关联关系的第一分类结果可以是有、无等。

需要说明的是，在进行图边分类任务时，针对于图结构向量中已经表示不存在关联关系的两个语义实体，则在第一图神经网络中无需再次进行关联关系的判别，即第一图神经网络中只需对图结构向量中表示存在关联关系的两个语义实体进行关联关系的进一步判断，这样不仅能够提高效率，还能提高准确率。

步骤S404，根据各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果获得待处理文档图像对应的结构化文档信息。

在本实施例中，在获得待处理文档图像中各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果后，可以很方便地输出待处理文档图像中文档内容的结构化信息，即上述的结构化文档信息。

可见，本发明实施例提供的文档信息提取方法，包括：获取待处理文档图像中各语义实体对应的编码特征向量；获取各语义实体构成的图结构对应的图结构向量；图结构向量表征图结构中各语义实体之间有无关联关系；将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，得到各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果；根据各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果获得待处理文档图像对应的结构化文档信息。通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类，实现将SER和RE任务的算法模型融合到一起，进而实现端到端的SER+RE任务，不需要依赖于SER任务的结果来完成RE任务，相比于现有技术中SER和RE两个任务分开执行的方式，提高了文档信息提取效率。

由于引入了第一图神经网络，如果构建的图结构中无效的边太多，则会增加第一图神经网络的处理压力，因此需要建立一个非全连接的图结构，即先排除一些确定无效的边。传统的构建图结构的方法均为启发式做法（基于规则），例如有β-骨架方法、K近邻方法、基于视觉可见的建图方法等。这些方法可以解决一些场景下的问题，但是随着场景的复杂，难以保证建图准确率。基于此，在本实施例中引入第二图神经网络，利用网络替代原有规则式建图方法，以保证建图时边的正负比例（比例均衡的话，后续任务的准确率也会大大提高）。请参照图3，上述步骤S402具体包括以下子步骤：

子步骤S4021，将从待处理文档图像中识别到的文本内容输入预训练语言模型，获得待处理文档图像中各语义实体对应的特征向量。

在本实施例中，预训练语言模型可以是bert模型。例如，使用bert模型提取512维度的语义特征+归一化后的位置特征（长、宽、中心点坐标（x、y）），从而得到各语义实体对应的特征向量。

子步骤S4022，获取各语义实体构成的初始图结构对应的初始图结构向量；初始图结构向量表征初始图结构中任意两个语义实体之间有关联关系。

在本实施例中，初始图结构是一个全连接的图结构，包括节点以及两两节点互相连接构成的边，每个节点表示语义实体，节点之间的边表示语义实体之间的关联关系，节点的特征为从bert模型中提取的对应语义实体的语义特征以及位置特征。

子步骤S4023，将各语义实体对应的特征向量和初始图结构向量输入预训练的第二图神经网络，利用第二图神经网络对各语义实体之间的关联关系进行分类，得到各语义实体之间的关联关系的第二分类结果。

在本实施例中，第二图神经网络的任务就是对初始图结构中每条边进行判别分类，初始图结构中，语义实体之间是两两互相连接的，通过第二图神经网络的处理，可以将完全没有关联关系的语义实体确定出来，从而便于排除初始图结构中无效的边（即没有关联关系的两个语义实体连接形成的边）。

在一种实施方式中，第二图神经网络可以采用图4的网络结构，其包括两层图卷积算子（ResGatedGCN）、两层图归一化层（GN）、两层激活函数（Relu）层以及全连接层。图卷积算子用于根据输入的各语义实体对应的特征向量和初始图结构向量进行图卷积运算，提取出更深层次的特征；图归一化层用于对输入的数据进行归一化处理，使得数据分布更加平稳，偏差不会太大；激活函数层用于对输入的数据进行非线性变换，通过引入更多非线性特征，有助于网络学习更复杂的特征；全连接层用于将输入特征映射到类别空间，以实现图边分类的任务。

子步骤S4024，根据各语义实体之间的关联关系的第二分类结果，在初始图结构中将实际不存在关联关系的两个语义实体之间的边删除，最终得到各语义实体构成的图结构以及图结构对应的图结构向量。

在本实施例中，通过第二图神经网络对初始图结构中的所有边进行分类，可以知道哪些边是确定无效的，然后在初始图结构中将无效的边删除。如图5所示，初始图结构经过第二图神经网络进行分类后，可以排除确定无效的边，更新得到的非全连接的图结构将用于第一图神经网络中进一步判断。

可以理解，本实施例中进行了两次图边的判别分类（即判断图结构中的边是否有效），首先是利用第二图神经网络对全连接的初始图结构中的所有边进行初步的判别，得到第二分类结果，基于第二分类结果将被判定为无效的边从初始图结构中删除后，得到一个非全连接的图结构；然后利用第二图神经网络对这个非全连接的图结构中的边进一步判别，得到第一分类结果。也即是说，第一分类结果和第二分类结果都是表示的语义实体之间有无关联关系，主要区别在于采用的图神经网络和针对的图结构不同，第二分类结果是第二图神经网络对全连接的初始图结构中的边进行判别得到的，第一分类结果是第一神经网络对非全连接的图结构中的边进行判别得到的。

在一种实施方式中，第一图神经网络包括图卷积层、第一分类层和第二分类层，上述步骤S403可以包括：将图结构向量和编码特征向量输入图卷积层进行图卷积运算，得到各语义实体对应的更新特征向量；将更新特征向量输入第一分类层，得到各语义实体的分类结果；将图结构向量和更新特征向量输入第二分类层，得到各语义实体之间的关联关系的第一分类结果；其中，第二分类层仅对图结构向量中表征有关联关系的两个语义实体进行判断。

可以理解，在将图结构向量和编码特征向量输入图卷积层进行图卷积运算后，各语义实体对应的编码特征向量会发生变化，为上述的更新特征向量，但是图结构向量没有发生变化。通过将各语义实体对应的更新特征向量输入第一分类层进行图节点分类，可以得到各语义实体的分类结果；通过将图结构向量和各语义实体对应的更新特征向量输入第二分类层进行图边分类，可以得到各语义实体之间的关联关系的第一分类结果。由于利用第二图神经网络得到的图结构中已经将无效的边删除，故第二分类层在进行图边分类时，对于那些已经被判别为无效的边无需再次判断，仅对被判别为有效的边（图结构向量中表征有关联关系的两个语义实体构成的边）做进一步判断。

在一种实施方式中，上述步骤S401具体可以包括：获取待处理文档图像中各语义实体对应的向量表示；向量表示根据每个语义实体对应的语义特征向量和位置特征向量获得；将各语义实体对应的向量表示输入预训练的编码器模块进行编码处理，得到每个语义实体对应的编码特征向量。

在本实施例中，预训练的编码器模块可以采用Transformer Encoder的结构，与现有的layoutlmv3模型相比，本实施例中抛弃了图像相关的输入，只需保留每个语义实体对应的语义特征向量和位置特征向量。通过编码器模块对输入的向量进行编码处理，将输入的向量转换为包含更多特征信息的向量，从而有助于完成任务。

在一种实施方式中，上述获取待处理文档图像中各语义实体对应的向量表示，具体可以包括：获取待处理文档图像中的每个语义实体对应的语义特征向量和位置特征向量；将每个语义实体对应的语义特征向量和位置特征向量相加，得到每个语义实体对应的向量表示。

在本实施例中，通过对待处理文档图像中的每个语义实体进行Word Embeding（词嵌入）处理，可以得出每个语义实体对应的语义特征向量；通过对每个语义实体进行1DPosition Embedding（一维位置嵌入）处理和2D Position Embedding（二维位置嵌入）处理，可以分别得到每个语义实体在输入序列中的位置信息（编号）对应的向量以及在整个待处理图像中的位置信息（坐标）对应的向量，通过将语义特征向量、一维位置特征向量和二维位置特征向量相加，即可得到每个语义实体对应的向量表示。

下面，结合图6的模型结构对本发明实施例的整体方案进行说明。在图6中，Transformer Encoder部分抛弃了图像相关的输入，只保留每个语义实体的语义特征向量f_semantic与位置特征向量f_layout的输入。经过Transformer Encoder编码处理后，输出具有实际物理意义的语义实体对应的编码特征向量，用于后续第一图神经网络的图卷积运算、图节点分类以及图边分类。同时，还提前利用第二图神经网络来构建图结构，把确定无效的边去除，从而减轻第一图神经网络的处理压力；这个压力的主要来源是合并SER与RE任务时，由于缺少SER结果作为先验，M1与M2数值实际上为N，而传统的M1与M2都是远远小于N的；因此在RE任务中，会产生非常多的负样本，而本实施例中利用第二图神经网络可以有效缓解这样的情况。在第一图神经网络中，在通过图卷积后，分成两个分支可以同时做图节点分类与图边的分类，最终同时解决SER任务与RE任务。

可以理解的是，上述第二图神经网络最主要的作用是利用网络替代原有规则式建图方法，以保证建图时边的正负比例（比例均衡的话，后续任务的准确率也会大大提高）。因此，尽管第二图神经网络不能保证完美判别边的正负，但是如果可以保证召回率尽可能100%的话，误召回边的数量也会相比其他方法大大降低。使用第二图神经网络可以更泛化与高效地建立图结构，并且准确率更高，结果如下表1所示。

表1

通过不同建图方法比较，真实边召回率越高越好，建立的假边越低越好。

此外，本方案模型可以对表格版面的场景有较好的兼容性，在传统方法中（例如：β-骨架方法，K近邻方法与基于视觉可见等方法），本质上都是临近的语义实体之间进行连接，在表格这种情况下表现不佳。因为实际上的情况是：表头需要与其所在的一整列表格单元之间全部连接，而非临近相连（如图7所示，实线箭头表示两个语义实体连接，虚线箭头表示两个语义实体不连接），而本实施例中基于深度学习的方法可以学习到表格这种特殊分布的情况。

通过对比本方案模型以及传统方法在SER任务与RE任务上的F1值（精确率和召回率的调和平均数），如表2所示，由于传统模型均不支持端到端的SER+RE任务，因此考虑到传统方法RE任务是基于SER任务的结果判断的，那么在RE任务准确率统计上直接乘以SER任务的准确率。

表2

综上，本发明实施例通过构建Transformer Encoder+GNN（第一图神经网络）的网络结构实现端到端SER+RE任务(即使有第二图神经网络，但是网络相比Transformer体积很小，可以忽略不计)。在较高准确率范围内，提高了整体SER+RE任务的执行效率（相当于用一个模型实现了SER+RE任务，替代原有两个模型分别实现SER与RE任务）。利用第二图神经网络建图方法替代传统启发式（基于规则）的建图方法，建图效率更高，并且可以在保证召回率的情况下，大幅度降低建图负样本数量，另外可以有效提高网络泛化性能。此外，对比现有的多模态大模型（如ChatGPT等，模型大小通常在70G-340G左右）；而本方案模型大小为1.2G左右，可以在CPU上运行，故仍然具有较高优势。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种文档信息提取装置的实现方式。请参照图8，为本发明实施例提供的文档信息提取装置600的一种功能模块图。需要说明的是，本实施例所提供的文档信息提取装置600，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该文档信息提取装置600包括：编码模块610、图构建模块620、分类模块630和提取模块640。

编码模块610，用于获取待处理文档图像中各语义实体对应的编码特征向量。

可以理解，该编码模块610可以执行上述步骤S401。

图构建模块620，用于获取各语义实体构成的图结构对应的图结构向量；图结构向量表征图结构中各语义实体之间有无关联关系。

可以理解，该图构建模块620可以执行上述步骤S402。

分类模块630，用于将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，得到各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果。

可以理解，该分类模块630可以执行上述步骤S403。

提取模块640，用于根据各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果获得待处理文档图像对应的结构化文档信息。

可以理解，该提取模块640可以执行上述步骤S404。

可选地，图构建模块620具体用于将从待处理文档图像中识别到的文本内容输入预训练语言模型，获得待处理文档图像中各语义实体对应的特征向量；获取各语义实体构成的初始图结构对应的初始图结构向量；初始图结构向量表征初始图结构中任意两个语义实体之间有关联关系；将各语义实体对应的特征向量和初始图结构向量输入预训练的第二图神经网络，利用第二图神经网络对各语义实体之间的关联关系进行分类，得到各语义实体之间的关联关系的第二分类结果；根据各语义实体之间的关联关系的第二分类结果，在初始图结构中将实际不存在关联关系的两个语义实体之间的边删除，最终得到各语义实体构成的图结构以及图结构对应的图结构向量。

可以理解，该图构建模块620具体可以执行上述子步骤S4021~子步骤S4024。

可选地，第一图神经网络包括图卷积层、第一分类层和第二分类层，分类模块630具体用于将图结构向量和编码特征向量输入图卷积层进行图卷积运算，得到各语义实体对应的更新特征向量；将更新特征向量输入第一分类层，得到各语义实体的分类结果；将图结构向量和更新特征向量输入第二分类层，得到各语义实体之间的关联关系的第一分类结果；其中，第二分类层仅对图结构向量中表征有关联关系的两个语义实体进行判断。

可选地，编码模块610具体用于获取待处理文档图像中各语义实体对应的向量表示；向量表示根据每个语义实体对应的语义特征向量和位置特征向量获得；将各语义实体对应的向量表示输入预训练的编码器模块进行编码处理，得到每个语义实体对应的编码特征向量。

其中，编码模块610还具体用于获取待处理文档图像中的每个语义实体对应的语义特征向量和位置特征向量；将每个语义实体对应的语义特征向量和位置特征向量相加，得到每个语义实体对应的向量表示。

可见，本发明实施例提供的文档信息提取装置，包括编码模块、图构建模块、分类模块和提取模块，编码模块用于获取待处理文档图像中各语义实体对应的编码特征向量；图构建模块用于获取各语义实体构成的图结构对应的图结构向量；图结构向量表征图结构中各语义实体之间有无关联关系；分类模块用于将图结构向量和编码特征向量输入预训练的第一图神经网络，利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类，得到各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果；提取模块用于根据各语义实体的分类结果和各语义实体之间的关联关系的第一分类结果获得待处理文档图像对应的结构化文档信息。通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类，实现将SER和RE任务的算法模型融合到一起，进而实现端到端的SER+RE任务，不需要依赖于SER任务的结果来完成RE任务，相比于现有技术中SER和RE两个任务分开执行的方式，提高了文档信息提取效率。

请参照图9，为本发明实施例提供的电子设备100的一种方框示意图。该电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。存储器110可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（ErasableProgrammable Read-Only Memory，EPROM），电可擦除只读存储器（Electric ErasableProgrammable Read-Only Memory，EEPROM）等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。例如，当存储器110中存储的计算机程序被处理器120执行时，可以实现上述各实施例所揭示的文档信息提取方法。

通信模块130用于通过网络建立电子设备100与其它设备之间的通信连接，并用于通过网络收发数据。

应当理解的是，图9所示的结构仅为电子设备100的结构示意图，电子设备100还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现上述各实施例所揭示的文档信息提取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档信息提取方法，其特征在于，所述方法包括：

获取待处理文档图像中各语义实体对应的编码特征向量；

2.根据权利要求1所述的文档信息提取方法，其特征在于，所述获取各所述语义实体构成的图结构对应的图结构向量，包括：

3.根据权利要求1所述的文档信息提取方法，其特征在于，所述第一图神经网络包括图卷积层、第一分类层和第二分类层，所述将所述图结构向量和所述编码特征向量输入预训练的第一图神经网络，利用所述第一图神经网络对各所述语义实体和各所述语义实体之间的关联关系进行分类，得到各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果，包括：

4.根据权利要求1所述的文档信息提取方法，其特征在于，所述获取待处理文档图像中各语义实体对应的编码特征向量，包括：

5.根据权利要求4所述的文档信息提取方法，其特征在于，所述获取待处理文档图像中各语义实体对应的向量表示，包括：

6.一种文档信息提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的文档信息提取装置，其特征在于，所述图构建模块用于将从所述待处理文档图像中识别到的文本内容输入预训练语言模型，获得所述待处理文档图像中各所述语义实体对应的特征向量；获取各所述语义实体构成的初始图结构对应的初始图结构向量；所述初始图结构向量表征所述初始图结构中任意两个语义实体之间有关联关系；将各所述语义实体对应的特征向量和所述初始图结构向量输入预训练的第二图神经网络，利用所述第二图神经网络对各所述语义实体之间的关联关系进行分类，得到各所述语义实体之间的关联关系的第二分类结果；根据各所述语义实体之间的关联关系的第二分类结果，在所述初始图结构中将实际不存在关联关系的两个语义实体之间的边删除，最终得到各所述语义实体构成的图结构以及所述图结构对应的图结构向量。

8.根据权利要求6所述的文档信息提取装置，其特征在于，所述第一图神经网络包括图卷积层、第一分类层和第二分类层，所述分类模块用于将所述图结构向量和所述编码特征向量输入所述图卷积层进行图卷积运算，得到各所述语义实体对应的更新特征向量；将所述更新特征向量输入所述第一分类层，得到各所述语义实体的分类结果；将所述图结构向量和所述更新特征向量输入所述第二分类层，得到各所述语义实体之间的关联关系的第一分类结果；其中，所述第二分类层仅对所述图结构向量中表征有关联关系的两个语义实体进行判断。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的文档信息提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文档信息提取方法的步骤。