CN114419304A

CN114419304A - 一种基于图神经网络的多模态文档信息抽取方法

Info

Publication number: CN114419304A
Application number: CN202210056911.0A
Authority: CN
Inventors: 罗伟杰; 陈永红; 谢翀
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-29
Also published as: WO2023138023A1

Abstract

本发明公开了一种基于图神经网络的多模态文档信息抽取方法，包括S1：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；S2：对文本块进行文本、视觉、布局三种模态特征提取，并进行模态间的特征融合，输出图节点特征；S3：将文本块内容进行抽象化，输出初始图G＝(V,E,A)：S4：通过将图节点分配到不同的簇来实现对初始图进行划分，对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；S5：根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；S6：对图节点进行节点分类和链路预测，输出最终结果。本发明能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强。

Description

一种基于图神经网络的多模态文档信息抽取方法

技术领域

本发明涉及计算机软件领域，尤其涉及的是一种基于图神经网络的多模态文档信息抽取方法。

背景技术

随着行业数字化转型，业务数据主要以多模态文档(如PDF、扫描件、文档图片等)的非结构化格式进行存储，文档自动化处理对于提高企业生产效率至关重要。如在供应链金融领域，需要从发票、合同、税单等电子文档中提取关键有效信息，快速了解上下游企业风险状态，协助核心企业进行供应链管理。多模态文档信息抽取任务包括从文档提取特定类别实体，并输出实体间特定关系，以key-value的形式输出结构化信息。

传统的文档信息抽取主要通过人工定制规则和模板匹配、小样本统计学习，该方法对少量固定样式的文档有效，但通用性差，迁移成本高，无法适应当前多模态文档类型和样式繁多的特点。基于深度学习的方法利用大量未标注电子文档进行自监督预训练，并利用多模态技术把文本、视觉和布局信息进行融合得到文档特征，最后根据文本框位置按特定顺序(一般为从上到下、从左到右)进行序列化，通过NER技术进行实体识别，以及对三元组分类的方式进行关系抽取。该方法能够学习到不同类型文档的有效特征，在实体识别任务性能上有较大提升，但由于最后通过序列化文本进行实体识别，对于布局复杂的文档效果较差(如分栏文档中可能将实体切割)，同时在进行关系抽取时没有充分利用文本块的空间关系，一般关系匹配效果较差。

目前主流的多模态文档信息抽取方法主要包括以下流程：

1)利用OCR技术识别文档中的候选文本框；

2)通过预训练模型提取候选文本框的特征，包括文本特征、视觉特征和位置坐标；

3)对2)中提取的不同维度特征，通过多模态融合技术对候选文本块进行融合编码，融合方式包括最大(平均)池化、双线性模型，注意力机制等；

4)根据候选文本框的位置坐标，按照从上到下，从左到右的顺序进行序列化，然后利用NER技术进行实体识别，通过对候选文本框两两组合形成的三元组(加入相对位置信息)分类进行关系抽取。

现有技术依赖于OCR模型的输出进行序列化，一般遵循“从上到下，从左到右”的阅读原则，但对于文档中分栏、文本图片表格混杂的复杂布局，此时获得的阅读顺序多数情况下是错误的，容易导致实体被切割以及语义混乱；同时，序列化无法捕捉文档中的结构化层次信息(如表格中表头与单元格间的关系)，在关系抽取的任务中往往表现不佳。

因此，现有技术存在缺陷，需要改进。

发明内容

本发明所要解决的技术问题是：提供一种能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强的基于图神经网络的多模态文档信息抽取方法。

本发明的技术方案如下：一种基于图神经网络的多模态文档信息抽取方法，包括如下步骤：步骤S1：光学字符识别OCR：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；步骤S2：预编码：对光学字符识别OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；步骤S3：图构建：将所述文本块内容进行抽象化，输出初始图G＝(V,E,A)：其中，V代表图节点，E代表节点间的边，A代表图的邻接矩阵；步骤S4：图划分：通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；步骤S5：图深度编码：根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；步骤S6：信息抽取：对步骤S5中的图节点进行节点分类和链路预测，输出最终结果。

应用于上述技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S1中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级DBNet作为骨干网络；文字识别使用CRNN来进行行文本识别，并采用CenterLoss来提升识别效果。

应用于上述各个技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S2中，使用RoBERTa提取文本特征，使用ResNet作为骨干网络，根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征；并且，根据文本块的位置坐标、大小生成初始布局特征；最后，对提取的文本特征、视觉特征、布局特征三种模态特征，利用Block机制进行特征融合，输出图节点特征。

应用于上述各个技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S3中，E代表节点间的边，是由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出；A代表图的邻接矩阵，通过得到的边特征，利用多头自注意力机制进行计算。

应用于上述各个技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S4中，通过将图节点分配到不同的簇来实现图划分具体包括：假设当前图节点个数为N，首先预定义衰减因子c确定下一层簇的个数N*c，利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c，分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互，图的邻接矩阵维度由N x N变为N*c x N*c；通过迭代多次分配实现图的分块。

应用于上述各个技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S5中，对图节点的最终表示进行更新包括：在相同簇内的图节点按照“从左到右，从上到下”的原则进行横向位置排序编码；对图节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到图节点表示中。

应用于上述各个技术方案，所述的基于图神经网络的多模态文档信息抽取方法中，在所述步骤S6中，所述链路预测是通过拼接两个候选图节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。

本发明的有益效果为：

本发明通过图的形式将文档内容抽象化，能够有效捕获文档的空间布局信息，在关系抽取任务中有更好的表现；并且，利用图划分对文档内容进行局部分块，符合人类层次化分块阅读的习惯，有效提高语义准确性；本发明通用性强：模型能够有效提取文档的局部结构信息，在复杂布局的文档同样适用。

并且，本发明基于图神经网络，将文档内容抽象成图，能够有效捕获文档的层次化信息，同时通过图划分的形式对文档的局部结构进行有效识别，符合人类层次化分块阅读的习惯，对于具有复杂布局的文档也能够进行准确理解。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

本实施例提供了一种基于图神经网络的多模态文档信息抽取方法，如图1所示，基于图神经网络的多模态文档信息抽取方法包括如下步骤：步骤S1：光学字符识别OCR：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；其中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级DBNet作为骨干网络；文字识别使用CRNN来进行行文本识别，并采用CenterLoss来提升识别效果。

步骤S2：预编码：对光学字符识别OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；其中，使用RoBERTa提取文本特征，使用ResNet作为骨干网络，根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征；并且，根据文本块的位置坐标、大小生成初始布局特征；最后，对提取的文本特征、视觉特征、布局特征三种模态特征，利用Block机制进行特征融合，输出图节点特征。

步骤S3：图构建：将所述文本块内容进行抽象化，输出初始图G＝(V,E,A)：其中，V代表图节点，E代表节点间的边，A代表图的邻接矩阵；其中，V代表图节点，为OCR输出的文本块，图节点特征步骤S2中结果表示，E代表节点间的边，是由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出；A代表图的邻接矩阵，通过得到的边特征，利用多头自注意力机制进行计算。

步骤S4：图划分：通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；通过将图节点分配到不同的簇来实现图划分具体包括：假设当前图节点个数为N，首先预定义衰减因子c确定下一层簇的个数N*c，利用第一图卷积网络进行信息交互和图节点分配矩阵学习N xN*c，分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互，图的邻接矩阵维度由N x N变为N*c x N*c；通过迭代多次分配实现图的分块。

步骤S5：图深度编码：根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；其中，对图节点的最终表示进行更新包括：在相同簇内的图节点按照“从左到右，从上到下”的原则进行横向位置排序编码；对图节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到图节点表示中。

步骤S6：信息抽取：对步骤S5中的图节点进行节点分类和链路预测，输出最终结果，其中，所述链路预测是通过拼接两个候选图节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。

并且，本发明实施例包括，

1、光学字符识别(OCR)：该模块分为文本检测和文字识别两个子模块，主要对图片中的文字进行识别，并转化成文本格式输出，同时输出文本的位置坐标。在文本检测模块，使用了轻量级DBNet作为骨干网络；在文字识别模块，使用了CRNN来进行行文本识别，并采用CenterLoss来提升识别效果。

2、预编码：该模块主要对OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合输出。在文本编码模块，使用了RoBERTa提取文本特征；在视觉编码模块，使用了ResNet作为骨干网络，根据文本框坐标并通过RoIAlign获得对应文本框范围内的视觉特征；在布局编码模块，利用文本框的位置坐标、大小生成初始特征。最后，对提取的三种模态特征，利用Block机制进行特征融合，输出图节点特征。

3、图构建：该模块主要将文档内容进行抽象化，输出G＝(V,E,A)：

a.V代表图节点，为OCR输出的文本块，节点特征由2中结果表示；

b.E代表节点间的边，由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出；

c.A代表图的邻接矩阵，反应节点间边的权重大小，即存在边的概率，通过b中得到的边特征，利用多头自注意力机制进行计算。

4、图划分：该模块主要对3中的初始图进行划分，并对图进行迭代更新。图划分主要通过将节点分配到不同的簇来实现：假设当前节点个数为N，首先预定义衰减因子c确定下一层簇的个数N*c，利用图卷积网络(GAT_1)进行信息交互和节点分配矩阵学习(N x N*c)，分配完成后输入到另外的图卷积网络(GAT_2)进行簇之间的信息交互，图的邻接矩阵维度由N x N变为N*c x N*c。通过迭代多次分配实现图的分块。

5、图深度编码：该模块根据4中各阶段的节点分配矩阵和簇表示对节点的最终表示进行更新。在相同簇内的节点按照“从左到右，从上到下”的原则进行横向位置排序编码；对节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到节点表示中。

6、信息抽取：该模块基于5中得到的隐层输出进行节点分类和链路预测，输出最终结果。其中，链路预测通过拼接两个候选节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。

本发明在预训练模型和多模态技术的基础上，通过图神经网络捕捉文档的局部结构信息以及文本块间的空间依赖关系，在多模态融合阶段增强文本块的空间语义关联，并将信息抽取任务转化为图节点分类和链路预测问题，有效提高实体识别的完整性以及关系抽取任务的性能。

另外，本实施例中提及的轻量级DBNet、CRNN、CenterLoss、RoBERTa、RoIAlign、Block机制、自注意力机制、迭代更新机制等均为现有技术手段，本发明通过采用现有以上现有的技术手段应用来实现，具体本发明不再赘述。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图神经网络的多模态文档信息抽取方法，其特征在于，包括如下步骤：

步骤S1：光学字符识别OCR：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；

步骤S2：预编码：对光学字符识别OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；

步骤S3：图构建：将所述文本块内容进行抽象化，输出初始图G＝(V,E,A)：其中，V代表图节点，E代表节点间的边，A代表图的邻接矩阵；

步骤S4：图划分：通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；

步骤S5：图深度编码：根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；

步骤S6：信息抽取：对步骤S5中的图节点进行节点分类和链路预测，输出最终结果。

2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S1中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级DBNet作为骨干网络；文字识别使用CRNN来进行行文本识别，并采用CenterLoss来提升识别效果。

3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S2中，使用RoBERTa提取文本特征，使用ResNet作为骨干网络，根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征；并且，根据文本块的位置坐标、大小生成初始布局特征；最后，对提取的文本特征、视觉特征、布局特征三种模态特征，利用Block机制进行特征融合，输出图节点特征。

4.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S3中，E代表节点间的边，是由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出；A代表图的邻接矩阵，通过得到的边特征，利用多头自注意力机制进行计算。

5.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S4中，通过将图节点分配到不同的簇来实现图划分具体包括：假设当前图节点个数为N，首先预定义衰减因子c确定下一层簇的个数N*c，利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c，分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互，图的邻接矩阵维度由N x N变为N*c x N*c；通过迭代多次分配实现图的分块。

6.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S5中，对图节点的最终表示进行更新包括：在相同簇内的图节点按照“从左到右，从上到下”的原则进行横向位置排序编码；对图节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到图节点表示中。

7.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S6中，所述链路预测是通过拼接两个候选图节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。