CN111767732B

CN111767732B - 基于图注意力模型的文档内容理解方法及系统

Info

Publication number: CN111767732B
Application number: CN202010519571.1A
Authority: CN
Inventors: 华远; 黄征; 周异; 陈凯
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2024-01-26
Anticipated expiration: 2040-06-09
Also published as: CN111767732A

Abstract

本发明提供了一种基于图注意力模型的文档内容理解方法及系统，包括：文档建图模块：对文档中出现的文本单词按照关联性建立边，从而生成对应文档内容的图网络，建立文档的二维空间信息；文档文字特征提取模块：使用自然语言处理领域的模型提取得到文档中的文字的向量表示，记为文字特征信息；文档图片特征提取模块：使用计算机视觉领域的模型提取得到文档中文字的图像信息表示，记为图片特征信息；图注意力模型：对文档的文字特征和图片特征进行特征融合，并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递。本发明利用图神经网路对得到的图结构信息进行学习训练，从而可以显性并有效的利用文档的二维空间信息。

Description

基于图注意力模型的文档内容理解方法及系统

技术领域

本发明涉及文档识别技术领域，具体地，涉及基于图注意力模型的文档内容理解方法和系统。

背景技术

流程自动化利用AI技术帮助人们从繁杂的电子文档处理任务中解放出来，其中最关键就是自动文档分析与识别技术。面对大量无标注电子文档，例如采购收据，保险单文件，海关申报单等，如果完全由人工处理解析会耗费大量的人力物力，如何有效的使用人工智能从文档中提取获得有效信息就显得非常重要。现有的文档内容理解的方法有很多种，包括传统的基于字符串匹配的规则方法和基于命名实体识别的方法。

基于字符串匹配的规则方法通常需要设计一套正则表达式，通过正则匹配的方式去获得其需要得到的信息，例如文档中的地点名称，联系方式等信息。这种方案本质上是一种人工设计特征匹配的方式，在一些简单的任务上可能有效，一旦任务变得复杂需要识别和获取的信息增多，这种方案的设计难度就会骤增。

基于命名实体识别方法将文档内容理解转化为序列标注问题。所谓命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。对于文档内容，基于命名实体识别的方法会将文档内容串联成一段序列，并通过深度学习的方式去对这个序列进行序列标注。通常序列标注可以采用BIO的格式进行标注，即将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。经典的命名实体识别网络Bi-LSTM-CRF架构采用双向的长短期记忆人工神经网络(Long Short-Term Memory，简称LSTM)取代传统的RNN模型提取文档中不同内容之前的语义信息，之后使用CRF网络来获得实体的标签信息。

本文提出了基于图注意力模型文档内容理解方法，区别于传统的命名实体识别任务，本方案将文档内容理解任务看作是基于图的节点分类任务，弥补了传统序列标注任务对二维空间信息利用缺失的问题。另外本方案设计了一套独有的建图算法，区别于一般的建图方案，加入了全局节点作为全局信息的存储器，让图中的局部节点能够获得全局的信息。

基于字符串匹配的算法优势于不要大量的训练数据，缺点也非常明显，就是能够提取的信息必须具有很强的字符特征，并且需要完全符合预先设计的规则，否则就没有办法进行获取。因此采用字符串匹配的规则方案在泛化性和适用性上都有显著的弊端和缺陷。

现有方法、难点及缺陷如下：

基于命名实体识别的方案优势在于通过神经网络的学习可以有效的提升模型的泛化能力，并且随着近年来自然语言处理领域的飞速的发展，基于预训练模型的命名实体识别模型的准确率得到很大提高。但是基于命名实体识别的模型具有以下两大缺陷：

(1)命名实体识别本质上依然是序列标注任务，将文档内容串联成序列丢失了大量空间信息。文档内容和传统的序列有一个天然的区别在于文档是二维空间，而文字序列是一维空间，如果将文档内容理解任务理解为命名实体识别任务的来处理，那么文档的二维空间信息就没有得到充分的利用。

(2)命名实体识别模型只利用的文档的文字内容信息，不能利用上了文档的图像信息。对于真实生活中的电子文档，文档中的文字的格式，大小，形状，颜色等信息对于最后的信息抽取有很强的参考价值，直接采用命名实体识别模型并没有很好的利用文档本身的图片信息，造成了有效信息的缺失，也会在一定程度上影响文档内容理解的效果。

专利文献CN111144070A(申请号：201911413715.9)公开了一种文档解析翻译方法和装置，该方法包括以下步骤：解析原始文档，生成资源文件目录；对资源文件中的主文档xml文件进行解析，得到文档内容解析文件和待翻译文本文件；根据待翻译文本文件的语言类型，获取与待翻译文本文件对应的目标语言文本，并根据目标语言文本完善待翻译文本文件；根据文档内容解析文件与完善后的待翻译文本文件，对资源文件进行修改与替换；重新打包资源文件，生成译文文档。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于图注意力模型的文档内容理解方法和系统。

根据本发明提供的一种基于图注意力模型的文档内容理解系统，包括：

文档建图模块：对文档中出现的文本单词按照关联性建立边，从而生成对应文档内容的图网络，建立文档的二维空间信息；

文档文字特征提取模块：使用自然语言处理领域的模型提取得到文档中的文字的向量表示，记为文字特征信息；

文档图片特征提取模块：使用计算机视觉领域的模型提取得到文档中文字的图像信息表示，记为图片特征信息；

图注意力模型：对文档的文字特征和图片特征进行特征融合，并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递。

优选地，所述文档建图模块：

对电子文档的内容按照行序列，对每个单词的当前行、上一行以及下一行的所有单词建立连接，在文档中物理位置小于预设距离的单词就有了单跳连接，物理位置大于预设距离的单词就需要多跳连接，有效的去除冗余信息对最后信息抽取的影响；

为了得到每个单词相对于整个文档的空间位置信息，对文档中的每个单词，都将其和全局节点建立连接，文档中的所有单词，也就是图中的所有节点每次都会和全局节点进行信息交换，得到其相对于整个空间的相对位置信息，获得文档的二维空间信息。

优选地，所述文档文字特征提取模块：

对文档中的文字信息使用Bert模型提取得到对应的文字特征信息。

优选地，所述文档图片特征提取模块：

对文档中的图片信息使用ResNet模型提取对应文字的图片特征信息。

优选地，所述图注意力模型：

通过注意力机制对图中的各个节点的信息进行注意力计算和信息的交换传递。

根据本发明提供的一种基于图注意力模型的文档内容理解方法，包括：

文档建图步骤：对文档中出现的文本单词按照关联性建立边，从而生成对应文档内容的图网络，建立文档的二维空间信息；

文档文字特征提取步骤：使用自然语言处理领域的模型提取得到文档中的文字的向量表示，记为文字特征信息；

文档图片特征提取步骤：使用计算机视觉领域的模型提取得到文档中文字的图像信息表示，记为图片特征信息；

信息交换及传递步骤：对文档的文字特征和图片特征进行特征融合，并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递。

优选地，所述文档建图步骤：

优选地，所述文档文字特征提取步骤：

优选地，所述文档图片特征提取步骤：

优选地，所述信息交换及传递步骤：

与现有技术相比，本发明具有如下的有益效果：

针对现有基于命名实体识别方案的问题，为了充分利用文档的二维空间信息以及文档的图片内容信息，本发明对现有基于命名实体识别的方案提出了改进，包括如下三个主要改进：

(1)使用图注意力模型有效利用文档的二维空间信息。对于文档里的文字内容不再简单的进行合并串联成一整个长序列，而是基于相对位置关系对不同区域的文字与文字建立联系，生成对应的图结构表示，利用图神经网路对得到的图结构信息进行学习训练，从而可以显性并有效的利用文档的二维空间信息。

(2)更加丰富的特征组成。区别于命名实体识别模型只利用文字信息，本模型还引入文档的图片信息作为训练数据。充分利用文档中已有的文字的形状，大小，颜色等信息来帮助模型获得更加丰富全面的特征属性，从而提高整体文档内容理解的能力。

(3)全局节点的引入。区别于传统的建图逻辑，本方案在建图过程中加入了全局节点，用来表示整个文档的信息，每个内部节点都与全局节点建立联系，并在每一轮的迭代中与全局节点交换信息。通过全局节点，内部节点可以得到其属于全局的位置信息，这样就能够更有效的帮助判定一些具有明显位置特征的实体。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的系统结构示意图。

图2为本发明提供的建立关系图示意图。

图3为本发明提供的文字特征提取模块示意图。

图4为本发明提供BERT结构示意图.

图5为本发明提供的图片特征提取模块示意图。

图6为本发明提供的GAT模型示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述文档建图模块：

具体地，所述文档文字特征提取模块：

具体地，所述文档图片特征提取模块：

具体地，所述图注意力模型：

本发明提供的基于图注意力模型的文档内容理解系统，可以通过本发明给的基于图注意力模型的文档内容理解方法的步骤流程实现。本领域技术人员可以将所述基于图注意力模型的文档内容理解方法，理解为所述基于图注意力模型的文档内容理解系统的一个优选例。

具体地，所述文档建图步骤：

具体地，所述文档文字特征提取步骤：

具体地，所述文档图片特征提取步骤：

具体地，所述信息交换及传递步骤：

下面通过优选例，对本发明进行更为具体地说明。

优选例1：

步骤一：OCR识别

对文档进行OCR识别得到文档中的文本信息，和文本对应的边界框(boundingbox) 信息。

实施方法：OCR识别本方案中采用的是EAST模型[参考网址3]，EAST模型是一个端到端的文本检测模型，模型简单(主要有FCN阶段(全卷积网络)和NMS阶段(非极大抑制))，而且输出结果既高效准确，又能适应多种不同类型的文档场景。本方案中文档图片将作为输入，通过EAST模型可以识别得到图片中的文字和对应的边界框。

步骤二：文本特征提取

对OCR得到的文本信息使用文档文字特征提取模块得到对应的文档文字特征。

实施方法：为了能够更好的提取得到文本特征信息，本方案采用的是BERT模型进行文本的特征提取。OCR识别得到的文字作为BERT模型的输入，可以得到对应文字的特征输出。

步骤三：图像特征提取

利用文档特征提取模块和OCR的到的文本的边界框，获得每个文本的图像特征。

实施方法：通过OCR得到的文本对应的边界框对文档中的文字图像进行剪裁，并将剪裁生成的图片通过ResNet模型得到对应的文字的图像特征；另外需要将整个文档图像通过文档图片特征提取模块得到整图的文档图像特征，用来作为后续图注意力网络全局节点初始化参数。

步骤四：构建图网络

根据OCR得到的文本的边界框信息，利用建图模块建立文档中文本的关系图(图网络)。

实施方法：根据边界框的坐标信息，对于每一个文本单词，建立其和相邻文本单词的联系，最后建立其和全局节点的联系。将OCR识别文字和边界框作为输入，生成对应的文档的图网络。

步骤五：理解文档内容

将文本的文字特征、文字图片特征和关系图特征输入训练好的图注意力模型，可以得到文档中包含的标签实体，包括“供货商名称”，“地址”，“购买金额”，“税款”，“日期”等信息。

辅助信息：图注意力模型的训练

对得到的文本特征和图像特征进行串联，初始化图注意力网络的节点初始表示，对得到的文档的图结构初始化图注意力网络的图表示，进行迭代训练，一般训练层数为2-3层即可。在最后的图注意力模型的输出层将节点的特征维度限制为所需判别的标签实体数量，即可得到每一个节点对应的实体类型。

优选例2：

本设计提出了一套基于图注意力模型的文档内容理解方案。采用图注意力模型可以充分利用，注意力机制的加入能够使图神经网络更好的捕捉各个相邻节点的信息关联性，使信息的流动和融合更加的高效与合理。本设计在图注意力模型的节点特征表示上融合了文档的文字内容信息和文字的图片信息，将文档的中文字的语义信息和视觉信息都纳入了模型的训练之中。

图1为系统结构示意图，核心模块是图注意力模型。图注意力模型的输入由三个部分组成，分别是文档建图模块，文档文字特征提取模块，文档图片特征提取模块。下面将分别介绍这三个输入模块的作用和具体设计。

文档建图模块：

文档建图模块的作用是对给定的一张文档图像，可以生成其对应的图信息供后续的图注意力模型使用。建图的核心目的是直观有效的对文档的二维空间信息进行有效的利用，本方案采用的建图方式是对文档的内容按照行序列，对每个单词的当前行，上一行，下一行的所有单词建立连接，通过这种方式，在文档中物理位置的近的单词就有了单跳连接，物理位置远的单词就需要多跳连接，可以有效的去除冗余信息对最后信息抽取的影响。另外，为了得到每个单词相对于整个文档的空间位置信息，本方案还创新性的提出了加入全局节点的建图方案，即对文档中的每个单词，都将其和全局节点建立连接。文档中的所有单词，也就是图中的所有节点每次都会和全局节点进行信息交换，得到其相对于整个空间的相对位置信息。引入全局节点对一些表头等具有明显整体空间位置摆放关系的实体的识别有很大的提升效果。

文档文字特征提取模块：

文档文字特征提取模块的作用是使用自然语言处理领域的模型提取得到文档中的文字的向量表示。主流的文字转特征的模型有经典的基于文字共现信息的word2vec模型，glove模型等，最近几年，随着自然语言处理领域的飞速发展，基于上下文语义的 wordembedding方式大放异彩，本方案采用就是其中非常有名的BERT模型来进行文档文字的特征提取工作。BERT模型基于Transformer架构，在各种NLP基准任务上都取得了SOTA的成绩。

文档图片特征提取模块：

文档图片特征提取模块的作用是使用计算机视觉领域的模型提取得到文档中文字的图像信息表示。文档文字特征提取模块只能提取得到文档的语义信息，不能保留文档中文字的颜色、大小和字体等信息的提取，引入文档图片特征提取模块就可以弥补这方面的不足。本方案采用的文字图片特征提取模型是经典的图片

特征提取模型ResNet模型。

图注意力模型：

图注意力模型的作用是对文档的文字特征和图片特征进行特征融合，并且根据建立的文档图信息对相邻的节点之间的信息进行交换和传递。图注意力模型将注意力机制引入图神经网络中，区别于图卷积网络(GCN)中使用拉普拉斯矩阵进行图节点信息聚合的方式，图注意力模型通过注意力机制对图中的各个节点的信息进行注意力计算和信息的交换传递，节点之间的相关性被更加紧密且有组织的融入到了模型之中。

各个模块设计如下：

(1)文档建图模块：

对于给定的一张文档，文档建图模块会按照文档中文字的位置关系，建立一张文档对应的关系图。建立关系图的思路是，对每个节点(单词)，将它和同属一行的其它节点(单词)都分别建立连接两个节点的边，将它和上一行的所有节点都分别建立边，将其和所有下一行的节点都分别建立边。另外，对于每一个节点，都需要将它和全局节点建立边。图2给出对一个节点(方角矩形方框表示)和周边节点(圆角矩形方框表示) 以及全局节点(菱形框表示)建立边的示意图。

(2)文档文字特征提取模块

对于文档文字特征提取，本方案会文档中的单词文字通过BERT模型得到其对应的词向量表示作为文档的文字特征。BERT仍然使用的是Transformer模型，它采用Mask 语言模型解决了语言模型只能利用一个方向的信息的问题。Google在论文中给了两个模型，一个基本(base)模型，还有一个大规模的large模型。本方案中采用的是base 模型，结构如图4所示。

文档图像会先经过OCR提取得到其中的文本数据，如图3所示。

对于上述OCR的输出，会依据相对位置关系，从上之下，从左至右将识别出得文本信息串联成一个序列，例如“SPORTS MARKETING ENTERPRISES DOCUMENT CLEARANCESHEET”。 BERT模型要求有一个固定的序列的长度，本方案中设置的最大序列长度是512。如果不够就在后面添补丁，否则就截取掉多余的单词，从而保证输入是一个固定长度的单词序列。第一个单词总是特殊的[CLS]，它本身没有任何语义，因此它会(必须)编码整个句子(其它词)的语义，[CLS]的输出将作为全局节点的初始化参数，其余每个单词的输出会对应相应节点的初始化。

Bert模型的骨架就是Transformer的编码(encoder)模块，即一个自注意加上前向传递。Bert会给每个单词(token)输出一个嵌入表示(embedding)，在base模型中，每个token的输出维度为768。

(3)文档图片特征提取模块

OCR处理后的电子文档会得到每个单词的边界框(bounding box)信息，可以通过单词的边界框位置进行剪裁，得到每个单词的图片信息。每个单词的图片中即包含了对应文字的颜色，字体，大小等信息，通过对图片特征的提取，就可以得到这些模型需要的特征数据。

将剪裁得到的图片转为3通道224*224像素的图片大小，然后输入给ResNet模型，可得到对应文字的图片特征信息。这部分特征是节点特征的另一个组成部分。另外，由于全局节点的存在，本方案中还将对整张图片过图片特征提取模型得到全局图片的特征信息用来初始化全局节点。ResNet模型的架构如图5右半边所示。

(4)图注意力模块

图注意力模型采用注意力机制对节点的特征进行聚合，其直观的表示如图6所示。

图注意力模型通过堆叠图注意力层(Graph Attention Layer)实现，该层的输入是节点的特征集合，其中h表示hidden state，即隐含层特征表示，h_i表示第i个节点的隐含层表示，n表示节点数量，例如第一节点的隐含层表示是h₁，这里面R^F表示隐含层的特征空间。

h＝{h₁,h₂,h₃,…,h_n},h_i∈R^F

图注意力层的输出是一个新节点的特征集合，其中h′表示输出层的隐含层特征表示， h′_i表示第i个节点的输出层的隐含层表示，例如第一节点的隐含层表示是h′₁，这里面R^F表示隐含层的特征空间。：

h′＝{h′₁,′₂,′₃,…,′_n},h_i′∈R^F

每个输出的特征都是输入特征根据图注意力模型根据注意力机制运算得到的：

这里σ是激活函数，α_ij是计算得到的Attention值，W为权重矩阵，h_j为输入特征， j表示第j个节点的输入特征。通过以上的公式，就可以不断的迭代，生成新的融合了文本，图像，位置信息的特征。

本方案中图神经网络节点的初始化工作分为两大类，一是内部节点的特征初始化，二是全局节点的特征初始化。

对于内部节点，其特征初始化为文本文字特征(text_feature)串联文本图像特征(image_feature)，这里h_{init_local}表示内部节点隐含层的初始化特征，concat操作是指将图像特征这文本特征进行串联操作：

h_{init_local}＝concat(image_feature,ext_feature)

对于全局节点，由于需要具有全局的特征，全局节点的初始化为BERT模型的全局文字特征串联全局图片特征，这里h_{init_global}表示内部节点隐含层的初始化特征，concat操作是指将图像特征这文本特征进行串联操作，full_image_feature表示整张文档的图像特征，full_text_feature表示整张文档的文字特征：

h_{init_global}＝concat(full_image_feature,full_text_feature)

最后，只需要在最后一次迭代将特征的维度限制为所需识别的标签的数量，就可以在图上进行节点的分类工作。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于图注意力模型的文档内容理解系统，其特征在于，包括：

图注意力模型：对文档的文字特征和图片特征进行特征融合，并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递；

所述文档建图模块：

对电子文档的内容按照行序列，对每个单词的当前行、上一行以及下一行的所有单词建立连接，在文档中物理位置小于预设距离的单词就有了单跳连接，物理位置大于预设距离的单词就需要多跳连接；

对文档中的每个单词，都将其和全局节点建立连接，文档中的所有单词，也就是图中的所有节点每次都会和全局节点进行信息交换，得到其相对于整个空间的相对位置信息，获得文档的二维空间信息；

对文档进行OCR识别得到文档中的文本信息，和文本对应的边界框信息；

所述文档文字特征提取模块：

对文档中的文字信息使用Bert模型提取得到对应的文字特征信息；

OCR识别得到的文字作为Bert模型的输入，得到对应文字的特征输出；

所述文档图片特征提取模块：

对文档中的图片信息使用ResNet模型提取对应文字的图片特征信息；

通过OCR得到的文本对应的边界框对文档中的文字图像进行剪裁，并将剪裁生成的图片通过ResNet模型得到对应的文字的图片特征；将整个文档图像通过文档图片特征提取模块得到整图的文档图片特征，作为图注意力网络全局节点初始化参数；

所述图注意力模型根据边界框的坐标信息，对于每一个文本单词，建立其和相邻文本单词的联系，最后建立其和全局节点的联系；将OCR识别文字和边界框作为输入，生成对应的文档的图注意力网络；

图注意力模型的训练包括，对得到的文本特征和图片特征进行串联，初始化图注意力网络的节点初始表示，对得到的文档的图网络初始化图注意力网络的图表示，进行迭代训练，在最后的图注意力模型的输出层将节点的特征维度限制为所需判别的标签实体数量；

将文本的文字特征、文档图片特征和图网络特征输入训练好的图注意力模型，得到文档中包含的标签实体。

2.根据权利要求1所述的基于图注意力模型的文档内容理解系统，其特征在于，所述图注意力模型：

3.一种基于图注意力模型的文档内容理解方法，其特征在于，包括：

信息交换及传递步骤：对文档的文字特征和图片特征进行特征融合，并且根据建立的文档的二维空间信息对相邻的节点之间的信息进行交换和传递；

所述文档建图步骤：

所述文档文字特征提取步骤：

所述文档图片特征提取步骤：

所述信息交换及传递步骤根据边界框的坐标信息，对于每一个文本单词，建立其和相邻文本单词的联系，最后建立其和全局节点的联系；将OCR识别文字和边界框作为输入，生成对应的文档的图注意力网络；

4.根据权利要求3所述的基于图注意力模型的文档内容理解方法，其特征在于，所述信息交换及传递步骤：