CN114332872A

CN114332872A - 一种基于图注意力网络的合同文档容错信息提取方法

Info

Publication number: CN114332872A
Application number: CN202210243757.8A
Authority: CN
Inventors: 高菱; 范攀
Original assignee: Sichuan Guolu'an Data Technology Co ltd
Current assignee: Sichuan Guolu'an Data Technology Co ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-04-12
Anticipated expiration: 2042-03-14
Also published as: CN114332872B

Abstract

本发明提供了一种基于图注意力网络的合同文档容错信息提取方法，涉及计算机与信息处理技术领域；本发明首先将合同经过OCR引擎进行字符识别，得到文本内容和对应的位置坐标；然后提取文本信息特征，包括文本信息的位置向量和文本字符串的词嵌入表示；再以合同文档提取的特征作为图节点特征，构建容错型的合同文本关系图；然后设定图注意力网络的各层结构与激活函数；再将训练集输入到构建好的图注意力网络中进行训练，使得损失函数收敛为止；最后将待识别的合同建模成文本关系图输入到训练好的图注意网络中，最终得到文本信息的类别。本发明实现了合同文档错位信息提取，比现有的OCR后信息提取技术具有更高的识别效率和准确性，有利于办公智能化。

Description

一种基于图注意力网络的合同文档容错信息提取方法

技术领域

本发明涉及计算机与信息处理技术领域，具体涉及一种基于图注意力网络的合同文档容错信息提取方法。

背景技术

随着网络与计算机技术的发展，计算机智能算法作为业务辅助技术已广泛应用于互联网金融、互联网政务等领域。其中，光学字符识别（OCR）作为核心关键技术，更是起到了举足轻重的作用：商业银行、保险等金融行业往往应用OCR技术来实现收据、发票或合同内容的自动识别，从而避免工作人员繁琐的录入操作，以提高工作效率，提升用户使用体验；在互联网+政务服务领域，利用COR技术识别购房合同、单身声明、发票等证明材料关键信息，可以极大程度的提高审核办事效率，有效提升政务服务体验，实现高效审计防范政策风险。

以上应用领域中需要进行有效信息提取的图像多为具有固定格式的图像资料。目前的大量研究主要考虑如何定位和识别文字，对于文字识别后结构化内容抽取的研究相对较少，而抽取想要的内容或语义信息是目前大量自动化办公应用的主要需求，例如银行财务业务需要抽取发票中的金额、发票号、公司名，或者保险企业项目目的在于抽取合同中的甲方姓名、乙方姓名、关键条款内容。

在已获得OCR文字定位和识别结果后，如何抽取需要的内容是一个关键的问题。传统的抽取决方法一般为以下三种：（1）基于绝对或相对位置规则的抽取方法，（2）基于特殊关键字的信息抽取方法，（3）基于NLP词编码的文本分类的提取方法。这三种方法在OCR后信息提取技术均存在一个问题：当原始制式图像中文本打印存在错位情况时，系统信息提取算法会受到打印错位的影响，导致识别结果产生错误。

发明内容

本发明的目的在于实现一种基于图注意力网络的合同文档容错信息提取方法，以解决现有技术中存在的“当原始制式图像中文本打印存在错位情况时，系统信息提取算法会受到打印错位的影响，导致识别结果产生错误”的问题，对制式图像中错位的信息提取具有较好的准确性。

本申请所提供的基于图注意力网络的合同文档容错信息提取方法，具体包括以下步骤：

S1. OCR处理，通过OCR引擎对合同图像进行字符识别，得到文本内容和对应的位置坐标；

S2. 特征提取，即提取通过步骤S1处理的文本信息特征，该特征融合了文本信息的位置向量和文本字符串的词嵌入表示；

S3. 容错型图表示，即对步骤S2提取的特征作为图节点特征，构建容错型合同文本关系图；

S4. 构建图注意力网络，即设定图注意力网络的各层结构与激活函数；

S5. 训练图注意力网络，即将步骤S3建立的文本关系图的节点进行标注形成训练集，将训练集输入到步骤S4构建好的图注意力网络中进行训练，使得损失函数收敛为止；

S6. 预测合同信息类别，即将待识别的合同建模成文本关系图输入到步骤S5训练好的图注意网络中，最终合同中某一个文本信息的预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。

本申请的一个实施例中，步骤S1具体包括：

将合同文档图像输入到OCR引擎处理，得到文档的OCR输出结果由两部分组成，分别是文档中每一个文本内容的坐标信息

和文本字符串内容

；

其中：o _i ={x_左上，y_左上，x_右上，y_右上，x_右下，y_右下，x_左下，y_左下}，为第i个文本框的坐标信息，i的取值为1到n；

为识别出的第h个文本的字符串内容，h的取值为1到n；n为OCR识别获得的文本内容总数。

本申请的一个实施例中，步骤S2具体包括：

将通过步骤S1处理得到的文本字符串内容进行句向量嵌入，得到对应的句向量，然后把文本内容的坐标信息和文本字符串的句向量拼接得到文本信息特征矩阵。

本申请的一个实施例中，步骤S3具体包括：

S31.对经过步骤S2处理得到的文本信息，采用正则化匹配，抽取出合同中的背景词(即合同中固定不变的文本内容)和信息词（即合同中变化的文本内容），对应的特征向量组合形成文本输入特征矩阵X；

S32.以背景词为中心，建立左右两个容错窗口，容错窗口如下图所示，根据模板中背景词空间关系，当给定任意一个存在空间上下相邻关系的背景词t的背景词p，则第n份合同文档中的容错窗口高度

，计算公式如下：

其中

表示第n份文档的行间距，如果文档仅有一行，则

设置为一固定值;

第n份合同文档中的容错窗口宽度

计算公式如下

其中M是落在背景词t容错窗口高度

内的所有信息词集合，m为变量，代表信息词集合M中第m个信息词，T是背景词集合；

假设训练样本有N个，则在训练之前可通过统计所有训练样本计算出容错窗口宽度W和容错窗口高度H，其计算公式如下：

S33.基于容错窗口建立合同的文本关系图，文本关系图中节点的边构建使用容错机制判定，方法如下：

（1）为每个背景词建立一个图节点；

（2）为每一个信息词建立一个图节点；

（3）除了最后一个背景词，背景词i和背景词i+1建立一条无向边；

（4）如果信息词位于第i个背景词的容错窗口内，则在信息节点和第i个背景节点间添加一条无向边。

本申请的一个实施例中，步骤S4具体包括：

S41.搭建一个两层的图注意网络，图注意力网络的结构依次为：第一图注意力层，第一激活层，第二图注意力层，激活输出层；其中图注意力层会计算邻域中所有节点的注意力权重，在每次迭代聚合信息时，邻居的特征表达会与权重做乘积运算，再对邻居计算出的结果做卷积；

S42.设置第一层图注意力层的注意力头个数，节点特征拼接个数，第二层一个注意力头，节点特征个数为待识别的合同信息类别个数；

其中，第一激活层采用ELU激活函数，激活输出层采用Softmax函数；

ELU激活函数公式如下：

其中

的取值设为1；

假设有一个数组V，

表示V中的第q个元素，那么这个元素的softmax值为:

。

本申请的一个实施例中，步骤S5具体包括：

S51.对步骤S3建立的文本关系图的节点进行标注，要识别的类别包括合同中的背景词和信息节点，假设要识别的信息节点有n个，则类别为n+1个，其中所有的背景词为一类，对节点进行标注形成训练集；

S52.将步骤S51形成的训练集输入到步骤S4构建好的图注意力网络中，计算不同邻居节点的权重进行特征聚合，迭代更新网络参数，直至损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止，得到训练好的图注意力网络。

本申请的一个实施例中，步骤S6具体包括：

对一个待分类的合同文档图像建模为文本关系图，将建模后的待分类文本关系图输入到训练好的图注意力网络中，网络输出每一个文本信息预测概率特征向量，将最终预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。

本申请针对制式图像中打印错位的关键信息提取问题，提出了一种基于图注意力网络的合同文档容错信息提取方法，结合文本语义信息和容错性图结构关系，实现合同文档错位信息提取，较之现有的OCR后信息提取技术，本方法识别效率更高，准确性更高，能够在互联网办公领域起到更为智能化的业务辅助作用，应用范围更为广泛。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请流程示意图。

图2为本申请实施例中对合同文档图像进行OCR处理时的图像。

图3为本申请实施例中对合同文档图像进行OCR处理后的输出结果图像。

图4为本申请实施例中容错型图表示步骤中所建立的容错窗口示意图。

图5为本申请实施例中容错型图表示步骤中所建立的文本关系图图像。

图6为本申请实施例中构建图注意力网络步骤中所构建的图注意网络示意图。

1-W表示容错窗口的宽度；

2-H表示容错窗口的高度；

3-d表示在文档仅有一行时的行间距（即

中n取值1）；

4-A表示文本关系图的邻接矩阵；

5-

表示第一层网络中节点之间的注意力系数；

6-

表表示第二层网络中节点之间的注意力系数；

7-W(1)表示第一层网络中权重矩阵；

8-W(2)表示第二层网络中权重矩阵；

9-X表示文本关系图中节点的特征矩阵；

10-

表示节点1和节点1之间的注意力系数；

11-

表示节点1和节点2之间的注意力系数；

12-

表示节点1和节点3之间的注意力系数；

13-

表示节点1和节点4之间的注意力系数；

14-k表示注意力头个数。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下面结合附图对本发明的实施例进行详细说明。

本申请实施例提供了一种基于图注意力网络的合同文档容错信息提取方法，用于对合同文档形成的制式图像资料进行有效信息提取。

如图1所示，本申请提供的基于图注意力网络的合同文档容错信息提取方法的一个实施例，包括OCR处理、特征提取、容错型图表示、构建图注意力网络、训练图注意力网络、预测合同信息类别等六个步骤，具体步骤如下：

S1. OCR处理（如图2和图3所示）：

通过OCR引擎对合同图像进行字符识别，得到文本内容和对应的位置坐标，具体的：将合同文档图像输入到OCR引擎处理，得到文档的OCR输出结果由两部分组成，分别是文档中每一个文本内容的坐标信息

和文本字符串内容

；

S2. 特征提取：

即提取通过步骤S1处理的文本信息特征，该特征融合了文本信息的位置向量和文本字符串的词嵌入表示；具体的：将OCR得到的文本字符串内容利用sentence-bert网络进行句向量嵌入得到384维句向量，sentence-bert使用基于预训练过的BERT的孪生网络，获得在语义上有足够意义的篇章向量，然后把文本内容的坐标信息和文本字符串的句向量拼接得到文本信息特征，文本信息特征矩阵为C，维度为K×392，其中，k为合同文档中经过OCR识别出文本字符串的个数。

S3. 容错型图表示：

即对步骤S2提取的特征作为图节点特征，构建容错型合同文本关系图；具体的：

S31. 对经过OCR引擎处理过后的文本信息，采用正则化匹配，抽取出合同中的背景词(即合同中固定不变的文本内容)和信息词（即合同中变化的文本内容），对应的特征向量组合形成文本输入特征矩阵X，维度为n×392，n为背景词和信息词总数；

S32.以背景词为中心，建立左右两个容错窗口，容错窗口如图4所示，根据模板中背景词空间关系，当给定任意一个存在空间上下相邻关系的背景词t的背景词p，则第n份合同文档中的容错窗口高度

，计算公式如下：

其中

表示第n份文档的行间距，如果文档仅有一行，则

设置为一固定值

第n份合同文档中的容错窗口宽度

计算公式如下

其中M是落在背景词t容错窗口高度

（1）为每个背景词建立一个图节点；

（2）为每一个信息词建立一个图节点；

（4）如果信息词位于第i个背景词的容错窗口内，则在信息节点和第i个背景节点间添加一条无向边；

按照上述规则建立了文本关系图G=(V,E)，其中V包含背景节点和信息节点的特征，E表示节点之间边的关系矩阵。V的维度为n×392，E的维度为n×n，n为背景词和信息词总数。文本关系图如图5所示。

S4. 构建图注意力网络：

即设定图注意力网络的各层结构与激活函数；具体的：

S41.搭建一个两层的图注意网络，如图6所示，图注意力网络的结构依次为：第一图注意力层，第一激活层，第二图注意力层，激活输出层；其中图注意力层会计算邻域中所有节点的注意力权重，在每次迭代聚合信息时，邻居的特征表达会与权重做乘积运算，再对邻居计算出的结果做卷积；

本实施例中，输入图注意力网络n个图节点的特征矩阵，

,其中,

，F为每一个节点的特征数，令图注意力网络的输出为矩阵

，其中

，F′表示经过图注意力网络变换后的节点特征数，设

为第i和j个节点的注意力互相关系数，

为激活函数Softmax对注意力互相关系数

进行正则化后的标量；则有：

其中，||表示连接操作，LeakyReLU(·)为激活函数， W为可训练的标签节点之间权值矩阵，

,N’表示和节点i相邻的节点集合；

第i个节点的输出为：

其中K表示注意力机制的头数，

表示节点i的邻接节点集合，

表示第k头注意力机制中节点i和j的注意力值，

表示第k头注意力机制的权重矩阵，

表示节点j的特征向量。

S42. 设置第一层图注意力层的注意力头个数4，节点特征拼接个数160，第二层一个注意力头，节点特征个数为待识别的合同信息类别个数，本实施例中为14。第一激活层采用ELU激活函数，激活输出层采用Softmax函数。

S5. 训练图注意力网络：

即将步骤S3建立的文本关系图的节点进行标注形成训练集，将训练集输入到步骤S4构建好的图注意力网络中进行训练，使得损失函数收敛为止；具体的：

S51.对步骤S3建立的文本关系图的节点进行标注，要识别的类别包括合同中的背景词和信息节点，假设要识别的信息节点有n个，则类别为n+1个，其中所有的背景词为一类，对节点进行标注形成训练集，本实施例中类别数为14；

S6. 预测合同信息类别：

即将待识别的合同建模成文本关系图输入到步骤S5训练好的图注意网络中，最终合同中某一个文本信息的预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。本实施例中：

对一个待分类的合同文档图像建模为文本关系图，将建模后的待分类文本关系图输入到训练好的图注意力网络中，网络输出每一个文本信息预测概率特征向量Y，Y的维度为n×M,其中n为分类文本节点个数，M为合同中信息类别数，本实施例中为14；最终节点预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于图注意力网络的合同文档容错信息提取方法，其特征在于，包括以下步骤：

S2. 特征提取，即提取通过步骤S1处理的文本信息特征，包括文本信息的位置向量和文本字符串的词嵌入表示；

2.根据权利要求1所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S1具体包括：

和文本字符串内容

；

3.根据权利要求2所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S2具体包括：

4.根据权利要求3所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S3具体包括：

S31.对经过步骤S2处理得到的文本信息，采用正则化匹配，抽取出合同中的背景词和信息词，对应的特征向量组合形成文本输入特征矩阵；

S32.以背景词为中心，建立左右两个容错窗口，根据模板中背景词空间关系，当给定任意一个存在空间上下相邻关系的背景词t的背景词p，则第n份合同文档中的容错窗口高度

，计算公式如下：

其中

表示第n份文档的行间距，如果文档仅有一行，则

设置为一固定值；

第n份合同文档中的容错窗口宽度

计算公式如下：

其中M是落在背景词t容错窗口高度

通过设定训练样本个数，则在训练之前可通过统计所有训练样本计算出容错窗口宽度W和容错窗口高度H；

S33.基于容错窗口建立合同的文本关系图，文本关系图中节点的边构建使用容错机制判定，具体如下：

（1）为每个背景词建立一个图节点；

（2）为每一个信息词建立一个图节点；

5.根据权利要求4所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，假设训练样本有N个，则所述容错窗口宽度W和容错窗口高度H的计算公式如下：

。

6.根据权利要求1或5任意一项所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S4具体包括：

其中，第一激活层采用ELU激活函数，激活输出层采用Softmax函数。

7.根据权利要求6所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，所述ELU激活函数公式如下：

其中

的取值设为1；

假设有一个数组V，

表示V中的第q个元素，那么这个元素的softmax值为:

。

8.根据权利要求6所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S5具体包括：

9.根据权利要求1或8任意一项所述的基于图注意力网络的合同文档容错信息提取方法，其特征在于，步骤S6具体包括：

对一个待分类的合同文档图像建模为文本关系图，将建模后的待分类文本关系图输入到步骤S5训练好的图注意力网络中，网络输出每一个文本信息预测概率特征向量，将最终预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。