CN114332872A - 一种基于图注意力网络的合同文档容错信息提取方法 - Google Patents

一种基于图注意力网络的合同文档容错信息提取方法 Download PDF

Info

Publication number
CN114332872A
CN114332872A CN202210243757.8A CN202210243757A CN114332872A CN 114332872 A CN114332872 A CN 114332872A CN 202210243757 A CN202210243757 A CN 202210243757A CN 114332872 A CN114332872 A CN 114332872A
Authority
CN
China
Prior art keywords
graph
information
text
contract
tolerant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210243757.8A
Other languages
English (en)
Other versions
CN114332872B (zh
Inventor
高菱
范攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Guolu'an Data Technology Co ltd
Original Assignee
Sichuan Guolu'an Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Guolu'an Data Technology Co ltd filed Critical Sichuan Guolu'an Data Technology Co ltd
Priority to CN202210243757.8A priority Critical patent/CN114332872B/zh
Publication of CN114332872A publication Critical patent/CN114332872A/zh
Application granted granted Critical
Publication of CN114332872B publication Critical patent/CN114332872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于图注意力网络的合同文档容错信息提取方法,涉及计算机与信息处理技术领域;本发明首先将合同经过OCR引擎进行字符识别,得到文本内容和对应的位置坐标;然后提取文本信息特征,包括文本信息的位置向量和文本字符串的词嵌入表示;再以合同文档提取的特征作为图节点特征,构建容错型的合同文本关系图;然后设定图注意力网络的各层结构与激活函数;再将训练集输入到构建好的图注意力网络中进行训练,使得损失函数收敛为止;最后将待识别的合同建模成文本关系图输入到训练好的图注意网络中,最终得到文本信息的类别。本发明实现了合同文档错位信息提取,比现有的OCR后信息提取技术具有更高的识别效率和准确性,有利于办公智能化。

Description

一种基于图注意力网络的合同文档容错信息提取方法
技术领域
本发明涉及计算机与信息处理技术领域,具体涉及一种基于图注意力网络的合同文档容错信息提取方法。
背景技术
随着网络与计算机技术的发展,计算机智能算法作为业务辅助技术已广泛应用于互联网金融、互联网政务等领域。其中,光学字符识别(OCR)作为核心关键技术,更是起到了举足轻重的作用:商业银行、保险等金融行业往往应用OCR技术来实现收据、发票或合同内容的自动识别,从而避免工作人员繁琐的录入操作,以提高工作效率,提升用户使用体验;在互联网+政务服务领域,利用COR技术识别购房合同、单身声明、发票等证明材料关键信息,可以极大程度的提高审核办事效率,有效提升政务服务体验,实现高效审计防范政策风险。
以上应用领域中需要进行有效信息提取的图像多为具有固定格式的图像资料。目前的大量研究主要考虑如何定位和识别文字,对于文字识别后结构化内容抽取的研究相对较少,而抽取想要的内容或语义信息是目前大量自动化办公应用的主要需求,例如银行财务业务需要抽取发票中的金额、发票号、公司名,或者保险企业项目目的在于抽取合同中的甲方姓名、乙方姓名、关键条款内容。
在已获得OCR文字定位和识别结果后,如何抽取需要的内容是一个关键的问题。传统的抽取决方法一般为以下三种:(1)基于绝对或相对位置规则的抽取方法,(2)基于特殊关键字的信息抽取方法,(3)基于NLP词编码的文本分类的提取方法。这三种方法在OCR后信息提取技术均存在一个问题:当原始制式图像中文本打印存在错位情况时,系统信息提取算法会受到打印错位的影响,导致识别结果产生错误。
发明内容
本发明的目的在于实现一种基于图注意力网络的合同文档容错信息提取方法,以解决现有技术中存在的“当原始制式图像中文本打印存在错位情况时,系统信息提取算法会受到打印错位的影响,导致识别结果产生错误”的问题,对制式图像中错位的信息提取具有较好的准确性。
本申请所提供的基于图注意力网络的合同文档容错信息提取方法,具体包括以下步骤:
S1. OCR处理,通过OCR引擎对合同图像进行字符识别,得到文本内容和对应的位置坐标;
S2. 特征提取,即提取通过步骤S1处理的文本信息特征,该特征融合了文本信息的位置向量和文本字符串的词嵌入表示;
S3. 容错型图表示,即对步骤S2提取的特征作为图节点特征,构建容错型合同文本关系图;
S4. 构建图注意力网络,即设定图注意力网络的各层结构与激活函数;
S5. 训练图注意力网络,即将步骤S3建立的文本关系图的节点进行标注形成训练集,将训练集输入到步骤S4构建好的图注意力网络中进行训练,使得损失函数收敛为止;
S6. 预测合同信息类别,即将待识别的合同建模成文本关系图输入到步骤S5训练好的图注意网络中,最终合同中某一个文本信息的预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。
本申请的一个实施例中,步骤S1具体包括:
将合同文档图像输入到OCR引擎处理,得到文档的OCR输出结果由两部分组成,分别是文档中每一个文本内容的坐标信息
Figure 100002_DEST_PATH_IMAGE002
和文本字符串内容
Figure 100002_DEST_PATH_IMAGE004
其中:o i ={x左上,y左上,x右上,y右上,x右下,y右下,x左下,y左下},为第i个文本框的坐标信息,i的取值为1到n;
Figure 100002_DEST_PATH_IMAGE006
为识别出的第h个文本的字符串内容,h的取值为1到n;n为OCR识别获得的文本内容总数。
本申请的一个实施例中,步骤S2具体包括:
将通过步骤S1处理得到的文本字符串内容进行句向量嵌入,得到对应的句向量,然后把文本内容的坐标信息和文本字符串的句向量拼接得到文本信息特征矩阵。
本申请的一个实施例中,步骤S3具体包括:
S31.对经过步骤S2处理得到的文本信息,采用正则化匹配,抽取出合同中的背景词(即合同中固定不变的文本内容)和信息词(即合同中变化的文本内容),对应的特征向量组合形成文本输入特征矩阵X;
S32.以背景词为中心,建立左右两个容错窗口,容错窗口如下图所示,根据模板中背景词空间关系,当给定任意一个存在空间上下相邻关系的背景词t的背景词p,则第n份合同文档中的容错窗口高度
Figure 100002_DEST_PATH_IMAGE008
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE012
其中
Figure 100002_DEST_PATH_IMAGE014
表示第n份文档的行间距,如果文档仅有一行,则
Figure 132977DEST_PATH_IMAGE014
设置为一固定值;
第n份合同文档中的容错窗口宽度
Figure 100002_DEST_PATH_IMAGE016
计算公式如下
Figure 100002_DEST_PATH_IMAGE018
其中M是落在背景词t容错窗口高度
Figure 145057DEST_PATH_IMAGE008
内的所有信息词集合,m为变量,代表信息词集合M中第m个信息词,T是背景词集合;
假设训练样本有N个,则在训练之前可通过统计所有训练样本计算出容错窗口宽度W和容错窗口高度H,其计算公式如下:
Figure 100002_DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE022
S33.基于容错窗口建立合同的文本关系图,文本关系图中节点的边构建使用容错机制判定,方法如下:
(1)为每个背景词建立一个图节点;
(2)为每一个信息词建立一个图节点;
(3)除了最后一个背景词,背景词i和背景词i+1建立一条无向边;
(4)如果信息词位于第i个背景词的容错窗口内,则在信息节点和第i个背景节点间添加一条无向边。
本申请的一个实施例中,步骤S4具体包括:
S41.搭建一个两层的图注意网络,图注意力网络的结构依次为:第一图注意力层,第一激活层,第二图注意力层,激活输出层;其中图注意力层会计算邻域中所有节点的注意力权重,在每次迭代聚合信息时,邻居的特征表达会与权重做乘积运算,再对邻居计算出的结果做卷积;
S42.设置第一层图注意力层的注意力头个数,节点特征拼接个数,第二层一个注意力头,节点特征个数为待识别的合同信息类别个数;
其中,第一激活层采用ELU激活函数,激活输出层采用Softmax函数;
ELU激活函数公式如下:
Figure 100002_DEST_PATH_IMAGE024
其中
Figure 100002_DEST_PATH_IMAGE026
的取值设为1;
假设有一个数组V,
Figure 100002_DEST_PATH_IMAGE028
表示V中的第q个元素,那么这个元素的softmax值为:
Figure 100002_DEST_PATH_IMAGE030
本申请的一个实施例中,步骤S5具体包括:
S51.对步骤S3建立的文本关系图的节点进行标注,要识别的类别包括合同中的背景词和信息节点,假设要识别的信息节点有n个,则类别为n+1个,其中所有的背景词为一类,对节点进行标注形成训练集;
S52.将步骤S51形成的训练集输入到步骤S4构建好的图注意力网络中,计算不同邻居节点的权重进行特征聚合,迭代更新网络参数,直至损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到训练好的图注意力网络。
本申请的一个实施例中,步骤S6具体包括:
对一个待分类的合同文档图像建模为文本关系图,将建模后的待分类文本关系图输入到训练好的图注意力网络中,网络输出每一个文本信息预测概率特征向量,将最终预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。
本申请针对制式图像中打印错位的关键信息提取问题,提出了一种基于图注意力网络的合同文档容错信息提取方法,结合文本语义信息和容错性图结构关系,实现合同文档错位信息提取,较之现有的OCR后信息提取技术,本方法识别效率更高,准确性更高,能够在互联网办公领域起到更为智能化的业务辅助作用,应用范围更为广泛。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请流程示意图。
图2为本申请实施例中对合同文档图像进行OCR处理时的图像。
图3为本申请实施例中对合同文档图像进行OCR处理后的输出结果图像。
图4为本申请实施例中容错型图表示步骤中所建立的容错窗口示意图。
图5为本申请实施例中容错型图表示步骤中所建立的文本关系图图像。
图6为本申请实施例中构建图注意力网络步骤中所构建的图注意网络示意图。
1-W表示容错窗口的宽度;
2-H表示容错窗口的高度;
3-d表示在文档仅有一行时的行间距(即
Figure DEST_PATH_IMAGE032
中n取值1);
4-A表示文本关系图的邻接矩阵;
5-
Figure DEST_PATH_IMAGE034
表示第一层网络中节点之间的注意力系数;
6-
Figure DEST_PATH_IMAGE036
表表示第二层网络中节点之间的注意力系数;
7-W(1)表示第一层网络中权重矩阵;
8-W(2)表示第二层网络中权重矩阵;
9-X表示文本关系图中节点的特征矩阵;
10-
Figure DEST_PATH_IMAGE038
表示节点1和节点1之间的注意力系数;
11-
Figure DEST_PATH_IMAGE040
表示节点1和节点2之间的注意力系数;
12-
Figure DEST_PATH_IMAGE042
表示节点1和节点3之间的注意力系数;
13-
Figure DEST_PATH_IMAGE044
表示节点1和节点4之间的注意力系数;
14-k表示注意力头个数。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下面结合附图对本发明的实施例进行详细说明。
本申请实施例提供了一种基于图注意力网络的合同文档容错信息提取方法,用于对合同文档形成的制式图像资料进行有效信息提取。
如图1所示,本申请提供的基于图注意力网络的合同文档容错信息提取方法的一个实施例,包括OCR处理、特征提取、容错型图表示、构建图注意力网络、训练图注意力网络、预测合同信息类别等六个步骤,具体步骤如下:
S1. OCR处理(如图2和图3所示):
通过OCR引擎对合同图像进行字符识别,得到文本内容和对应的位置坐标,具体的:将合同文档图像输入到OCR引擎处理,得到文档的OCR输出结果由两部分组成,分别是文档中每一个文本内容的坐标信息
Figure 504888DEST_PATH_IMAGE002
和文本字符串内容
Figure 572201DEST_PATH_IMAGE004
其中:o i ={x左上,y左上,x右上,y右上,x右下,y右下,x左下,y左下},为第i个文本框的坐标信息,i的取值为1到n;
Figure 855415DEST_PATH_IMAGE006
为识别出的第h个文本的字符串内容,h的取值为1到n;n为OCR识别获得的文本内容总数。
S2. 特征提取:
即提取通过步骤S1处理的文本信息特征,该特征融合了文本信息的位置向量和文本字符串的词嵌入表示;具体的:将OCR得到的文本字符串内容利用sentence-bert网络进行句向量嵌入得到384维句向量,sentence-bert使用基于预训练过的BERT的孪生网络,获得在语义上有足够意义的篇章向量,然后把文本内容的坐标信息和文本字符串的句向量拼接得到文本信息特征,文本信息特征矩阵为C,维度为K×392,其中,k为合同文档中经过OCR识别出文本字符串的个数。
S3. 容错型图表示:
即对步骤S2提取的特征作为图节点特征,构建容错型合同文本关系图;具体的:
S31. 对经过OCR引擎处理过后的文本信息,采用正则化匹配,抽取出合同中的背景词(即合同中固定不变的文本内容)和信息词(即合同中变化的文本内容),对应的特征向量组合形成文本输入特征矩阵X,维度为n×392,n为背景词和信息词总数;
S32.以背景词为中心,建立左右两个容错窗口,容错窗口如图4所示,根据模板中背景词空间关系,当给定任意一个存在空间上下相邻关系的背景词t的背景词p,则第n份合同文档中的容错窗口高度
Figure 661566DEST_PATH_IMAGE008
,计算公式如下:
Figure DEST_PATH_IMAGE010A
Figure DEST_PATH_IMAGE012A
其中
Figure 785990DEST_PATH_IMAGE014
表示第n份文档的行间距,如果文档仅有一行,则
Figure 453732DEST_PATH_IMAGE014
设置为一固定值
第n份合同文档中的容错窗口宽度
Figure 43982DEST_PATH_IMAGE016
计算公式如下
Figure DEST_PATH_IMAGE018A
其中M是落在背景词t容错窗口高度
Figure 663445DEST_PATH_IMAGE008
内的所有信息词集合,m为变量,代表信息词集合M中第m个信息词,T是背景词集合;
假设训练样本有N个,则在训练之前可通过统计所有训练样本计算出容错窗口宽度W和容错窗口高度H,其计算公式如下:
Figure DEST_PATH_IMAGE020A
Figure DEST_PATH_IMAGE022A
S33.基于容错窗口建立合同的文本关系图,文本关系图中节点的边构建使用容错机制判定,方法如下:
(1)为每个背景词建立一个图节点;
(2)为每一个信息词建立一个图节点;
(3)除了最后一个背景词,背景词i和背景词i+1建立一条无向边;
(4)如果信息词位于第i个背景词的容错窗口内,则在信息节点和第i个背景节点间添加一条无向边;
按照上述规则建立了文本关系图G=(V,E),其中V包含背景节点和信息节点的特征,E表示节点之间边的关系矩阵。V的维度为n×392,E的维度为n×n,n为背景词和信息词总数。文本关系图如图5所示。
S4. 构建图注意力网络:
即设定图注意力网络的各层结构与激活函数;具体的:
S41.搭建一个两层的图注意网络,如图6所示,图注意力网络的结构依次为:第一图注意力层,第一激活层,第二图注意力层,激活输出层;其中图注意力层会计算邻域中所有节点的注意力权重,在每次迭代聚合信息时,邻居的特征表达会与权重做乘积运算,再对邻居计算出的结果做卷积;
本实施例中,输入图注意力网络n个图节点的特征矩阵,
Figure DEST_PATH_IMAGE046
,其中,
Figure DEST_PATH_IMAGE048
,F为每一个节点的特征数,令图注意力网络的输出为矩阵
Figure DEST_PATH_IMAGE050
,其中
Figure DEST_PATH_IMAGE052
,F′表示经过图注意力网络变换后的节点特征数,设
Figure DEST_PATH_IMAGE054
为第i和j个节点的注意力互相关系数,
Figure DEST_PATH_IMAGE056
为激活函数Softmax对注意力互相关系数
Figure 496403DEST_PATH_IMAGE054
进行正则化后的标量;则有:
Figure DEST_PATH_IMAGE058
其中,||表示连接操作,LeakyReLU(·)为激活函数, W为可训练的标签节点之间权值矩阵,
Figure DEST_PATH_IMAGE060
,N’表示和节点i相邻的节点集合;
第i个节点的输出为:
Figure DEST_PATH_IMAGE062
其中K表示注意力机制的头数,
Figure DEST_PATH_IMAGE064
表示节点i的邻接节点集合,
Figure DEST_PATH_IMAGE066
表示第k头注意力机制中节点i和j的注意力值,
Figure DEST_PATH_IMAGE068
表示第k头注意力机制的权重矩阵,
Figure DEST_PATH_IMAGE070
表示节点j的特征向量。
S42. 设置第一层图注意力层的注意力头个数4,节点特征拼接个数160,第二层一个注意力头,节点特征个数为待识别的合同信息类别个数,本实施例中为14。第一激活层采用ELU激活函数,激活输出层采用Softmax函数。
S5. 训练图注意力网络:
即将步骤S3建立的文本关系图的节点进行标注形成训练集,将训练集输入到步骤S4构建好的图注意力网络中进行训练,使得损失函数收敛为止;具体的:
S51.对步骤S3建立的文本关系图的节点进行标注,要识别的类别包括合同中的背景词和信息节点,假设要识别的信息节点有n个,则类别为n+1个,其中所有的背景词为一类,对节点进行标注形成训练集,本实施例中类别数为14;
S52.将步骤S51形成的训练集输入到步骤S4构建好的图注意力网络中,计算不同邻居节点的权重进行特征聚合,迭代更新网络参数,直至损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到训练好的图注意力网络。
S6. 预测合同信息类别:
即将待识别的合同建模成文本关系图输入到步骤S5训练好的图注意网络中,最终合同中某一个文本信息的预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。本实施例中:
对一个待分类的合同文档图像建模为文本关系图,将建模后的待分类文本关系图输入到训练好的图注意力网络中,网络输出每一个文本信息预测概率特征向量Y,Y的维度为n×M,其中n为分类文本节点个数,M为合同中信息类别数,本实施例中为14;最终节点预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于图注意力网络的合同文档容错信息提取方法,其特征在于,包括以下步骤:
S1. OCR处理,通过OCR引擎对合同图像进行字符识别,得到文本内容和对应的位置坐标;
S2. 特征提取,即提取通过步骤S1处理的文本信息特征,包括文本信息的位置向量和文本字符串的词嵌入表示;
S3. 容错型图表示,即对步骤S2提取的特征作为图节点特征,构建容错型合同文本关系图;
S4. 构建图注意力网络,即设定图注意力网络的各层结构与激活函数;
S5. 训练图注意力网络,即将步骤S3建立的文本关系图的节点进行标注形成训练集,将训练集输入到步骤S4构建好的图注意力网络中进行训练,使得损失函数收敛为止;
S6. 预测合同信息类别,即将待识别的合同建模成文本关系图输入到步骤S5训练好的图注意网络中,最终合同中某一个文本信息的预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。
2.根据权利要求1所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S1具体包括:
将合同文档图像输入到OCR引擎处理,得到文档的OCR输出结果由两部分组成,分别是文档中每一个文本内容的坐标信息
Figure DEST_PATH_IMAGE002
和文本字符串内容
Figure DEST_PATH_IMAGE004
其中:o i ={x左上,y左上,x右上,y右上,x右下,y右下,x左下,y左下},为第i个文本框的坐标信息,i的取值为1到n;
Figure DEST_PATH_IMAGE006
为识别出的第h个文本的字符串内容,h的取值为1到n;n为OCR识别获得的文本内容总数。
3.根据权利要求2所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S2具体包括:
将通过步骤S1处理得到的文本字符串内容进行句向量嵌入,得到对应的句向量,然后把文本内容的坐标信息和文本字符串的句向量拼接得到文本信息特征矩阵。
4.根据权利要求3所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S3具体包括:
S31.对经过步骤S2处理得到的文本信息,采用正则化匹配,抽取出合同中的背景词和信息词,对应的特征向量组合形成文本输入特征矩阵;
S32.以背景词为中心,建立左右两个容错窗口,根据模板中背景词空间关系,当给定任意一个存在空间上下相邻关系的背景词t的背景词p,则第n份合同文档中的容错窗口高度
Figure DEST_PATH_IMAGE008
,计算公式如下:
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE014
表示第n份文档的行间距,如果文档仅有一行,则
Figure 422333DEST_PATH_IMAGE014
设置为一固定值;
第n份合同文档中的容错窗口宽度
Figure DEST_PATH_IMAGE016
计算公式如下:
Figure DEST_PATH_IMAGE018
其中M是落在背景词t容错窗口高度
Figure 509500DEST_PATH_IMAGE008
内的所有信息词集合,m为变量,代表信息词集合M中第m个信息词,T是背景词集合;
通过设定训练样本个数,则在训练之前可通过统计所有训练样本计算出容错窗口宽度W和容错窗口高度H;
S33.基于容错窗口建立合同的文本关系图,文本关系图中节点的边构建使用容错机制判定,具体如下:
(1)为每个背景词建立一个图节点;
(2)为每一个信息词建立一个图节点;
(3)除了最后一个背景词,背景词i和背景词i+1建立一条无向边;
(4)如果信息词位于第i个背景词的容错窗口内,则在信息节点和第i个背景节点间添加一条无向边。
5.根据权利要求4所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,假设训练样本有N个,则所述容错窗口宽度W和容错窗口高度H的计算公式如下:
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
6.根据权利要求1或5任意一项所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S4具体包括:
S41.搭建一个两层的图注意网络,图注意力网络的结构依次为:第一图注意力层,第一激活层,第二图注意力层,激活输出层;其中图注意力层会计算邻域中所有节点的注意力权重,在每次迭代聚合信息时,邻居的特征表达会与权重做乘积运算,再对邻居计算出的结果做卷积;
S42.设置第一层图注意力层的注意力头个数,节点特征拼接个数,第二层一个注意力头,节点特征个数为待识别的合同信息类别个数;
其中,第一激活层采用ELU激活函数,激活输出层采用Softmax函数。
7.根据权利要求6所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,所述ELU激活函数公式如下:
Figure DEST_PATH_IMAGE024
其中
Figure DEST_PATH_IMAGE026
的取值设为1;
假设有一个数组V,
Figure DEST_PATH_IMAGE028
表示V中的第q个元素,那么这个元素的softmax值为:
Figure DEST_PATH_IMAGE030
8.根据权利要求6所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S5具体包括:
S51.对步骤S3建立的文本关系图的节点进行标注,要识别的类别包括合同中的背景词和信息节点,假设要识别的信息节点有n个,则类别为n+1个,其中所有的背景词为一类,对节点进行标注形成训练集;
S52.将步骤S51形成的训练集输入到步骤S4构建好的图注意力网络中,计算不同邻居节点的权重进行特征聚合,迭代更新网络参数,直至损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到训练好的图注意力网络。
9.根据权利要求1或8任意一项所述的基于图注意力网络的合同文档容错信息提取方法,其特征在于,步骤S6具体包括:
对一个待分类的合同文档图像建模为文本关系图,将建模后的待分类文本关系图输入到步骤S5训练好的图注意力网络中,网络输出每一个文本信息预测概率特征向量,将最终预测概率特征向量中的最大概率值对应的类别作为该文本信息的类别。
CN202210243757.8A 2022-03-14 2022-03-14 一种基于图注意力网络的合同文档容错信息提取方法 Active CN114332872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210243757.8A CN114332872B (zh) 2022-03-14 2022-03-14 一种基于图注意力网络的合同文档容错信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210243757.8A CN114332872B (zh) 2022-03-14 2022-03-14 一种基于图注意力网络的合同文档容错信息提取方法

Publications (2)

Publication Number Publication Date
CN114332872A true CN114332872A (zh) 2022-04-12
CN114332872B CN114332872B (zh) 2022-05-24

Family

ID=81034073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210243757.8A Active CN114332872B (zh) 2022-03-14 2022-03-14 一种基于图注意力网络的合同文档容错信息提取方法

Country Status (1)

Country Link
CN (1) CN114332872B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982324A (zh) * 2023-03-20 2023-04-18 广东电网有限责任公司广州供电局 基于改进的自然语言处理的采购文件检验方法

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290828A1 (en) * 2012-04-30 2013-10-31 Clipboard Inc. Extracting a portion of a document, such as a web page
CN105095178A (zh) * 2014-05-09 2015-11-25 安徽科大讯飞信息科技股份有限公司 实现文本语义容错理解的方法及系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN109964242A (zh) * 2018-05-25 2019-07-02 北京大学深圳研究生院 一种基于信任关系的区块链共识方法
CN110807335A (zh) * 2019-09-02 2020-02-18 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
US20200104729A1 (en) * 2018-09-27 2020-04-02 Babylon Partners Limited Method and system for extracting information from graphs
CN111274386A (zh) * 2019-11-21 2020-06-12 国网浙江杭州市萧山区供电有限公司 基于卷积神经网络与多注意力机制的工单文本分类算法
CN111476232A (zh) * 2020-03-11 2020-07-31 华东交通大学 一种洗水唛检测方法、设备和存储介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112464927A (zh) * 2020-11-25 2021-03-09 苏宁金融科技(南京)有限公司 一种信息提取方法、装置及系统
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112925908A (zh) * 2021-02-19 2021-06-08 东北林业大学 一种基于Attention的图注意力网络的文本分类方法及系统
US20210201182A1 (en) * 2020-09-29 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for performing structured extraction on text, device and storage medium
CN113220886A (zh) * 2021-05-31 2021-08-06 马上消费金融股份有限公司 文本分类方法、文本分类模型训练方法及相关设备
CN114139522A (zh) * 2021-11-09 2022-03-04 北京理工大学 一种基于层级注意力和标签引导学习的关键信息识别方法
CN114153971A (zh) * 2021-11-09 2022-03-08 浙江大学 一种含错中文文本纠错识别分类设备

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290828A1 (en) * 2012-04-30 2013-10-31 Clipboard Inc. Extracting a portion of a document, such as a web page
CN105095178A (zh) * 2014-05-09 2015-11-25 安徽科大讯飞信息科技股份有限公司 实现文本语义容错理解的方法及系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN109964242A (zh) * 2018-05-25 2019-07-02 北京大学深圳研究生院 一种基于信任关系的区块链共识方法
US20200104729A1 (en) * 2018-09-27 2020-04-02 Babylon Partners Limited Method and system for extracting information from graphs
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN110807335A (zh) * 2019-09-02 2020-02-18 腾讯科技(深圳)有限公司 基于机器学习的翻译方法、装置、设备及存储介质
CN111274386A (zh) * 2019-11-21 2020-06-12 国网浙江杭州市萧山区供电有限公司 基于卷积神经网络与多注意力机制的工单文本分类算法
CN111476232A (zh) * 2020-03-11 2020-07-31 华东交通大学 一种洗水唛检测方法、设备和存储介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
US20210201182A1 (en) * 2020-09-29 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for performing structured extraction on text, device and storage medium
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112464927A (zh) * 2020-11-25 2021-03-09 苏宁金融科技(南京)有限公司 一种信息提取方法、装置及系统
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112925908A (zh) * 2021-02-19 2021-06-08 东北林业大学 一种基于Attention的图注意力网络的文本分类方法及系统
CN113220886A (zh) * 2021-05-31 2021-08-06 马上消费金融股份有限公司 文本分类方法、文本分类模型训练方法及相关设备
CN114139522A (zh) * 2021-11-09 2022-03-04 北京理工大学 一种基于层级注意力和标签引导学习的关键信息识别方法
CN114153971A (zh) * 2021-11-09 2022-03-08 浙江大学 一种含错中文文本纠错识别分类设备

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
MEIQI CHEN等: "r-GAT: Relational Graph Attention Network for Multi-Relational Graphs", 《ARXIV:2109.05922V1》 *
SITI SAKIRA KAMARUDDIN等: "Deviation detection in text using conceptual graph interchange format and error tolerance dissimilarity function", 《INTELLIGENT DATA ANALYSIS》 *
仝宗和等: "图卷积神经网络理论与应用", 《信息技术与信息化》 *
刘斌: "基于自注意力机制的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张晗: "融合句义特征的人名消歧及人物关系抽取技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张玉洁等: "融合语义联想和BERT 的图情领域SAO短文本分类研究", 《图书情报工作》 *
李明哲: "基于图像与文本融合特征的暗网内容分类", 《万方数据》 *
陈博理: "基于双曲流形表征的多标签文本分类方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
韩姝敏等: "一种基于隐私保护下的多方记录链接方法", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982324A (zh) * 2023-03-20 2023-04-18 广东电网有限责任公司广州供电局 基于改进的自然语言处理的采购文件检验方法

Also Published As

Publication number Publication date
CN114332872B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
Manoharan Capsule network algorithm for performance optimization of text classification
Ba et al. Layer normalization
US20230056987A1 (en) Semantic map generation using hierarchical clause structure
CN110377759A (zh) 事件关系图谱构建方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
US20230315770A1 (en) Self-executing protocol generation from natural language text
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
AU2022204702B2 (en) Multimodal multitask machine learning system for document intelligence tasks
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114332872B (zh) 一种基于图注意力网络的合同文档容错信息提取方法
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN112699375A (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
CN115048511A (zh) 一种基于Bert的护照版面分析方法
Nasr et al. Building sentiment analysis model using Graphlab
CN108984532A (zh) 基于层次嵌入的方面抽取方法
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN110209772B (zh) 一种文本处理方法、装置、设备及可读存储介质
CN111597811A (zh) 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN113516094B (zh) 一种用于为文档匹配评议专家的系统以及方法
CN114647730A (zh) 一种融合图注意力和图卷积网络的事件检测方法
CN114357167A (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
Zargar et al. Automatic recognition of handwritten Urdu characters
Venkatesan et al. Sentimental Analysis of Industry 4.0 Perspectives Using a Graph‐Based Bi‐LSTM CNN Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant