CN112464781B - 基于图神经网络的文档图像关键信息提取及匹配方法 - Google Patents

基于图神经网络的文档图像关键信息提取及匹配方法 Download PDF

Info

Publication number
CN112464781B
CN112464781B CN202011328157.9A CN202011328157A CN112464781B CN 112464781 B CN112464781 B CN 112464781B CN 202011328157 A CN202011328157 A CN 202011328157A CN 112464781 B CN112464781 B CN 112464781B
Authority
CN
China
Prior art keywords
text
key
information
node
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011328157.9A
Other languages
English (en)
Other versions
CN112464781A (zh
Inventor
王大寒
黄智财
陈坤泽
黄占秋
朱顺痣
吴岳峰
周伟
吴芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN202011328157.9A priority Critical patent/CN112464781B/zh
Publication of CN112464781A publication Critical patent/CN112464781A/zh
Application granted granted Critical
Publication of CN112464781B publication Critical patent/CN112464781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于图神经网络的文档图像关键信息提取及匹配方法,包括以下步骤:步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型;步骤2:构建用于识别文字边框内的文字关键文本识别模型;步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型,获取全部子图的文字识别结果;步骤4:以关键文本边框为节点构建图,以图神经网络为基础网络分别对于每个文本框的节点进行聚合,并预测节点的关键文本节点类型;步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。本发明实现高效提取文档图像中的关键元素,并且准确地为关键元素匹配相应键值。

Description

基于图神经网络的文档图像关键信息提取及匹配方法
技术领域
本发明属于计算机信息处理技术领域,具体涉及一种基于图神经网络的文档图像关键信息提取及匹配方法。
背景技术
文档图像的分析与识别技术可广泛应用于银行票据识别、身份证识别、名片识别、营业执照识别、银行卡识别、印章识别、古籍文档识别、医疗文档识别、试卷识别等领域,对金融、教育、图书馆(比如古籍电子化)、政务等领域的信息化具有重要的推动作用。由于文档图像包含多种文档对象(比如公式、表格、插图、流程图、示意图等),版式千变万化、错综复杂,还存在字体大小不一、背景复杂、手写体与印刷体混杂等各种问题,使文档分析与识别技术的应用还存在诸多难题。针对每一种特定文档,还需要设计相应的定制化技术以提高系统性能。
目前已经存在大量的文档管理系统来管理文档图像,然而这些文档管理系统大多数主要关注文档图像的存储以及对相对简单的文档图像的识别和电子化。对文档图像中关键信息或感兴趣信息的提取、检索等,尚没有引起足够的重视。本专利主要针对文档图像中关键信息的提取与匹配问题,提出一种基于图神经网络的方法。关键信息的提取主要应用于如下场景:人们不需要关注文档全部的内容,而是关注于自己感兴趣的信息,同时还需要理解文本的所属领域(即“键”)和具体内容(即“值”),比如在银行领域,可能只对贷款额度(“键”)和具体金额(“值”)感兴趣。这与简单的全文识别有所不同,不仅需要识别文字,还要从全部文档信息中筛选出关键信息,因此具有更大的挑战,研发出一款关键信息提取及匹配方法具有十分重要的意义。
现有的文档图像信息提取技术大多采用全文识别加后处理的方法,这类方法只能适用于版面较为简单、识别相对容易的文档图像,关键信息的提取也主要是采用后处理的方法,这类方法针对不同的版面都要重新设计相应的版面分析与识别技术,限制了相关技术的应用与推广。因此有必要设计一种版面无关的通用的文档图像关键信息提取及匹配方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于图神经网络的文档图像关键信息提取及匹配方法,通过使用图神经网络的方法高效提取文档图像中的关键元素,并且准确地为关键元素匹配相应键值。
为实现上述目的,本发明采用如下技术方案:
一种基于图神经网络的文档图像关键信息提取及匹配方法,包括以下步骤:
步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型;
步骤2:构建用于识别文字边框内的文字关键文本识别模型;
步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型,获取全部子图的文字识别结果;
步骤4:以关键文本边框为节点构建图,以图神经网络为基础网络分别对于每个文本框的节点进行聚合,并预测节点的关键文本节点类型;
步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
进一步的,所述关键文本检测模型采用双层UNet模型;输出为三通道的关键文本的区块掩码层;其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。
进一步的,所述关键文本图像识别模型采用的光学字符模型为CRNN模型,针对不同的文字类型分别依次训练不同的识别器,包括印刷体文字识别模型MP、手写体文字识别模型MH和印章字体文字识别模型MS
进一步的,所述步骤3具体为:
步骤3.1:将待提取信息的文档图像送入到关键文本检测模型中,检测到文本类别信息(印刷体、手写体和印章等)以及关键文本信息的N个边框坐标B={B1,B2,...,BN};
步骤3.2:根据得到的关键文本边框坐标B,从原始的文档图像中裁剪出所有包含关键文本信息的子图像I={I1,I2,...,IN};
步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本图像识别模型中,得到全部子图的文字识别结果T={T1,T2,...,TN},其中每个文本结果Ti={t1,t2,...}由长度不等的文字组成。
进一步的,所述步骤3.1具体为:
步骤3.1.1:将文档图像X送入到关键文本检测模型中,关键文本检测模型首先输出预测的关键文本文字掩码层XT,其次将关键文本文字掩码层送入第二层Unet检测网络,得到关键文本所在区域掩码层XB={XBP,XBH,XBS},其中三个元素分别表示关键文本区域掩码层的印刷体掩码层,手写体掩码层和印章掩码层;
步骤3.1.2:对于关键文本区域掩码层XB进行阈值分割,设定划分阈值HT,对于小于划分阈值的像素赋值为0,对于大于划分阈值的像素赋值为255,得到关键文本区域掩码层二值图Bbin,将掩码二值图进行轮廓计算,根据得到的轮廓从而得到关键文本所在区域的N个边框B={B1,B2,...,BN}。
进一步的,所述步骤3.2具体为:
步骤3.2.1:输出的边框区域B,根据其关键文本类别的不用分别采用对应的文字识别模型,对于印刷体文本则调用印刷体文字识别模型MP进行识别,手写体文字则使用手写体文字识别模型MH,而印章部分则需要先通过曲线文字检测模块,获得曲线所在区域;
步骤3.2.2:然后拉直印章的曲线文字,再交由印章文字识别模型MS进行识别;
步骤3.2.3:在获得文字识别结果之后,汇总全部类型的关键文本识别结果为T={T1,T2,...,TN}。
进一步的,所述步骤4具体为:
步骤4.1:关键文本的文字识别结果T,经过嵌入式词向量层,将每一个文本行识别的文字结果转换为词向量E={E1,E2,...,EN}来表示,其中每一个文本行的词向量Ei={e1,e2,...},Ei长度与Ti相对应,ei为每个词的词向量;
步骤4.2:根据得到关键文本框B={B1,B2,...,BN}和文本行词向量E={E1,E2,...,EN},构建整张文档图像的关键信息图;
步骤4.3:在关键信息图中,对所有节点文本行词向量E按照最长文本进行补全,然后送入到双向LSTM循环神经网络中,并得到节点中所有词向量最后一层的隐含层特征Eh={Eh1,Eh2,...,EhN},同时将节点之间的边特征L送入到多层神经网络中,输出得到新的边特征向量Lh={Lhij|i,j∈N};
步骤4.4、对于每一个节点i,分别与其邻接节点计算得到三元组特征向量T={Tij|Cij=1}
其中Tij=Ehi|Lhij|Ehj由节点i的隐含层输出特征Ehi、节点j的隐含层输出特征Ehj与其连接边Lhij进行特征拼接得到;
步骤4.5:得到Tij之后,对于节点i进行键值类别判断,将节点i所有的三元组特征Tij经过两层全连接层,得到特征向量Gij∈Rp,其维度为预测类别数p;
步骤4.6:将得到的特征向量Gij进行聚合操作得到节点i的聚合特征表示
Figure BDA0002794914660000051
最后对于聚合完成的特征表示Gi送入到softmax函数中,得到最终的预测输出特征向量Oi∈Rp,将节点输出特征向量Oi的最大值所在的索引值对应的类型即为该节点预测的键值类型。
进一步的,所述构建整张文档图像的关键信息图具体为:每一个关键文本框为图的一个节点,设定每个节点i与其周边m个节点之间存在互相连接的边,得到图的连接矩阵为C={Cij|i,j∈N},如果节点i和j相连,如果节点i和j相连,则Cij=1,反之不相连Cij=0;然后计算得到边的特征Li={Lij|j∈m},其中每条边Lij=(l1,l2,...,lk)由k个边框位置属性特征值组成,lk具体的Lij=(l1,l2,...,l7)由7个边框位置属性特征值组成,7个边框属性为
Figure BDA0002794914660000061
其中W,H分别表示文档图像的宽和高,wn,hn表示第n个关键文本框的宽高。
进一步的,所述步骤5具体为:
步骤5.1:根据已识别的文本行文字结果以及图神经网络的分类结果,使用正则表达式的方式以及建立领域规则库的方式,修复错误的文本行识别结果,修改分类结果;
步骤5.2、基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果,将属于同一类别的跨文本行文字进行合并,得到最终结果。
一种基于图神经网络的文档图像关键信息提取及匹配系统,包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块;所述关键信息检测模块用来关键文本所在区域边框位置;所述关键信息识别模块用于识别文字边框内的文字;所述关键信息匹配模块,用于关键信息键值匹配;所述关键信息后处理模块,用于以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
本发明与现有技术相比具有以下有益效果:
本发明实现文档图像关键信息提取及匹配,具有良好的效果,可以高效且准确地提取文档图像中的关键文本信息。
附图说明
图1是本发明整体示意图;
图2是本发明一实施例中关键信息检测及识别概览图;
图3是本发明一实施例中关键信息键值匹配网络结构图;
图4是本发明一实施例中应用在文档图像上面的提取效果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于图神经网络的文档图像关键信息提取及匹配方法,包括以下步骤:
步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型;
步骤2:构建用于识别文字边框内的文字关键文本识别模型;
步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型,获取全部子图的文字识别结果;
步骤4:以关键文本边框为节点构建图,以图神经网络为基础网络分别对于每个文本框的节点进行聚合,并预测节点的关键文本节点类型;
步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
参考图2,在本实施例中,所述关键文本检测模型采用双层UNet模型;输出为三通道的关键文本的区块掩码层;其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。
在本实施例中,所述关键文本图像识别模型采用的光学字符模型为CRNN模型,针对不同的文字类型分别依次训练不同的识别器,包括印刷体文字识别模型MP、手写体文字识别模型MH和印章字体文字识别模型MS
在本实施例中,所述步骤3具体为:
步骤3.1:将待提取信息的文档图像送入到关键文本检测模型中,检测到文本类别信息(印刷体、手写体和印章等)以及4每个关键文本信息的边框坐标B={B1,B2,B3,B4};
步骤3.2:根据得到的关键文本边框坐标B,从原始的文档图像中裁剪出所有包含关键文本信息的子图像I={i1,i2,i3,i4};
步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本图像识别模型中,得到全部子图的文字识别结果T={T1,T2,T3,T4},其中每个文本结果Ti={t1,t2,...}由长度不等的文字组成。
在本实施例中,所述步骤3.1具体为:
步骤3.1.1:将文档图像X送入到关键文本检测模型中,关键文本检测模型首先输出预测的关键文本文字掩码层XT,其次将关键文本文字掩码层送入第二层Unet检测网络,得到关键文本所在区域掩码层XB={XBP,XBH,XBS},其中三个元素分别表示关键文本区域掩码层的印刷体掩码层,手写体掩码层和印章掩码层;
步骤3.1.2:对于关键文本区域掩码层XB进行阈值分割,设定划分阈值HT为100,对于小于划分阈值的像素赋值为0,对于大于划分阈值的像素赋值为255,得到关键文本区域掩码层二值图Bbin,将掩码二值图进行轮廓计算,根据得到的轮廓从而得到关键文本所在区域的4个关键文本边框B={B1,B2,B3,B4}。
在本实施例中,所述步骤3.2具体为:
步骤3.2.1:输出的边框区域B,根据其关键文本类别的不用分别采用对应的文字识别模型,对于印刷体文本则调用印刷体文字识别模型MP进行识别,手写体文字则使用手写体文字识别模型MH,而印章部分则需要先通过曲线文字检测模块,获得曲线所在区域;
步骤3.2.2:然后拉直印章的曲线文字,再交由印章文字识别模型MS进行识别;
步骤3.2.3:在获得文字识别结果之后,汇总全部类型的关键文本识别结果为T={T1,T2,T3,T4}。如图4所示,在本实施例中T分别为:2019年01月07日、2025年01月06日、人民币4,581,800.00元、肆佰伍拾捌万壹仟捌佰元整。
在本实施例中,所述步骤4具体为:
步骤4.1:关键文本的文字识别结果T,经过嵌入式词向量层,将每一个文本行识别的文字结果转换为词向量E={E1,E2,E3,E4}来表示,其中每一个文本行的词向量Ei={e1,e2,...},Ei长度与Ti相对应,ei为每个词的词向量;
步骤4.2:根据得到关键文本框B={B1,B2,B3,B4}和文本行词向量E={E1,E2,E3,E4},构建整张文档图像的关键信息图;每一个关键文本框为图的一个节点,设定每个节点i与其周边4个节点之间存在互相连接的边,得到图的连接矩阵为C={Cij|i,j∈N},如果节点i和j相连,如果节点i和j相连,则Cij=1,反之不相连Cij=0;然后计算得到边的特征Li={Lij|j∈m},其中每条边Lij=(l1,l2,...,lk)由k个边框位置属性特征值组成,lk具体的Lij=(l1,l2,...,l7)由7个边框位置属性特征值组成,7个边框属性为
Figure BDA0002794914660000101
其中W,H分别表示文档图像的宽和高,wn,hn表示第n个关键文本框的宽高。
步骤4.3:在关键信息图中,对所有节点文本行词向量E按照最长文本进行补全,然后送入到双向LSTM循环神经网络中,并得到节点中所有词向量最后一层的隐含层特征Eh={Eh1,Eh2,Eh3,Eh4},同时将节点之间的边特征L送入到多层神经网络中,输出得到新的边特征向量Lh={Lhij|i,j∈N};
步骤4.4、对于每一个节点i,分别与其邻接节点计算得到三元组特征向量T={Tij|Cij=1}
其中Tij=Ehi|Lhij|Ehj由节点i的隐含层输出特征Ehi、节点j的隐含层输出特征Ehj与其连接边Lhij进行特征拼接得到;
步骤4.5:得到Tij之后,对于节点i进行键值类别判断,将节点i所有的三元组特征Tij经过两层全连接层,得到特征向量Gij∈Rp,其维度为预测类别数p;
步骤4.6:将得到的特征向量Gij进行聚合操作得到节点i的聚合特征表示
Figure BDA0002794914660000111
最后对于聚合完成的特征表示Gi送入到softmax函数中,得到最终的预测输出特征向量Oi∈Rp,将节点输出特征向量Oi的最大值所在的索引值对应的类型即为该节点预测的键值类型。如图4所示,在本实施例中,关键文本框的构建图存在4个节点,需要对4个关键文本框的节点进行类别预测,图4中对于4个节点的类别分别判断为:开始日期、截止日期、小写金额和大写金额。/>
在本实施例中,所述步骤5具体为:
步骤5.1:根据已识别的文本行文字结果以及图神经网络的分类结果,使用正则表达式的方式以及建立领域规则库的方式,修复错误的文本行识别结果,修改分类结果;例如图4中,金额-小写类别的文字识别结果的:人名币4,581,800.00元,依据规则库关注小写金额数字,使用正则表达式做后处理,最终提取数字结果为:4581800。
步骤5.2、基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果,将属于同一类别的跨文本行文字进行合并,得到最终结果,效果如图4最终结果所示。
一种基于图神经网络的文档图像关键信息提取及匹配系统,包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块;所述关键信息检测模块用来关键文本所在区域边框位置;所述关键信息识别模块用于识别文字边框内的文字;所述关键信息匹配模块,用于关键信息键值匹配;所述关键信息后处理模块,用于以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,包括以下步骤:
步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型;
步骤2:构建关键文本识别模型用于识别文本边框内的文字;
步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型,获取全部子图的文字识别结果;
步骤4:以关键文本边框为节点构建图,以图神经网络为基础网络分别对于每个文本框的节点进行聚合,并预测节点的关键文本节点类型;
步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果;
所述步骤4具体为:
步骤4.1:关键文本的文字识别结果T,经过嵌入式词向量层,将每一个文本行识别的文字结果转换为词向量E={E1,E2,...,EN}来表示,其中每一个文本行的词向量Ei={e1,e2,...},Ei长度与Ti相对应,ei为每个词的词向量;
步骤4.2:根据得到关键文本框B={B1,B2,...,BN}和文本行词向量E={E1,E2,...,EN},构建整张文档图像的关键信息图;
步骤4.3:在关键信息图中,对所有节点文本行词向量E按照最长文本进行补全,然后送入到双向LSTM循环神经网络中,并得到节点中所有词向量最后一层的隐含层特征Eh={Eh1,Eh2,...,EhN},同时将节点之间的边特征L送入到多层神经网络中,输出得到新的边特征向量Lh={Lhij|i,j∈N},其中i和j为相邻节点;
步骤4.4、对于每一个节点i,分别与其邻接节点j计算得到三元组特征向量T={Tij|Cij=1}
其中Tij=Ehi|Lhij|Ehj由节点i的隐含层输出特征Ehi、节点j的隐含层输出特征Ehj与其连接边Lhij进行特征拼接得到;
步骤4.5:得到Tij之后,对于节点i进行键值类别判断,将节点i所有的三元组特征Tij经过两层全连接层,得到特征向量Gij∈Rp,其维度为预测类别数p;
步骤4.6:将得到的特征向量Gij进行聚合操作得到节点i的聚合特征表示
Figure FDA0004162931150000021
最后对于聚合完成的特征表示Gi送入到softmax函数中,得到最终的预测输出特征向量Oi∈Rp,将节点输出特征向量Oi的最大值所在的索引值对应的类型即为该节点预测的键值类型;
所述构建整张文档图像的关键信息图具体为:每一个关键文本框为图的一个节点,设定每个节点i与其周边m个节点之间存在互相连接的边,得到图的连接矩阵为C={Cij|i,j∈N},如果节点i和j相连,如果节点i和j相连,则Cij=1,反之不相连Cij=0;然后计算得到边的特征Li={Lij|j∈m},其中每条边Lij由k个边框位置属性特征值组成,lk具体的Lij=(l1,l2,...,l7)由7个边框位置属性特征值组成,7个边框属性为
Figure FDA0004162931150000022
其中W,H分别表示文档图像的宽和高,wn,hn表示第n个关键文本框的宽高。
2.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述关键文本信息检测模型采用双层UNet模型;输出为三通道的关键文本的区块掩码层;其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。
3.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述关键文本识别模型采用的光学字符模型为CRNN模型,针对不同的文字类型分别依次训练不同的识别器,包括印刷体文字识别模型MP、手写体文字识别模型MH和印章字体文字识别模型MS
4.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3具体为:
步骤3.1:将待提取信息的文档图像X送入到关键文本信息检测模型中,检测到文本类别信息以及N个关键文本信息的边框B={B1,B2,...,BN},其中每个边框BN由四个边框坐标值组成BN={bN1,bN2,bN3,bN4};
步骤3.2:根据得到的关键文本边框集合B,从原始的文档图像中裁剪出所有包含关键文本信息的子图像I={I1,I2,...,IN};
步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本识别模型中,得到全部子图的文字识别结果T={T1,T2,...,TN},其中每个文本结果Ti={t1,t2,...}由长度不等的文字组成。
5.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3.1具体为:
步骤3.1.1:将文档图像X送入到关键文本信息检测模型中,关键文本信息检测模型首先输出预测的关键文本文字掩码层XT,其次将关键文本文字掩码层送入第二层Unet检测网络,得到关键文本所在区域掩码层XB={XBP,XBH,XBS},其中三个元素分别表示关键文本区域掩码层的印刷体掩码层,手写体掩码层和印章掩码层;
步骤3.1.2:对于关键文本区域掩码层XB进行阈值分割,设定划分阈值HT,对于小于划分阈值的像素赋值为0,对于大于划分阈值的像素赋值为255,得到关键文本区域掩码层二值图Bbin,将掩码二值图进行轮廓计算,根据得到的轮廓从而得到关键文本所在区域的N个边框B={B1,B2,...,BN}。
6.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3.2具体为:
步骤3.2.1:输出的边框区域B,根据其关键文本类别的不用分别采用对应的文字识别模型,对于印刷体文本则调用印刷体文字识别模型MP进行识别,手写体文字则使用手写体文字识别模型MH,而印章部分则需要先通过曲线文字检测模块,获得曲线所在区域;
步骤3.2.2:然后拉直印章的曲线文字,再交由印章文字识别模型MS进行识别;
步骤3.2.3:在获得文字识别结果之后,汇总全部类型的关键文本识别结果为T={T1,T2,...,TN}。
7.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤5具体为:
步骤5.1:根据已识别的文本行文字结果以及图神经网络的分类结果,使用正则表达式的方式以及建立领域规则库的方式,修复错误的文本行识别结果,修改分类结果;
步骤5.2:基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果,将属于同一类别的跨文本行文字进行合并,得到最终结果。
8.一种用于实现权利要求1-7任一所述基于图神经网络的文档图像关键信息提取及匹配方法的系统,其特征在于,包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块;所述关键信息检测模块用来关键文本所在区域边框位置;所述关键信息识别模块用于识别文字边框内的文字;所述关键信息匹配模块,用于关键信息键值匹配;所述关键信息后处理模块,用于以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
CN202011328157.9A 2020-11-24 2020-11-24 基于图神经网络的文档图像关键信息提取及匹配方法 Active CN112464781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011328157.9A CN112464781B (zh) 2020-11-24 2020-11-24 基于图神经网络的文档图像关键信息提取及匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011328157.9A CN112464781B (zh) 2020-11-24 2020-11-24 基于图神经网络的文档图像关键信息提取及匹配方法

Publications (2)

Publication Number Publication Date
CN112464781A CN112464781A (zh) 2021-03-09
CN112464781B true CN112464781B (zh) 2023-06-02

Family

ID=74800028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011328157.9A Active CN112464781B (zh) 2020-11-24 2020-11-24 基于图神经网络的文档图像关键信息提取及匹配方法

Country Status (1)

Country Link
CN (1) CN112464781B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342997B (zh) * 2021-05-18 2022-11-11 成都快眼科技有限公司 一种基于文本行匹配的跨图文本阅读方法
CN113515596B (zh) * 2021-06-18 2022-04-05 深圳市对接平台科技发展有限公司 基于图像识别的成果大数据自动匹配方法
CN113536771B (zh) * 2021-09-17 2021-12-24 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN114283403B (zh) * 2021-12-24 2024-01-16 北京有竹居网络技术有限公司 一种图像检测方法、装置、存储介质及设备
CN114419636A (zh) * 2022-01-10 2022-04-29 北京百度网讯科技有限公司 文本识别方法、装置、设备以及存储介质
CN114419651A (zh) * 2022-03-03 2022-04-29 深圳依时货拉拉科技有限公司 智能票据识别方法、计算机可读存储介质及计算机设备
CN114359912B (zh) * 2022-03-22 2022-06-24 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及系统
CN117079288B (zh) * 2023-10-19 2023-12-29 华南理工大学 一种识别场景中文字语义的关键信息提取方法及模型
CN117593752B (zh) * 2024-01-18 2024-04-09 星云海数字科技股份有限公司 一种pdf文档录入方法、系统、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443250A (zh) * 2019-07-31 2019-11-12 天津车之家数据信息技术有限公司 一种合同印章的类别识别方法、装置和计算设备
WO2019242124A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 金额信息的提取方法、装置、终端设备及介质
CN111507349A (zh) * 2020-04-15 2020-08-07 深源恒际科技有限公司 一种ocr识别模型训练中的动态数据增强方法
CN111553363A (zh) * 2020-04-20 2020-08-18 北京易道博识科技有限公司 一种端到端的图章识别方法及系统
CN111814779A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据文本识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019242124A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 金额信息的提取方法、装置、终端设备及介质
CN110443250A (zh) * 2019-07-31 2019-11-12 天津车之家数据信息技术有限公司 一种合同印章的类别识别方法、装置和计算设备
CN111507349A (zh) * 2020-04-15 2020-08-07 深源恒际科技有限公司 一种ocr识别模型训练中的动态数据增强方法
CN111553363A (zh) * 2020-04-20 2020-08-18 北京易道博识科技有限公司 一种端到端的图章识别方法及系统
CN111814779A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据文本识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112464781A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112464781B (zh) 基于图神经网络的文档图像关键信息提取及匹配方法
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
Karatzas et al. ICDAR 2011 robust reading competition-challenge 1: reading text in born-digital images (web and email)
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN109858036B (zh) 一种文书划分方法及装置
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
CN114596566B (zh) 文本识别方法及相关装置
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
Igorevna et al. Document image analysis and recognition: a survey
CN104899551B (zh) 一种表单图像分类方法
US11341760B2 (en) Form processing and analysis system
Vafaie et al. Handwritten and printed text identification in historical archival documents
Park et al. A method for automatically translating print books into electronic Braille books
CN117037201A (zh) 基于图神经网络的表格结构识别方法、系统、设备及存储介质
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
Berriche et al. Seam carving-based Arabic handwritten sub-word segmentation
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
Fang Semantic segmentation of PHT based on improved DeeplabV3+
CN117079288B (zh) 一种识别场景中文字语义的关键信息提取方法及模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant