CN112464781B

CN112464781B - 基于图神经网络的文档图像关键信息提取及匹配方法

Info

Publication number: CN112464781B
Application number: CN202011328157.9A
Authority: CN
Inventors: 王大寒; 黄智财; 陈坤泽; 黄占秋; 朱顺痣; 吴岳峰; 周伟; 吴芸
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2023-06-02
Anticipated expiration: 2040-11-24
Also published as: CN112464781A

Abstract

本发明涉及一种基于图神经网络的文档图像关键信息提取及匹配方法，包括以下步骤：步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型；步骤2:构建用于识别文字边框内的文字关键文本识别模型；步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型，获取全部子图的文字识别结果；步骤4：以关键文本边框为节点构建图，以图神经网络为基础网络分别对于每个文本框的节点进行聚合，并预测节点的关键文本节点类型；步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果，并得到最终的提取及匹配结果。本发明实现高效提取文档图像中的关键元素，并且准确地为关键元素匹配相应键值。

Description

基于图神经网络的文档图像关键信息提取及匹配方法

技术领域

本发明属于计算机信息处理技术领域，具体涉及一种基于图神经网络的文档图像关键信息提取及匹配方法。

背景技术

文档图像的分析与识别技术可广泛应用于银行票据识别、身份证识别、名片识别、营业执照识别、银行卡识别、印章识别、古籍文档识别、医疗文档识别、试卷识别等领域，对金融、教育、图书馆(比如古籍电子化)、政务等领域的信息化具有重要的推动作用。由于文档图像包含多种文档对象(比如公式、表格、插图、流程图、示意图等)，版式千变万化、错综复杂，还存在字体大小不一、背景复杂、手写体与印刷体混杂等各种问题，使文档分析与识别技术的应用还存在诸多难题。针对每一种特定文档，还需要设计相应的定制化技术以提高系统性能。

目前已经存在大量的文档管理系统来管理文档图像，然而这些文档管理系统大多数主要关注文档图像的存储以及对相对简单的文档图像的识别和电子化。对文档图像中关键信息或感兴趣信息的提取、检索等，尚没有引起足够的重视。本专利主要针对文档图像中关键信息的提取与匹配问题，提出一种基于图神经网络的方法。关键信息的提取主要应用于如下场景：人们不需要关注文档全部的内容，而是关注于自己感兴趣的信息，同时还需要理解文本的所属领域(即“键”)和具体内容(即“值”)，比如在银行领域，可能只对贷款额度(“键”)和具体金额(“值”)感兴趣。这与简单的全文识别有所不同，不仅需要识别文字，还要从全部文档信息中筛选出关键信息，因此具有更大的挑战，研发出一款关键信息提取及匹配方法具有十分重要的意义。

现有的文档图像信息提取技术大多采用全文识别加后处理的方法，这类方法只能适用于版面较为简单、识别相对容易的文档图像，关键信息的提取也主要是采用后处理的方法，这类方法针对不同的版面都要重新设计相应的版面分析与识别技术，限制了相关技术的应用与推广。因此有必要设计一种版面无关的通用的文档图像关键信息提取及匹配方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于图神经网络的文档图像关键信息提取及匹配方法，通过使用图神经网络的方法高效提取文档图像中的关键元素，并且准确地为关键元素匹配相应键值。

为实现上述目的，本发明采用如下技术方案：

一种基于图神经网络的文档图像关键信息提取及匹配方法，包括以下步骤：

步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型；

步骤2:构建用于识别文字边框内的文字关键文本识别模型；

步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型，获取全部子图的文字识别结果；

步骤4：以关键文本边框为节点构建图，以图神经网络为基础网络分别对于每个文本框的节点进行聚合，并预测节点的关键文本节点类型；

步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果，并得到最终的提取及匹配结果。

进一步的，所述关键文本检测模型采用双层UNet模型；输出为三通道的关键文本的区块掩码层；其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。

进一步的，所述关键文本图像识别模型采用的光学字符模型为CRNN模型，针对不同的文字类型分别依次训练不同的识别器，包括印刷体文字识别模型M_P、手写体文字识别模型M_H和印章字体文字识别模型M_S。

进一步的，所述步骤3具体为:

步骤3.1:将待提取信息的文档图像送入到关键文本检测模型中，检测到文本类别信息(印刷体、手写体和印章等)以及关键文本信息的N个边框坐标B＝{B₁,B₂,...,B_N}；

步骤3.2:根据得到的关键文本边框坐标B，从原始的文档图像中裁剪出所有包含关键文本信息的子图像I＝{I₁,I₂,...,I_N}；

步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本图像识别模型中，得到全部子图的文字识别结果T＝{T₁,T₂,...,T_N}，其中每个文本结果T_i＝{t₁,t₂,...}由长度不等的文字组成。

进一步的，所述步骤3.1具体为：

步骤3.1.1:将文档图像X送入到关键文本检测模型中，关键文本检测模型首先输出预测的关键文本文字掩码层X_T，其次将关键文本文字掩码层送入第二层Unet检测网络，得到关键文本所在区域掩码层X_B＝{X_BP,X_BH,X_BS}，其中三个元素分别表示关键文本区域掩码层的印刷体掩码层，手写体掩码层和印章掩码层；

步骤3.1.2:对于关键文本区域掩码层X_B进行阈值分割，设定划分阈值H_T，对于小于划分阈值的像素赋值为0，对于大于划分阈值的像素赋值为255，得到关键文本区域掩码层二值图B_bin，将掩码二值图进行轮廓计算，根据得到的轮廓从而得到关键文本所在区域的N个边框B＝{B₁,B₂,...,B_N}。

进一步的，所述步骤3.2具体为：

步骤3.2.1:输出的边框区域B，根据其关键文本类别的不用分别采用对应的文字识别模型，对于印刷体文本则调用印刷体文字识别模型M_P进行识别，手写体文字则使用手写体文字识别模型M_H，而印章部分则需要先通过曲线文字检测模块，获得曲线所在区域；

步骤3.2.2:然后拉直印章的曲线文字，再交由印章文字识别模型M_S进行识别；

步骤3.2.3:在获得文字识别结果之后，汇总全部类型的关键文本识别结果为T＝{T₁,T₂,...,T_N}。

进一步的，所述步骤4具体为：

步骤4.1:关键文本的文字识别结果T，经过嵌入式词向量层，将每一个文本行识别的文字结果转换为词向量E＝{E₁,E₂,...,E_N}来表示，其中每一个文本行的词向量E_i＝{e₁,e₂,...}，E_i长度与T_i相对应，e_i为每个词的词向量；

步骤4.2:根据得到关键文本框B＝{B₁,B₂,...,B_N}和文本行词向量E＝{E₁,E₂,...,E_N}，构建整张文档图像的关键信息图；

步骤4.3:在关键信息图中，对所有节点文本行词向量E按照最长文本进行补全，然后送入到双向LSTM循环神经网络中，并得到节点中所有词向量最后一层的隐含层特征E_h＝{E_h1,E_h2,...,E_hN}，同时将节点之间的边特征L送入到多层神经网络中，输出得到新的边特征向量L_h＝{L_hij|i,j∈N}；

步骤4.4、对于每一个节点i，分别与其邻接节点计算得到三元组特征向量T＝{T_ij|C_ij＝1}

其中T_ij＝E_hi|L_hij|E_hj由节点i的隐含层输出特征E_hi、节点j的隐含层输出特征E_hj与其连接边L_hij进行特征拼接得到；

步骤4.5：得到T_ij之后，对于节点i进行键值类别判断，将节点i所有的三元组特征T_ij经过两层全连接层，得到特征向量G_ij∈R^p，其维度为预测类别数p；

步骤4.6：将得到的特征向量G_ij进行聚合操作得到节点i的聚合特征表示

最后对于聚合完成的特征表示G_i送入到softmax函数中，得到最终的预测输出特征向量O_i∈R^p，将节点输出特征向量O_i的最大值所在的索引值对应的类型即为该节点预测的键值类型。

进一步的，所述构建整张文档图像的关键信息图具体为：每一个关键文本框为图的一个节点，设定每个节点i与其周边m个节点之间存在互相连接的边，得到图的连接矩阵为C＝{C_ij|i,j∈N}，如果节点i和j相连，如果节点i和j相连，则C_ij＝1，反之不相连C_ij＝0；然后计算得到边的特征L_i＝{L_ij|j∈m}，其中每条边Lij＝(l₁,l₂,...,l_k)由k个边框位置属性特征值组成，l_k具体的L_ij＝(l₁,l₂,...,l₇)由7个边框位置属性特征值组成，7个边框属性为

其中W,H分别表示文档图像的宽和高，w_n,h_n表示第n个关键文本框的宽高。

进一步的，所述步骤5具体为：

步骤5.1：根据已识别的文本行文字结果以及图神经网络的分类结果，使用正则表达式的方式以及建立领域规则库的方式，修复错误的文本行识别结果，修改分类结果；

步骤5.2、基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果，将属于同一类别的跨文本行文字进行合并，得到最终结果。

一种基于图神经网络的文档图像关键信息提取及匹配系统，包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块；所述关键信息检测模块用来关键文本所在区域边框位置；所述关键信息识别模块用于识别文字边框内的文字；所述关键信息匹配模块，用于关键信息键值匹配；所述关键信息后处理模块，用于以正则表达式以及领域规则库的方式修正关键文本的识别结果，并得到最终的提取及匹配结果。

本发明与现有技术相比具有以下有益效果：

本发明实现文档图像关键信息提取及匹配，具有良好的效果，可以高效且准确地提取文档图像中的关键文本信息。

附图说明

图1是本发明整体示意图；

图2是本发明一实施例中关键信息检测及识别概览图；

图3是本发明一实施例中关键信息键值匹配网络结构图；

图4是本发明一实施例中应用在文档图像上面的提取效果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于图神经网络的文档图像关键信息提取及匹配方法，包括以下步骤：

步骤2:构建用于识别文字边框内的文字关键文本识别模型；

参考图2，在本实施例中，所述关键文本检测模型采用双层UNet模型；输出为三通道的关键文本的区块掩码层；其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。

在本实施例中，所述关键文本图像识别模型采用的光学字符模型为CRNN模型，针对不同的文字类型分别依次训练不同的识别器，包括印刷体文字识别模型M_P、手写体文字识别模型M_H和印章字体文字识别模型M_S。

在本实施例中，所述步骤3具体为:

步骤3.1:将待提取信息的文档图像送入到关键文本检测模型中，检测到文本类别信息(印刷体、手写体和印章等)以及4每个关键文本信息的边框坐标B＝{B₁,B₂,B₃,B₄}；

步骤3.2:根据得到的关键文本边框坐标B，从原始的文档图像中裁剪出所有包含关键文本信息的子图像I＝{i₁,i₂,i₃,i₄}；

步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本图像识别模型中，得到全部子图的文字识别结果T＝{T₁,T₂,T₃,T₄}，其中每个文本结果T_i＝{t₁,t₂,...}由长度不等的文字组成。

在本实施例中，所述步骤3.1具体为：

步骤3.1.2:对于关键文本区域掩码层X_B进行阈值分割，设定划分阈值H_T为100，对于小于划分阈值的像素赋值为0，对于大于划分阈值的像素赋值为255，得到关键文本区域掩码层二值图B_bin，将掩码二值图进行轮廓计算，根据得到的轮廓从而得到关键文本所在区域的4个关键文本边框B＝{B₁,B₂,B₃,B₄}。

在本实施例中，所述步骤3.2具体为：

步骤3.2.3:在获得文字识别结果之后，汇总全部类型的关键文本识别结果为T＝{T₁,T₂,T₃,T₄}。如图4所示，在本实施例中T分别为：2019年01月07日、2025年01月06日、人民币4,581,800.00元、肆佰伍拾捌万壹仟捌佰元整。

在本实施例中，所述步骤4具体为：

步骤4.1:关键文本的文字识别结果T，经过嵌入式词向量层，将每一个文本行识别的文字结果转换为词向量E＝{E₁,E₂,E₃,E₄}来表示，其中每一个文本行的词向量E_i＝{e₁,e₂,...}，E_i长度与T_i相对应，e_i为每个词的词向量；

步骤4.2:根据得到关键文本框B＝{B₁,B₂,B₃,B₄}和文本行词向量E＝{E₁,E₂,E₃,E₄}，构建整张文档图像的关键信息图；每一个关键文本框为图的一个节点，设定每个节点i与其周边4个节点之间存在互相连接的边，得到图的连接矩阵为C＝{C_ij|i,j∈N}，如果节点i和j相连，如果节点i和j相连，则C_ij＝1，反之不相连C_ij＝0；然后计算得到边的特征L_i＝{L_ij|j∈m}，其中每条边Lij＝(l₁,l₂,...,l_k)由k个边框位置属性特征值组成，l_k具体的L_ij＝(l₁,l₂,...,l₇)由7个边框位置属性特征值组成，7个边框属性为

步骤4.3:在关键信息图中，对所有节点文本行词向量E按照最长文本进行补全，然后送入到双向LSTM循环神经网络中，并得到节点中所有词向量最后一层的隐含层特征E_h＝{E_h1,E_h2,E_h3,E_h4}，同时将节点之间的边特征L送入到多层神经网络中，输出得到新的边特征向量L_h＝{L_hij|i,j∈N}；

最后对于聚合完成的特征表示G_i送入到softmax函数中，得到最终的预测输出特征向量O_i∈R^p，将节点输出特征向量O_i的最大值所在的索引值对应的类型即为该节点预测的键值类型。如图4所示，在本实施例中，关键文本框的构建图存在4个节点，需要对4个关键文本框的节点进行类别预测，图4中对于4个节点的类别分别判断为：开始日期、截止日期、小写金额和大写金额。/>

在本实施例中，所述步骤5具体为：

步骤5.1：根据已识别的文本行文字结果以及图神经网络的分类结果，使用正则表达式的方式以及建立领域规则库的方式，修复错误的文本行识别结果，修改分类结果；例如图4中，金额-小写类别的文字识别结果的：人名币4,581,800.00元，依据规则库关注小写金额数字，使用正则表达式做后处理，最终提取数字结果为：4581800。

步骤5.2、基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果，将属于同一类别的跨文本行文字进行合并，得到最终结果，效果如图4最终结果所示。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，包括以下步骤：

步骤2:构建关键文本识别模型用于识别文本边框内的文字；

步骤3：将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型，获取全部子图的文字识别结果；

步骤5：以正则表达式以及领域规则库的方式修正关键文本的识别结果，并得到最终的提取及匹配结果；

所述步骤4具体为：

步骤4.3:在关键信息图中，对所有节点文本行词向量E按照最长文本进行补全，然后送入到双向LSTM循环神经网络中，并得到节点中所有词向量最后一层的隐含层特征E_h＝{E_h1,E_h2,...,E_hN}，同时将节点之间的边特征L送入到多层神经网络中，输出得到新的边特征向量L_h＝{L_hij|i,j∈N}，其中i和j为相邻节点；

步骤4.4、对于每一个节点i，分别与其邻接节点j计算得到三元组特征向量T＝{T_ij|C_ij＝1}

最后对于聚合完成的特征表示G_i送入到softmax函数中，得到最终的预测输出特征向量O_i∈R^p，将节点输出特征向量O_i的最大值所在的索引值对应的类型即为该节点预测的键值类型；

所述构建整张文档图像的关键信息图具体为：每一个关键文本框为图的一个节点，设定每个节点i与其周边m个节点之间存在互相连接的边，得到图的连接矩阵为C＝{C_ij|i,j∈N}，如果节点i和j相连，如果节点i和j相连，则C_ij＝1，反之不相连C_ij＝0；然后计算得到边的特征L_i＝{L_ij|j∈m}，其中每条边L_ij由k个边框位置属性特征值组成，l_k具体的L_ij＝(l₁,l₂,...,l₇)由7个边框位置属性特征值组成，7个边框属性为

2.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述关键文本信息检测模型采用双层UNet模型；输出为三通道的关键文本的区块掩码层；其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。

3.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述关键文本识别模型采用的光学字符模型为CRNN模型，针对不同的文字类型分别依次训练不同的识别器，包括印刷体文字识别模型M_P、手写体文字识别模型M_H和印章字体文字识别模型M_S。

4.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述步骤3具体为:

步骤3.1:将待提取信息的文档图像X送入到关键文本信息检测模型中，检测到文本类别信息以及N个关键文本信息的边框B＝{B₁,B₂,...,B_N}，其中每个边框B_N由四个边框坐标值组成B_N＝{b_N1,b_N2,b_N3,b_N4}；

步骤3.2:根据得到的关键文本边框集合B，从原始的文档图像中裁剪出所有包含关键文本信息的子图像I＝{I₁,I₂,...,I_N}；

步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本识别模型中，得到全部子图的文字识别结果T＝{T₁,T₂,...,T_N}，其中每个文本结果T_i＝{t₁,t₂,...}由长度不等的文字组成。

5.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述步骤3.1具体为：

步骤3.1.1:将文档图像X送入到关键文本信息检测模型中，关键文本信息检测模型首先输出预测的关键文本文字掩码层X_T，其次将关键文本文字掩码层送入第二层Unet检测网络，得到关键文本所在区域掩码层X_B＝{X_BP,X_BH,X_BS}，其中三个元素分别表示关键文本区域掩码层的印刷体掩码层，手写体掩码层和印章掩码层；

6.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述步骤3.2具体为：

7.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法，其特征在于，所述步骤5具体为：

步骤5.2：基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果，将属于同一类别的跨文本行文字进行合并，得到最终结果。

8.一种用于实现权利要求1-7任一所述基于图神经网络的文档图像关键信息提取及匹配方法的系统，其特征在于，包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块；所述关键信息检测模块用来关键文本所在区域边框位置；所述关键信息识别模块用于识别文字边框内的文字；所述关键信息匹配模块，用于关键信息键值匹配；所述关键信息后处理模块，用于以正则表达式以及领域规则库的方式修正关键文本的识别结果，并得到最终的提取及匹配结果。