CN113722490B

CN113722490B - 一种基于键值匹配关系的视觉富文档信息抽取方法

Info

Publication number: CN113722490B
Application number: CN202111039394.8A
Authority: CN
Inventors: 唐国志; 薛洋; 金连文; 谢乐乐; 汪嘉鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2023-05-26
Anticipated expiration: 2041-09-06
Also published as: CN113722490A

Abstract

本发明公开了一种基于键值匹配关系的视觉富文档信息抽取方法，包括：采集视觉富文档，对所述视觉富文档进行第一多模态特征提取，获得不同级别的特征文本；基于所述特征文本和词嵌入模型获得实体分类结果。本发明创新性地利用实体关联性来研究视觉富文档信息抽取，有效避开了基于命名实体识别的方法难以处理数字类别歧义性和语义歧义性等问题，对现有的视觉富文档信息抽取方法进行有效地补充。

Description

一种基于键值匹配关系的视觉富文档信息抽取方法

技术领域

本发明属于视觉信息抽取领域，特别是涉及一种基于键值匹配关系的视觉富文档信息抽取方法。

背景技术

信息抽取作为NLP的重要任务，其目的在于从结构化或半结构化的文档图像中提取特定信息。通常的信息抽取方法，往往是基于序列标注或是直接分类的方法。这些方法通常是延续自然语言处理中命名实体分类的方法，其做法具体为：将一张文档图像采用OCR(Optical Character Recognition，光学字符识别)的引擎获取图片中文本的内容以及其所处的空间位置并将文本内容按照从左到右，从上到下的顺序组织起来。随后，将组织好的文本送入命名实体识别或者文本分类神经网络模型。最终，获取到每个字符对应的命名实体的属性(例如，地址，金额，日期等)。虽然有一些方法尝试将文本的空间位置，图像的布局信息等以某种编码的形式构建，以此来提高模型对于版面信息变化多样的视觉富文档的适应能力。但是，通过直接的分类，完全忽略了本身布局信息对命名实体属性识别带来的天然优势。其次，直接的分类也无法应对一些纯数字类别或者一些具有语义歧义性的命名实体识别。具体而言：语义相似的类别包括不同类别对应的人名等情况。内容歧义类别包括同一段数字或者文字，因位置不同而属于不同类别等情况。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于命名实体关联性匹配的视觉富文档信息抽取方法，用于提升视觉富文档信息抽取方法对于一些数字类别歧义性和语义歧义性的命名实体识别较为困难的问题。

为实现上述目的，本发明提供了如下方案：一种基于键值匹配关系的视觉富文档信息抽取方法，包括：

采集视觉富文档，对所述视觉富文档进行第一多模态特征提取，获得不同级别的特征文本；基于所述特征文本和词嵌入模型获得实体分类结果。

优选地，对所述视觉富文档进行第一多模态特征提取包括提取文本的语义特征、提取文本的位置特征、提取文本的视觉特征；

其中，所述文本的语义特征通过词嵌入模型提取；

所述文本的位置特征通过文本的空间特征编码提取；

所述文本的视觉特征通过卷积神经网络提取所述视觉富文档的视觉图像，基于所述视觉图像的特征图提取文本位置处的视觉特征。

优选地，通过卷积神经网络提取所述视觉富文档的视觉图像，基于所述视觉图像的特征图提取文本位置处的视觉特征还包括，利用残差网络在ImageNet大规模分类数据集上预训练的模型对所述视觉富文档的视觉图像提取特征图，再利用RoIAlign根据每个文本段的空间位置，提取所述特征图对应区域的视觉特征。

优选地，获得不同级别的特征文本包括获得基于句子级别的特征文本，设计命名实体之间的关联性匹配网络、获得基于字符级的特征，设计命名实体识别网络。

优选地，所述基于句子级别的特征文本，设计命名实体之间的关联性匹配网络包括，根据所述第一多模态特征和每个句子的长度，基于字符级的特征截取自身表征；构建文档图结构，基于所述文档图结构，通过循环神经网络提取对应句子的上下文全局特征，获得文档图的节点特征。

优选地，所述基于句子级别的特征文本，设计命名实体之间的关联性匹配网络中，包括句子的特征获取：根据每个句子中字符的数量和所述第一多模态特征，截断取出对应句子的第二多模态特征；利用循环神经网络的结构提取整个句子的上下文特征，将所述上下文特征作为句子的全局表征。

优选地，所述基于句子级别的特征文本，设计命名实体之间的关系匹配网络采用图卷积网络进行构建；

所述图卷积网络包括输入节点特征和边特征；

所述节点特征采用所述句子的全局表征作为输入；

所述边特征采用节点与节点之间的位置临近关系、任意两个句子之间的位置的临近关系定义为中心点位置差距、宽高比位置特征。

优选地，基于字符级的特征，设计命名实体识别网络包括，根据所述文本的语义特征、所述文本的位置特征、所述文本的视觉特征，对每个字符的命名实体属性进行预测。

优选地，基于所述特征文本和词嵌入模型获得实体分类结果包括，根据词嵌入模型和所述文档图的节点特征，获得具有键值匹配关系的实体匹配结果；基于键的语义特征与所有待抽取的类别计算语义相似性，选取语义相似性最高的类别作为键值对的实体分类结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过提出键值关系匹配网络可以有效提取文档版面命名实体的相关性，避开了一些数字类别或者语义歧义性的命名实体区分。

2、本发明采用自注意力机制可以有效融合视觉，版面，语义多模态的信息。从而实现一种多模态的特征融合。

3、本发明提出一种基于Num2Vec的量化方式。这种量化方式采用固定的8位长度的数组保存数字。可以有效抑制因位置变化多样而导致的极大值极小值出现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的方法流程图；

图2是本发明实施例中定义的键值实体关系图；

图3是本发明实施例的文档图结构的构建过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了解决富文档关键信息抽取中语义相似或者内容歧义严重影响视觉信息抽取精度的问题，本文提出了一种基于键值匹配关系的视觉富文档信息抽取方法。视觉富文档图像中的文本通常是键-值对的形式，根据键的文本内容可以基本确定值的内容所属类别。在一个文档图像中可能存在多个相似的文本，如注册日期，成立日期，开业日期等，这些类别往往都是以数字的形式呈现，并没有丰富的语义信息在里面，采用分类或是命名实体识别的方式往往不能很好的处理这些类别。相反，利用这些值对应的键可以更符合人阅读理解的思路来进行区分。

如图2所示，用双箭头表示箭头连接的两个实体之间存在着关联性，其中一个实体的语义内容是对另一个实体的命名实体的属性做解释。因此，我们将前者定义为键，后者定义为值。另外，一些独立类，即没有键的值。他们通常在语义上有很强的区分性，通过传统的序列标注方法或者分类方法即可实现。

本发明将文档表示成图卷积网络的结构，图卷积网络通常基于图卷积的方法定义节点特征与边的特征，并构建一个文档图结构。这种结构通常是将每个文本块作为一个节点。并且，各个节点以全连接的形式构建连接关系。另外，初始的节点特征定义为每个文本块本身语义提取出来的词嵌入特征。而图网络的边特征反映的是任意两个节点之间的相对位置，包括相对位置和相对尺寸。常规的表示方式是直接采用两个节点之间的绝对位置表示。这种表示方式遇到两个文本块之间位置过远或者两个文本块之间宽高比过大的时候容易出现极端值。因此，为了解决这个问题，本发明提出了一种称为Num2Vec的量化方式。这种量化方式采用固定的8位长度的数组保存数字，具体而言，根据图片通常的像素值大小，这里用前四位表示坐标值的整数部分，而后四位表示的是坐标值的小数部分。就网络的输出而言，包含两个分支：第一个分支是实体键值关系的相关性评估分支，用于评估任意两个文本块之间是否具有键值对的匹配关系。图卷积网络中所有边之间均采用全连接的关系，任意个节点构成的边的连接数量是对。这时，将得到的边的特征送入多层感知机(MLP)后，再经过激活函数进行二分类的预测。另一个分支是独立类别的命名实体识别分支，这个分支主要用于处理一些不存在键值连接关系的命名实体。这些命名实体本身的语义就能够保证其属性可以被有效地区分，因此不需要额外的文本对其实体属性做解释。由此，这个分支可以有效解决独立样本的类别划分问题。

如图1所示，本发明提供了一种基于键值匹配关系的视觉富文档信息抽取方法，包括：

S1、收集和整理现有的视觉富文档信息抽取方法，统计和分析各个数据集的样本数量，命名实体的类别，以及具有键值关系的实体在整个数据集的占比。

所述的视觉富文档信息抽取数据集，是指具有键值匹配关系的视觉富文档信息抽取数据集。

所述的键值匹配关系是指一个实体的命名实体属性可以由另一个实体的语义来决定。这里就将前者定义为值，后者定义为键。

S11、基于预训练的大规模词嵌入模型提取文本的语义特征。基于卷积神经网络提取到的视觉图像的特征图提取文本位置处的视觉特征。基于文本的空间位置特征提取文本的空间特征编码，三种特征以串接的方式构建。

所述的预训练的大规模词嵌入模型所用的数据集是大量的语料，例如维基百科，百度百科等上面的文本内容。采用自编码的方式来训练模型。

所述的自编码模型是指在输入侧引入一种标记，让神经网络模型能够根据上下文的语境推断出这个被标记的语言的内容。

所述的卷积神经网络提取到的视觉图像的特征图提取文本位置处的视觉特征。具体而言是利用残差网络在ImageNet大规模分类数据集上预训练的模型。首先对整张视觉富文档图像提取特征图，随后利用RoIAlign根据每个文本段的空间位置，从整图的特征图上取出对应区域的视觉特征。

所述的残差网络是为了解决深度神经网络隐藏层过多而导致的网络退化问题。其基本的设计是思路是让神经网络学习的是一种潜在的残差映射而非恒等映射。

所述的文本空间位置编码的具体实施方案如下：根据每个文本段的空间位置，采用八位的数组来存储该位置编码。具体而言，数组的前四位存储整数部分的四位数字，数组的后四位存储小数部分的后面四位数字。

S2、基于句子级别设计命名实体之间的关系匹配网络。具体而言，根据上文提到的三种基于字符级的特征。按照每个句子的长度从字符级的特征中截取自身的表征。随后，构建一个文档图结构，文档图的节点特征采用循环神经网络提取对应的句子上下文全局特征。文档图的边特征采用8位的数组来存储。

所述的节点特征，采用上文提到的句子的全局表征作为输入。所述的边特征采用节点与节点之间的位置临近关系。任意两个句子之间的位置的临近关系定义为它们之间的中心点位置差距，宽高比等位置特征。

所述的基于句子级别设计命名实体之间的关系匹配网络中句子的特征获取方案为：首先，根据每个句子中字符的数量，从上文提到的多模态特征截断取出对应句子的多模态特征。随后利用循环神经网络的结构提取整个句子的上下文特征。最后，将该特征作为句子的全局表征。

S3、基于字符级别设计命名实体的识别网络。遵循常规的命名实体识别方法。结合上文提取的字符级多模态特征对每个字符的命名实体属性进行预测。

所述的字符级别设计命名实体的识别网络。这里采用常规的序列标注的方法，将上文提到的字符级的多模态特征送入全连接网络预测IOB维度的命名实体类别数。采用条件随机场(CRF)约束上下文的句法关系，由此保证了该分支出来的结果的语法关系是一致的。

S4、模型首先结合关系匹配网络的输出得到具有键值匹配关系的实体匹配结果。随后，利用键的语义特征与所有待抽取的类别计算语义相似性，选取语义相似性最高的类别作为该键值对的实体分类结果。

所述的模型最终输出结果，这里首先结合关系匹配网络的输出得到具有键值匹配关系的实体匹配结果。随后，将每个键值匹配对中的键与所有待抽取的类别计算语义上的相似性。选取语义相似度最接近的框作为键值对的类别标签。而有些命名实体不存在键值匹配关系，它们的类别属性判定根据命名实体的识别网络可以输出得到最终的命名实体类别结果。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于键值匹配关系的视觉富文档信息抽取方法,其特征在于，包括：

采集视觉富文档，对所述视觉富文档进行第一多模态特征提取，获得不同级别的特征文本；基于所述特征文本和词嵌入模型获得实体分类结果；

对所述视觉富文档进行第一多模态特征提取包括提取文本的语义特征、提取文本的位置特征、提取文本的视觉特征；

其中，所述文本的语义特征通过词嵌入模型提取；

所述文本的位置特征通过文本的空间特征编码提取；

所述文本的视觉特征通过卷积神经网络提取所述视觉富文档的视觉图像，基于所述视觉图像的特征图提取文本位置处的视觉特征；

通过卷积神经网络提取所述视觉富文档的视觉图像，基于所述视觉图像的特征图提取文本位置处的视觉特征还包括，利用残差网络在ImageNet大规模分类数据集上预训练的模型对所述视觉富文档的视觉图像提取特征图，再利用RoIAlign根据每个文本段的空间位置，提取所述特征图对应区域的视觉特征；

获得不同级别的特征文本包括获得基于句子级别的特征文本，设计命名实体之间的关联性匹配网络、获得基于字符级的特征，设计命名实体识别网络；

所述基于句子级别的特征文本，设计命名实体之间的关联性匹配网络包括，根据所述第一多模态特征和每个句子的长度，基于字符级的特征截取自身表征；构建文档图结构，基于所述文档图结构，通过循环神经网络提取对应句子的上下文全局特征，获得文档图的节点特征；

基于所述特征文本和词嵌入模型获得实体分类结果包括，根据词嵌入模型和所述文档图的节点特征，获得具有键值匹配关系的实体匹配结果；基于键的语义特征与所有待抽取的类别计算语义相似性，选取语义相似性最高的类别作为键值对的实体分类结果。

2.根据权利要求1所述的基于键值匹配关系的视觉富文档信息抽取方法，其特征在于，

所述基于句子级别的特征文本，设计命名实体之间的关联性匹配网络中，包括句子的特征获取：根据每个句子中字符的数量和所述第一多模态特征，截断取出对应句子的第二多模态特征；利用循环神经网络的结构提取整个句子的上下文特征，将所述上下文特征作为句子的全局表征。

3.根据权利要求1所述的基于键值匹配关系的视觉富文档信息抽取方法，其特征在于，

所述基于句子级别的特征文本，设计命名实体之间的关系匹配网络采用图卷积网络进行构建；

所述图卷积网络包括输入节点特征和边特征；

所述节点特征采用所述句子的全局表征作为输入；

4.根据权利要求1所述的基于键值匹配关系的视觉富文档信息抽取方法，其特征在于，

基于字符级的特征，设计命名实体识别网络包括，根据所述文本的语义特征、所述文本的位置特征、所述文本的视觉特征，对每个字符的命名实体属性进行预测。