CN113536798B

CN113536798B - 一种多实例文档关键信息抽取方法和系统

Info

Publication number: CN113536798B
Application number: CN202110807793.8A
Authority: CN
Inventors: 宋佳奇; 王勇; 朱军民
Original assignee: Beijing Yidao Boshi Technology Co ltd
Current assignee: Beijing Yidao Boshi Technology Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2024-05-31
Anticipated expiration: 2041-07-16
Also published as: CN113536798A

Abstract

本发明公开了一种多实例文档关键信息抽取方法，涉及计算机视觉领域。该方法包括以下步骤：特征编码步骤，针对输入信息进行编码，相加后得到每个文字的第一特征向量；图像卷积步骤，以每个文字为节点，聚合相邻节点的第一特征向量，得到每个文字的第二特征向量；任务推理步骤，将所述第二特征向量输入至双向长短可记忆网络结合条件随机场，输出所有实体并提取问题特征，将问题特征和文章特征输入至问答系统，输出实例信息。该方法把命名实体识别、关系抽取和问答系统多个任务融合到一个模型中。使用LSTM、transformer等神经网络结构构建模型，做到端到端的训练和预测，最终输出文档中所有实体类型以及实例等关键信息。

Description

一种多实例文档关键信息抽取方法和系统

技术领域

本发明涉及计算机视觉领域，尤其是一种关于多实例文档关键信息抽取方法和系统。

背景技术

很多文档中存在某个信息值对应有多个子信息的情况，如图1，医疗发票中某一类项目对应多个子信息：数量/单位、金额、备注等，我们将这样一组信息称为一个实例。多实例文档指的是文档中包含多个信息结构相同的实例，我们想要将其包含的多个实例按照信息结构抽取出来。除此之外，还有一些不在实例内的单独的实体信息需要一并抽取出来，如图1中的票据代码、票据号码、交款人、校验码、开票日期等。这其中就涉及到了命名实体识别和实体间的关系抽取。由于申请人在处理关系抽取任务时，将其转换为自然语言处理中的问答系统任务，所以下面着重介绍命名实体识别、关系抽取和问答系统三个方向的技术发展背景。

命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、专有名词等。关系抽取的主要任务是发现文本中两个或多个实体之间的语义关系。两个任务的发展轨迹有着很大的相似性。处理命名实体识别和关系抽取任务的方法由早期的基于规则的方法，到后来的机器学习方法，发展到现在的以深度学习为主、机器学习为辅的主流框架。可以看出随着信息技术的不断发展，可用的数据不断扩增，我们使用的方法也在不断更新，当然识别的精度也在不断提高。在深度学习中，我们可以利用神经网络模型自身极强的拟合能力，很好地提取到带有关键信息的特征向量。此过程不需要人工参与而完全通过训练模型得到，这相对于基于规则和纯机器学习的方法就有了很大的优势，不仅大大提高了预测的准确度，省去了冗长复杂的特征制定过程，节省了大量的资源和精力，而且使模型的鲁棒性和泛化能力更强，不用针对每个实际的应用场景建立不同的规则。比较经典的处理命名实体识别任务的深度学习方法有长短可记忆网络+条件随机场，处理关系抽取任务的经典技术有CNN、RNN等。随着预训练的语言模型(比如BERT、GPT等)的推出及其对于一般文本的语义、语法和句法等强大的特征提取和表达能力，近些年出现了很多基于预训练语言模型的命名实体识别和关系抽取方法且展现出了很好的效果。但是这些算法大多数都是基于纯文本的数据集建立的，对于多实例文档这种不仅有文本，而且文档的图像结构和文本的位置信息作为建立模型不可或缺的特征的一类文档，仅仅依靠传统的方法是不够的，所以我们创造性地将问答系统的技术融合在模型中来获得更好的效果。下面将介绍一下问答系统任务的技术背景。

问答系统作为自然语言处理中经典的任务，是信息检索系统的一种高级形式，目标是用准确、简洁的自然语言回答用户用自然语言提出的问题。对于问答系统的研究最早可追溯到19世纪60年代，当时的方法是基于模板和规则，不管是模型的鲁棒性和精度都是比较差的。现在的问答系统的方法和技术很多，这里按照处理方法的不同分为两种：基于知识图谱的问答系统和基于阅读理解的问答系统。第一种以知识图谱构建事实性问答系统，从知识图谱中寻找答案，准确率比较高。缺点是过于依赖知识图谱，无法给出知识图谱之外的答案。这就要求我们有充足的资源来建立比较大规模的知识图谱。第二种是对非结构化的文章进行阅读理解得到答案。数据形式是给出一篇文章，围绕这个文章提出一些问题，任务是直接从文章中将答案抽取出来。比较常见的模型有Match-LSTM、BiDAF、R-NET、FastQAExt等等。这些模型的主要区别在于如何融合问题和文章的信息来获得更好的特征表示。

发明内容

本发明涉及一种多实例文档关键信息抽取方法和系统。该方法把命名实体识别、关系抽取和问答系统多个任务融合到一个模型中。使用LSTM、transformer等神经网络结构构建模型，做到端到端的训练和预测，最终输出文档中所有实体类型以及实例等关键信息。

根据本发明的第一方面，提供一种多实例文档关键信息抽取方法，所述多实例文档包括多个实例实体和非实例实体，每个实例实体以及该实例实体对应的多个关键字构成一条实例信息，输入信息包括：文档图像、文档图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标，其特征在于，所述抽取方法包括以下步骤：

特征编码步骤，针对输入信息进行编码，相加后得到每个文字的第一特征向量；

图像卷积步骤，以每个文字为节点，聚合相邻节点的第一特征向量，得到每个文字的第二特征向量；

任务推理步骤，将所述第二特征向量输入至双向长短可记忆网络结合条件随机场，输出所有实体并提取问题特征，将问题特征和文章特征输入至问答系统，输出实例信息。

进一步的，所述特征编码步骤具体包括：

针对所述文档图像进行编码，得到文档图像特征向量；

利用预训练好的GloVe词向量，将所述文本内容转换为文本词向量；

针对所述位置坐标进行编码，得到位置坐标特征向量；

拼接文本词向量和位置坐标特征向量并输入至Transformer模型中，输出得到拼接特征向量；

将文档图像特征向量与拼接特征向量相加，得到第一特征向量。

进一步的，文档图像特征向量和拼接特征向量的维度均为512。

进一步的，所述针对所述文档图像进行编码具体包括：

针对文档图像，采用预训练的深度卷积神经网络对文本块及其周边的图像特征进行编码，得到文档图像特征向量。

此处，周边的图像特征是通过卷积得到的。

进一步的，所述预训练的深度卷积神经网络为预训练的深度残差神经网络ResNet。

进一步的，针对所述位置坐标进行编码具体包括：

针对每个文字对应的位置坐标的坐标值做归一化处理；

取四个顶点中左上角和右下角的坐标值作为该文字的位置信息；

按照输入文字的顺序将每个文字的位置信息拼在一起并进行升维，得到作为所有文字内容的位置特征向量。

这里，样本图片上的每个字都可以看作是一个小的四边形，那么输入的位置坐标就是四个顶点的坐标。

进一步的，所述图像卷积步骤具体包括：

以文字作为节点，文字之间的链接关系代表图的边，根据各个节点的第一特征向量之间的欧式距离计算每一个节点与其他节点之间边的权重，获取一个软的图邻接矩阵；

根据所述软的图邻接矩阵，对相邻节点的第一特征向量进行加权聚合，得到聚合后的邻居节点特征；

针对某一节点的第一特征向量与聚合的邻居节点特征进行拼接；

采用多层感知机对拼接后的特征进行变换，得到每个文字的第二特征向量。

进一步的，所述任务推理步骤具体包括：

将所述第二特征向量输入至双向长短可记忆网络结合条件随机场，输出所有实体信息；

根据实体信息中每个实例实体以及实例实体对应的多个关键字的位置，从所述第二特征向量中提取一个实例实体以及该实例实体对应的多个关键字的特征，相加作为问题特征；

对整段文本内容进行编码，得到文章特征；

将问题特征和文章特征输入至问答系统，输出该实例实体的实例信息。

进一步的，所述问答系统为BiDAF模型。

根据本发明的第二方面，提供一种多实例文档关键信息抽取装置，所述装置基于前述任一方面提供的方法进行操作，所述装置包括：

特征编码模块，用于针对输入信息进行编码，相加后得到每个文字的第一特征向量；

图像卷积模块，用于以每个文字为节点，聚合相邻节点的第一特征向量，得到每个文字的第二特征向量；

任务推理模块，用于将所述第二特征向量输入至双向长短可记忆网络结合条件随机场，输出所有实体并提取问题特征，将问题特征和文章特征输入至问答系统，输出实例信息。

根据本发明的第三方面，提供一种多实例文档关键信息抽取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如以上任一方面所述的多实例文档关键信息抽取方法。

根据本发明的第四方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一方面所述的多实例文档关键信息抽取方法。

本发明的有益效果：

1.利用问答系统替换传统的关系抽取模型来更有针对性的抽取每个实例内包含的子信息，准确率更高；

2.由于问答系统的输入依赖于命名实体识别的输出，我们将它们放到一个模型，实现了端到端的训练和预测，避免了多个模型带来的错误传播，加快了学习效率，提高了精度；

3.泛化能力强，充分且高效地利用图像和文本特征，包括文本内的语法和语义、句子内文本之间的关系、文本在图像上的位置信息等。即使遇到比训练样本中更多的实例的情况，模型也能根据提取到的上述特征将每个实例准确的抽取出来；

4.更符合实际生产场景中的需求。一个模型相对于多个模型体积更小；工程化更加方便，不需要考虑模型间的连接转换问题；更容易找到实际场景中出错的原因，易于之后的维护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1示出现有技术中多实例医疗发票示例。

图2示出根据本发明实施例的算法流程图。

图3示出根据本发明实施例的算法结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明涉及一种精确的文档多模信息和关系提取方法。针对非固定版式文档关键信息和关系提取这一难题，本团队创新性地提出利用图卷积网络的机制，融合命名实体识别和实体关系预测的功能，充分且高效地利用文档特征，从而大大提升了非固定版式文档关键信息和信息关系提取的精度。

实施例

首先，本发明技术方案所涉及术语结合表1说明如下：

表1

实体：文档中所有实体，包括实例实体和非实例实体。

实例实体：每个实例实体A、B……M对应有多重属性，即具有多个子信息/关键字，子信息/关键字的值a_i、b_i、m_i可为空，i∈[1,n]。

关键字：每个子信息对应一种“关键字”，如关键字1/关键字2/关键字3……或关键字n。

实例信息：每个实例实体及其所对应的多个子信息共同构成一条“实例信息”，如：

A

a1

a2

a3

……

an

多实例文档：包含有多个信息结构相同的实例的文档，如以上表1整体所示。

非实例实体：不构成实例信息但属于文档信息一部分的实体，如表1中所示出的多个非实例实体(以上多个非实例实体的位置仅用于说明不构成实例信息，不构成限定)。

本发明涉及一种精确的文档关键信息抽取方法。针对多实例文档关键信息抽取这一问题，申请人创新性地提出将关系抽取任务转换成问答系统任务，来更有针对性的抽取文档中的每个实例，准确率相对于传统的利用实体对进行分类的关系抽取模型有很大的提升。将命名实体识别和问答系统放到一个模型中，充分利用文档的图像、文本和位置特征，实现端到端的训练和预测，避免了多个模型带来的误差传播的问题。由于任务之间有依赖性，将它们放进一个模型训练可以充分利用两个任务之间的关系相互促进、加快学习效率，最终使信息抽取的精度大大提升。

申请人将命名实体识别和问答系统放在一个模型中构成一个有机的整体。为了便于理解，可以将模型内的工作看成两个阶段：第一个阶段将不属于实例内子信息的实体通过命名实体识别的方法提取出来，如图1中的中的票据代码、票据号码、交款人、校验码、开票日期等信息，还包括每个实例的实例实体，如图1中的项目名称一列包含的信息；第二个阶段中，在第一个阶段抽取出来的每个实例的实例实体的基础上，分别将这些实例实体与实例实体内各个子信息的关键词(如图1中数量/单位、金额(元)、备注等)进行相加和编码构成我们需要输入问答系统的问题特征，输入问答系统的文章特征则为整个文档文本编码后的特征。这里我们针对每个实例做一次问答系统任务来抽取出对应该实例的子信息。

实施例

1.特征编码模块

模型的输入为整张样本的图像、所有内容拼成的一段文字以及每个文字对应的位置坐标。本模块的主要任务是对这些输入进行编码，生成可输入到后续模块的特征向量。

对于输入的图像，最重要的是做长宽比不变的尺寸归一化以及边界补0，使得图像的尺寸能够支持编码模块中神经网络要求的卷积和下采样等操作，并最大化的保留全局和局部特征信息。图像特征编码主要是采用深度卷积神经网络对文本块及其周边的图像特征进行编码。该步骤采用具有强大的表示能力的预训练的深度残差神经网络ResNet作为特征编码网络。该步骤目标是输出各个文本框对应的图像特征编码，因此，需要在网络输出特征图的对应位置上应用池化操作来获取对应的图像特征编码。该特征的维度为512。

对于文本和位置特征，我们首先利用预训练好的GloVe词向量将文字转换成向量，GloVe词向量内已包含有基本的语法和语义的信息，所以模型可以更好更快地学习到更高层次的特征。

GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性(similarity)、类比性(analogy)等。

样本图片上的每个字都可以看作是一个小的四边形，那么输入的位置坐标就是四个顶点的坐标。这里我们取四边形的四个顶点、长和宽拼在一起作为该文字的位置向量，即[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄,w,h]。然后我们将每个文字对应的词向量和位置向量拼在一起输入Transformer进行编码。利用Transformer里强大的多层多头自注意力机制，学习到文字之间的语法、语义以及各个部分对于后续任务的影响力，这对于后续任务的准确率有着重要的影响。从Transformer输出的特征向量维度为512。

Transformer是一种基于encoder-decoder结构的模型，它抛弃了以往的seq2seq模型中的RNN，采用Self—attention或者Mulit-head-self-attention使得输入的数据可以并行处理，提高运行效率。

得到上述两个特征向量后，在特征空间那一维将它们相加作为对应文字新的特征向量，相加之后的特征向量的维度为512。至此整个的特征编码模块就完成了，每个文字得到了维度为512的特征向量，这些特征向量不仅包含文字的图像特征、文字本身的语法和语义的信息，以及此类样本特有的语句特征，还有文字之间的相互位置关系，这使模型可以学习到多种信息，更好地完成最终的任务。

2.图像卷积模块

这一模块的功能是将特征编码模块输出的特征向量通过多层图卷积神经网络，充分学习文档特有的相对位置关系。

该模块定义的图为一个无向图，其中文字作为图的节点，文字之间的链接关系代表图的边。特征编码模块输出的特征向量经过图卷积网络骤层的卷积操作，各个节点不断地向邻居节点传播本节点的特征，同时融合相邻节点的特征，以达到增强本节点的表示，并且学习到内在的局部和全局图结构的目的。图卷积操作可分为三个步骤，第一步，根据各个节点之间特征的欧式距离计算每一个节点与其他节点之间边的权重，以获取到一个软的图邻接矩阵。根据该邻接矩阵，对相邻节点的特征进行加权聚合，得到聚合后的邻居节点特征；第二步，把本节点的特征与聚合的邻居节点的特征进行拼接；第三步，采用多层感知机对拼接后的特征进行变换，得到该节点最终的特征。经过我们的实验，对于多实例文档，图卷积神经网络的层数为3时效果相对较好。图卷积神经网络输出的特征向量维度为512。

所谓“软的图邻接矩阵”，是相对于“硬”编码值，如常量值，通常代表根据不同的条件(如输入)获取的可变的参数值，根据该邻接矩阵，对相邻节点的特征进行加权聚合，得到聚合后的邻居节点特征。关于“拼接”，通常特征图为三维的：高、宽、通道，此处拼接其实是在通道维度上的拼接，或者说合并。比如，[256,256,100]拼接[256,256,200],得到[256,256,300]。

3.任务推理模块

本模块由两个任务处理组成：命名实体识别和问答系统。其中命名实体识别主要抽取不属于实例子信息的实体类型，这其中不仅包括不在任何实例中的单独实体，也会将实例中的实例实体和说明实例中子信息的关键字抽取出来，这主要是为了生成输入问答系统的问题特征。

本模型中使用双向长短可记忆网络结合条件随机场(BiLSTM+CRF)来处理命名实体识别任务。双向长短可记忆网络采用双向堆叠的方式，可以有效地学习前向和后向的特征。条件随机场则结合双向长度可记忆网络的输出，通过内部的参数化的标签转移矩阵，对标签序列的分布进行建模，学习标签之间隐含的特征，从而更加快速准确地预测出实体标签序列。

抽取出实体类型之后，我们需要从中选出实例的实例实体和说明子信息的关键字所在的位置，然后将它们从图卷积模块输出的特征向量中抽取出来加在一起作为我们输入问答系统的问题特征，如图3所示。文章特征即为图卷积模块输出的特征向量。

问答系统采用经典的BiDAF(Bi-Directional Attention Flow for MachineComprehension)模型，它采用多阶段的、层次化处理，使得可以捕获原文不同粒度的特征。对输入的问题特征和文章特征使用双向的注意力机制，不仅有文章对问题方向的注意力，还有问题对文章方向的注意力。两个方向的注意力相互补充，分别学习不同的特征，使得我们从文章和问题中获得的信息更加全面。BiDAF模型的输出为答案在文章中的起点和终点，位于起点和终点的文章内容即为对应问题在文中的答案。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种多实例文档关键信息抽取方法，所述多实例文档包括多个实例实体和非实例实体，每个实例实体以及该实例实体对应的多个关键字构成一条实例信息，输入信息包括：文档图像、文档图像中文本块所有文字内容拼成的一段文本内容和每个文字对应的位置坐标，其特征在于，所述抽取方法把命名实体识别、关系抽取和问答系统多个任务融合到一个模型中，包括以下步骤：

特征编码步骤，针对输入信息进行编码，相加后得到每个文字的第一特征向量，

其中，所述特征编码步骤具体包括：

针对所述文档图像进行编码，得到文档图像特征向量；

针对所述位置坐标进行编码，得到位置坐标特征向量；

将文档图像特征向量与拼接特征向量相加，得到第一特征向量；

任务推理步骤，将所述第二特征向量输入至双向长短可记忆网络结合条件随机场，输出所有实体并提取问题特征，将问题特征和文章特征输入至问答系统，输出实例信息，

其中，所述任务推理步骤具体包括：

对整段文本内容进行编码，得到文章特征；

将问题特征和文章特征输入至问答系统BiDAF模型，输出该实例实体的实例信息。

2.根据权利要求1所述的多实例文档关键信息抽取方法，其特征在于，所述针对所述文档图像进行编码具体包括：

3.根据权利要求1所述的多实例文档关键信息抽取方法，其特征在于，针对所述位置坐标进行编码具体包括：

针对每个文字对应的位置坐标的坐标值做归一化处理；

4.根据权利要求1所述的多实例文档关键信息抽取方法，其特征在于，所述图像卷积步骤具体包括：

5.一种多实例文档关键信息抽取装置，所述装置基于根据权利要求1至4中任一项所述的方法进行操作，所述装置包括：

6.一种多实例文档关键信息抽取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行根据权利要求1至4中任一项所述的多实例文档关键信息抽取方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至4中任一项所述的多实例文档关键信息抽取方法。