CN112232149A

CN112232149A - 一种文档多模信息和关系提取方法及系统

Info

Publication number: CN112232149A
Application number: CN202011044528.0A
Authority: CN
Inventors: 王勇; 朱军民; 宋佳奇
Original assignee: Beijing Yidao Boshi Technology Co ltd
Current assignee: Beijing Yidao Boshi Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-15
Anticipated expiration: 2040-09-28
Also published as: CN112232149B

Abstract

本发明公开了一种文档多模信息和关系提取方法及系统，涉及计算机视觉领域。该方法包括：对原始文档图像、文本块内容和文本块框的坐标值进行预处理；对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征进行融合，作为融合编码特征；以文本块作为节点，利用图网络聚合相邻节点的融合编码特征；通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与前一步骤的结果进行拼接得到图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并通过关系抽取模块预测实体关系。该方法能够支撑高效且健壮地提取非固定版式文档上的实体以及实体之间的关系。

Description

一种文档多模信息和关系提取方法及系统

技术领域

本发明涉及计算机视觉领域，尤其是一种基于深度学习和图卷积网络的文档多模信息和关系提取方法及系统。

背景技术

信息提取是从给定的非结构化的文档中提取关键的信息和关系，以形成结构化的数据输出。传统的信息抽取方法主要聚焦于普通的线性自然序列文本，通常按照序列化标签的思想，采用命名体识别(Named Entity Recognition)的框架来提取实体以及实体之间的关系。该类方法通常以文本信息为主，不会考虑文档视觉等方面的特征，如图像、版面结构、字体等。因此，在特定类型的样本上具有一定的局限性，如现实中广泛存在的，包含有丰富视觉特征的文档，如发票、车票、小票等,见图1a至图1c。该类型文档通常包含有特定的文档全局版式、表格结构以及特定的字体样式等。对于该类型文档的关键信息提取，除了文本语义特征，视觉特征通常会起到决定性的作用，如关键信息的(相对)位置、全局版式结构、图像特征(如字体、颜色)等。如图1a和图1b中存在的多个金额字段，图1c中存在的两个时间字段，如果要准确的提取总金额和发车时间字段，则必须要利用这些字段的位置特征。

对于这类文档，一种传统的关键信息抽取的方法是基于模板匹配的方法。这种方法具有两方面的缺点。第一，不具备现实业务场景下持续的可扩展性。如图1中每一类示例文档通常都具有大量不同的版式，如医疗发票。模板匹配的方法需要为每一种版式都定制一个特定的模板，且持续的维护已定制的所有模板，以保证在新的模板加入时不会影响到已有模板的功能。因此，即便只考虑上述一种文档，如图1a中的医疗发票，模板的方法也需要大量的持续的维护和更新成本，现实中这通常是很困难的，而且也容易出错。另外，这些文档通常都存在比较严重的由于套打引起的字段位置偏移问题，这也给模板匹配的方法带来了一定的困难。第二，即使针对只有有限数量版式的文档，现实中样本采集(如用户拍照上传)引入的图像扭曲、模糊以及干扰物等问题，也会大大降低模板匹配方法的性能。

发明内容

本发明涉及一种基于深度学习和图卷积网络的文档多模信息和关系提取方法。该方法通过特征编码和图卷积网络，结合命名体识别和实体关系预测的方式，充分且有效地利用文档的文本、位置、全局版式以及图像等层面的特征，以学习到丰富的语义表示，从而支撑高效且健壮地提取非固定版式文档上的实体以及实体之间的关系。

根据本发明的第一方面，提供一种文档多模信息和关系提取方法，其中，输入包括：原始文档图像、一组文本块和与之对应的一组文本块框，该组文本块按照位置关系排序后拼接能够得到整体文档文本，所述方法包括：

步骤1，预处理步骤：对原始文档图像、文本块内容和文本块框的坐标值进行预处理；

步骤2，特征编码步骤：对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征进行融合，作为融合编码特征；

步骤3，图网络增强步骤：以文本块作为节点，聚合相邻节点的融合编码特征；

步骤4，解码步骤：通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与步骤3的结果进行拼接得到结合词向量的图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并进行关系抽取预测实体关系。

进一步的，步骤1具体包括：

针对原始文档图像，进行长宽比不变的尺寸归一化以及边界补0；

针对文本块内容，去除不必要字符，包括但不限于换行符；

针对文本块框的坐标值，对文本块框的坐标值做归一化处理。

进一步的，步骤2具体包括：

对文本块对应图像进行编码，得到编码的文本块框图像特征；

对文本块内容进行编码，得到编码的文本块内容特征；

对文本块框的坐标值进行编码，得到编码的文本块框位置特征；

将编码的文本块框图像特征、文本块框位置特征以及文本块内容特征通过相加的方式进行融合，作为融合编码特征。

进一步的，对文本块对应图像进行编码得到编码的文本块框图像特征具体包括：

采用由大量非固定版式文档组成的训练集对深度残差神经网络作为基础模型进行预训练，学习最佳的参数，并输出文本块像素区域对应的视野范围内的图像特征图；

输入文本块框坐标，在文本块框所对应的区域特征图上应用池化操作，得到编码的文本块框图像特征。

进一步的，所述编码的文本块框图像特征的维度为512。

进一步的，对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为：

将输入的文本块框坐标值表示为[x,y,w,h]，其中(x,y)为文本块框左上点的坐标，w和h为文本块框的宽和高，采用多层感知机完成升维操作，得到编码的文本块框位置特征。

进一步的，所述编码的文本块框位置特征的维度为512。

进一步的，对文本块内容进行编码得到编码的文本块内容特征具体为：

采用一层双向长短记忆网络对文本块内容进行编码，选择最后一个时间步骤的隐藏层特征作为编码的文本块内容特征。

进一步的，所述编码的文本块内容特征的维度为512。

进一步的，所述步骤3具体包括：

步骤31：以文本块作为节点，文本块之间的链接关系代表图的边，根据各个节点的融合编码特征之间的欧式距离计算每一个节点与其他节点之间边的权重，获取一个软的图邻接矩阵；

步骤32：根据所述软的图邻接矩阵，对相邻节点的融合编码特征进行加权聚合，得到聚合后的邻居节点特征；

步骤33：针对某一节点的特征与聚合的邻居节点特征进行拼接；

步骤34：采用多层感知机对拼接后的特征进行变换。

进一步的，所述步骤4具体包括：

以文本块拼接的整体文档文本为输入，通过词向量学习得到一个词向量表，包括每一个字的词向量；

对步骤34得到的变换特征进行维度扩展；

将维度扩展后的变换特征分别与该文本块中每一个字的词向量特征进行拼接，得到图网络增强编码特征；

将图网络增强编码特征作为双向长度可记忆网络的输入，所述双向长短可记忆网络结合条件随机场；

通过条件随机场输出实体；

以双向长度可记忆网络的输出和条件随机场输出的实体作为输入，对实体之间可能的关系进行分类，以预测可能存在的链接关系，得到实体间关系。

根据本发明的第二方面，提供一种文档多模信息和关系提取装置，其中，所述文档多模信息和关系提取装置基于前述任一项所述方法进行操作，所述文档多模信息和关系提取装置包括：

预处理模块，对原始文档图像、文本块内容和文本块框的坐标值进行预处理；

特征编码模块：对文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码，将编码后的特征通过相加的方式进行融合，作为融合编码特征；

图网络增强模块：以文本块作为节点，聚合相邻节点的融合编码特征；

解码模块：通过词向量学习得到预处理后的原始文档图像中每一个字的词向量，与图网络增强模块的输出结果进行拼接得到图网络增强编码特征，通过双向长短可记忆网络结合条件随机场输出实体，并通过关系抽取模块预测实体关系。

根据本发明的第三方面，提供一种文档多模信息和关系提取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如以上任一方面所述的一种文档多模信息和关系提取方法。

根据本发明的第四方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一方面所述的一种文档多模信息和关系提取方法。

本发明的有益效果：

1.充分且高效地利用文档特征，包括版式、文本块位置、图像以及文本特征，很好地解决了非固定版式文档关键信息提取的难题；

2.端到端的模型化解决方案，具有持续的现实应用场景可扩展性，如从具有大量不同版式结构的同一类文档中提取关键信息；

3.可以很好地解决传统模板匹配的方法难以解决的问题，如由于套打引入的文本块位置偏移，由于取图方式引入的图像扭曲，变形和有干扰物等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1a至图1c示出现有技术中不同版式和类型的文档示例。

图2示出根据本发明实施例的算法流程图。

图3示出根据本发明实施例的算法结构图。

图4示出根据本发明实施例的图卷积网络结构图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明涉及一种精确的文档多模信息和关系提取方法。针对非固定版式文档关键信息和关系提取这一难题，本团队创新性地提出利用图卷积网络的机制，融合命名体识别和实体关系预测的功能，充分且高效地利用文档特征，从而大大提升了非固定版式文档关键信息和信息关系提取的精度。

实施例

实施例具体的算法流程图如下：图2为算法整体流程图，图3为包含了监督学习Loss的算法结构图。

第一步：输入预处理

该步骤首先输入原始图像，原始图像包含多处由多个文本构成的文本块，对各个文本块分别添加文本块框，并输入文本块框的坐标值。对输入做预处理操作，输入包括图像、文本块框以及文本。

对于输入的图像，最重要的是做长宽比不变的尺寸归一化以及边界补0，使得图像的尺寸能够支持编码模块中神经网络要求的卷积和下采样等操作，并最大化的保留全局和局部特征信息。训练时，图像预处理阶段还需要完成必要的数据增强，如图像仿射变换(rotation,shear,scale,等)、颜色扭曲等，使得训练样本的分布更接近于潜在的真实样本生成分布，以缓解可能的数据稀缺性问题，从而提升学习模型的鲁棒性和不变性。预测阶段，则只做图像尺寸的归一化处理。

对于输入的文本块框，需要对坐标值做归一化处理，目的是把坐标归一化到[0,1]之间，以消除不同图像尺寸下不同大小的坐标值对于学习的模型不变性的影响。

对于输入的文本，最重要的是剥离不必要的字符，如换行符等，以消除不必要的字符干扰。

第二步：特征编码模块

该模块包括图像、文本块框位置和文本特征编码三部分。

图像特征编码主要是采用深度卷积神经网络对对文本块像素区域对应的视野范围内的图像特征进行编码。该步骤采用具有强大的表示能力的预训练的深度残差神经网络作为基础模型，在由大量非固定版式文档组成的训练集上训练，学习到最佳的参数。该步骤目标是输出各个文本块框对应的图像特征编码，因此，需要在网络输出特征图的对应位置上应用池化操作来获取对应的图像特征编码。该特征的维度为512。

文本块框位置编码模块目的主要是把低维度的文本块框位置特征升维到高维度空间。其中文本块框位置特征表示为[x,y,w,h]，其中(x,y)为文本块框左上点的坐标，w和h为文本块框的宽和高。采用多层感知机完成升维操作，输出特征维度为512。多层感知机意指含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。

文本块特征编码采用一层双向长短记忆网络，对文本块内文字的特征进行编码，从而得到文本块的特征。长度记忆网络具有良好的长距离依赖的学习能力，采用两个方向的网络堆叠的方式可以有效地学习前向和后向的特征依赖。最终，选择最后一个时间步骤的隐藏层特征作为编码后的文本块特征，其维度为512。

最后，以上三部分输出的特征通过相加的方式进行融合，作为最终的特征，输入到图模块。

第三步：图网络增强模块

该模块包含图卷积网络和文本块节点分类Loss两部分。

该模块定义的图为一个无向图，其中文本块作为图的节点，文本块之间的链接关系代表图的边。初始的文本块的特征来自于第二步编码器的输出，其中融合了文本块图像、位置以及文本三方面的特征。经过图卷积网络骤层的卷积操作，各个节点不断地向邻居节点传播本节点的特征，同时融合相邻节点的特征，以达到增强本节点的表示，并且学习到内在的局部和全局图结构的目的。其中，图卷积操作可分为三个步骤，第一步，根据各个节点之间特征的欧式距离计算每一个节点与其他节点之间边的权重，距离越近，权重越大，以获取到一个软的图邻接矩阵。所谓“软的图邻接矩阵”，是相对于“硬”编码值，如常量值，通常代表根据不同的条件(如输入)获取的可变的参数值，根据该邻接矩阵，对相邻节点的特征进行加权聚合，得到聚合后的邻居节点特征；第二步，把本节点的特征与聚合的邻居节点的特征进行拼接；第三步，采用多层感知机对拼接后的特征进行变换，得到该节点最终的特征。如图4。关于“拼接”，通常特征图为三维的：高、宽、通道，此处拼接其实是在通道维度上的拼接，或者说合并。比如，[256,256,100]拼接[256,256,200],得到[256,256,300]。

第四步：解码模块

解码模块主要包括词向量学习、特征结合，以及长短记忆网络、条件随机场和关系抽取部分。

词向量学习以文档中文本块拼接的整体文本为输入，目标是在整体文档文本的范围内学习到一个词向量表，得到每一个字的词向量。该词向量通过特征结合模块与图模块输出的文本块特征进行结合。由于图模块输出的是每一个文本块节点的特征，因此这里需要首先对文本块节点特征进行维度扩展，再与该文本块的词向量特征进行空间维度扩展从而实现拼接，得到最终结合后的词特征。该特征作为双向长度可记忆网络的输入。此处拼接同样是指在通道维度上的拼接，或者说合并。

双向长短可记忆网络结合条件随机场是经典的序列标签任务的解决方法。相对于传统的RNN网络，双向长短可记忆网络通过引入记忆单元，能够很好地学习序列中长距离的特征依赖。采用双向堆叠的方式，可以有效地学习前向和后向(过去和将来)的特征。条件随机场则结合双向长度可记忆网络的输出，通过内部的参数化的标签转移矩阵，对标签序列的分布进行建模，预测出实体标签序列。本发明在该经典的方法上增加了实体关系抽取模块，实现对实体之间依赖关系的预测。这种关系可能是键值对关系也可能是其它实体间的依赖关系。具体的讲，关系抽取模块以双向长度可记忆网络的输出和条件随机场输出的实体作为输入，对实体之间可能的关系进行分类，以预测可能存在的链接关系。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种文档多模信息和关系提取方法，输入包括：原始文档图像、一组文本块和与之对应的一组文本块框，该组文本块按照位置关系排序后拼接能够得到整体文档文本，其特征在于，所述方法包括：

2.根据权利要求1所述的文档多模信息和关系提取方法，其特征在于，步骤1具体包括：

针对文本块内容，去除不必要字符；

3.根据权利要求1所述的文档多模信息和关系提取方法，其特征在于，步骤2具体包括：

对文本块内容进行编码，得到编码的文本块内容特征；

4.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，对文本块对应图像进行编码得到编码的文本块框图像特征具体包括：

5.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为：

6.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，对文本块内容进行编码得到编码的文本块内容特征具体为：

7.根据权利要求3所述的文档多模信息和关系提取方法，其特征在于，所述编码的文本块框图像特征、编码的文本块内容特征以及编码的文本块内容特征的维度为512。

8.根据权利要求1所述的文档多模信息和关系提取方法，其特征在于，所述步骤3具体包括：

步骤34：采用多层感知机对拼接后的特征进行变换。

9.根据权利要求8所述的文档多模信息和关系提取方法，其特征在于，所述步骤4具体包括：

对步骤34得到的变换特征进行维度扩展；

通过条件随机场输出实体；

以双向长短可记忆网络的输出和条件随机场输出的实体作为输入，对实体之间可能的关系进行分类，以预测可能存在的链接关系，得到实体间关系。

10.一种文档多模信息和关系提取系统，其中，所述文档多模信息和关系提取系统基于权利要求1至9中任一项所述方法进行操作，所述文档多模信息和关系提取系统包括：