CN112966676B

CN112966676B - 一种基于零样本学习的文档关键信息抽取方法

Info

Publication number: CN112966676B
Application number: CN202110154905.4A
Authority: CN
Inventors: 宋佳奇; 朱军民; 王勇
Original assignee: Beijing Yidao Boshi Technology Co ltd
Current assignee: Beijing Yidao Boshi Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-10-20
Anticipated expiration: 2041-02-04
Also published as: CN112966676A

Abstract

本发明公开了一种基于零样本学习的文档关键信息抽取方法，属于计算机视觉领域。该方法包括：随机选取一张元样本；对文档图像中每个文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码；将特征编码后的特征进行融合，得到多个第一融合编码特征；针对元样本中的多个文本块分别进行特征编码并融合，得到多个第二融合编码特征；相似度比较，选取相似度最高的第二融合编码特征所对应文本块实体类别作为文档图像中文本块的实体类别。本发明技术方案大大减少了收集数据和标注数据所需投入的精力，极大地减少了模型的大小以及训练和预测所需的时间，使得该方法能更好地应用到实际生产场景中。

Description

一种基于零样本学习的文档关键信息抽取方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于零样本学习的文档关键信息抽取方法。

背景技术

信息抽取过程是将嵌入在文档中的非结构化信息自动提取转换为结构化数据的过程。一种传统的关键信息抽取的方法是基于模板匹配的方法，这类方法的局限性比较明显。第一，根据文档版式的复杂程度的不同，构建一个高精度模板需要耗费大量的精力和时间。且后期需要投入人力持续维护已定制的所有模板，以保证在新的模板加入时不会影响到已有模板的功能。第二，即使模板设计得再精细，也很难把现实情况中可能出现的问题考虑齐全。比如文档可能存在比较严重的由于套打引起的字段位置偏移问题，且偏移的位置和角度具有极大的随机性，这时候模板匹配就很难实现其功能。第三，现实中的文档版式千变万化。即使就医疗发票这一类文档来说，每个地区甚至每个医院的格式都有可能不同，若想将所有医疗发票都设计成模板，需要投入极大的成本，这在现实中是很困难的。

深度学习方面，我们可以利用CNN、RNN、GCN等神经网络从文档中抽取图像、文本、位置等关键信息并结合大量的数据进行训练，以得到高精度的模型。这种方法不需要对每种版式的文档设计不同的模型，只要通用模型结构设计能充分利用文档里的关键信息且有相对应的数据对模型进行训练，就能通过端到端的训练快速地得到针对不同版式的高精度预测模型，且这种模型的鲁棒性也更强。但这种方法也有短板。第一，训练模型需要大量的数据，某些数据的收集有可能会很困难，这就导致了模型无法完全挖掘到数据内部之间的关系以及很可能会出现过拟合现象，从而使得精度较低。第二，即使有了数据，对于信息抽取、分类等需要监督学习的任务，还需要人工对这些数据进行标注。由于数据量的巨大，且后续的训练和模型预测的精度对于样本标注的高精度有很大要求，都导致这一过程费时费力。第三，训练大量的样本需要消耗大量的资源和时间，但现实情况中可能会出现资源不足或对时间要求较高的情况，从而无法获得较高精度的模型。第四，为了解决复杂的任务和得到更高的精度，模型的复杂程度会越来越高，参数的容量也会相应地增加，训练的时间和预测的时间也会变大。这就使得即使训练出了较高精度的模型，依然很难将其直接应用到实际生产场景中。

元学习，也称学会学习，就是通过少量样本的学习让模型对这一类问题的解决方法形成一个先验知识，以后即使出现训练过程中未曾见过的样本，只要任务和之前训练的任务类似，那么模型就能很好的解决。元学习目前主要分为三个方向，学习微调、基于RNN的记忆和度量学习。第一，学习微调的思想是学习一个初始化参数，这个初始化参数在遇到新的问题时，只需要使用少量的样本进行几步梯度下降就可以取得很好地效果。第二，使用基于RNN的技术记忆先前任务中的表示等，这种表示将有助于学习新的任务。第三，度量学习的基本思想是学习一个嵌入函数，将输入空间(例如图片)映射到一个新的嵌入空间，在嵌入空间中有一个来区分不同类的相似性度量，相似度高的两个样本就认为它们属于同一类。在遇到新的任务的时候，只将需要分类的样本点用这个嵌入函数映射到嵌入空间里面，使用相似性度量比较进行分类。元学习相比与之前提到的两种方法的优势主要有以下几点：第一，使用极少量样本就能达到较好地解决问题的目的，极大地减少了收集数据和标注数据所需投入的成本，也大大地缩减了训练大量样本所需的资源和时间。第二，通过元学习所得到的模型泛化能力更强，其针对的不再是某一个版式的文档，而是某一类问题。

发明内容

本发明涉及一种基于零样本学习的文档关键信息抽取方法。该方法利用元学习中的度量学习的基本思想，将文档中位置、文本、图像层面以及全局版式的特征进行融合并映射到一个新的嵌入空间，在嵌入空间上利用相似度度量来进行实体的抽取。

针对本发明的基于零样本学习的文档关键信息抽取方法，针对固定版式文档关键信息抽取这一问题，申请人创新性地提出利用元学习中度量学习的机制，融合预训练模型特征编码与相似度度量来抽取关键信息。通过充分且高效地利用文档特征，做到了零样本学习，即不需要建立模型或训练就能完成信息抽取的任务。从而大大减少了收集数据和标注数据所需投入的精力，极大地减少了模型的大小以及训练和预测所需的时间，使得该方法能更好地应用到实际生产场景中。

根据本发明的第一方面，提供一种基于零样本学习的文档关键信息抽取方法，其中，输入包括：多张固定版式的文档图像，每张文档图像中包含多个文本块和与之对应的多个文本块框，该多个文本块按照位置关系排序后拼接能够得到整体文档文本，其特征在于，所述方法包括：

步骤1，从多张文档图像中随机选取一张作为元样本，所述元样本中的多个文本块已标注有实体类别，且所述实体类别包括所有待抽取实体类别；

步骤2，针对除元样本外的每一张待处理文档图像，对文档图像中每个文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码；

步骤3，将步骤2特征编码后的特征进行融合，得到文档图像中多个文本块对应的多个第一融合编码特征；

步骤4：参照步骤2和3，针对所述元样本中的多个文本块分别进行特征编码并融合，得到所述元样本中的多个文本块对应的多个第二融合编码特征；

步骤5：将所述多个第一融合编码特征与所述多个第二融合编码特征分别进行相似度比较，选取相似度最高的第二融合编码特征所对应文本块实体类别作为文档图像中文本块的实体类别，由此抽取到文档关键信息。

进一步的，所述步骤1前还包括预处理步骤，具体包括：

针对文档图像，进行长宽比不变的尺寸归一化以及边界补0；

针对文本块内容，去除不必要字符，包括但不限于换行符；

针对文本块框的坐标值，对文本块框的坐标值做归一化处理。

进一步的，步骤2具体包括：

对文本块对应图像进行编码，得到编码的文本块框图像特征；

对文本块内容进行编码，得到编码的文本块内容特征；

对文本块框的坐标值进行编码，得到编码的文本块框位置特征。

进一步的，对文本块对应图像进行编码得到编码的文本块框图像特征具体包括：

采用经过在大量图像上进行训练得到的深度残差神经网络预训练模型，将文本块框区域对应的像素矩阵输入预训练模型，经过一系列的卷积和池化操作输出编码的文本块图像特征。

进一步的，所述编码的文本块框图像特征的维度为512。

进一步的，对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为：

输入文本框的多个点的坐标值，(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x₄,y₄)，(x₅,y₅)，(x₆,y₆)，(x₇,y₇)，(x₈,y₈)其中，(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x₄,y₄)为文本块框四个顶点，其余点为在文本块框内随机选择的点，将所述多个点的坐标值拼接得到编码的文本块框位置特征，表示为[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄，x₅,y₆，x₇,y₇，x₈,y₈]，其维度为16。

加入随机点可以增大测试样本与元样本位置特征的匹配度，从而增加了测试样本中的文本框匹配到元样本中具有真实文本类型的文本框的概率。

进一步的，对文本块内容进行编码得到编码的文本块内容特征具体为：

采用经过在海量语料库上通过无监督学习训练得到的Bert预训练模型作为文本块内容特征的编码网络；

输入文本块内容进行编码，选择最后一个时间步骤的隐藏层的[CLS]特征作为编码的文本块内容特征。

进一步的，所述编码的文本块内容特征的维度为512。

进一步的，所述步骤3具体包括：

步骤31：将编码的文本块框图像特征与编码的文本块框位置特征进行拼接；

步骤32：将步骤31得到的拼接特征与编码的文本块内容特征拼接，得到第一融合编码特征；

步骤33：针对文档图像中多个文本块进行相同操作，得到多个第一融合编码特征。

进一步的，所述步骤4前还包括：

针对所述元样本中包含有关键信息的文本块进行位移和变换处理，生成代表相同实体类别的多个文本块加入所述元样本的文本块集合中。

进一步的，所述位移和变换处理包括但不限于对文本块做上下左右的平移，以及放大缩小变换处理。

选定元样本后，其中文本框的位置也就确定了。但是测试样本中相应位置的文本框由于内容、打印等原因会导致文本框的大小和位置与元样本的文本框的大小和位置有一定的偏差。为了提高方法的鲁棒性和保证后续相似度判断的精度，本发明技术方案在元样本原有的文本框的基础上，对包含有关键信息的文本框做一些位移和变换来生成代表相同实体类别的多个文本框加入元样本的文本框集合中。比如，在一定范围内，对文本框做上下左右的平移，以及放大缩小等变换。这样就大大增加了测试样本中的文本框匹配到元样本中具有真实文本类型的文本框的概率，从而增加了精度和鲁棒性。

进一步的，所述步骤5具体包括：

步骤51：设第i张文档图像包含p个文本块，对应的多个第一融合编码特征为(t_i1,t_i2,t_i3,……t_ip)，元样本包含j个文本块，对应的多个第二融合编码特征为(T₁,T₂,T₃,……T_j)；

步骤52：将多个第一融合编码特征为(t_i1,t_i2,t_i3,……t_ip)分别与多个第二融合编码特征为(T₁,T₂,T₃,……T_j)进行相似度比较；

步骤53：设第一融合编码特征t_im所对应似度最高的第二融合编码特征为T_n，则以第二融合编码特征T_n所对应文本块实体类别作为第一融合编码特征t_im所对应文本块的实体类别，其中，m∈[1,p]、n∈[1,j]。

进一步的，所述步骤52中，通过欧几里得相似度作为相似度度量。由此可以很好地刻画相对距离。

根据本发明的第二方面，提供一种基于零样本学习的文档关键信息抽取装置，其中，所述基于零样本学习的文档关键信息抽取装置基于前述任一项所述方法进行操作，所述基于零样本学习的文档关键信息抽取装置包括：

元样本确定模块，用于从多张文档图像中选取一张作为元样本，所述元样本中的多个文本块已标注有实体类别；

图像编码模块，用于针对除元样本外的每一张待处理文档图像，对文档图像中每个文本块对应图像、文本块内容及文本块框的坐标值分别进行特征编码；

特征融合模块，用于将特征编码后的特征进行融合，得到文档图像中多个文本块对应的多个第一融合编码特征；

元样本处理模块，用于针对所述元样本中的多个文本块分别进行特征编码并融合，得到所述元样本中的多个文本块对应的多个第二融合编码特征；

相似度度量模块，用于将所述多个第一融合编码特征与所述多个第二融合编码特征分别进行相似度比较，选取相似度最高的第二融合编码特征所对应文本块实体类别作为文档图像中文本块的实体类别。

根据本发明的第三方面，提供一种基于零样本学习的文档关键信息抽取系统，所述系统包括：处理器和用于存储可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以执行如以上任一方面所述的一种基于零样本学习的文档关键信息抽取方法。

根据本发明的第四方面，提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一方面所述的一种基于零样本学习的文档关键信息抽取方法。

本发明的有益效果：

1.利用元学习中度量学习的机制，使用极少量样本就能达到很好地解决问题的目的，极大地减少了收集数据和标注数据所需投入的成本；

2.做到了零样本学习。充分利用图像预训练模型和自然语言的预训练模型的强大表示能力来进行特征编码，并通过合理的特征融合来使这些特征能更好地表示文档内容。不需要自己设计和训练模型，大大地缩减了所需的资源和时间；

3.泛化能力强，充分且高效地利用文档特征，包括版式、文本块位置、图像以及文本特征。对于固定版式的信息抽取问题均可采用此方法，不用像传统的模板匹配方法一样，每一类版式都要设计一个模型。即使文档存在由于套打引起的字段位置偏移或旋转等问题，我们通过提取其关键特征可以很好地排除这些干扰，从而稳定地抽取到关键信息；

4.更符合实际生产场景中的需求。没有像深度学习那样参数量很大的模型，模型的预测速度也会有很大地提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为根据本发明实施例的基于零样本学习的文档关键信息抽取方法流程图；

图2为根据本发明实施例的基于零样本学习的文档关键信息抽取方法算法结构图；

图3为根据本发明实施例的基于零样本学习的文档关键信息抽取方法Bert文本内容特征编码示意图；

图4为根据本发明实施例的基于零样本学习的文档关键信息抽取方法特征融合示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

多个，包括两个或者两个以上。

和/或，应当理解，对于本公开中使用的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

实施例

预处理前，选择一张样本作为元样本，也就是后续进行相似度度量的基准。由于处理的是固定模板的样本，所以可以在同一类模板的已标注样本里随机选择一张作为这一类模板的元样本。如图1至2所示，具体包括以下步骤：

第一步：输入预处理

该步骤对输入做预处理操作，输入包括图像、文本块框以及文本。

对于输入的图像，最重要的是做长宽比不变的尺寸归一化以及边界补0，使得图像的尺寸能够支持编码模块中神经网络要求的卷积和下采样等操作，并最大化的保留全局和局部特征信息。训练时，图像预处理阶段还需要完成必要的数据增强，如图像仿射变换(rotation，shear，scale等)、颜色扭曲等，使得训练样本的分布更接近于潜在的真实样本生成分布，以缓解可能的数据稀缺性问题，从而提升学习模型的鲁棒性和不变性。预测阶段，则只做图像尺寸的归一化处理。

对于输入的文本块框，需要对坐标值做归一化处理，目的是把坐标归一化到[0,1]之间，以消除不同图像尺寸下不同大小的坐标值对于学习的模型不变性的影响。

对于输入的文本，最重要的是去掉不必要的字符，如换行符等，以消除不必要的字符干扰。

第二步：特征编码模块

该模块包括图像、文本框位置和文本特征编码三部分。

图像特征编码主要是采用深度卷积神经网络对文本块及其周边的图像特征进行编码。该步骤采用具有强大的表示能力的预训练的深度残差神经网络(He,K.,Zhang,X.,Ren,S.,Sun,J.Deep residual learning for image recognition.arXiv preprintarXiv:1512.03385,2015.)作为特征编码网络。该步骤目标是输出各个文本框对应的图像特征编码，因此，需要在网络输出特征图的对应位置上应用池化操作来获取对应的图像特征编码。该特征的维度为512。

文本框位置编码模块目的主要是把对判断文本框位置最重要的顶点的坐标拼到一起作为后续融合模块的输入。其中，文本框位置特征表示为[x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄，x₅,y₆，x₇,y₇，x₈,y₈]，其中(x₁,y₁),(x₂,y₂),,(x₃,y₃),(x₄,y₄)为文本框4个顶点的坐标。输出特征维度为16。

文本块文本特征编码采用Bert预训练模型对文本块内文字的特征进行编码，从而得到文本块的内容特征。Bert(Jacob Devlin,Ming-Wei Chang,Kenton Lee,and KristinaToutanova.2018.BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.arXiv:1810.04805)是在海量语料库上，配合巧妙设计的无监督学习任务训练而得。借助其强大的语义理解和表示能力，将文本块内容经过Bert编码后得到的特征向量可以很好的表示文本块的语义。选择最后一个时间步骤的隐藏层的[CLS]字符的特征作为编码后的文本块内容特征，如图3所示，红色箭头即为输出的特征向量。该特征维度为512。

第三步：特征融合模块

该模块是对特征编码模块的得到的图像、位置和文本三种不同的特征进行融合以得到最终对应文本块的特征表示。

如图4所示，这里由于位置特征的维度较低，不能直接与其他特征相加。所以，首先将图像特征和位置特征拼接在一起，然后再和文本特征拼接得到文本块的最终特征向量。最终特征向量的维度为1040。

第四步：相似度度量模块

经过上述几个模块之后，对于样本中的每个文本块我们现在都有一个相同维度的特征向量来表示。在这个特征空间中，以元样本为基准，将每个待抽取实体样本中的文本块的特征向量与元样本中文本块的特征向量做相似度比较，选取相似度最高的元样本文本块的实体类别作为该文本块的实体类别。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于零样本学习的文档关键信息抽取方法，其中，输入包括：多张固定版式的文档图像，每张文档图像中包含多个文本块和与之对应的多个文本块框，该多个文本块按照位置关系排序后拼接能够得到整体文档文本，其特征在于，所述方法包括：

2.根据权利要求1所述的文档关键信息抽取方法，其特征在于，所述步骤1前还包括预处理步骤，具体包括：

针对文档图像，进行长宽比不变的尺寸归一化以及边界补0；

针对文本块内容，去除不必要字符，包括但不限于换行符；

3.根据权利要求1所述的文档关键信息抽取方法，其特征在于，步骤2具体包括：

对文本块内容进行编码，得到编码的文本块内容特征；

4.根据权利要求3所述的文档关键信息抽取方法，其特征在于，对文本块对应图像进行编码得到编码的文本块框图像特征具体包括：

采用经过在大量图像上进行训练得到的深度残差神经网络预训练模型，将文本块区域对应的像素矩阵输入预训练模型，经过一系列的卷积和池化操作输出编码的文本块框图像特征。

5.根据权利要求3所述的文档关键信息抽取方法，其特征在于，对文本块框的坐标值进行编码得到编码的文本块框位置特征具体为：

6.根据权利要求3所述的文档关键信息抽取方法，其特征在于，对文本块内容进行编码得到编码的文本块内容特征具体为：

7.根据权利要求1所述的文档关键信息抽取方法，其特征在于，所述步骤3具体包括：

8.根据权利要求1所述的文档关键信息抽取方法，其特征在于，所述步骤4前还包括：

9.根据权利要求1所述的文档关键信息抽取方法，其特征在于，所述步骤5具体包括：

步骤53：设第一融合编码特征t_im所对应似度最高的第二融合编码特征为T_n，则以第二融合编码特征T_n所对应文本块实体类别作为第一融合编码特征t_im所对应文本块的实体类别，

其中，m∈[1,p]、n∈[1,j]。

10.一种基于零样本学习的文档关键信息抽取装置，其特征在于，所述基于零样本学习的文档关键信息抽取装置基于根据权利要求1至9中任一项所述方法进行操作，所述基于零样本学习的文档关键信息抽取装置包括：

元样本确定模块，用于从多张文档图像中随机选取一张作为元样本，所述元样本中的多个文本块已标注有实体类别，且所述实体类别包括所有待抽取实体类别；