CN112801010A

CN112801010A - 一种针对实际ocr场景下的视觉富文档信息抽取方法

Info

Publication number: CN112801010A
Application number: CN202110168304.9A
Authority: CN
Inventors: 唐国志; 金连文; 林上港; 汪嘉鹏; 薛洋
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-14
Anticipated expiration: 2041-02-07
Also published as: CN112801010B

Abstract

本发明公开了一种针对实际OCR场景下的视觉富文档信息抽取方法，方法包括以下步骤：收集实际场景下的视觉富文本图像；利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征；训练命名实体分类模块；构建基于图卷积GAT的全局文档图结构，引入自注意力机制；训练命名实体边界定位模块；构建多特征聚合结构；训练错误语义纠正模块，采用GRU的解码结构，根据CRF的最优路径，取出对应维度特征的编码隐状态，通过将命名实体的类别信息，作为先验指导信息，指导每次解码器的输出，得到规范格式的实体命名信息。本发明有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度，对视觉富文档信息的结构化存储具有重要的意义。

Description

一种针对实际OCR场景下的视觉富文档信息抽取方法

技术领域

本发明属于视觉信息抽取技术领域，具体涉及一种针对实际OCR场景下的视觉富文档信息抽取方法。

背景技术

视觉信息抽取(VIE)作为自然语言处理(NLP)的重要组成部分，旨在直接从非结构化文档图像中抽取结构化信息，这是理解文档图像的关键步骤。抽取的结构化信息广泛应用于多种场合，例如快速索引、高效归档和文档分析，典型的方法是将信息抽取问题公式化为顺序标记问题。近年来，关于从文档图像(如发票、ID卡和购买收据等)中抽取信息成为了研究热点。

由于字形、文本位置、布局和字体大小等视觉特征是从文档图像中抽取信息的重要线索，因此许多方法将文档图像合并到顺序标记模型中，与仅使用纯文本相比得到了更好的结果，然而，现有研究大多假定OCR(光学字符识别)结果是准确的，无法应对有缺陷的OCR结果的情况。另一方面，实现文档图像的无错误OCR预测非常复杂，在有缺陷的OCR结果中无法直接将人工标注的定位框用于信息抽取，这是因为有缺陷的OCR结果通常包含大量重复或遗漏的内容，这直接影响VIE模型的性能。此外，融合文本段位置的VIE系统将面临命名实体边界不清晰的问题，这将导致大量后期处理以获得最终正确的结果。尽管VIE模型应该考虑人类注释不能完全匹配OCR结果的问题，但作为OCR的下游任务，它在以前的研究中经常被忽略。因此，需要一种针对实际OCR情况下的视觉信息抽取方法，克服上述缺点并将信息抽取应用于实际生产生活的需要。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种针对实际OCR场景下的视觉富文档信息抽取方法，方法有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度，对视觉富文档信息的结构化存储具有重要的意义。

为了达到上述目的，本发明采用以下技术方案：

一种针对实际OCR场景下的视觉富文档信息抽取方法，包括以下步骤：

收集实际场景下的视觉富文本图像，对搜集的图像进行文本行位置、文本内容以及命名实体属性的标注，采用启发式的方法标注命名实体标签，利用检测识别方法得到OCR结果；

利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征；

训练命名实体分类模块，按照命名实体识别任务的方式生成每个字符的命名实体属性标签，训练过程中采用交叉熵分类损失函数训练；

构建基于图卷积GAT的全局文档图结构，引入自注意力机制构建全连接有向图；

训练命名实体边界定位模块，命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成，根据每个字符的命名实体属性标注情况，将命名实体的第一个字符和最后一个字符设置为命名实体的边界，其他的设置为非边界；

构建多特征聚合结构，对命名实体分类概率和命名实体边界定位概率做加权和，得到命名实体维度的预测结果，并采用条件随机场CRF结构对预测结果做上下文的约束；

训练错误语义纠正模块，错误语义纠正模块采用GRU的解码结构，根据CRF的最优路径，取出对应维度特征的编码隐状态，通过将命名实体的类别信息，作为先验指导信息，指导每次解码器的输出，最终得到规范格式的实体命名信息。

进一步的，所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签，所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注；

所述BIO tagging是一种对给定句子中的单元做序列标注的方式，对于一个给定句子，将其中每个词标注为B、I以及O中的一个，其中B指示某短语起始，I指示短语内部，O指示不在短语中；

所述采用启发式的方法标注命名实体标签具体为：

根据人工标注的结果与OCR的检测结果匹配IOU的值，选取与人工标注结果重复度最高的OCR结果，赋予人工标注结果的命名实体标签，所述IOU为模型预测的检测框与人工标注的检测框之间的交并比；

所述利用检测识别方法得到OCR结果具体为：

利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果，OCR结果的命名实体的标注通过与人工标注的结果比较，取出最高的IOU结果作为命名实体标签。

进一步的，所述文本词嵌入为将每一个词用一个独一无二的数字表示编码，每个数字映射到固定的768维度的向量；

所述位置嵌入为将每个文本块在图片中的相对位置量化到0-1000之间的一个数字，随后通过矩阵运算将该区间的每个数值用一个固定维度的768维度的向量表示；

所述抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征具体为：

分别按照字符级和单词级以所述文本词嵌入和位置嵌入的方式提取文本词嵌入和位置嵌入，将文本词嵌入特征和位置嵌入特征融入预训练好的Transformer结构得到高层的特征表示。

进一步的，所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息，采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征；

所述字符的相对中心点坐标和文本块的相对坐标和长宽信息均量化到0-1000之间的一个数字，采用线性层的矩阵乘法运算将其变换到768维的特征。

进一步的，所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成，所述编码器采用多头注意力机制和一个全连接层构成，所述解码器编码器多了掩码注意力机制，其他结构与编码器相同；

所述预训练具体采用BERT的预训练方式，BERT模型基于Transformer结构，具体包含两部分：

在一句话中遮盖掉若干个单词然后对遮盖的单词做预测；

判断两句话是否存在上下文关系。

进一步的，所述构建基于图卷积GAT的全局文档图结构具体为：

文档图的节点特征采用每个字符的语义特征，所述语义特征为预训练词嵌入模型将维数为所有词数量的高维空间嵌入到低维的连续向量空间；文档图的边特征利用各字符的中心点距离，命名实体边界定位模块做二分类预测，以BIO tagging的实体标注方式预测每个命名实体的标注B和标注I；

所述引入自注意力机制具体为：

引入多头自注意力机制，文档图中所有节点采用全连接的方式，每个节点的预测结果需考虑到所有邻接矩阵边的相关性得分和所有节点的注意力得分。

进一步的，所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征，边的特征采用全连接图的形式，融入各字符的中心点相对位置关系，通过加权二分类方式定位每个命名实体的标注B和标注I。

进一步的，所述多特征聚合结构具体包括以下步骤：

解构常规BIO tagging的预测方式，根据命名实体边界定位模块，得到每个命名实体的边界起始信息，根据命名实体分类模块，得到命名实体的属性信息，利用这两部分信息对命名实体分类概率和命名实体边界定位概率做加权和，得到BIO tagging维度的预测结果，并采用条件随机场CRF结构对预测结果做上下文的约束；

所述CRF条件随机场模型是一种判别式模型，具体为给定一组输入随机变量条件下，预测另一组随机变量的条件概率分布模型。

进一步的，所述编码隐状态是在命名实体分类模块中，将文本序列中的每一个字符作为输入，会得到一个对应的输出，该输出汇集的是当前时刻的序列信息和之前序列的信息，用于理解上下文。

进一步的，所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果；

所述错误语义纠正模块采用GRU的解码结果，解码过程根据多特征聚合模块对每个字符的属性分类结果取出每个类别的所有字符，将这些字符构成的序列按序列的方向上进行递归，且所有节点按链式链接，融合实体类别信息指导解码和纠错；

所述融合实体类别信息指导解码和纠错具体为：

将字符的属性对应一个唯一的固定维度的向量，并将这个向量作为解码序列的最开头，让错误语义纠正模块学到根据类别信息指导解码的方式，最终抽取得到规范的实体命名信息。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过融入类别信息的解码和实体边界定位方法，解决了在实际OCR场景下，不精确的OCR结果会导致视觉富文档信息抽取错误累计的问题。

2、本发明采取了命名实体分类概率和命名实体边界定位概率做加权和的方法，有效解耦了BIO tagging维度的预测结果；

3、本发明利用OCR结果自适应的结构化信息输出技术手段，实现了OCR结果不佳的视觉富文档的实体命名信息的高性能抽取，解决了文档图像的结构化检索和储存问题。

附图说明

图1是本发明的流程图；

图2是本发明整体的结构框图；

图3是本发明的文档图结构的构建过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1、图2所示，本发明，一种针对实际OCR场景下的视觉富文档信息抽取方法，包括以下步骤：

S1、收集实际场景下带有关键信息的视觉富文本图像，对搜集的图像进行文本行的标注，具体为：

在本实施例中，所述视觉富文本图像数据集包含简单版面和复杂版面的数据，分别由票据，车票，护照等数据组成。依次包含4306，1500，2331共计8137张图像。

S11、对搜集的图像进行文本行位置、文本内容和命名实体属性的标注，具体为：

所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签，所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注；

所述BIO tagging是一种对给定句子中的单元做序列标注的方式，对于一个给定句子，将其中每个词标注为B、I以及O中的一个，其中B指示某短语起始，I指示短语内部，O指示不在短语中。以命名实体识别(NER)为例可以将Andy supports New York City这句话里的四个词分别标注为：B-人名O B-地名I-地名I-地名。

在本实施例中，对8137张图像分别进行文本行级别的标注；具体标注的内容涉及符合阅读顺序的每个文本块的位置框标注、框内的文本内容标注以及文字的命名实体属性的标注，例如姓名、日期以及地址等实体属性。搜集的数据集主要包含两种布局，固定的版面，如购买票据等；变化的版面，如试卷头等。从文字的类型来说，分为结构化和半结构化的数据。各种数据集的统计结果如

表1所示。

	护照	车票	购买票据
				实体类别数	18	11	9
数量	2331	1500	4306

表1

在本实施例中，文本行位置标注和文本内容标注，其标注方法需要按照阅读顺序标注，文本的命名实体属性标注方式需要根据其在当前场景下的语义情况，标注具体的实体类别。

S12、采用启发式方法标注命名实体标签，具体为：

根据人工标注的结果与OCR的检测结果匹配IOU的值，选取与人工标注结果重复度最高的OCR结果，赋予人工标注结果的命名实体标签，所述IOU为模型预测的检测框与人工标注的检测框之间的交并比。

S13、利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果，OCR结果的命名实体的标注通过与人工标注的结果比较，取出最高的IOU结果作为命名实体的标签。

S2、利用大规模预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征；

所述文本词嵌入为将每一个词用一个独一无二的数字表示编码，每个数字映射到固定的768维度的向量；

在本实施例中，具体为：

将文字检测器和识别器的输出结果送入命名实体分类模块：将获取的视觉富文档信息抽取数据的各数据集按照4：1的比例划分训练数据集和测试集两部分，按照每个数据集的类别数量。首先，分别从字符级和单词级两个层次分别得到语义的词嵌入和空间位置的位置嵌入特征，用基于大规模预训练的Transformer结构，抽取高维的特征表示。随后，经过两个的双向BiLSTM结构分别抽取字符级和单词级的文本全局上下文特征。经过非线性变换后得到当前字符以及每个单词属于每个命名实体的概率。将单词级的预测按照字符级的预测维度进行扩展后进行特征融合，得到最终命名实体的预测概率。结合字符级和单词级的特征可以有效捕获全局和局部特征，实现更为精确的实体分类结果；

所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成，所述编码器采用多头注意力机制和一个全连接层构成，所述解码器编码器多了掩码注意力机制，其他结构与编码器相同；

在一句话中遮盖掉几个单词然后对遮盖的单词做预测；

判断两句话是否存在上下文关系。

S3、训练命名实体分类模块，具体为：

按照命名实体识别任务的方式生成每个字符的实体属性标签，训练过程中采用交叉熵分类损失函数训练；

所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息，采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征；

所述字符的相对中心点坐标和文本块的相对坐标和长宽信息均量化到0-1000之间的数值，随后采用线性层的矩阵乘法运算将每个数值变换到独特的768维的特征。

S4、构建基于图卷积GAT的全局文档图结构，引入自注意力机制构建全连接有向图，具体为：

所述引入自注意力机制具体为：

在本实施例中，如图3所示，具体为：

将文档中每个字符作为单个的节点，构建一个全局的文档图结构。具体而言，充分利用图卷积在节点分类上的优势。以每个字符作为节点，字符对应的词嵌入语义特征作为节点特征。各字符之间的相对位置，距离的远近定义为边的特征，构建一个文档图结构。边的构建采用邻接矩阵的形式，定义节点之间有关联的话该矩阵的数值为1。利用GAT结构在节点分类上的优势,抽取边和节点的高维语义特征。对每个实体的边界进行清晰地定位。为了平衡非边界和边界节点之间的样本不平衡问题。引入Focus Loss，在训练过程中加大边界点预测的权重。

S5、训练命名实体边界定位模块，具体为：

命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成，根据每个字符的命名实体属性标注情况，将命名实体的第一个字符和最后一个字符设置为命名实体的边界，其他的设置为非边界；

所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征，边的特征采用全连接图的形式，融入各字符的中心点相对位置关系，通过加权二分类方式定位每个命名实体的标注B和标注I。

S6、构建多特征聚合结构，对命名实体分类概率和命名实体边界定位概率做加权和得到BIO tagging维度的预测结果，并采用条件随机场CRF结构对预测结果做上下文的约束，具体为：

S7、训练错误语义纠正模块，根据CRF的最优路径，取出对应维度特征的编码隐状态，通过将命名实体的类别信息，作为先验指导信息，指导每次解码器的输出，最终得到规范格式的实体命名信息，具体为：

由于视觉富文档在实际场景下面临各种各样的干扰条件，这会对OCR引擎的检测识别性能带来一定的挑战。实际中，可能出现一些OCR错误。因此引入错误语义纠正模块(错误矫正模块)来应对检测识别结果不佳对模型性能的影响。错误语义纠正模块，采用GRU的解码方式，根据CRF的最优路径作为输入，通过解码的方式得到正确的矫正结果。训练过程中需要构建成对的训练样本。错误的OCR结果作为输入，正确的内容作为训练标签，对模块进行预训练。在前向测试时候，将模块对各命名实体的输出结果作为输入，得到矫正后的结果；

所述编码隐状态是在命名实体分类模块中，将文本序列中的每一个字符作为输入，会得到一个对应的输出，该输出汇集的是当前时刻的序列信息和之前序列的信息，用于理解上下文；

所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果；例如，人工标注的结果是“2019年5月3日”，而通过深度学习文字检测和识别模型得到的结果是是“2019午5月3日”。这两对就构成一组训练样本。

所述融合实体类别信息指导解码和纠错具体为：

通过融合命名实体分类模块和命名实体边界定位模块的输出可以得到每个命名实体清晰的分类结果，通过错误矫正模块得到最终正确的规定格式的结构化输出。

所述结构化输出的伪代码具体如下：

Input:文字命名实体的分类结果R

Output:经过结构化数据输出

1.For i in R:

3.如果i的分类结果为第k类，i添加到类别k的集合中

4.For j in R except i:

5.如果分类结果j为第k类，且j已经在类别k的集合中。则跳过

6.更新个类别集合的元素

7.对上述得到的集合递归重复操作，直到所有字符的分类结果遍历完

最终实现输出一张视觉富文档图像的OCR检测识别结果，输出文档图像的结构化信息抽取，得到最终输出结果。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述命名实体属性的标注具体为针对实际OCR结果下的命名实体标签，所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注；

所述采用启发式的方法标注命名实体标签具体为：

所述利用检测识别方法得到OCR结果具体为：

3.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述文本词嵌入为将每一个词用一个独一无二的数字表示编码，每个数字映射到固定的768维度的向量；

4.根据权利要求3所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述命名实体分类模块需要结合字符级和单词级的语义特征、字符的相对中心点坐标以及文本块的相对坐标和长宽信息，采用预训练的Transformer结构融合空间位置和语义特征得到高维的嵌入特征；

5.根据权利要求4所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述预训练的Transformer结构采用注意力机制并由若干个编码器和解码器构成，所述编码器采用多头注意力机制和一个全连接层构成，所述解码器编码器多了掩码注意力机制，其他结构与编码器相同；

在一句话中遮盖掉若干个单词然后对遮盖的单词做预测；

判断两句话是否存在上下文关系。

6.根据权利要求2所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述构建基于图卷积GAT的全局文档图结构具体为：

所述引入自注意力机制具体为：

7.根据权利要求6所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述命名实体边界定位模块的节点特征采用字符级的文本词嵌入特征，边的特征采用全连接图的形式，融入各字符的中心点相对位置关系，通过加权二分类方式定位每个命名实体的标注B和标注I。

8.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述多特征聚合结构具体包括以下步骤：

9.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述编码隐状态是在命名实体分类模块中，将文本序列中的每一个字符作为输入，会得到一个对应的输出，该输出汇集的是当前时刻的序列信息和之前序列的信息，用于理解上下文。

10.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果；

所述融合实体类别信息指导解码和纠错具体为：