CN113723330A

CN113723330A - 一种图表文档信息理解的方法及系统

Info

Publication number: CN113723330A
Application number: CN202111039933.8A
Authority: CN
Inventors: 伍思航; 谢灿宇; 黄宇浩; 唐国志; 廖倩颖; 汪嘉鹏; 陈邦栋; 李洪亮; 常新峰; 李辉; 丁凯; 黄毅超; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-30
Anticipated expiration: 2041-09-06
Also published as: CN113723330B

Abstract

本发明公开了一种图表文档信息理解的方法及系统，包括：采集初始图表文档，对所述初始图表文档进行分类，获得第一图表文档；对所述第一图表文档进行文本检测和识别，获得第二图表文档；对所述第二图表文档进行文本属性分类，获得目标图表文档；基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统，可以有效对图表文档进行分类，文本检测和识别，以及文本属性分类，对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。

Description

一种图表文档信息理解的方法及系统

技术领域

本发明涉及模式识别与人工智能技术领域，特别是涉及一种图表文档信息理解的方法及系统。

背景技术

图表作为一种特殊的文档表现形式，常嵌入到社会科学、自然科学的文章中，用来简洁扼要的表达数据、逻辑、方法流程等。近年来，文档的数字化需求越来越多，技术也日趋成熟。其中，图表的自动化识别和理解更是关键的一环，然而常常由于其复杂多样的版面、丰富的表达形式而难以进行自动化的机器理解。

对于图表文档的分类、文字检测和识别、文本属性的分类，现有的方法大多是通过组合基于传统方法的独立技术模块。这些算法的不足之处是需要手工对模型的多个超参数做数据集的适应性调整，也就是说针对不同的图表文档，需手工调整超参数来保证模型的检测效果。

近年来，基于深度学习的方法在图表文档的分类、文字检测和识别、文本属性的分类等任务上取得一定的进展，但是现有的方法对多种图表文档的鲁棒性和精度较差。

发明内容

本发明的目的是提供一种图表文档信息理解的方法及系统，以解决上述现有技术存在的问题。本发明的方法能适应图表文档的多种版面形式，如折线图、散点图、条形图、饼图等，有较好的鲁棒性，达到更高的精度。检测精度高，能够实现对多种复杂古籍文献进行文字精确检测。

为实现上述目的，本发明提供了如下方案：本发明提供一种图表文档信息理解的方法及系统，其中，一种图表文档信息理解的方法,包括：

采集初始图表文档，对所述初始图表文档进行分类，获得第一图表文档；对所述第一图表文档进行文本检测和识别，获得第二图表文档；对所述第二图表文档进行文本属性分类，获得目标图表文档；基于所述目标图表文档实现对图表文档信息的理解。

优选地，对所述初始图表文档进行分类包括，基于深度神经网络融合SE模块、类别平衡技术，对所述初始图表文档进行特征提取，获得分类结果；基于所述分类结果对所述初始图表文档进行分类，获得所述第一图表文档。

优选地，对所述第一图表文档进行文本检测和识别包括，构建多个检测头级联的神经网络，基于所述检测头级联的神经网络，获得所述第一图表文档的检测多方向矩形框；根据所述检测多方向矩形框，获得文本检测结果；将所述文本检测结果进行水平校正并切分文本行，送入基于CRNN网络的识别器，获得识别结果；基于所述识别结果对所述第一图表文档进行识别，获得所述第二图表文档。

优选地，将所述文本检测结果进行水平校正并切分文本行包括，将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理，然后利用霍夫变换直线检测计算文本区域的最小外接矩形，获得相应的倾斜角度；根据所述倾斜角度，对所述文本检测结果进行水平校正；对所述图像块进行水平或者竖直方向投影，根据设定阈值切分文本行，获得所述文本行的检测结果；将所述文本行的检测结果送入基于CRNN网络的识别器，获得识别结果。

优选地，将所述文本行的检测结果送入基于CRNN网络的识别器，获得识别结果包括，构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器，将所述文本行分别输入CTC模型和Attention模型，获得CTC模型识别结果和Attention模型识别结果；将所述CTC模型识别结果和所述Attention模型识别结果进行集成，获得所述识别结果。

优选地，对所述第二图表文档进行文本属性分类包括，对所述第二图表文档进行文本编码，获得文本信息特征；通过对所述文本信息特征进行视觉特征信息融合后，基于自注意力机制进行匹配和分类，获得目标图表文档。

优选地，所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码；

所述文本信息特征包括语义信息特征、位置信息特征、角度信息特征、图表类型信息特征；

所述语义信息编码包括字符嵌入层编码、句子嵌入层编码；

所述图表类型信息编码包括折线图嵌入层编码、条形图嵌入层编码、散点图嵌入层编码；

所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。

优选地，对所述编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作；

所述第一融合操作为将语义信息特征、位置信息特征，角度信息特征、图表类型信息特征、文本的视觉特征通过嵌入层映射到相同维度后，进行加和或拼接操作；

所述第二融合操作为将语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征，文本的视觉特征通过全连接层映射到与多模态表征相同维度后，进行加和或拼接操作。

一种图表文档信息理解的系统，包括，

采集模块，用于采集初始图表文档；

第一分类模块，与所述采集模块连接，用于对所述初始图表文档进行分类，获得第一图表文档；

识别模块，与所述分类模块连接，用于对所述第一图表文档进行文本检测和识别，获得第二图表文档；

第二分类模块，与所述识别模块连接，用于对所述第二图表文档进行文本属性分类，获得目标图表文档；通过所述目标图表文档实现对图表文档信息的理解。

本发明公开了以下技术效果：

本发明公开一种图表文档信息理解的方法及系统,包括对图表文档进行分类，对图表文档进行文本检测和识别，对图表文档进行文本属性分类。本发明提出的图表文档信息理解的方法及系统，可以有效对图表文档进行分类，文本检测和识别，以及文本属性分类，对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的用于图表文档分类的深度神经网络结构图；

图3为本发明实施例的用于检测水平文本块的神经网络结构图；

图4为本发明实施例的用于检测多方向文本块的神经网络结构图；

图5为本发明实施例的文本块方向校正和文本行切分的流程图；

图6为本发明实施例的用于文本属性分类的模型结构图；

图7为本发明实施例中数据集的图表文档示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本实施例提供一种图表文档信息理解的方法及系统，包括如下步骤：

步骤S1、对图表文档进行分类。利用构建的深度神经网络提取图表文档的特征，并加入SE模块、类别平衡等技术提升特征表达能力，得到更准确的分类结果。

本实施例选择DenseNet121层为主干网络，在每一个dense block的前以及transition layer后添加Squeeze-and-Excitation(SE)模块，结构设计如图2所示。

在训练的过程中加入图像变换的数据增强、类别平衡等技术。其中，类别平衡是对数据样本进行过采样，按照重复因子对每个图表文档类别进行抽样。重复因子计算公式(1)如下：

其中，r(c)代表类别c的重复因子，t是阈值常数，f(c)是类别c出现的频率。

步骤S2、对图表文档进行文本检测和识别。利用构建多个检测头级联的神经网络，得到文本的检测多方向矩形框，再将文本检测结果进行水平校正并切分文本行，送入基于CRNN网络的识别器，得到识别结果；

本实施例采用构建多个检测头级联的神经网络，得到文本的检测多方向矩形框。具体地，构建5个检测头，从IoU 0.5～0.9的级联检测网络Cascade R-CNN系列检测水平文本块，如图3所示。构建2个检测头，从IoU0.5～0.6的级联检测网络Cascade Mask R-CNN检测多方向文本块，结构如图4所示。

进一步地，将文本检测结果进行水平校正并切分文本行。具体地，首先对文本检测结果图像块二值化，并进行一系列膨胀腐蚀图像处理，然后利用霍夫变换直线检测计算文本区域的最小外接矩形，并得到相应的倾斜角度，利用该倾斜角度，对文本检测结果进行水平校正。然后，对图像块进行水平或者竖直方向投影，根据设定阈值切分每个文本行，得到每个文本行的检测结果；

将上述得到的每个文本行检测结果送入基于CRNN网络的识别器，得到识别结果。具体地，构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器，然后分别结合CTC和Attention两个解码模块，得到两个模型。将每个文本行送入这两个模型得到相应的结果，再进行集成得到最终的结果。

步骤S3、对图表文档进行文本属性分类。首先对每个文本进行语义信息和位置信息的编码，以及文本方向角度、图表类型等多模态信息编码，与每个文本自身的视觉特征信息进行融合操作，得到的实例特征进行自注意力机制匹配和分类。

文本块语义信息特征的提取包括，对每个文本块的每个字符进行字符嵌入(embedding)层编码，统一补全到所有文本块最大的长度，得到文本块的语义编码表示，经过Bi-LSTM提取文本块之间相互信息后，通过句子嵌入(embedding)层编码后，得到最终每个文本块的语义信息特征；

文本块位置信息特征的提取包括，计算每个文本块4个顶点x、y坐标8个值在图表文档(全图)中的相对位置；

文本块所属的图表类型信息特征的提取包括，即当前图表文档的类型(如折线图、条形图、散点图等类型)的嵌入(embedding)层编码特征；

文本块的方向角度信息特征的提取包括，即各个文本块水平或者竖直方向的嵌入(embedding)层编码特征；

文本块视觉信息特征的提取包括，利用ResNet系列深度神经网络对图表文档编码整个图像的视觉特征，结合文本块位置信息，通过RoIAlign方式从整个图像的视觉特征提取对应各个文本块的视觉信息特征。

其中融合操作包含如下步骤：

第一种融合操作，将文本语义信息特征、位置信息特征，文本方向角度特征、图表类型特征、文本的视觉特征通过嵌入层映射到相同维度后，进行加和或者拼接操作；

第二种融合操作，将文本语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征，文本的视觉特征通过全连接层映射到与多模态表征相同维度后，进行加和或者拼接操作。

完成融合操作后，将融合后的特征通过基于自注意力机制的TransformerEncoder编码器，最后利用全连接层计算最终每个概率文本块属性(标题、图例、坐标轴名称、坐标刻度数值等)概率。

本实施例使用ICDAR和ICPR的Adobe Synthetic、PMC数据集，数据集的部分图表文档如图7所示。在图表文档分类任务上，将ICPR2020Adobe Synthetic数据集共12类图表文档按照7比3随机划分训练集和验证集，类似地PMC数据集共15类图表文档也划分训练集和测试集。根据本实施例加入SE模块的DenseNet121模型，以及类别平衡、数据增强等方法训练模型，得到验证集的结果如下表1所示。

表1

在PMC数据集中设置训练技术的消融实验，如下表2所示。

表2

在图表文档的文字检测和识别上，在ICPR 2020Adobe Synthetic数据集和PMC数据集上，分别按照4比1随机划分训练集和验证集，利用构建的5个检测头的Cascade R-CNN检测Adobe Synthetic的水平文本块，利用构建的2个检测头的Cascade Mask R-CNN检测结果如下表3所示：

表3

进一步地，将文本检测结果进行水平校正并切分文本行，文本块方向校正和文本行切分的流程图如图5所示。具体地，首先对文本检测结果图像块二值化，并进行一系列膨胀腐蚀图像处理，然后利用霍夫变换直线检测计算文本区域的最小外接矩形，并得到相应的倾斜角度，利用该倾斜角度，对文本检测结果进行水平校正。然后，对图像块进行水平或者竖直方向投影，根据设定阈值切分每个文本行，得到每个文本行的检测结果；

将上述得到的每个文本行检测结果送入基于CRNN网络的识别器，得到识别结果。具体地，构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器，然后分别结合CTC和Attention两个解码模块，得到两个模型。将每个文本行送入这两个模型得到相应的结果，再进行集成得到最终的结果。如下表4所示：

表4

步骤3中，对图表文档进行文本属性分类，文本属性分类的模型结构图如图6所示。首先对每个文本进行语义信息和位置信息的编码，以及文本方向角度、图表类型等多模态信息编码，与每个文本自身的视觉特征信息进行融合操作，得到的实例特征进行自注意力机制匹配和分类。在ICPR2020Adobe Synthetic数据集和PMC数据集上，分别按照4比1随机划分训练集和验证集，得到结果如下表5所示：

表5

在PMC数据集中，各个文本属性分类的精度如下表6所示：

表6

在Adobe Synthetic验证集上，加入位置信息、图表类型信息、视觉信息的消融实验结果如表7所示：

表7

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种图表文档信息理解的方法,其特征在于，包括：

2.根据权利要求1所述的图表文档信息理解的方法，其特征在于，

对所述初始图表文档进行分类包括，基于深度神经网络融合SE模块、类别平衡技术，对所述初始图表文档进行特征提取，获得分类结果；基于所述分类结果对所述初始图表文档进行分类，获得所述第一图表文档。

3.根据权利要求1所述的图表文档信息理解的方法，其特征在于，

对所述第一图表文档进行文本检测和识别包括，构建多个检测头级联的神经网络，基于所述检测头级联的神经网络，获得所述第一图表文档的检测多方向矩形框；根据所述检测多方向矩形框，获得文本检测结果；将所述文本检测结果进行水平校正并切分文本行，送入基于CRNN网络的识别器，获得识别结果；基于所述识别结果对所述第一图表文档进行识别，获得所述第二图表文档。

4.根据权利要求3所述的图表文档信息理解的方法，其特征在于，

将所述文本检测结果进行水平校正并切分文本行包括，将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理，然后利用霍夫变换直线检测计算文本区域的最小外接矩形，获得相应的倾斜角度；根据所述倾斜角度，对所述文本检测结果进行水平校正；对所述图像块进行水平或者竖直方向投影，根据设定阈值切分文本行，获得所述文本行的检测结果；将所述文本行的检测结果送入基于CRNN网络的识别器，获得识别结果。

5.根据权利要求3所述的图表文档信息理解的方法，其特征在于，

将所述文本行的检测结果送入基于CRNN网络的识别器，获得识别结果包括，构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器，将所述文本行分别输入CTC模型和Attention模型，获得CTC模型识别结果和Attention模型识别结果；将所述CTC模型识别结果和所述Attention模型识别结果进行集成，获得所述识别结果。

6.根据权利要求1所述的图表文档信息理解的方法，其特征在于，

对所述第二图表文档进行文本属性分类包括，对所述第二图表文档进行文本编码，获得文本信息特征；通过对所述文本信息特征进行视觉特征信息融合后，基于自注意力机制进行匹配和分类，获得目标图表文档。

7.根据权利要求6所述的图表文档信息理解的方法，其特征在于，

所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码；

所述语义信息编码包括字符嵌入层编码、句子嵌入层编码；

所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。

8.根据权利要求6所述的图表文档信息理解的方法，其特征在于，

对所述编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作；

9.一种图表文档信息理解的系统，其特征在于，包括，

采集模块，用于采集初始图表文档；