CN114187595A

CN114187595A - 基于视觉特征和语义特征融合的文档布局识别方法及系统

Info

Publication number: CN114187595A
Application number: CN202111529659.2A
Authority: CN
Inventors: 李守斌; 马序言; 黄昊明; 胡军; 王青
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-15

Abstract

本发明公开了一种基于视觉特征和语义特征融合的文档布局识别方法及系统，属于计算机技术领域，使用目标检测神经网络对文档中的每个块进行定位；对每个块使用卷积神经网络模型提取深度卷积神经网络特征，统计文档图片中每个块的各像素点的像素值来生成浅层视觉特征，对每个块的内容进行识别得到图片中的文字，使用倒排索引技术进行词频统计得到各个词语的词频统计值即语义特征，将提取的三个维度的特征进行融合得到融合特征向量，再经过分类得到文档布局的分类结果。本发明提高了文档布局中的相似结构的识别准确性和稳定性。

Description

基于视觉特征和语义特征融合的文档布局识别方法及系统

技术领域

本发明属于计算机技术领域，尤其涉及一种基于视觉特征和语义特征融合的文档布局识别方法及系统。

背景技术

随着大数据时代的到来和互联网的普及，学术文献出版的速度越来越快，学术资源也越来越丰富，呈现井喷式增长趋势。科学文献包含了与不同领域的前沿创新相关的重要信息，为了更好地获取我们在论文中所需要的信息，文章的布局分析显得尤为重要。自然语言处理技术的发展促进了科学文献信息自动提取的快速发展，但科学文献大多采用非结构化PDF格式。尽管PDF擅长将基本元素(字符、线条、形状、图片等)保存在画布上，供不同的操作系统或设备使用，但它不是一种机器可以理解的格式。

自动从科学文献中提取信息的一个关键挑战是，文档通常包含非自然语言的内容，如图表和表格。然而，这些信息通常会提供重要的内容。为了充分理解科学文献，自动化系统能够识别文档的布局，并将非自然语言内容解析为机器可读的格式、分析文档的布局对信息的进一步提取至关重要，有利于后续的自然语言处理和内容的理解。

科技学术论文的特点之一是具有严肃的层次结构，其结构清晰、表现层次性强，相较于自然景观图片，具有简单的纹理及色彩。首先，对于自然景观图片分类，传统的目标检测和分类方法往往依赖于卷积神经网络来获取深度特征。然而，对于结构良好的文档页面来说，使用相对单一的背景色、一些直观的浅层特征往往有利于对物理结构进行分类。其次，文档中的正文、列表、标题具有相似的结构，往往出现分类混淆的问题。

发明内容

针对上述问题，本发明提出的一种基于视觉特征和语义特征融合的文档布局识别方法及系统，目的在于通过对文档图像的深层视觉特征、浅层视觉的特征、语义特征的提取与融合，提高文档布局中的相似结构的识别准确性和稳定性，能够对科技文献的文档布局进行自动化分析和识别，提高对文档中的正文、列表、标题相似结构的识别率，减少人工干预和工作量。

为实现上述目的，本发明采用以下技术方案：

一种基于视觉特征和语义特征融合的文档布局识别方法，其步骤包括：

对基于Cascade Mask RCNN的目标检测神经网络进行训练，使用训练好的目标检测神经网络定位目标文档图像中的每个图像块；

使用卷积神经网络对所述每个图像块进行特征提取，提取出深层视觉特征；

统计所述每个图像块的各像素点的像素值和每个像素值对应的像素点个数，生成直方图，该直方图即浅层视觉特征；

识别所述每个图像块的文本内容，使用倒排索引方法进行词频统计，得到各个词语的词频统计值，获得语义特征；

将所述深层视觉特征、浅层视觉特征和语义特征进行融合，得到融合特征，将融合特征输入到训练好的分类器中进行分类，识别出文档布局。

进一步地，使用目标检测神经网络定位每个图像块的步骤包括：

将文档图像输入到卷积层，提取出特征图；

将卷积层提取的特征图经过RPN网络提取出候选区域；

将所述候选区域进行采样，输入到检测网络H1，再经过分类器和回归器，修正已有IOU；

经修正后，对新的候选区域重采样，再输入到检测网络H2；

经H2修正后，对新的候选区域重采样，输入到检测网络H3，定位出每个图像块。

进一步地，所述检测网络H1的阈值为0.5，检测网络H2的阈值为0.6，检测网络H3的阈值为0.7。

进一步地，目标检测神经网络训练时，采用SGD优化器进行权重优化。

进一步地，卷积神经网络采用MobileNetV2网络，主干网络为Imagenet，池化层为Avgpooling。

进一步地，利用OCR技术，获取所述每个图像块的文本内容。

进一步地，倒排索引方法采用TF-IDF算法，包括以下步骤：

根据所述每个图像块的文本内容，形成语料库；

统计语料库中每个词在文中出现的次数，得到词频；

基于词频对每个词分配一个权重，得到逆文档频率；

将词频与逆文档频率相乘，生成语义特征。

进一步地，所述分类器采用SoftMax分类器，训练时采用平均交叉熵作为损失函数。

进一步地，SoftMax分类器训练时采用Adam优化器进行优化。

进一步地，分类器的输出类别包括正文Text、列表List、标题Title、图片Figure和表格 Table。

一种基于视觉特征和语义特征融合的文档布局识别系统，包括：

目标检测模型，基于Cascade Mask RCNN的目标检测神经网络，用于定位文档图像中的每个图像块；

DCNN提取器，基于卷积神经网络，用于提取图像块进的深层视觉特征；

全局感知单元，用于统计图像块的各像素点的像素值和每个像素值对应的像素点个数，生成浅层视觉特征；

图像文本识别模块，用于识别图像块的文本内容；

文本记忆单元，用于使用倒排索引方法进行词频统计，得到各个词语的词频统计值，获得语义特征；

特征融合模块，用于将深层视觉特征、浅层视觉特征和语义特征进行融合，得到融合特征；

分类器，用于根据融合特征进行文档布局的分类，识别出文档布局。

一种计算机存储介质，所述存储介质中存储有计算机程序，该计算机程序执行上述方法的各个步骤。

与现有技术相比，本发明的优点在于：

本发明无需人工构建语料库，通过OCR技术提取文本内容，形成所需的领域语料库。本发明提出了三个维度的特征来描述文档图像的信息，包含深层视觉特征、浅层视觉特征及语义特征，并将三个维度的特征融合训练。本发明无需人工理解文档布局结构，克服了文档中正文、列表、标题的相似度高导致的易混淆的难题，并具有跨领域自适应能力，实现了文档布局结构的分析自动化，以达到从较大规模的文档中快速而准确地进行布局分类，提高分类的准确性和稳定性。

附图说明

图1示出了本发明文档结构定位模型框架图。

图2示出了本发明文档特征提取融合及文档布局分类框架图。

图3示出了本发明深层特征提取网络模型结构图。

图4示出了本发明浅层特征统计直方图(标题)。

图5示出了本发明浅层特征统计直方图(正文)。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提出了一种基于视觉特征和语义特征融合的文档布局识别方法，通过目标检测技术，对文档图像进行布局的检测，识别与定位到若干个包含内容的图像块，再通过目标检测及自然语言处理技术，对图像块进行特征提取与融合，最终得到文档布局分类结果。本发明提供了从定位到分类的文档布局分析方法。下面通过具体实施方式对本发明作进一步说明。

如图1及图2所示，为本发明文档结构定位与分类模型框架图。其主要步骤如下：

步骤1：使用目标检测模型(Cascade Mask RCNN)对文档中的每个图像块进行定位，在已有数据集中利用预训练权重进行训练，包含以下五个过程：

(1)输入文档图像；

(2)进入卷积层，将卷积层提取的特征图经过RPN提取出候选区域；

(3)进入阈值为0.5的检测网络H1，再经过分类器和回归器，修正已有IOU；

(4)将修正后的新的候选区域重采样后再送入阈值为0.6的检测网络H2；

(5)以此类推，输入检测网络H3，最后H3得到位置就是对文档定位后的每个图像块。

该模型训练为20个Epoch，Batch的大小为8，每个GPU一个样本。此外，设置初始学习率为0.02，动量0.9，权重衰减0.0001的SGD优化器，学习率在第5、12、18Epoch后衰减两次。

上述卷积层、RPN网络、检测网络H1、H2、H3、分类器、回归器都是Cascade MaskRCNN 中的网络结构，IOU是测量在特定数据集中检测相应物体准确度的标准，Epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程，Batch就是每次送入网络中训练的一部分数据，以上都属于公知常识。

步骤2：深层视觉特征提取

该部分命名为DCNN(Deep Convolutional Neural Network)提取器。使用卷积神经网络 (MobileNetV2)模型对文档中的图像块进行特征提取，提取出深层视觉特征。如图3所示，为本发明使用的卷积神经网络模型图。其中，输入图片的尺寸为

input_shape＝[128,128,3]

该部分模型的主干网络为Imagenet，池化层为Avgpooling。

步骤3：浅层视觉特征提取

该部分命名为全局感知单元。对于标题，简单直观的特点包括粗体和较短的长度。这两个特征都体现在像素值较低的直方图中，像素很少。为了对图像块进行直方图统计，首先将图像块转换为灰度图像，然后计算每个像素值的频率，得到长度为256的浅层视觉特征向量。如图4和图5所示，统计所述文档图片中每个图像块的明暗程度，形成浅层视觉特征，其过程如下：

(1)对图像块的每个像素点进行像素值计算；

(2)统计每个像素值包含的像素点个数；

(3)生成像素点统计直方图，该直方图即256维的浅层视觉特征向量。

步骤4：文本内容获取

此步骤在实际操作中位于步骤1之后，图像文本识别模块利用OCR技术，对每个图像块进行光学字符识别，得到每个图像块的文本内容。

步骤5：语义特征提取

该部分命名为文本记忆单元，使用倒排索引技术(TF-IDF)获取所述文档图片中每个图像块的语义特征，其过程如下：

(1)载入图像块对应的文本内容，形成语料库；

(2)统计每个词在文中出现的次数，得到词频；

(3)在词频的基础上，要对每个词分配一个“重要性”权重，得到逆文档频率；

(4)将词频与逆文档频率相乘，生成语义特征向量。

步骤6：特征融合

DCNN提取器可以提取一些不能直接观察到的重要特征，而文档全局感知单元可以提取网络在卷积过程中可能遗漏的特征，文本记忆单元表示图像块的文本内容包含的语义特征。与其他类别相比，文档全局感知单元和文本记忆单元可以增强标题类别的识别能力。DCNN 提取器在识别具有特殊符号(如列表)的类别方面具有优势。特征融合模块充分利用优势的特征向量，特征向量串接在一起，这意味着浅层视觉特征、深层视觉特征和文本的语义特征的融合，然后连接到SoftMax层，网络学习各种特性本身的权重达到最优分类效果。

因此，得到深层视觉特征、浅层视觉特征、语义特征后，将其进行融合，得到融合特征。

concat＝tf.keras.layers.concatenate(hidden1，feature，vector)

其中，tf.keras.layers.concatenate()用于拼接各个层的特征，hidden1为深层视觉特征， feature为浅层视觉特征，vector为语义特征，concat为融合特征。

表1视觉及语义特征的定义、模块名称及提取方法

步骤7：训练及预测

将融合后的特征送入模型当中训练，其中，优化器为Adam，分类层为SoftMax层，损失函数为categorical_crossentropy，利用SoftMax层进行结果概率的计算，最终得到文档布局分类结果。损失函数的公式如下：

式中，i表示第i个样本，y_i表示第i个样本的真实标签值，

表示第i个样本的假设标签值，log底数为2，output size表示样本个数。

表2输出类别

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

尽管为说明本发明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于视觉特征和语义特征融合的文档布局识别方法，其特征在于，步骤包括：

2.如权利要求1所述的方法，其特征在于，使用所述目标检测神经网络定位每个图像块的步骤包括：

将文档图像输入到卷积层，提取出特征图；

将卷积层提取的特征图经过RPN网络提取出候选区域；

经修正后，对新的候选区域重采样，再输入到检测网络H2；

3.如权利要求2所述的方法，其特征在于，所述检测网络H1的阈值为0.5，检测网络H2的阈值为0.6，检测网络H3的阈值为0.7。

4.如权利要求1所述的方法，其特征在于，所述目标检测神经网络训练时，采用SGD优化器进行权重优化；所述卷积神经网络采用MobileNetV2网络，主干网络为Imagenet，池化层为Avgpooling。

5.如权利要求1所述的方法，其特征在于，利用OCR技术，获取所述每个图像块的文本内容。

6.如权利要求1所述的方法，其特征在于，所述倒排索引方法采用TF-IDF算法，包括以下步骤：

根据所述每个图像块的文本内容，形成语料库；

统计语料库中每个词在文中出现的次数，得到词频；

基于词频对每个词分配一个权重，得到逆文档频率；

将词频与逆文档频率相乘，生成语义特征。

7.如权利要求1所述的方法，其特征在于，所述分类器采用SoftMax分类器，训练时采用平均交叉熵作为损失函数；所述SoftMax分类器训练时采用Adam优化器进行优化。

8.如权利要求1所述的方法，其特征在于，所述分类器的输出类别包括正文Text、列表List、标题Title、图片Figure和表格Table。

9.一种基于视觉特征和语义特征融合的文档布局识别系统，其特征在于，包括：

全局感知单元，用于统计图像块的各像素点的像素值和每个像素值对应的像素点个数，生成直方图，该直方图即浅层视觉特征；

图像文本识别模块，用于识别图像块的文本内容；

10.一种计算机存储介质，其特征在于，所述存储介质中存储有计算机程序，该计算机程序执行权利要求1-8任一项所述方法的各个步骤。