CN113420669A

CN113420669A - 基于多尺度训练和级联检测的文档版面分析方法和系统

Info

Publication number: CN113420669A
Application number: CN202110701808.2A
Authority: CN
Inventors: 唐佳珊; 鲁统伟; 贾世海; 张�浩
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420669B

Abstract

本发明提供了基于多尺度训练和级联检测的文档版面分析方法和系统，通过把输入的版面图像随机缩放到某个范围尺度的图像，将此尺度的图像输入训练构建好的网络进行特征的提取和融合，根据版面不同元素的属性，设置相应的分割网络分支进行分割识别，使得每张文本图像上的文本、图片、表格、列表、公式得到正确的划分，完成版面分析，实现了同时检测文档图像中的多种类别对象并区分文档图像的目标的功能。本发明提高了检测模型对物体大小的鲁棒性，降低了输入图像缩放操作对模型的影响；采用特征融合模块使模型能够关注图像每个区域的有效特征，忽略无效特征，提高了模型的辨别能力，能更有效地执行文本区域划分任务，增强了特征表达能力。

Description

基于多尺度训练和级联检测的文档版面分析方法和系统

技术领域

本发明属于文档图像检索技术领域，具体涉及基于多尺度训练和级联检测的文档版面分析方法和系统。

背景技术

版面分析是将文档图像进行文档对象识别并判断各区域所属类别，如文本、表格、图片、页眉、印章、公式、分隔线等，并对不同类型的区域进行切分。待处理的文档可能有比较复杂的逻辑结构。一页文档可能不只是单栏，还可能为两分栏或者多分栏，报纸杂志的排版包含标题、正文、图片，可能还有嵌套在文字里面的表格或者图表。合同的排版通常包含较为复杂的各种类型的表格，同时可能含有印章、签名等信息。页面对象识别系统能更有效的实现对不同的文档对象的识别，此后可以对不同的文档对象做针对的处理，能更有效的实现文本行的提取以及表格结构识别。

最近几年，文档结构识别领域出现了许多新的方法，总体来讲可以归为两个步骤。首先是区域提取，包括自底向上方法，自顶向下方法，混合型方法，其次是利用区域内相关特征进行区域识别，主要是基于机器学习的方法。

然而，本文布局分析仍然是计算机视觉中一个具有挑战性的任务。首先，区分表格和公式有太大难度。其次，文本中的标题也难以和文本内容区分。

为了解决文本中的目标相似问题，研究者们做了大量的工作来提高特征的辨别能力。Liu等人提出了一种从粗到细的渐进检索方法。人们开始尝试将深度学习引入文本布局分析任务当中。例如，Barakat等人提出了一种基于全卷积网络(FCN)的方法，该方法将来自非二值化历史手稿的副文本和主要文本分割成复杂的版面，其训练FCN以预测每个像素的类别，这类方法可以实现像素级别的预测，达到精细化推理的效果；A Gilani提出Faster-RCNN用于表检测，首先对文档图像进行预处理，然后，这些图像被输入一个区域提议网络，最后接入一个用于表检测的全连接神经网络。该方法对文档、文献和杂志等不同布局的文档图像具有很高的识别精度。

尽管这些方法在包含文档的不同布局的文档图像上具有很高的精度，但是依赖于对输入图像进行复杂的预处理。并且，只能单一地检测到文档中某一类对象，不能同时识别多种类别，对于复杂的公式区域也没有涉及研究。大规模标注的文档图像数据库的缺乏也影响深度卷积神经网络的性能。

发明内容

本发明要解决的技术问题是：提供基于多尺度训练和级联检测的文档版面分析方法和系统法，用于同时检测文档图像中的多种类别对象并区分文档图像中的包括文本、图片、表格、列表、公式的目标。

本发明为解决上述技术问题所采取的技术方案为：基于多尺度训练和级联检测的文档版面分析方法，包括以下步骤：

S0：搭建基于多尺度训练和级联检测的文档版面分析系统，包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块；特征融合模块包括依次连接的Resnet50卷积网络和FPN网络；级联目标检测模块包括依次连接的RPN区域提交网络、区域特征聚集RoIAlign层、全连接层，以及级联的检测模块Hn，前一级检测模块的输出端连接后一级检测模块的输入端；还包括与级联的检测模块Hn并行的掩膜分割模块，掩膜分割模块包括各级分割模块Mn，分割模块Mn的输入端连接对应的检测模块Hn的输出端；

S1：将文档图像输入多尺度训练模块随机缩放为宽为预设范围内整数、高度不变的图像；

S2：将缩放后的图像输入预训练好的Resnet50卷积网络进行特征提取，然后输入FPN网络构造特征金字塔进行从上到下和从下至上的多尺度特征融合，得到具有更强语义信息的特征图；

S3：根据文本类别、不同区域的高宽比和大小设置用于分析文档图像的类别的预设框，并采用k-means聚类方法通过多轮迭代得到的相关度IoU值选取预设框；

S4：将步骤S2得到的特征图输入RPN区域提交网络，统计用于定位文档图像的目标的目标框，结合预设框经过后处理得到文档区域的候选框，并针对文档图像的原图计算候选框的偏移值；

S5：在多个级联的检测模块中分别将步骤S4得到的文档区域的候选框基于多个不同相关度IoU值进行正负样本训练；采取逐级训练模式，将前一级检测模块输出的Bbox作为后一级检测模块的输入，且后级检测模块界定正负样本的相关度IoU值不断上升；

S6：将级联目标检测模块输出的文档区域类别分数取平均值得到最终类别分数，将最后一级检测模块输出最优结果作为最终结果，输出Bbox的目标分类和文档图像上每个区域的目标预测分割掩模mask，完成对文档图像的版面分析。

按上述方案，所述的步骤S1中，具体步骤为：将输入的文档图像缩放到宽为500～1000的缩放尺度中任意整数像素、高为1000像素的图像，在模型的每个训练轮次epoch中随机选择一个缩放尺度进行训练；采用2017ICDAR数据集作为输入的文档图像，2017ICDAR数据集包括训练集和测试集，测试集包括查询集和图库集；从2017ICDAR数据集中抽取2010张图像用于训练，抽取402张图像用于测试。

按上述方案，所述的步骤S2中，特征融合的具体步骤为：FPN网络对ResNet50卷积网络输出的不同阶段的特征进行融合，生成卷积特征图C1～C4。

按上述方案，所述的步骤S3中，具体步骤为：

S31：随机选取K个Bbox作为初始的预设框；

S32：设预设框的左上角的顶点为(x₁，y₁)，右下角的顶点为(x₂，y₂)；

S33：使用文档图像的宽w_img和高h_img分别对Bbox的宽w_box和高h_box做归一化得到预设框的宽w和高h：

S34：计算预设框anchor box与Bbox的相关度IoU：

相关度IoU的值越大表示预设框anchor box与Bbox的相关度越好，设距离参数d表示相关度IoU的误差：

d＝1-IoU；

S35：根据步骤S34得到每个Bbox对每个预设框anchor box的误差为d(n，k)，将Bbox分类给误差集合{d(i，1)，d(i，2)，...，d(i，k)}中误差最小的预设框anchor box；对每个Bbox重复执行本步骤，记录分类到每个预设框anchor box的Bbox；

S36：更新预设框anchor box，将Bbox的宽和高的中值分别作为所属的预设框anchor box的宽和高；

S37：重复操作步骤S34到S36，直到所有Bbox的分类不再更新；

S38：使用最后得到的预设框anchor box与每个Bbox计算相关度IoU值，对每个Bbox选取最高的相关度IoU值，求所有Bbox的IoU值的平均值，得到预设框anchor box的精确度。

进一步的，所述的步骤S4中，具体步骤为：

S41：将卷积特征图C1～C4输入RPN区域提交网络生成建议窗口，将建议窗口映射到卷积特征图C1～C4上生成包含目标个体的卷积特征子图D1～D3；

S42：将卷积特征子图D1～D3输入区域特征聚集RoI Align层转换为固定尺寸特征图E1～E3，并采用全连接层分类目标和定位最适应包括文本、图片、表格、列表、公式的目标物体的目标框；

S43：结合预设框经过后处理得到文档区域的候选框，并针对文档图像的原图计算候选框的偏移值。

进一步的，所述的步骤S5中，具体步骤为：

S51：将步骤S43得到的候选框输入相关度IoU值为0.5的检测模块H1，筛选掉IoU值为0.5的、含有背景的目标框；

S52：将卷积特征图C1～C4经过级联目标检测模块修正得到的文档区域输入相关度IoU值为0.6的检测模块H2，筛选符合IoU值为0.6的目标框；

S53：将检测模块H2输出的新区域位置和分割结果输入相关度IoU值为0.7的检测模块H3，筛选符合IoU值为0.7的目标框；最终将检测模块H3输出的文本类别、目标框位置和分割结果作为级联目标检测模块的输出。

进一步的，所述的步骤S5中，在级联目标检测模块的训练过程中，设每个t阶段生成的Bbox的损失值为

每个t阶段生成的目标预测分割掩模mask的损失值为

则每个感兴趣区域RoI定义的多任务损失函数为：

一种基于多尺度训练和级联检测的文档版面分析系统，包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块；多尺度训练模块用于将图片缩放到不同尺寸并放入预训练好的网络；特征融合模块包括依次连接的Resnet50卷积网络和FPN网络；特征融合模块用于将最后一层特征图谱进行上采样，并与每一个金字塔阶级的特征图谱进行加法合并操作，得到新的表征能力更强的不同金字塔层次的特征图谱，然后将感兴趣区域RoI按照尺寸分别映射到特征图谱上，并在每个特征图谱上进行类别和位置预测；级联目标检测模块包括依次连接的RPN区域提交网络、区域特征聚集RoI Align层、全连接层，以及级联的检测模块Hn，前一级检测模块的输出端连接后一级检测模块的输入端；还包括与级联的检测模块Hn并行的掩膜分割模块，掩膜分割模块包括各级分割模块Mn，分割模块Mn的输入端连接对应的检测模块Hn的输出端；级联目标检测模块和掩膜分割模块用于根据文档图像的目标属性检测和分割包括文本、图片、表格、列表、公式的目标。

一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行基于多尺度训练和级联检测的文档版面分析方法。

本发明的有益效果为：

1.本发明的基于多尺度训练和级联检测的文档版面分析方法和系统，通过把输入的版面图像随机缩放到某个范围尺度的图像，将此尺度的图像输入训练构建好的网络进行特征的提取和融合，根据版面不同元素的属性，设置相应的分割网络分支进行分割识别，使得每张文本图像上的文本、图片、表格、列表、公式得到正确的划分，完成版面分析，实现了同时检测文档图像中的多种类别对象并区分文档图像的目标的功能。

2.本发明采用多尺度训练模块在一定程度上提高了检测模型对物体大小的鲁棒性，降低了输入图像缩放操作对模型的影响；采用特征融合模块使模型能够关注图像每个区域的有效特征，忽略无效特征，提高了模型的辨别能力；采用级联检测网络不断优化预测结果，基于不同IoU阈值确定的正负样本训练得到级联的检测模块，将前一个检测模块的输出作为后一个检测模块的输入，且后级的检测模块界定正负样本的IoU阈值不断上升，通过stage by stage的训练方式使最后一级检测模块输出最优结果。

3.本发明提供了基于多尺度和级联网络训练文档图像方法优于其他的文本版面检测算法，能更有效地执行文本区域划分任务；结合多尺度训练模块、特征融合模块、级联网络训练模块，使得模型学习到更好的特征信息，增强了网络的特征表达能力。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的系统流程图。

图3是本发明实施例的网络结构图。

图4是本发明实施例的模块图。

图5是本发明实施例的结果图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图3和图4，本发明实施例的一种系统包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块；

多尺度训练模块用于将图片缩放到不同尺寸，放入预训练好的网络；

特征融合模块用于将最后一层特征图谱进行不断尽快上采样，并与每一个金字塔阶级的特征图谱进行加法合并操作，得到新的表征能力更强的不同金字塔层次的特征图谱，然后将RoI按照尺寸分别映射到这些特征图谱上，再在每个特征图谱上进行类别和位置预测；

级联目标检测模块为将候选框基于三个不同IoU阈值的正负样本训练得到不同的检测模型，采取逐级训练模式，将前一个检测模块的输出作为后一个检测模块的输入，以最后输出的检测模型作为最终结果，输出相应的目标分类和mask。

参见图1和图2，本发明的一种方法，包括以下步骤：

S1：缩放数据图像。从文本版面分析数据集中抽取一部分图像，将数据集中的所有图像随机缩放到宽为某个整数，高度保持不变；

将输入的文档图片缩放到宽为500～1000中任意整数像素，高为1000像素的某个整数像素，训练过程中，每个epoch随机选择一个尺度进行训练。

本发明使用2017ICDAR数据集，包括训练集和测试集，测试集包括查询集和图库集。从数据集中抽取2010张图像进行训练，抽取402张图像进行测试。

S2：将这些缩放以后的图像输入预训练好的Resnet50卷积网络进行特征提取，接着输入FPN网络构造特征金字塔，实现从上到下和从下至上的多尺度特征融合得到具有更强语义信息的特征图；

S21：网络结构分为两个分支，分别为目标检测和分割网络。两者共享一个骨干网络；

S22：对输入图像经过ResNet50骨干网络进行特征提取并引入FPN对ResNet50不同阶段特征进行融合以生成卷积特征图C1～C4。

S3：根据文本类别、不同区域的高宽比和大小设置适合文档分析的预设框，使用k-means聚类方法对目标框执行自动统计；

S31：随机选取K个Bbox(bounding box)作为初始的预设框；

S32：将预设框的左上角和右下角的顶点表示为(x₁，y₁，x₂，y₂)；

S33：使用图片的宽w_img和高h_img对Bbox的宽w_box和高h_box做归一化得到预设框的宽w和高h：

S34：计算预设框anchor box与Bbox的相关度IoU：

相关度IoU的值越大表示预设框anchor box与Bbox的相关度越好，定义距离参数d用于表示相关度IoU的误差：

d＝1-IoU；

S35：分类操作。经过前一步的计算得到每一个Bbox对于每个anchor box的误差d(n，k)，比较每个Bbox对于每个anchor box的误差大小{d(i，1)，d(i，2)，...，d(i，k)}，选取误差最小的anchor box，将这个Bbox分类给它，对每个Bbox重复这个操作，记录每个anchorbox有哪些Bbox属于它；

S36：更新anchor box。根据Bbox的宽和高的中值大小将其作为该anchor box的新的尺寸。

S37：重复操作步骤S54到S56，直到在步骤S54发现对于全部Bbox其所属的anchorbox类与之前所属的anchor box类完全一样(这里表示所有Bbox的分类已经不再更新)。

S38：计算anchor boxes精确度。使用最后得到的anchor boxes与每个Bbox计算相关度IoU值，对每个Bbox选取最高的相关度IoU值(代表其属于某一个anchor box类)。然后求所有Bbox的IoU值的平均值即最后的精确度值。

利用几轮迭代后的IoU值计算出最适合文本图像上每个类别大小的预设框，于S4步骤中为了使特征图进入RPN网络选出最适应目标物体(文本图像上的表格，公式，文字，图片等等目标)的框。

S4：将S2得到的特征图输入RPN网络，结合预设框再经过后处理得到文档区域的候选框，并针对原图计算框的偏移值；

S41：将卷积特征图C1～C4作为RPN区域提交网络输入以生成建议窗口，将建议窗口映射到C1～C4特征图上以生成可能包含目标个体的卷积特征子图D1～D3；

S42：将D1～D3作为RoIAlign层输入转换为固定尺寸大小特征图E1～E3，并利用全连接层进行目标分类与目标框定位；

S43：结合预设框经过后处理得到文档区域的候选框，以及针对原图计算框的偏移值。

S5：设计级联网络，利用S3得到的候选框基于三个不同IoU阈值的正负样本训练得到不同的检测模型，采取逐级训练模式，将前一网络输出的Bbox(bounding box)作为下一阶段网络的输入，并且越往后的检测模型，其界定正负样本的IoU阈值是不断上升的；

S51：输入H1网络筛选掉IoU值＝0.6的含有背景的目标框；

S52：对识别过程中存在目标的特征图，将目标回归器与目标检测器修正后的新区域送入阈值为0.6的检测网络H2，筛选符合IoU值＝0.6的目标框；

S53：将H2子网络输出的新区域位置及由分割网络得出的分割结果送入阈值为0.7的检测子网络H3，筛选符合IoU值＝0.7的目标框，最终将H3子网络输出的文本类别、目标框位置及其分割结果作为Cascade Mask R-CNN的输出。

由于每一阶段网络的训练都是由前一阶段网络生成送入下一阶段网络训练，经过三次迭代后，得到最优的模型。在生成网络训练过程中，每一个RoI定义一个多任务损失函数：

是指每一个t阶段生成的bbox的损失值，

是指每一个t阶段生成的mask的损失值。

S6：将三个检测网络输出的文档区域类别分数取平均值得到最终类别分数，Bbox和文本上每个区域的目标预测分割掩模mask以最后一个检测网络输出作为最终结果。

测试实施例：

使用三个度量指标:mAP和recall在ICDAR2017数据集上测试我们的方法。表一使用402张文档图像进行测试的对比结果，mAP和recall值越高表示效果越好。实验结果如图5所示，(a)和(b)都是本实验输出的结果图，每个区域输出相应的类别名称和类别概率。

表1本发明与七种优秀方法比较结果表

Team name	mAP	Recall
			FastDetector	0.884	0.915
Vislnt	0.795	0.823
			SOS	0.737	0.798
Matiai-ee	0.626	0.798
			UITVN	0.695	0.763
IU-vision	0.015	0.114
			HustVision	0.796	0.836
OUR	0.802	0.847

从表1可以看出，本发明的方法与另外六种方法相比，在两个度量指标上都取得了更高的分数，证明本发明的方法优于对比的方法。虽然第一种方法分数更高，但是算法流程复杂，本发明的方法更加简洁有效。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.基于多尺度训练和级联检测的文档版面分析方法，其特征在于：包括以下步骤：

S0：搭建基于多尺度训练和级联检测的文档版面分析系统，包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块；

特征融合模块包括依次连接的Resnet50卷积网络和FPN网络；

级联目标检测模块包括依次连接的RPN区域提交网络、区域特征聚集RoIAlign层、全连接层，以及级联的检测模块Hn，前一级检测模块的输出端连接后一级检测模块的输入端；

还包括与级联的检测模块Hn并行的掩膜分割模块，掩膜分割模块包括各级分割模块Mn，分割模块Mn的输入端连接对应的检测模块Hn的输出端；

2.根据权利要求1所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S1中，具体步骤为：将输入的文档图像缩放到宽为500～1000的缩放尺度中任意整数像素、高为1000像素的图像，在模型的每个训练轮次epoch中随机选择一个缩放尺度进行训练；

采用2017ICDAR数据集作为输入的文档图像，2017ICDAR数据集包括训练集和测试集，测试集包括查询集和图库集；从2017ICDAR数据集中抽取2010张图像用于训练，抽取402张图像用于测试。

3.根据权利要求1所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S2中，特征融合的具体步骤为：FPN网络对ResNet50卷积网络输出的不同阶段的特征进行融合，生成卷积特征图C1～C4。

4.根据权利要求1所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S3中，具体步骤为：

S31：随机选取K个Bbox作为初始的预设框；

S34：计算预设框anchor box与Bbox的相关度IoU：

d＝1-IoU；

S35：根据步骤S34得到每个Bbox对每个预设框anchor box的误差为d(n，k)，将Bbox分类给误差集合{d(i，1)，d(i，2)，…，d(i，k)}中误差最小的预设框anchor box；对每个Bbox重复执行本步骤，记录分类到每个预设框anchor box的Bbox；

S36：更新预设框anchor box，将Bbox的宽和高的中值分别作为所属的预设框anchorbox的宽和高；

S37：重复操作步骤S34到S36，直到所有Bbox的分类不再更新；

5.根据权利要求3或4所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S4中，具体步骤为：

6.根据权利要求5所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S5中，具体步骤为：

7.根据权利要求6所述的基于多尺度训练和级联检测的文档版面分析方法，其特征在于：所述的步骤S5中，在级联目标检测模块的训练过程中，设每个t阶段生成的Bbox的损失值为

每个t阶段生成的目标预测分割掩模mask的损失值为

则每个感兴趣区域RoI定义的多任务损失函数为：

8.一种用于权利要求1至7中任意一项所述的基于多尺度训练和级联检测的文档版面分析方法的版面分析系统，其特征在于：

包括依次连接的多尺度训练模块、特征融合模块、级联目标检测模块；

多尺度训练模块用于将图片缩放到不同尺寸并放入预训练好的网络；

特征融合模块包括依次连接的Resnet50卷积网络和FPN网络；特征融合模块用于将最后一层特征图谱进行上采样，并与每一个金字塔阶级的特征图谱进行加法合并操作，得到新的表征能力更强的不同金字塔层次的特征图谱，然后将感兴趣区域RoI按照尺寸分别映射到特征图谱上，并在每个特征图谱上进行类别和位置预测；

级联目标检测模块和掩膜分割模块用于根据文档图像的目标属性检测和分割包括文本、图片、表格、列表、公式的目标。

9.一种计算机存储介质，其特征在于：其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行如权利要求1至权利要求7中任意一项所述的基于多尺度训练和级联检测的文档版面分析方法。