CN113033541B

CN113033541B - 发行公告版面分析方法

Info

Publication number: CN113033541B
Application number: CN202110403839.XA
Authority: CN
Inventors: 周玉飞
Original assignee: Beijing Hezhong Dingcheng Technology Co ltd
Current assignee: Beijing Hezhong Dingcheng Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2024-04-30
Anticipated expiration: 2041-04-15
Also published as: CN113033541A

Abstract

本发明提供发行公告版面分析方法，涉及数据处理技术领域。该发行公告版面分析方法，包括以下步骤：S1.将待分析图像输入训练好的目标检测模型中；S2.判断待分析图像中是否包含表格元素和图元素，如果包含则调整表格和图元素位置并进行下一步，不包含则进行步骤S4；S3.调整所有与图、表格元素有重叠的元素位置；S4.利用投影法计算文本行位置；S5.标记文本行所属版面元素，同时调整对应的版面元素位置；S6.判断是否需要分栏，并计算分栏位置。本发明利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序，采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界，达到版面元素精确标记的目标。

Description

发行公告版面分析方法

技术领域

本发明涉及数据处理技术领域，具体为发行公告版面分析方法。

背景技术

理想的版面分析技术能够定位给定文档版面中的文本段落、表格和图等元素，并构建版面各个元素的阅读逻辑顺序。然而当前的版面分析技术存在着诸多不足。

当前基于图像处理方法的版面分析，主要通过对图像进行滤波、锐化等处理，利用投影，连通域分析和形态学处理方法来划分区域。由于该方法依赖于图像的形态学等特征，对背景复杂、字符较少的版面图像版面元素定位效果不佳。现有基于深度学习的目标检测技术能够将版面中的文本段落、表格和图等元素视为不同的目标进行检测，从而获得版面元素的类别和位置信息。现阶段版面逻辑阅读顺序的构建方法主要分为两类，一类利用OCR识别的结果信息，根据中文词语和英文单词字母的连续性来重建阅读顺序，另一类则基于图论理论来构建阅读顺序，此类方法把文字块的邻接关系表示为有向图，利用自然语言处技术计算连接间的权重值，采用最优化的方法建立文字块的阅读顺序。

现有发明专利(公开号为CN104516891B)公开了一种版面分析方法及系统，该发明采用逻辑参考信息与基本图元数据信息结合的方式，并在版面分析过程中充分利用这部分逻辑参考消息，从而得到更准确的版面文档的版面分析结果，有效地改进了版式文档的版面分析结果，然而该方法只是利用OCR结果作为参考的逻辑阅读顺序重构方法，未考虑版面元素的位置信息且对OCR的识别结果要求过高，导致其阅读顺序判断正确率较低。

现有发明专利(公开号为CN100568221C)公开了一种对报纸版面进行文字阅读顺序恢复的方法，该发明以图论理论进行数学建模，把文字块的邻接关系表示为有向图，并把有向图拆分转化为加权二分图，采用自然语言处理技术计算二分图边权值，通过最优匹配得到多个连续序列，每个序列再根据文字块样式信息分割成多个子序列，子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流，利用了语义、空间关系和样式信息，阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。然而这种根据图论进行建模的方法需要利用自然语言处理技术，只能处理纯文本类的版面，对包含表格、图等其它元素版面，无法构建完整和准确的阅读逻辑顺序。

现有发明专利(公开号为CN110674721A)公开了一种试卷版面公式自动检测的方法，该试卷版面公式自动检测的方法针对扫描及拍照试卷这种特殊的文档图像数据，提出将mobilenetv2、advance east和ssd算法结合的整体解决方案，整体基于ssd网络架构，将原有主干网络替换成更加轻量级的mobilenetv2网络，并引入advance east算法中的特征融合方式，最后，从融合后的特征图上，分阶段从不同层中预测大小不同的目标物体，然而利用目标检测算法获取到的版面元素位置，通常元素边界处分割不准确，具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象，导致版面元素定位效果不佳。

综上所述，需要对现有版面分析技术进行改进。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了发行公告版面分析方法，解决了现有技术利用OCR结果作为参考的逻辑阅读顺序重构方法，未考虑版面元素的位置信息且对OCR的识别结果要求过高，导致其阅读顺序判断正确率较低；根据图论进行建模的方法需要利用自然语言处理技术，只能处理纯文本类的版面，对包含表格、图等其它元素版面，无法构建完整和准确的阅读逻辑顺序；利用目标检测算法获取到的版面元素位置，通常元素边界处分割不准确，具体表现为边界与文本相交、部分短文本行被遗漏、多个版面元素边界互相重叠等现象，导致版面元素定位效果不佳的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：发行公告版面分析方法，包括以下步骤：

S1.将待分析图像输入训练好的目标检测模型中；

S2.判断待分析图像中是否包含表格元素和图元素，如果包含则调整表格和图元素位置并进行下一步，不包含则进行步骤S4；

S3.调整所有与图、表格元素有重叠的元素位置；

S4.利用投影法计算文本行位置；

S5.标记文本行所属版面元素，同时调整对应的版面元素位置；

S6.判断是否需要分栏，并计算分栏位置；

S7.对版面元素进行排序；

S8.输出结果。

优选的，所述发行公告版面分析方法选择Faster-RCNN深度学习框架结构来检测版面元素，该方法将版面元素分为页眉、页脚、文本段落、图和表格5类，标注8300张样本上的版面元素类别和位置，用标注好的样本训练Faster-RCNN模型。

优选的，所述S2中调整表格元素位置的具体步骤包括：以深度学习模型输出的表格位置为基准进行扩大和缩小，扩大1.3倍得到位置A，缩小0.7倍得到位置B，在原始输入图像上裁切位置A和位置B之间的部分，二值化后，用直线段检测算法检测并合并直线，根据检测到的直线坐标调整表格元素的位置，如果没有检测到直线，通过纵向和横向投影定位文本行，根据文本位置调整表格元素的位置，图元素的调整方式和表格元素相同；

调整图元素位置的具体步骤包括：以模型输出的图元素位置为基准扩大1.3倍得到位置C，由于图片与文档图像的背景之间通常有明显梯度，在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界，最终得到调整后的图元素的位置。

优选的，所述S3后还包括以下步骤：如果版面含有图或者表格元素，将原图中调整后的表格或图元素的位置置为背景，更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。

优选的，所述S4中计算文本行位置的具体方式包括：二值化更新后的样本图片，用10*1的核心对其腐蚀，使得文字可以连续成行，在竖直方向和水平方向上进行投影，获取文本行的位置坐标。

优选的，所述S5的具体步骤包括：

a.遍历网络模型输出的非表格和图的元素D，筛选出D中互相有重叠的元素，计算重叠区域坐标，根据重叠区域与文本行的交并比，筛选出重叠区域内的文本行，以任意一条文本行的起点纵坐标为边界分割重叠的版面元素；

b.计算D与每条文本行E的交并比，当交并比大于0.5，并且文本长度大于当前版面元素D的宽度的50％时，标记当前文本行E属于当前版面元素D；对于不与任何版面元素相交的文本行，计算其中心位置与所有版面元素D中心位置的距离，标记其属于距离最近的版面元素；

c.标记完所有文本对应版面元素之后，在横向计算每个版面元素下属的文本行的起点和终点平均值，更新版面元素的左右位置为计算得到的平均值，上下位置为纵向上每个版面元素下属文本行坐标的最小和最大值。

优选的，所述S6的具体步骤如下：

1).若w为样本图片宽度，如果版面中含有宽度小于1/2*w的表格或者图元素，那么该版面需要分栏，并且这两种元素的横向边界就可以作为分栏位置，记录边界位置进集合split_pos1并进行下一步；

2).对样本图片在水平方向上进行切片处理，切片以h/4，h/2，3*h/4为竖直方向中心，h/4为高度，w为宽度，对三个切片样本做如下处理：二值化后向竖直方向投影得到数组F，以6*1的核在数组F做滑动窗口操作，滑动步长为5，记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos，如果mid_pos大于输入样本图像宽度的22％，并小于样本图像宽度的78％，则记录一个分栏位置进集合split_pos；

3).如果没有找到分栏位置，遍历步骤S5中获取的所有文本元素，统计宽度大于输入样本图片宽度25％并小于输入样本图片宽度32％的所有文本元素，如果符合统计条件的文本元素个数大于所有文本元素个数的25％，按文本元素的起点坐标对符合条件的元素分组，再在水平方向上计算各组元素的间隔，记录间隔的中点进集合split_pos；

4).合并集合split_pos1中和split_pos中间隔小于20个像素的分割位置为新的split_pos；

经过以上步骤如果split_pos元素个数为0,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,否则执行步骤S7。

优选的，所述S7的具体实施步骤包括：

(1).向split_pos中插入元素0和样本图片宽度w，统计split_pos中元素个数为n，并做升序排列，在竖直方向上页面被分割成n-1个栅格，从左向右编号为1～n-1；

(2).对版面内所有元素按右上点的纵坐标做升序排列，遍历每一个版面元素，记其左右边界为cur_x_l、cur_x_r，计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum，如果cur_sum大于1，当前元素记为类别0，否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内，并记录其类别为栅格序号，这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交，分别计算栅格边界距离cur_x_l和cur_x_r的距离，取距离较大侧的栅格编号为元素类别，在分类过程中每一次遇到类别为0的元素，就对所有已经分类过的元素按编号升序排列，所有元素分类完成后对最后一个0类元素之后的元素按编号排序，获得最终版面分析结果。

(三)有益效果

本发明提供了发行公告版面分析方法。具备以下有益效果：

1、针对现有版面分析技术构建阅读顺序不准确的问题，本发明摒弃现有技术依赖OCR识别结果的缺陷，利用一系列空间布局特征对包括所有表格、图和文本等版面元素建立基于阅读逻辑的版面元素排序。

2、针对现有版面分析技术版面元素定位不精确的问题，本发明采用深度学习和图像处理混合算法标记版面元素并精确勾勒其边界，达到版面元素精确标记的目标。

3、采用本发明提出的版面元素定位技术，能够大幅提高包括表格、图和文本等版面元素的定位精度。

4、采用本发明提出的版面元素排序技术，能够准确地构建版面全部元素的阅读逻辑顺序。

附图说明

图1为本发明提出的发行公告版面分析方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

本专利选择Faster-RCNN深度学习框架结构来检测版面元素，Faster-RCNN是一种两阶段目标检测深度学习框架结构，本发明将版面元素分为页眉、页脚、文本段落、图和表格5类，标注8300张样本上的版面元素类别和位置，用标注好的样本训练Faster-RCNN模型。

如图1所示，本发明实施例提供发行公告版面分析方法，包括以下步骤：

S1.将待分析版面图像输入训练好的网络模型，得到输入样本所包含的元素类别和粗略位置；

S2.判断版面是否包含表格元素，如果没有，进行下一步；如果有：以模型输出的表格元素位置为基准进行扩大和缩小，扩大1.3倍得到位置A，缩小0.7倍得到位置B，在原始输入图像上裁切位置A和位置B之间的部分，二值化后，用直线段检测算法检测并合并直线，根据检测到的直线坐标调整表格元素的位置，如果没有检测到直线，通过纵向和横向投影定位文本行，根据文本位置调整表格元素的位置；

S3.判断版面是否包含图元素，如果没有，进行下一步；如果有：以模型输出的图元素位置为基准扩大1.3倍得到位置C，由于图片与文档图像的背景之间通常有明显梯度，在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界，最终得到调整后的图元素的位置；

S4.遍历所有非表格和图的版面元素中，与上两步调整过的元素位置有重叠的元素，以调整后的表格和图的位置为边界修正其位置；

S5.如果版面含有图或者表格元素，将原图中调整后的表格或图元素的位置置为背景，更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素；

S6.二值化更新后的样本图片，用10*1的核心对其腐蚀，使得文字可以连续成行，利用像处理方法获取文本行坐标,如投影法，具体操作可以分为在水平方向上进行投影，获取文本行的竖直方向起止坐标，再对每一行文本进行竖直方向投影，获取文本行的水平方向起止坐标；

S7.遍历网络模型输出的非表格和图的元素D，筛选出D中互相有重叠的元素，计算重叠区域坐标，根据重叠区域与文本行的交并比，即：交集面积/并集面积，筛选出重叠区域内的文本行，以任意一条文本行的起点纵坐标为边界分割重叠的版面元素；

S8.计算D与每条文本行E的交并比，当交并比大于0.5，并且文本长度大于当前版面元素D的宽度的50％时，标记当前文本行E属于当前版面元素D；对于不与任何版面元素相交的文本行，计算其中心位置与所有版面元素D中心位置的距离，标记其属于距离最近的版面元素；

S9.标记完所有文本对应版面元素之后，在水平方向计算每个版面元素下属的文本行的起点和终点平均值，更新版面元素的左右位置为计算得到的平均值，上下位置为竖直方向上每个版面元素下属文本行坐标的最小和最大值；

S10.至此网络模型输出的版面元素位置都已经精确定位，接下来需要对版面元素排序，排序的关键在于判断版面是否需要分栏及如何确定分栏位置，具体步骤如下：假设样本图片宽度为w，高度为h，通常如果版面中含有宽度小于1/2*w的表格或者图元素，那么该版面需要分栏，并且这两种元素的横向边界就可以作为分栏位置，记录边界位置进集合split_pos1并进行下一步；

S11.对样本图片在水平方向上进行切片处理，切片以h/4，h/2，3*h/4为竖直方向中心，h/4为高度，w为宽度，对三个切片样本做如下处理：二值化后向竖直方向投影得到数组F，以6*1的核在数组F做滑动窗口操作，滑动步长为5，记录所有窗口中最大值最小值之间的差值最大的窗口中心位置mid_pos，如果mid_pos大于输入样本图像宽度的22％，并小于样本图像宽度的78％，则记录一个分栏位置进集合split_pos，如果没有找到分栏位置，进行下一步，否则执行步骤S13；

S12.遍历步骤7中获取所有文本元素，统计宽度大于输入样本宽度25％并小于输入样本宽度32％的所有文本元素，如果符合统计条件的文本元素个数大于所有文本元素个数的25％，按文本元素的起点坐标对符合条件的元素分组，再在水平方向上计算各组元素的间隔,记录间隔的中点进集合split_pos；

S13.合并集合split_pos1中和split_pos中间隔小于20的分割位置；

S14.经过以上步骤如果没有找到分栏位置,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,如果分栏位置集合split_pos不为空进行下一步；

S14-1.向split_pos中插入元素0和样本图片宽度w，统计split_pos中元素个数为n,并做升序排列，在竖直方向上页面被分割成n-1个栅格，从左向右编号为1～n-1；

S14-2.对版面内所有元素按右上点的纵坐标做升序排列，遍历每一个版面元素，记其左右边界为cur_x_l、cur_x_r，计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum，如果cur_sum大于1，当前元素记为类别0，否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内，并记录其类别为栅格序号，这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交(cur_x_l和cur_x_r分别都有与之相交的元素类别为0)，分别计算栅格边界距离cur_x_l和cur_x_r的距离，取距离较大侧的栅格编号为元素类别，在分类过程中每一次遇到类别为0的元素，就对所有已经分类过的元素按编号升序排列,所有元素分类完成后对最后一个0类元素之后的元素按编号排序，获得最终版面分析结果。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.发行公告版面分析方法，其特征在于：包括以下步骤：

S1.将待分析图像输入训练好的目标检测模型中；

S2.判断待分析图像中是否包含表格元素和图元素，如果包含则调整表格和图元素位置并进行下一步，不包含则进行步骤S4，调整表格元素位置的具体步骤包括：以深度学习模型输出的表格位置为基准进行扩大和缩小，扩大1.3倍得到位置A，缩小0.7倍得到位置B，在原始输入图像上裁切位置A和位置B之间的部分，二值化后，用直线段检测算法检测并合并直线，根据检测到的直线坐标调整表格元素的位置，如果没有检测到直线，通过纵向和横向投影定位文本行，根据文本位置调整表格元素的位置；

调整图元素位置的具体步骤包括：以模型输出的图元素位置为基准扩大1.3倍得到位置C，由于图片与文档图像的背景之间通常有明显梯度，在上下左右四个方向上以滑动窗口的方式寻找灰度值第一次发生突变的位置作为当前方向的图元素边界，最终得到调整后的图元素的位置；

S3.调整所有与图、表格元素有重叠的元素位置；

S4.利用投影法计算文本行位置；

S6.判断是否需要分栏，并计算分栏位置，具体步骤如下：

1).若w为样本图片宽度，如果版面中含有宽度小于1/2*w的表格或者图元素，那么该版面需要分栏，并且这两种元素的水平方向边界就可以作为分栏位置，记录边界位置进集合split_pos1并进行下一步；

经过以上步骤如果split_pos元素个数为0,则说明当前输入的文档样本不需要分栏,直接按左上点纵坐标排序所有的版面元素即可得到最终版面分析的结果,否则执行步骤S7；

S7.对版面元素进行排序，具体实施步骤包括：

(2).对版面内所有元素按右上点的纵坐标做升序排列，遍历每一个版面元素，记其左右边界为cur_x_l、cur_x_r，计算split_pos中处于区间[cur_x_l,cur_x_r]的元素个数cur_sum，如果cur_sum大于1，当前元素记为类别0，否则根据cur_x_l和cur_x_r判断当前元素处于第几号栅格内，并记录其类别为栅格序号，这一步骤中如果cur_x_l或者cur_x_r与某一个栅格的边界相交，分别计算栅格边界距离cur_x_l和cur_x_r的距离，取距离较大侧的栅格编号为元素类别，在分类过程中每一次遇到类别为0的元素，就对所有已经分类过的元素按编号升序排列，所有元素分类完成后对最后一个0类元素之后的元素按编号排序，获得最终版面分析结果；

S8.输出结果。

2.根据权利要求1所述的发行公告版面分析方法，其特征在于：所述发行公告版面分析方法选择Faster-RCNN深度学习框架结构来检测版面元素，该方法将版面元素分为页眉、页脚、文本段落、图和表格5类，标注8300张样本上的版面元素类别和位置，用标注好的样本训练Faster-RCNN模型。

3.根据权利要求1所述的发行公告版面分析方法，其特征在于：所述S3后还包括以下步骤：如果版面含有图或者表格元素，将原图中调整后的表格或图元素的位置置为背景，更新后的输入图像最多只有页眉页脚和文本段落三个类别的元素。

4.根据权利要求1所述的发行公告版面分析方法，其特征在于：所述S4中计算文本行位置的具体方式包括：二值化更新后的样本图片，用10*1的核心对其腐蚀，使得文字可以连续成行，在竖直方向和水平方向上进行投影，获取文本行的位置坐标。

5.根据权利要求1所述的发行公告版面分析方法，其特征在于：所述S5的具体步骤包括：

c.标记完所有文本对应版面元素之后，在水平方向计算每个版面元素下属的文本行的起点和终点平均值，更新版面元素的左右位置为计算得到的平均值，上下位置为竖直方向上每个版面元素下属文本行坐标的最小和最大值。