CN112200053A

CN112200053A - 一种融合局部特征的表格识别方法

Info

Publication number: CN112200053A
Application number: CN202011062634.1A
Authority: CN
Inventors: 吕志刚; 李亮亮; 王鹏; 邸若海; 许韫韬; 李晓艳; 李超; 郭翔宇
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: CN112200053B

Abstract

本发明公开了一种融合局部特征的表格识别方法。首先进行区域分块提取及横向线段检测、聚类行距均值求解、基于行距阈值的分块区域纵向线段检测；其次，采用自适应阈值的图像腐蚀灰度二值化，使用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取，同时采用基于纵向线段的分块区域融合掩膜处理；最后，对融合掩膜输出图进行基于轮廓提取得到预提取区域，并使用区域重检测算法进行预提取区域的精准检测。经试验验证，该方法可以有效的解决未矫正复杂表格的准确定位提取，在倾斜未矫正复杂测试集样本中，平均准确率可达98.25％以上，该方法简洁有效，具有一定的实际可行性。

Description

一种融合局部特征的表格识别方法

技术领域

本发明涉及模式识别及图像处理技术领域，特别是一种融合局部特征的表格识别方法。

背景技术

随着图像处理技术的不断发展，表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。

表格文档作为业务数据的重要载体，研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义，其中最为关键的是如何从文档中准确定位表格区域。目前将纸质表格存储为电子表格大多采用人工录入，存在工作量大、繁琐和准确率低等问题。尤其对于倾斜未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域的复杂表格不能很好准确识别处理等问题。

现有对表格文档图像自动化提取的方法主要有传统的基于轮廓的检测方法，均是针对正常表格做出的相应方法，但对于倾斜未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域，并不能很好的取得闭合轮廓区域，甚至提取不到闭合轮廓。因此现有技术存在如下问题：1、表格区域无法准确定位的问题，2、倾斜未矫正表格不能处理的问题。

发明内容

本发明提供一种融合局部特征的表格识别方法，以解决现有方法对未矫正的表格、纵向方向存在不连续表格框线及表格顶部底部存在不完整区域的复杂表格不能很好准确识别的问题。

为了达到本发明的目的，本发明提出的方案如下：

一种融合局部特征的表格识别方法，包括如下步骤：

步骤1、区域分块阈值求解阶段，包括以下步骤：

步骤101、对源表格图像进行灰度OTSU二值化处理；

步骤102、根据区域分块规则的分块区域提取；

步骤103、指定分块区域的形态学横向线段预提取；

步骤104、对预提取横向线段的霍夫横向线段重构处理；

步骤105、横向线段的Y坐标集合的聚类提取及行距均值计算；

步骤106、基于行距均值阈值的指定分块区域的纵向线段提取处理。

步骤2、表格区域检测预提取阶段，包括以下步骤：

步骤201、基于源表格图像的腐蚀灰度OTSU二值化处理；

步骤202、基于自适应阈值的形态学横向线段提取处理；

步骤203、基于行距均值阈值的形态学纵向线段提取处理；

步骤204、基于提取纵向线段处理图像的分块区域图像融合处理，

步骤205、进行横向线段及纵向线段的掩膜处理；

步骤206、对处理后的图像进行最大外轮廓的提取处理，得到预提取表格区域。

步骤3、对步骤2得到的预提取表格区域进行重检测，输出准确的表格定位区域。

进一步的，步骤3具体包括以下步骤：

步骤301、对预提取表格区域进行灰度OTSU二值化处理；

步骤302、预提表格区域的形态学横向线段的提取；

步骤303、预提取表格区域的霍夫横向线段的重构处理；

步骤304、横向线段的Y坐标集合的聚类提取及行距均值计算；

步骤305、输出准确的表格定位区域。

与现有技术相比，本发明的有益效果是：

1)针对纵向方向存在不连续表格框线、表格顶部底部存在不完整区域的复杂表格采用基于分块区域图像局部特征融合及掩膜处理的表格轮廓提取处理，确保复杂表格的准确识别，同时解决了现有算法对于倾斜未矫正表格不能识别的问题。

2)本方法提出的基于分块处理的复杂表格识别方法，将复杂表格识别问题转化为基于分块融合处理图中闭合区域轮廓查找问题，将复杂问题分解为多个简单问题，极大的简化了未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域的复杂表格不能准确定位识别问题。为大量库存的纸质版特殊文本表格数字化提供了理论依据，具有较好的实际可行性，为多种复杂表格的数字化定位识别提供了可行方案，具备较强的可拓展性。

3)通过本文设计的区域分块阈值求解模块实现了多种分辨率表格图像输入阈值计算，确保复杂表格识别的鲁棒性。经试验验证，该方法可以有效的解决未矫正复杂表格的准确定位提取，在12840张倾斜未矫正复杂测试集样本中，平均准确率可达98.25％以上，该方法简洁有效，具有一定的实际可行性。

附图说明

图1为方法实现框图；

图2为图像分块示意图；

图3为Acenter区域的横向线段提取输出图；

图4为A0和A10纵向直线处理图；

图5为表格区域检测预提取过程输出图；

图6为区域重检测定位输出的表格图；

图7为倾斜未矫正表格输出图；

图8为复杂表格检测输出图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附和实施例对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明方法的基本思路是首先进行区域分块提取及横向线段检测、聚类行距均值求解、基于行距阈值的分块区域纵向线段检测；其次，采用自适应阈值的图像腐蚀灰度二值化，使用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取，同时采用基于纵向线段的分块区域融合掩膜处理；最后，对融合掩膜输出图进行基于轮廓提取得到预提取区域，并使用区域重检测算法进行预提取区域的精准检测。

基于上述基本思路，本发明提供的一种融合局部特征的表格识别方法，包括如下步骤：

步骤1：区域分块阈值求解阶段：是将多分辨率的图像数据进行压缩灰度化，并进行OTSU二值化处理，通过制定的区域分块规则对二值化图像进行分块提取，对指定分块区域采用形态学及霍夫重构提取横向线段，并通过横向直线的Y 坐标聚类求解行距均值，基于行距均值阈值的分块区域纵向线段提取，输出处理后的图像便于后续融合处理；主要步骤如下所示：

(1)输入源表格图像的灰度OTSU二值化；

(2)根据区域分块规则的分块区域提取；

如图2所示，为本文设计的区域分块示意图，其中图2中P1-P9为16等分输入图像直线的交叉点；A0为点1、5、6、7组成的局部区域，A10为点10、 11、12、16组成的局部区域，A0和A10用来做图像融合处理；Acenter为点P1 和2、P3和4、P7和13、P9和15连线中点组成的局部区域，用于计算行距均值；

(3)指定分块区域的形态学横向线段预提取，采用形态学预提取Acenter区域中的横向线段。

(4)Acenter区域的横向线段提取

对(3)预提取的横向线段再采用Hough进行横向线段重构处理，进而得到横向线段的纵向坐标集合Y。如图3所示为Acenter区域的横向线段提取输出图。

(5)横向线段的Y坐标集合的聚类提取及行距均值计算，通过对(4)得到的 Y集合进行聚类提取进而得到行距均值meanrowledge。

(6)基于行距均值阈值的A0和A10纵向直线处理

设置纵向直线检测阈值为0.1*meanrowledge，即形态学纵向检测算子尺寸为size(1,0.1*meanrowledge)，对处理后的图像再次进行膨胀处理，设置膨胀算子尺寸为size(10,25)；进而实现对区域A0和A10的纵向直线的提取处理，如图4所示为A0和A10区域纵向直线处理结果图，即A0和A10为后续操作待融合输入图。

第2步：表格区域检测预提取

将输入待识别的表格图像进行自适应阈值的腐蚀灰度OTSU二值化，并采用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取，同时基于纵向线段提取图像的分块区域图像融合掩膜处理，最终使用处理后的图像进行轮廓预提取处理；主要步骤如下所示：

(1)腐蚀灰度OTSU二值化

采用形态学处理输入原始的源表格图像进行腐蚀化，就是对图像的高亮部分的侵蚀，经过腐蚀操作之后图像的高亮部分变得更少了，将纵向方向上不连续线段变得连续，处理阈值为0.25*meanrowledge，即腐蚀算子尺寸为 size(0.25*meanrowledge,0.25*meanrowledge)；对腐蚀后的图像进行灰度二值化，如图5所示(a)为输入待识别表格图像，(b)为腐蚀化处理后图像，(c)为灰度 OTSU二值化处理后图像；

(2)自适应阈值的形态学横向线段提取

采用形态学处理OTSU二值化图像中的横向线段，横向检测算子尺寸为 size(0.05*width,1)，width为输入图像的宽度，得到如图5(d)；

(3)基于行距阈值的形态学纵向线段提取

采用形态学处理OTSU二值化图像，其中纵向线段中对于部分短线不能很好的检测，因此采用基于行距阈值的纵向线段提取。纵向检测阈值为 0.5*meanrowledge，即形态学纵向检测算子尺寸为size(1,0.5*meanrowledge)，对处理后的图像再次进行膨胀处理，设置膨胀算子尺寸为size(10,25)，得到如图5(e)；

(4)基于纵向线段的分块区域图像融合

直接采用形态学提取纵向线段，容易产生很多干扰线段，因此，本文设计了一种基于纵向线段的分块区域图像融合检测纵向线段。通过第一步基于行距均值阈值的纵向直线处理得到的A0和A10区域，再根据融合规则分别线性叠加在图5(e)中，得到图5(f)；

(5)掩膜处理

通过对提取的横向线段及融合处理后的纵向线段进行掩膜处理，得到横纵叠加图，定义掩膜算子尺寸为size(3,3)，得到图5(g)；

(6)表格预提取

将图5(d)、(f)、(g)作为输入图像，进行轮廓提取，设置提取规则：轮廓面积不能小于40且轮廓内交点至少为4，使用OPENCV中的函数进行查找闭合轮廓，预框选出表格区域，如图5(h)所示为预框选的表格区域。

第3步：区域重检测阶段，包括以下步骤：

(1)预提取表格区域图像的灰度OTSU二值化；

(2)预提取表格区域的形态学横向线段预提取；

(3)预提取表格区域的横向线段的霍夫重构处理；

(4)横向线段的Y坐标集合的聚类提取及行距均值计算；

(5)判断当前区域是否存在直线，如果存在直线证明属于表格区域且行距均值与meanrowledge差值在20之内，如果当前存在一条直线不进行行距均值计算。

如图6所示为图5(a)区域重检测定位输出的表格图像。

本发明通过对现有非规则表样本进行多次扫描，进行反复测试。现有261 张测试样本，共856个表格，通过在两种扫描仪多种成像分辨率下进行鲁棒性测试。对原始261张测试样本进行平移、旋转处理，Translation(±100)表示水平方向和竖直方向平移100像素，Rotate(±2)表示顺时针/逆时针旋转2°。解决了现有算法对于倾斜未矫正表格不能识别的问题。如图7所示为本发明倾斜未矫正表格测试输出图。如图8所示为本发明针对复杂表格检测输出结果图，从图7和图8检测分析得知，本发明提供的复杂表格识别方法能够弥补现有算法的不足，可实现未矫正倾斜表格、不完整残缺表格、纵向线段不连续、纵向错位等复杂表格的识别定位提取。

Claims

1.一种融合局部特征的表格识别方法，其特征在于，包括如下步骤：