CN115171133A

CN115171133A - 用于不规则表格图像拉平的表格结构检测方法

Info

Publication number: CN115171133A
Application number: CN202210727928.4A
Authority: CN
Inventors: 冯杰; 孟泽正; 刘新天; 朱明航; 张海翔
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-11

Abstract

本发明公开了一种用于不规则表格图像拉平的表格结构检测方法，包括：1.对原始图像进行表格区域检测，得到表格区域图片；2.对表格区域图片进行表格规范性检查；3.对不符合规范的表格区域图片进行预处理；4.对表格区域图片进行边框识别。本发明采用了一种新的方法一种能将不规则的表格进行预处理拉平的技术，使得表格变得规则，该方法可以有效的解决表格不规则的问题，从而提升算法的可操作性，也能提取不规则表格的语义信息，并且该算法相比较于深度学习的算法而言有省去了训练模型的时间，大大提高了识别表格的时间效率。

Description

用于不规则表格图像拉平的表格结构检测方法

技术领域

本发明属于图像检测技术领域，具体涉及一种用于不规则表格图像拉平的表格结构检测方法。

背景技术

OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，这种算法可以将扫描文档的数字图像转换为机器可读的信息。而表格文字识别则是OCR中的一种检测表格图片的技术，该技术可以应用于教育行业、金融行业等领域，比如可以解析图片上的学生各科成绩自动录入系统；在金融行业，可以通过纸质报表去解析表中数据，可以进行录入，表格文字识别这项技术对人们的日常生活有着重要的实际意义。

表格文字识别可以简单地分为两部分：一部分是图像中表格的目标检测，目前常用的目标检测算法进行对于图片中的表格进行位置识别，这些方法在提取表格边框上，应该是效果属于十分理想的。另一部分是进行表格内结构识别，目前的表格识别技术方案包括：(1)使用图像处理方法对表格线进行分割；(2)根据文字检测坐标编写规则进行表格重建；(3)使用深度学习方法对表格线进行分割，使用规则进行表格重建；该技术方案使用的是图像处理方法对表格线进行分割，这种相对于用深度学习的方法检测表格结构速度更快，也更加的直观，且针对pdf内的表格结构提取效果十分理想，但是对于用户自己拍摄的照片或者是一些歪斜的表格来说，自然检测表格结构的效果就会变得很差。

公开号为CN110163198A的中国专利提供了一种表格识别重建的方法，该方法采用了表格框线模型对表格进行框线分割，从分割图像中检测表格的行线和列线得到它们的位置信息，根据表格线的位置信息以及单元格的位置信息生成相应格式的电子表格文件，但其缺点在于针对那些不规则的表格图片，需要人工确认生成的边框是否合理，并且该专利技术针对的是表格的重建，并无法对原图中的表格做出真正的表格语义，就无法进行之后表格内文字识别。

公开号为CN106407883A的中国专利提供了一种复杂表格及其内部手写数字识别方法，其先对复杂表格模板进行预处理、直线检测、角点集的行列分类排序、模板表格定来实现对单元格的结构描述，在获得电子手写表格后，对其进行倾斜矫正并与模板表格适配，获得其单元格位置描述，随后对每个单元格进行处理，去除边线的同时，尽可能完整地保留单元格内的字符，然后提取单元格中数字图像，通过对数据集训练好的分类器，对数字图像进行识别，最后对手写字符进行后处理，将识别结果填入模板表格中；但其缺点是在图片预处理过程中，只针对纸质手写表格文档，并不对那些拍摄的表格照片进行预处理。

发明内容

鉴于上述，本发明提供了一种用于不规则表格图像拉平的表格结构检测方法，使得表格变得规则，该方法可以有效的解决表格不规则的问题，从而提升算法的效率以及可操作性。

一种用于不规则表格图像拉平的表格结构检测方法，包括如下步骤：

(1)对原始图像进行表格区域检测，得到表格区域图片；

(2)对所述表格区域图片进行表格规范性检查；

(3)对不符合规范的表格区域图片进行预处理；

(4)对表格区域图片进行边框识别。

进一步地，所述步骤(1)的具体实现方式为：将含有表格的原始图像输入预训练的深度学习目标检测模型中，以检测输出图像中表格的区域位置信息，进而对表格进行提取，得到一张经裁剪后的表格区域图片。

进一步地，所述步骤(2)的具体实现过程如下：

2.1将表格区域图片转为灰度图，接着使用自适应阈值对灰度图进行二值化处理和膨胀操作；

2.2对经步骤2.1处理后的图片进行轮廓边缘检测，检测出图片中表格的所有框线并对这些框线进行膨胀操作；

2.3根据各框线的坐标位置信息从图片中找出面积最大的轮廓，该轮廓即为表格轮廓；

2.4根据表格轮廓四个顶点的坐标信息判断表格是否规范。

进一步地，所述步骤2.4中判断表格是否规范的标准为：若满足以下所有条件的则判定表格符合规范，否则判定表格不符合规范；

y1∈[y2-5,y2+5]&y3∈[y4-5,y4+5]

x1∈[x3-10,x3+10]&x2∈[x4-10,x4+10]

其中：表格轮廓左上角顶点的坐标为(x1,y1)，右上角顶点的坐标为(x2,y2)，左下角顶点的坐标为(x3,y3)，右下角顶点的坐标为(x4,y4)。

进一步地，所述步骤(3)的具体实现过程如下：

3.1将不符合规范的表格区域图片转为灰度图，接着使用自适应阈值对灰度图进行二值化处理和膨胀操作；

3.2对经步骤3.1处理后的图片进行轮廓边缘检测，检测出图片中表格的所有框线并对这些框线进行膨胀操作；

3.3根据各框线的坐标位置信息从图片中找出面积最大的轮廓，该轮廓即为表格轮廓；

3.4对于表格轮廓的四条曲线，利用边缘检测得到的轮廓点坐标通过最小二乘法拟合出这四条曲线的曲线函数；

3.5对于任一条曲线，将其细分成多段，每段可视为直线，利用曲线函数计算获得每段直线首末两点的坐标，进而计算出每段直线的长度，累加后即作为曲线的长度；

3.6利用表格轮廓四个顶点的坐标信息以及四条曲线的长度，通过透视变换对表格区域图片进行矫正。

进一步地，所述步骤3.6的具体实现方式为：首先将表格轮廓按10×10分割成多个区块，根据四个顶点的坐标信息以及四条曲线的长度计算获得每个区块四个顶点的坐标；然后将表格轮廓下边和左边两条曲线作分别为新坐标系中的x轴和y轴，换算出每个区块四个顶点在新坐标系中的坐标，进而根据这些点在原坐标系和新坐标系中的坐标通过透视变换将表格区域图片投影到一个新的视平面，从而完成矫正。

进一步地，所述步骤(4)的具体实现过程如下：

4.1将表格区域图片转为灰度图，接着使用自适应阈值对灰度图进行二值化处理，并做图像预处理；

4.2对预处理后的图片依次进行侵蚀和膨胀处理，从而获得一幅有水平线图像和一幅垂直线图像；

4.3将水平线图像和垂直线图像进行结合处理，得到一幅完整的光栅单元图像，并对该图像继续进行侵蚀处理；

4.4最后通过边缘检测获得光栅单元图像中各单元格的坐标数据，生成各个单元格信息的文本文件。

本发明采用了一种新的方法，一种能将不规则的表格进行预处理拉平的技术，使得表格变得规则，该方法可以有效的解决表格不规则的问题，从而提升算法的可操作性，也能提取不规则表格的语义信息，并且该算法相比较于深度学习的算法而言有省去了训练模型的时间，大大提高了识别表格的时间效率。

附图说明

图1为本发明表格结构检测方法的步骤流程示意图。

图2为表格区域检测前后的对比图。

图3为不规范表格预处理前后的对比图。

图4为弯曲的边界表格进行矫正前后的效果图。

图5为10*10透视变换后表格图片。

图6为有边框表格识别后的结果图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，本发明用于不规则表格图像拉平的表格结构检测方法，包括如下步骤：

步骤1：图片表格区域检测。

将原始图像表格放入深度学习目标检测的模型中，将检测出整张图片中的各个表格的区域位置，并将表格进行提取，通过该算法，可以得到一个进行裁剪后的表格检测区域，如图2所示。

步骤2：表格规范性检查。

针对已有裁剪后的表格，需要进行表格的规范性检查，使用自适应阈值将灰度图进行二值化和膨胀操作处理，进行边缘轮廓检测，获得表格中的轮廓中的各个组别的坐标，通过面积处理，找到最外围表格轮廓坐标，接着进行各个边长的函数拟合，求出四个边角的坐标，计算边角坐标拟合出的图形是否为矩阵，具体过程如下：

2.1将裁剪后表格图片转为灰度图，接着使用自适应阈值将灰度图进行二值化处理和膨胀操作；

2.2随后对图片进行轮廓边缘检测，使得整个表格的边框线都能被检测出来，并对检测出来的轮廓线再次进行膨胀操作；

2.3从检测到的轮廓线中求出各个组别的轮廓坐标，并通过轮廓面积找到最大的一组轮廓坐标，将这一组坐标设定为表格外围区域的轮廓；

2.4在这组标点值中，找到表格轮廓的左上角、左下角、右上角和右下角的坐标点，计算边角坐标拟合出的图形是否为矩阵，从而判断表格是否规范，当目标轮廓的坐标点满足以下公式，则视为规范表格；

y1∈[y2-5,y2+5]&&y3∈[y4-5,y4+5]

x1∈[x3-10,x3+10]&&x2∈[x4-10,x4+10]

式中：左上角的坐标为(x1,y1)，右上角的坐标为(x2,y2)，左下角的坐标为(x3,y3)，右下角的坐标为(x4,y4)。

步骤3：区域表格预处理。

针对已经判断的表格，对于不规范的表格进行表格图像的预处理，针对上个步骤已经拟合好的四条曲线函数，求出四条曲线的长度，做归一化处理，在各个边长上选择10*10的关键点，通过透视变换将曲线函数进行拉平处理，如图3和图4所示，具体过程如下：

3.1将不规范的表格图片转为灰度图，接着使用自适应阈值将灰度图进行二值化处理和膨胀操作；

3.2随后对图片进行轮廓边缘检测，使得整个表格的边框线都能被检测出来，并对检测出来的轮廓线再次进行膨胀操作；

3.3从检测到的轮廓线中求出各个组别的轮廓坐标，并通过轮廓面积找到最大的一组轮廓坐标，将这一组坐标设定为表格外围区域的轮廓；

3.4在这组标点值中，找到表格轮廓的左上角、左下角、右上角和右下角的坐标点，并取四个点的内边界点，这样就能找到四条边线的标点坐标，依次存入四组代表各个边线的列表中；

3.5接着对轮廓线坐标点进行边线坐标值拟合成四条曲线函数，并求出四条曲线的长度，做归一化处理，其中拟合曲线的方法为线性最小二乘法，基本思路是：

f(x)＝a₁r₁(x)+a₂r₂(x)+...+a_mr_m(x)

式中：r_k(x)为实现选定的一组线性无关函数，a_k为待定系数(k＝1,2,3,…,m)。

而在针对表格边框曲线拟合的时候一般最高次项为3次，对于拟合后的边框曲线，求曲线长度的公式如下：

SUM＝I₁+I₂+...+I_m-1

式中：(x_i,y_i)是拟合曲线的坐标点，I_i为两个相邻的坐标点的长度，m为整条曲线的宽度。

3.6在各个函数上选择10*10的关键点，通过透视变换将曲线函数进行拉平处理，透视变换的公式为：

式中：(u,v)表示原始图像坐标，(x,y)为经过透视变换的图片坐标，x＝x′/w′，y＝y′/w′，而w为归一化处理参数，其中

为变换矩阵为3×3形式，形象的将图像投影到一个新的视平面，透视变换后如图5所示。

步骤4：有边框表格识别。

做完整个表格的预处理之后，进行有边框表格结构检测，使用图像技术处理，先通过不同的表格图像确定水平和垂直的侵蚀膨胀的内核，做完侵蚀操作之后，继续做相应的膨胀操作，得到一幅有水平线图像和一幅垂直图像，最后结合图像得到一幅光栅单元图像，然后在网格单元图像上提取每个单元格的边界框，并生成各个单元格信息的文本文件，如图6所示，具体过程如下：

4.1将预处理后的表格先进行灰度处理，接着使用自适应阈值将灰度图进行二值化处理，并做图像预处理；

4.2确定水平和垂直的侵蚀膨胀的内核，将处理后的表格图片进行侵蚀和膨胀处理，从而获得一幅有水平线图像和一幅垂直线图像；对于图片膨胀处理所需要用到的公式如下：

dilation(x,y)＝max_{(x′,y′):k(x′,y′)≠0}I(x+x′,y+y′)

其中：I为需要进行操作的图像，k为操作的卷积内核，x'和y'为卷积内核的尺寸，(x,y)为图像的像素点坐标，卷积计算后该像素点的值等于以该像素点为中心的x'*y'范围内的最大值。

而对于图片侵蚀操作处理的公式为：

erosion(x,y)＝min_{(x′,y′):k(x′,y′)≠0}i(x+x′,y+y′)

且由于该图像已做二值化处理，所以不管是内核周围的最大值还是最小值只有两种情况，便可进行侵蚀或者膨胀操作。

4.3将两幅图像进行结合处理，得到一幅完整的光栅单元图像，并对获得的图像继续进行侵蚀处理后，进行图像预处理，通过边缘检测获得各个单元格的坐标数据。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明，熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种用于不规则表格图像拉平的表格结构检测方法，包括如下步骤：

(1)对原始图像进行表格区域检测，得到表格区域图片；

(2)对所述表格区域图片进行表格规范性检查；

(3)对不符合规范的表格区域图片进行预处理；

(4)对表格区域图片进行边框识别。

2.根据权利要求1所述的表格结构检测方法，其特征在于：所述步骤(1)的具体实现方式为：将含有表格的原始图像输入预训练的深度学习目标检测模型中，以检测输出图像中表格的区域位置信息，进而对表格进行提取，得到一张经裁剪后的表格区域图片。

3.根据权利要求1所述的表格结构检测方法，其特征在于：所述步骤(2)的具体实现过程如下：

2.4根据表格轮廓四个顶点的坐标信息判断表格是否规范。

4.根据权利要求3所述的表格结构检测方法，其特征在于：所述步骤2.4中判断表格是否规范的标准为：若满足以下所有条件的则判定表格符合规范，否则判定表格不符合规范；

y1∈[y2-5,y2+5]&y3∈[y4-5,y4+5]

x1∈[x3-10,x3+10]&x2∈[x4-10,x4+10]

5.根据权利要求1所述的表格结构检测方法，其特征在于：所述步骤(3)的具体实现过程如下：

6.根据权利要求5所述的表格结构检测方法，其特征在于：所述步骤3.6的具体实现方式为：首先将表格轮廓按10×10分割成多个区块，根据四个顶点的坐标信息以及四条曲线的长度计算获得每个区块四个顶点的坐标；然后将表格轮廓下边和左边两条曲线作分别为新坐标系中的x轴和y轴，换算出每个区块四个顶点在新坐标系中的坐标，进而根据这些点在原坐标系和新坐标系中的坐标通过透视变换将表格区域图片投影到一个新的视平面，从而完成矫正。

7.根据权利要求1所述的表格结构检测方法，其特征在于：所述步骤(4)的具体实现过程如下：

8.根据权利要求7所述的表格结构检测方法，其特征在于：所述步骤4.2中对图片进行膨胀处理的公式如下：

dilation(x,y)＝max_{(x′,y′):k(x′,y′)≠0}I(x+x′,y+y′)

对图片进行侵蚀处理的公式如下：

erosion(x,y)＝min_{(x′,y′):k(x′,y′)≠0}I(x+x′,y+y′)