CN115588208A

CN115588208A - 一种基于数字图像处理技术的全线表结构识别方法

Info

Publication number: CN115588208A
Application number: CN202211196821.8A
Authority: CN
Inventors: 毛家发; 何政权; 姚定凯; 高华; 毛科技
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-10

Abstract

一种基于数字图像处理技术的全线表结构识别方法，包括：获取扫描的全线表表格图像，对图像进行灰度处理转为单通道灰度图像并且进行二值化处理；获取图像最大外边框，根据坐标信息和旋转角度，通过仿射变换对表格进行矫正处理；使用最大连通域的方法提取表格框架，并且使用膨胀操作、开运算对表格框架进行处理；采用轮廓检测的方法实现表格单元格的检测，并且对每个单元格的坐标信息进行处理；对坐标进行分析得到表头区域，并且通过计算像素点的方法提取表头区域；根据坐标对图像进行分割获取每个单元格图像。本发明提升了表格结构识别的效率，有利于对后续的文字识别处理。

Description

一种基于数字图像处理技术的全线表结构识别方法

技术领域

本发明属于数字图像处理技术领域，公开了一种基于数字图像处理技术的全线表结构识别方法。

背景技术

信息时代的高速发展导致了数据的大量产生与频繁传输，单单依靠人力处理庞大繁杂的数据耗时耗力，很难高效地处理这些数据。随着人工智能的兴起与发展，数据的利用变得更加高效。表格通常用于在文档中显示结构化数据，因其能直观、有效的传达信息而被广泛的应用到各个场景中，人们可以快速地从表格中提取有效信息，使得信息交互更为方便，而单元格的位置以及它们如何被组织成列和行，是文档理解和信息提取的关键部分，因此表格作为一种特殊的数据形式，逐渐引起了广泛地关注。此外，纸制表格在人们的工作生活中被广泛使用，将纸质表格转换为电子表格可以更加有效地管理、处理数据。然而，在日常生活中，基于人工处理表格的方式，产生了诸多问题：比如因为表格数量众多，类型繁多复杂，人工对数据进行更新的过程中，可能会在不同的表格中写入相同的内容，或者有些单元格里的内容没有得到更新。一旦产生错误，使用人力查找错误的时间非常有限。因此人工处理表格数据往往会造成表格内容错误、信息不一致等问题，这种错误和不一致可能会有损公司声誉，甚至带来经济损失。

因此，研究如何能够快速、高效地识别表格结构、为后续提取、分析表格内容信息，具有很大的现实意义。然而，表格的结构种类繁多，而且在拍摄、扫描存储的过程中，因为设备的局限性，图像在获取或者传输过程中会受到随机信号的干扰产生的噪声会影响表格图像的质量，此外，一些纸质文档可能会存在表格框线不清晰、断点的情况以及拍摄过程中由于角度的问题造成的表格倾斜，加大了表格结构提取的难度，使得从纸质表格中提取有效信息成为了一项具有挑战性的任务。

随着深度学习技术的发展，深度学习在计算机视觉领域表现出色，基于深度学习的表格结构识别算法也崭露头角。目前，研究者大多使用语义分割、图像分割、循环神经网络和图神经网络等深度学习方法进行研究。但是采用深度学习的方法很容易产生过度分割的区域，并且依赖后处理。此外，现有的方法对识别表格结构过于复杂，且依赖于大量、规整的数据，容易受到网络结构的影响。对表格框线不清晰、断点等特殊情况的识别效果不佳。

发明内容

鉴于目前解决方法存在的技术问题，本发明提供了一种基于数字图像处理技术的全线表格结构识别方法，可以简单快速地实现对纸质表格结构进行提取。

为实现上述效果，本发明公开了一种基于数字图像处理技术的全线表结构识别方法，包括以下步骤：

步骤1，获取扫描的全线表表格图像，对图像进行预处理。

步骤2，表格矫正处理。对图像进行预处理后，获得步骤1的图像提取最大外边框，得到顶点坐标和旋转角度，之后确定旋转矩阵，最终通过仿射变换实现图像旋转，达到矫正的目的。

步骤3，对步骤2获得的矫正图像使用最大连通域的方法提取表格框架，获得表格框架图像。

步骤4，表格单元格检测，对步骤3获得的表格框架图像进行单元格检测，得到每个单元格坐标信息，并且对坐标信息进行排序处理。

步骤5，表头区域提取。对步骤5获得的坐标信息进行分析，得到表头区域坐标信息，通过设定阈值、计算像素点的方法，判断是否存在表头信息。

步骤6，单元格分割。根据坐标信息，对感兴趣区域进行截取。

进一步地，步骤1具体包括以下步骤：

步骤101，通过对纸质表格采用扫描的方法来获取对应的表格图像。图像可以是是任意的图像格式。

步骤102，对表格图像进行灰度处理，将图像转成单通道灰度图像。RGB彩色图像颜色空间转成灰度图的方式可表示为；

GRAY＝0.3R+0.59G+0.11B…………………………………………………………(1)

步骤103，对步骤102得到的灰度图像进行二值化处理，使得表格图像像素值只有0和 255两种。二值化方法的标志选择BINARY，转换规则表示为：

进一步地，步骤2中，所述的提取最大外边框是指：使用轮廓检测中的获取最小外接矩形的方法得到每个边框信息，显而易见地，最大外边框的最小外接矩形有着最大的面积，因此，可以通过比较面积的方法来得到最大外边框的坐标信息与旋转角度信息；

所述的通过仿射变换实现图像旋转，达到矫正的目的是指：根据得到的坐标信息与旋转角度信息，计算出旋转矩阵，再通过仿射变换对表格进行矫正处理。设旋转矩阵为R，则R与旋转角度(angle)和旋转中心(center)的关系可表示为：

α＝scale×cos(angle)…………………………………………………………(4)

β＝scale×sin(angle)……………………………………(5)

其中，scale表示沿x轴和y轴的缩放比例，因为这里不需要缩放，所以scale取1即可。通过求得的旋转矩阵R，对图像进行仿射变换即可实现表格的矫正。

进一步地，步骤3具体包括以下步骤：

步骤301，受到连通域的启发，对表格图像进行分析后不难得出，表格框架为一个连通域，且是图像中的最大连通域，通过对步骤2得到的矫正图像提取连通域，并且标记最大连通域的信息，采用掩码图像的方式，将最大连通域信息复制到掩码图像上。

步骤302，在实际问题的处理过程中，表格图像会出现表格线断线的情况，通过采用形态学操作中的膨胀操作可以解决该问题。

该公式表示图像A用卷积模板B来进行膨胀处理，通过模板B与图像A进行卷积计算，得出B覆盖区域的像素点最小值，并用这个最小值来替代参考点的像素值。这里应当注意，膨胀操作针对的是非零像素，所以需要对Image图像取反后操作。

步骤303，在实际问题的处理过程中，会出现单元格中的内容部分与表格线相连的情况，同样地，通过形态学操作中的开运算可以解决该问题。

进一步地，步骤4中，所述的得到每个单元格坐标信息，并且对坐标信息进行排序处理是指：采用步骤2中轮廓检测的方法对每个单元格进行检测，得到每个单元格坐标信息，为了能够得到有序的表格结构，需要先处理“坐标跳变”的问题，即将x坐标或者y 坐标像素值相差为5的单元格坐标归为一类，处理完“跳变”的问题后，再分别对x，y坐标进行排序，最终得到有序的坐标信息。设每个单元格的坐标信息为：

(x_i,y_i,w_i,h_i)………………………………………………………………………(7)

其中，x_i为第i个单元格左上顶点的x坐标，y_i为左上顶点的y坐标，w_i为单元格的宽度，h_i为单元格的高度，判断是否“跳变”的条件是：

x_i+1-x_i>5……………………………………………………………………………(8)

进一步地，步骤5具体包括以下步骤：

步骤501，根据步骤4中的坐标信息，得到x坐标的最大最小值，y的最小值，并根据图像的宽、高，得到表头区域。设表头区域的宽为T_w，高为T_h，right_rect_y表示第一行最后一个单元格左上顶点的y坐标，right_rect_w表示单元格的宽，left_rect_y表示第一行第一个单元格左上顶点的y坐标；

T_w＝right_rect_y-left_rect_x+righ_rect_w…………………………………(9)

T_h＝left_rect_y……………………………………………………………………(10)

步骤502，计算表头区域像素值个数，明显地，0像素值表示黑色，255表示白色，统计黑色像素点个数，当像素点个数超过一定的阈值，则判定为存在表头。

判断表头区域是否截取的条件如下，pix_sum表示统计的黑色像素点个数，如果个数大于 200，则对表头区域进行截取。

pix_sum>2000………………………………………………………………………(11)

进一步地，步骤6中，所述的对感兴趣区域进行截取是指：将单元格在图像中的位置标记出来，通过Numpy中的索引实现。根据对步骤4获得的坐标信息将每个单元格进行截取，得到每个单元格的图片。截取范围如下：

ROI＝Image[x:x+w,y:y+h]………………………………………………………(12)

其中，ROI是提取的感兴趣区域的结果。Image是表格图像，x是单元格左上顶点x坐标，x+w是右下顶点x坐标，y是左上顶点的y坐标，y+h是右下顶点的y坐标。这样可以得到每个单元格的图片。

本发明的工作原理是：基于数字图像处理技术，直接对表格图像本身进行处理，采用数字图像处理技术中的灰度处理、二值化处理对图像进行预处理；使用透视变换实现旋转矫正；受到表格框架是表格图像中最大连通域的启发，使用获取连通域的方法进行提取表格框架，并且使用形态学操作中的膨胀操作和开运算对表格框线出现的断点、单元格中的内容部分与表格线相连的情况进行处理；使用轮廓检测的方法实现单元格的检测，得到每个单元格在图像中的坐标，并且依据坐标信息对坐标进行排序；使用统计表头区域黑色像素值个数的方法判断是否存在表头；使用ROI切片的方法，根据坐标信息截取每个单元格。使用数字图像处理技术中的方法可以直接对图像进行处理，无需大量的、规整的数据集就可以达到简单、快速地提取表格单元格的效果。

本发明的优点是：现有技术中的深度学习方法依赖于大量的数据集，且对数据集的数据质量有着较高的要求，容易受到神经网络结构的影响，产生过度分割的区域。而本发明基于数字图像处理技术，实现了简单、快速地提取纸质表格的表格结构方法，无需依赖于大量、规整的数据集就可以实现对表格结构的单元格进行提取，对后续的版面分析与文字识别工作有着十分重要的意义，提升了表格结构识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施方法的流程示意图；

图2为实施例一需要提取的表格结构图像；

图3为实施例一表格矫正处理结果示意图；

图4为实施例一表格获得表格框架图像示意图；

图5为实施例一表格单元检测结果示意图；

图6为实施例一表头区域提取示意图；

图7为实施例一单元格分割结果示意图；

图8-1为实施例二断线表格框架提取示意图；

图8-2为实施例二断线表格框架处理结果示意图；

图9-1为实施例三单元格内容部分与表格线相连示意图；

图9-2为实施例三单元格内容部分与表格线相连处理结果图。

具体实施方式：

下面将结合本发明实施例中的全线表结构识别流程示意图(见图1)，对本发明实施例的技术方案进行更加清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图2，3，4，5，6，7所示，一种基于数字图像处理技术的全线表结构识别方法，包括以下步骤：

步骤1，获取扫描的纸质全线表表格图像，对图像进行预处理；

步骤101，通过对纸质表格采用拍照、扫描的方法来获取对应的表格图像。图像可以是是彩色图像或者其它的图像格式。本实施例中，设获取的表格图像Image，图像高度为H，宽度为W。

步骤102，对表格图像进行灰度处理，将图像转成单通道灰度图像。这里对彩色图像做出举例，RGB彩色图像颜色空间转成灰度图的方式可表示为如下公式：

GRAY＝0.3R+0.59G+0.11…………………………………………………………(1)

通过此公式，将彩色图像转成单通道灰度图像。

步骤103，对步骤102得到的灰度图像进行二值化处理，使得表格图像像素值只有0和 255两种。使用自适应二值化方法将灰度图像转为像素值只有0和255的图像。二值化方法的标志选择BINARY，转化规则表示为如下公式：

其中x，y是像素点坐标，thresh是使用高斯法求出的阈值。

步骤2，所述的提取最大外边框是指：使用轮廓检测中的获取最小外接矩形的方法得到每个边框信息，显而易见地，最大外边框的最小外接矩形有着最大的面积，因此，可以通过比较面积的方法来得到最大外边框的坐标信息与旋转角度信息，具体地，采用OpenCV中minAreaRect方法可以得到坐标信息与旋转角度信息。

其中，scale表示沿x轴和y轴的缩放比例，因为这里不需要缩放，所以scale取1即可。

α＝scale×cos(angle)……………………………………………………………(4)

β＝scale×sin(angle)……………………………………………………………(5)

通过求得的旋转矩阵R，对图像进行仿射变换即可实现表格的矫正。

步骤3，对步骤2获得的矫正图像使用最大连通域的方法提取表格框架，获得表格框架图像。受到连通域的启发，对表格图像进行分析后不难得出，表格框架为一个连通域，且是图像中的最大连通域，通过对步骤2得到的矫正图像提取连通域，并且标记最大连通域的信息，采用掩码图像的方式，将最大连通域信息复制到掩码图像上。

具体地，使用两遍扫描法来得到每个连通域。两遍扫描法会遍历两次图像，将图像中存在的所有连通域进行标记。第一次遍历图像时会给每个非零像素赋予一个数字标签，当某个像素的上方和左侧邻域内的像素已经有了数字标签时，取两者中的最小值作为当前像素的标签，不然，则给当前像素一个新的数字标签。第二次扫描时对每个像素点的标签进行更新，更新为其集合中最小的标签。找到标记好的最大连通域后，创建一个宽为W，高为H的掩膜mask，将最大连通域赋给掩膜mask。最终得到表格框架。

步骤4，表格单元格检测，对步骤3获得的表格框架图像进行单元格检测，得到每个单元格坐标信息，并且对坐标信息进行排序处理。采用步骤2中轮廓检测的方法对每个单元格进行检测，得到每个单元格坐标信息，为了能够得到有序的表格结构，需要先处理“坐标跳变”的问题，设每个单元格的坐标信息为:

其中x_i为第i个单元格左上顶点的x坐标，y_i为左上顶点的y坐标，w_i为单元格的宽度，h_i为单元格的高度。判断是否“跳变”的条件如下：

如果该式成立，则对x_i+1的坐标修改为x_i的坐标，将二者坐标视为同一水平方向。之后再分别对x，y坐标进行排序，最终得到有序的坐标信息列表。

具体地，设表头区域的宽为T_w，高为T_h,可通过如下公式得到这两个值：

其中，right_rect_y表示第一行最后一个单元格左上顶点的y坐标，right_rect_w表示单元格的宽，left_rect_y表示第一行第一个单元格左上顶点的y坐标。

判断表头区域是否截取的条件如下：

pix_sum>2000……………………………………………………………………(11)

其中，pix_sum表示统计的黑色像素点个数，如果个数大于200，则对表头区域进行截取。

步骤6，单元格分割。根据坐标信息，对感兴趣区域进行截取。通过Numpy的索引实现，根据对步骤4获得的坐标信息将每个单元格进行截取，得到每个单元格的图片。可表示为：

其中，ROI是提取的感兴趣区域的结果。Image是表格图像，x是单元格左上顶点x坐标，x+w是右下顶点x坐标，y是左上顶点的y坐标，y+h是右下顶点的y坐标。这样可以得到每个单元格的图片。对后续的版面分析与文字识别工作有着很重要的意义，提升了表格结构识别的效率。

实施例二

如图8-1，8-2所示，特殊地，除步骤3外，其余步骤与实施例一相同。

具体地，在提取表格框架后，对于存在的表格断线情况，通过采用形态学操作中的膨胀来解决该问题。膨胀操作可以使得相近的连通域连接起来，一定程度上可以解决表格断线的情况。可表示为如下公式：

实施例三：

如图9-1，9-2所示，特殊地，除步骤3外，其余步骤与实施例一相同。

提取表格框架后，有时存在单元格中的内容部分与表格线相连的情况，受到实施例二的启发，同样地，通过形态学操作中的开运算可以解决该问题，开运算可以消除较小的连通域，保留较大的连通域，在不明显改变较大连通域的面积情况下平滑连通域的边界。同样地，这里应当注意，开运算针对的是非零像素，所以需要对Image图像取反后操作。

以上所述，仅是本发明的具体实施方式，应当指出，本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，还可以做出若干改进，这些改进都应视为本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于数字图像处理技术的全线表结构识别方法，其特征在于，包括以下步骤：

步骤1，获取扫描的全线表表格图像，对图像进行预处理；

步骤2，表格矫正处理；对图像进行预处理后，获得步骤1的图像提取最大外边框，得到顶点坐标和旋转角度，之后确定旋转矩阵，最终通过仿射变换实现图像旋转，达到矫正的目的；

步骤3，对步骤2获得的矫正图像使用最大连通域的方法提取表格框架，获得表格框架图像；

步骤4，表格单元格检测，对步骤3获得的表格框架图像进行单元格检测，得到每个单元格坐标信息，并且对坐标信息进行排序处理；

步骤5，表头区域提取；对步骤5获得的坐标信息进行分析，得到表头区域坐标信息，通过设定阈值、计算像素点的方法，判断是否存在表头信息；

步骤6，单元格分割；根据坐标信息，对感兴趣区域进行截取。

2.根据权利要求1所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，步骤1具体包括：

步骤101，通过对纸质表格采用扫描的方法来获取对应的表格图像；图像可以是是任意的图像格式；

步骤102，对表格图像进行灰度处理，将图像转成单通道灰度图像，RGB彩色图像颜色空间转成灰度图的方式表示为；

步骤103，对步骤102得到的灰度图像进行二值化处理，使得表格图像像素值只有0和255两种；二值化方法的标志选择BINARY，转换规则表示为：

其中x，y是像素点坐标，thresh是使用高斯法求出的阈值。

3.根据权利要求2所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，所述的步骤3中提取最大外边框是指：使用轮廓检测中的获取最小外接矩形的方法得到每个边框信息，显而易见地，最大外边框的最小外接矩形有着最大的面积，因此，可以通过比较面积的方法来得到最大外边框的坐标信息与旋转角度信息；

所述的通过仿射变换实现图像旋转，达到矫正的目的是指：根据得到的坐标信息与旋转角度信息，计算出旋转矩阵，再通过仿射变换对表格进行矫正处理；设旋转矩阵为R，则R与旋转角度(angle)和旋转中心(center)的关系表示为：

α＝scale×cos(angle)………………………………………………………………(4)

β＝scale×sin(angle)……………………………………(5)

其中，scale表示沿x轴和y轴的缩放比例。通过求得的旋转矩阵R，对图像进行仿射变换即可实现表格的矫正。

4.根据权利要求3所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，所述的对步骤2获得的矫正图像使用最大连通域的方法提取表格框架，获得表格框架图像，包括以下步骤：

步骤201，受到连通域的启发，对表格图像进行分析后得出：表格框架为一个连通域，且是图像中的最大连通域，通过对步骤2得到的矫正图像提取连通域，并且标记最大连通域的信息，采用掩码图像的方式，将最大连通域信息复制到掩码图像上；

步骤202，通过采用形态学操作中的膨胀操作解决表格图像出现表格线断线的问题，一定程度上可以解决表格断线的情况。可表示为如下公式：

步骤203，通过形态学操作中的开运算解决单元格中的内容部分与表格线相连的问题。

5.根据权利要求4所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，所述的步骤4中，得到每个单元格坐标信息，并且对坐标信息进行排序处理是指：采用步骤2中轮廓检测的方法对每个单元格进行检测，得到每个单元格坐标信息，为了能够得到有序的表格结构，需要先处理“坐标跳变”的问题，即将x坐标或者y坐标像素值相差为5的单元格坐标归为一类，处理完“跳变”的问题后，再分别对x，y坐标进行排序，最终得到有序的坐标信息。设每个单元格的坐标信息为：

(x_i,y_i,w_i,h_i)……………………………………………………………………………(7)

x_i+1-x_i＞5……………………………………………………………………………(8)

6.根据权利要求5所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，所述的对步骤5获得的坐标信息进行分析，得到表头区域坐标信息，通过设定阈值、计算像素点的方法，判断是否存在表头信息包括以下步骤：

步骤501，根据步骤4中的坐标信息，得到x坐标的最大最小值，y的最小值，并根据图像的宽、高，得到表头区域，设表头区域的宽为T_w，高为T_h，right_rect_y表示第一行最后一个单元格左上顶点的y坐标，right_rect_w表示单元格的宽，left_rect_y表示第一行第一个单元格左上顶点的y坐标；

T_w＝right_rect_y-left_rect_x+righ_rect_w……………………………………(9)

T_h＝left_rect_y………………………………………………………………………(10)

步骤502，计算表头区域像素值个数，明显地，0像素值表示黑色，255表示白色，统计黑色像素点个数，当像素点个数超过一定的阈值，则判定为存在表头；

判断表头区域是否截取的条件如下：

pix_sum＞2000…………………………………………………………………………(11)

7.根据权利要求6所述的基于数字图像处理技术的全线表结构识别方法，其特征在于，所述的步骤6中，所述的对感兴趣区域进行截取是指：将单元格在图像中的位置标记出来，通过Numpy中的索引实现；根据对步骤4获得的坐标信息将每个单元格进行截取，得到每个单元格的图片，截取范围如下：

ROI＝Image[x：x+w，y：y+h]………………………………………………………(12)