CN115063817A

CN115063817A - 一种基于形态学检测的表格识别方法、系统以及储存介质

Info

Publication number: CN115063817A
Application number: CN202210513529.8A
Authority: CN
Inventors: 孙健; 赵阳; 张俊鹏; 杜宛泽; 孙赫然
Original assignee: Jilin Province Jilin Xiangyun Information Technology Co ltd
Current assignee: Jilin Province Jilin Xiangyun Information Technology Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-09-16

Abstract

一种基于形态学检测的表格识别方法、系统以及储存介质，属于图像处理领域，解决了现有技术在复杂结构表格的检测准确性以及抗干扰性方面不足的问题。所述方法包括以下步骤：步骤S1，通过目标检测模型定位文档图像中的表格区域；步骤S2，通过霍夫变换检测表格直线，并根据直线倾斜角度校正表格方向；步骤S3，通过形态学运算检测构成表格的横向表格线和纵向表格线后，对横向表格线和纵向表格线进行合并；步骤S4，分析检测出的表格线排版，归类属于一个表格的表格线；步骤S5，分析表格结构，计算有效单元格信息；步骤S6，识别单元格内文字，并结合单元格位置，保存为可编辑的文件。

Description

一种基于形态学检测的表格识别方法、系统以及储存介质

技术领域

本发明涉及图像处理领域，具体涉及一种基于形态学检测的表格识别方法、系统以及储存介质。

背景技术

表格作为一种结构化的数据排列方式，排版复杂且不固定，包含重要的结构化信息。识别文档图像中的表格结构和文字内容并转化为可编辑格式，有利于后期的文档信息检索和查询，进一步的，有利于提高文档的处理效率。文字内容识别一般通过成熟的OCR技术处理，而表格结构分析则是文档图像识别中的难点所在。

表格结构识别的过程在于，首先识别并提取构成表格的横向线段和纵向线段，再根据提取的线段分析表格的结构。现有的表格结构识别方法包括：基于霍夫变换的检测方法、基于投影的检测方法、基于连通链的方法以及基于游程检测的方法。其中，霍夫变换法分别检测图像中的横线和竖线，再根据表格中横竖线相交垂直这一特性，分析表格的结构，不足在于容易检测出大量与表格无关的线段，如文字、公式、图像中的线段一并会被检测出，对表格结构分析产生较大干扰。投影法则是利用表格行间和列间存在较大间距这一特性，通过横向和纵向投影的方式分析表格结构，此类方法对于排版不规范的、存在合并单元格的表格不能有效分析其结构，且在表格出现倾斜时，也会受到一定的影响。另外，基于连通链的方法是通过横向连通链和纵向连通链检测相应的横向线段与纵向线段。不足之处在于，计算量较大导致检测速度较慢。而游程检测的原理同连通链的原理类似，游程定义为横向或纵向上的一组连续像素，类似的，分别通过横向和纵向游程检测对应的表格线段，不足在于容易受到表格线断连的影响。

因此，现有技术存在的缺陷为：在处理复杂结构表格时，检测准确性以及抗干扰性方面的不足。

发明内容

本发明解决了现有技术在复杂结构表格的检测准确性以及抗干扰性方面不足的问题。

本发明所述的一种基于形态学检测的表格识别方法，包括以下步骤：

步骤S1，通过目标检测模型定位文档图像中的表格区域；

步骤S2，通过霍夫变换检测表格直线，并根据直线倾斜角度校正表格方向；

步骤S3，通过形态学运算检测构成表格的横向表格线和纵向表格线后，对横向表格线和纵向表格线进行合并；

步骤S4，分析检测出的表格线排版，归类属于一个表格的表格线；

步骤S5，分析表格结构，计算有效单元格信息；

步骤S6，识别单元格内文字，并结合单元格位置，保存为可编辑的文件。

进一步地，在本发明的实施方式中，所述步骤S1中，所述的目标检测模型为YOLOv5，用于检测图像中表格的位置，得到表格的位置信息；

所述的位置信息表示为(x0,y0,w,h),其中x0，y0分别是表格区域左上角在图像中的位置坐标，w，h分别是表格区域在图像中的宽度和高度。

进一步地，在本发明的实施方式中，所述步骤S3中，所述的通过形态学运算检测构成表格的横向表格线和纵向表格线，包括以下步骤：

步骤S301，首先将文档图像转换为灰度图像，再对灰度图像进行二值化处理，处理结果中，文档背景部分像素值为0，文字、表格等非背景部分像素值为255；

步骤S302，分别对二值图像进行横向和竖向的形态学开运算处理，形态学开运算处理由形态学腐蚀与形态学膨胀操作组成，其中，横向处理时，腐蚀膨胀操作的结构元素尺寸为(w/s,1)，纵向处理时，结构元素尺度为(1，h/s)，其中h表示图像的高度，w表示图像的宽度，s表示缩放因子；

步骤S303，对于横向和纵向的形态学检测结果，分别检测每行和每列连续的像素值为255的线段的起始位置，即为表格线，得到横向表格线和竖向表格线的集合。

进一步地，在本发明的实施方式中，所述步骤S3中，所述的对横向表格线和纵向表格线进行合并，包括以下步骤：

步骤S304，过滤长度低于设定阈值的线段，去除检测出的文字组成线段；

步骤S305，对初步过滤后的线段进行遍历，判断两条线段是否满足合并条件。

进一步地，在本发明的实施方式中，所述步骤S305中，所述的合并条件为：

两条线段之间的距离小于设置的距离阈值，且两条线段构成的夹角小于设定的角度阈值。

进一步地，在本发明的实施方式中，所述步骤S4中，所述的分析检测出的表格线排版，包括以下步骤：

步骤S401，对横向表格线按照其纵坐标从小到大递增排序，在图像中对应自上至下的顺序，对纵向表格线段按照其横坐标从小到大递增排序，在图像中对应自左向右的顺序；

步骤S402，从第一根横向表格线段开始向下遍历全部的横向表格线，根据横线同组判别条件判断是否属于同一个表格，如果图像中存在多个表格，由此可以划分出多个横线组合，对于每个横线组合，根据竖线同组判别条件，遍历所有的竖向表格线段，取出和横线组一同构成表格的竖向表格线；

步骤S403，返回构成每个表格的横向线段的纵坐标集合和竖向线段的横坐标集合。

进一步地，在本发明的实施方式中，所述步骤S402中，所述的横线同组判别条件为：是否存在一条竖线，与两条横线同时相交；

所述的竖线同组判别条件为：竖线与该横线组内两条以上的横线相交。

进一步地，在本发明的实施方式中，所述步骤S5中，所述的分析表格结构，包括以下步骤：

步骤S501，根据构成每个表格的横向纵坐标集合和竖向线段的横坐标集合，计算表格中每个最小单元格信息；

步骤S502，将每个最小单元格作为候选，检查构成候选单元格的四条边是否存在于步骤S4中表格线中，如果存在，则为有效单元格，如果不存在，则为缺失的表格线，对应表格中由多个单元格合并的单元格，进一步合并此单元格周围的表格线，作为新的候选单元格，继续检查其四条边，若查找出多个共享同一个左上角点的候选单元格，只保留其中最小的单元格作为有效单元格。

本发明所述的一种基于形态学检测的表格识别系统，所述系统包括:

区域模块，通过目标检测模型定位文档图像中的表格区域；

方向模块，通过霍夫变换检测表格直线，并根据直线倾斜角度校正表格方向；

合并模块，通过形态学运算检测构成表格的横向表格线和纵向表格线后，对横向表格线和纵向表格线进行合并；

表格线模块，分析检测出的表格线排版，归类属于一个表格的表格线；

信息模块，分析表格结构，计算有效单元格信息；

编辑模块，识别单元格内文字，并结合单元格位置，保存为可编辑的文件。

本发明所述的一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现上述方法中任意一项所述方法的步骤。

本发明解决了现有技术在复杂结构表格的检测准确性以及抗干扰性方面不足的问题。具体有益效果包括：

本发明所述的一种基于形态学检测的表格识别方法，通过目标检测模型能够准确定位文档图像中的表格区域，在此基础上，通过形态学检测方法检测表格线，能够有效排除文档图像中非表格线元素(如页眉横线，公式，插图)的干扰；进一步的表格线分析能够有效识别表格结构，对于存在表格合并的复杂结构的表格也能够有效识别。从而提高现有技术对于复杂结构表格的检测准确性，同时提高表格检测的抗干扰性。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明所述的一种基于形态学检测的表格识别方法的流程图。

图2是具体实施方式所述的表格定位结果图。

图3是具体实施方式所述的表格识别结果图。

具体实施方式

下面结合附图将对本发明的多种实施方式进行清楚、完整地描述。通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本实施方式所述的一种基于形态学检测的表格识别方法，参照图1可以更好理解本实施方式，包括以下步骤：

步骤S1，通过目标检测模型定位文档图像中的表格区域；

步骤S5，分析表格结构，计算有效单元格信息；

本实施方式中，所述步骤S1中，所述的目标检测模型为YOLO v5，用于检测图像中表格的位置，得到表格的位置信息；

本实施方式中，所述步骤S3中，所述的通过形态学运算检测构成表格的横向表格线和纵向表格线，包括以下步骤：

本实施方式中，所述步骤S3中，所述的对横向表格线和纵向表格线进行合并，包括以下步骤：

本实施方式中，所述步骤S305中，所述的合并条件为：

本实施方式中，所述步骤S4中，所述的分析检测出的表格线排版，包括以下步骤：

本实施方式中，所述步骤S402中，所述的横线同组判别条件为：是否存在一条竖线，与两条横线同时相交；

本实施方式中，所述步骤S5中，所述的分析表格结构，包括以下步骤：

本实施方式所述的一种基于形态学检测的表格识别系统，所述系统包括:

区域模块，通过目标检测模型定位文档图像中的表格区域；

信息模块，分析表格结构，计算有效单元格信息；

本实施方式所述的一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时实现上述实施方式中任意一项所述方法的步骤；

一种计算机设备，包括存储器和处理器，所述的存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时执行上述实施方式中任意一项所述方法的步骤。

本实施方式基于本发明所述的一种基于形态学检测的表格识别方法，结合具体对象提供一种实际的实施方式：

步骤S1，通过目标检测模型定位文档图像中的表格区域；具体地，选择用于表述的图像取自表格识别公开数据集Marmot Dataset，选取的图像尺寸为：宽度468，高度720，表格定位结果如图2所示。

步骤S5，分析表格结构，计算有效单元格信息；

步骤S6，识别单元格内文字，并结合单元格位置，保存为可编辑的文件。识别结果如图3所示。

所述步骤S1中，目标检测模型为YOLO v5，用于检测图像中表格的位置，得到表格的位置信息。位置信息表示为(x0,y0,w,h),其中x0，y0是表格区域左上角在图像中的位置坐标，w，h分别是表格区域在图像中的宽度和高度。具体地，得到的位置信息为(13,384,479,189)。

所述步骤S3中，所述的通过形态学运算检测构成表格的横向表格线和纵向表格线，包括以下步骤：

所述步骤S3中，所述的对横向表格线和纵向表格线进行合并，包括以下步骤：

所述步骤S305中，所述的合并条件为：

所述步骤S4中，所述的分析检测出的表格线排版，包括以下步骤：

所述步骤S402中，所述的横线同组判别条件为：是否存在一条竖线，与两条横线同时相交；

所述步骤S5中，所述的分析表格结构，包括以下步骤：

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于形态学检测的表格识别方法，其特征在于，包括以下步骤：

步骤S1，通过目标检测模型定位文档图像中的表格区域；

步骤S5，分析表格结构，计算有效单元格信息；

2.根据权利要求1所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S1中，所述的目标检测模型为YOLO v5，用于检测图像中表格的位置，得到表格的位置信息；

3.根据权利要求1所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S3中，所述的通过形态学运算检测构成表格的横向表格线和纵向表格线，包括以下步骤：

4.根据权利要求1所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S3中，所述的对横向表格线和纵向表格线进行合并，包括以下步骤：

5.根据权利要求4所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S305中，所述的合并条件为：

6.根据权利要求1所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S4中，所述的分析检测出的表格线排版，包括以下步骤：

7.根据权利要求6所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S402中，所述的横线同组判别条件为：是否存在一条竖线，与两条横线同时相交；

8.根据权利要求1所述的一种基于形态学检测的表格识别方法，其特征在于，所述步骤S5中，所述的分析表格结构，包括以下步骤：

9.一种基于形态学检测的表格识别系统，其特征在于，所述系统包括:

区域模块，通过目标检测模型定位文档图像中的表格区域；

信息模块，分析表格结构，计算有效单元格信息；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现权利要求1至8中任意一项所述方法的步骤。