CN113283398A

CN113283398A - 一种基于聚类的表格识别方法及系统

Info

Publication number: CN113283398A
Application number: CN202110787908.1A
Authority: CN
Inventors: 孙喜民; 周晶; 田晓芸; 贾江凯; 王明达; 王帅; 李慧超; 李晓明
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-08-20

Abstract

本发明公开了一种基于聚类的表格识别方法及系统，所公开的表格识别方法包括：S110：检测PDF图片中文字，将文字的中心标记为关键点；S120：基于关键点识别表格；S130：统计同一类别所包含关键点的横纵坐标，以关键点的横纵坐标分别为横纵坐标绘制折线图，从该折线图获取峰值点被认为表格窗口中心最有可能出现的位置，基于峰值点坐标重新修正同一类别中其他关键点的坐标。本发明能够在PDF中获取结构化的表格数据，相比于其他系统，提升了无边框表格识别的精度，并有效解决了扫描文档中可能会出现的表格扭曲问题。

Description

一种基于聚类的表格识别方法及系统

技术领域

本发明属于信息技术领域，具体涉及一种基于聚类的表格识别方法及系统。

背景技术

随着计算机的普及，电子化数据的需求变得越来越大，于是出现了OCR文字识别技术，能够自动识别文字，解决了人力浪费和效率低下的问题。可是OCR技术却无法有效获取表格中的结构化数据，因此随之出现了表格识别的技术，为结构化数据的快速录入提供了很大的帮助，但也存在一些不足之处，无法有效处理存在着无边框、不规则等问题的表格。

发明内容

为了解决背景技术中所提及的不足之处，本发明提供了基于聚类的表格识别方法及系统，该方法及系统可从无边框表格图片中有效识别、提取并重构出结构化的表格数据。

本发明实施例提供一种基于聚类的表格识别方法，用于无边框表格的提取，包括：

S110：获取包括待识别无边框表格的PDF图片；

S120：检测PDF图片中文字，将各文字的中心位置标记为关键点，并获取关键点信息；所述关键点信息至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度；

S130：基于关键点的聚类识别表格文字；本步骤进一步包括：

S131：根据位置对关键点进行聚类，将同一类别关键点所包含文字合并，对各合并后文字标记关键点并更新关键点信息；

S132：基于宽度剔除包含非表格文字的关键点；

S133：根据位置对剩余关键点进行聚类；

S134：对每一类别中所有关键点包含文字做最小矩形外框，将存在交集的最小矩形外框内关键点合并为同一类别；

S135：对新的类别重复执行步骤S134，直至不再存在有交集的最小矩形外框；

S136：统计各类别所包含的关键点数，剔除所含关键点数少于预设数量阈值的类别。

可选的，在一些实施例中，子步骤S122具体为：

计算关键点所包含文字的最小矩形外框宽度与PDF图片宽度的比值，当该比值超过预设百分阈值，则该关键点包含文字被认为非表格文字，剔除该关键点。

可选的，在一些实施例中，还包括：

S140：提取同一类别所包含的关键点，对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标，将各关键点的横坐标依次与各参考横坐标求距离，将关键点横坐标更新为与其距离最小的参考横坐标；将各关键点的纵坐标依次与各参考纵坐标求距离，将关键点纵坐标更新为与其距离最小的参考纵坐标；参考横坐标应位于所在列所有关键点的横坐标范围内，参考纵坐标应位于所在行所有关键点的纵坐标范围内。

相应的，本发明实施例提供一种基于聚类的表格识别系统，其用于无边框表格的提取，包括：

第一获取单元，用来获取包括待识别无边框表格的PDF图片；

文字检测单元，用来检测PDF图片中文字，将文字的中心标记为关键点，每一关键点至少包含中心位置、文字内容、文字最小矩形外框的宽度和高度；

表格文字识别单元，用来利用关键点的聚类识别表格文字；

所述表格文字识别单元进一步包括：

第一聚类子单元，用来根据位置对关键点进行聚类，将同一类关键点所包含文字合并，对各合并后文字标记关键点；

剔除子单元，用来基于宽度剔除包含非表格文字的关键点；

第二聚类子单元，用来根据位置对剩余关键点进行聚类；

合并单元，用来对每一类别中所有关键点包含文字做最小矩形外框，将存在交集的最小矩形外框内关键点合并为同一类别；

重复单元，用来将新的类别重复输入合并单元，直至不再存在有交集的最小矩形外框；

统计单元，用来统计各类别所包含的关键点数，剔除所含关键点数少于预设数量阈值的类别。

可选的，在一些实施例中，还包括第一去抖单元，具体可以用来提取同一类别所包含的关键点，对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标，将各关键点的横坐标依次与各参考横坐标求距离，将关键点横坐标更新为与其距离最小的参考横坐标；将各关键点的纵坐标依次与各参考纵坐标求距离，将关键点纵坐标更新为与其距离最小的参考纵坐标；参考横坐标应位于所在列所有关键点的横坐标范围内，参考纵坐标应位于所在行所有关键点的纵坐标范围内。

本发明采用上述的技术方案，取得如下技术效果：

本发明能够在PDF中获取结构化的表格数据，相比于其他系统，提升了无边框表格识别的精度，并有效解决了扫描文档中可能会出现的表格扭曲问题。

附图说明

图1为无边框表格识别的流程图；

图2为关键点合并后的示意图；

图3为关键点筛选后的示意图；

图4为所提取的某一类别关键点；

图5为去抖原因示意图；

图6为进行去抖处理后的某一类别关键点。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

本发明实施例提供的一种基于聚类的表格识别方法及系统，该方法及系统可以集成于电子设备中，该电子设备可以为智能终端、服务器等，智能终端可以为智能手机、平板电脑、计算机等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统等。

本发明基于聚类的表格识别方法包括适用于无边框表格的识别方法。

参见图1，所示为实施例中适用于无边框表格的识别方法的具体流程：

第一步，获取包括待识别无边框表格的PDF图片，并预处理PDF图片。

具体采用OpenCV对所提取的PDF图片进行预处理，以去除噪声，预处理包括二值化、膨胀、腐蚀。

第二步，识别PDF图片中文字并标记关键点。

采用OCR技术识别并检测PDF图片中各文字及其位置，将各文字的中心位置标记为关键点，每一个关键点至少包含对应文字的中心位置、文字信息、文字最小矩形外框的宽度和高度等信息。所识别的每一个文字均对应一个关键点。第三步，通过对关键点进行合并、聚类，来识别表格文字。

本步骤进一步包括：

（1）关键点的合并。

执行第二步后，每一个文字会被识别为一个关键点。位置接近的关键点更倾向属于同一表格，所以将中心位置接近的关键点合并，具体是：将中心距离小于预设像素阈值的多个关键点合并，像素阈值为经验值，本具体实施方式中像素阈值设为5像素。本发明中，所谓关键点合并指：将关键点包含的文字合并，并保留其中任意一关键点作为合并后的新关键点，同时更新该新关键点所包含的信息，包括中心位置、文字信息、文字最小矩形外框的宽度和高度等。更新后的中心位置、文字信息、文字最小矩形外框均指合并后文字的中心位置、文字信息、及最小矩形外框。关键点合并后的示意图见图2。

（2）关键点的筛选。

从图2可以看出，合并后的文字既包括表格文字，又包括非表格文字，本步骤的目的是剔除非表格文字。非表格文字一般宽度更大，经分析大量PDF表格，设定一根据经验获得的百分阈值，当合并后新关键点包含文字的最小矩形外框宽度与PDF图片宽度的比值超过该百分阈值，则该新关键点包含文字被认为非表格文字，则剔除该新关键点。本具体实施方式中百分阈值设定为80%。筛选后示意图见图3所示。

（3）关键点的聚类。

基于剩余新关键点的中心位置进行基于距离的聚类，本具体实施方式采用DBSCAN聚类法，显然聚类方法并不限于此。中心位置距离相近的关键点被归为同一类，属于同一类的关键点更可能属于同一表格。

（4）基于聚类结果的关键点二次合并。

为避免属于同一表格的关键点被划分到不同类别，对聚类结果做进一步处理。基于聚类结果，针对每一类别，绘制包含该类别中所有关键点包含文字的最小矩形外框，判断各最小矩形外框间是否有交集，即是否存在连通域，存在交集则存在连通域，否则不存在连通域。认为存在交集的最小矩形外框内的文字应属于同一表格，将存在交集的最小矩形外框内关键点合并为同一类别。

对合并后的关键点再次重复前述操作，即：将合并后的关键点作为新的类别，对新的类别包含所有文字做最小矩形外框，将存在交集的最小矩形外框合并。重复操作直至不再存在有交集的最小矩形外框。此时，同一类别的关键点包含文字应属于同一表格。

（5）进一步过滤非表格关键点。

统计当前各类别所包含的关键点数，基于表格中至少应包含表头等内容，设定一个合理的数量阈值来进一步过滤当前各类别中的非表格关键点。本具体实施方式中，通过分析大量PDF表格，统计出当同一类别中关键点个数少于4时，则不可能构成一个表格，所以剔除所含关键点数少于4的类别。

第四步，基于关键点的去抖处理。

基于表格中数据的结构化特点，对关键点进行去抖处理，对同一类别，提取该类别所包含关键点，去抖则是将关键点分别按所在行和所在列对齐。对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标，将同列关键点的横坐标均更新为参考横坐标，将同行关键词的纵坐标均更新为参考纵坐标，以此来进行行和列的对齐。

各列对应的参考横坐标应基于该列所有关键点的横坐标确定，只要其位于该列所有关键点的横坐标范围内即可，可以自行规定参考横坐标的取值规则。例如，可以参考横坐标可以为所在列所有关键点横坐标的平均值，或者为对应关键点数量最多的横坐标，或者先剔除所在列中横坐标偏差较大的关键点，再将剩余关键点的横坐标取平均值得参考横坐标。各行对应的参考纵坐标的确定方法同参考横坐标，其也是基于所在行所有关键点的纵坐标确定，一般来说，只要其位于该行所有关键点的纵坐标范围内即可，可以自行规定参考纵坐标的取值规则。

在进行横坐标更新时，将各关键点的横坐标依次与各参考横坐标求距离，将关键点横坐标更新为与其距离最小的参考横坐标。同样的，再进行纵坐标更新时，将各关键点的纵坐标依次与各参考纵坐标求距离，将关键点纵坐标更新为与其距离最小的参考纵坐标。从而使关键点的中心位置对齐，实现表格文字的对齐。对于需要说明的是，本发明中关键点的中心位置是指其包含文字的中心位置。

下面将结合一具体例子来描述去抖处理。

参见图4，所示为所提取的某一类别关键点，其中黑点表示关键点。通过对图4每列关键点连线，发现关键点并不完全对齐，见图5所示。因此需要进行去抖处理，使关键点在横纵方向均对齐。本实施例中，先将关键点在纵向对齐，具体为：对各列，分别统计该列上关键点的横坐标，若横坐标均相同，则表明纵向已对齐，对该列不做处理；否则，取对应关键点数量最多的横坐标作为参考横坐标，将该列其他关键点的横坐标更新为参考横坐标，即可实现纵向对齐。接着，将关键点在横线对齐，具体方法同上，即对各行，分别统计各行上关键点的纵坐标，若纵坐标均相同，则表面横向已对齐，对该行不做处理；否则，取对应关键点数量最多的纵坐标作为参考纵坐标，将该行其他关键点的纵坐标更新为参考纵坐标。此时，即完成了对表格的去抖，去抖后关键点见图6所示。

需要说明的是，在进行去抖处理中，关于参考横坐标和参考纵坐标的确定，并不限于前文所说的确定方法。也可以采用其他方式来确定参考横坐标和参考纵坐标，例如可以取每列关键点横坐标的平均值作为参考横坐标，取每行关键点纵坐标的平均值作为参考纵坐标；或者，先剔除每列关键点中横坐标偏差较大的关键点，再取剩余关键点横坐标的平均值作为参考横坐标，然后将该列所有关键点的横坐标更新为参考横坐标；纵坐标的更新方法相同，不再赘述。

第一步~第四步主要是通过关键点聚类来检测表格所在位置，及表格所包含文本信息，主要用来解决无边框表格的识别。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于聚类的表格识别方法，其特征是，用于无边框表格的提取，包括：

S110：获取包括待识别无边框表格的PDF图片；

S130：基于关键点的聚类识别表格文字；本步骤包括：

S132：基于宽度剔除包含非表格文字的关键点；

S133：根据位置对剩余关键点进行聚类；

2.如权利要求1所述的基于聚类的表格识别方法，其特征是：

子步骤S122具体为：

3.如权利要求1所述的基于聚类的表格识别方法，其特征是，还包括：

4.一种基于聚类的表格识别系统，其特征是，用于无边框表格的提取，包括：

第一获取单元，用来获取包括待识别无边框表格的PDF图片；

表格文字识别单元，用来利用关键点的聚类识别表格文字；

所述表格文字识别单元包括：

剔除子单元，用来基于宽度剔除包含非表格文字的关键点；

第二聚类子单元，用来根据位置对剩余关键点进行聚类；

5.如权利要求4所述的基于聚类的表格识别系统，其特征是：

还包括第一去抖单元，用来提取同一类别所包含的关键点，对每列和每行分别按预设规则计算相应的参考横坐标和参考纵坐标，将各关键点的横坐标依次与各参考横坐标求距离，将关键点横坐标更新为与其距离最小的参考横坐标；将各关键点的纵坐标依次与各参考纵坐标求距离，将关键点纵坐标更新为与其距离最小的参考纵坐标；参考横坐标应位于所在列所有关键点的横坐标范围内，参考纵坐标应位于所在行所有关键点的纵坐标范围内。