CN107622230B

CN107622230B - 一种基于区域识别与分割的pdf表格数据解析方法

Info

Publication number: CN107622230B
Application number: CN201710760650.XA
Authority: CN
Inventors: 刘晓伟; 刘张宇; 薛云志
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2019-12-06
Anticipated expiration: 2037-08-30
Also published as: CN107622230A

Abstract

本发明涉及一种基于区域识别与分割的PDF表格数据解析方法，定位PDF文档中要解析的指定页面，并将指定页面转换为灰阶图像文件；解析灰阶图像文件，获取其中的数据部分并保存到二维数组中；针对所得到的二维数组，通过表格分割线扫描算法，进行表格区域的识别和不同表格区域的分割；进行表格区域的识别和不同表格区域的分割后，依次对各个表格进行解析，在解析时，根据表格样式的不同，将表格分为非复杂结构的表格和复杂结构的表格进行处理，从而得到解析结果，能够提高复杂表格数据解析的准确率；将所得到的解析后的表格数据按照需要的文件格式进行存储。本发明是一种能够快速、准确地从PDF文档中提取所需要的表格数据的方法。

Description

一种基于区域识别与分割的PDF表格数据解析方法

技术领域

本发明涉及一种基于区域识别与分割的PDF文档表格数据解析方法，属于数字图像处理、数据处理技术领域。

背景技术

PDF(Portable Document Format，便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点，PDF已成为目前使用最为广泛的电子文档格式之一。

随着PDF格式文档的广泛使用，大量有价值的数据均以PDF文档的形式呈现出来。因此，如何从PDF文档中提取数据，尤其是结构化、半结构化的表格数据，是一个被广泛关注和研究的问题。

PDF格式的文档结构与HTML、XML等格式不同(没有类似于HTML和XML文档中的结构化标签)，PDF文档对表格数据没有特殊的定义，而只是线条与文字的位置组合，因此很难直接从PDF文档中提取出所需要的表格数据。也正是因为这一原因，虽然目前从PDF文档中解析表格数据的相关工具众多，然而成熟稳定、解析准确率高的工具却很少，现有的PDF表格数据解析工具主要存在以下问题：

(1)部分PDF表格数据解析工具采用先将PDF文档转换为一种中间格式的文档(如HTML、XML、DOC等)，然后再从这种中间格式的文档中提取出所需要的数据。该方法不仅多引入了一次转换到中间文件的操作，而且转换得到的中间文件难以准确地保持数据在原有PDF文档中的位置和结构(例如同一单元格中的数据被切割到不同的标签中而难以合并与处理，或不同单元格中的数据被合并到同一标签中而无法拆分)，因此无法得到准确的表格数据解析结果，从而难以进行后续的处理。

(2)对于同一个PDF文档页面中存在两个或者多个表格的情况无法得到较为理想的解析结果。部分PDF表格数据解析工具即使能够处理同一页面中的多个表格，也会将解析得到的这些表格数据混合在一起而难以拆分。

(3)表格解析的准确率较低，提取出来的表格数据无法保持其在原PDF文档中的相对位置和结构，因此难以继续使用：例如解析出来的单个单元格中的数据被分割到多行，或多个单元格中的数据被合并到一个单元格中。

现有的PDF文档表格识别方法(CN105589841A)基于关键词匹配算法，需要将待解析页面中所有的文本数据解析出来，然后再从这些文本中进行关键词匹配，这是需要一定的时间耗费的。

本发明设计中包含的表格区域识别方法，不需要解析整个页面中的文本，从而能够进行快速地表格区域识别。

现有的PDF文件表格提取方法和装置(CN105988979A)需要对所提取的表格横向线条进行排序，并且需要将表格的线条信息进行绘制。

本发明设计中包含的表格数据提取方法，不需要对表格分割线(包括横向线条和纵向线条)进行排序(表格分割线提取出来就是按序排列的)，并且在对所提取出的表格数据进行存储时，无需保存任何线条信息、位置信息，而只需存储表格中的文本数据，并能够保证表格中的数据按照其在原文档中的布局、位置和结构进行存储。

发明内容

针对上述现有的PDF表格数据解析工具和方法所存在的多种问题，提供一种基于区域识别与分割的PDF文档表格数据解析方法，并旨在提供一种能够快速、准确地从PDF文档中提取所需要的表格数据的方法。

本发明技术解决方案：一种基于区域识别与分割的PDF表格数据解析方法，步骤如下：

第一步，定位PDF文档中要解析的指定页面，并将指定页面转换为灰阶图像文件；通过直接指定要解析的文档页码进行快速定位，将该页文档转换为灰阶图像文件(例如PPM文件)。灰阶图像文件具有特定的文件格式，通过读取并解析转换得到的灰阶图像文件，可以得到直接用于后续处理的数据；

第二步，解析转换得到的灰阶图像文件，获取其中的数据部分并保存到二维数组中；按照灰阶图像文件的文件格式，对其进行读取和解析，获取其中的数据部分，并保存到二维数组中，后续的表格区域识别与表格区域分割都需要针对该二维数组进行大量的计算和处理，在进行二维数组的存储和计算时，使用numpy或其他提供高效的向量、矩阵高阶数据结构处理能力的技术工具进行处理；

第三步，针对所得到的二维数组，通过表格分割线扫描算法，进行表格区域的识别和不同表格区域的分割，所述表格分割线扫描算法采用PDF文档中表格、单元格区域识别方法和区域分割方法相结合的方法；

第四步，进行表格区域的识别和不同表格区域的分割后，依次对各个表格进行解析，在解析时，根据表格样式的不同，将表格分为非复杂结构的表格和复杂结构的表格进行处理，从而得到解析结果，能够提高复杂表格数据解析的准确率；所述非复杂结构的表格是指表格规整、分割线对齐，所述复杂结构的表格是指表格中的分割线交错复杂、多条分割线不对齐，包括跨行单元格、跨列单元格、跨行跨列单元格，以及同一行或同一列中存在多个跨行和跨列的单元格情况；

第五步，将所得到的解析后的表格数据按照需要的文件格式进行存储。

所述第三步中，所述表格分割线扫描算法具体实现如下：标记连续位置上值相同的元素，并通过表格分割线线长阈值进行过滤，识别出表格的分割线；通过判断两条相邻的表格分割线中间是否存在贯穿的垂直表格分割线，即垂直于两条相邻的表格分割线来确定并识别出同一页面中的不同表格区域；识别出不同的表格区域后，将同一页面内的不同表格按照区域进行分割，得到各个表格的起始和终止位置坐标。

所述第四步中，对于非复杂结构的表格处理步骤为：

(1)针对第二步得到的二维数组，通过单元格分割线扫描算法，识别出各个表格中不同的单元格区域；

(2)对识别出的各个单元格区域中的文字数据进行定位和解析。

所述第四步中，对于复杂结构的表格处理步骤为：

(1)将表格按行进行切割，然后依次处理每个行表格；

(2)针对第二步得到的二维数组，通过单元格分割线扫描算法，识别出各个行表格中不同的单元格区域；

(3)对识别出的各个单元格区域中的文字数据进行定位和解析；

(4)将所有的行表格数据合并到一个完整的表格中，从而得到整个表格的数据。

所述第五步中，将所得到的解析后的表格数据按照需要的格式(例如Excel、txt等)进行存储时，无需存储表格结构本身，而只需存储表格中的文本数据，并能够保证表格中的数据按照原文档中的布局、位置和结构进行存储。

与现有的PDF文档表格数据解析工具和方法相比，本发明所提出的方法主要包括以下优点：

(1)能够快速、准确地从PDF文档中提取所需要的表格数据，无需将PDF文档转换为中间格式的文档，支持直接从PDF文档中准确解析表格数据；

(2)能够识别和切割同一个页面中的多个表格；

(3)支持对结构复杂表格的数据解析，能够提高复杂表格数据解析的准确率；

(4)本发明设计中包含的表格数据提取方法，不需要对表格分割线(包括横向线条和纵向线条)进行排序(表格分割线提取出来就是按序排列的)；

(5)在对所提取出的表格数据进行存储时，在保证表格数据解析结果准确性的前提下，无需存储用于描述表格数据位置信息的数据，而只需存储表格中的文本数据，并能够保证表格中的数据按照其在原文档中的布局、位置和结构进行存储。

附图说明

图1是本发明基于区域识别与分割的PDF表格数据解析方法的流程图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明所提出的PDF文档表格数据解析方法各个步骤的具体实施方式如下：

●PDF文档页面转换为灰阶图像文件

本发明所提出的PDF文档表格数据解析方法不需要解析整个PDF文档，而是能够直接根据PDF文档的页码，快速定位到指定页面，通过将指定的要解析的PDF文档页面转换为八位灰阶图像文件，并对灰阶图像文件进行处理(标识出有字符区域和空白区域)，以判定页面有效内容的区域，从而提高表格数据的提取效率。

此外，在进行八位灰阶图像文件转换时，通过调整灰度阈值，本方法可以处理部分带有阴影、带有背景颜色、彩色等样式的表格。

●解析灰阶图像文件

灰阶图像文件具有特定的文件格式，通过读取并解析转换得到的PDF文档页面的灰阶图像文件，可以得到直接用于后续表格区域识别和表格区域分割的数据，并将数据映射到二维数组中。

●表格区域识别与分割

针对二维数组，通过表格分割线扫描算法：标记连续位置上值相同的元素，并通过表格分割线线长阈值进行过滤，识别表格中的边框和单元格分割线(即表格区域识别技术)；通过判断两条相邻的表格边框线中间是否存在至少一条贯穿的垂直分割线来判断两条边框线是否处于同一个表格中：若两条相邻的表格边框线中间不存在贯穿的垂直分割线，则说明所判断的两条相邻的表格边框线分别属于不同的表格，从而通过这两条边框线将同一个PDF文档页面中的不同表格区域分开，并依此进行表格分割(即表格区域分割技术)。

●表格数据的解析

通过对PDF文档页面中的表格区域识别及不同表格区域分割后，就可以依次对各个表格中的单元格进行区域识别，并进行表格数据的解析，从而得到完整的表格数据。先进行表格区域识别与区域分割，确定要解析的文字区域之后才进行指定区域内的表格数据解析，这样能够避免对不需要的文档数据的解析，提高表格数据解析的速度。

在进行表格数据解析时，对于结构复杂的表格(例如跨行单元格、跨列单元格、跨行跨列单元格，以及同一行或同一列中存在多个跨行和跨列的单元格等情况)，采用现有PDF文档表格数据解析方法直接解析出来的单元格数据的相对位置和布局会出现错乱，甚至会出现空行和空列的情况(而用户无法确定是原表格中真实存在的空行空列还是解析错误得到的空行空列)。

因此，本发明提出了一种针对结构复杂的表格数据的准确解析方法：首先需要将表格进行逐行切分，并将切分开的各个行表格作为一个单独的表格进行解析(单元格区域识别及单元格数据解析)。最后再将解析出来的各个行表格中的数据进行合并，从而得到整个表格的数据。通过逐行切分、再解析、数据合并的方法，能够显著提高对于结构复杂的表格数据的解析准确率。

●表格数据的存储

将不同表格中的各个单元格数据解析出来后，需要按照各个单元格在原来表格中的位置信息和结构信息进行存储，以保证表格数据解析的准确性。在进行表格数据存储时，本发明支持使用纯文本格式(如txt)或二进制格式(如Excel)进行存储。例如对于Excel文件而言，本发明通过使用pandas将解析得到的表格数据存储到Excel文件中(pandas提供了大量快速、便捷地处理数据的函数和方法，并能够方便地进行数据的存储。在进行本步骤的具体实施时，也可使用其他提供类似pandas功能的技术工具)。

此外，在进行表格数据存储时，本发明无需存储表格结构本身，而只需存储表格中的文本数据，并能够保证表格中的数据按照原文档中的布局、结构和位置进行存储，这样能够有效地减少额外数据的存储量。

Claims

1.一种基于区域识别与分割的PDF表格数据解析方法，其特征在于，步骤如下：

第一步，定位PDF文档中要解析的指定页面，并将指定页面转换为灰阶图像文件；

第二步，解析转换得到的灰阶图像文件，获取其中的数据部分并保存到二维数组中；

第五步，将所得到的解析后的表格数据按照需要的文件格式进行存储；

所述第三步中，所述表格分割线扫描算法具体实现如下：标记连续位置上值相同的元素，并通过表格分割线线长阈值进行过滤，识别出表格的边框和单元格分割线；通过判断两条相邻的表格边框线中间是否存在至少一条贯穿的垂直分割线来判断两条边框线是否处于同一个表格区域中：若两条相邻的表格边框线中间不存在贯穿的垂直分割线，则说明所判断的两条相邻的表格边框线分别属于不同的表格区域；识别出不同的表格区域后，将同一页面内的不同表格按照区域进行分割，得到各个表格的起始和终止位置坐标；

所述第四步中，对于复杂结构的表格处理步骤为：

(1)将表格按行进行切割，然后依次处理每个行表格；

(2)针对第二步得到的二维数组，通过表格分割线扫描算法，识别出各个行表格中不同的单元格区域；

2.根据权利要求1所述的基于区域识别与分割的PDF表格数据解析方法，其特征在于：所述第二步中，在进行二维数组的保存时，使用高效的向量、矩阵高阶数据结构处理能力的技术工具numpy进行处理。

3.根据权利要求1所述的基于区域识别与分割的PDF表格数据解析方法，其特征在于：所述第四步中，对于非复杂结构的表格处理步骤为：

(1)针对第二步得到的二维数组，通过表格分割线扫描算法，识别出各个表格中不同的单元格区域；

4.根据权利要求1所述的基于区域识别与分割的PDF表格数据解析方法，其特征在于：所述第五步中，将所得到的解析后的表格数据按照Excel或者txt格式进行存储时，无需存储表格结构本身，而只需存储表格中的文本数据，并能够保证表格中的数据按照原文档中的布局、位置和结构进行存储。