CN108595402A

CN108595402A - 一种提取pdf表格信息的系统

Info

Publication number: CN108595402A
Application number: CN201810399152.1A
Authority: CN
Inventors: 荆姝娟; 周帅鹏
Original assignee: Xi'an Polar Number Marketing Data Services Ltd
Current assignee: Xi'an Polar Number Marketing Data Services Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-09-28

Abstract

本发明公开了一种提取PDF表格信息的系统，其特征在于，包括文件读取模块、文件加载、表格坐标获取、表格坐标处理、表格内容获取、跨页处理、PDF文档与表格矩阵，所述文件读取模块包括文件加载、表格坐标获取、表格坐标处理、表格内容获取与跨页处理，所述PDF文档通过信息读取模块结果输出为表格矩阵。所述PDF文档为标准的表格数据，对于手工绘制的线条暂不做处理。所述跨页处理包括跨页表格按照每一个单元格的坐标信息和表头进行合并。所述PDF文档中的流数据操作符为“q”的表格。本发明能够提取PDF文件中的表格信息，且效率高、准确性高、不仅能提取表格的样式，更能提取表格中的内容。

Description

一种提取PDF表格信息的系统

技术领域

本发明涉及文件处理技术领域，尤其涉及一种提取PDF表格信息的系统。

背景技术

随着计算机网络的发展，信息量的不断增长，电子文件信息已经深入到了生产和生活的各个方面，如工业设计、影视娱乐、科学研究、教育和管理等方面的视频、音频、动画、表格等信息。PDF文件所支持的格式包括文本、表格、动画、音频和视频等信息，目前还没有方法能准确无误地提取出PDF文件中包含的信息。因此针对其中表格信息提取是我们研究的重点。从表头方向来说表头是横向的(简称为横表)表头是纵向的(简称为竖表)，从同一个表格的分布来说表格存在跨页的情况，需要进行判断并有效合并完整的表格再一页中展示，直接提取。从一个PDF页面来说可能存在一个表格，可能有多个表格，可能有一张表格的一部分，可能有两张表各自的一部分。从PDF文件来说可能一个页面有表格，可能多个页面有表格，可能要同时处理多个PDF的表格。针对上述情况，我们从PDF文件属性出发，通过研究PDF文件的字符流信息，发现使用PDFBox工具箱可以有效获取目前所有PDF的字符流信息，并能获取到关于PDF页码和字符等信息。

发明内容

鉴于此，本发明提供了一种提取PDF表格信息的系统，其特征在于，包括文件读取模块、文件加载、表格坐标获取、表格坐标处理、表格内容获取、跨页处理、PDF文档与表格矩阵，所述文件读取模块包括文件加载、表格坐标获取、表格坐标处理、表格内容获取与跨页处理，所述PDF文档通过信息读取模块结果输出为表格矩阵。

对本发明的进一步描述，所述PDF文档为标准的表格数据，对于手工绘制的线条暂不做处理。

对本发明的进一步描述，所述跨页处理包括跨页表格按照每一个单元格的坐标信息和表头进行合并。

对本发明的进一步描述，所述文件读取模块读取文件中的流数据后，使用流读取操作获取文件的流数据信息。

对本发明的进一步描述，所述PDF文档中的流数据操作符为“q”的表格。

采用上述技术方案，具有如下有益效果：

本发明能够提取PDF文件中的表格信息，且效率高、准确性高、不仅能提取表格的样式，更能提取表格中的内容。

附图说明

图1为本发明的系统结构图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1所述的一种提取PDF表格信息的系统，其特征在于，包括文件读取模块、文件加载、表格坐标获取、表格坐标处理、表格内容获取、跨页处理、PDF文档与表格矩阵，所述文件读取模块包括文件加载、表格坐标获取、表格坐标处理、表格内容获取与跨页处理，所述PDF文档通过信息读取模块结果输出为表格矩阵。所述PDF文档为标准的表格数据，对于手工绘制的线条暂不做处理。所述跨页处理包括跨页表格按照每一个单元格的坐标信息和表头进行合并。所述文件读取模块读取文件中的流数据后，使用流读取操作获取文件的流数据信息。所述PDF文档中的流数据操作符为“q”的表格。

从PDF文件属性出发，通过研究PDF文件的字符流信息，发现使用PDFBox工具箱可以有效获取目前所有PDF的字符流信息，并能获取到关于PDF页码和字符信息等信息。

有了上述的准备基础，通过反复观察同一份PDF文件中的文件流信息，并和原文进行对比，发现可以通过坐标信息定位到表格所在的区域；然后对比其他PDF文件发现该方法的有效性。

发现可以通过坐标信息定位到表格的位置后，下一步要做的就是通过位置信息准确获取每一个单元格的位置及文本信息。通过对比同一个表格的不同单元格在文件流中的位置信息和前后关系，我们发现：

一个单元格的组成包括起始位置(X和Y)、宽度(W)、高度(H)共四个信息，也就是说通过这四个信息我们就可以准确获取单元格的位置信息。

利用坐标信息可以调用PDFBOX中的方法，获取对应文本区域的文本信息；而文本区域就是坐标信息表示的区域。

可以利用二维数组将一个个的单元格存放到一个二维数组中，表征为一个表格。

借助上一个二维数组获取文本域的文本信息，使用新的二维数组存放对应位置的文本信息，达到信息的有效还原。

同一个PDF文件可能存在观察到的表格的位置信息和字符流中的表格信息存在镜像关系，即表格信息出现上下颠倒的情况，因此表格在页面中的坐标可能是真实值，可能需要使用字符流信息中的值减去页面高度，并用页面宽度减去上述结果。

表格的坐标信息存在负数，通过观察，我们发现直接将该值取绝对值后，就可以准确拿到单元格。

有了上一步的基础，我们就可以有效将一个个单元格进行还原，但此时我们并没有将一个个的单元格进行有效合并成一个个的表格，因此我们利用单元格的位置信息进行表格的还原：

（1）获取第一个单元格，并将其设置为参考点

（2）获取下一个单元格，对比他们的Y值等关系

Y值一致，则是同一表格的同一行单元格，将这两个单元格进行合并；

Y值的差值是一个单元格的高度，说明是一个表格的下一行，将该单元格设置为新的参考点，并继续(1)的操作；

Y值差距较大，则是不同的表格，将上一个结果作为一个整体进行存储，并将才单元格作为参考点，继续(1)的操作；

经过上一步的处理，我们已经将表格进行了一定程度上的还原，但是还没有处理表格跨页的情况。通过反复观察跨页表格信息及其对应的文件流，我们发现：

跨页的表格：两部分表格中间没有文本，两部分表格的列数是一致的，两部分表格的坐标信息有一定的关联性，可以通过二维数组中变量的追加，将跨页表格的下半部分追加到上半部分中，同一页面的表格在合并时需要考虑被重复访问的情况。

针对上述结论，利用已有的二维数组和文件流，将表格信息进行还原，包括表格的位置信息、表格中的单元格信息、将不同单元格汇集成不同的表格，并针对单元格信息获取文本信息，而考虑上述情况，我们处理表格跨页的情况，获取第一个表格的坐标信息和当前页面文本域的坐标信息。

表格的起始位置大于文本域，说明表格不是该页第一个元素，因此不存在跨页情况，反之，需要观察二维数组中的上一页的数据，如果该表格位于第一页，则不是跨页，非首页，则判断该页下一个表格、最后一个表格和文本域及页面的坐标信息。

i.如果表格的结束Y值小于最后一个表格的结束坐标，则该表格是中间表格，直接存储；

ii.如果等于最后一个表格的结束坐标，则是最后一个表格，需要访问下一页的表格信息；

iii.通过一系列操作，返回下一页的第一个表格和页面的信息，如果第一个元素是表格，则说明下一页存在续表，则将下一页的表格追加到该表格中；

(2)访问下一个页面，并从头开始。

经过上述操作，我们已经获取了一个PDF文件中所有的表格的信息。但是我们此时所做的是将文件的绝对地址传递给文件访问接口，为了处理的高效性，是程序处理具有自动化，我们需要将一个文件夹传递给程序，使得程序可以自动获取目录下属的文件及文件夹，包括子文件夹中的文件信息的获取，采用如下处理方法：用户传递字符串给程序入口；系统判定用户输入的字符串的后四位；以“.pdf”结尾，说明是文件，直接采用上述的方法进行处理；非“.pdf”结尾，说明用户传递的是文件夹，需要采用递归调用和循环访问的方式读取并处理每一个PDF文件；对每一个文件，通过PDFBox打开后，如果不是标准的PDF文件，则提示用户，否则调用表格处理的流程进行信息提取；将每一个处理结果进行有效展示。

在PDF初期研究过程中，我们通过现有的方法和技术可以获取PDF中的文本数据，但是更多的信息隐含在表格中。为了能获取更多的信息，尤其是隐藏才PDF中的表格信息，我们需要对表格信息进行提取，不仅是对文本进行提取，更要做到准确提取，这就要求不仅要获取到表格的样式，还要能准确提取到各个位置的表格内容，并最终将表格中的信息准确无误地还原出来。

为了能准确提取出表格中的信息，包括表格样式、跨页及表格具体的内容，本系统从结构上分为3个大模块：文件加载模块、表格信息处理模块和输出模块；表格信息处理模块又分为表格坐标获取、表格内容获取和跨页表格处理共3个小模块。

本系统的主要设计流程如下所述：读取PDF文档后，通过pdfbox获取其中的流数据(流标记)；利用其中的标签信息，获取需要的信息；借助流数据其他坐标信息获取表格和文本的信息，同时，去除其中的重复坐标信息；借助上述信息整合跨页的表格；最后将处理结果以矩阵的方式输出到控制台和相应的文本文件中。

以上描述了本发明的基本原理和主要特征，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种提取PDF表格信息的系统，其特征在于，包括文件读取模块、文件加载、表格坐标获取、表格坐标处理、表格内容获取、跨页处理、PDF文档与表格矩阵，所述文件读取模块包括文件加载、表格坐标获取、表格坐标处理、表格内容获取与跨页处理，所述PDF文档通过信息读取模块结果输出为表格矩阵。

2.根据权利要求1所述的一种提取PDF表格信息的系统，其特征在于，所述PDF文档为标准的表格数据，对于手工绘制的线条暂不做处理。

3.根据权利要求1所述的一种提取PDF表格信息的系统，其特征在于，所述跨页处理包括跨页表格按照每一个单元格的坐标信息和表头进行合并。

4.根据权利要求1所述的一种提取PDF表格信息的系统，其特征在于，所述文件读取模块读取文件中的流数据后，使用流读取操作获取文件的流数据信息。

5.根据权利要求1所述的一种提取PDF表格信息的系统，其特征在于，所述PDF文档中的流数据操作符为“q”的表格。