CN110765739A

CN110765739A - 一种从pdf文档中抽取表格数据和篇章结构的方法

Info

Publication number: CN110765739A
Application number: CN201911017195.XA
Authority: CN
Inventors: 范举; 韩涵; 卢卫; 杜小勇
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-07
Anticipated expiration: 2039-10-24
Also published as: CN110765739B

Abstract

本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法，其步骤：从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；从带有篇章结构的PDF文件进行裁剪；对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；将表格以html页面进行展示，完成抽取。本发明能自动化提取数据，提供一套浏览器端的操作界面，有良好的用户交互；可以在数据处理领域中应用。

Description

一种从PDF文档中抽取表格数据和篇章结构的方法

技术领域

本发明涉及一种数据处理领域，特别是关于一种从PDF文档中自动抽取表格数据和篇章结构的方法。

背景技术

在数据处理领域中，例如上市公司招股书、财报、年报等披露文件的信息抽取，表格数据和篇章结构的抽取可以辅助金融从业者的信息挖掘工作。互联网上的文档是进行知识抽取的重要资源。除了大量的网页页面，互联网上还有很多公开的PDF资源。PDF中包含着许多难以从网页上检索到的信息。诸如上市公司的行业法规、企业客户/供应商、财务数据等信息都存在于上市公司信息披露的表格中，与传统网页相比，PDF缺乏结构信息，确定其目录结构，提取特定篇章下的表格数据更加困难。

在该领域中现有技术方案主要包括专利201510083646.5、专利201710095978.4、专利201811630768.1。

专利201510083646.5通过提取PDF文档中的横纵线条，针对横纵线条进行排序，从而重绘PDF中的表格。但是该专利文献无法完整地提取边框未封闭的表格。

专利201710095978.4通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取，通过线条的投影首先得到表格位置，再依次得到表格内各线条的位置，从而提高准确度。但是该专利文献提取的是PDF文档中所有的表格，缺失提取特定目录下表格的能力。

专利201811630768.1通过线条提取有边框表格，通过估计文本框边界提取无边框表格。专利201811630768.1中通过分析线条的对齐方式，确定单元格是否被合并，这种合并方式往往受限于对齐阈值的设计，且该专利也缺乏提取特定目录下表格的能力。

发明内容

针对上述问题，本发明的目的是提供一种从PDF文档中自动抽取表格数据和篇章结构的方法，其能自动化提取数据，提供一套浏览器端的操作界面，有良好的用户交互。

为实现上述目的，本发明采取以下技术方案：一种从PDF文档中自动抽取表格数据和篇章结构的方法，其步骤：1)从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；2)从带有篇章结构的PDF文件进行裁剪；3)对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；4)将表格以html页面进行展示，完成抽取。

进一步，所述步骤1)中，对PDF文件进行章节抽取的方法包括以下步骤：1.1)按行抽取PDF文档的特征，具体特征包括：该行文字颜色、是否加粗、字体大小、字体；1.2)将含有相同特征的行划为一组，为特征分组；1.3)按文字大小计算每种大小文字占全文的比例，完成字体分组；1.4)根据字体分组的比例信息，设定目录字体大小的下界估计值，并使用该估计值剔除特征分组中小于该估计值的字体分组；1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数；1.6)按打分函数给每个特征分组打分，将分数从高到底排序，从第一组开始依次为各特征分组打分，选取满足条件的前K个特征分组，完成章节抽取。

进一步，所述步骤1.5)中，PDF文档中的各个因素包括：是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。

进一步，所述打分函数的结果是PDF文档中的各个因素的分数之和。

进一步，所述步骤1.6)中，其中，满足条件是指：从第一个组开始检查各个组别是否匹配目录模板，直到第一个不匹配目录模板的分组出现；如果没有分组匹配目录模板，则选取第一个组。

进一步，所述步骤2)中，在章节提取部分能获得每个章节项的页码，根据页码对PDF文档进行裁剪。

进一步，所述步骤3)中，表格抽取具体包括以下步骤：3.1)对PDF文件进行单元格提取；3.2)对提取到的所有单元格按从上到下，从左到右的顺序排序；3.3)构建一个空的列表T用于存放已经产生的表格；3.4)依次遍历所有单元格，对每个单元格，检查该单元格与列表T中的表格是否是“紧密贴合”，如果是，则将该单元格加入列表T中的表格；否则，以该单元格为基础新建一个表格，并将新建立的表格加入列表T中；3.5)对任意合法的页数i，取第i页最底部表格t1,第i+1页最顶部表格t2，检查t1和t2是否列对齐，如果是，连接两个表格，完成表格提取。

进一步，所述步骤3.1)中，对PDF文件进行单元格提取方法包括以下步骤：3.1.1)提取PDF图像信息，对该图像信息利用OpenCV进行形态学处理，提取图像信息中的直线；3.1.2)将相互连接的线条进行合并；3.1.3)对合并后的线条分类，分成横线和竖线两组；3.1.4)对每条横线和竖线，检查两条线是否互相交叠，若相互交叠则生成交叉点；如无相互交叠的横线和竖线，则该页无表格；3.1.5)对所有的横线，检查其线条上最左交叉点和最右交叉点是否位于横线两端，如果不在横线两端，则将该横线视作“可扩展的横线”；3.1.6)任取两条“可扩展的横线”h1、h2，遍历其上的交叉点有无共同的竖线；如果有，则绘制两条线段，分别将h1,h2的两端相连；3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况，则重复步骤3.1.2)至3.1.4)，反之进入下一步；3.1.8)遍历所有的交叉点，对其中任意一个交叉点node1，检查其横线和竖线，检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间，是否存在交叉点node2，如果存在，以node1和node2为单元格对角线上的两个端点，构建一个单元格。

进一步，所述步骤3.1.6)中，绘制是指，新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点，hl2连接起h1和h2的最右端点，有共同交叉点的话，则绘制两条线段。

进一步，所述步骤3.4)中，检查单元格与列表T中的表格是否“紧密贴合”的方法为：对于单元格c和表格t，都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max；若属性满足下列情况之一即为紧密贴合：

(1)表格t的x_max属性与单元格的x_min属性相等，且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max；

(2)表格t的y_max属性与单元格的y_min相等相等，且满足表格t的x_min等于c的x_min或表格t的x_max等于c的x_max。

本发明由于采取以上技术方案，其具有以下优点：1、专利申请号为201510083646.5的文献是通过提取PDF文档中的横纵线条，针对横纵线条进行排序，从而重绘PDF中的表格。与该现有文献相比，本发明对未封闭边框的表格边框进行了估计，可以提取边框未封闭的表格。2、专利申请号为201710095978.4的文献是通过同时提取PDF文档中的线条信息以及PDF图像中的线条信息进行表格提取，通过线条的投影首先得到表格位置，再依次得到表格内各线条的位置，从而提高准确度。与该现有文献相比，本发明未使用线条数据进行垂直投影和水平投影，而是首先将线条数据进行合并过滤，转换为单元格，然后通过组合单元格形成表格。3、与其他现有文献相比，本发明通过构建线条直接的交叉点形成单元格，进而组合得到表格的方法，方便了将表格可视化为html表格、或转为excel等格式,增强了工具的易用性。4、本发明可以提取边框未封闭的表格、识别表格中的跨行跨列单元格、有效地合并跨页表格、导出excel，从而使得PDF表格提取这一流程更加方便和实用。

附图说明

图1是本发明的整体流程示意图；

图2是本发明抽取表格时表格中的点和线的示例图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种从PDF文档中自动抽取表格数据和篇章结构的方法，其包括以下步骤：

1)从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；

2)从带有篇章结构的PDF文件进行裁剪：在章节提取部分可以方便获得每个章节项的页码，根据页码可以对PDF文档进行裁剪。

3)对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；

4)将表格以html页面进行展示，完成抽取。

上述步骤1)中，对PDF文件进行章节抽取的方法包括以下步骤：

1.1)按行抽取PDF文档的特征，具体特征包括：该行文字颜色、是否加粗、字体大小、字体。

1.2)分组：将含有相同特征的行划为一组(以下简称“特征分组”)。

1.3)按文字大小计算每种大小文字占全文的比例(以下简称“字体分组”)。

1.4)根据字体分组的比例信息，设定目录字体大小的下界估计值，并使用该估计值剔除特征分组中小于该估计值的字体分组。

1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数；PDF文档中的各个因素包括：是否加粗、是否匹配目录模板(如是否带有“一、”，“二、”这样的字符串)、该特征所代表的行是否分布在多个页面、颜色、字体大小等。

评分函数考虑的因素如下：

其中，打分函数的结果是PDF文档中的各个因素的分数之和。

1.6)按打分函数给每个特征分组打分，将分数从高到底排序，从第一组开始依次为各特征分组打分，选取满足条件的前K个特征分组，完成章节抽取；其中，满足条件是指：从第一个组开始检查各个组别是否匹配目录模板，直到第一个不匹配目录模板的分组出现；如果没有分组匹配目录模板，则选取第一个组。

上述步骤3)中，在表格提取方面，本发明可以将以下情况中的表格完整的提取：一是部分PDF是由word等文档转换而来，这部分PDF文档中会保留word表格中单元格的遗留信息，本发明通过这些遗留信息直接获得单元格的位置和大小；二是对于非word转换而来的文档，本发明从PDF的背景图中利用OpenCV识别表格底色、边框线条等信息，进而对边框线条进行组合得到各个单元格，进而得到表格。另外，对于一些无最左边框和最右边框的表格(即表格最左(右)边单元格缺少左(右)边框)时，本发明同样可以完整地提取表格。

表格抽取具体包括以下步骤：

3.1)对PDF文件进行单元格提取，具体提取方法包括以下步骤：

3.1.1)提取PDF图像信息，对该图像信息利用OpenCV进行形态学处理：腐蚀膨胀，提取图像信息中的直线。

3.1.2)将相互连接的线条进行合并；需要注意的是：如果两条线条相互重叠，也认为是相互连接的线条。

3.1.3)对合并后的线条分类，分成横线和竖线两组。

3.1.4)对每条横线和竖线，检查两条线是否互相交叠，若相互交叠则生成交叉点；如无相互交叠的横线和竖线，则该页无表格。

3.1.5)对所有的横线，检查其线条上最左交叉点和最右交叉点是否位于横线两端，如果不在横线两端，则将该横线视作“可扩展的横线”(如图2所示，图中白色的长方形为交叉点，黑色边框的圆形为“可扩展的横线”两端)。

3.1.6)任取两条“可扩展的横线”h1、h2(即遍历这些横线的集合，每次遍历时取一条线h1，并在该次遍历时重复遍历集合，取一条线h2)，遍历其上的交叉点有无共同的竖线；如果有，则绘制两条线段，分别将h1,h2的两端相连；

此处的“绘制”是指，新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点，hl2连接起h1和h2的最右端点，有共同交叉点的话，则绘制两条线段。

3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况，则重复步骤3.1.2)至3.1.4)，反之进入下一步。

3.1.8)遍历所有的交叉点，对其中任意一个交叉点node1，检查其横线和竖线，检查交叉点node1横线上的下一个有竖线的交叉点的竖线和node1竖线上的下一个有横线的交叉点的横线之间，是否存在交叉点node2，如果存在，以node1和node2为单元格对角线上的两个端点，构建一个单元格。

3.2)对提取到的所有单元格按从上到下，从左到右的顺序排序。

3.3)构建一个空的列表T用于存放已经产生的表格。

3.4)依次遍历所有单元格，对每个单元格，检查该单元格与列表T中的表格是否是“紧密贴合”，如果是，则将该单元格加入列表T中的表格；否则，以该单元格为基础新建一个表格，并将新建立的表格加入列表T中。

检查单元格与列表T中的表格是否“紧密贴合”的方法为：

对于单元格c和表格t，都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max。若属性满足下列情况之一即为紧密贴合：

(1)表格t的x_max属性与单元格的x_min属性相等，且满足表格t的y_min等于c的y_min或表格t的y_max等于c的y_max。

以单元格为基础新建表格、以及将单元格加入已存在的列表T中的表格时，表格会记录各个单元格边界的位置，并形成一个用于记录单元格所有竖线的横坐标的横向坐标集(x_axis)，以及一个用于记录单元格所有横线的总坐标的纵向坐标集(y_axis)。这两个坐标集用于在表格构建完成时，匹配每个单元格的位置，从而获得单元格的跨行跨列情况，便于将表格导出成Html。

3.5)对任意合法的页数i，取第i页最底部表格t1,第i+1页最顶部表格t2，检查t1和t2是否列对齐，如果是，连接两个表格，完成表格提取。

上述步骤4)中，表格以html页面进行展示，并支持在页面中直接复制表格内容粘贴至excel：通过将解析的表格转换为html表格的方法，以及将html表格嵌入html文档的方法，利用excel和浏览器对html表格的翻译方法，从而粘贴至excel。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种从PDF文档中自动抽取表格数据和篇章结构的方法，其特征在于包括以下步骤：

1)从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；

2)从带有篇章结构的PDF文件进行裁剪；

4)将表格以html页面进行展示，完成抽取。

2.如权利要求1所述方法，其特征在于：所述步骤1)中，对PDF文件进行章节抽取的方法包括以下步骤：

1.1)按行抽取PDF文档的特征，具体特征包括：该行文字颜色、是否加粗、字体大小、字体；

1.2)将含有相同特征的行划为一组，为特征分组；

1.3)按文字大小计算每种大小文字占全文的比例，完成字体分组；

1.4)根据字体分组的比例信息，设定目录字体大小的下界估计值，并使用该估计值剔除特征分组中小于该估计值的字体分组；

1.5)根据PDF文档中的各个因素为剩余的特征分组设定打分函数；

1.6)按打分函数给每个特征分组打分，将分数从高到底排序，从第一组开始依次为各特征分组打分，选取满足条件的前K个特征分组，完成章节抽取。

3.如权利要求2所述方法，其特征在于：所述步骤1.5)中，PDF文档中的各个因素包括：是否加粗、是否匹配目录模板、该特征所代表的行是否分布在多个页面、该特征是否为彩色、字体大小。

4.如权利要求3所述方法，其特征在于：所述打分函数的结果是PDF文档中的各个因素的分数之和。

5.如权利要求2所述方法，其特征在于：所述步骤1.6)中，其中，满足条件是指：从第一个组开始检查各个组别是否匹配目录模板，直到第一个不匹配目录模板的分组出现；如果没有分组匹配目录模板，则选取第一个组。

6.如权利要求1所述方法，其特征在于：所述步骤2)中，在章节提取部分能获得每个章节项的页码，根据页码对PDF文档进行裁剪。

7.如权利要求1所述方法，其特征在于：所述步骤3)中，表格抽取具体包括以下步骤：

3.1)对PDF文件进行单元格提取；

3.2)对提取到的所有单元格按从上到下，从左到右的顺序排序；

3.3)构建一个空的列表T用于存放已经产生的表格；

3.4)依次遍历所有单元格，对每个单元格，检查该单元格与列表T中的表格是否是“紧密贴合”，如果是，则将该单元格加入列表T中的表格；否则，以该单元格为基础新建一个表格，并将新建立的表格加入列表T中；

8.如权利要求7所述方法，其特征在于：所述步骤3.1)中，对PDF文件进行单元格提取方法包括以下步骤：

3.1.1)提取PDF图像信息，对该图像信息利用OpenCV进行形态学处理，提取图像信息中的直线；

3.1.2)将相互连接的线条进行合并；

3.1.3)对合并后的线条分类，分成横线和竖线两组；

3.1.4)对每条横线和竖线，检查两条线是否互相交叠，若相互交叠则生成交叉点；如无相互交叠的横线和竖线，则该页无表格；

3.1.5)对所有的横线，检查其线条上最左交叉点和最右交叉点是否位于横线两端，如果不在横线两端，则将该横线视作“可扩展的横线”；

3.1.6)任取两条“可扩展的横线”h1、h2，遍历其上的交叉点有无共同的竖线；如果有，则绘制两条线段，分别将h1,h2的两端相连；

3.1.7)如果在步骤3.1.6)中出现了绘制线段的情况，则重复步骤3.1.2)至3.1.4)，反之进入下一步；

9.如权利要求8所述方法，其特征在于：所述步骤3.1.6)中，绘制是指，新建立两条线段hl1和hl2加入步骤3.1.3)中的线条组中,hl1连接起h1和h2的最左端点，hl2连接起h1和h2的最右端点，有共同交叉点的话，则绘制两条线段。

10.如权利要求7所述方法，其特征在于：所述步骤3.4)中，检查单元格与列表T中的表格是否“紧密贴合”的方法为：

对于单元格c和表格t，都具有属性左边线距离页面左侧距离x_min、右边线距离页面左侧距离x_max、下边线距离页面下侧距离y_min和上边线距离页面下侧距离y_max；若属性满足下列情况之一即为紧密贴合：