CN110516048A

CN110516048A - pdf文档中表格数据的提取方法、设备和存储介质

Info

Publication number: CN110516048A
Application number: CN201910821962.6A
Authority: CN
Inventors: 王凯; 邓会林; 顾杨
Original assignee: Suzhou Long Mobile Network Technology Co Ltd
Current assignee: Suzhou Long Mobile Network Technology Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-11-29
Also published as: WO2021042507A1

Abstract

本发明揭示了一种pdf文档中表格数据的提取方法、设备和存储介质，所述方法包括：从pdf文档中提取表格信息；在所述表格信息中，查找表头关键词，根据表头关键词的权重或者组合，定位一个表格的表头所在行；从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式，根据数据格式的改变，定位所述表格的表尾所在行；根据所述表格的表头和表尾，获取所述表格的数据信息。与现有技术相比，本发明的pdf文档中表格数据的提取方法，可以自动批量的提取pdf表格中的数据，解决了耗时，耗人力的问题，提取结果误差小，提取的数据准确性高。

Description

pdf文档中表格数据的提取方法、设备和存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种pdf文档中表格数据的提取方法、设备和存储介质。

背景技术

随着数字化，信息化的高速发展，从各类非结构化文档中提取数据已经成了令很多人头疼的事情。

如果你尝试从大量的pdf文件中寻找某种格式的报表，你会发现这是一种非常耗时，而且费眼的事情。如果再想把大量的pdf文件中表格里面的内容存入数据库，那更是一个浩大的工程，并且很容易出错。

发明内容

本发明的目的在于提供一种pdf文档中表格数据的提取方法、设备和存储介质。

为实现上述发明目的之一，本发明一实施方式提供一种pdf文档中表格数据的提取方法，所述方法包括：

从pdf文档中提取表格信息；

在所述表格信息中，查找表头关键词，根据表头关键词的权重或者组合，定位一个表格的表头所在行；

从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式，根据数据格式的改变，定位所述表格的表尾所在行；

根据所述表格的表头和表尾，获取所述表格的数据信息。

作为本发明一实施方式的进一步改进，所述方法还包括：

丢弃所述表格中不存在表头关键词的列。

作为本发明一实施方式的进一步改进，所述“在所述表格信息中，查找表头关键词，根据表头关键词的权重，定位一个表格的表头所在行”具体包括：

在所述表格信息的某一行中，查找到一个或者多个表头关键词；

获取所述一个或者多个表头关键词的权重，计算所述一个或者多个表头关键词的总体权重；

若所述总体权重超过权重阈值，定位所述表头关键词所在的行为所述表格的表头所在行。

作为本发明一实施方式的进一步改进，所述“获取每个表头关键词的权重”具体包括：

获取历史pdf文档中表格的表头关键词及其词频；

通过所述词频计算所述表头关键词的权重，得到表头关键词权重列表；

查找所述表头关键词权重列表，获取每个表头关键词的权重。

作为本发明一实施方式的进一步改进，所述“在所述表格信息中，查找表头关键词，根据表头关键词的组合，定位一个表格的表头所在行”具体包括：

在所述表格信息的某一行中，查找到多个表头关键词；

判断所述多个表头关键词是否有组合关键词，若是，定位所述多个表头关键词所在的行为所述表格的表头所在行。

作为本发明一实施方式的进一步改进，所述“判断所述多个表头关键词是否有组合关键词”具体包括：

获取历史pdf文档中表格的表头关键词的组合，得到表头组合关键词列表；

判断所述多个表头关键词是否有所述表头组合关键词列表中的组合关键词。

作为本发明一实施方式的进一步改进，所述“从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式，根据数据格式的改变，定位所述表格的表尾所在行”具体包括：

如果出现某行的数据格式不同于上一行的，定位所述上一行为表格的表尾所在行。

作为本发明一实施方式的进一步改进，所述方法还包括：

检查所述表格的数据信息是否符合规范，若是，将所述数据信息存入数据库。

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述pdf文档中表格数据的提取方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任意一项所述pdf文档中表格数据的提取方法中的步骤。

与现有技术相比，本发明的pdf文档中表格数据的提取方法，可以自动批量的提取pdf表格中的数据，解决了耗时，耗人力的问题，提取结果误差小，提取的数据准确性高。

附图说明

图1是本发明pdf文档中表格数据的提取方法的流程示意图。

图2是图1的步骤2的一个实施方式的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，本发明的pdf文档中表格数据的提取方法包括：

步骤S1：从pdf文档中提取表格信息。

PDF诞生自Camelot项目。目的是创建一个通用的文档交流格式，以支持多种机器平台，操作系统和通信网络。其目标是使文档能够在任何显示器上可视，在任何现代打印机上可打印。PDF基于PostScript(一种页面描述语言)。该语言解决了在任意地方显示和打印的问题。PDF包含了文档“在任意地方可视和打印”所需的组件。比如，字符、字体、图表、图片等。

一个PDF文档包含许多放置文字(或其他组件)的指令。这些指令使用以页面左下角为原点的x、y坐标放置页面元素。一个单词通过将几个字符紧凑的放置在一起来模拟。同样的，空白通过使字符间隔更大来模拟。那怎样模拟一个表格呢？通过把字符摆放得跟一个电子表格一样来模拟。

PDF中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。不幸的是很多开放的数据是存储在pdf格式的文件中的。但是PDF格式在设计上并没有很好的支持表格数据。但是第三方开源工具tabula或者Camelot等能够从pdf文件中提取表格数据。

本发明优选第三方开源工具tabula将pdf文件中所有的表格信息都提取出来，汇总在一起。因此所有的表格信息中，包括一张或者多张表格。下表1为一张表格的一个例子：

表1

步骤S2：在所述表格信息中，查找表头关键词，根据表头关键词的权重或者组合，定位一个表格的表头所在行。

在此步骤中，通过事先分析历史pdf文档中表格的表头都有哪些关键词，以及这些关键词出现的频率，即词频，通过词频计算表头关键词的权重，汇总成表头关键词权重列表。表头关键词权重列表可以是：[{“客户”，25％},{“销售金额”，18％},{“占比”，11％}…]。然后在提取的表格信息中查找表头关键词，根据表头关键词的权重，定位一个表格的表头所在行。由于pdf中有些表格比较特殊，采用表头关键词权重定位表头，可以提高定位的准确性。

如图2所示，具体步骤包括如下：

步骤S21：在所述表格信息的某一行中，查找到一个或者多个表头关键词；

参见表1所示，搜索表格信息，定位到具有“序号、客户、销售金额，年度销售占比，是否存在关联关系”的这一行，找到表头关键词“客户”、“销售金额”和“占比”。

步骤S22：获取所述一个或者多个表头关键词的权重，计算所述一个或者多个表头关键词的总体权重；

总体权重即所述一个或者多个表头关键词的权重之和。通过查找表头关键词权重列表，可以获取每个表头关键词的权重，将所有的这一个或者多个表头关键词的权重相加，即得到总体权重。

步骤S23：若所述总体权重超过权重阈值，定位所述表头关键词所在的行为所述表格的表头所在行。

由于表头关键词也可能出现表头以外的地方，因此需要设定一个权重阈值来界定表头。权重阈值的设定过程可以是：通过历史数据给出一个初始权重阈值，然后通过提取的表头的准确率，再对此初始权重阈值进行修正。

通过以上步骤，就定位到一个表格的表头所在行。

另外，有些表头关键词是组合出现的，因此，可以通过事先分析历史pdf文档中表格的表头都有哪些组合关键词，得到表头组合关键词列表。例如表头组合关键词列表可以是：[{供应商名称，采购金额，占比，关联关系}，{客户，金额，占比}，{单位名称，营业收入，本期发生额，与本公司关系}…]。然后在提取的表格信息中查找多个表头关键词，判断多个表头关键词是否有表头组合关键词，若有，定位一个表格的表头所在行。具体步骤包括如下：

步骤S24：在所述表格信息的某一行中，查找到多个表头关键词；

步骤S25：判断所述多个表头关键词是否有组合关键词，若是，定位所述多个表头关键词所在的行为所述表格的表头所在行；

通过以上步骤，定位到一个表格的表头所在行。

步骤S3：从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式，根据数据格式的改变，定位所述表格的表尾所在行。

如果出现某行的数据格式不同于上一行的，定位所述上一行为表格的表尾所在行。参见表1所示，第2到6行的数据格式相同，第7行数据格式与第6行不同，定义第6行为表尾所在行。这里需要说明的是，第7行的总计的内容不是我们所需要的，因此会被丢弃。

进一步的，为了增加准确性，如果出现某行的数据格式不同于上一行的，判断这行的数据中是否包含表尾关键词(表尾关键词可以是“总计”、“合计”或者“共计”等)，若是，则所述上一行为所述表格的表尾所在行；若否，再判断这行的下一行的数据格式与这行的上一行数据格式是否相同(此处主要是针对出现在表中间的合并单元格)，若不同，所述上一行为所述表格的表尾所在行，若相同，代表中间出现了合并单元格，按照上述方法，继续定位表尾所在行。另外有些表格中或出现“-”，当发现数据格式的改变是由于“-”的出现导致的，不用管这一行，继续往下判断，定位表尾所在行。

步骤S4：根据所述表格的表头和表尾，获取所述表格的数据信息。

从所述表头的下一行开始遍历所述表格直至表尾所在行，提取所述表格的每行和每列的数据。

以上步骤为一个表格的数据信息的获取过程，若存在多个表格，循环上述步骤，直到将所有表格的数据信息提取完成。本发明的pdf文档中表格数据的提取方法，可以自动批量的提取pdf表格中的数据，解决了耗时，耗人力的问题，提取结果误差小，提取的数据准确性高。

在一个优选的实施方式中，所述方法还包括：

丢弃所述表格中不存在表头关键词的列。

需要说明的是，每个表头关键词都代表这个关键词所在列的数据是我们所需要的，因此，对于不存在表头关键词的列中的数据，是可以丢弃掉的。

在一个优选的实施方式中，所述方法还包括：

由于每个表头关键词都对应有相应的数据格式，比如“客户”对应的是公司或人的名称，“销售金额”对应的是数字，“占比”应该包含“％”(如果不包含％，格式为数字)。检查表格的数据信息是否符合以上的规范，如果符合，将所述数据信息存入数据库。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述pdf文档中表格数据的提取方法中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述pdf文档中表格数据的提取方法中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种pdf文档中表格数据的提取方法，其特征在于，所述方法包括：

从pdf文档中提取表格信息；

根据所述表格的表头和表尾，获取所述表格的数据信息。

2.根据权利要求1所述的pdf文档中表格数据的提取方法，其特征在于，所述方法还包括：

丢弃所述表格中不存在表头关键词的列。

3.根据权利要求1所述的pdf文档中表格数据的提取方法，其特征在于，所述“在所述表格信息中，查找表头关键词，根据表头关键词的权重，定位一个表格的表头所在行”具体包括：

4.根据权利要求3所述的pdf文档中表格数据的提取方法，其特征在于，所述“获取每个表头关键词的权重”具体包括：

获取历史pdf文档中表格的表头关键词及其词频；

5.根据权利要求1所述的pdf文档中表格数据的提取方法，其特征在于，所述“在所述表格信息中，查找表头关键词，根据表头关键词的组合，定位一个表格的表头所在行”具体包括：

在所述表格信息的某一行中，查找到多个表头关键词；

6.根据权利要求5所述的pdf文档中表格数据的提取方法，其特征在于，所述“判断所述多个表头关键词是否有组合关键词”具体包括：

7.根据权利要求1所述的pdf文档中表格数据的提取方法，其特征在于，所述“从所述表头所在行的下一行开始往下遍历各行中单元格的数据格式，根据数据格式的改变，定位所述表格的表尾所在行”具体包括：

8.根据权利要求1所述pdf文档中表格数据的提取方法，其特征在于，所述方法还包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任意一项所述pdf文档中表格数据的提取方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任意一项所述pdf文档中表格数据的提取方法中的步骤。