CN109582928B

CN109582928B - Pdf报表数据提取方法及装置

Info

Publication number: CN109582928B
Application number: CN201811488861.3A
Authority: CN
Inventors: 许德峰
Original assignee: Wondershare Technology Co ltd
Current assignee: Wondershare Technology Co ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-07-21
Anticipated expiration: 2038-12-06
Also published as: CN109582928A

Abstract

本申请提供了一种PDF报表数据提取方法及装置，所述方法包括：根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，其中，XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据；根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据，便于对报表数据进行统计，极大的提高了报表的可识别性和灵活性。

Description

PDF报表数据提取方法及装置

技术领域

本申请涉及数据提取领域，具体而言，涉及一种PDF报表数据提取方法及装置。

背景技术

PDF格式具有很强的安全性，保证了PDF文档不能被编辑，至少不能被轻易修改，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用编辑工具，也无法避开这类限制。并且PDF格式的文档可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除，而其他格式则很容易地被修改或编辑。

鉴于以上安全性保障，各大公司的财务报表都是以PDF格式形式进行发布，能够避免数据被肆意篡改的风险。PDF虽然带来了安全性、传输可靠性上的保证，但对于财务报表数据的统计也带来了许多不便，因此，从PDF中提取报表数据信息的需求也就应运而生。

发明内容

为了解决上述问题，本申请实施例提供一种PDF报表数据提取方法及装置。

第一方面，本申请实施例提供一种PDF报表数据提取方法，所述方法包括：

根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，其中，XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据；

根据所述XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据；

根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。

可选地，在本实施例中，根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，包括：

对所述PDF文档中的第一页面树Pages Root进行检索，以获取第一页面字典；

对所述第一页面字典进行检索，以获取第一页面字典中的第一Contents字典项；

对所述第一Contents字典项进行检索，以获取所述第一Contents字典项中的第一内容流；

根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板，其中所述内容信息包括报表的表头、各个数据项名称，所述坐标信息包括表头和各个数据项坐标。

可选地，在本实施例中，所述XML格式模板包括名称节点和坐标节点，其中，所述坐标节点为所述名称节点的子节点，所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板，包括：

将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中；

将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。

可选地，在本实施例中，在根据所述XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前，还包括解析目标PDF文档的步骤，所述步骤具体包括：

对所述目标PDF文档中的第二页面树Pages Root进行检索，以获取第二页面字典；

多所述第二页面字典进行检索，以获取第二页面字典中的第二Contents字典项；

对所述第二Contents字典项进行检索，以获取所述第二Contents字典项中的第二内容流。

可选地，在本实施例中，所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表，包括：

将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板，以形成XML格式的报表。

可选地，在本实施例中，所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表，还包括：

根据XML格式模板中的数据项坐标及预设的数据提取容差值确定该数据项对应的提取范围；

从该提取范围中提取该数据项的数据值。

第二方面，本申请实施例还提供一种PDF报表数据提取装置，所述装置包括：

创建模块，用于根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，其中，XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据；

数据提取模块，用于根据所述XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据；

数据录入模块，用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。

可选的，在本实施例中，所述创建模块具体用于：对所述PDF文档中的第一页面树Pages Root进行检索，以获取第一页面字典；

可选的，在本实施例中，所述数据提取模块具体用于：对所述目标PDF文档中的第二页面树Pages Root进行检索，以获取第二页面字典；

可选的，在本实施例中，所述数据录入模块具体用于：

相对于现有技术，本申请实施例具有以下有益效果：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的PDF报表数据提取方法的流程图；

图2为本申请实施例提供的报表模板的示意图；

图3为本申请实施例提供的图1中的步骤S110的流程图；

图4为本申请实施例提供的PDF格式的文档的树形层级结构图；

图5为本申请实施例提供的PDF报表数据提取装置的功能模块图。

图标：50-PDF报表数据提取装置；501-创建模块；502-数据提取模块；503-数据录入模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1为本申请实施例提供的PDF报表数据提取方法的流程图，在本实施例中，所述方法包括以下步骤：

步骤S110，根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板。

请参照图2，图2为本申请实施例提供的报表模板的示意图。在本步骤中，所述XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据。例如，在图2中，“利润表”即为报表的表头，“项目”、“本期金额”等即为各个数据项的名称。

所述PDF文档格式的报表模板在进行解析后，可根据解析结果获取到所述报表模板中报表及每个数据项的坐标。

请参照图3，在本实施例中，所述步骤S110包括以下步骤：

步骤S310，对PDF文档中的第一页面树Pages Root进行检索，以获取第一页面字典。

步骤S320，对第一页面字典进行检索，以获取第一页面字典中的第一Contents字典项。

步骤S330，对第一Contents字典项进行检索，以获取第一Contents字典项中的第一内容流。

步骤S340，根据第一内容流中的内容信息和坐标信息创建XML格式的报表模板。

其中所述内容信息包括报表的表头、各个数据项名称，所述坐标信息包括表头和各个数据项坐标。

在上述步骤中，在根据所述PDF文档格式的报表模板创建与该报表模板对应的XML格式模板时，需要对PDF文档进行解析，解析所述PDF文档后，可根据解析后的结果得到一树形层级结构图，所述树形层级结构图如图4所示，对PDF文档的第一页面树进行检索，以获取PDF文档的第一页面字典，所述第一页面字典中包含有多个表示不同类型的字段，其中，所述Contents字段中包括有PDF文档的第一内容流；根据所述第一内容流即可获得包括报表的表头、各个数据项名称的内容信息及包括表头和各个数据项坐标的坐标信息，根据所述内容信息及坐标信息即可创建XML格式模板。

在本实施例中，所述XML格式模板包括名称节点和坐标节点，其中，所述坐标节点为所述名称节点的子节点，所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板，包括：

将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中；将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。

结合参照图2，例如图2中的表头“利润表”，假设我们对此PDF文档格式的报表模板解析后得到所述“利润表”的坐标信息为(400，20)，则在所述XML格式模板中则有：

其中，所述tolerance是预设的数据提取容差值，在其他实施方式中，所述数据提取容差值还可根据需要设置为其他值。在上述例子中，title即为XML格式模板的名称节点，position即为所述XML格式模板的坐标节点。由于此处表示的是表头的名称节点及坐标节点，因此采用title作为名称节点的节点名字，表示其他数据项时，可采用其他节点名字作为该数据项的名称节点。

请继续参照图1，在本实施例中，所述PDF报表数据提取方法还包括以下步骤：

步骤S120，根据XML格式模板中各个数据项坐标，从与报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据。

在实施本步骤之前，所述方法还包括解析目标PDF的步骤，所述步骤包括以下子步骤：

对所述目标PDF文档中的第二页面树Pages Root字段进行检索，以获取第二页面字典。

多所述第二页面字典进行检索，以获取第二页面字典中的第二Contents字典项。

步骤S220，根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。

在上述步骤中，在对所述目标PDF进行解析后，可获得目标PDF中的第二内容流，所述第二内容流中包括有待提取的数据及数据的坐标。

在本实施例中，将所述第二内容流中的待提取的数据及数据的坐标写入所述XML格式模板中，即可形成XML格式的报表，该报表包括有表头、各个数据项及各个数据项对应的数据，以及表头、各个数据项及各个数据项对应的数据的坐标。

在本实施例中，所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表，还包括：

根据XML格式模板中的数据项坐标及预设的数据提取容差值确定该数据项对应的提取范围；从该提取范围中提取该数据项的数据值。

例如，在<title position＝“400,20”,tolerance＝“20,20”>利润表</title>中，tolerance＝“20,20”即为所述数据提取容差值，因此，在提取数据时，可从数据坐标为(x±20,y±20)的范围内进行数据提取。其中，所述x，y为常数，代表PDF文档中的坐标值。

请参照图5，图5为本申请实施例提供的PDF报表数据提取装置50的功能模块图，所述PDF报表数据提取装置50包括：

创建模块501，用于根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，其中，XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据；

数据提取模块502，用于根据所述XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据；

数据录入模块503，用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。

在本实施例中，所述创建模块501具体用于：

对所述PDF文档中的第一页面树Pages Root字段进行检索，以获取第一页面字典；

多所述第一页面字典进行检索，以获取第一页面字典中的第一Contents字典项；

在本实施例中，数据提取模块502具体用于：

对所述目标PDF文档中的第二页面树Pages Root字段进行检索，以获取第二页面字典；

在本实施例中，所述数据录入模块503具体用于：

可以理解的是，本实施例中的各功能模块的具体操作方法可参阅上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本申请提供了一种PDF报表数据提取方法及装置，所述方法包括：根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，其中，XML格式模板包括报表的表头、各个数据项名称，及表头和各个数据项坐标，报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据；根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据，便于对报表数据进行统计，极大的提高了报表的可识别性和灵活性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种PDF报表数据提取方法，其特征在于，所述方法包括：

根据所述XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表；

所述根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板，包括：

2.根据权利要求1所述的方法，其特征在于，所述XML格式模板包括名称节点和坐标节点，其中，所述坐标节点为所述名称节点的子节点，所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板，包括：

3.根据权利要求2所述的方法，其特征在于，在根据所述XML格式模板中各个数据项坐标，从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前，还包括解析目标PDF文档的步骤，所述步骤具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表，还包括：

从该提取范围中提取该数据项的数据。

6.一种PDF报表数据提取装置，其特征在于，所述装置包括：

数据录入模块，用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表；

所述创建模块具体用于：

7.根据权利要求6所述的装置，其特征在于，所述数据提取模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述数据录入模块具体用于：