CN109597970A

CN109597970A - 获取pdf注释信息的方法及装置

Info

Publication number: CN109597970A
Application number: CN201811486563.0A
Authority: CN
Inventors: 许德峰
Original assignee: Wanxing Polytron Technologies Inc
Current assignee: Wanxing Polytron Technologies Inc
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-04-09

Abstract

本申请提供了一种获取PDF注释信息的方法及装置，所述方法可从FDF文档中获取注释信息，通过解析FDF文档可直接获取到存储在FDF文档中存储有PDF文档的注释信息。其中，所述FDF文档数据格式是类似于PDF文档结构的数据格式类型，FDF文档格式完全兼容PDF文档格式定义的所有数据类型，且是大多数PDF阅读产品能够兼容的数据格式。在不同的PDF文档之间进行数据传递时，由于注释信息存储在与PDF文档数据结构类似的FDF文档中，使得注释信息提取更加方便且可避免产生数据失真的问题。

Description

获取PDF注释信息的方法及装置

技术领域

本申请涉及信息提取领域，具体而言，涉及一种获取PDF注释信息的方法及装置。

背景技术

注释信息是指人们在阅读过程中，通过PDF阅读工具添加的对PDF文档某些内容的看法或回复他人的看法。这些注释信息对于日后的再利用具有重要的意义。同一PDF，同一内容，不同的使用者可能给出不同的注释信息。

PDF的安全性首先保证了PDF文档不能被编辑，至少不能被轻易修改，PDF格式设计的初衷不是用来编辑的，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用市场上的有关工具，也无法避开这类限制，其次可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。

注释作为一个相对独立的内容块存放在PDF文档中，由于PDF格式自身的上述特点，这导致了直接使用某些注释信息不大现实，尤其是对PDF注释信息进行提取、传输是一件相当困难的事情。

现有技术将提取出的PDF注释信息通过XML格式存储，需要对XML格式的注释信息进行转换才能在PDF文档间进行传输，而在转换过程中就会存在数据失真的情况。

发明内容

为了解决上述问题，本申请实施例提供一种获取PDF注释信息的方法及装置。

第一方面，本申请实施例提供一种获取PDF注释信息的方法，所述方法包括：

解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，FDF文档存储有对所述PDF文档进行注释的注释信息；

在所述第一交叉索引表中进行查找，查找所述FDF文档中的第一Trailer字典；

在查找到所述第一Trailer字典后，查找所述第一Trailer字典中的第一Root字典项；

在查找到第一Root字典项后，查找所述第一Root字典项中的FDF字典项；

在查找到FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

可选地，在本实施例中，在解析FDF文档之前，所述方法还包括，从所述PDF文档中提取所述注释信息的步骤，所述步骤包括：

解析所述PDF文档，读取所述PDF文档中的第二交叉索引表；

在所述第二交叉索引表中进行查找，查找所述PDF文档中的第二Trailer字典；

在查找到第二Trailer字典后，查找所述第二Trailer字典的第二Root字典项，获取到Catalog字典；

在查找到Catalog字典后，查找所述Catalog字典的Pages字典项，获取到页面树Pages Root；

检索Pages Root得到多个页面字典，依次检索每一个页面字典，并从每一个页面字典的Annots字典项获取注释信息；

将获取到的注释信息以FDF文档的格式存储。

可选地，在本实施例中，在将获取到的注释信息以FDF文档的格式存储之前，所述方法还包括：

检索注释信息，筛选出Subtype类型为Text的注释字典项。

创建FDF文档，其中，所述FDF文档还包括文件头Header、文件体Body、第一交叉索引表及文件尾Trailer。

可选地，在本实施例中，所述创建FDF文档，包括：

在第一交叉索引表中构建第一Trailer字典；

在第一Trailer字典中创建第一Root字典项，并在第一Root字典项中创建FDF字典项；

在所述FDF字典项中创建Annots数组。

可选地，在本实施例中，所述将获取到的注释信息以FDF文档的格式存储，包括：

将所述注释信息写入Annots数组中进行保存。

第二方面，本申请实施例还提供一种获取PDF注释信息的装置，所述装置包括：

FDF文档解析模块，用于解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，FDF文档存储有对所述PDF文档进行注释的注释信息；

第一获取模块，用于在所述第一交叉索引表中进行查找，查找所述FDF文档中的第一Trailer字典；

第二获取模块，用于在查找到所述第一Trailer字典后，查找所述第一Trailer字典中的第一Root字典项；

第三获取模块，用于在查找到第一Root字典项后，查找所述第一Root字典项中的FDF字典项；

第四获取模块，用于在查找到FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

可选的，在本实施例中，所述装置还包括：

PDF注释提取模块，用于从所述PDF文档中提取所述注释信息，所述PDF注释提取模块包括：

PDF文档解析子模块，用于解析PDF文档，读取所述PDF文档中的第二交叉索引表；

第一获取子模块，用于在所述第二交叉索引表中进行查找，查找所述PDF文档中的第二Trailer字典；

第二获取子模块，用于在查找到第二Trailer字典后，查找所述第二Trailer字典的第二Root字典项，获取到Catalog字典；

第三获取子模块，用于在查找到Catalog字典后，查找所述Catalog字典的Pages字典项，获取到页面树Pages Root；

第四获取子模块，用于检索Pages Root得到多个页面字典，依次检索每一个页面字典，并从每一个页面字典的Annots字典项获取注释；

存储子模块，用于将获取到的注释以FDF文档的格式存储中。

可选的，在本实施例中，所述装置还包括：

筛选模块，用于检索注释信息，筛选出Subtype类型为Text的注释字典项。

可选的，在本实施例中，所述装置还包括：

文档创建模块，用于创建FDF文档，其中，所述FDF文档还包括文件头Header、文件体Body、第一交叉索引表及文件尾Trailer。

相对于现有技术，本申请实施例具有以下有益效果：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的获取PDF注释信息的方法的流程图；

图2是本申请实施例提供的步骤S110的子步骤流程图；

图3为本申请实施例提供的PDF文档的树形层级结构图；

图4为本申请实施例提供的创建FDF文档的流程图；

图5为本申请实施例提供的获取PDF注释信息的装置的功能模块图。

图标：50-获取PDF注释信息的装置；501-FDF文档解析模块；502-第一获取模块；503-第二获取模块；504-第三获取模块；505-第四获取模块；506-PDF注释提取模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1为本申请实施例提供的获取PDF注释信息的方法的流程图，所述方法包括以下步骤：

步骤S110，从PDF文档中提取注释信息。

在本步骤中，从所述PDF文档中提取的注释信息以FDF文档的形式存储，以使注释信息能够在不同的PDF文档中进行传递时提前注释信息更加便捷。其中，请参照图2，所述步骤S110，从PDF文档中提取注释信息，包括以下步骤：

步骤S210，解析PDF文档，读取PDF文档中的第二交叉索引表。

步骤S220，在第二交叉索引表中进行查找，查找PDF文档中的第二Trailer字典。

步骤S230，在查找到第二Trailer字典后，查找第二Trailer字典的第二Root字典项，获取到Catalog字典。

步骤S240，在查找到Catalog字典后，查找Catalog字典的Pages字典项，获取到页面树Pages Root。

步骤S250，检索Pages Root得到多个页面字典，依次检索每一个页面字典，并从每一个页面字典的Annots字典项获取注释信息。

步骤S260，将获取到的注释信息以FDF文档的格式存储。

结合图3对上述步骤S210至步骤S260进行详细说明，为了从PDF文档中提取注释信息，首先需要对PDF文档中的树形层级结构进行解析，以获取PDF文档的物理结构，其中，所述PDF文档包括文件头Header、文件体Body、第二交叉索引表及文件尾Trailer，从所述文件尾Trailer中可获取到所述第二交叉索引表的偏移位置，并通过偏移位置获取第二交叉索引表；随后，在第二交叉索引表中进行检索，获得所述PDF文档的第二Trailer字典；在获取到所述第二Trailer字典后，在所述第二Trailer字典中查找第二Root字典项，以获取Catalog字典，再检索所述Catalog字典中的Pages字典项，以获取页面树Pages Root，检索所述页面树Pages Root可获取到多个页面字典，依次检索每个页面字典，可从每个页面字典中的Annots字典项获取到注释信息。根据上述步骤可以将PDF文档中的注释信息完整的提取出，并将获取到的注释页面信息以FDF文档的格式存储，以便后续进行更改、传递和使用。

在本实施例中，在步骤S260，将获取到的注释信息以FDF文档的格式存储之前，所述方法还包括：检索注释信息，筛选出Subtype类型为Text的注释字典项。

在本步骤中，所述Annots字典项中包括多种类型的注释字典项。例如，Text表示文本类型，Link代表链接类型，Free Text表示自由文本格式等多种。在本实施例中，对文本类型的注释进行提取，并将提取出的文本类型的注释以FDF的格式存储。

在本实施例中，在步骤S260，将获取到的注释信息以FDF文档的格式存储之前，所述方法还包括：创建FDF文档，其中，所述FDF文档还包括文件头Header、文件体Body、第一交叉索引表及文件尾Trailer。

在本步骤中，为了将所述PDF中的注释以FDF文档的格式存储，需要创建一个与PDF文档同名的FDF文档以存储注释信息。

步骤S120，解析FDF文档，读取FDF文档的第一交叉索引表。

步骤S130，在第一交叉索引表中进行查找，查找FDF文档中的第一Trailer字典。

步骤S140，在查找到第一Trailer字典后，查找第一Trailer字典中的第一Root字典项。

步骤S150，在查找到第一Root字典项后，查找第一Root字典项中的FDF字典项。

步骤S160，在查找到FDF字典项后，查找FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

上述步骤S120至步骤S160描述的是如何从FDF文档中提取存储的来自PDF文档的注释信息，在步骤S110中，所述PDF文档中的注释信息已存储在FDF文档中，而为了使注释在不同的PDF文档中进行传递，则需要从FDF文档中将所述注释信息提取出来，由于所述FDF文档格式与所述PDF文档格式类似，因此从FDF文档中提取出的注释信息可直接在PDF文档中进行传递，无需进行格式更改，更叫便捷高效，同时可以避免数据失真。

请参照图4，图4为本申请实施例提供的创建FDF文档的流程图，在本实施例中，所述创建FDF文档，包括以下步骤：

步骤S410，在第一交叉索引表中构建第一Trailer字典。

步骤S420，在第一Trailer字典中创建第一Root字典项，并在第一Root字典项中创建FDF字典项；

步骤S430，在FDF字典项中创建Annots数组。

在上述步骤中，按照规定格式创建FDF文档，以存储和传递从PDF文档中提取的注释信息。

在本实施例中，所述将获取到的注释信息以FDF文档的格式存储，包括：将所述从PDF文档中提取的注释信息存储在所述Annots数组中。在后续的注释信息传递过程中，从所述Annots数组中获取的注释信息即为PDF文档中的注释信息，无需进行格式转换。

请参照图5，图5为本申请实施例提供的获取PDF注释信息的装置50的功能模块图，所述获取PDF注释信息的装置50包括：

FDF文档解析模块501，用于解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，FDF文档存储有对所述PDF文档进行注释的注释信息。

第一获取模块502，用于在所述第一交叉索引表中进行查找，查找所述FDF文档中的第一Trailer字典。

第二获取模块503，用于在查找到所述第一Trailer字典后，查找所述第一Trailer字典中的第一Root字典项。

第三获取模块504，用于在查找到第一Root字典项后，查找所述第一Root字典项中的FDF字典项。

第四获取模块505，用于在查找到FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

请继续参照图5，在本实施例中，所述获取PDF注释信息的装置50还包括：

PDF注释提取模块506，用于从所述PDF文档中提取所述注释信息。

所述PDF注释提取模块506包括以下子模块：

PDF文档解析子模块，用于解析PDF文档，读取所述PDF文档中的第二交叉索引表。

第一获取子模块，用于在所述第二交叉索引表中进行查找，查找所述PDF文档中的第二Trailer字典。

第二获取子模块，用于在查找到第二Trailer字典后，查找所述第二Trailer字典的第二Root字典项，获取到Catalog字典。

第三获取子模块，用于在查找到Catalog字典后，查找所述Catalog字典的Pages字典项，获取到页面树Pages Root。

第四获取子模块，用于检索Pages Root得到多个页面字典，依次检索每一个页面字典，并从每一个页面字典的Annots字典项获取注释。

存储子模块，用于将获取到的注释以FDF文档的格式存储中。

在本实施例中，所述获取PDF注释信息的装置50还包括：

可以理解的是，本实施例中的各功能模块的具体操作方法可参阅上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本申请提供了一种获取PDF注释信息的方法及装置，所述方法可从FDF文档中获取注释信息，通过解析FDF文档可直接获取到存储在FDF文档中存储有PDF文档的注释信息。其中，所述FDF文档数据格式是类似于PDF文档结构的数据格式类型，FDF文档格式完全兼容PDF文档格式定义的所有数据类型，且是大多数PDF阅读产品能够兼容的数据格式。在不同的PDF文档之间进行数据传递时，由于注释信息存储在与PDF文档数据结构类似的FDF文档中，使得注释信息提取更加方便且可避免产生数据失真的问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种获取PDF注释信息的方法，其特征在于，所述方法包括：

解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，所述FDF文档存储有对PDF文档进行注释的注释信息；

在查找到所述第一Root字典项后，查找所述第一Root字典项中的FDF字典项；

在查找到所述FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在所述FDF文档中的注释信息。

2.根据权利要求1所述的方法，其特征在于，在解析FDF文档之前，所述方法还包括，从所述PDF文档中提取所述注释信息的步骤，所述步骤包括：

解析所述PDF文档，读取所述PDF文档中的第二交叉索引表；

在查找到所述第二Trailer字典后，查找所述第二Trailer字典的第二Root字典项，获取到Catalog字典；

在获取到所述Catalog字典后，查找所述Catalog字典的Pages字典项，获取到页面树Pages Root；

检索所述Pages Root得到多个页面字典，依次检索每一个页面字典，并从所述每一个页面字典的Annots字典项获取注释信息；

将获取到的注释信息以FDF文档的格式存储。

3.根据权利要求2所述的方法，其特征在于，在将获取到的注释信息以FDF文档的格式存储之前，所述方法还包括：

检索所述注释信息，筛选出Subtype类型为Text的注释字典项。

4.根据权利要求2所述的方法，其特征在于，在将获取到的注释信息以FDF文档的格式存储之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述创建FDF文档，包括：

在所述第一交叉索引表中构建所述第一Trailer字典；

在所述第一Trailer字典中创建所述第一Root字典项，并在所述第一Root字典项中创建所述FDF字典项；

在所述FDF字典项中创建Annots数组。

6.根据权利要求5所述的方法，其特征在于，所述将获取到的注释信息以FDF文档的格式存储，包括：

将所述注释信息写入所述Annots数组中进行保存。

7.一种获取PDF注释信息的装置，其特征在于，所述装置包括：

FDF文档解析模块，用于解析FDF文档，读取所述FDF文档的第一交叉索引表，其中，所述FDF文档存储有对PDF文档进行注释的注释信息；

第三获取模块，用于在查找到所述第一Root字典项后，查找所述第一Root字典项中的FDF字典项；

第四获取模块，用于在查找到所述FDF字典项后，查找所述FDF字典项中的Annots数组，得到存储在FDF文档中的注释信息。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

PDF注释提取模块，用于从PDF文档中提取所述注释信息，所述PDF注释提取模块包括：

第二获取子模块，用于在查找到所述第二Trailer字典后，查找所述第二Trailer字典的第二Root字典项，获取到Catalog字典；

第三获取子模块，用于在获取到所述Catalog字典后，查找所述Catalog字典的Pages字典项，获取到页面树Pages Root；

第四获取子模块，用于检索所述Pages Root得到多个页面字典，依次检索每一个页面字典，并从所述每一个页面字典的Annots字典项获取注释；

存储子模块，用于将获取到的注释以FDF文档的格式存储中。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：