CN105373562A

CN105373562A - 一种pdf文档注释的获取方法及装置

Info

Publication number: CN105373562A
Application number: CN201410431154.6A
Authority: CN
Inventors: 刘利川
Original assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Peking University Founder Information Industry Group Co Ltd; Peking University Founder Group Co Ltd
Current assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Peking University Founder Information Industry Group Co Ltd; Peking University Founder Group Co Ltd
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-02

Abstract

本发明提供一种PDF文档注释的获取方法及装置，其中，该方法包括：对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾Trailer字典；对所述文件尾TRAILER字典进行分析，得到键值Root对应的目录簿Catalog字典；对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。本发明的方案能够便捷、准确、高效地将PDF文档中的注释提取出来，方便用户对提取出来的注释进行后续处理。

Description

一种PDF文档注释的获取方法及装置

技术领域

本发明涉及信息抽取领域，特别是涉及一种PDF文档注释的获取方法及装置。

背景技术

注释在人们阅读PDF时，通过PDF阅读工具加入，通常是人们在阅读过程中，添加的对PDF文档某些内容的看法。这些注释对于日后的再利用具有重要的意义。同一PDF，同一内容，不同的使用者可能给出不同的注释。

而PDF格式有其鲜明的技术特色，如跨平台性优越；可集成多种媒体信息出版和发布，可集成超文本链接、声音及动态影像等电子信息；提供了对网络信息发布的支持。其中，在PDF的可信可靠，维护信息完整性与一致性及保持信息安全性上，最为使用者所称道的则是其安全性，数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。

PDF的安全性首先保证了PDF文档不能被编辑，至少不能被轻易修改，PDF格式设计的初衷不是用来编辑的，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用市场上的有关工具，也无法避开这类限制；其次可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除；注释作为一个相对独立的内容块存放在PDF文档中，由于PDF格式自身的上述特点，这导致了直接使用某些注释不大现实。

发明内容

本发明的目的是提供一种PDF文档注释的获取方法及装置，能够解决现有技术对PDF文档注释的直接使用不便的问题。

为了解决上述技术问题，本发明的实施例提供一种PDF文档注释的获取方法，其中，包括：

对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

对所述交叉索引表进行检索，得到文件尾Trailer字典；

对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典；

对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；

对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。

其中，所述对所述PDF文档的体系结构进行解析，获取PDF文档的交叉索引表的步骤包括：

对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表。

其中，所述对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典的步骤包括：

对所述Trailer字典进行分析，获取键值Root；

根据所述键值Root，获取所述键值Root对应的目录薄Catalog字典。

其中，所述对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典的步骤包括：

对所述目录薄Catalog字典进行检索，获取键值Pages；

根据所述键值Pages，获取所述键值pages对应的所述PDF文档的页面字典。

其中，所述对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释的步骤包括：

步骤a，获取所述PDF文档的页面字典中一当前页面；其中，每个页面包括页面页码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信息；

步骤b，根据键值Annots，获取当前页面的页面页码信息以及当前页面的页面内容信息中的注释信息；

步骤c，根据所述当前页面的Prev指针信息，获取所述当前页面的上一页面；其中，所述上一页面为一新当前页面；并重复步骤b，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；和/或

根据所述当前页面的Next指针信息，获取所述当前页面的下一页面；其中，所述下一页面为一新当前页面；并重复步骤b，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；

步骤d，重复步骤c中根据当前页面的Prev指针信息，获取所述当前页面的上一页面信息；其中，所述上一页面为一新当前页面；并重复步骤b，获取所述新当前页面页码信息以及所述新当前页面的页面内容信息中的注释信息的步骤，至当前页面的Prev指针信息为空；和/或

重复步骤c中根据当前页面的Next指针信息，获取所述当前页面的下一页面信息；其中，所述下一页面为一新当前页面；并重复步骤b，获取所述新当前页面页码信息以及所述新当前页面的页面内容信息中的注释信息的步骤，至当前页面的Next指针信息为空。

为了解决上述技术问题，本发明的实施例还提供一种PDF文档注释的获取装置，其中，包括：

第一获取模块，用于对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

第二获取模块，用于对所述交叉索引表进行检索，得到文件尾Trailer字典；

第三获取模块，用于对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典；

第四获取模块，用于对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；

第五获取模块，用于对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。

其中，所述第一获取模块包括：

第一获取子模块，用于对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表。

其中，所述第三获取模块包括：

第二获取子模块，用于对所述Trailer字典进行分析，获取键值Root；

第三获取子模块，用于根据所述键值Root，获取所述键值Root对应的目录薄Catalog字典。

其中，所述第四获取模块包括：

第四获取子模块，用于对所述目录薄Catalog字典进行检索，获取键值Pages；

第五获取子模块，用于根据所述键值Pages，获取所述键值Pages对应的所述PDF文档的页面字典。

其中，所述第五获取模块包括：

第六获取子模块，用于获取所述PDF文档的页面字典中一当前页面；其中，每个页面包括页面页码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信息；

第七获取子模块，用于根据键值Annots，获取当前页面的页面页码信息以及当前页面的页面内容信息中的注释信息；

第八获取子模块，用于根据所述当前页面的Prev指针信息，获取所述当前页面的上一页面；其中，所述上一页面为一新当前页面；并重复所述第七获取子模块所执行的步骤，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；和/或

第九获取子模块，用于根据所述当前页面的Next指针信息，获取所述当前页面的下一页面；其中，所述下一页面为一新当前页面；并重复所述第七获取子模块所执行的步骤，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；

第一重复子模块，用于重复所述第八获取子单元所执行的步骤，至当前页面的Prev指针信息为空；和/或

第二重复子模块，用于重复所述第九获取单元所执行的步骤，至当前页面的Next指针信息为空。

本发明的有益效果是：

本发明的方案，对PDF文档中注释的提取便捷、准确、高效，方便了用户对提取出来的注释进行后续处理。

附图说明

图1表示本发明的PDF文档注释的获取方法流程示意图；

图2表示图1中步骤15的具体步骤流程示意图；

图3表示本发明的PDF文档注释的获取装置结构示意图一；

图4表示本发明的PDF文档注释的获取装置结构示意图二；

图5表示本发明的PDF文档注释的获取装置结构示意图三；

图6表示本发明的PDF文档注释的获取装置结构示意图四；

图7表示本发明的PDF文档注释的获取装置结构示意图五。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

如图1所示，本发明的PDF文档注释的获取方法，包括如下步骤：

步骤11，对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

步骤12，对所述交叉索引表进行检索，得到文件尾Trailer字典；

步骤13，对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典；

步骤14，对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；

步骤15，对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。

其中，下面对上述步骤11至步骤13做详细说明：

若提取一PDF文档中的注释，首先，应该对PDF文档的树形层次数据结构进行解析，来获取该PDF文档中的交叉索引表；然后，通过检索该交叉索引表，得到该PDF文档的文件尾Trailer字典；最后，通过对该Trailer字典进行分析，查找键值Root，在查找到键值Root后，获取该键值Root对应的目录薄Catalog字典。该目录薄Catalog字典包含了诸多信息，如：关于页面的、页面对应的编码树、文档及PDF大纲Outlines等等。

下面将对上述步骤14做详细说明：

首先，对上述得到的该目录薄Catalog字典进行检索，获取键值Pages；然后，根据该键值Pages去获取该PDF文档的页面字典，该页面字典包含了PDF文档中的所有的页面。其中，每个页面均包含页面页码信息、页面内容信息(包含注释信息)、上一个Prev指针信息和一个下一个Next指针信息。

然后开始步骤15，对该PDF文档的页面字典进行检索，获取该PDF文档的页面的注释，具体的实现步骤，如图2所示，包括：

根据上述步骤，将整个PDF文档页面字典中的注释完整的提取出来，其中，众所周知，可扩展标记语言XML，用于结构化文档与数据，通用性、适应性好，可用于任何地方，而不仅限于WEB，实现了标识与内容的区分，从而由消费端来决定如何消化、呈现由服务端传来的信息。

XML的简单性使其易于使用，任何应用程序读、写、编辑、修改XML数据都比较容易，XML数据可以很容易加载到程序去，程序也可以很方便地对其进行分析，并可以以XML格式输出结果，这使XML很快成为数据交换的唯一公共语言。

基于XML的上述特点，我们将提取出来的PDF文档的注释以的XML文件格式进行保存，以便于后续对PDF文档目录的编辑、修改和使用。其中，

XML文档如下：

综上，本发明的方案：

便捷，在分析PDF文档格式内部结构的基础上，有针对性的开发了这种方法来抽取PDF文档中的注释，以XML方式加以存储，便于以树形结构展现出来，便于后续处理。

准确，所抽取出的注释与文档中实际存的注释一致，无偏差。

在抽取PDF注释的同时，也可抽取当前注释所对应的被注释的对象。

支持的注释类型全面，囊括了PDF支持的所有类型。

高效，对于文档中注释的抽取，占用资源少，耗时短。

应用广泛，当前PDF文档在电子文档格式中，占了很大的比例，由于PDF格式自身的特点，对后续的再加工处理及转换有很大的限制，不便于人们再利用。文中的注释提取方法在处理PDF文档注释这一方面为人们提供了一种解决方案，这种解决方案迎合了这种处理需求，市场大，需求广，也就决定了其应用前景广。

其中，由上述可知，提取出来的整个PDF文档的注释为包含与该PDF文档相关联的多个注释信息，为一个字典；而该每个注释信息也是一个字典，包括被注释的原始文本内容(页面对象)和与该被注释的原始文本内容相关联的注释项。其中，该每个注释信息中每一个注释项，以适当的形式，可能是标签，或声音或动态影像，在页面适当的位置与某些页面对象关联起来。该PDF文档的整个注释提取出来之后，用户可以根据需要，去修改、添加或使用某些注释项。其中，该字典中每一个注释项也为一个字典，包含多个子项：

一、关联对象的类型：当前注释所关联的页面对象的类型，键值Type；

二、注释的类型：当前注释的类型，键值Subtype；

三、定位信息：当前注释在指定的页面中所处的位置信息及大小，用户所使用的空间单位，键值Rect；

四、内容：当前注释的内容，键值Contents；

五、引用：对当前注释所关联的对象的引用，键值P；

六、唯一名，当前注释在所给页面中的唯一标识名，键值NM；

七、时间戳、最后一次修改的日期时间，键值M；

八、标志位：当前注释的其他属性，键值F；

九、显示特性：一个字典，定义了当前注释如何以可视化的显示出来，键值AP；

十、外观状态：当前注释所采用的外观特性，键值AS；

十一、边框：当前注释所使用的边框样式，通常是圆角矩形框，键值Border；

十二、颜色：表示注释图标背景色，当前注释弹出窗口的标题条颜色及注释连线的色彩，键值C；

十三、索引值：在结构化树中，用于检索当前注释的值，键值StructParent；

十四、可选内容：是一个可选内容组或是一个可选的成员关系表；对应于当前注释的“标志位”内容，键值OC；

键值OC记录的内容，用来控制当前注释如何操作，与键值F对应的标志对象配合使用。如是否可见，是否打印，是否锁定，是否可用(隐藏)，是否只读等。

其中，上述该每个注释信息中每一个注释项有多种类型。注释的键值Subtype对应的项即是当前注释的类型。其中，常用的类型有：

1、文本，对应的关键字Text；

2、链接，对应的关键字Link；

3、自由格式文本，对应的关键字FreeText；

4、线型，对应的关键字Line；

5、正方形，对应的关键字Square；

6、圆形，对应的关键字Circle；

7、多边形，对应的关键字Polygon；

8、折线，对应的关键字PolyLine；

9、高亮，对应的关键字Highlight；

10、下滑直线，对应的关键字Underline；

11、曲线，对应的关键字Squiggly；

12、删除线，对应的关键字StrikeOut；

13、图章，对应的关键字Stamp；

14、插入符，对应的关键字Caret；

15、涂画，对应的关键字Lnk；

16、弹出式，对应的关键字Popup；

17、文件附加，对应关键字FileAttachment；

18，声音，对应的关键字Sound；

19，动态图像，对应的关键字Movie；

20，修饰，对应的关键字Widget；

21，显屏，对应的关键字Screen；

22，图符，对应的关键字PrinterMark；

23、水印，对应关键字“Watermark”；

24、3D，对应关键字“3D”。

等多种，不同版本的PDF，其注释类型也不尽相同，需要分别对待。

在上述PDF文档中所有的注释被提取出来之后，用户可以根据键值Subtype获取一当前注释项的类型，然后便可对该类型的注释项进行内容的修改、删除、添加或对当前注释项的类型进行修改等等，直至处理完用户所需注释项。

如图3所示，本发明的实施例还提供一种PDF文档注释的获取装置，包括：

第一获取模块31，用于对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

第二获取模块32，用于对所述交叉索引表进行检索，得到文件尾Trailer字典；

第三获取模块33，用于对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典；

第四获取模块34，用于对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典；其中，所述页面字典包括：PDF文档的页面；

第五获取模块35，用于对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释。

其中，该第一获取模块31，如图4所示，包括：第一获取子模块41，用于对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表。

其中，该第三获取模块33，如图5所示，包括：

第二获取子模块51，用于对所述Trailer字典进行分析，获取键值Root；

第三获取子模块52，用于根据所述键值Root，获取所述键值Root对应的目录薄Catalog字典。

其中，第四获取模块34，如图6所示，包括：

第四获取子模块61，用于对所述目录薄Catalog字典进行检索，获取键值Pages；

第五获取子模块62，用于根据所述键值Pages，获取所述键值Pages对应的所述PDF文档的页面字典。

其中，第五获取模块35，如图7所示，包括：

第六获取子模块71，用于获取所述PDF文档的页面字典中一当前页面；其中，每个页面包括页面页码信息、页面内容信息、上一个Prev指针信息和下一个Next指针信息；

第七获取子模块72，用于根据键值Annots，获取当前页面的页面页码信息以及当前页面的页面内容信息中的注释信息；

第八获取子模块73，用于根据所述当前页面的Prev指针信息，获取所述当前页面的上一页面；其中，所述上一页面为一新当前页面；并重复所述第七获取子模块所执行的步骤，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；和/或

第九获取子模块74，用于根据所述当前页面的Next指针信息，获取所述当前页面的下一页面；其中，所述下一页面为一新当前页面；并重复所述第七获取子模块所执行的步骤，获取新当前页面页码信息以及新当前页面的页面内容信息中的注释信息；

第一重复子模块75，用于重复所述第八获取子单元所执行的步骤，至当前页面的Prev指针信息为空；和/或

第二重复子模块76，用于重复所述第九获取单元所执行的步骤，至当前页面的Next指针信息为空。

需要说明的是，该装置是与上述方法实施例对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种PDF文档注释的获取方法，其特征在于，包括：

对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

对所述交叉索引表进行检索，得到文件尾Trailer字典；

2.根据权利要求1所述的PDF文档注释的获取方法，其特征在于，所述对所述PDF文档的体系结构进行解析，获取PDF文档的交叉索引表的步骤包括：

3.根据权利要求1所述的PDF文档注释的获取方法，其特征在于，所述对所述文件尾Trailer字典进行分析，得到键值Root对应的目录簿Catalog字典的步骤包括：

对所述Trailer字典进行分析，获取键值Root；

4.根据权利要求1所述的PDF文档注释的获取方法，其特征在于，所述对所述目录薄Catalog字典进行检索，获得所述PDF文档的页面字典的步骤包括：

对所述目录薄Catalog字典进行检索，获取键值Pages；

5.根据权利要求1所述的PDF文档注释的获取方法，其特征在于，所述对所述PDF文档的页面字典进行检索，获取所述PDF文档的页面的注释的步骤包括：

6.一种PDF文档注释的获取装置，其特征在于，包括：

7.根据权利要求6所述的PDF文档注释的获取装置，其特征在于，所述第一获取模块包括：

8.根据权利要求6所述的PDF文档注释的获取装置，其特征在于，所述第三获取模块包括：

9.根据权利要求6所述的PDF文档注释的获取装置，其特征在于，所述第四获取模块包括：

10.根据权利要求6所述的PDF文档注释的获取装置，其特征在于，所述第五获取模块包括：