CN105447027A

CN105447027A - 一种pdf文档目录的获取方法及装置

Info

Publication number: CN105447027A
Application number: CN201410428096.1A
Authority: CN
Inventors: 刘利川
Original assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Peking University Founder Information Industry Group Co Ltd; Peking University Founder Group Co Ltd
Current assignee: FOUNDER DIGITAL PUBLISHING TECHNOLOGY (SHANGHAI) CO LTD; Peking University Founder Information Industry Group Co Ltd; Peking University Founder Group Co Ltd
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-30

Abstract

本发明提供一种PDF文档目录的获取方法及装置，其中，该方法包括：对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；对所述交叉索引表进行检索，得到文件尾TRAILER字典；对所述文件尾TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典；对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。本发明的方案能够便捷、准确、高效的将PDF文档中的目录提取出来，方便了后续对提取出来的PDF文档中的目录进行编辑和修改。

Description

一种PDF文档目录的获取方法及装置

技术领域

本发明涉及信息抽取领域，特别是涉及一种PDF文档目录的获取方法及装置。

背景技术

PDF，全称PortableDocumentFormat，即“便携文档格式”，是一种电子文档格式，这种格式与操作平台无关，跨平台特点突出，可在几乎所有的平台上使用。这一特性使它成为在Internet上进行电子文档发行和数字化信息传播的首选文档格式，越来越多的图书文献资料首选PDF作为其电子发布的形式，如电子图书、产品说明、公司公告、网络资料、电子邮件等。PDF格式已成为用于将信息数字化的一个事实上的工业标准。

PDF格式有其鲜明的技术特色，如跨平台性优越；可集成多种媒体信息出版和发布，可集成超文本链接、声音及动态影像等电子信息；提供了对网络信息发布的支持。其中，在PDF的可信可靠，维护信息完整性与一致性及保持信息安全性上，最为使用者所称道的则是其安全性，数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。

PDF的安全性首先保证了PDF文档不能被编辑，至少不能被轻易修改；其次，可通过设置权限，限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。

PDF文档只供阅读，不能被修改，确保了内容的完整性与其他特性。

PDF格式设计的初衷不是用来编辑的，对PDF文件内的小部分变动可能问题不大，但对PDF文档中的整块文字或影像的修改就相当困难，即便使用市场上的有关工具，也无法避开这类限制。

目录基本上是图书的一个必要的组成部分，也是大多数其他形式资料的重要构成成份，利用目录可快速导航到所要查看的页面，便于用户检索相关内容。对于图书的使用者来讲，其作用重大。

基于PDF格式本身的上述特点，当人们欲对PDF文档目录进行编辑和修改是不太容易实现的。

发明内容

本发明的目的是提供一种PDF文档目录的获取方法及装置，能够解决现有技术对PDF文档中的目录进行修改和编辑存在困难的问题。

为了解决上述技术问题，本发明的实施例提供一种PDF文档目录的获取方法，其中，包括：

对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

对所述交叉索引表进行检索，得到文件尾TRAILER字典；

对所述文件尾TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典；

对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。

其中，所述对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表的步骤包括：

对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表。

其中，所述对所述TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典的步骤包括：

对所述TRAILER字典进行分析，获取键值ROOT；

根据所述键值ROOT，获取所述键值ROOT对应的目录薄CATALOG字典。

其中，所述对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录的步骤包括：

对所述目录薄CATALOG字典进行检索，获取键值OUTLINES；

根据所述键值OUTLINES，获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息；

对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取，获得所述PDF文档的目录。

其中，所述对所述各目录项的父级目录项和子级目录项进行提取的步骤包括：

步骤b，根据所述各目录项的父级目录项以及子级目录项信息，获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。

其中，所述对所述各目录项的兄级目录项进行提取的步骤包括：

步骤c，获取所述目录对象中一当前目录项；其中，每个目录项包含上一个PREV指针信息和下一个NEXT指针信息；

步骤d，根据所述当前目录项的PREV指针信息，获取所述当前目录项的上一个兄级目录项；其中，所述上一个兄级目录为一新当前目录项；和/或

根据所述当前目录项的NEXT指针信息，获取所述当前目录项的下一个兄级目录项；其中，所述下一个兄弟目录项为一新当前目录项；

步骤e，重复步骤d中根据所述当前目录项的PREV指针信息，获取所述当前目录项的上一个兄级目录项；其中，所述上一个兄级目录项为一新当前目录项的步骤至当前目录项的PREV指针信息为空；和/或

重复步骤d中根据所述当前目录项的NEXT指针信息，获取所述当前目录项的下一个兄级目录项；其中，所述下一个兄级目录项为一新当前目录项的步骤至当前目录项的NEXT指针信息为空。

为了解决上述技术问题，本发明的实施例还提供一种PDF文档目录的获取装置，其中，包括：

第一获取模块，用于对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

第二获取模块，用于对所述交叉索引表进行检索，得到文件尾TRAILER字典；

第三获取模块，用于对所述文件尾TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典；

第四获取模块，用于对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。

其中，所述第一获取模块包括：

第一获取子模块，用于对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表。

其中，所述第三获取模块包括：

第二获取子模块，用于对所述TRAILER字典进行分析，获取键值ROOT；

第三获取子模块，用于根据所述键值ROOT，获取所述键值ROOT对应的目录薄CATALOG字典。

其中，所述第四获取模块包括：

第四获取子模块，用于对所述目录薄CATALOG字典进行检索，获取键值OUTLINES；

第五获取子模块，用于根据所述键值OUTLINES，获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息；

第六获取子模块，用于对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取，获得所述PDF文档的目录。

其中，所述第六获取子模块包括：

第一获取单元，用于获取所述目录对象中一当前目录项；

第二获取单元，用于根据所述各目录项的父级目录项以及子级目录项信息，获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。

其中，所述第六获取子模块还包括：

第三获取单元，用于获取所述目录对象中一当前目录项；其中，每个目录项包含上一个PREV指针信息和下一个NEXT指针信息；

第四获取单元，用于根据所述当前目录项的PREV指针信息，获取所述当前目录项的上一个兄级目录项；其中，所述上一个兄级目录为一新当前目录项；和/或

第五获取单元，用于根据所述当前目录项的NEXT指针信息，获取所述当前目录项的下一个兄级目录项；其中，所述下一个兄弟目录项为一新当前目录项；

第一重复单元，用于重复所述第四获取单元所执行的步骤至当前目录项的PREV指针信息为空；和/或

第二重复单元，用于重复所述第五获取单元所执行的步骤至前目录项的NEXT指针信息为空。

本发明的有益效果是：

本发明的方案能够便捷、准确、高效的将PDF文档中的目录提取出来，方便了后续对提取出来的PDF文档中的目录进行编辑和修改。

附图说明

图1表示本发明的PDF文档目录的获取方法流程示意图一；

图2表示本发明的PDF文档目录的获取方法流程示意图二；

图3表示本发明的PDF文档目录的获取方法流程示意图三；

图4表示本发明的PDF文档目录的获取方法流程示意图四；

图5表示本发明的PDF文档目录的获取方法流程示意图五；

图6表示本发明的具体实施例中一PDF文档的目录示意图；

图7表示本发明的PDF文档目录的获取装置结构示意图一；

图8表示本发明的PDF文档目录的获取装置结构示意图二；

图9表示本发明的PDF文档目录的获取装置结构示意图三；

图10表示本发明的PDF文档目录的获取装置结构示意图四；

图11表示本发明的PDF文档目录的获取装置结构示意图五。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

如图1所示，对本发明的PDF文档目录的获取方法包括：

步骤11，对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

步骤12，对所述交叉索引表进行检索，得到文件尾TRAILER字典；

步骤13，对所述文件尾TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典；

步骤14，对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。

本发明的方案能够便捷、准确、高效的将PDF文档中的目录提取出来。

其中，上述步骤11的步骤包括：对PDF文档的树形层次数据结构进行解析，获取所述PDF文档的交叉索引表的步骤。

其中，上述步骤13的步骤，如图2所示，包括：

步骤21，对所述TRAILER字典进行分析，获取键值ROOT；

步骤22，根据所述键值ROOT，获取所述键值ROOT对应的目录薄CATALOG字典。

其中，上述步骤14，如图3所示，包括：

步骤31，对所述目录薄CATALOG字典进行检索，获取键值OUTLINES；

步骤32，根据所述键值OUTLINES，获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息；

步骤33，对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取，获得所述PDF文档的目录。

其中该步骤33，如图4所示，包括：

步骤b，根据所述各目录项的父级目录项以及子级目录项信息，获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。该步骤，完成了对当前目录项的父级目录项和子级目录项的提取。当然，该步骤33还包括对该当前目录项的兄级目录项的提取的步骤，该步骤如图5所示，包括：

根据上述的步骤a，步骤b，步骤c，步骤d和步骤e，可完成对各目录项的父级目录项、兄级目录项和子级目录项信息进行提取，从而可获得所述PDF文档的整个目录。

为了对获取到的PDF文档的目录进行后续的修改和编辑，应当将PDF文档的目录以一种可编辑的文本格式进行保存。

众所周知，可扩展标记语言XML，用于结构化文档与数据，通用性、适应性好，可用于任何地方，而不仅限于WEB，实现了标识与内容的区分，从而由消费端来决定如何消化、呈现由服务端传来的信息。

XML的简单性使其易于使用，任何应用程序读、写、编辑、修改XML数据都比较容易，XML数据可以很容易加载到程序去，程序也可以很方便地对其进行分析，并可以以XML格式输出结果，这使XML很快成为数据交换的唯一公共语言。

基于XML的上述特点，我们将提取出来的PDF文档的目录一XML文件格式进行保存，以便于后续对PDF文档目录的编辑、修改和使用。

下面将结合附图以及具体的实施例对上述步骤11至步骤14加以详细说明：

首先，对一PDF文档的树形层次数据结构进行解析，来获取该PDF文档的一交叉索引表(也可叫内容追踪器)；然后，对该交叉索引表进行检索，来获取该PDF文档的文件尾TRAILER字典；然后，对该TRAILER字典进行分析，来获取一键值“ROOT”；然后，根据该键值“ROOT”，来获取该键值“ROOT”对应的目录薄CATALOG字典；然后对该目录薄CATALOG字典进行检索，获取一键值“OUTLINES”；然后，根据该键值“OUTLINES”，来获取该键值“OUTLINES”对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项和子级目录项信息。假如，上述根据该键值“OUTLINES”，获取到了该键值“OUTLINES”对应的如图6所示的目录对象，其中，该图6中最上面一行对应的就是通过键值“OUTLINES”得到的目录对象。该目录对象由如图6所示的各目录项组成，其中通过该键值“OUTLINES”还可以获取该目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息，比如，图中“前言”、“目录”、“第一章梦想是引领你走向成功的巨大动力”、“第二章自信为你插上腾飞的翅膀”等24项目录项，互为兄弟目录项，且该24项目录项为该图6中最上面一行的子级目录项，反过来，该图6中最上面一行为该24项目录项的父级目录项。而图6中从“一块有了愿望的石头能走多远”至“莫让梦想搁浅”者15项目录项也互为兄弟目录项，而这15项目录项也同时为“第一章梦想是引领你走向成功的巨大动力”的子级目录项，反过来说，该“第一章梦想是引领你走向成功的巨大动力”目录项，为该15项目录项的父级目录项。

在上述获取到该目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息之后，对各目录项的父级目录项、兄级目录项和子级目录项信息开始进行提取，来获得所述PDF文档的目录，具体流程如下：根据本领域技术人员所熟知手段，随机获取该目录对象中的其中一当前目录项(比如根据键值“FIRST”便可获取“前言”目录项，根据键值“LAST”，可以获取“后记”目录项等)，比如，获取到了该“第一章梦想是引领你走向成功的巨大动力”的其中一子级目录项“把梦想变成现实”，那么根据各目录项的父级目录项以及子级目录项信息，获取该“把梦想变成现实”目录项的父级目录项“第一章梦想是引领你走向成功的巨大动力”，提取；以及该“把梦想变成现实”目录项的子级目录项(若有子级目录项则都提取出来，若无，则不提取)，提取。通过上述步骤，获取到了该当前目录项“把梦想变成现实”子级目录项和父级目录项。

然后对该当前目录项“把梦想变成现实”的兄级目录项进行提取，具体的提取流程为：

由于每个目录项包括一个上一个PREV指针信息，用于指向当前目录的上一个兄级目录项和一个NEXT指针信息，用于指向当前目录的下一个兄级目录项。

根据该“把梦想变成现实”目录项的PREV指针信息，便可获取该“把梦想变成现实”目录项的上一个兄级目录项“没有什么可以阻止你实现理想”，此时该“没有什么可以阻止你实现理想”目录项为一新当前目录项，根据该新当前目录项的PERV指针信息，便可获取该新当前目录项的上一个兄级目录项“穷人最缺少的是理想”目录项，此时该“穷人最缺少的是理想”目录项又为新的一当前目录项，以此类推直至新当前目录项的PREV指针信息为NULL，该“把梦想变成现实”的目录项之前的9级目录项则提取完毕。

当然，由于“把梦想变成现实”这一目录项之后还有兄级目录项，因此可根据该目录项的NEXT指针信息，获取该目录项的下一个兄级目录项“有理想才能成功”，此时，该“有理想才能成功目录项”为新当前目录项，根据该新当前目录项的NEXT指针信息，获取该新当前目录项的下一个兄级目录项“梦想是心中永不凋谢的花”，此时该“梦想是心中永不凋谢的花”又为新的当前目录项，以此类推至新当前目录项的NEXT指针信息为NULL，该“把梦想变成现实”的目录项之前的5级目录项则提取完毕。

经过上述流程，使得该“把梦想变成现实”的全部兄级目录项提取完毕。将该目录对象中的各目录项均按照上述提取流程，对各目录项的父级目录项，兄级目录项以及子级目录项提取出来，从而完成对PDF文档整个目录的提取。

在PDF文档的目录提取出来之后，将目录以XML格式进行保存，以便于用户可以根据需要对提取出来的各目录项进行修改或者对各目录项的属性进行编辑或对目录项进行删除或增加。

其中各目录项的属性可包括：

1、目标(指向值)

当前目录项被激活时，将触发何种动作，如或打开对应的页面，或弹出另一个对话框，来修改该目录项的标题文本。

2、动作

当前目录项被激活时，要执行的动作。

3、参考元素

当前项对应的是PDF文档的第几页。

4、色彩RGB值

目录项标题文本的字体颜色信息。

5、文本风格

目录项标题文本的字体信息，包括字号、字形等等。

用户可以根据需要对提取出来的各目录项进行修改或者对各目录项的上述属性进行编辑，或对目录项进行删除或增加。

综上，本发明的方案：

便捷：在分析PDF文档格式内部结构的基础上，有针对性的开发了这种方法来抽取PDF文档中的目录，以XML方式加以存储，便于以树形结构展现出来，与用户日常接触到的目录形式一致，易于人们接受；

准确，所抽取出的目录与文档中实际存的目录一致，无偏差。

高效，对于文档中目录的抽取，占用资源少，耗时短。

应用广泛，当前PDF文档在电子文档格式中，占了很大的比例，由于PDF格式自身的特点，对后续的再加工处理及转换有很大的限制，不便于人们再利用。文中的目录提取方法在处理PDF文档目录这一方面为人们提供了一种解决方案，这种解决方案迎合了这种处理需求，市场大，需求广，也就决定了其应用前景广。

如图7所示，本发明的实施例还提供一种PDF文档目录的获取装置，其中，包括：

第一获取模块71，用于对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

第二获取模块72，用于对所述交叉索引表进行检索，得到文件尾TRAILER字典；

第三获取模块73，用于对所述文件尾TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典；

第四获取模块74，用于对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。

其中，该第一获取模块71包括：

其中，如图8所示，该第三获取模块73包括：

第二获取子模块81，用于对所述TRAILER字典进行分析，获取键值ROOT；

第三获取子模块82，用于根据所述键值ROOT，获取所述键值ROOT对应的目录薄CATALOG字典。

其中，如图9所示，该第四获取模块74包括：

第四获取子模块91，用于对所述目录薄CATALOG字典进行检索，获取键值OUTLINES；

第五获取子模块92，用于根据所述键值OUTLINES，获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息；

第六获取子模块93，用于对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取，获得所述PDF文档的目录。

其中，如图10所示，该第六获取子模块93包括：

第一获取单元101，用于获取所述目录对象中一当前目录项；

第二获取单元102，用于根据所述各目录项的父级目录项以及子级目录项信息，获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。

其中，如图11所示，该第六获取子模块93还包括：

第三获取单元111，用于获取所述目录对象中一当前目录项；其中，每个目录项包含上一个PREV指针信息和下一个NEXT指针信息；

第四获取单元112，用于根据所述当前目录项的PREV指针信息，获取所述当前目录项的上一个兄级目录项；其中，所述上一个兄级目录为一新当前目录项；和/或

第五获取单元113，用于根据所述当前目录项的NEXT指针信息，获取所述当前目录项的下一个兄级目录项；其中，所述下一个兄弟目录项为一新当前目录项；

第一重复单元114，用于重复所述第四获取单元所执行的步骤至当前目录项的PREV指针信息为空；和/或

第二重复单元115，用于重复所述第五获取单元所执行的步骤至前目录项的NEXT指针信息为空。

需要说明的是，该装置是与上述方法实施例对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种PDF文档目录的获取方法，其特征在于，包括：

对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表；

对所述交叉索引表进行检索，得到文件尾TRAILER字典；

对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录。

2.根据权利要求1所述的PDF文档目录的获取方法，其特征在于，所述对PDF文档的体系结构进行解析，获取PDF文档的交叉索引表的步骤包括：

3.根据权利要求1所述的PDF文档目录的获取方法，其特征在于，所述对所述TRAILER字典进行分析，得到键值ROOT对应的目录簿CATALOG字典的步骤包括：

对所述TRAILER字典进行分析，获取键值ROOT；

4.根据权利要求1所述的PDF文档目录的获取方法，其特征在于，所述对所述目录簿CATALOG字典进行检索，获得所述PDF文档的目录的步骤包括：

对所述目录薄CATALOG字典进行检索，获取键值OUTLINES；

5.根据权利要求4所述的PDF文档目录的获取方法，其特征在于，所述对所述各目录项的父级目录项和子级目录项进行提取的步骤包括：

6.根据权利要求4所述的PDF文档目录的获取方法，其特征在于，所述对所述各目录项的兄级目录项进行提取的步骤包括：

7.一种PDF文档目录的获取装置，其特征在于，包括：

8.根据权利要求7所述的PDF文档目录的获取装置，其特征在于，所述第一获取模块包括：

9.根据权利要求7所述的PDF文档目录的获取装置，其特征在于，所述第三获取模块包括：

10.根据权利要求7所述的PDF文档目录的获取装置，其特征在于，所述第四获取模块包括：

11.根据权利要求10所述的PDF文档目录的获取装置，其特征在于，所述第六获取子模块包括：

第一获取单元，用于获取所述目录对象中一当前目录项；

12.根据权利要求10所述的PDF文档目录的获取装置，其特征在于，所述第六获取子模块还包括：