CN103778141A

CN103778141A - 一种混合pdf图书目录自动抽取算法

Info

Publication number: CN103778141A
Application number: CN201210404052.6A
Authority: CN
Inventors: 刘才华; 刘杰; 黄亚楼; 陈佳俊; 张啸丰
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2012-10-23
Filing date: 2012-10-23
Publication date: 2014-05-07

Abstract

本发明公开了一种混合PDF图书目录自动抽取方法，涉及信息抽取领域，XML数据的抽取分析任务，目录抽取问题。通过本发明，PDF图书目录不但被更准确的识别，而且相对目前现有的基于目录页内容分析的目录抽取方法，具有处理无目录页图书的目录的能力，而且通过获得的目录项的分析，完成了目录项的定位导航功能，并对目录项进行分级的操作，方便用户更好的理解图书的层级结构，完成了PDF图书的目录抽取建立任务，提升了用户的浏览体验。

Description

一种混合PDF图书目录自动抽取算法

技术领域

本发明涉及信息抽取领域，尤其是一种使用基于规则与机器学习相结合的混合PDF图书自动目录抽取算法。

背景技术

目前，数字出版物勃然兴起，传统图书馆向着数字图书馆转变。数字图书馆需要对图书进行整页高效的摄影或者扫描，之后再通过光学字符识别过程将图像转换为可搜索的文本。因为，光学字符识别技术生成的海量数字化图书只有非常少的结构信息，章节等高级信息没有被识别出来。所以现有的手势识别算法并不能根据章节等信息来形成目录，以帮助读者更好的定位书中的内容，从而增强浏览时的用户体验。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

现有技术目前大部分算法还是基于已有的目录页来识别章节信息，无法针对没有目录页的图书进行识别，而在传统的图书中，还是有较大一部分比例的图书没有目录。另外由于光学字符识别的过程中有大量的识别错误，单纯依赖目录页的识别性能比较低。

发明内容

本发明提供了一种基于机器学习与规则混合的PDF图书目录自动抽取算法，本发明根据PDF文件通过光学字符识别工具得到的Djvuxml文件，根据文件的固定格式，对文件进行分析，采用机器学习与基于规则的方法相结合的方法得到目录，详见下文描述：

一种于机器学习与规则混合的PDF图书自动目录抽取算法，包括：针对有目录图书的基于规则的目录抽取方法，以及针对无目录图书的使用机器学习方法的目录抽取方法。以及获得目录项之后的目录的定位以及分级操作，最终形成完整具有层级以及超链接的目录，提供阅读者良好的导航功能。

所述方法包括以下步骤：

(1)有目录的图书基于规则的目录项抽取方法

本发明针对有目录的图书利用书本中原有的目录页，采用基于规则的方式对原本目录页的内容进行分析，从而获得各个目录项。首先，需要定位目录页，其次，再抽取目录项。

定位目录页。目录页的开始一般都包含‘Contents’字样，并且该页包含很多以数字结尾的行。当然有时也会出现以‘Index’为标题的目录。通过这些特征可以定位到目录页的起始位置。由于大多数书都有页眉，因此判断接下来的页面是否为目录页的方法是查看其页面页眉是否含有‘Contents’字样，或者以数字结尾的行数占总行数的比重。由于目录一般都出现在书的前面，因此在定位目录页时，为了提高准确率并加快速度，只处理书的前半部分。

抽取目录项。抽取目录项工作的重点在于如何判断一个目录项的开始与结束。本说明中制定如下规则来判断目录项的开始：1)如果当前行的第一个单词以Chapter、Part、Volume和Book等为开头的，将其作为目录项的开始。2)如果当前行的第一个单词以数字或者罗马数字开头的，将其作为目录项的开始。3)如果上一行以数字或者罗马数字结尾的，则当前行为目录项的开始。某一个目录项的结束通常伴随着下一个目录项的开始，因此，我们很容易制定出如下规则来判断目录项的结束：1)如果下一行的第一个单词以Chapter、Part、Volume和Book等开头，则当前行为目录项的最后一行。2)如果下一行的第一个单词以数字或者罗马数字开头，则当前行为目录项的最后一行。3)如果当前行以数字或者罗马数字结尾，则当前行为目录项的最后一行。上面这些规则已经可以很好的解决大部分的问题，但是对于少部分的目录却不能很好的提取。比如，某些目录项分成三大部分，第一部分为目录项标题，第二部分为目录项的页码，第三部分为目录项的简介。如果只使用以上的规则，则上一个目录项的简介将与下一个目录项的标题和在一起，被当作当前目录项的标题。因此在上面所说的规则中，加入一条规则：若上一行没有上面说的Chapter、罗马数字等明显划分目录项的信息，并且当前行与上一行的特征差别很大时，则可以直接删除之前所收集的关于当前目录项的信息。也就是从当前行开始认为是目录项的开始，而把原来本应作为当前目录项内容的信息删除。

(2)无目录图书基于支持向量机方法的目录项抽取方法

对于不含目录的书，本发明采用机器学习的方法。因为书中的每一段要么是能被当作链接目录项的一部分，要么不能。因此，可以采用分类的方法解决该问题。本发明将该工作划分为三大部分：1.对书中的每一段进行特征抽取并进行标注，抽取的特征我们希望是能够区分目录项和非目录项的；2训练分类器并对段进行分类，在这里我们使用的是RBF-SVM分类器.；3.将分类后的段提取出来，组成目录项，并对其进行分级操作。

所述发明中特征标注与抽取。通过观察数据集，本发明发现能够被当作目录项的段，也即是段落的标题，都具有一些明显的特点。比如说字体比正文的字体大，段落的间距比正文的大，字体很多都为大写，段落包含的字数相对于普通的段少，段中每行所包含的字数也很少，居中，头一个词有些有明显的Chapter、Part字样。因此定义如下八个特征：大写字母所占比例、字体大小、最左端位置、最右端位置、段与段之间距离、段所包含的行数、段中每行字数的平均值、段出现的位置纵坐标。

所述发明中生成目录项。通过SVM对文档中的每一行进行分类之后，标记为正例的段落可能有很多种：第一种为我们期待的章节标题；第二种为页眉；第三种为错误被认为是标题的段落；第四种为一些原本不属于书中内容的污点，由于OCR过程的错误而误认为是字符的段落。如果不进行任何后处理，召回率很高但是准确率将很低。因此，在生成目录项之前，有必要对标记为正例的样本进行处理。我们首先将标记为正例的段落按出现顺序进行排列。之后进行一下步骤：1)如果某一段大部分的词都没有大写的话，则删除该正例。2)如果该段是有一个字母，并且该字母不为罗马数字，则删除该正例。3)如果某一段内容与其他段重复，则只保留第一次出现的段，删除其他。4)如果某一页出现很多正例(大于两个)，则该页可能是扉页。将该页的所有正例删除。

(3)目录项的定位

目录项的定位，即是定位每一个目录项在文档正文中对应的位置。如果再简单来说就是书目中的物理页码与逻辑页码的匹配工作(物理页码即书目中实际的页码，包含目录、封面等；而逻辑页码即文本在正文中所处的页码，从正文开始计数。)在进行逻辑页码和物理页码的匹配之前，首先需要提取每一页的逻辑页码。逻辑页码一般都是出现在页眉或者页脚部分。只要判断出连续的若干页都是第一行或者最后一行包含数字，就可以判断出逻辑页码出现的位置，之后就可以提取逻辑页码。这样提取出的逻辑页码不是很完全，因为有些页确实没有出现页码，或者很有可能OCR错误，没有识别或者识别错误该页码。因此应该对这些遗漏的和错误的页码进行处理。首先将没有逻辑页码的进行逻辑页码补全。假设第i个物理页码包含有逻辑页码L(i)，第j(j＞i)个物理页码也包含逻辑页码L(j)，并且i，j中间的逻辑页码都是缺失的，那么如果L(j)-L(i)＝j-i，也就是说中间空缺的逻辑页码刚好能够被补全，则对这些逻辑页码进行补全。进行完了上一步之后，很多丢失的逻辑页码已经补齐了。还有OCR错误的页码需要处理。由于已经出现了长串的连续逻辑页码，因此首先假定这些连续逻辑页码为正确的，通过这些连续逻辑页码来修改其他的异常页码。最后再进行一次补全操作。

(4)目录项的分级

本发明通过对数据进行分析，发现大部分书的目录中都包含比如Book、Volume、Part、Chapter等对分级很有帮助的关键字。并且分级的目录一般都包含诸如阿拉伯数字1、(1)，罗马数字I、(I)这些格式的表示分级的信息。因此本发明定义分级规则如下：

第一级：包含part、volume、book字样。

第二级：包含chapter、chap字样或罗马数字。

第三级：包含section、sect字样。

第四级：以阿拉伯数字或字母开始。

第五级：为待定级，不包含任何以上特征。该级的目录项最终属于哪一级由其上一个目录项决定。

对目录项从头到尾进行扫描，按照上面的规则对这些目录项进行分级。通过这一次扫描，只剩下那些没有特征的目录项没有被赋予级别。

本发明提供的技术方案的有益效果是：

本发明提供了一种针对PDF图书的目录自动抽取方法，采用混合的基于规则的方法与使用机器学习的方法分别处理有目录页的图书和没有目录页的图书。方法简单实用，同时具有较好的识别效率。

附图说明

图1一种混合PDF图书目录自动抽取方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了方便用户更好地浏览图书内容，了解文章的框架，本发明提出了一种混合PDF图书目录的自动抽取方法，参见图1，详见下文描述：

一种混合PDF图书目录自动抽取法，包括：本发明中，有目录的图书目录项获取方法1，无目录图书的目录抽取方法2，目录项的定位操作3，以及目录项的分级4.

参照图1，一种混合PDF图书目录自动抽取方法包括以下步骤：

101：判断图书是否具有目录页。

102：使用有目录页或者无目录页图书目录抽取方法抽取目录项。

103：定位获得的目录项，即页码匹配操作。

104：将目录项分级。

综上所述，本发明实例提供了一种针对PDF图书目录自动抽取方法，利用基于规则的方法对图书中的目录页进行理解，从而完成对于有目录页的图书的识别，对于无目录页的图书，借用有目录图书中的目录项，采用机器学习的方式，自动学习一组较好的特征来识别目录项，克服了目前无法完成的无目录图书的识别任务，同时对识别的目录项进行定位以及分级，从而抽取了更具有表达内容的目录抽取，便于阅读者的浏览。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合PDF图书自动目录抽取方法，其包括：针对有目录页图书的基于规则的目录项抽取方法，以及针对无目录页图书借助有目录页图书的基于机器学习的目录想抽取算法，以及完成目录项抽取之后，针对目录项进行的定位目录项任务以及目录项分级整理任务。

2.根据权利要求1所述的一种混合PDF图书自动目录抽取方法，其特征在于，所述方法包括：针对有目录页图书的基于规则的目录项抽取方法；

所述针对有目录页图书的基于规则的目录项抽取方法包括：定位目录页，然后根据目录页的内容采用基于规则的方式进行分析，进而获得各个目录项，所述方法在书目中的前部分采用查找包含‘Content’等与目录页相关的关键字来定位目录页；采用所述目录页中的基于规则的方式定义一个目录项的开始与结束；定义目录项的开始结束主要依赖一句是否以关键字‘Chapter’、‘Part’、‘Volume’和‘Book’以及数字罗马数字等开头。

3.根据权利要求1所述的一种混合PDF图书自动目录抽取方法，其特征在于，所述方法包括：针对无目录页图书的基于机器学习方法的目录项抽取方法；

所述针对无目录页图书的基于机器学习方法的目录项抽取方法，利用支持向量机的方法，定义了八个特征：大写字母所占比例、字体大小、最左端位置、最右端位置、段与段之间距离、段所包含的行数、段中每行字数的平均值、段出现的位置纵坐标；通过采用RBM-SVM来训练，标注数据利用有目录页的图书的目录项来生成。

4.根据权利要求1所述的一种混合PDF图书自动目录抽取方法，其特征在于，所述方法包括：目录项的定位方法；

所述目录项的定位方法即定位每一个目录项在文档正文中对应的位置，将获得的逻辑页码找到对应的物理页码；获取逻辑页码采用判断出连续的若干页都是第一行或者最后一行包含数字，就可以判断出逻辑页码出现的位置，即页眉或者页脚；再进行一次逻辑页码补全操作，补全一些没有页码或者OCR错误造成页码丢失的情况；然后根据修正的逻辑页码获得OCR过程中分配给每个PDF页的物理页码，并与相应的目录项关联。

5.根据权利要求1所述的一种混合PDF图书自动目录抽取方法，其特点在于包括目录项的分级方法；

所述目录项的分级方法通过对数据进行分析，定义五级分级规则：第一级：包含part、volume、book字样；第二级：包含chapter、chap字样或罗马数字；第三级：包含section、sect字样；第四级：以阿拉伯数字或字母开始；第五级：为待定级，不包含任何以上特征；该级的目录项最终属于哪一级由其上一个目录项决定；对目录项从头到尾进行扫描，按照规则对这些目录项进行分级。