CN102541929B

CN102541929B - 提取版式文档目录的方法及装置

Info

Publication number: CN102541929B
Application number: CN201010615308.9A
Authority: CN
Inventors: 董宁; 徐剑波; 黄文娟
Original assignee: Founder Information Industry Holdings Co Ltd; Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd
Priority date: 2010-12-22
Filing date: 2010-12-22
Publication date: 2014-04-02
Anticipated expiration: 2030-12-22
Also published as: CN102541929A

Abstract

本发明提供了一种提取版式文档目录的方法及装置。根据本发明的提取版式文档目录的方法包括：查找页面中的页码块；提取页码块所在行的文本串；将所提取的文本串与正文章节标题匹配；根据匹配成功率判断所述页面是否为目录页；以及提取被判断为目录页的页面的目录条目。通过匹配成功率判断所述页面是否目录页，提高了提取目录页条目相关信息的效率以及成功率。

Description

提取版式文档目录的方法及装置

技术领域

本发明涉及版式文件处理技术领域，更具体地说，本发明涉及一种提取版式文档目录的方法及装置。

背景技术

数字版式文档的目录页是文档组成单元的一个提纲，能够直观地展现文档树形层次结构。

中国专利申请200810119333.0公布了一种自动识别数字文档目录的方法及装置。该方法基于目录页的属性信息自动识别数字文档的目录，并利用聚类的方法对折行进行处理。其优点是根据目录页面的属性信息提取到目录页条目；缺点是不能很好的适应数字文档的排版方式的多样性。

在梁莹等人提出的海蓝目录自动识别系统的设计(参见：梁莹、施善旦.海蓝目录自动识别系统的设计，广西科学院学报，2004，(4))中，根据目录的缩进量作为目录层次的判断依据，再通过目录提取和人工校正得到目录格式，其优点是能够提取多种格式的书籍目录结构，但是该方案的缺点是不能有效地处理没有缩进量的目录页。

在陈国光等人提出的一种基于规则的图书逻辑结构提取算法(参见：陈国光，丁晓青，彭良瑞.一个基于规则的图书逻辑结构提取算法，计算机工程与应用，2002，(19))中，基于规则的方法提取书籍中的逻辑元素和各元素间的关系，得到图书的逻辑结构，其优点是根据目录页文本行的各种语义模式提取目录条目，但是该方案的缺点是标题和正文的特征近似时不能有效的提取条目。

综上所述，数字版式文档的目录识别和目录条目提取主要利用目录页的特征、建立识别模型，然而，在文档资料的数字化过程中，目录页的页面性质以及格式特征之多是难以穷尽的，所以背景技术的上述方法均存在其局限性。因此，希望提出一种能够更有效地提取目录页条目相关信息的方法。

发明内容

本发明的一个目的是提供一种能够更有效地提取目录页条目相关信息的方法及装置。

根据本发明的第一方面，提供了一种提取版式文档目录的方法，包括：查找页面中的页码块；提取页码块所在行的文本串；将所提取的文本串与正文章节标题匹配；以及根据匹配成功率判断所述页面是否为目录页；并提取被判断为目录页的页面的目录条目。

通过匹配成功率判断所述页面是否目录页，提高了提取目录页条目相关信息的效率以及成功率。

在上述提取版式文档目录的方法中，查找页面中的页码块的步骤包括：提取页面中的数字块；查找数字块中的页码块；记录页码块的数目；按照页码块的非数字内容的一致性、或数字和字符的间距的一致性进行聚类分析；针对每个聚类分别进行垂直投影，查看页码块的列信息是否存在分栏现象；以及确定页码块在所在行的位置。其中，所述页码块的类型包括但不限于：数字、数字-字符的组合、字符-数字的组合、字符-数字-字符的组合、以及数字-字符-数字的组合。

在上述提取版式文档目录的方法中，提取被判断为目录页的页面的目录条目的步骤包括：将被判断为目录页的页面中的页码块所在行的文本串、以及所述文本串的折行中的文本串提取为目录条目。

在上述提取版式文档目录的方法中，根据匹配成功率判断所述页面是否为目录页的步骤包括：相对于页码块的数目，如果匹配成功率大于预定的第一比值，则判定所述页面为目录页。

在上述提取版式文档目录的方法中，根据匹配成功率判断所述页面是否为目录页的步骤还包括：将所述预定的第一比值设置为不小于二分之一。

在上述提取版式文档目录的方法中，根据匹配成功率判断所述页面是否为目录页包括：相对于页码块的数目，如果匹配成功率大于预定的第二比值，并且页码块的数目大于页面所包含的行数的预定的第三比值，则判定所述页面为目录页。

在上述提取版式文档目录的方法中，根据匹配成功率判断所述页面是否为目录页的步骤还包括：将所述预定的第二比值设置为0.15，将预定的第三比值设置为0.6。

根据本发明的第二方面，提供了一种提取版式文档目录的方法，包括：搜索步骤，用于根据关键字从版式文档的第一页开始搜索文档；首页判定步骤，用于在搜索到关键字时将当前页面判定为目录页的首页；以及目录页识别步骤，用于根据本发明的第一方面所述的方法从判定出的所述首页开始依次判断版式文档的后续页面是否为目录页。

在上述提取版式文档目录的方法中，所述搜索步骤包括：将关键字设置为与目录有关的文字。

在上述提取版式文档目录的方法中，在判断出存在目录页后，若目录页识别步骤中判定出页面不是目录页时，则将当前页面的上一页面判定为目录页的尾页。

也就是说，根据本发明的第一方面和第二方面，目录页的识别确定方法分为2种情况：

①先在候选页中搜索预定义关键字，如果搜索到预定义关键字，则此页是目录页，再提取此页中的页码块，根据页码块提取目录条目。预定义关键字包括：目录、Contents等。

②若未搜索到预定义关键字，则查找页面中的页码块；提取页码块所在行的目录条目；将所提取的目录条目中所包含的文本串与正文章节标题匹配；根据匹配成功率判断所述页面是否为目录页。

在本说明书中，目录条目仅包含文本串而不包含页码。

根据本发明的第三方面，提供了一种版式文档目录提取装置，用于执行根据本发明的第一方面或第二方面所述的方法。具体地说，实际上这些模块可用于分别执行上述步骤和/或下文中所描述的各个流程中的各个步骤。

附图说明

图1是根据本发明实施例的根据预定义关键字确定目录页开始页的流程图；

图2是根据本发明实施例的分析目录页开始页的流程图；

图3是根据本发明实施例的确定页码块的流程图；

图4是根据本发明实施例的提取单栏及多栏目录页条目的流程图；

图5是根据本发明实施例的提取页码块混排的目录页条目的流程图；

图6是根据本发明实施例的分析目录页的结束页的流程图，

图7是单栏目录的示意图；

图8是多栏目录的示意图；

图9是混排目录的示意图；

图10示出了根据本发明实施例的目录提取装置的示意图；以及

图11是具有双页码块的目录的示意图。

注意，附图用于说明本发明，而非限制本发明。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

本发明针对数字版式文档中已经存在的目录进行目录页的定位，进而提取目录条目。版式文档是指由“word”、“写字板”之类编辑工具制作的符合版式文档格式规范的文档，如PDF版式文档格式等。本发明利用数字文档的内在版面布局信息及页码和条目之间的关系提取目录页条目。并且，本发明利用数字块(具体地说是数字块中的页码块)在目录条目中的位置及条目与正文中的章节标题的匹配关系确定折行的归属情况。下面将对本发明做出详细说明。

为了更清楚的解释本发明，首先对相关术语解释如下。

在本发明中，术语“模式匹配”指的是对于给定的两个串T和P，在T中寻找等于P的子串的过程。本发明是根据预置的页码块类型由提取的数字块的类型来确定该数字块是否是页码块。

术语“聚类分析”的含义是：根据一定规则将数据分为一系列有意义的子集，同一聚类中，个体之间的差距较小，不同聚类中，个体之间的距离偏大。也就是说，把特征相同或近似的数据聚集成类。在本发明中，根据每一分类中的数字块的非数字内容是否相同或非数字内容和数字的间距是否一致进行聚类。

“投影分析”，其中投影分为水平投影和垂直投影，本发明采用的是垂直投影，也就是将页码块向水平方向做投影，这样可以获取投影区域，用于判断此页的排版方式为单栏或多栏。

分栏的确定方法为：①对聚类中的数字块进行垂直投影，即统计各数字块在列方向上的区间范围；②过滤过小的区间间距，即若两数字块在列方向上的距离小于数字块字号的3.2倍，则将两数字块的间距过滤掉；③若区间范围为2个或以上，则为排版方式为多栏。

术语“大纲列表”是指正文中的章节标题的集合，本发明利用其中的条目和目录条目进行匹配，来确定是否是目录页。

在本发明中，折行归属的确定利用页码在行中的位置及条目与正文中的章节标题的匹配，即：将折行和其上一行组合在一起，若和正文标题匹配成功，则折行归属上一行；否则将折行和其下一行组合在一起、并在组合后与正文标题进行匹配，若组合后和正文标题匹配成功，则折行归属下一行，否则(即，组合后与正文标题匹配不成功时)判断折行为单独的目录条目。例如，图7中的“成功的学习法”实际上是属于上一行“第一章”的折行。

图1是根据本发明实施例的根据预定义关键字确定目录页开始页的流程图。图10示出了根据本发明实施例的目录提取装置的示意图。如图10所示，根据本发明实施例的目录提取装置例如可包括：数字块查找模块、文本串提取模块、匹配模块、判断模块、搜索模块、以及目录页判定模块。

需要说明的是，模块的划分仅仅为了清楚的表示本发明，实际上，上述模块中，多个模块的功能可合并由一个模块实现，一个模块的功能可以划分为多个模块实现，或者多个模块的部分功能可提取出来由一个或多个模块实现。本发明所要求保护的装置应该被广义地理解为能够通过硬件、软件或者硬件与软件的组合来实现上述方法的任何装置。

在图1的流程中，首先在步骤S11，根据数字版式文档的总页数，从第一页开始向后确定总页数一定比例的页数N作为候选目录页。

然后，在步骤S12，利用搜索模块，根据数字版式文档的关键字信息，在所述目录候选页中确定目录页的开始页。

具体地说，在候选目录页中查找到诸如“目录”、“Contents”之类的关键字，若找到则进入步骤S15，停止在候选页的搜索，利用目录页判定模块将具有关键字的页面作为目录页的起始页面。

如果在当前页i(i小于N)中未找到，则在步骤S14中使得i递增1，并利用例如判断模块来判断增大后的数值是否超过数值N；如果未超过数值N，再次进入步骤S12以判断是否查找到诸如“目录”、“Contents”之类的关键字，如此循环进行。

如果在i等于N时仍未定位到目录页开始页(步骤S16)，可以进一步设置这样的流程：若当i增大至等于N时仍未找到关键字，则从数字文档的第一页开始逐页地对候选页面的属性进行分析，来判断是否是目录页，属性信息包括：在行首、行尾或行中的页码；页码所在行的信息和正文中的章节标题的匹配成功率。所述匹配方法将在下文中详细描述。

如果定位到目录页开始页，则执行图2所示的流程。现在参见图2，图2是根据本发明实施例的分析目录页开始页的流程图。

首先，在步骤S22，分析所述目录页的起始页面，随后在步骤S22利用数字块查找模块提取目录页的数字块，然后在步骤S23利用数字块查找模块剔除非页码块类型的数字块，从而随后步骤中的剩余的数据块即页码块。

提取目录页的数字块具体包括：将页面信息按行划分，并剔除不在版心区域内的行块，逐行查找数字块，通过数字块模式匹配去除不是页码块的数字块，即去除不是下述预定义的页码块类型的数字块。页码块的类型包括但不限于：数字、数字-字符的组合、字符-数字的组合、字符-数字-字符的组合、以及数字-字符-数字的组合。

例如，图8中的“1.”表示“数字——字符类型”，“1-1”表示“数字——字符——数字类型”，“1.”、“1-1”等均是数字块，更具体地说都属于页码块。

虽然现有技术已有的一些方式来查找页面中的页码块。例如论文“Sherif Yacoub；Jose Abad Peiro的Identification of document structureand table of content in magazine archives，发表在Proceedings of the 2005Eight International Conference on Document Analysis and Recognition(ICDAR’05)，页码1253-1257”中公开了，综合利用标题匹配、章节关键字匹配和数字等页面信息实现目录页的定位。论文中的目录页的数字抽取依据为：数字通常在文本行的开始或结束，而不是在文本中间，通常和文本域分开，其中页码通常是2-3位。但是，该文献所公开的技术方案与本发明不同之处在于，所公开的方法是利用标题匹配、章节关键字匹配和页码之一来定位目录页；而且，其提取页码的方式也和本发明不同，所述文献是在固定的行首和行尾查找页码，且页码只能是2-3位，而本发明是通过提取版面上所有的数字，从数字中挑选出页码。

在步骤S23之后，分析页码块的页面信息，利用文本串提取模块确定页码块所在行的目录条目，例如，在获取图7所示的页码块“/2”之后，进一步确定页码块“/2”所在行的目录条目“坚持到最后才能真正成功”，实际上目录条目的内容可能是一个文本串，例如“坚持到最后才能真正成功”即是一个文本串。术语“文本串”应当被广义地理解为包含任意具有文本含义的字符的字符串。

由此，在步骤S24中，可利用匹配模块将所述提取的页码块按照匹配模式进行分类。

在每个分类中，若页码块中的数字值(例如“/2”中的“2”)不大于书籍的总页数，则在步骤S25中按照页码块的非数字内容的一致性或数字和字符的间距的一致性进行聚类分析。

本发明利用已知的任何一种适当的聚类分析来执行页码块的特征信息进行聚类分析。在本发明中，页码块的特征信息包括：页码块的非数字内容的一致性或数字和字符的间距的一致性。

在本发明中采用的聚类分析过程可描述为：

①建一个聚类集合，用于存放各类型的页码块。

②新建一个聚类，取出页码块分类中的一个数字块加入到聚类中，并作为聚类中心，该聚类的类型为该页码块的类型。

③若数字块分类的类型不是数字类型，依次检查聚类集合的聚类类型是否与分类中的数字块的类型相同。若类型相同，则判断分类中的数字块与聚类中心是否满足下述条件之一。若满足，则将分类中的数字块加入到聚类中，由于数字块的特征没有改变，所以不用修正聚类中心，否则建立新的聚类类型，并将该分类中的数字块加入到该新的聚类中，该聚类的类型为数字块的类型。若类型不相同，建立新的聚类类型，并将该分类中的数字块加入到新的聚类中，该聚类的类型为数字块的类型。其中条件指的是：条件1：相应位置的字符相同；条件2：相应位置的数字和字符的距离相同。

随后，在步骤S26中，对每个聚类分别进行垂直投影，确定页码块的列信息是否存在分栏现象。

分栏的确定方法为：①对各聚类类型的页码块进行垂直投影，即统计各聚类类型的页码块在列方向上的区间范围；②过滤掉过小的区间间距，即若两聚类类型的页码块在列方向上的距离小于页码块字号的3.2倍，则将两聚类类型的页码块的区间间距过滤掉；③若存在2个或以上的区间范围，则排版方式为多栏，存在分栏现象。

若存在分栏现象，则对落入每一栏中的(即处于每一区间范围中的)页码块进行分类分析，将页码块按照阅读顺序排序，查看页码块是否存在数字连续现象，若存在，则在步骤S27将此栏中的页码块删除；这是因为，由于多数书籍的页码都是不连续的，若连续也是少数的。删除连续的诸如“第1张”、“1.1”等之类的页码块，有利于页码块的确定。

若剩下的数字块的类型数量大于2个，则进行双页码块(双页码块表示包含两个页码的页码块，例如图11所示的“1-7”、“8-22”等)的现象分析。若任意两个页码块的类型相同，同行并且两页码块间的间距在一定的范围内，则在步骤S28中将两个页码块合并成一个页码块。若页码块分类的类别不小于2，则统计各数字块类中的数字块类型的数目，保留出现数字块类型最多的数字块类，确定目录条目的页码块。

需要解释的是，其中，数字块分类分析指的是：由于所述提取的数字块包括数字的前后非数字字符，按照所述的数字块模式匹配类型，将类型相同的数字块分到一类中，这样可以通过下面的分析，确定页码块的类型。

其中，数字块聚类分析指的是：若数字块中的数字值不大于书籍的总页数，则按照数字块的非数字内容的一致性或数字和字符的间距的一致性进行聚类分析。这样可以更加细化数字块的类别。

其中，数字块的投影分析指的是：将数字块做垂直投影，根据投影分析，查看数字块的列信息是否存在分栏现象，若存在分栏现象，则将落入每一栏中的数字块进行分类分析；然后进行一次“分类分析”：将数字块按找阅读顺序排序，查看数字块是否存在数字连续现象，若存在，则将此类中的数字块删除。若剩下的数字块的类别的个数大于2个，则进行双页码块的现象分析。若两个类中的数字块类别相同，同行，并且两数字块间的间距在一定的范围内，则将两个数字块合并成一个数字块。若数字块分类的类别不小于2，则查找各类中的数字块的类别最多的类别，删除不是该数字类别的数字块类。确定页码块。

可以看出，本发明中有2处用到分类：①对于提取到的数字块，按照预定义的页码块类型进行分析；②在上述的投影分析中也用到了分类分析。

随后在步骤S29中，确定页码块在所在行的位置。目录页中的页码块的位置包括，页码块在目录条目的首部、尾部或中间。

在步骤S30中，提取页码块的目录条目，与正文章节标题块进行内容匹配，以提取目录条目信息。

根据页码块的投影，可以判定目录页的排版方式为单栏或多栏，单栏的情况又包括：前后两个页码块的位置关系不同行、页码块在行中间、前后两个页码块的位置关系同行。

若排版方式为单栏，并且所有的页码块都不同行。若页码块的位置在行中，则提取页码块前面的目录条目，将其与正文章节标题匹配，即目录条目若匹配成功率大于页码块数目的一半以上，则设置页码块在行的尾部，否则设置页码块在行的首部。根据页码块的位置，提取页码块所在行的目录条目，并与正文章节标题匹配，若满足下述条件之一，则继续查找折行的归属情况，根据折行的归属情况，记录完整的目录条目。条件包括如下：

条件1：若匹配成功率大于页码块的数目乘以一定值或比例(例如0.5或0.6等)；

条件2：若匹配成功率大于较小比例(例如0.15)的页码块数目，并且页码块的数目大于行数乘以一定值或比例(例如0.5或0.6等)。

本发明的一个实施例中，一定值或比例设置为0.6，较小比例设置为0.15。并且，不同可以通过对多张样例的测试，设置这两个阈值；而且可以根据情况，比如，本应是目录的页面没有被识别成目录页，调整此阈值。

若排版方式为单栏，并且存在2个及其以上的页码块同行，则判断页码块在其所在行的位置。若页码块的位置为行首，则前后两个相邻的页码块之间的目录条目属于前一个页码块，若此页码块和下一页码块不同行，将和此页码块同行的文字归入此页码块条目，下一行的文字字体信息若和此页码块同行的文字字体信息一致，则将下一页码块之前的文字作为此页码块的条目，再处理最后一个页码块的条目。若页码块的位置为行尾，则前后两个相邻的页码块之间的目录条目属于后一个页码块，折行处理办法同页码块在行首的一样。再处理首个页码块的条目，以及首个页码块所在行以上的非页码块行。

当页码块在目录条目行首时，本发明将前后两个相邻的页码块之间的文本串作为一个目录条目，其页码为前一个页码块内容。对于获取最后一个页码块所对应的目录条目的方法为：

判断页码块所在行的字体信息和折行的字体信息是否相同，若相同，则将与页码块同行且在页码块之后的文本串和折行的文本串作为一个目录条目，否则，将与页码块同行且在页码块之后的文本串作为一个目录条目。

当页码块在目录条目行尾时，本发明将前后两个相邻的页码块之间的文本串作为一个目录条目，其页码为后一个页码块内容。对于获取第一个页码块所对应的目录条目的方法为：

判断页码块所在行的字体信息和折行的字体信息是否相同，若相同，则将与页码块同行且在页码块之前的文本串和折行的文本串作为一个目录条目，否则，将与页码块同行且在页码块之前的文本串作为一个目录条目。

对于没有提取为目录条目的折行的处理：

检查前后两个折行的位置是否属于上下行的近邻关系，

①若近邻，则检查其字体信息是否相同，若相同，则以后一折行作为当前行，查看与其后一折行的位置关系和字体信息，将折行近邻的且字体信息相同的折行作为一个完整的目录条目，字体信息不同，则不是同一个目录条目。

②若不近邻，则前一个折行就是一个目录条目。

若排版方式为多栏，在步骤S30中，根据页码块在行中的位置提取目录条目，将每栏的页码块所在行的目录条目与正文章节标题匹配。若满足下述条件之一，则在步骤S31继续查看两个页码块之间存在非页码块行，即折行，若存在，则判断折行的归属情况，并在步骤S32中记录完整的目录条目。条件包括如下：

条件1：若匹配成功率大于页码块的数目乘以一定值或比例；

条件2：若匹配成功率大于较小比例的页码块数目，并且页码块的数目大于行数乘以一定值或比例。

本发明的一个实施例中，一定值或比例设置为0.6，较小比例设置为0.15。并且，不同可以通过对多张样例的测试，设置这两个阈值；而且可以根据情况，比如，本应是目录的页面没有识别成目录页，调整此阈值。

现在参见图4，图4是根据本发明实施例的提取单栏及多栏目录页条目的流程图。图7是单栏目录的示意图；图8是多栏目录的示意图。

首先，在步骤S401，根据页码块的投影区域和页码块在行中的位置，提取和页码块同栏的原始块。在步骤S402，查找与原始块同栏的页码块。并在步骤S403将其合并成行。

由于原始块都是独立的且是无序的，要将原始块按照阅读顺序排列。本发明将原始块合并成行，就是将原始块按照原始块阅读顺序排列成行。

在步骤S404，查找页码块所在的行。随后，在步骤S405，根据页码块在行中的位置将行拆分为文本串和页码。

之后，在步骤S406中，将页码块所在行的文本串与正文章节标题匹配；即将页码块所在行的文本串同大纲列表(正文中的章节标题的集合)的条目匹配。具体地说，可以将文本串与正文章节标题匹配。

在步骤S407中利用匹配模块进行判断，若满足下述两个条件之一，则继续查找两个页码块之间存在非页码块行属于上页码块行的折行或下页码块行则根据折行的归属情况，记录完整的目录条目，即若折行属于其前一行，则记录目录条目为前一行的文本串和折行的文本串；若折行属于其后一行，则记录目录条目为折行的文本串和后一行的文本串。体地说，进入步骤S408以判断是否存在折行，如果存在，则进入步骤S409判断折行归属于其上页码块行或下页码块行、或为单独的目录条目。随后流程进入步骤S410。如果步骤S408中判断是不存在折行，流程进入步骤S410。

本发明中对于没有数字块的行都统称为折行。

在步骤S410中，根据页码块及折行的归属提取目录条目，流程随后进入步骤S411以分析下一页。并且，如果步骤S407中的条件不被满足，即该页不是目录页，流程进入步骤S411以分析下一页。

现在参见图5，图5是根据本发明实施例的提取页码块混排的目录页条目的流程图，图9是混排目录的示意图。

在步骤S501中，根据页码块的投影区域和页码块在行中的位置，提取和页码块同栏的原始块(文本串)。在步骤S502中，将其合并成行。在步骤S503中，根据页码块在行中的位置关系确定两个页码块之间的文本串是归属于前一个还是后一个页码块。若两个页码块不同行，根据文本串的字体信息判断是属于前一个页码块还是后一个页码块，或单独为一个目录条目。在步骤S504中，统计页码块类中页码块的个数N。在步骤S505中，获取第j个页码块所在行(其中，j初始化为0)。在步骤S505，根据页码块在行中的位置将行拆分为文本串和页码。之后，在步骤S507中，将提取的目录条目与正文章节标题匹配。

在步骤S508中利用模式匹配判断匹配是否成功。如果不成功，流程进入步骤S510。如果匹配成功，在步骤S509将匹配成功个数nMatchResult加1。随后，在步骤S510，使得j递增1。在步骤S511中判断j是否小于N。如果j小于N，流程回到步骤S505。如果j不小于N，流程进入步骤512。

在步骤S512中判断，满足下述条件之一，在步骤S513获取非页码块属于上页码行或下页码块行或为单独的目录条目的信息(即折行属于其前面一行的页码块行、还是属于后面一行的页码块行、还是为单独的目录条目)，并在步骤S514记录目录条目。所述条件同样可以是：条件1：若匹配成功率大于页码块的数目乘以一定值或比例；条件2：若匹配成功率大于较小比例的页码块数目，并且页码块的数目大于行数乘以一定值或比例。

本发明的实施例中，一定值或比例可以设置为0.6，较小比例可以设置为0.15。

现在参见图6，图6是根据本发明实施例的分析目录页的结束页的流程图。

在步骤S61分析目录页的下一页。在步骤S62提取页面中的页码块。

在步骤S63根据目录开始页(即目录首页)分析出来的页码块的类型筛选出此页的页码块，根据目录开始页的投影分析和折行的归属等特征确定此页的页码和折行的归属，提取此页目录条目的方法和提取目录页条目的方法相同。即，若确定目录页的开始页，根据分析的目录开始页的信息(包括：页码块类型，页码块在行上的位置，页码块的投影信息，折行归属)，提取下一页的目录条目。

在步骤S64，利用匹配模块将目录条目与正文章节标题匹配。

在步骤S65利用匹配模块进行判断，若满足下述条件之一，判断出此页为目录页，流程回到步骤S61。所述条件同样可以是：条件1：若匹配成功率大于页码块的数目乘以一定值或比例；条件2：若匹配成功率大于较小比例的页码块数目，并且页码块的数目大于行数乘以一定值或比例。同样，本发明的实施例中，一定值或比例设置为0.6，较小比例设置为0.15。

若没有提取到页码块或匹配成功率不高，则判断出该页不是目录页，其上一页为目录页的结束页。

本领域技术人员可以理解的是，本发明不但适用于中文目录页的提取，也适合其它语言的目录页提取。

对于本领域技术人员来说明显的是，可在不脱离本发明的范围的情况下对本发明进行各种改变和变形。本领域技术人员可以理解的是，所描述的实施例仅用于说明本发明，而不是限制本发明；本发明并不限于所述实施例，而是仅由所附权利要求限定。

Claims

1.一种提取版式文档目录的方法，其特征在于包括：

查找页面中的页码块；

提取页码块所在行的文本串；

将所提取的文本串与正文章节标题匹配；

根据匹配成功率判断所述页面是否为目录页；以及

其中，所述查找页面中的页码块的步骤包括；

提取页面中的数字块；

查找数字块中的页码块；

按照页码块的非数字内容的一致性、或数字和字符的间距的一致性，进行聚类分析；

针对每个聚类分别进行垂直投影，查看页码块的列信息是否存在分栏现象；以及

确定页码块在所在行的位置。

2.根据权利要求1所述的提取版式文档目录的方法，其特征在于，其中根据匹配成功率判断所述页面是否为目录页的步骤包括：相对于页码块的数目，如果匹配成功率大于预定的第一比值，则判定所述页面为目录页。

3.根据权利要求2所述的提取版式文档目录的方法，其特征在于，其中根据匹配成功率判断所述页面是否为目录页的步骤还包括：将所述预定的第一比值设置为不小于0.5。

4.根据权利要求1所述的提取版式文档目录的方法，其特征在于，其中根据匹配成功率判断所述页面是否为目录页包括：相对于页码块的数目，如果匹配成功率大于预定的第二比值，并且页码块的数目大于页面所包含的行数的预定的第三比值，则判定所述页面为目录页。

5.根据权利要求4所述的提取版式文档目录的方法，其特征在于，其中根据匹配成功率判断所述页面是否为目录页的步骤还包括：将所述预定的第二比值设置为0.15，将预定的第三比值设置为0.6。

6.根据权利要求1所述的提取版式文档目录的方法，其特征在于，其中所述提取被判断为目录页的页面的目录条目的步骤包括：将被判断为目录页的页面中的页码块所在行的文本串、以及所述文本串的折行中的文本串提取为目录条目。

7.一种提取版式文档目录的方法，其特征在于包括：

搜索步骤，用于根据关键字从版式文档的第一页开始搜索文档；

首页判定步骤，用于在搜索到关键字时将当前页面判定为目录页的首页；以及

目录页识别步骤，用于根据权利要求1至6之一所述的方法从判定出的所述首页开始依次判断版式文档的后续页面是否为目录页。

8.根据权利要求7所述的提取版式文档目录的方法，其特征在于，在判断出存在目录页后，当目录页识别步骤中判定出页面不是目录页时，则将当前页面的上一页面判定为目录页的尾页。