CN106294304B

CN106294304B - 版式文档注脚的自动识别及转换为流式文档注释的方法

Info

Publication number: CN106294304B
Application number: CN201510293857.1A
Authority: CN
Inventors: 孙上斌; 胡元琪
Original assignee: Zhangyue Technology Co Ltd
Current assignee: Zhangyue Technology Co Ltd
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2019-12-10
Anticipated expiration: 2035-06-01
Also published as: CN106294304A

Abstract

本发明提供一种版式文档注脚的自动识别方法，包括下列步骤：1)识别出版式文档中的注脚区和正文区；2)根据注脚区内容提取出注脚区注脚序列；3)根据正文区内容提取出正文区注脚序列；4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列。本发明还提供了相应的版式文档注脚的转换为流式文档注释的方法。本发明能够适用于多种形式的版式文件到流式文件的转化，如pdf转为epub等。本发明可以自动的识别版式文件中的注脚，进行注脚的关联，大大解放了人力，增加了处理的速度。本发明的识别方法识别率高、错误率低。

Description

版式文档注脚的自动识别及转换为流式文档注释的方法

技术领域

本发明涉及版式识别技术领域，具体地说，本发明涉及一种版式文档注脚的自动识别方法及将其转换为流式文档注释的方法。

背景技术

传统的出版书籍、各种报刊、杂志等阅读媒介都主要由版式文档组成，版式文档版面是固定的，阅读过程中始终以原始编辑版式显示，缩放后不会自动根据页宽进行重新排版。例如利用扫描得到的初始图片稿件制成的PDF文档，固定版式制作的PDF图文与纯文本文档均属于版式文档。而另一方面，当前移动互联网处于高速发展时期，手机已经极大的普及了，人们正越来越多的从纸质阅读转移到手机电子阅读。传统的版式文档已经不能满足不同尺寸的移动设备对阅读体验的需求。

为满足上述需求，人们提出了流式文档的概念，流式文档中对文档包含的文字、数字、表格和图形图像进行特定的排版方式处理，保存后的内容是原始的编辑元素，用户通过阅读软件能查看到编辑后的排版风格，并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上则最好的表现是放大后能够对初始版面自动重排，根据屏幕宽度调整段落的换行以适应单页的视野范围。

可以看出，如果版式文档转化为流式文档，就能够将传统的版式阅读体验转移到最新的移动阅读体验上来。然而，版式文档中通常存在大量的注脚，这些注脚可能导致所转换的流式文档的版面错乱。因此，现有的将版式文档转换为流式文档的方案中，往往都需要人工识别出版式文档的注脚，并对注脚内容进行关联，再将其转化为符合流式文档规范的注释。显然这种转换方案效率低下。

因此，当前迫切需要一种能够自动识别版式文档注脚并将其转换为流式文档的注释的解决方案。

发明内容

因此，本发明的任务是克服上述现有技术的缺陷，提供一种版式文档注脚的识别和将其转换为流式文档注释的解决方案。

根据本发明的一个方面，提供了一种版式文档注脚的自动识别方法，其特征在于，包括下列步骤：

1)识别出版式文档中的注脚区和正文区；

2)根据注脚区内容提取出注脚区注脚序列；

3)根据正文区内容提取出正文区注脚序列；

4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列。

其中，所述步骤1)中，识别版式文档中的分隔线，根据所识别出的分隔线识别出版式文档中的注脚区和正文区。

其中，所述步骤1)包括下列子步骤：

11)识别出版式文档中的所有分隔线；

12)排除非注脚区分隔线。

其中，所述步骤12)中，所述非注脚区分隔线包括：为纵线的分隔线；小于页面宽度的四分之一方向的分隔线；上下两个段落有相同的字体的分隔线；以及上方或下方没有段落的分隔线。

其中，所述步骤12)还包括：在排除非注脚区分隔线后，当页面中还有多条分隔线时，取最下方的分隔线作为注脚区分隔线。

其中，所述步骤1)还包括：对版式文档进行文字信息行识别，生成文本行和文本段落并进行排序。

其中，所述步骤2)还包括：根据注脚区内容中的数字和序号标点来提取所述注脚区注脚序列。

其中，所述步骤2)还包括：基于正则表达式来提取所述注脚区注脚序列；所述正则表达式是利用各种可能的数字和序号标点以各种形式组成序号，再基于这些序号所构建出的各种可能的正则表达式。

其中，所述步骤3)包括下列子步骤：

31)对页面进行聚类，将相同字体的字体块聚类在一起；

32)对聚类后的内容，根据数字和序号标点提取出正文区注脚序列。

其中，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配包括：对于对提取出的注脚区注脚序列和正文区注脚序列，如果序列不是连续的，或者序列中的序号有重复，则该序列无效。

其中，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配方法还包括：如果正文区注脚序列和注脚区注脚序列不是一一对应的，则判断该正文区注脚序列和该注脚区注脚序列不匹配。

其中，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配还包括：如果注脚区注脚序列不是开始在第一行，则该注脚区注脚序列无效。

其中，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配还包括：如果正文区注脚序列与注脚区注脚序列的序号类型不是相同或相似的，则判断该正文区注脚序列和该注脚区注脚序列不匹配。

其中，所述步骤3)还包括，当提取出了至少两组正文区注脚序列时，检查各正文区注脚序列是否能够合并。

根据本发明的另一个方面，还提供了一种版式文档注脚的转换为流式文档注释的方法，其特征在于，包括下列步骤：

a)利用前文所述的版式文档注脚的自动识别方法，识别出版式文档中的注脚区注脚序列和正文区注脚序列；

b)将所提取的注脚内容转化为流式文档的注释。

其中，所述步骤b)中，流式文档的注释的表现方式为：注释直接插入到文中。

其中，所述步骤b)中，流式文档的注释的表现方式为：将所有的注释放在当前章节后，在文中注释的位置与章节后相应的注释内容处设有双向链接。

其中，所述步骤b)还包括：删除各个页面的注脚区。

其中，在删除每个页面的注脚区时，将连续的去除注脚区内容以后的当前页面的最后一个段落与下一个页面的第一个段落合并。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够适用于多种形式的版式文件到流式文件的转化，如pdf转为epub等。

2、本发明可以自动的识别版式文件中的注脚，进行注脚的关联，大大解放了人力，增加了处理的速度。

3、本发明的识别方法具有很高的识别率。

4、本发明的识别方法错误率低。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例中版式文档注脚的自动识别及转换方法的流程图；

图2示出了本发明一个实施例中的含有注脚的版式文档的页面示例；

图3示出了本发明一个实施例中的将含有注脚的版式文档转换为流式文档后的页面示例；

图4示出了本发明一个实施例中版式文档注脚的自动识别及转换方法中步骤7的注脚区删除子流程的流程图。

具体实施方式

图1示出了本发明一个实施例中版式文档注脚的自动识别及转换方法的流程图，参考图1，该版式文档注脚的自动识别及转换方法包括下列步骤：

步骤1：文档页面内容的准备。版式文档和流式文档一个主要的区别是没有顺序信息，也就是所有的文字的信息只包括纯粹的位置信息，所以想要对文档进行注脚的识别，首先需要处理的是将基本的文字信息行识别，生成最基本的文本行，文本段落等文本单元，并对文本单元进行排序。对版式文档进行文字信息行识别，生成文本单元的具体方法属于公知技术，本文中不再赘述。

步骤2：识别注脚间隔。标准的文档处理中，为了区分注脚区和正文区，所以都会有间隔进行分离，用于区分的间隔一般是一条长横线，本文中称其为注脚分隔线。本实施例中，首先识别出版式文档中的所有分隔线，然后再根据一些判定条件来去除其中的非注脚分隔线，从而正确的找到注脚分隔线，进而增加识别的准确率。去除非注脚分隔线的判定条件包括：

a)如果分隔线方向为纵线，排除；

b)如果分隔线的长度太短，例如小于页面的四分之一，排除；

c)如果一个页面有多条分隔线，取最下方的分隔线；

d)如果一条分隔线上下两个段落有相同的字体，排除；

e)如果一条分隔线上方或下方没有段落，排除。

步骤3：识别注脚区的注脚序列。当找到注脚分隔线以后，那么一个页面很自然的被分为两个区域：正文区和注脚区。接下来对注脚区进行分析，识别出注脚的内容。在注脚的识别过程中，主要是以行为单位。由于注脚通常都具有序号，因此可以通过提取出文本内容中的序号来对注脚进行识别。通过下列正则表达式，得到可能的注脚序列，正则表达式包括：

需要说明的是，上述正则表达式只是示例性地，并非穷举。

上述根据正则表达式的识别方案本质上是：根据数字序号和相应的序号标点来找出文本内容中的序号，进而识别出注脚区的注脚。数字序号可以是阿拉伯数字，也可以是罗马数字或中文数字，可以是大写数字，也可以是小写数字，只要是可以作为序号的数字均可。序号标点则是指与数字配合使用组成序号的标点，它可以小括号、中括号、空心圈、实心圈等等。利用各种可能的数字和序号标点以各种形式组成序号，构建各种可能的正则表达式，然后再基于所构建的正则表达式即可在文本内容中识别出注脚序列。

步骤4：识别正文区的注脚序列。在正文中，注脚一般是存在于左上角的一个标识，同时所有的字体一般区别于正文的字体。所以可以根据字体对页面进行聚类，将相同字体的字体块聚类在一起。然后对聚类后的内容进行文字序列的判断，找到可能的正文区注脚序列。判定方式也是采用正则表达式进行序列匹配，所用正则表达式同上。此处应该注意，因为注脚的字体并不一定都相同，比如标题中的注脚和正文中的注脚所用的字体肯定不相同，所以本实施例中，在找到注脚序列以后，还对注脚序列进行组合判定，判断两个注脚序列进行合并是否可以组成更加合理的注脚序列，如果可以，则进行合并。例如，在一个实施例中，两个注脚序列合并能使序号从不连接变为连续，则可以直接进行合并。而在另一实施例中，也可以将序列合并的操作调整到步骤5中，结合步骤5中的合理性判定方法来判断合并后的序列是否更加合理。

步骤5：匹配和校验确定注脚。确定了正文区的注脚序列和注脚区的注脚序列以后，将它们进行匹配和校验。因为有些注脚序列不一定是合理的，根据本发明的一个实施例，判定注脚序列是否合理的条件如下：

a)序列不是连续的，该序列无效；

b)序列有重复，该序列无效；

c)正文区的注脚序列和注脚区的注脚序列不是一一对应的，则认为

这两个注脚序列不匹配；

d)注脚区的序列不是开始在第一行，该序列无效；

e)正文区和注脚区的注脚标识类型不是相同或相似，则认为这两个

注脚序列不匹配。例如，正文区和注脚区的注脚序列的序号分别采用

了阿拉伯数字和罗马数字，则认为二者的注脚标识类型不是相同或相

似，两个注脚序列均无效。

通过以上条件，就可以将无效的注脚序列进行排除，如果最后存在有效的注脚序列，则版式文件的注脚序列就被正确的识别出来了。其中，有效的注脚序列是指：剩余的相互匹配的注脚区注脚序列和正文区注脚序列。

步骤6：将注脚内容和注脚序列关联。注脚区的注脚序列确定以后，根据序列进行分段，然后将分段后的注脚序列段和正文中的注脚序列一一的对应起来。图2示出了本发明一个实施例中的含有注脚的版式文档的页面示例，其中示出了互相关联的注脚内容和注脚序列。如图2所示，注脚内容根据注脚区的注脚序列提取。正文区的注脚序列则能够反映正文内容中的注释位置。

步骤7：将所提取的注脚内容转化为流式文档的注释。流式文档中没有注脚的概念，所以本实施例中将版式文档的注脚自动转化为流式文档的注释。注释包括两种表现方式，一种是直接插入到文中，点击弹出注释内容。图3示出了本发明一个实施例中的将含有注脚的版式文档转换为流式文档后的页面示例，该示例就是直接将注释插入到文中，通过点击弹出注释内容。另外一种是将所有的注释放在当前章节后，在文中注释的位置增加链接到章节后注释的链接，在章节后每一个注释增加链接到正文的链接，也就是双向链接。需说明的是，上述注释的表现方式并非穷举，可以采用其他的注释方式，这是本领域普通技术人员易于理解的。

上述步骤1至6实现了版式文档注脚的识别，而步骤7则是在识别出版式文档注脚的基础上，将所识别出的版式文档注脚转换为流式文档中的注释。

更进一步地，根据本发明的一个优选实施例，所述步骤7还包括删除注脚区域的操作。将正文的注脚序列关联正确的注脚以后，注脚区域就没有存在的必要，因为注脚区域一般都将正文打断，所以删除注脚区域以后，需要进行段落的连续性判断，并根据判断结果对注脚区域的上下文做合并操作，图4示出了本发明一个实施例中版式文档注脚的自动识别及转换方法中步骤7的注脚区删除子流程的流程图，该子流程具体包括下列步骤：

步骤71：删除注脚区，找出当前页去除注脚区内容以后的当前页面的最后一个段落A以及下一个页面的第一个段落B。

步骤72：比较段落A和段落B的字体，判断两个段落字体是否相同，如果否，则段落A和段落B肯定不是连续段落，段落A和段落B不做合并处理，删除当前页面注脚区的操作完成，如果是，则继续执行步骤73。

步骤73：判断段落A是否为head段落，head段落的定义是当前段落是一个完整段落的上部分，但不是一个完整的段落。如果段落A不是head段落，则不对段落A和段落B进行合并，删除当前页面注脚区的操作完成，如果段落A是head段落，则继续执行步骤74。

步骤74：判定段落B是否为tail段落，tail段落的定义为当前段落是一个完整段落的下半部分，但不是一个完整的段落。如果段落B不是tail段落，则不对段落A和段落B进行合并，删除当前页面注脚区的操作完成，如果段落B是tail段落，则继续执行步骤75。

步骤75：将段落A和段落B标记为连续的段落，使得在将有序文本单元导成流式文件的时候，段落A和段落B自动合并成为一个段落。其中，所述有序文本单元是指：步骤1中对版式文档进行基本的文字信息行识别，生成最基本的文本行、文本段落等文本单元，然后再对文本单元进行排序而得到的有序文本单元。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够适用于多种形式的版式文件到流式文件的自动转化，如pdf转为epub等。

2、本发明可以自动的识别版式文件中的注脚，进行注脚的关联，并在转化为流式文档的过程中自动的转为流式文件所需要的注释，解决了现有的注脚都需要人工进行识别，关联，和转化的问题。大大解放了人力，增加了处理的速度。

3、本发明采用字体聚类、正则搜索等识别算法，具有很高的识别率。

4、本发明具有低错误率的优点。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种版式文档注脚的自动识别方法，其特征在于，包括下列步骤：

1)识别出版式文档中的所有分隔线，排除非注脚区分隔线，找到注脚分割线，根据所述注脚分割线识别版式文档中的注脚区和正文区；

其中，所述非注脚区分隔线包括：纵向的分隔线、小于页面宽度的四分之一的分隔线、上下两个段落有相同的字体的分隔线、以及上方或下方没有段落的分隔线；

2)根据注脚区内容提取出注脚区注脚序列；

3)根据正文区内容提取出正文区注脚序列；

4)对步骤2)和步骤3)中得到的注脚区注脚序列和正文区注脚序列进行互相匹配，得到相匹配的注脚区注脚序列和正文区注脚序列；以及

5)将所述注脚区内容和正文区注脚序列关联，其中，所述注脚区内容根据注脚区注脚序列被分段和提取；

其中，所述步骤3)包括下列子步骤：

31)对页面进行聚类，将相同字体的字体块聚类在一起；

2.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤1)还包括：在排除非注脚区分隔线后，当页面中还有多条分隔线时，取最下方的分隔线作为注脚区分隔线。

3.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤1)还包括：对版式文档进行文字信息行识别，生成文本行和文本段落并进行排序。

4.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤2)还包括：根据注脚区内容中的数字和序号标点来提取所述注脚区注脚序列。

5.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤2)还包括：基于正则表达式来提取所述注脚区注脚序列；所述正则表达式是利用各种数字和序号标点以各种形式组成序号，再基于这些序号所构建出的各种正则表达式。

6.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配包括：对于提取出的注脚区注脚序列和正文区注脚序列，如果序列不是连续的，或者序列中的序号有重复，则该序列无效。

7.根据权利要求6所述的版式文档注脚的自动识别方法，其特征在于，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配方法还包括：如果正文区注脚序列和注脚区注脚序列不是一一对应的，则判断该正文区注脚序列和该注脚区注脚序列不匹配。

8.根据权利要求7所述的版式文档注脚的自动识别方法，其特征在于，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配还包括：如果注脚区注脚序列不是开始在第一行，则该注脚区注脚序列无效。

9.根据权利要求8所述的版式文档注脚的自动识别方法，其特征在于，所述步骤4)中，对注脚区注脚序列和正文区注脚序列进行互相匹配还包括：如果正文区注脚序列与注脚区注脚序列的序号类型不是相同或相似的，则判断该正文区注脚序列和该注脚区注脚序列不匹配。

10.根据权利要求1所述的版式文档注脚的自动识别方法，其特征在于，所述步骤3)还包括，当提取出了至少两组正文区注脚序列时，检查各正文区注脚序列是否能够合并。

11.一种版式文档注脚的转换为流式文档注释的方法，其特征在于，包括下列步骤：

a)利用权利要求1至10中任意一项所述的版式文档注脚的自动识别方法，识别出版式文档中的注脚区注脚序列和正文区注脚序列；

b)将所提取的注脚内容转化为流式文档的注释。

12.根据权利要求11所述的版式文档注脚的转换为流式文档注释的方法，其特征在于，所述步骤b)中，流式文档的注释的表现方式为：注释直接插入到文中。

13.根据权利要求11所述的版式文档注脚的转换为流式文档注释的方法，其特征在于，所述步骤b)中，流式文档的注释的表现方式为：将所有的注释放在当前章节后。

14.根据权利要求13所述的版式文档注脚的转换为流式文档注释的方法，其特征在于，所述步骤b)中，流式文档的注释的表现方式还包括：在文中注释的位置与章节后相应的注释内容处设有双向链接。

15.根据权利要求11所述的版式文档注脚的转换为流式文档注释的方法，其特征在于，所述步骤b)还包括：删除各个页面的注脚区。

16.根据权利要求15所述的版式文档注脚的转换为流式文档注释的方法，其特征在于，在删除每个页面的注脚区时，将连续的去除注脚区内容以后的当前页面的最后一个段落与下一个页面的第一个段落合并。