CN106802884B

CN106802884B - 一种版式文档正文碎片化的方法

Info

Publication number: CN106802884B
Application number: CN201710085522.XA
Authority: CN
Inventors: 邹季英; 张镔; 袁仁慧; 梁洵
Original assignee: Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Beijing Technology Co ltd
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2020-09-22
Anticipated expiration: 2037-02-17
Also published as: CN106802884A

Abstract

本发明公开了一种版式文档正文碎片化的方法，包括：版面预处理；识别正文基本元素(表格、逻辑图、公式和段落)；提取正文阅读顺序；正文层次分析；正文后处理；输出正文碎片化结果。本发明不仅给出了版式文档正文碎片化方法的整体思路，还对正文碎片化过程中的关键环节给出了具体的解决方案。

Description

一种版式文档正文碎片化的方法

技术领域

本发明涉及一种版式文档正文碎片化的方法，属于版式电子文档的版面分析和版面理解范畴。

背景技术

文献资源碎片化是实现文献资源重组和深度知识挖掘的基础。文献资源碎片化既包含元数据标引，如篇名、作者、关键词、参考文献等元数据标引，也包含正文内容碎片化。正文内容碎片化是指在对文献自动分篇获得每篇文章，确定每篇文章具体正文范围的基础上，识别正文内的图、表、公式、段落等基本元素，提取正文阅读顺序并对正文元素进行层次分析，将正文内容分解成一个有层次、有逻辑的有机体。

版式文档正文碎片化技术依赖于版式文档的排版特点，不同资源的排版存在共性特征也存在明显的个性特征。本文提出的一种版式文档正文碎片化的方法涉及的文献资源类型包括期刊、会议、图书、年鉴、学位论文等。

发明内容

本发明根据版式文档的版面共性特征，提出了一种版式文档正文碎片化的方法。所述技术方案包括：

版面预处理；

识别正文基本元素；

提取正文阅读顺序；

正文层次分析；

正文后处理；

输出正文碎片化结果。

上述技术方案中，所述版面预处理包括：在正文区域内提取行建立行集合；提取水平线和垂直线，建立线集合；统计行集合获取相关参数：主体字体、主体语种、主体行间距和分栏特征。

上述技术方案中，所述识别正文基本元素包括：表格识别、逻辑图识别、公式识别和段落识别。

上述技术方案中，所述提取正文阅读顺序包括：页内阅读顺序和页间阅读顺序。

上述技术方案中，所述正文层次分析是指，识别正文内各级标题将正文分解成一个有层次、有逻辑的有机体。正文标题层次关系包括同级关系和上下级关系，是一种树形结构。

上述技术方案中，所述正文后处理包括：跨栏、跨页的段落衔接和段落字符规范化(角标字符检测、规范全/半角字符和英文行的连接处理)。

上述技术方案中，所述输出正文碎片化结果是指，将正文碎片化结果保存为XML文档。

本方法不仅给出了版式文档正文碎片化的整体框架，还对正文碎片化过程中的关键环节给出了具体解决方案。

附图说明

图1是本发明实施方法流程图

图2是分栏算法流程图

图3是栏支架示意图

图4是正文层次分析方法流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方式进一步地详细说明。

一种版式文档正文碎片化的方法，如图1所示，所述方法包括：

1.版面预处理

版面预处理包括：在正文区域内提取行建立行集合；提取水平线和垂直线，建立线集合；统计行集合获取相关参数：主体字体、主体语种、主体行间距和分栏特征。

在正文区域内提取行建立行集合时，由于大量版式文档字符按行整齐有序排列，可以先将字符集按照字符流顺序和字符空间排布特点快速合并成行，再进行行与行之间水平合并以处理字符流顺序与阅读顺序不一致的情况。

为了识别表格，需在正文区域内提取水平线和垂直线建立线集合。提取线集合的方法参见《一种PDF文档表格识别的方法》(CN105589841A)。

统计行集合获取相关参数(主体字体、主体语种、主体行间距和分栏特征)的具体方法，下文将展开阐述。

主体字体是指一个文字区(行、段、页)内最主要的字体类型。本文采用字体大小描述字体，采用分类方法计算主体字体，将文字区内所有字符按字体大小差异分类，差异小先合并差异大后合并。衡量字体差异采用如下公式：FontDif＝2×|F₁-F₂|/(F₁+F₂)，其中，F₁与F₂分别代表两种字体大小，当FontDif>0.05时，表明这两种字体差异过大不可归为一类。每个类中心用类内字体均值描述，字符个数最多、字符面积最大的类对应的类中心就是该文字区的主体字体。

主体语种是指一个文字区内最主要的语种类型，通过统计字符的语种类型获得。

主体行间距是指一页内最主要的行间距，本文采用C均值算法估算。分别提取每一栏行子集，计算上下相邻两行的行间距，获得行间距集合。选择5种常见行间距作为初始类中心(0.5倍、1倍、1.5倍、2倍和2.5倍主体字体大小)，每个类中心用类内行间距均值描述。选元素最多的那个类的类中心作为主体行间距。为了准确获取上下相邻两行的行间距，计算主体行间距应在提取分栏特征后进行。

分栏是版面主要的视觉特征之一，常见分栏类型可归纳为以下几种：单栏、两栏、三栏、混合栏(例如单栏和两栏混合、单栏和三栏混合)和无明显分栏(例如纯表格版面，图表混和版面)。作者认为构成栏的主要成分是版面中富含文字的区域，因此本文根据行集合的空间排布特点来提取栏特征，如图2所示主要步骤如下：

(1)初估版面初始分栏类型。假设版面核心区域的水平宽度为w，将行的宽度分为如下四个等级：[0.5w,w]、(0.333w,0.5w]、(0.25w,0.333w]和(0,0.25w]，对应分栏类型分别为：单栏、两栏、三栏和其他类型。统计落入每个等级的行面积，取总面积最大的等级对应的分栏类型作为该页的初始分栏类型。

(2)估算各栏位置，是指用初始分栏类型对应等级下的行集合估算栏的水平位置。假设栏宽相等，首先根据初始分栏类型和页面宽度粗略估计各栏的初始位置；其次，用栏初始位置划分行集合，获取栏内行子集合；再次，若栏内存在行子集则用行子集估算栏位置。若估算成功将此栏标记为核心栏；若估算失败则用其他核心栏估算该栏位置，标记为非核心栏。若各栏位置均估算失败则下转步骤(3)，否则下转步骤(4)。

(3)采用垂直投影法再次尝试分栏。垂直投影法是指将每一行按垂直方向投影，累计投影量寻找栏与栏之间的空白间隔，根据空白间隔计算各栏的水平位置。投影法是一种简单的分栏方法，但是鲁棒性较差易受跨栏元素干扰。

(4)检验并确定最终分栏类型，是指用版面中所有行元素构成的行集合检验并确定最终分栏类型。首先，将所有行元素按步骤(2)估算的栏的水平位置归类，有三种类型：栏内行、跨栏行和未知行。栏内行是指行水平位置在某一栏内，跨栏行是指行水平位置横跨多栏，未知行是指该行水平位置不属于任何一栏。其次，统计未知行判断该页是否要增栏，并做增栏处理；再次，利用栏内行集合优化栏位置；最后，确定最终分栏类型(单栏、两栏、三栏、其他)，并对每一行赋予所属栏标识，记录该行是否跨栏、横跨哪几栏等信息。

(5)在核心栏内提取栏支架。只用分栏类型和栏位置不能充分描述和使用栏特征，为此引入了栏支架的概念作为栏的另一维特征。栏支架是一组相邻行构成的行集合，是栏稳定、可靠的支撑。图3黑框标记的便是栏支架，栏支架通常是段落的一部分。提取栏支架时可参考如下指标：行宽与栏宽比值、相邻行的两端是否对齐、相邻行的行间隔是否为主体行间隔、行字体是否与该页主体字体相同、最少行数限制等。

准确获取分栏特征有利于提取栏内文本行和复杂公式行，提高段落识别和公式识别正确率，分栏特征也能辅助估算正文阅读顺序。此外，栏支架作为栏稳定可靠的支撑，能有效地限制表格和逻辑图的生长区域，提高表格和逻辑图识别的正确率。

2.识别页内基本元素

识别页内基本元素包括：表格识别、逻辑图识别、公式识别和段落识别。

表格识别中，首先对不同类型表格的识别难度进行分级，由易到难分别是：含表标题和表格线表格、无表标题全线表、无表标题三线表、含表标题的无线表、无表标题的无线表。表格识别按照先易后难顺序，结合三种方法(基于表标题和线集合的区域生长法、基于表标题和行集合的区域生长法和无标题的全线表、三线表识别法)进行，具体论述参见《一种PDF文档表格识别的方法》(CN105589841A)。

逻辑图识别采用了基于图标题的区域生长法，以疑似图标题为种子，在种子邻域生长定位逻辑图主体位置。同时，一页中多个种子并行地竞争地生长，能在图文混排的复杂版面中准确估算每个逻辑图的有效区域。逻辑图识别不仅自动识别逻辑图，还同时识别了图标题，并将图标题与对应的逻辑图匹配关联，保持同步。具体论述参见《一种PDF文档逻辑图识别的方法》。

公式识别侧重于独立公式区域识别。先以行为基本单位，利用独立公式行与普通文本行的差异性，将版面中的行分成独立公式行和非独立公式行；再处理独立公式行，合并残块、合并多行公式获得独立公式区域。公式识别使用的特征包括：公式符号比例、中文字符比例、行内字符字体大小和高度的方差、行内字符稀疏度等。具体论述参见《一种版式文件中识别科学公式的方法》(CN104751148A)。

段落是正文主要组成部分，段落识别的准确率直接决定了正文碎片化的质量。段落识别主要过程如下：

将页内所有行和栏支架按从上至下的顺序排列；

上文所谓元素是指一行或一个栏支架。判断元素j是否能与当前段合并时考虑了两者之间的字体相似性、行间隔相似性、水平位置是否相交、两端是否对齐等因素。元素并入段落时要及时更新段落的位置、字体、语种、段内元素集合、段首段尾标识等信息。

判断段落结束增长的条件是，若该段与元素j成功合并后出现了段尾特征(如末行右侧内凹，找到结束标点)则该段结束增长；若该段与元素j未成功合并，失败的原因是下述任意一种情况时，如字体差异性过大、行间隔过大、行两端不对齐(左侧内凹、右侧外凸)，判定该段结束增长。

3.提取正文阅读顺序

提取正文阅读顺序是指将正文基本元素(表格、逻辑图、公式、段落)按阅读先后顺序排列，包含两种顺序：页内阅读顺序和页间阅读顺序。通常人们阅读时按页码递增顺序进行，因此页间阅读顺序可以由页码的先后顺序给定。对于页内阅读顺序人眼根据上下文内容的连贯性(语义特征)判断，本文主要使用一般的排版规则进行估算。

通常页面内容按从上到下、从左到右的方式排列，本文结合页内分栏情况，按从上到下、从左到右的方式给出页内阅读顺序。具体说来：

若为单栏版面，则页内阅读顺序按从上到下排列；

若为多栏版面且无跨栏元素，则正文元素按从左栏至右栏，一栏内按从上到下的顺序排列；

若两栏版面包含跨栏元素，则阅读顺序估算规则为：跨栏元素上方左侧栏从上至下排列——>跨栏元素上方右侧栏从上至下排列——>跨栏元素——>跨栏元素下方左侧栏从上至下排列——>跨栏元素下方右侧栏从上至下排列；

若版面过于复杂(如多栏版面包含复杂的跨栏元素)则用原始字符流顺序估算每一个正文元素的先后位置，获得页内阅读顺序。

4.正文层次分析

正文层次分析是指从段落集合中检测出正文标题并估算标题间的层次关系。标题的层次关系包括同级关系和上下级关系，是一种树形结构。标题是正文的骨架，通常包含如下几种特征：

(1)字数限制：正文标题在文内具有高度概括性是一种特殊段落，行数字数比一般段落少；

(2)关键词：正文标题常在段首出现“一、”“(一)”“1”“1.1”“1.2.1”等一类关键词；

(3)字体特征：同一级标题字体相似；

(4)顺序特征：标题关键词通常按阅读顺序从小到大排列；

(5)包含特征：两相邻同级标题之间囊括所有下级标题，不可能出现上级标题。所有同级标题囊括的正文范围内包含其他级别标题的个数越多，其为高级标题的可能性越大。因此可使用包含特征来辅助确定标题的层级关系；

(6)跨度特征：所有标题应囊括大部分正文内容。

正文层次分析的大致过程如图4所示：

(1)从段落集中提取疑似标题集合。此步利用了关键词特征和字数限制，若在段首处检测到关键词且段落字数限制满足要求，将此段标记为疑似标题。段首关键词隐含了部分标题层次关系，例如，段首关键词为“(一)”“(二)”“(三)”表明这三个疑似标题可能属于同一级标题。再如，段首关键词为“1”“1.1”“1.2.1”，表明这三个疑似标题可能存在上下级关系。

(2)初次剔除伪标题元素，是指从疑似标题集合中抽取关键词提示同级标题的元素子集，利用同一级标题字体大小相似，将字体差异性过大的伪标题剔除。

(3)确定标题的层次关系。层次信息来源于两方面：关键词和包含特征。观察大量期刊型版式文档的正文标题后，本文归纳了两种层次关系模型：形如“一、(一)、1”的称为模型1，形如“1、1.1、1.2.1”称为模型2。模型1中关键词并未指明标题上下级关系，而模型2的关键词明确表达了标题的同级关系和上下级关系。因此，模型2只需使用关键词就可确定标题层次关系，模型1要同时使用关键词和包含特征确定标题层次关系。

(4)再次剔除伪标题元素，是利用顺序特征进一步在疑似标题集合中检测个别逆序的伪标题，剔除之。

(5)检验并确定最终标题集合。此步采用了跨度特征，计算疑似标题集合囊括的正文范围占正文全长的比值。若比值>50％，判定疑似标题集合有效，作为正文最终标题集合输出。否则判定疑似标题集合无效，正文区域未检测到标题。

5.正文后处理

正文后处理包括：跨栏、跨页的段落衔接和段落字符的规范化(角标字符检测、规范全/半角字符和英文行的连接处理)。

实践中我们常常看到同属于一段的内容因排版被分割在多栏或多页中，跨栏跨页的段落衔接就是用于处理此类问题，将分布在多栏或多页的同属于一段的内容自动聚合、衔接在一起。当相邻两段属于不同栏或不同页，前一段未检测到段尾特征(未出现末行右侧内凹，结束标点等)，后一段没有明显的段首特征(未出现首行缩进、首字下沉等)，且两段主体字体、主体语种、行间隔相似，判定两段内容可衔接。由于同一段落可能横跨多栏多页，因此判定两段衔接后应继续判断直至相邻两段不可衔接为止。

角标字符具有丰富的含义，例如，文内注释和参考文献标号一般用上角标表示，化学分子式中的元素含量常用下角标表示。检测角标字符是正确提取正文内容的必要步骤。本文的角标检测采用以字符位置特征为主，字体特征为辅的方法。大致过程是：先提取文本行的上下基线，利用上下基线将行区分为上、中、下三区；再利用字符垂直位置在行的上、中、下三区内各占的比例关系，判断字符是否为疑似上角标或疑似下角标；最后，检测疑似角标字符的字体大小是否满足角标字体限制，若满足则判定为角标字符。

前文所述文本行的上下基线计算方法如下，

其中BaseTop代表上基线，BaseBottom代表下基线，Top_i、Bottom_i和Width_i分别代表行内第i个字符的上坐标、下坐标和宽度。

上述英文行的连接问题常出现在相邻两英文行的首尾连接上。当上一行行末出现一个完整单词同时下一行行首出现新单词时，若不添加空格键将两单词分开，那么首尾两个单词将黏连在一起影响段落内容的准确性。因此，在段落字符的规范化中要针对此类问题进行自动检测，自动添加空格键。

6.输出正文碎片化结果

输出正文碎片化结果是指将分析结果保存为XML文档。正文碎片化结果包括表格、逻辑图、公式、段落等正文的基本元素，以及基本元素之间的阅读顺序和层次关系。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种版式文档正文碎片化的方法，其特征在于，所述方法包括：版面预处理；识别正文基本元素；提取正文阅读顺序；正文层次分析；正文后处理；输出正文碎片化结果；

其中所述版面预处理包括：在正文区域内提取行建立行集合，提取水平线和垂直线，建立线集合；

所述识别正文基本元素包括：表格识别、逻辑图识别、公式识别和段落识别；所述正文层次分析是指从段落集合中检测出正文标题并估算标题间的层次关系，具体包括以下步骤：

(1) 利用关键词特征和字数限制从段落集中提取疑似标题集合；

(2) 利用字体特征从疑似标题集合中初次剔除伪标题元素；

(3) 利用关键词和包含特征确定标题的层次关系；

(4) 利用顺序特征从疑似标题集合中再次剔除伪标题元素；

(5) 检验并确定最终标题集合；

所述正文后处理包括：跨栏、跨页的段落衔接和段落字符的规范化；

输出正文碎片化结果是指将分析结果保存为XML文档，正文碎片化结果包括正文基本元素以及正文基本元素之间的阅读顺序和层次关系。

2.如权利要求1所述的版式文档正文碎片化的方法，其特征在于，版面预处理中采用了统计行集合和垂直投影相结合的方法分栏，提出了栏支架的概念和检测方法；

所述栏支架是指一组相邻行构成的行集合，是栏稳定可靠的支撑，能够有效地限制表格和逻辑图的生长区域，提高表格和逻辑图识别的正确率；检测栏支架使用了如下限制条件：行两端是否对齐、行间隔是否为主体行间隔、行字体是否为主体字体、行宽与栏宽比值是否>＝90％、满足所述限制条件的行数是否>＝3。

3.如权利要求1所述的版式文档正文碎片化的方法，其特征在于，在正文层次分析中同时使用了字数限制、关键词、字体特征、顺序特征、包含特征和跨度特征；

所述字数限制是指，提取疑似正文标题时，要求待检测段落行数<＝3且字数<50；

所述关键词是指，出现在段首的形如“一、”“(一)”“1”“1.1”“1.2.1”等一类关键词；

所述字体特征是指，判断疑似正文标题是否为同一级标题时，采用了同一级标题字体相似的限制条件；

所述顺序特征是指，标题关键词应按正文阅读顺序从小到大排列；

所述包含特征是指，判断正文标题层级关系时，所有同级标题囊括的正文范围内包含其他级别标题的个数越多，其为高级标题的可能性越大；同理，所有同级标题囊括的正文范围内包含其他级别标题的个数越少，其为低级标题的可能性越大；

所述跨度特征是指，所有疑似标题囊括的正文范围占正文全长的比值；若比值>50％，说明疑似标题集合跨越了正文大部分内容，满足跨度特征。

4.如权利要求1所述的版式文档正文碎片化的方法，其特征在于，

所述跨栏、跨页的段落衔接是指，自动衔接分布在多栏或多页的同属于一段的内容；

所述段落字符规范化包括：角标字符检测、规范全/半角字符和英文行的连接处理。