CN104268127A

CN104268127A - 一种电子档版式文件阅读顺序分析的方法

Info

Publication number: CN104268127A
Application number: CN201410488102.2A
Authority: CN
Inventors: 张斌; 张晓博; 张宝亮
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2015-01-07
Anticipated expiration: 2034-09-22
Also published as: CN104268127B

Abstract

本发明公开了一种电子档版式文件阅读顺序分析的方法，所述方法包括以下步骤：提取PDF文件中原始信息；识别页眉、页脚，并对相邻文本内容进行合并，得到行内容；对文本行内容进行块合并，得到文本块内容；对相邻图片进行合并，得到图片块内容；对路径信息进行分析，得到水平方向的分割线；将文本快内容和图片块内容进行X方向投影，得到水平分隔块内容；以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信为元素，进行拓扑排序，得到PDF文件的阅读顺序；通过阅读顺序基础对文本块内容进行分段识别；输出XML格式文本。

Description

一种电子档版式文件阅读顺序分析的方法

技术领域

本发明涉及信息技术领域，尤其涉及一种电子档版式文件阅读顺序分析的方法。

背景技术

PDF(Portable Document Format，便携式文件格式)是Adobe公司发展出来的一种文件格式，它的优点在于跨平台，能保留文件原有的格式(Layout)，高质量和保真的进行原始文件和格式的呈现，但是PDF是非结构化的数据存储格式，对于进行PDF文件中文本的信息检索或PDF格式转换为其它流式格式文件，提取出来的文本信息并非是按文件的阅读顺序输出，可能存在后序的内容提前出现在输出的文本中。

专利申请号为2010105591353的专利申请文件公开了识别版面阅读顺序的方法，包括：读取待识别版面，并分析版面以得到版面布局信息和字符文本对象和图像对象的对象属性；根据版面布局信息和对象属性，将字符文本对象合并为文本段落并将图形对象识别为图像段落；采用全局递归切割与局部先后顺序判定相结合的方式来确定文本段落和图像段落的阅读顺序，其中，通过投影来进行全局切割，对于全局切割之后仍包含多个段落的分组，采用局部判定方法来判断段落的先后顺序。此方法使用的递归划分法在纵向有一定缺陷,容易出现模棱两可的块划分。

专利申请号为2004100914343的专利申请文件公开了一种基于内容的对报纸版面进行文字阅读顺序恢复的方法，该方法是针对处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷的问题来以图论理论进行数学建模，把文字块的邻接关系表示为有向图，并把有向图拆分转化为加权二分图，采用自然语言处理技术计算二分图边权值，通过最优匹配得到多个连续序列，每个序列再根据文字块样式信息分割成多个子序列，子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。此方法使用了复杂的图论算法和自然语言处理技术。

为了解决上述问题本申请文件提供了一种针对版式文件进行聚类分析，并按照拓扑排序的方法进行阅读顺序分析和识别的方法。

发明内容

为解决上述技术问题，本发明的目的是提供一种针对版式文件进行聚类分析，并按照拓扑顺序的方法进行阅读顺序分析和识别的方法，该方法通过识别物理块的拓扑顺序，即可实现快速高效准确的判定逻辑顺序。方法简单高效、准确率高。

本发明的目的通过以下的技术方案来实现：

提取PDF文件中原始信息；

识别页眉、页脚，并对相邻文本内容进行合并，得到行内容；

对文本行内容进行块合并，得到文本块内容；

对相邻图片进行合并，得到图片块内容；

对路径信息进行分析，得到水平方向的分割线；

将文本快内容和图片块内容进行X方向投影，得到水平分隔块内容；

以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素，进行拓扑排序，得到PDF文件的阅读顺序；

通过阅读顺序基础对文本块内容进行分段识别；

输出XML格式文本。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

该方法针对版式文件进行聚类分析，按照拓扑排序的方法进行阅读顺序分析和识别的方法，同时对输出内容进行XML格式化话输出，方便进行PDF格式文件的检索和格式转换。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是电子档版式文件阅读顺序分析的方法流程图；

图2是PDF原始文件结构图；

图3是原始文本信息结构图；

图4是文本行合并、页眉页脚识别和分隔行识别效果图；

图5是文本块效果结构图；

图6是阅读顺序分析效果图；

图7是逻辑段落效果结构图；

图8是XML输出图；

图9是包含图片和表格的阅读顺序分析效果图；

图10是三栏的PDF文件阅读顺序效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，是电子档版式文件阅读顺序分析的方法流程，包括以下步骤：

提取PDF文件中原始信息；

对文本行内容进行块合并，得到文本块内容；

对相邻图片进行合并，得到图片块内容；

对路径信息进行分析，得到水平方向的分割线；

通过阅读顺序基础对文本块内容进行分段识别；

输出XML格式文本。

上述对不同于正文内容的表格文本内容进行区域识别。

对所述相邻图片合并还包括：对分割过的PDF图片进行相邻合并，因为虚拟打印生成的PDF图片可能是被分割过的，需要进行相邻合并，同时进行相邻小图片的合并，得到一个相对较大的图片。

所述提取的PDF文件中原始信息包括：文本信息、图片信息和图片的坐标信息、路径信息及PDF的页码与页面大小。

所述文本信息包括文本内容、字体信息和坐标信息。

所述文本快内容和图片块内容进行X方向投影，是通过XYCut算法计算出水平方向的分隔块信息。

上述以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素，进行拓扑排序，现以物理块A、物理块B和物理块C为例，其排序过程依据以下两条规则：

(1)当物理块A在x方向覆盖B时，A的拓扑序在B之前。

(2)当物理块A和B之间(Y方向)不存在一个物理块C同时覆盖物理块A和物理块B时，同时物理块A在物理块B的左侧，那么A的拓扑序在物理块B之前。

按照上述两条规则，确定任意两个物理块的物理顺序，并按照拓扑排序算法进行物理块的遍历，得到PDF页面的阅读顺序。

如附图为本实施例实例图，图2是PDF原始文件结构图；图3是原始文本信息结构图；图4是文本行合并、页眉页脚识别和分隔行识别效果图；图5是文本块效果结构图；图6是阅读顺序分析效果图；图7是逻辑段落效果结构图；图8是XML输出图；图9是包含图片和表格的阅读顺序分析效果图；图10是三栏的PDF文件阅读顺序效果图。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种电子档版式文件阅读顺序分析的方法，其特征在于，所述方法包括以下步骤：

提取PDF文件中原始信息；

对文本行内容进行块合并，得到文本块内容；

对相邻图片进行合并，得到图片块内容；

对路径信息进行分析，得到水平方向的分割线；

通过阅读顺序基础对文本块内容进行分段识别；

输出XML格式文本。

2.根据权利要求1所述的电子档版式文件阅读顺序分析的方法，其特征在于，所述步骤还包括：对不同于正文内容的表格文本内容进行区域识别。

3.根据权利要求1所述的电子档版式文件阅读顺序分析的方法，其特征在于，对所述相邻图片合并还包括：对分割过的PDF图片进行相邻合并。

4.根据权利要求1所述的电子档版式文件阅读顺序分析的方法，其特征在于，所述提取的PDF文件中原始信息包括：文本信息、图片信息和图片的坐标信息、路径信息及PDF的页码与页面大小。

5.根据权利要求4所述的电子档版式文件阅读顺序分析的方法，其特征在于，所述文本信息包括文本内容、字体信息和坐标信息。

6.根据权利要求1所述的电子档版式文件阅读顺序分析的方法，其特征在于，所述文本快内容和图片块内容进行X方向投影，是通过XYCut算法计算出水平方向的分隔块信息。