CN104268127B - 一种电子档版式文件阅读顺序分析的方法 - Google Patents

一种电子档版式文件阅读顺序分析的方法 Download PDF

Info

Publication number
CN104268127B
CN104268127B CN201410488102.2A CN201410488102A CN104268127B CN 104268127 B CN104268127 B CN 104268127B CN 201410488102 A CN201410488102 A CN 201410488102A CN 104268127 B CN104268127 B CN 104268127B
Authority
CN
China
Prior art keywords
content
block
text
picture
physical
Prior art date
Application number
CN201410488102.2A
Other languages
English (en)
Other versions
CN104268127A (zh
Inventor
张斌
张晓博
张宝亮
Original Assignee
同方知网(北京)技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 同方知网(北京)技术有限公司 filed Critical 同方知网(北京)技术有限公司
Priority to CN201410488102.2A priority Critical patent/CN104268127B/zh
Publication of CN104268127A publication Critical patent/CN104268127A/zh
Application granted granted Critical
Publication of CN104268127B publication Critical patent/CN104268127B/zh

Links

Abstract

本发明公开了一种电子档版式文件阅读顺序分析的方法,所述方法包括以下步骤:提取PDF文件中原始信息;识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;对文本行内容进行块合并,得到文本块内容;对相邻图片进行合并,得到图片块内容;对路径信息进行分析,得到水平方向的分割线;将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信为元素,进行拓扑排序,得到PDF文件的阅读顺序;通过阅读顺序基础对文本块内容进行分段识别;输出XML格式文本。

Description

一种电子档版式文件阅读顺序分析的方法

技术领域

[0001] 本发明涉及信息技术领域,尤其涉及一种电子档版式文件阅读顺序分析的方法。

背景技术

[0002] PDF (Portable Document Format,便携式文件格式)是Adobe公司发展出来的一种 文件格式,它的优点在于跨平台,能保留文件原有的格式(Layout),高质量和保真的进行原 始文件和格式的呈现,但是PDF是非结构化的数据存储格式,对于进行PDF文件中文本的信 息检索或PDF格式转换为其它流式格式文件,提取出来的文本信息并非是按文件的阅读顺 序输出,可能存在后序的内容提前出现在输出的文本中。

[0003] 专利申请号为2010105591353的专利申请文件公开了识别版面阅读顺序的方法, 包括:读取待识别版面,并分析版面以得到版面布局信息和字符文本对象和图像对象的对 象属性;根据版面布局信息和对象属性,将字符文本对象合并为文本段落并将图形对象识 别为图像段落;采用全局递归切割与局部先后顺序判定相结合的方式来确定文本段落和图 像段落的阅读顺序,其中,通过投影来进行全局切割,对于全局切割之后仍包含多个段落的 分组,采用局部判定方法来判断段落的先后顺序。此方法使用的递归划分法在纵向有一定 缺陷,容易出现模棱两可的块划分。

[0004] 专利申请号为2004100914343的专利申请文件公开了一种基于内容的对报纸版面 进行文字阅读顺序恢复的方法,该方法是针对处理复杂报纸版面存在丢失阅读顺序且内容 不具有篇章独立性的缺陷的问题来以图论理论进行数学建模,把文字块的邻接关系表示为 有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通 过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序 列对应内容的连接即是独立篇章的具有阅读顺序的文字流。此方法使用了复杂的图论算法 和自然语言处理技术。

[0005] 为了解决上述问题本申请文件提供了一种针对版式文件进行聚类分析,并按照拓 扑排序的方法进行阅读顺序分析和识别的方法。

发明内容

[0006]为解决上述技术问题,本发明的目的是提供一种针对版式文件进行聚类分析,并 按照拓扑顺序的方法进行阅读顺序分析和识别的方法,该方法通过识别物理块的拓扑顺 序,即可实现快速高效准确的判定逻辑顺序。方法简单高效、准确率高。

[0007] 本发明的目的通过以下的技术方案来实现:

[0008] 提取PDF文件中原始信息;

[0009]识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;

[0010] 对文本行内容进行块合并,得到文本块内容;

[0011] 对相邻图片进行合并,得到图片块内容;

[0012]对路径信息进行分析,得到水平方向的分割线;

[0013] 将文本块内容和图片块内容进行X方向投影,得到水平分隔块内容;

[0014] 以文本块内容、图片块内容、水平方向的分割线、表格及水平分隔块内容物理信息 为元素,进行拓扑排序,得到PDF文件的阅读顺序;

[0015] 通过阅读顺序基础对文本块内容进行分段识别;

[0016] 输出XML格式文本。

[0017]与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

[0018]该方法针对版式文件进行聚类分析,按照拓扑排序的方法进行阅读顺序分析和识 别的方法,同时对输出内容进行XML格式化输出,方便进行TOF格式文件的检索和格式转换。

附图说明

[0019]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例共同用于解释本发明,并不构成对本发明的限制。在附图中:

[0020] 图1是电子档版式文件阅读顺序分析的方法流程图;

[0021] 图2是PDF原始文件结构图;

[0022]图3是原始文本信息结构图;

[0023]图4是文本行合并、页眉页脚识别和分隔行识别效果图;

[0024]图5是文本块效果结构图;

[0025] 图6是阅读顺序分析效果图;

[0026] 图7是逻辑段落效果结构图;

[0027] 图8是XML输出图;

[0028]图9是包含图片和表格的阅读顺序分析效果图;

[0029]图10是三栏的PDF文件阅读顺序效果图。

具体实施方式

[0030]为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发 明作进一步详细的描述。

[0031] 如图1所示,是电子档版式文件阅读顺序分析的方法流程,包括以下步骤:

[0032] 提取PDF文件中原始信息;

[0033] 识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;

[0034] 对文本行内容进行块合并,得到文本块内容;

[0035] 对相邻图片进行合并,得到图片块内容;

[0036]对路径信息进行分析,得到水平方向的分割线;

[0037] 将文本块内容和图片块内容进行X方向投影,得到水平分隔块内容;

[0038]以文本块内容、图片块内容、水平方向的分割线、表格及水平分隔块内容物理信息 为元素,进行拓扑排序,得到PDF文件的阅读顺序;

[0039]通过阅读顺序基础对文本块内容进行分段识别;

[0040] 输出XML格式文本。

[0041] 上述对不同于正文内容的表格文本内容进行区域识别。

[0042] 对所述相邻图片合并还包括:对分割过的PDF图片进行相邻合并,因为虚拟打印生 成的PDF图片可能是被分割过的,需要进行相邻合并,同时进行相邻小图片的合并,得到一 个相对较大的图片。

[0043]所述提取的PDF文件中原始信息包括:文本信息、图片信息和图片的坐标信息、路 径信息及PDF的页码与页面大小。

[0044]所述文本信息包括文本内容、字体信息和坐标信息。

[0045]所述文本块内容和图片块内容进行X方向投影,是通过XYCut算法计算出水平方向 的分隔块信息。

[0046] 上述以文本块内容、图片块内容、水平方向的分割线、表格及水平分隔块内容物理 信息为元素,进行拓扑排序,现以物理块A、物理块B和物理块C为例,其排序过程依据以下两 条规则:

[0047] (1)当物理块A在X方向覆盖B时,A的拓扑序在B之前。

[0048] (2)当物理块A和B之间(Y方向)不存在一个物理块C同时覆盖物理块A和物理块B 时,同时物理块A在物理块B的左侧,那么A的拓扑序在物理块B之前。

[0049] 按照上述两条规则,确定任意两个物理块的物理顺序,并按照拓扑排序算法进行 物理块的遍历,得到roF页面的阅读顺序。

[0050]如附图为本实施例实例图,图2是PDF原始文件结构图;图3是原始文本信息结构 图;图4是文本行合并、页眉页脚识别和分隔行识别效果图;图5是文本块效果结构图;图6是 阅读顺序分析效果图;图7是逻辑段落效果结构图;图8是XML输出图;图9是包含图片和表格 的阅读顺序分析效果图;图10是三栏的PDF文件阅读顺序效果图。 _

[0051]虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明$采 用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本 发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化, 但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (1)

1. 一种电子档版式文件阅读顺序分析的方法,其特征在于,所述方法包括以下步骤: 提取PDF文件中原始信息; 识别页眉、页脚,并对相邻文本内容进行合并,得到行内容; 对文本行内容进行块合并,得到文本块内容; 对相邻图片进行合并,得到图片块内容; 对路径信息进行分析,得到水平方向的分割线; 将文本块内容和图片块内容进行X方向投影,得到水平分隔块内容; 以文本块内容、图片块内容、水平方向的分割线、表格及水平分隔块内容物理信息为元 素,进行拓扑排序,得到PDF文件的阅读顺序; 通过阅读顺序基础对文本块内容进行分段识别; 输出XML格式文本; 对所述相邻图片合并还包括:对分割过的PDF图片进行相邻合并,由于虚拟打印生成的 PDF图片可能是被分割过的,需要进行相邻合并,同时进行相邻小图片的合并,得到一个相 对较大的图片; 所述提取的roF文件中原始信息包括:文本信息、图片信息和图片的坐标信息、路径信 息及roF的页码与页面大小; 所述文本信息包括文本内容、字体信息和坐标信息; 所述以文本块内容、图片块内容、水平方向的分割线、表格及水平分隔块内容物理信息 为元素,进行拓扑排序的规则以物理块A、物理块B和物理块C为例,其排序过程依据两条规 则: (1) 当物理块A在x方向覆盖B时,A的拓扑序在B之前; (2) 当物理块A和B之间即:Y方向,不存在一个物理块C同时覆盖物理块A和物理块B时, 同时物理块A在物理块B的左侧,那么A的拓扑序在物理块B之前; 通过上述规则,确定任意两个物理块的物理顺序,并按照拓扑排序法进行物理块的遍 历,得到PDF页面的阅读顺序; 所述文本块内容和图片块内容进行X方向投影,是通过XYCut算法计算出水平方向的分 隔块彳9息。
CN201410488102.2A 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法 CN104268127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410488102.2A CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410488102.2A CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Publications (2)

Publication Number Publication Date
CN104268127A CN104268127A (zh) 2015-01-07
CN104268127B true CN104268127B (zh) 2018-02-09

Family

ID=52159650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410488102.2A CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Country Status (1)

Country Link
CN (1) CN104268127B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105512647A (zh) * 2016-01-19 2016-04-20 同方知网(北京)技术有限公司 扫描版文件在小屏幕设备智能分版的方法及装置
CN106326854B (zh) * 2016-08-19 2019-09-06 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106446863B (zh) * 2016-10-11 2020-01-21 同方知网(北京)技术有限公司 一种pdf文档逻辑图识别的方法
CN106603838A (zh) * 2016-12-06 2017-04-26 深圳市金立通信设备有限公司 一种图像处理方法及终端
CN106802884B (zh) * 2017-02-17 2020-09-22 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN108334805B (zh) * 2017-03-08 2020-04-03 腾讯科技(深圳)有限公司 检测文档阅读顺序的方法和装置
CN108268429A (zh) * 2017-06-15 2018-07-10 广东神马搜索科技有限公司 网络文学章节的确定方法和装置
CN107818075A (zh) * 2017-10-16 2018-03-20 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN107832676A (zh) * 2017-10-16 2018-03-23 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN109934209B (zh) 2019-05-17 2019-07-30 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路及介质
CN110334710A (zh) * 2019-07-10 2019-10-15 深圳市华云中盛科技有限公司 法律文书识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604075A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行文字阅读顺序恢复的方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
EP2720220A1 (en) * 2012-10-10 2014-04-16 Samsung Electronics Co., Ltd Portable device and image displaying method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604075A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行文字阅读顺序恢复的方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
EP2720220A1 (en) * 2012-10-10 2014-04-16 Samsung Electronics Co., Ltd Portable device and image displaying method thereof
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A System for Converting PDF Documents into Structured XML Format;Herve Dejean等;《International Workshop on Document Analysis System》;20061231;第129-140页 *
Optimized XY-Cut for Determining a Page Reading Order;Jean-Luc Meunier;《CDAR》;20051231;第5卷;第347-351页 *
Structure Extraction from PDF-based Book Documents;Liangcai Gao等;《Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries》;20111231;第11-20页 *
Text Segmentation of Consumer Magazines in PDF Format;Jian Fan;《2011 International Conference on Document Analysis and Recognition》;20111231;第794-798页 *
版式电子文档表格自动检测与性能评估;房婧等;《北京大学学报(自然科学版)》;20130131;第49卷(第1期);第45-53页 *

Also Published As

Publication number Publication date
CN104268127A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
Hu et al. Wordsup: Exploiting word annotations for character based text detection
Jaderberg et al. Reading text in the wild with convolutional neural networks
US9268999B2 (en) Table recognizing method and table recognizing system
Novikova et al. Large-lexicon attribute-consistent text recognition in natural images
Gatos et al. ICDAR2009 handwriting segmentation contest
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
CN104751198B (zh) 图像中的目标物的识别方法及装置
US8260049B2 (en) Model-based method of document logical structure recognition in OCR systems
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
KR101376863B1 (ko) 문서 시각 구조의 문법 분석
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
CN107301244B (zh) 一种商标分卡处理的方法、装置、系统及商标存储器
EP2343670B1 (en) Apparatus and method for digitizing documents
US9922247B2 (en) Comparing documents using a trusted source
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
CN103942550B (zh) 一种基于稀疏编码特征的场景文本识别方法
US20130283148A1 (en) Extraction of Content from a Web Page
CN107168955B (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
US8861856B2 (en) Model-based methods of document logical structure recognition in OCR systems
Wu et al. Self-organized text detection with minimal post-processing via border learning
EP1739574B1 (en) Method of identifying words in an electronic document
US20140348420A1 (en) Method and system for automatic selection of one or more image processing algorithm
JP2004046315A (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US8209600B1 (en) Method and apparatus for generating layout-preserved text
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
GR01 Patent grant