CN104268127A - 一种电子档版式文件阅读顺序分析的方法 - Google Patents

一种电子档版式文件阅读顺序分析的方法 Download PDF

Info

Publication number
CN104268127A
CN104268127A CN201410488102.2A CN201410488102A CN104268127A CN 104268127 A CN104268127 A CN 104268127A CN 201410488102 A CN201410488102 A CN 201410488102A CN 104268127 A CN104268127 A CN 104268127A
Authority
CN
China
Prior art keywords
text
content
reading order
block content
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410488102.2A
Other languages
English (en)
Other versions
CN104268127B (zh
Inventor
张斌
张晓博
张宝亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN201410488102.2A priority Critical patent/CN104268127B/zh
Publication of CN104268127A publication Critical patent/CN104268127A/zh
Application granted granted Critical
Publication of CN104268127B publication Critical patent/CN104268127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种电子档版式文件阅读顺序分析的方法,所述方法包括以下步骤:提取PDF文件中原始信息;识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;对文本行内容进行块合并,得到文本块内容;对相邻图片进行合并,得到图片块内容;对路径信息进行分析,得到水平方向的分割线;将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信为元素,进行拓扑排序,得到PDF文件的阅读顺序;通过阅读顺序基础对文本块内容进行分段识别;输出XML格式文本。

Description

一种电子档版式文件阅读顺序分析的方法
技术领域
本发明涉及信息技术领域,尤其涉及一种电子档版式文件阅读顺序分析的方法。
背景技术
PDF(Portable Document Format,便携式文件格式)是Adobe公司发展出来的一种文件格式,它的优点在于跨平台,能保留文件原有的格式(Layout),高质量和保真的进行原始文件和格式的呈现,但是PDF是非结构化的数据存储格式,对于进行PDF文件中文本的信息检索或PDF格式转换为其它流式格式文件,提取出来的文本信息并非是按文件的阅读顺序输出,可能存在后序的内容提前出现在输出的文本中。
专利申请号为2010105591353的专利申请文件公开了识别版面阅读顺序的方法,包括:读取待识别版面,并分析版面以得到版面布局信息和字符文本对象和图像对象的对象属性;根据版面布局信息和对象属性,将字符文本对象合并为文本段落并将图形对象识别为图像段落;采用全局递归切割与局部先后顺序判定相结合的方式来确定文本段落和图像段落的阅读顺序,其中,通过投影来进行全局切割,对于全局切割之后仍包含多个段落的分组,采用局部判定方法来判断段落的先后顺序。此方法使用的递归划分法在纵向有一定缺陷,容易出现模棱两可的块划分。
专利申请号为2004100914343的专利申请文件公开了一种基于内容的对报纸版面进行文字阅读顺序恢复的方法,该方法是针对处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷的问题来以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。此方法使用了复杂的图论算法和自然语言处理技术。
为了解决上述问题本申请文件提供了一种针对版式文件进行聚类分析,并按照拓扑排序的方法进行阅读顺序分析和识别的方法。
发明内容
为解决上述技术问题,本发明的目的是提供一种针对版式文件进行聚类分析,并按照拓扑顺序的方法进行阅读顺序分析和识别的方法,该方法通过识别物理块的拓扑顺序,即可实现快速高效准确的判定逻辑顺序。方法简单高效、准确率高。
本发明的目的通过以下的技术方案来实现:
提取PDF文件中原始信息;
识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;
对文本行内容进行块合并,得到文本块内容;
对相邻图片进行合并,得到图片块内容;
对路径信息进行分析,得到水平方向的分割线;
将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;
以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;
通过阅读顺序基础对文本块内容进行分段识别;
输出XML格式文本。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法针对版式文件进行聚类分析,按照拓扑排序的方法进行阅读顺序分析和识别的方法,同时对输出内容进行XML格式化话输出,方便进行PDF格式文件的检索和格式转换。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是电子档版式文件阅读顺序分析的方法流程图;
图2是PDF原始文件结构图;
图3是原始文本信息结构图;
图4是文本行合并、页眉页脚识别和分隔行识别效果图;
图5是文本块效果结构图;
图6是阅读顺序分析效果图;
图7是逻辑段落效果结构图;
图8是XML输出图;
图9是包含图片和表格的阅读顺序分析效果图;
图10是三栏的PDF文件阅读顺序效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,是电子档版式文件阅读顺序分析的方法流程,包括以下步骤:
提取PDF文件中原始信息;
识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;
对文本行内容进行块合并,得到文本块内容;
对相邻图片进行合并,得到图片块内容;
对路径信息进行分析,得到水平方向的分割线;
将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;
以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;
通过阅读顺序基础对文本块内容进行分段识别;
输出XML格式文本。
上述对不同于正文内容的表格文本内容进行区域识别。
对所述相邻图片合并还包括:对分割过的PDF图片进行相邻合并,因为虚拟打印生成的PDF图片可能是被分割过的,需要进行相邻合并,同时进行相邻小图片的合并,得到一个相对较大的图片。
所述提取的PDF文件中原始信息包括:文本信息、图片信息和图片的坐标信息、路径信息及PDF的页码与页面大小。
所述文本信息包括文本内容、字体信息和坐标信息。
所述文本快内容和图片块内容进行X方向投影,是通过XYCut算法计算出水平方向的分隔块信息。
上述以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素,进行拓扑排序,现以物理块A、物理块B和物理块C为例,其排序过程依据以下两条规则:
(1)当物理块A在x方向覆盖B时,A的拓扑序在B之前。
(2)当物理块A和B之间(Y方向)不存在一个物理块C同时覆盖物理块A和物理块B时,同时物理块A在物理块B的左侧,那么A的拓扑序在物理块B之前。
按照上述两条规则,确定任意两个物理块的物理顺序,并按照拓扑排序算法进行物理块的遍历,得到PDF页面的阅读顺序。
如附图为本实施例实例图,图2是PDF原始文件结构图;图3是原始文本信息结构图;图4是文本行合并、页眉页脚识别和分隔行识别效果图;图5是文本块效果结构图;图6是阅读顺序分析效果图;图7是逻辑段落效果结构图;图8是XML输出图;图9是包含图片和表格的阅读顺序分析效果图;图10是三栏的PDF文件阅读顺序效果图。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种电子档版式文件阅读顺序分析的方法,其特征在于,所述方法包括以下步骤:
提取PDF文件中原始信息;
识别页眉、页脚,并对相邻文本内容进行合并,得到行内容;
对文本行内容进行块合并,得到文本块内容;
对相邻图片进行合并,得到图片块内容;
对路径信息进行分析,得到水平方向的分割线;
将文本快内容和图片块内容进行X方向投影,得到水平分隔块内容;
以文本块内容、图片块内容、水平分隔线、表格及水平分隔块内容物理信息为元素,进行拓扑排序,得到PDF文件的阅读顺序;
通过阅读顺序基础对文本块内容进行分段识别;
输出XML格式文本。
2.根据权利要求1所述的电子档版式文件阅读顺序分析的方法,其特征在于,所述步骤还包括:对不同于正文内容的表格文本内容进行区域识别。
3.根据权利要求1所述的电子档版式文件阅读顺序分析的方法,其特征在于,对所述相邻图片合并还包括:对分割过的PDF图片进行相邻合并。
4.根据权利要求1所述的电子档版式文件阅读顺序分析的方法,其特征在于,所述提取的PDF文件中原始信息包括:文本信息、图片信息和图片的坐标信息、路径信息及PDF的页码与页面大小。
5.根据权利要求4所述的电子档版式文件阅读顺序分析的方法,其特征在于,所述文本信息包括文本内容、字体信息和坐标信息。
6.根据权利要求1所述的电子档版式文件阅读顺序分析的方法,其特征在于,所述文本快内容和图片块内容进行X方向投影,是通过XYCut算法计算出水平方向的分隔块信息。
CN201410488102.2A 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法 Active CN104268127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410488102.2A CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410488102.2A CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Publications (2)

Publication Number Publication Date
CN104268127A true CN104268127A (zh) 2015-01-07
CN104268127B CN104268127B (zh) 2018-02-09

Family

ID=52159650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410488102.2A Active CN104268127B (zh) 2014-09-22 2014-09-22 一种电子档版式文件阅读顺序分析的方法

Country Status (1)

Country Link
CN (1) CN104268127B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105512647A (zh) * 2016-01-19 2016-04-20 同方知网(北京)技术有限公司 扫描版文件在小屏幕设备智能分版的方法及装置
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106446863A (zh) * 2016-10-11 2017-02-22 同方知网(北京)技术有限公司 一种 pdf 文档逻辑图识别的方法
CN106603838A (zh) * 2016-12-06 2017-04-26 深圳市金立通信设备有限公司 一种图像处理方法及终端
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108268429A (zh) * 2017-06-15 2018-07-10 广东神马搜索科技有限公司 网络文学章节的确定方法和装置
WO2018161764A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 检测文档阅读顺序的方法、计算机设备和存储介质
CN108874283A (zh) * 2018-05-29 2018-11-23 努比亚技术有限公司 图片识别方法、移动终端及计算机可读存储介质
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
WO2019075970A1 (zh) * 2017-10-16 2019-04-25 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
WO2019075969A1 (zh) * 2017-10-16 2019-04-25 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN110334710A (zh) * 2019-07-10 2019-10-15 深圳市华云中盛科技有限公司 法律文书识别方法、装置、计算机设备及存储介质
CN110704570A (zh) * 2019-08-13 2020-01-17 北京众信博雅科技有限公司 一种连续页版式文档结构化信息提取方法
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN111680491A (zh) * 2020-05-27 2020-09-18 北京字节跳动科技有限公司 文档信息的抽取方法、装置和电子设备
CN111753717A (zh) * 2020-06-23 2020-10-09 北京百度网讯科技有限公司 用于提取文本的结构化信息的方法、装置、设备及介质
US11069342B2 (en) 2017-03-10 2021-07-20 Tencent Technology (Shenzhen) Company Limited Method for training voice data set, computer device, and computer-readable storage medium
CN113850268A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604075A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行文字阅读顺序恢复的方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
EP2720220A1 (en) * 2012-10-10 2014-04-16 Samsung Electronics Co., Ltd Portable device and image displaying method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604075A (zh) * 2004-11-22 2005-04-06 北京北大方正技术研究院有限公司 一种对报纸版面进行文字阅读顺序恢复的方法
CN102262618A (zh) * 2010-05-28 2011-11-30 北京大学 一种版面信息识别的方法及装置
EP2720220A1 (en) * 2012-10-10 2014-04-16 Samsung Electronics Co., Ltd Portable device and image displaying method thereof
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HERVE DEJEAN等: "A System for Converting PDF Documents into Structured XML Format", 《INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEM》 *
JEAN-LUC MEUNIER: "Optimized XY-Cut for Determining a Page Reading Order", 《CDAR》 *
JIAN FAN: "Text Segmentation of Consumer Magazines in PDF Format", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
LIANGCAI GAO等: "Structure Extraction from PDF-based Book Documents", 《PROCEEDINGS OF THE 11TH ANNUAL INTERNATIONAL ACM/IEEE JOINT CONFERENCE ON DIGITAL LIBRARIES》 *
房婧等: "版式电子文档表格自动检测与性能评估", 《北京大学学报(自然科学版)》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105302626B (zh) * 2015-11-09 2021-07-23 深圳市巨鼎医疗股份有限公司 Xps结构化数据的解析方法
CN105512647A (zh) * 2016-01-19 2016-04-20 同方知网(北京)技术有限公司 扫描版文件在小屏幕设备智能分版的方法及装置
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106446863A (zh) * 2016-10-11 2017-02-22 同方知网(北京)技术有限公司 一种 pdf 文档逻辑图识别的方法
CN106603838A (zh) * 2016-12-06 2017-04-26 深圳市金立通信设备有限公司 一种图像处理方法及终端
CN106802884B (zh) * 2017-02-17 2020-09-22 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
WO2018161764A1 (zh) * 2017-03-08 2018-09-13 腾讯科技(深圳)有限公司 检测文档阅读顺序的方法、计算机设备和存储介质
US11069342B2 (en) 2017-03-10 2021-07-20 Tencent Technology (Shenzhen) Company Limited Method for training voice data set, computer device, and computer-readable storage medium
CN108268429B (zh) * 2017-06-15 2021-08-06 阿里巴巴(中国)有限公司 网络文学章节的确定方法和装置
CN108268429A (zh) * 2017-06-15 2018-07-10 广东神马搜索科技有限公司 网络文学章节的确定方法和装置
WO2019075970A1 (zh) * 2017-10-16 2019-04-25 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
WO2019075969A1 (zh) * 2017-10-16 2019-04-25 平安科技(深圳)有限公司 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN108132916A (zh) * 2017-11-30 2018-06-08 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108874283A (zh) * 2018-05-29 2018-11-23 努比亚技术有限公司 图片识别方法、移动终端及计算机可读存储介质
CN108874283B (zh) * 2018-05-29 2021-06-18 努比亚技术有限公司 图片识别方法、移动终端及计算机可读存储介质
CN109697414A (zh) * 2018-12-13 2019-04-30 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN109657221B (zh) * 2018-12-13 2023-08-01 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
CN110334710A (zh) * 2019-07-10 2019-10-15 深圳市华云中盛科技有限公司 法律文书识别方法、装置、计算机设备及存储介质
CN110704570A (zh) * 2019-08-13 2020-01-17 北京众信博雅科技有限公司 一种连续页版式文档结构化信息提取方法
CN111680491A (zh) * 2020-05-27 2020-09-18 北京字节跳动科技有限公司 文档信息的抽取方法、装置和电子设备
CN111680491B (zh) * 2020-05-27 2024-02-02 北京字跳网络技术有限公司 文档信息的抽取方法、装置和电子设备
CN111753717A (zh) * 2020-06-23 2020-10-09 北京百度网讯科技有限公司 用于提取文本的结构化信息的方法、装置、设备及介质
CN111753717B (zh) * 2020-06-23 2023-07-28 北京百度网讯科技有限公司 用于提取文本的结构化信息的方法、装置、设备及介质
CN113850268A (zh) * 2021-09-29 2021-12-28 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN113850268B (zh) * 2021-09-29 2024-05-31 平安科技(深圳)有限公司 基于人工智能的文本识别排序方法、装置、设备及介质
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Also Published As

Publication number Publication date
CN104268127B (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN104268127A (zh) 一种电子档版式文件阅读顺序分析的方法
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
Fang et al. A table detection method for multipage pdf documents via visual seperators and tabular structures
CN107766328B (zh) 结构化文本的文本信息提取方法、存储介质和服务器
Shigarov et al. Configurable table structure recognition in untagged PDF documents
US20150095769A1 (en) Layout Analysis Method And System
CN104572622B (zh) 一种术语的筛选方法
Ray Choudhury et al. An architecture for information extraction from figures in digital libraries
WO2017177809A1 (zh) 语言文本的分词方法和系统
US20160314104A1 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
Singh et al. OCR++: a robust framework for information extraction from scholarly articles
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
US8484229B2 (en) Method and system for identifying traditional arabic poems
CN104517106A (zh) 一种列表识别方法与系统
CN102591612A (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN104751148A (zh) 一种版式文件中识别科学公式的方法
CN106372053B (zh) 句法分析的方法和装置
CN108132917B (zh) 一种文档纠错标记方法
CN107436931B (zh) 网页正文抽取方法及装置
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN109472020A (zh) 一种特征对齐中文分词方法
US20140281878A1 (en) Aligning Annotation of Fields of Documents
JP2013254321A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant