CN102541948A - 用于提取文档结构的方法和装置 - Google Patents

用于提取文档结构的方法和装置 Download PDF

Info

Publication number
CN102541948A
CN102541948A CN2010106204038A CN201010620403A CN102541948A CN 102541948 A CN102541948 A CN 102541948A CN 2010106204038 A CN2010106204038 A CN 2010106204038A CN 201010620403 A CN201010620403 A CN 201010620403A CN 102541948 A CN102541948 A CN 102541948A
Authority
CN
China
Prior art keywords
catalogue
paragraph
chapter
content
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106204038A
Other languages
English (en)
Inventor
黄冶
田寄远
陈长刚
翟因为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN2010106204038A priority Critical patent/CN102541948A/zh
Publication of CN102541948A publication Critical patent/CN102541948A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于提取文档结构的方法,包括:获取图书文档的图书目录和版式内容;根据图书目录从版式内容中识别篇章节;提取篇章节。本发明还提供了一种用于提取文档结构的装置,包括:获取模块,用于获取图书文档的图书目录和版式内容;识别模块,用于根据图书目录从版式内容中识别篇章节;提取模块,用于提取篇章节。本发明提高了提取文档结构的效率和正确率。

Description

用于提取文档结构的方法和装置
技术领域
本发明涉及数字排版领域,具体而言,涉及用于提取文档结构的方法和装置。 
背景技术
目前的结构化内容处理领域中,章节结构化内容是通过分析图书的正文内容和版式来进行提取的。具体来说,是通过分析字体、字号、章节的版式符号定义等信息,识别出章节位置。这样的方法需要先分析图书的版式特点、归纳出章节内容排版规律,再通过手工定义章节映射规则才能进行提取。该方法的具体步骤如下: 
步骤1、分析图书的正文内容和版式,确定要提取章节内容的层级映射规则。如章节的一级标题映射规则可以设置为:章节级别:一级、字体:黑体、字号:2号。 
步骤2、根据章节映射规则扫描图书正文内容和版式,识别出章节在正文中的起始位置和结束位置。提取出章节内容。如按照步骤1中列举的规则可以将字体为黑体2号的内容识别为章节起始位置。 
步骤3、对提取的章节内容进行编辑校对,如果发现章节位置识别不准确,再回到步骤1,调整章节映射规则,重新对正文进行扫描提取。 
基于上述方法的章节内容提取系统,必须首先浏览图书内容,分析章节标题的内容版式特征,归纳章节映射规则,这样的操作方式比较复杂,映射规则难以掌握。而且,这种方法虽然可以将内容版式有特定规律的章节内容提取出来,但是如果章节内容没有明显的版式特征,将无法归纳出映射规则。另外,带有图片或特定符号的章节标题也无法用规则描述出来。利用上述方法,如果提取结果有误,还需要重新分析章节内容版式、重新设定映射规则。 
综上所述,该章节结构化内容提取方法章节识别不准确、操作过程复杂、费时费力。 
发明内容
本发明旨在提供一种用于提取文档结构的方法和装置,以解决相关技术提取文档结构费时费力容易出错的问题。 
在本发明的实施例中,提供了一种用于提取文档结构的方法,包括:获取图书文档的图书目录和版式内容;根据图书目录从版式内容中识别篇章节;提取篇章节。 
在本发明的实施例中,提供了一种用于提取文档结构的装置,包括:获取模块,用于获取图书文档的图书目录和版式内容;识别模块,用于根据图书目录从版式内容中识别篇章节;提取模块,用于提取篇章节。 
本发明上述实施例的用于提取文档结构的方法和装置,利用目录信息自动地识别和提取文档结构,所以解决了相关技术提取文档结构费时费力容易出错的问题,提高了提取文档结构的效率和正确率。 
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 
图1示出了根据本发明实施例的用于提取文档结构的方法的流程图; 
图2示出了根据本发明实施例的用于提取文档结构的装置的示意图。 
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。 
图1示出了根据本发明实施例的用于提取文档结构的方法的流程图,包括: 
步骤S10,获取图书文档的图书目录和版式内容; 
步骤S20,根据图书目录从版式内容中识别篇章节; 
步骤S30,提取篇章节。 
相关技术依靠人工方式分析图书文档来提取文档结构,容易出错,且费时费力。而本实施例的方法利用目录信息识别和提取文档结构,一般的图书文档都有图书目录,而计算机进行目录信息的自动识别很容易实现,所以本方法可以通过计算机自动地识别和提取大多数图书文档的文档结构,这解决了相关技术提取文档结构费时费力容易出错的问题,提高了提取文档结构的效率和正确率。 
在本发明的实施例中还可以包括步骤:对图书文档按照流式或版式方式进行内容提取,按页提取文本内容,对每一页的正文文本可以选择不同方式进行提取。进一步地,不同格式的图书文档,如PDF、Word、PS、EPub、CEB格式,可以转换成统一的格式,如CEBX格式,然后打开和提取。 
优选地,步骤S20包括:在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容;将匹配当前目录段落的内容的起始位置作为对应于当前目录段落的篇章节的起始位置;将匹配下一目录段落的内容的起始位置作为对应于当前目录段落的篇章节的结束位置。当章节标题包含图片或者特殊的排版符号时,相关技术提取的内容不准确。而且对于没有明显排版规律的章节内容无法进行提取。该优选实施例利用文字模糊匹配技术进行识别,很容易通过计算机编程来实现,而且可以解决上述问题。 
优选地,在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容包括:如果识别到在版式内容中的当前段落匹配当前目录段落,则从下一段落开始尝试匹配下一目录段落。该优选实施例的流程结构很简单,很容易通过计算机编程来实现。 
优选地,提取篇章节包括:对于每个目录段落,提取从其所对应的篇章节的起始位置到结束位置的版式内容,作为其所对应的篇章节的版式内容;设置每个篇章节的结构级别对应于其所对应的目录段落的目录级别。因为目录段落通常具有段落级别,所以本优选实施例利用该信息可以很容易地确定篇章节的结构级别。例如根据目录段落的段落级别是章,则可以确定其对应的篇章节的结构级别是章。图书文档的图书目录(如PDF、CEB、CEBX等图书文档)通常提供了其目录段落的段落级别。如果图书目录没有提供段落级别,也可以手工添加目录级别。 
优选地,本方法还包括:创建结构化文件,其包括顺序地与篇章节一一对应的多个条目,每个条目的内容属性为对应的篇章节的版式内容,每个条目的级别属性为对应的篇章节的结构级别。本优选实施例利用提取的篇章节,将普通的图书文档导出到结构化文件中。例如,该结构化文件是XML文件,这种格式中包含了章节层级结构和文本内容,如下所示: 
Figure BSA00000407650400051
更进一步,导出的结构化内容可以入到数据库,为后端的数字出版、网站发布系统提供统一的数据格式,实现数字出版业的自动流程。 
优选地,采用模糊(近似)匹配的方式根据图书目录从版式内容中识别篇章节,如目录项的文字为“1.1实现模式”,在章节起始页会匹配到最近似的文字“1.1xx实现xx模式”,并将匹配位置作为章节起始位置。本方法还包括:将目录段落修改为与其所对应的篇章节保持一致。这可以进一步提高图书文档的质量。例如,版式内容显示某个章节名为“第一章”,而目录段落显示为“第1章”,此时可将此目录段落的名称修改为“第一章”。 
另外,在本发明的实施例中还可以包括步骤:对文本提取结果中的乱码、提取错误的文字或者像页眉、页脚这样多余的内容进行替换或删除,进行全半角转换。在本发明的实施例中还可以包括步 骤:对版式显示内容进行放大、缩小、旋转等操作,以方便对不同排版方式的内容进行校对。 
图2示出了根据本发明实施例的用于提取文档结构的装置的示意图,包括: 
获取模块10,用于获取图书文档的图书目录和版式内容; 
识别模块20,用于根据图书目录从版式内容中识别篇章节; 
提取模块30,用于提取篇章节。 
本装置提高了提取文档结构的效率和正确率。 
优选地,识别模块20包括:匹配模块,用于在版式内容中逐个段落地识别匹配图书目录中每个目录段落的内容;起始模块,用于将匹配当前目录段落的内容的起始位置作为对应于当前目录段落的篇章节的起始位置;结束模块,用于将匹配下一目录段落的内容的起始位置作为对应于当前目录段落的篇章节的结束位置。 
优选地,提取模块30包括:内容模块,用于对于每个目录段落,提取从其所对应的篇章节的起始位置到结束位置的版式内容,作为其所对应的篇章节的版式内容;级别模块,用于设置每个篇章节的结构级别对应于其所对应的目录段落的目录级别。 
优选地,本装置还包括:导出模块,用于创建结构化文件,其包括顺序地与篇章节一一对应的多个条目,每个条目的内容属性为对应的篇章节的版式内容,每个条目的级别属性为对应的篇章节的结构级别。 
从以上的描述中可以看出,本发明上述的实施例提高了提取文档结构的效率和正确率。 
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。 
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (10)

1.一种用于提取文档结构的方法,其特征在于,包括:
获取图书文档的图书目录和版式内容;
根据所述图书目录从所述版式内容中识别篇章节;
提取所述篇章节。
2.根据权利要求1所述的方法,其特征在于,根据所述图书目录从所述版式内容中识别篇章节包括:
在所述版式内容中逐个段落地识别匹配所述图书目录中每个目录段落的内容;
将匹配当前所述目录段落的内容的起始位置作为对应于当前所述目录段落的篇章节的起始位置;
将匹配下一所述目录段落的内容的起始位置作为对应于当前所述目录段落的篇章节的结束位置。
3.根据权利要求2所述的方法,其特征在于,在所述版式内容中逐个段落地识别匹配所述图书目录中每个目录段落的内容包括:
如果识别到在所述版式内容中的当前段落匹配当前所述目录段落,则从下一段落开始尝试匹配下一目录段落。
4.根据权利要求2所述的方法,其特征在于,提取所述篇章节包括:
对于每个所述目录段落,提取从其所对应的篇章节的起始位置到结束位置的版式内容,作为其所对应的篇章节的版式内容;
设置每个所述篇章节的结构级别对应于其所对应的所述目录段落的目录级别。
5.根据权利要求4所述的方法,其特征在于,还包括:
创建结构化文件,其包括顺序地与所述篇章节一一对应的多个条目,每个所述条目的内容属性为对应的所述篇章节的版式内容,每个所述条目的级别属性为对应的所述篇章节的结构级别。
6.根据权利要求1所述的方法,其特征在于,采用模糊匹配的方式根据所述图书目录从所述版式内容中识别篇章节,还包括:
将所述目录段落修改为与其所对应的篇章节保持一致。
7.一种用于提取文档结构的装置,其特征在于,包括:
获取模块,用于获取图书文档的图书目录和版式内容;
识别模块,用于根据所述图书目录从所述版式内容中识别篇章节;
提取模块,用于提取所述篇章节。
8.根据权利要求7所述的装置,其特征在于,所述识别模块包括:
匹配模块,用于在所述版式内容中逐个段落地识别匹配所述图书目录中每个目录段落的内容;
起始模块,用于将匹配当前所述目录段落的内容的起始位置作为对应于当前所述目录段落的篇章节的起始位置;
结束模块,用于将匹配下一所述目录段落的内容的起始位置作为对应于当前所述目录段落的篇章节的结束位置。
9.根据权利要求8所述的装置,其特征在于,所述提取模块包括:
内容模块,用于对于每个所述目录段落,提取从其所对应的篇章节的起始位置到结束位置的版式内容,作为其所对应的篇章节的版式内容;
级别模块,用于设置每个所述篇章节的结构级别对应于其所对应的所述目录段落的目录级别。
10.根据权利要求9所述的装置,其特征在于,还包括:
导出模块,用于创建结构化文件,其包括顺序地与所述篇章节一一对应的多个条目,每个所述条目的内容属性为对应的所述篇章节的版式内容,每个所述条目的级别属性为对应的所述篇章节的结构级别。
CN2010106204038A 2010-12-23 2010-12-23 用于提取文档结构的方法和装置 Pending CN102541948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106204038A CN102541948A (zh) 2010-12-23 2010-12-23 用于提取文档结构的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106204038A CN102541948A (zh) 2010-12-23 2010-12-23 用于提取文档结构的方法和装置

Publications (1)

Publication Number Publication Date
CN102541948A true CN102541948A (zh) 2012-07-04

Family

ID=46348863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106204038A Pending CN102541948A (zh) 2010-12-23 2010-12-23 用于提取文档结构的方法和装置

Country Status (1)

Country Link
CN (1) CN102541948A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置
CN106326194A (zh) * 2015-07-06 2017-01-11 北大方正集团有限公司 一种应用于文件格式转换场景下的目录生成方法和装置
CN106502991A (zh) * 2016-10-28 2017-03-15 人民卫生电子音像出版社有限公司 出版物处理方法和装置
CN106528877A (zh) * 2016-12-12 2017-03-22 远光软件股份有限公司 word文档的模块化方法及系统
CN106815202A (zh) * 2015-12-01 2017-06-09 北大方正集团有限公司 标题校验方法及系统
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN110502729A (zh) * 2019-02-21 2019-11-26 贵州广思信息网络有限公司 一种word批量处理章节序号与样式的方法
CN111382621A (zh) * 2018-12-28 2020-07-07 北大方正集团有限公司 参数调整方法和装置
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN113505566A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 一种版式文档的处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
葛一兵等: "基于XML的PDF文档内容与结构的表示的实现", 《计算机工程与应用》 *
陈路瑶等: "信息文档结构信任模式的提取及逻辑描述", 《计算机应用研究》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544172B (zh) * 2012-07-13 2019-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
CN105653549A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档信息的方法及装置
CN106326194A (zh) * 2015-07-06 2017-01-11 北大方正集团有限公司 一种应用于文件格式转换场景下的目录生成方法和装置
CN106326194B (zh) * 2015-07-06 2019-03-29 北大方正集团有限公司 一种应用于文件格式转换场景下的目录生成方法和装置
CN106815202A (zh) * 2015-12-01 2017-06-09 北大方正集团有限公司 标题校验方法及系统
CN106502991A (zh) * 2016-10-28 2017-03-15 人民卫生电子音像出版社有限公司 出版物处理方法和装置
CN106502991B (zh) * 2016-10-28 2019-07-19 人民卫生电子音像出版社有限公司 出版物处理方法和装置
CN106528877A (zh) * 2016-12-12 2017-03-22 远光软件股份有限公司 word文档的模块化方法及系统
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN111382621A (zh) * 2018-12-28 2020-07-07 北大方正集团有限公司 参数调整方法和装置
CN110502729A (zh) * 2019-02-21 2019-11-26 贵州广思信息网络有限公司 一种word批量处理章节序号与样式的方法
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN113505566A (zh) * 2021-05-25 2021-10-15 北京北大方正电子有限公司 一种版式文档的处理方法和装置

Similar Documents

Publication Publication Date Title
CN102541948A (zh) 用于提取文档结构的方法和装置
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
US20180101726A1 (en) Systems and Methods for Optical Character Recognition for Low-Resolution Documents
US9449031B2 (en) Sorting and filtering a table with image data and symbolic data in a single cell
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
US9081412B2 (en) System and method for using paper as an interface to computer applications
CN102012894B (zh) 一种终端文档显示方法及系统
CN101441713B (zh) 一种pdf文件的光学字符识别方法及装置
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
US20010053252A1 (en) Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
CN104346319B (zh) 检查文档样式的方法及系统
US8229912B2 (en) Enhanced search engine
CN103389969A (zh) 一种用于移动终端预览pdf文件的方法、装置和系统
US20120265759A1 (en) File processing of native file formats
CN101008940B (zh) 自动处理字体缺失的方法与装置
CN110457973A (zh) 一种票据识别的方法及系统
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
CN103778141A (zh) 一种混合pdf图书目录自动抽取算法
CN103902571A (zh) 保存网页完整内容的方法、系统及相应的客户端和服务器
CN107301180A (zh) 一种文档结构的分析方法和装置
CN105373562A (zh) 一种pdf文档注释的获取方法及装置
CN103870606A (zh) 一种网页信息提取系统及提取方法
CN105320716A (zh) 数字出版物的自动标注方法
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120704