CN102479248A - 一种电子文档结构化处理的方法和系统 - Google Patents

一种电子文档结构化处理的方法和系统 Download PDF

Info

Publication number
CN102479248A
CN102479248A CN2011101414208A CN201110141420A CN102479248A CN 102479248 A CN102479248 A CN 102479248A CN 2011101414208 A CN2011101414208 A CN 2011101414208A CN 201110141420 A CN201110141420 A CN 201110141420A CN 102479248 A CN102479248 A CN 102479248A
Authority
CN
China
Prior art keywords
label
electronic document
pattern
handled
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101414208A
Other languages
English (en)
Inventor
张训军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HOPE SOFTWARE Co Ltd
Original Assignee
BEIJING HOPE SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HOPE SOFTWARE Co Ltd filed Critical BEIJING HOPE SOFTWARE Co Ltd
Priority to CN2011101414208A priority Critical patent/CN102479248A/zh
Publication of CN102479248A publication Critical patent/CN102479248A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统,所述方法包括如下步骤:步骤S1,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。

Description

一种电子文档结构化处理的方法和系统
技术领域
本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统。
背景技术
出版企业为实现其多元化、数字化出版的目标,通常需要将电子书稿进行结构化处理,即给文档内容添加结构标签,以xml形式对文档内容进行描述。目前,市面上的一些排版软件(如Microsoft Word、Adobe Indisign等)提供了为文档内容添加XML标签(Tag)的功能。但借助这些软件,标签的添加通常是以交互方式进行的,每次只能添加一个标签,处理效率低下,无法满足海量数据批量处理的需要。Indesign虽然提供了样式和标签匹配的功能,可以实现标签的批量添加,但添加的标签是没有层次关系的,同样无法达到电子文档结构化处理的要求。
发明内容
本发明的目的在于解决上述技术问题,提供一种电子文档结构化处理的方法和系统,以解决电子文档结构化的问题,本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。
为了解决上述技术问题,根据本发明提供的具体实施例,本发明公布了如下技术方案:
一种电子文档结构化处理的方法,包括如下步骤:
步骤S1,制定对所述电子文档进行结构化处理的标签结构;
步骤S2,段落样式识别,获取所述电子文档的段落样式信息;
步骤S3,将所述段落样式信息与所述结构标签进行匹配;
步骤S4,根据所述结构标签构造标签的层次关系。
进一步的,上述标签结构制定步骤通过标签编辑器进行。
进一步的,上述的标签结构可以存储在文本文件中、xml文件中,也可以存储在数据库中。
进一步的,上述的步骤S2段落样式识别通过排版软件提供的二次开发接口获取电子文档中的段落样式信息。
进一步的,将段落样式信息与标签进行匹配,创建标签样式对,如果在电子文档中遇到使用相同样式的文档内容都自动添加相应标签。
进一步的,上述的样式与标签的匹配步骤还包括:遍历书稿,遇到新的排版样式,即高亮显示此样式对应的文本内容。
进一步的,由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,记录标签对应的文档内容在文档中的位置,以构造标签的层次关系。
进一步的,上述方法还包括如下步骤,在给所述电子文档的内容加注结构标签以后,通过结构标签的名称来构造标签的层次关系。
一种电子文档结构化处理系统,包括:
标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;
段落样式识别单元,用于获取所述电子文档的段落样式信息;
样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;
标签层次构造单元,用于根据所述结构标签构造标签的层次关系。
与现有技术相比,本发明具有如下优点:
本发明能够实现文档结构标签的自动标注,可以高效地实现文档的结构化处理并保持文档本身的逻辑和层次关系,大大提高了图书数据的处理效率,对于一个几十页的Word文档,使用本发明提供的数据处理方法进行处理,只需几分钟时间,而通过手工方式标注的话,可能需要几十分钟或更长时间。
附图说明
图1本发明方法示意图。
图2本发明方法流程示意图。
图3本发明系统示意图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明专利属于用于外部数据处理的涉及计算机程序的发明专利。本发明专利的实质是利用一个计算机程序在公知计算机上对图书数据进行处理以实现图书数据的结构化。对图书数据进行结构化处理是其要解决的技术问题,获得结构化的图书数据是其技术效果。
该数据处理方法包括以下几个步骤:
步骤S1,制定用来对电子书稿进行结构化处理的标签结构
在这一步中,需要确定使用哪些标签来对电子书稿进行结构化处理,可以编制一个标签编辑器辅助进行标签结构的制定,标签列表可以存储在文本文件中、xml文件中,也可以存储在数据库中。
步骤S2段落样式识别
在这一步中,需要通过排版软件提供的二次开发接口获取电子书稿中各部分内容的样式信息,具体实现可参考排版软件相关的SDK文档。得到文档中各部分内容的样式信息以后,就可以将样式和标签进行匹配,创建标签样式对,然后根据文档内容的样式为文档内容添加标签。
步骤S3样式与标签的匹配
样式与标签的匹配可通过人机交互进行,从头到尾遍历书稿,遇到新的排版样式,就高亮显示此样式对应的文本内容,由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,应记录下标签对应的文档内容在文档中的位置,以便在后续操作中构造出标签的层次关系。
步骤S4构造标签的逻辑关系和层次关系
经过第二步、第三步的处理,所有文档内容应该都已经具有相应的结构标签,但这些标签是并列的,没有层次关系。我们可以根据标签名称构造出层次关系,原理是两个相邻的同名标签之间的内容属于同一个物理结构。比如一个小节标题到下一个小节标题之间的内容就是一个节,可以在这部分内容的外面套一个小节标签。
本发明还公开了一种电子文档结构化处理系统,包括:
标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;
段落样式识别单元,用于获取所述电子文档的段落样式信息;
样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;
标签层次构造单元,用于根据所述结构标签构造标签的层次关系。
本发明涉及数字出版领域,特别涉及一种电子文档处理技术,提出了一种电子文档结构化处理的方法和系统,所述方法包括如下步骤:步骤S1,制定对所述电子文档进行结构化处理的标签结构;步骤S2,段落样式识别,获取所述电子文档的段落样式信息;步骤S3,将所述段落样式信息与所述结构标签进行匹配;步骤S4,根据所述结构标签构造标签的层次关系。本发明有效克服了现有技术无法自动为文档添加标签、不能体现文档的层次关系、处理效率低的问题。

Claims (9)

1.一种电子文档结构化处理的方法,其特征在于,包括如下步骤:
步骤S1,制定对所述电子文档进行结构化处理的标签结构;
步骤S2,段落样式识别,获取所述电子文档的段落样式信息;
步骤S3,将所述段落样式信息与所述结构标签进行匹配;
步骤S4,根据所述结构标签构造标签的层次关系。
2.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述标签结构制定步骤通过标签编辑器进行。
3.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述的标签结构可以存储在文本文件中、xml文件中,也可以存储在数据库中。
4.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述的步骤S2段落样式识别通过排版软件提供的二次开发接口获取电子文档中的段落样式信息。
5.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,将所述段落样式信息与标签进行匹配,创建标签样式对,如果在电子文档中遇到使用相同样式的文档内容都自动添加相应标签。
6.根据权利要求1或5所述的电子文档结构化处理的方法,其特征在于,所述的样式与标签的匹配步骤还包括:遍历书稿,遇到新的排版样式,即高亮显示此样式对应的文本内容。
7.根据权利要求6所述的电子文档结构化处理的方法,其特征在于:所述的样式与标签的匹配由用户根据文本内容选择与此样式匹配的标签,样式与标签匹配完成以后,由计算机程序根据文档内容的样式自动进行其余文档内容与标签的匹配,在匹配的过程中,记录标签对应的文档内容在文档中的位置,以构造标签的层次关系。
8.根据权利要求1所述的电子文档结构化处理的方法,其特征在于,所述方法还包括如下步骤,在给所述电子文档的内容加注结构标签以后,通过结构标签的名称来构造标签的层次关系。
9.一种电子文档结构化处理系统,其特征在于,包括:
标签结构制定单元,用于制定对所述电子文档进行结构化处理的标签结构;
段落样式识别单元,用于获取所述电子文档的段落样式信息;
样式与标签匹配单元,用于将所述段落样式信息与所述结构标签进行匹配;
标签层次构造单元,用于根据所述结构标签构造标签的层次关系。
CN2011101414208A 2011-05-30 2011-05-30 一种电子文档结构化处理的方法和系统 Pending CN102479248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101414208A CN102479248A (zh) 2011-05-30 2011-05-30 一种电子文档结构化处理的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101414208A CN102479248A (zh) 2011-05-30 2011-05-30 一种电子文档结构化处理的方法和系统

Publications (1)

Publication Number Publication Date
CN102479248A true CN102479248A (zh) 2012-05-30

Family

ID=46091896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101414208A Pending CN102479248A (zh) 2011-05-30 2011-05-30 一种电子文档结构化处理的方法和系统

Country Status (1)

Country Link
CN (1) CN102479248A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855295A (zh) * 2012-08-14 2013-01-02 周宇 一种基于个人能力发展需求描述的出版标签表达系统
CN103885972A (zh) * 2012-12-20 2014-06-25 北大方正集团有限公司 一种文档内容结构化的方法及装置
CN104424271A (zh) * 2013-08-29 2015-03-18 北大方正集团有限公司 出版物数字资源的自动采集方法及系统
CN105320697A (zh) * 2014-08-01 2016-02-10 北京龙源创新信息技术有限公司 一种实现杂志数据的存储规范的方法
CN107256211A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107256209A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107291670A (zh) * 2017-06-16 2017-10-24 江苏经贸职业技术学院 一种文档交互方法
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN108021632A (zh) * 2017-11-23 2018-05-11 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN108733638A (zh) * 2017-04-17 2018-11-02 北大方正集团有限公司 Word稿件的结构化方法及word稿件的结构化装置
CN111353005A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品研发申报文档管理方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101025748A (zh) * 2006-02-22 2007-08-29 株式会社东芝 用于结构化文档管理的装置和方法
CN101136018A (zh) * 2006-08-29 2008-03-05 国际商业机器公司 为检索对多个文档进行预处理及呈现检索结果的方法和装置
CN101714172A (zh) * 2009-11-13 2010-05-26 华中科技大学 一种支持访问控制的索引结构及其检索方法
US20100191721A1 (en) * 2009-01-28 2010-07-29 Oracle International Corporation Mechanisms For Efficient Autocompletion In XML Search Applications
JP4627530B2 (ja) * 2004-06-24 2011-02-09 株式会社ジャストシステム 文書処理方法および装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4627530B2 (ja) * 2004-06-24 2011-02-09 株式会社ジャストシステム 文書処理方法および装置
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101025748A (zh) * 2006-02-22 2007-08-29 株式会社东芝 用于结构化文档管理的装置和方法
CN101136018A (zh) * 2006-08-29 2008-03-05 国际商业机器公司 为检索对多个文档进行预处理及呈现检索结果的方法和装置
US20100191721A1 (en) * 2009-01-28 2010-07-29 Oracle International Corporation Mechanisms For Efficient Autocompletion In XML Search Applications
CN101714172A (zh) * 2009-11-13 2010-05-26 华中科技大学 一种支持访问控制的索引结构及其检索方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855295A (zh) * 2012-08-14 2013-01-02 周宇 一种基于个人能力发展需求描述的出版标签表达系统
CN103885972A (zh) * 2012-12-20 2014-06-25 北大方正集团有限公司 一种文档内容结构化的方法及装置
CN103885972B (zh) * 2012-12-20 2017-02-08 北大方正集团有限公司 一种文档内容结构化的方法及装置
CN104424271A (zh) * 2013-08-29 2015-03-18 北大方正集团有限公司 出版物数字资源的自动采集方法及系统
CN104424271B (zh) * 2013-08-29 2018-10-16 北大方正集团有限公司 出版物数字资源的自动采集方法及系统
CN105320697A (zh) * 2014-08-01 2016-02-10 北京龙源创新信息技术有限公司 一种实现杂志数据的存储规范的方法
CN107301180A (zh) * 2016-04-16 2017-10-27 深圳市唯德科创信息有限公司 一种文档结构的分析方法和装置
CN108733638A (zh) * 2017-04-17 2018-11-02 北大方正集团有限公司 Word稿件的结构化方法及word稿件的结构化装置
CN108733638B (zh) * 2017-04-17 2020-09-04 北大方正集团有限公司 Word稿件的结构化方法及word稿件的结构化装置
CN107291670A (zh) * 2017-06-16 2017-10-24 江苏经贸职业技术学院 一种文档交互方法
CN107256209A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107256211A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN108021632A (zh) * 2017-11-23 2018-05-11 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN108021632B (zh) * 2017-11-23 2020-07-07 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN108170656A (zh) * 2017-12-28 2018-06-15 阿里巴巴集团控股有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN111353005A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品研发申报文档管理方法和系统

Similar Documents

Publication Publication Date Title
CN102479248A (zh) 一种电子文档结构化处理的方法和系统
CN102122280B (zh) 一种智能提取内容对象的方法及系统
US10552525B1 (en) Systems, methods and apparatuses for automated form templating
CN100474318C (zh) 一种自动生成设计bom的系统
CN103677763A (zh) 一种图形化编程的源文件存储及解析方法
CN1392986A (zh) 用于产生各种呈现的结构化文档的方法和装置
CN102135938A (zh) 一种软件产品测试方法及系统
US11175934B2 (en) Method of defining and performing dynamic user-computer interaction, computer guided navigation, and application integration for any procedure, instructions, instructional manual, or fillable form
US20110191381A1 (en) Interactive System for Extracting Data from a Website
CN102855243A (zh) 用于提取文档结构的方法和装置
CN101430714A (zh) 一种基于样式的内容结构化加工方法及系统
CN104217036A (zh) 一种网页内容提取方法和设备
CN104090920A (zh) 一种实现数字内容跨终端出版的系统
Felicetti et al. CIDOC CRM and Epigraphy: a Hermeneutic Challenge.
CN104268179A (zh) 非结构化三维模型数据解析算法
CN105468577A (zh) 一种文档拆分方法及系统
CN105279600B (zh) 工序管理系统中的标注扩展赋予方法
CN102483814A (zh) 用于支持技术设施的规划的方法
CN103699520A (zh) 用于维持电子文档布局的字体处理方法
CN116595934A (zh) 一种涂胶系统配置自动生成方法、电子装置及存储介质
US8731874B2 (en) Three-dimensional CAD model creating apparatus and program
CN108984508A (zh) 标书生成方法与装置
KR101632951B1 (ko) 온라인 학습 콘텐츠로의 변환을 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 및 온라인 학습 콘텐츠로의 변환 방법
CN105447027A (zh) 一种pdf文档目录的获取方法及装置
JP4990925B2 (ja) 工程管理システムおよび工程管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120530