CN103186514A - 用于实现文档结构化的方法和装置 - Google Patents

用于实现文档结构化的方法和装置 Download PDF

Info

Publication number
CN103186514A
CN103186514A CN 201110461670 CN201110461670A CN103186514A CN 103186514 A CN103186514 A CN 103186514A CN 201110461670 CN201110461670 CN 201110461670 CN 201110461670 A CN201110461670 A CN 201110461670A CN 103186514 A CN103186514 A CN 103186514A
Authority
CN
China
Prior art keywords
rule
file
pattern
matching
structuring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110461670
Other languages
English (en)
Other versions
CN103186514B (zh
Inventor
孙明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110461670.XA priority Critical patent/CN103186514B/zh
Publication of CN103186514A publication Critical patent/CN103186514A/zh
Application granted granted Critical
Publication of CN103186514B publication Critical patent/CN103186514B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于实现文档结构化的方法,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。本发明提供了一种用于实现文档结构化的装置,包括:文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。本发明提高了数字化管理文稿的效率。

Description

用于实现文档结构化的方法和装置
技术领域
本发明涉及出版领域,具体而言,涉及一种用于实现文档结构化的方法和装置。
背景技术
出版社收到大量的来稿,制作一本图书或者期刊需要编辑人员投入大量的精力来整理此类稿件内容对象的结构,其工作量很大。而且这些来稿格式有很多相同之处,导致编辑人员的很多工作是重复手工劳动,造成周期长,错误率较高。
发明内容
本发明旨在提供一种用于实现文档结构化的方法和装置,以解决提取文档结构的问题。
在本发明的实施例中,提供了一种用于实现文档结构化的方法,包括:获取开放格式文档;使用实例化规则匹配开放格式文档;以文档结构图呈现匹配结果。
在本发明的实施例中,提供了一种用于实现文档结构化的装置,包括:文档获取模块,用于获取开放格式文档;规则匹配模块,用于使用实例化规则匹配开放格式文档;呈现模块,用于以文档结构图呈现匹配结果。
本发明上述实施例的用于实现文档结构化的方法和装置因为对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图;
图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图;
图3示出了根据本发明优选实施例的实例化规则的文档结构图;
图4示出了根据本发明优选实施例的匹配结果的文档结构图;
图5示出了根据本发明实施例的用于实现文档结构化的装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的用于实现文档结构化的方法的流程图,包括:
获取开放格式文档;
使用实例化规则匹配开放格式文档;
以文档结构图呈现匹配结果。
本方法因为预设了实例化规则,可以对文档结构进行自动匹配,所以解决了现有技术中提前文档结构效率较低的问题,提高了数字化管理文稿的效率。
优选地,方法还包括预先创建实例化规则,具体包括:获取规定了样式的schema文件和规定了结构化规则的xml文件;将样式中的节点匹配结构化规则;将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则。本优选实施例利用Schema文件的样式和xml文件的结构化规则相结合,即可得到实例化规则,简单易行,适用范围广泛。
优选地,本方法还包括:对样式中匹配不成功的节点设置结构化规则以生成实例化规则;对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。预先创建的规定了结构化规则的xml文件通常是由开发人员开发,不一定满足用户的个性化需求,而本优选实施例允许进一步设置结构化规则,这可以满足用户的个性化需求。
图2示出了根据本发明优选实施例的用于实现文档结构化的方法的流程图,包括:
步骤S202,通过用户在自动样式识别面板中输入文件名,获取规定了样式的schema文件和规定了结构化规则的xml文件;
步骤S204,将样式中的节点匹配结构化规则,将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则,对样式中匹配不成功的节点设置结构化规则以生成实例化规则;
步骤S206,对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;
步骤S208,对由开放格式文档模板生成的开放格式文档匹配实例化规则,可以包括格式规则、样式规则、大纲级别规则和自定义通配符规则等;
步骤S210,在校对模式下,对匹配得到的内容对象结构化文档进行验证,观察是否为满足用户要求的结构化文档。
优选地,所设置的结构化规则包括以下至少之一:格式匹配方式,用于规定文字格式(字体、字号、颜色、下划线、加粗、倾斜等)来匹配结构;样式匹配方式,用于规定段落样式来匹配结构;大纲级别匹配方式,用于规定大纲级别来匹配结构;自定义通配符匹配方式,用于规定通配符来自定义匹配结构。这些匹配方式可以满足各种常用场景下的用户个性化需求。
格式匹配方式例如:
Figure BSA00000653673800041
样式匹配方式例如:
Figure BSA00000653673800051
大纲级别匹配方式例如:
Figure BSA00000653673800052
自定义通配符匹配方式例如:
Figure BSA00000653673800053
图3示出了根据本发明优选实施例的实例化规则的文档结构图,源代码如下:
Figure BSA00000653673800054
优选地,只对开放格式文档中各段的段首匹配实例化规则。
优选地,使用实例化规则匹配开放格式文档包括:遍历各个实例化规则;以当前的实例化规则在开放格式文档中定位到内容对象;将定位的内容对象放入堆栈中;将堆栈中的内容对象的样式设置为节点的样式。该过程很容易通过计算机程序来实现,从而取代现有技术中编辑人员的手工操作。图4示出了根据本发明优选实施例的匹配结果的文档结构图。
图5示出了根据本发明实施例的用于实现文档结构化的装置的示意图,包括:
文档获取模块10,用于获取开放格式文档;
规则匹配模块20,用于使用实例化规则匹配开放格式文档;
呈现模块30,用于以文档结构图呈现匹配结果。
本装置提高了数字化管理文稿的效率。
优选地,本装置还包括创建模块,用于预先创建实例化规则,具体包括:获取模块,用于获取规定了样式的schema文件和规定了结构化规则的xml文件;匹配模块,用于将样式中的节点匹配结构化规则;合并模块,用于将各个匹配成功的节点及其匹配的结构化规则组成各个实例化规则。
优选地,本装置还包括:个性化模块,用于对样式中匹配不成功的节点设置结构化规则以生成实例化规则,以及对匹配成功的节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;其中,所设置的结构化规则包括以下至少之一:格式匹配方式,用于规定文字格式来匹配结构;样式匹配方式,用于规定段落样式来匹配结构;大纲级别匹配方式,用于规定大纲级别来匹配结构;自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
优选地,规则匹配模块包括:遍历模块,用于遍历各个实例化规则;定位模块,用于以当前的实例化规则在开放格式文档中定位到内容对象;堆栈模块,用于将定位的内容对象放入堆栈中;结构化模块,用于将堆栈中的内容对象的样式设置为节点的样式。
步骤102、结合业务需要,以步骤101所设计结构化规则xml匹配类型为基础,配置“段首开始”属性,制定出结构化规则xml,本实例所制定的xml结构见图二。
步骤201、根据不同的匹配模式对所需节点进行结构化规则设置。
步骤301、根据步骤201对于已设置结构化规则的节点针对不同的匹配模式重新生成结构化规则xml文件。在本实施例中,所编写的xml文件如下:
Figure BSA00000653673800081
Figure BSA00000653673800091
从以上的描述中可以看出,本发明可以提高出版物的出版效率,减少编辑的工作量,快速地对内容对象结构规范化。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于实现文档结构化的方法,其特征在于,包括:
获取开放格式文档;
使用实例化规则匹配所述开放格式文档;
以文档结构图呈现所述匹配结果。
2.根据权利要求1所述的方法,其特征在于,还包括预先创建所述实例化规则,具体包括:
获取规定了样式的schema文件和规定了结构化规则的xml文件;
将所述样式中的节点匹配所述结构化规则;
将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
3.根据权利要求2所述的方法,其特征在于,还包括:
对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则;
对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则。
4.根据权利要求3所述的方法,其特征在于,所设置的结构化规则包括以下至少之一:
格式匹配方式,用于规定文字格式来匹配结构;
样式匹配方式,用于规定段落样式来匹配结构;
大纲级别匹配方式,用于规定大纲级别来匹配结构;
自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
5.根据权利要求1所述的方法,其特征在于,只对所述开放格式文档中各段的段首匹配所述实例化规则。
6.根据权利要求1所述的方法,其特征在于,使用实例化规则匹配所述开放格式文档包括:
遍历各个所述实例化规则;
以当前的所述实例化规则在所述开放格式文档中定位到内容对象;
将定位的所述内容对象放入堆栈中;
将所述堆栈中的内容对象的样式设置为所述节点的样式。
7.一种用于实现文档结构化的装置,其特征在于,包括:
文档获取模块,用于获取开放格式文档;
规则匹配模块,用于使用实例化规则匹配所述开放格式文档;
呈现模块,用于以文档结构图呈现所述匹配结果。
8.根据权利要求7所述的装置,其特征在于,还包括创建模块,用于预先创建所述实例化规则,具体包括:
获取模块,用于获取规定了样式的schema文件和规定了结构化规则的xml文件;
匹配模块,用于将所述样式中的节点匹配所述结构化规则;
合并模块,用于将各个匹配成功的所述节点及其匹配的结构化规则组成各个所述实例化规则。
9.根据权利要求8所述的装置,其特征在于,还包括:
个性化模块,用于对所述样式中匹配不成功的节点设置结构化规则以生成所述实例化规则,以及对匹配成功的所述节点及其匹配的结构化规则所组成的实例化规则进一步设置结构化规则;
其中,所设置的结构化规则包括以下至少之一:
格式匹配方式,用于规定文字格式来匹配结构;
样式匹配方式,用于规定段落样式来匹配结构;
大纲级别匹配方式,用于规定大纲级别来匹配结构;
自定义通配符匹配方式,用于规定通配符来自定义匹配结构。
10.根据权利要求7所述的装置,其特征在于,所述规则匹配模块包括:
遍历模块,用于遍历各个所述实例化规则;
定位模块,用于以当前的所述实例化规则在所述开放格式文档中定位到内容对象;
堆栈模块,用于将定位的所述内容对象放入堆栈中;
结构化模块,用于将所述堆栈中的内容对象的样式设置为所述节点的样式。
CN201110461670.XA 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置 Expired - Fee Related CN103186514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110461670.XA CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110461670.XA CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Publications (2)

Publication Number Publication Date
CN103186514A true CN103186514A (zh) 2013-07-03
CN103186514B CN103186514B (zh) 2016-04-20

Family

ID=48677685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110461670.XA Expired - Fee Related CN103186514B (zh) 2011-12-31 2011-12-31 用于实现文档结构化的方法和装置

Country Status (1)

Country Link
CN (1) CN103186514B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572745A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 文档结构化方法和装置
CN104601627A (zh) * 2013-11-01 2015-05-06 北大方正集团有限公司 服务器、终端、文件在线处理方法和系统
CN111399900A (zh) * 2020-03-10 2020-07-10 山东汇贸电子口岸有限公司 一种基于python与正则表达式的API文档自动生成方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430714B (zh) * 2008-12-08 2011-01-26 北大方正集团有限公司 一种基于样式的内容结构化加工方法及系统
CN102103591B (zh) * 2009-12-18 2014-04-16 北大方正集团有限公司 一种利用结构化数据实现文档内容自动更新的方法及系统
CN102103605B (zh) * 2009-12-18 2012-12-19 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN102214170B (zh) * 2010-04-06 2013-05-15 北京大学 一种xml数据压缩和解压缩方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572745A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 文档结构化方法和装置
CN104572745B (zh) * 2013-10-23 2018-05-04 北大方正集团有限公司 文档结构化方法和装置
CN104601627A (zh) * 2013-11-01 2015-05-06 北大方正集团有限公司 服务器、终端、文件在线处理方法和系统
CN104601627B (zh) * 2013-11-01 2019-05-14 北大方正集团有限公司 服务器、终端、文件在线处理方法和系统
CN111399900A (zh) * 2020-03-10 2020-07-10 山东汇贸电子口岸有限公司 一种基于python与正则表达式的API文档自动生成方法及系统

Also Published As

Publication number Publication date
CN103186514B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN102968306B (zh) 一种基于数据模型驱动的代码自动生成方法和系统
CN104361139B (zh) 数据导入装置和方法
CN107273117A (zh) 一种编程友好型的敏捷代码自动生成系统
CN103631763B (zh) 多人协作的大型文档编辑装置和大型文档编辑方法
CN102982010A (zh) 提取文档结构的方法和装置
CN105487864A (zh) 代码自动生成的方法和装置
CN104133772A (zh) 一种自动生成测试数据的方法
CN101968817B (zh) 网页模板配置方法
CN107291450A (zh) 一种编程友好型的敏捷代码自动生成方法
CN105447253B (zh) 一种三维工艺数据的集成方法
CN102360331B (zh) 基于形式化描述的测试程序自动生成方法
CN101464799A (zh) 基于可视化建模的mpi并行程序设计系统及框架代码自动生成方法
CN104317587A (zh) 面向安卓移动设备的程序自动生成方法
CN103092589A (zh) 一种基于ssh框架的代码自动生成方法
CN102591654A (zh) 一种基于ssh架构的代码生成器及方法
CN103902269B (zh) 一种通过xml文件生成mib文件的系统及方法
CN102360290A (zh) 表单生成装置和表单生成方法
CN102902767A (zh) 一种表格快速搭建的方法及系统
CN1808377A (zh) 由非专属语言驱动的通用序列图生成器
CN101859303A (zh) 元数据管理方法及管理系统
CN106528512B (zh) 一种excel概预算表格自动编排方法
CN110543303A (zh) 一种可视化业务平台
CN108241902A (zh) 一种Web项目工程化及性能优化方法
CN110795093A (zh) 一种交互式视图生成方法和装置
CN103020318A (zh) 一种对数据库中数据库表维护的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20191231