CN102646125B - 一种结构化数字内容析取与重组方法 - Google Patents

一种结构化数字内容析取与重组方法 Download PDF

Info

Publication number
CN102646125B
CN102646125B CN201210047535.5A CN201210047535A CN102646125B CN 102646125 B CN102646125 B CN 102646125B CN 201210047535 A CN201210047535 A CN 201210047535A CN 102646125 B CN102646125 B CN 102646125B
Authority
CN
China
Prior art keywords
theme
xsl
digital content
document
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210047535.5A
Other languages
English (en)
Other versions
CN102646125A (zh
Inventor
高昂
邢立强
孙广芝
程越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN201210047535.5A priority Critical patent/CN102646125B/zh
Publication of CN102646125A publication Critical patent/CN102646125A/zh
Application granted granted Critical
Publication of CN102646125B publication Critical patent/CN102646125B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种结构化数字内容析取与重组方法,包括将数字化出版的备选内容存储在以可扩展标记语言(XML)格式为代表的非结构化数据存储器内;将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;对所述的结构化文档通过可扩展样式语言(XSL)及可扩展样式语言转换(XSLT)根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。采用本发明,能适应未来出版物内容承载形式多元化,展示形式和终端多样化的特点。

Description

一种结构化数字内容析取与重组方法
技术领域
本发明涉及信息技术领域,尤其涉及一种结构化数字内容析取与重组方法,利用数字化出版技术、数据库文档管理技术,解决传统数字出版制作中,文档内容的存储方式不利于重复利用以及信息冗余的问题。
背景技术
数字内容出版作为一种新兴的出版业态,随着互联网和移动通信的发展而逐步普及到多种阅读终端。目前数字内容出版物的展示终端日益丰富,产业服务链趋于完善,技术不断革新,成为出版业界新的增长点,得到出版从业人员和相关研究机构的广泛关注和积极参与。
面对数字化出版浪潮,传统内容组织与发布形式已不适应新形势下的出版业态,数字出版产业的发展需要引入新的内容组织方式和技术标准。
发明内容
有鉴于此,本发明的主要目的在于提供一种结构化数字内容析取与重组方法,以有效减少数字化出版过程中的信息冗余,为内容深加工和多渠道发布提供了崭新的模式。通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多终端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效益的最大化。
为达到上述目的,本发明的技术方案是这样实现的:
一种结构化数字内容析取与重组方法,该方法包括:
A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内;
B、将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;
C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;
D、对所述的结构化文档通过可扩展语言XSL及扩展样式转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。
其中,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主题;所述映射专门化,是面向映射领域实现专门化。
所述步骤A中,所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,能够实现垓字节TB级非结构化数据资源的全文检索。
所述步骤B中采用析取目标内容形成信息主体的主题块的过程包括:将具备语义自包含性的析取的主题,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。
所述具备语义自包含性的析取的主题,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。
步骤C所述将分散的主题块重组为具备逻辑关系的结构化文档的过程为:以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。
所述步骤D中,根据不同的阅读终端的差异,采用不同的渲染方式;所述渲染方式是采用XSL格式化对象语言XSL-FO。
所述采用XSL-FO处理文档分为两个阶段:一、文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档;二、根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物。
所述阶段一,具体为:所述文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格的要求,转换为根据版面设计指定的XSL-FO文档;在该阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。
所述阶段二,具体为:将读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物,通过该阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含PDF、PCL、PS、SVG的多种目标格式。
本发明所提供的结构化数字内容析取与重组方法,具有以下优点:
该方法通过对XML格式对文档进行描述结构化的描述,生成的结构化模块即主题(Topic)。利用对象映射(Mapping)机制对相同对象的主题进行逻辑顺序组织,形成结构化文档。最后经由可扩展样式语言(XSL)及扩展样式语言转换(XSLT)进行渲染,成为具备排版格式样式美观的出版物文档。本发明方法能适应未来出版物内容承载形式多元化,展示形式和终端多样化的特点,并能根据这些特点合并重复内容,减少信息冗余,让信息内容以多种出版形态,多种发布渠道在传统介质和多媒体介质中传播,从而提高了信息传播的效率,实现了信息制作和传播效益的最大化。
附图说明
图1为本发明结构化数字内容析取与重组方法的流程图;
图2为本发明中主题的基础结构示意图;
图3为本发明中映射的基础结构图;
图4为本发明中内容主题的重组映射示意图;
图5为本发明中领域专门化的结构示意图;
图6为本发明的方法的第四步中样式渲染的流程示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
本发明的核心思想在于:通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多终端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效应的最大化。
图1为本发明结构化数字内容析取与重组方法的流程图,如图1所示,该方法主要包括如下步骤:
步骤11:将数字化出版的备选内容存储在以可扩展标记语言(eXtensible Markup Language,XML)格式为代表的非结构化数据存储的容器内。
在数字化出版的内容流转过程中,备选内容存储在内容仓库中。内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,实现垓字节(1Tbyte=1024Gbyte)级非结构化数据资源的全文检索。
步骤12:对所述步骤11中已形成的容器内的信息单元,根据结构化数字内容析取与重组方法的标准来定义的析取信息单元的标签进行格式化,形成信息主体的主题(Topic)块。
其中,采用的析取目标内容形成主题块的过程为:析取的主题要具备语义的自包含性,即主题需要具备信息描述的完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。构成主题块的结构体使用XML来描述,可将出版物的内容与形式分离。特定领域的出版编辑用DTD文档类型定义。同时该方法还支持主题专门化,首先由领域专家分析并建立面向领域出版的要素模型,之后根据模型定义面向领域的主题标签并形成DTD模板。
在对主题粒度的划分上,要根据内容编辑的需求遵循一定准则实施划分。主题作为信息段落的载体,具备语义自包含的特性,即主题需具有信息描述的完备性,能够准确完整的表达内容含义,所以划分的粒度不易过于细碎。从另一个角度看,主题是建立上下文关联映射的基础单元(如图3所示),为便于通过结构化数字内容析取与重组方法下的映射文件进行内容段落的重用,主题的划分粒度也不宜过粗,以避免影响内容重组的灵活性。
主题的粒度划分既要求大到能自我容纳,同时又要求小到满足上下文灵活有效的重组重用的程度,最终形成如图2所示的信息主体的主题(Topic)块的形式,即该主题块要包括:标题(Title)、摘要(Abstract)、内容主体(Content)、任务(Task)、引用(Reference)。其中,所述任务(Task)还可以进一步包括子任务,如子任务1、子任务2等。
步骤13:对步骤12中形成的不同主题块之间的关联,使用以XML为载体的映射(Mapping)来维系,并在映射的作用下(如图3、图4所示),将在步骤12中形成的分散的主题块重组为具备逻辑关系的结构化文档。
同时,结构化数字内容析取与重组方法还支持领域专门化,包括主题和映射文件专门化,如图5所示,其中,主题专门化首先由该领域内的专家分析并建立面向领域出版的要素模型,之后根据模型定义面向领域的主题标签并形成DTD模板。主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主题;所述映射专门化,是指面向映射领域实现专门化通常是将引用主题的标签专门化为映射领域,并可在多种不同映射类型中实现设计模式重用。
如图3所示,该方法的映射文件的形成同样是以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。映射文件在内部使用主题引用标签组织一个或多个主题,并赋予主题上下文的顺序和层级关系。主题引用标签引用主题的组装顺序表示内容上下文的先后关系;主题引用标签的主题嵌套层级表示内容上下文的包含关系。映射文件在编译处理时,该方法通过映射这样的单一逻辑结构来管理主题组装后的导航顺序,并且适用于各种类型的交付出版物的聚合生成。
步骤14:在形成数字出版物之前,步骤13中形成的结构化文档由可扩展样式表语言(EXtensible Stylesheet Language,XSL)及可扩展样式表语言转换(XSLT)根据出版的需求进行样式的渲染,可生成各种XML能转换形成的目标出版格式。
这里,可以根据不同的阅读终端的差异,采用不同的渲染方式。
结构化数字内容析取与重组方法常用的渲染方式是利用XSL格式化对象语言XSL-FO,它是用于文档格式排版的XML标记语言。XSL-FO处理结构化数字内容析取与重组方法的文档分为两个阶段:
第一个阶段:文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档。
第二阶段:根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物。
如图5所示,在所述样式渲染的过程中,结构化数字内容析取与重组方法下的映射形成的中间结果,经XSLT处理程序加载样式表,将内置的标签,连同领域专门化定义的标签进行解析识别,渲染为出版物中对应的样式布局。XSL格式化对象语言XSL-FO是用于文档格式排版的XML标记语言,是结构化数字内容析取与重组方法常用的出版物渲染方式。XSL-FO包含控制内容显示方式的版式结构定义,为符合XML规范的结构化数字内容析取与重组方法的内容排版提供样式渲染和格式转换功能。
图6为本发明的方法的第四步中样式渲染的流程示意图,如图6所示,结构化数字内容析取与重组方法给出的出版渲染方式是采用XSL格式化对象语言XSL-FO,XSL-FO用于文档格式排版的XML标记语言,XSL-FO包含控制内容显示方式的版式结构定义,为符合XML规范的数字出版内容排版提供了样式渲染和格式转换功能。在结构化数字内容出版物样式渲染的过程中,映射形成的中间结果经XSLT处理程序加载样式表,将结构化数字内容出版物内置的标签,连同领域专门化定义的标签进行解析识别,渲染为出版物中对应的样式布局。结构化数字内容出版物样式渲染主要分为两个阶段:
第一阶段:结构化数字内容出版文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格等要求,转换为根据版面设计指定的XSL-FO文档。在这个阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。
第二阶段:根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP(Formatting Objects Processor)从XSL-FO对象树中读入各个排版项。读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物。通过第二阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含PDF、PCL、PS、SVG等多种目标格式。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种结构化数字内容析取与重组方法,其特征在于,该方法包括:
A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内;所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,以实现垓字节TB级非结构化数据资源的全文检索;
B、将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;
C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将分散的所述主题块重组为具备逻辑关系的结构化文档;所述将分散的所述主题块重组为具备逻辑关系的结构化文档的过程为:以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档;
D、对所述的结构化文档通过可扩展样式表语言XSL及可扩展样式表语言转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。
2.根据权利要求1所述的结构化数字内容析取与重组方法,其特征在于,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用,用来生成各领域的主题;所述映射专门化,是面向映射领域实现专门化。
3.根据权利要求1所述的结构化数字内容析取与重组方法,其特征在于,所述步骤B中形成信息主体的主题块的过程包括:析取的主题要具备语义的自包含性,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。
4.根据权利要求3所述的结构化数字内容析取与重组方法,其特征在于,所述具备语义自包含性的析取的主题,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。
5.根据权利要求1所述的结构化数字内容析取与重组方法,其特征在于,所述步骤D中,根据不同的阅读终端的差异,采用不同的渲染方式;所述渲染方式是采用XSL格式化对象语言XSL-FO。
6.根据权利要求5所述的结构化数字内容析取与重组方法,其特征在于,采用XSL-FO处理文档分为两个阶段:一、文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档;二、根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树中读入并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物。
7.根据权利要求6所述的结构化数字内容析取与重组方法,其特征在于,所述阶段一,具体为:所述文档依据XSL-FO定义的组版对象,包括页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格的要求,转换为根据版面设计指定的XSL-FO文档;在该阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。
8.根据权利要求6所述的结构化数字内容析取与重组方法,其特征在于,所述阶段二,具体为:将读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物,通过该阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含PDF、PCL、PS、SVG的多种目标格式。
CN201210047535.5A 2012-02-28 2012-02-28 一种结构化数字内容析取与重组方法 Expired - Fee Related CN102646125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210047535.5A CN102646125B (zh) 2012-02-28 2012-02-28 一种结构化数字内容析取与重组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210047535.5A CN102646125B (zh) 2012-02-28 2012-02-28 一种结构化数字内容析取与重组方法

Publications (2)

Publication Number Publication Date
CN102646125A CN102646125A (zh) 2012-08-22
CN102646125B true CN102646125B (zh) 2014-08-27

Family

ID=46658944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210047535.5A Expired - Fee Related CN102646125B (zh) 2012-02-28 2012-02-28 一种结构化数字内容析取与重组方法

Country Status (1)

Country Link
CN (1) CN102646125B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020189B (zh) * 2012-12-03 2016-08-10 深圳中兴网信科技有限公司 数据处理装置和数据处理方法
CN103853775A (zh) * 2012-12-04 2014-06-11 中山大学深圳研究院 一种基于多媒体数据转换数据存储格式的方法
CN103970799B (zh) * 2013-02-04 2019-04-26 百度在线网络技术(北京)有限公司 一种电子文档的生成方法、装置和客户端
CN103399857B (zh) * 2013-07-01 2017-02-08 北京航空航天大学 一种通用文档结构信息抽取方法
CN103399747B (zh) * 2013-08-02 2017-12-26 百度在线网络技术(北京)有限公司 导航页的提供方法、系统和导航服务器
CN104699471B (zh) * 2013-12-09 2018-07-27 中国商用飞机有限责任公司 一种技术出版物内容发布系统及方法
CN104751336A (zh) * 2013-12-25 2015-07-01 版信圆融(天津)科技有限公司 全民阅读服务方法
CN105320697A (zh) * 2014-08-01 2016-02-10 北京龙源创新信息技术有限公司 一种实现杂志数据的存储规范的方法
CN106202292B (zh) * 2016-06-30 2022-03-18 中国电力科学研究院 一种基于结构化数据模型的标准信息分析方法
CN107943764A (zh) * 2017-12-05 2018-04-20 中国航空综合技术研究所 基于xml的标准结构化编写生成方法
CN108460093A (zh) * 2018-01-30 2018-08-28 青岛中兴智能交通有限公司 一种公安系统的数据处理方法和装置
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质
CN111259202B (zh) * 2020-01-10 2023-08-04 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN117236282B (zh) * 2023-10-24 2024-06-21 雅昌文化(集团)有限公司 基于xml数据的智能排版方法、装置、终端及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330336A (zh) * 2000-03-26 2002-01-09 艾尤尼沃斯·Com公司 以不同形式出版内容的信息库
CN101751379A (zh) * 2008-12-02 2010-06-23 北大方正集团有限公司 一种电子报纸文档制作的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090005032A1 (en) * 2007-06-28 2009-01-01 Apple Inc. Viewing Digital Content on a Mobile Device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330336A (zh) * 2000-03-26 2002-01-09 艾尤尼沃斯·Com公司 以不同形式出版内容的信息库
CN101751379A (zh) * 2008-12-02 2010-06-23 北大方正集团有限公司 一种电子报纸文档制作的方法和设备

Also Published As

Publication number Publication date
CN102646125A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102646125B (zh) 一种结构化数字内容析取与重组方法
Buckley PySLHA: a pythonic interface to SUSY Les Houches accord data
Hümmer et al. XCube: XML for data warehouses
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
CN104205092B (zh) 通过变换复杂三元组建立本体的方法和系统
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN102122280B (zh) 一种智能提取内容对象的方法及系统
JP2002541590A5 (zh)
CN101354759A (zh) 一种基于元模型的工作流流程定义转换的方法及系统
CN102810114A (zh) 基于本体的个人计算机资源管理系统
CN105809375A (zh) 一种扩展表单设计集成方法
CN101625694A (zh) 一种存储多种标准地学元数据的方法及系统
CN103425740A (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
Haider et al. CSV2RDF: Generating RDF data from CSV file using semantic web technologies
CN102866986A (zh) 一种文档格式转换系统
CN101799890B (zh) 证照数据处理方法和系统
CN101866331A (zh) 不同语种xml文档的转换方法及装置
CN103377175A (zh) 基于分割的结构化文档转换
US8719693B2 (en) Method for storing localized XML document values
Verbert et al. Towards a global component architecture for learning objects: A slide presentation framework
CN101566948B (zh) 一种表单系统数据源数据绑定方法
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
Morocho et al. Ontologies: Solving Semantic Heterogeneity in a Federated Spatial Database System.
Clarke Thesaurus standards on a converging track
CN108984676A (zh) 一种基于xml的电子书跨终端自适应显示系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140827

Termination date: 20150228

EXPY Termination of patent right or utility model