CN110457664A - 一种基于模板的内容动态重组方法 - Google Patents
一种基于模板的内容动态重组方法 Download PDFInfo
- Publication number
- CN110457664A CN110457664A CN201910732026.8A CN201910732026A CN110457664A CN 110457664 A CN110457664 A CN 110457664A CN 201910732026 A CN201910732026 A CN 201910732026A CN 110457664 A CN110457664 A CN 110457664A
- Authority
- CN
- China
- Prior art keywords
- content
- template
- product
- chapters
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000000463 material Substances 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008521 reorganization Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims 1
- 238000013467 fragmentation Methods 0.000 abstract description 6
- 238000006062 fragmentation reaction Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 3
- 238000000429 assembly Methods 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 33
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005215 recombination Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101000911390 Homo sapiens Coagulation factor VIII Proteins 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000034303 cell budding Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 102000057593 human F8 Human genes 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229940047431 recombinate Drugs 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0621—Item configuration or customization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
- G06Q50/184—Intellectual property management
Abstract
本发明公开了一种基于模板的内容动态重组方法,包括:根据出版物类型创建产品模板;在产品模板的章节中指定相应内容的描述;根据产品模板生成重组计划;基于全文检索执行重组计划,将检索的内容按照相关度自动填充到章节中;根据实际需要在推荐的素材列表中选择符合需求的素材,并可对素材内容进行编辑;按照产品模板的组织方式生成最终产品。本发明提供的方法将经过碎片化加工处理后的素材进行重新组装,生成新的数字内容产品。
Description
技术领域
本发明涉及数字出版技术领域,尤其涉及一种基于模板的内容动态重组方法。
背景技术
传统出版是通过传统印刷技术的纸质出版,其物质媒介是纸张。传统出版必须将内容物化在物质媒介上,其产品具有明确的物质形态以及实物可保存性。数字出版是利用信息技术将出版物以网络、光盘等形式投放市场的出版方式。
随着社会的进步,读者对知识获取的需求也在不断提高,尤其是在专业出版领域,读者的需求逐步在向个性化发展。新闻出版单位作为内容的提供者,也需要能够提供个性化产品。但是,由于传统出版的周期比较长,很难满足各类读者的需求。
内容动态重组基于碎片化加工的素材资源,根据各种媒体资源及内容单元之间关联性,以及不同专业领域的特点,快速完成个性化产品内容的生成,从而缩短出版周期,为读者提供个性化服务。
DocBook提供了整个书写结构化文档的体系,它使用SGML/XML定义了一系列文档元素,并可以利用工具把原始的文档源文件转换成各种文档格式。简单说,DocBook就是一组对于XML文档进行解析的规范。对于一个按照DocBook格式写好的XML文件,使用DocBook的一些相关工具,就可以按照用户的要求生成各种各样的输出。顾名思义,DocBook是专门为写书籍或者类似书籍的文档所设计的。目前,国内出版社普遍采用基于DocBook的标准对出版物资源进行碎片化加工。
面向出版领域的内容重组技术,国内外直接相关的技术标准还不存在,技术的发展还处于萌芽阶段。国际上由OASIS(The Organization for the Advancement ofStructured Information Standards)组织维护的开放性标准--DITA(DarwinInformation Typing Architecture),存在相关技术的理念。DITA是一套基于XML的面向主题的数字内容结构化写作与发布方案。
国内外也存在个别对于碎片化加工的内容,按用户需要进行动态重组的业务模式,例如培生在其网站上允许用户选购碎片化的章节内容,自行按照需要打包付费购买。但是相关的技术和应用还存在许多问题,例如业务模式应用面窄,重组产品构建为用户手动操作,自动化水平低。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于模板的内容动态重组方法,该方法将经过碎片化加工处理后的素材进行重新组装,生成新的数字内容产品。
本发明的目的通过以下的技术方案来实现:
一种基于模板的内容动态重组方法,包括:
A根据出版物类型创建产品模板;
B在产品模板的章节中指定相应内容的描述;
C根据产品模板生成重组计划;
D基于全文检索执行重组计划,将检索的内容按照相关度自动填充到章节中;
E根据实际需要在推荐的素材列表中选择符合需求的素材,并可对素材内容进行编辑;
F按照产品模板的组织方式生成最终产品。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该内容动态重组方法增加了重组适用的范围,用户可以根据需要的出版物类别进行产品模板的创作,例如用户可以创建辞典模板,其内容由将有词条填充,用户还可以创建期刊文集,其内容将由符合要求的文章填充。
该内容动态重组方法实现了自动化的重组,基于产品模板确定的内容组织结构自动化地执行重组计划,其内容由全文检索方法从素材库中提取,按照相关度将最相关的内容填充到产品模板对应的章节(或者条目)中。
该内容动态重组方法引入了内容矫正的机制,自动化的重组结果难免有不符合用户要求的内容,用户可以用全文检索按照相关性排序推荐的其他素材替换自动执行填充的素材。
附图说明
图1是基于模板的内容动态重组方法流程图;
图2是产品模板的类型选择结构示意图;
图3是产品模板的内容描述结构示意图;
图4是生成的重组计划示例示意图;
图5是重组计划执行的效果示例示意图;
图6是输出产品的PDF示例示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明实施方式作进一步详细的描述。
如图1所示,为基于模板的内容动态重组方法流程,包括以下步骤:
步骤10根据出版物类型创建产品模板;
步骤20在产品模板的章节中指定相应内容的描述;
步骤30根据产品模板生成重组计划;
步骤40基于全文检索执行重组计划,将检索的内容按照相关度自动填充到章节中;
步骤50根据实际需要在推荐的素材列表中选择符合需求的素材,并可对素材内容进行编辑;
步骤60按照产品模板的组织方式生成最终产品。
上述步骤10对于出版物,产品模板可以认为是出版物的大纲,用以描述出版物的内容组织。不同出版物具有不同的内容组织方式,例如辞典,通常有词条素材构成,以字典序排序组织,而领域专著通常按照章节组织,对应于不同的领域主题,如图2所示为产品模板的类型选择。
上述步骤20在出版物模板中的章节(条目)中添加描述信息,该描述信息用以刻画用户期望的素材内容,作为启发信息指导后续步骤的内容提取。内容以自然语言描述即可,具体形式是以约定的分隔符分隔的关键词或者描述语句,如图3所示是产品模板的内容描述。
上述步骤30重组计划是用来描述如何自动化执行内容重组的数据结构,类似于数据库领域中的查询计划。重组计划一般以一种树形数据结构表示,对应于出版物的内容组织方式。重组计划中的节点对应于产品模板中的章节(条目),节点中标注的内容是检索条件,用以指导内容提取。生成重组计划典型地利用编译中的程序变换技术,如图4所示是生成的重组计划示例。
上述步骤40重组计划中的检索条件基于全文检索,通常全文检索的结果是按相关度排序的素材列表,执行重组计划时,将素材列表中相关度最高的素材填充在对应的章节(条目)中,再将其他素材作为推荐素材关联到相应章节(条目)。填充了内容的章节(条目)按产品模板的确定的结构进行组织。由于各个章节(条目)的相对独立性,可以利用并行计算的计算方法提升性能,例如Map-Reduce编程模型,如图5所示是重组计划执行的效果示例。
上述步骤50调整重组产品内容,基于产品模板和全文检索的自动化重组所得的结果很难做到完全符合用户的需求,因此引入调整重组产品内容的步骤。用户可以调整所用素材,即通过全文检索推荐的素材替换当前选取的素材,或者同时选用;用户还可以根据权限设定(通常受版权、政策等非技术因素影响),决定是否允许用户对内容进行编辑,例如删除部分文字。
上述步骤60基于上述步骤构建的重组产品还是一种中间产品的状态,通常的数字出版物的载体文件格式是PDF或者EPUB。基于上述数据,即可遍历各章节(条目),按照产品模板的组织方式生成最终产品,如图6所示,是输出产品的PDF示例图。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (7)
1.一种基于模板的内容动态重组方法,其特征在于,所述方法包括:
A根据出版物类型创建产品模板;
B在产品模板的章节中指定相应内容的描述;
C根据产品模板生成重组计划;
D基于全文检索执行重组计划,将检索的内容按照相关度自动填充到章节中;
E根据实际需要在推荐的素材列表中选择符合需求的素材,并可对素材内容进行编辑;
F按照产品模板的组织方式生成最终产品。
2.如权利要求1所述的基于模板的内容动态重组方法,其特征在于,所述步骤A中出版物类型包括:辞典、百科、手册、领域专著、期刊文集、教材教辅及各种谱类。
3.如权利要求1所述的基于模板的内容动态重组方法,其特征在于,所述步骤B中内容描述指出版物章节内容的描述,该描述为自然语言描述,为一组关键词或一段话或一组关键词和一段话二者的结合,并以约定的分隔符分隔。
4.如权利要求1所述的基于模板的内容动态重组方法,其特征在于,所述步骤C具体包括:以产品模板确定的结构生成重组计划的组织结构,通常为一个树形的数据结构对应于产品的章节组织结构,并以章节的描述信息作为章节内容的提取条件,如果描述信息为分隔符分隔的多条,则构建相应的多条提取条件,之间以“与”的逻辑连接。
5.如权利要求1所述的基于模板的内容动态重组方法,其特征在于,所述步骤D中基于全文检索执行重组计划具体包括:模板中的各个章节或者条目内容的提取采用全文检索的方法,按照重组计划确定的数据结构进行组织,生成相应的重组产品。
6.如权利要求1所述的基于模板的内容动态重组方法,其特征在于,所述步骤E具体包括:用户通过全文检索推荐的素材替换当前选取的素材,或者同当前素材同时选用,并根据设定的权限决定是否允许用户对内容进行编辑,即调整重组产品内容。
7.如权利要求6所述的基于模板的内容动态重组方法,其特征在于,对所述调整后的重组产品内容进行格式的变换,其格式包括但不限于PDF、EPUB,至此内容动态重组完成,生成了用户可以阅读的数字出版物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732026.8A CN110457664A (zh) | 2019-08-09 | 2019-08-09 | 一种基于模板的内容动态重组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732026.8A CN110457664A (zh) | 2019-08-09 | 2019-08-09 | 一种基于模板的内容动态重组方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457664A true CN110457664A (zh) | 2019-11-15 |
Family
ID=68485543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910732026.8A Pending CN110457664A (zh) | 2019-08-09 | 2019-08-09 | 一种基于模板的内容动态重组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457664A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989782A (zh) * | 2021-04-22 | 2021-06-18 | 北京三维天地科技股份有限公司 | 一种自动化模板配置及报告生成的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082749A1 (en) * | 2009-10-06 | 2011-04-07 | Firstpaper, Llc | System And Method For Template-Based Assembly Of Publications |
CN104123269A (zh) * | 2014-07-16 | 2014-10-29 | 华中科技大学 | 一种基于模板的出版物半自动生成方法及系统 |
-
2019
- 2019-08-09 CN CN201910732026.8A patent/CN110457664A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082749A1 (en) * | 2009-10-06 | 2011-04-07 | Firstpaper, Llc | System And Method For Template-Based Assembly Of Publications |
CN104123269A (zh) * | 2014-07-16 | 2014-10-29 | 华中科技大学 | 一种基于模板的出版物半自动生成方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989782A (zh) * | 2021-04-22 | 2021-06-18 | 北京三维天地科技股份有限公司 | 一种自动化模板配置及报告生成的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7739257B2 (en) | Search engine | |
Baumgartner et al. | Visual web information extraction with lixto | |
TWI411928B (zh) | 用於將工作簿範圍顯露成資料來源之方法及系統 | |
US20060218160A1 (en) | Change control management of XML documents | |
US10089390B2 (en) | System and method to extract models from semi-structured documents | |
CN106339363B (zh) | 一种ppt报告的制作方法和装置 | |
CN104715032A (zh) | 一种报表系统中英文表名字段名映射系统及方法 | |
CA2597200A1 (en) | Method and apparatus for organizing claim elements | |
CN110457664A (zh) | 一种基于模板的内容动态重组方法 | |
CN110852044B (zh) | 一种基于结构化的文本编辑方法和系统 | |
CN106649219B (zh) | 一种通信卫星设计文件自动生成方法 | |
CN110472217A (zh) | 一种基于重组策略的内容动态重组方法 | |
CN114139517A (zh) | 一种基于章节标签自动组合报告的方法及系统 | |
Abasova et al. | Proposal of effective preprocessing techniques of financial data | |
US20090217156A1 (en) | Method for Storing Localized XML Document Values | |
Errico et al. | Dematerialization, Archiving and Recovery of Documents: A Proposed Tool Based on a Semantic Classifier and a Semantic Search Engine | |
CN110458666A (zh) | 一种基于领域知识的个性化知识库重组方法 | |
Hypský et al. | Definition of Business Rules Using Business Vocabulary and Semantics. | |
Corlosquet et al. | RDFa in Drupal: Bringing Cheese to the Web of Data. | |
Adrian et al. | Ontology-driven information extraction | |
AU2012200686B2 (en) | Improved search engine | |
AU2010212480B2 (en) | Improved search engine | |
Srivastava et al. | Business Insight from Collection of Unstructured Formatted Documents with IBM Content Harvester. | |
Peis et al. | Encoded archival description (EAD) conversion: a methodological proposal | |
Hopt et al. | Flexible DDI storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |