CN105426352A - 模板文档自动生成方法 - Google Patents

模板文档自动生成方法 Download PDF

Info

Publication number
CN105426352A
CN105426352A CN201510822691.8A CN201510822691A CN105426352A CN 105426352 A CN105426352 A CN 105426352A CN 201510822691 A CN201510822691 A CN 201510822691A CN 105426352 A CN105426352 A CN 105426352A
Authority
CN
China
Prior art keywords
tree
decision
dom
template document
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510822691.8A
Other languages
English (en)
Inventor
徐志强
刘正桃
谢欣涛
陈剑
肖振锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Tianxiakuan Information Technology Co Ltd
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Economic and Technological Research Institute of State Grid Hunan Electric Power Co Ltd
Original Assignee
Hunan Tianxiakuan Information Technology Co Ltd
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Economic and Technological Research Institute of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Tianxiakuan Information Technology Co Ltd, State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Economic and Technological Research Institute of State Grid Hunan Electric Power Co Ltd filed Critical Hunan Tianxiakuan Information Technology Co Ltd
Priority to CN201510822691.8A priority Critical patent/CN105426352A/zh
Publication of CN105426352A publication Critical patent/CN105426352A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种模板文档自动生成方法,包括根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;调整优化决策树,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;按照筛选出的决策树模型,生成已经进行替换和属性变更的文档。本发明提供的这种模板文档自动生成方法,由于采用了与DOM格式目录树相匹配的决策树,并通过对决策树的筛选最终生成最优的决策树模型,并依据该决策树模型生成模板文档,因此本发明能够不受目录树的深度或层次的影响,能够高效、快速的生成模板文档。

Description

模板文档自动生成方法
技术领域
本发明属于智能信息管理及应用技术领域,具体涉及模板文档自动生成方法。
背景技术
随着信息技术的高速发展,信息技术渗入至各行各业,为每个行业带来了翻天覆地的变化,不仅优化了工作流程,而且很大程度上提高了工作效率。作为模板性文档特别多的科研院所、设计单位,为了提高工作效率、降低文档差错率,每个单位迫切需要一个解决此类模板性文档自动生成文件的工具,并全面提升工作效率及质量,其模板文档快速生成文件需要高效的快速生成方法。
基于DOM目录树自定义标签遍历方法是模板文档生成文件的一种可行方法(找到相应的自定义标签进行数据信息替换),其基本步骤主要是:首先根据文档材料动态生成相关的DOM目录树格式;其次在DOM目录树的基础上进行自定义标签遍历,基于DOM目录树模型模板文档生成具有简单有效且计算结果准确等特点,但其随着DOM目录树的深度或层次的增加,其遍历量按指数级增加,影响模板文档生成效率,从而很大程度上制约了该方法在模版文档自动生成方面的深入应用。
发明内容
本发明的目的在于提供一种高效、快速的模板文档自动生成方法。
本发明提供的这种模板文档自动生成方法,其特征在于包括如下步骤:
S1根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
S2对步骤S1产生的决策树进行多叉和多级调整优化,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
S3通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
S4按照S3中筛选出的决策树模型,生成已经进行替换和属性变更的文档。
所述的步骤S1中的产生相匹配的决策树,为在遍历DOM格式目录树的同时,按同样的树形结构生成决策树,决策树的节点来自DOM目录树,决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,且当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,从而生成完整的决策树。
所述的遍历优化决策树,为采用深度优先算法进行遍历。
所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
本发明提供的这种模板文档自动生成方法,由于采用了与DOM格式目录树相匹配的决策树,并通过对决策树的筛选最终生成最优的决策树模型,并依据该决策树模型生成模板文档,因此本发明能够不受目录树的深度或层次的影响,能够高效、快速的生成模板文档。
附图说明
图1为DOM格式目录树的结构示意图。
图2为DOM格式目录树的树形图。
图3为DOM相匹配的决策树的结构示意图。
图4为DOM相匹配的决策树的树形图。
图5为本发明的方法流程图。
具体实施方式
如图1所示为本发明的方法根据模板文档生成的DOM格式目录树的结构示意图:可以看到图中的目录树包括元素、属性和文本;如图2所示为DOM格式目录树的树形图;如图3所示为本发明的方法生成的与DOM格式目录树的决策树,用于辅助决策快速遍历DOM目录树;如图4所示为DOM相匹配的决策树的树形图。
如图5所示为本发明的方法流程图:
步骤1:根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
根据基于XML格式模板文档生成如图1所示的DOM格式目录树,包括模板文档所包含的模板文档的标题、段落、样式等属性信息,在生成DOM格式的同时产生与之相匹配的自定义标签决策树。
如图2所示为DOM格式目录树的树形图;采取深度优先遍历算法,在遍历DOM格式目录树的同时按同样的树形结构生成决策树,决策树的节点同样来自DOM目录树,但是决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,从生成完整的决策树,如图4所示。
步骤2:调整优化决策树,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
通过改进优化决策树,包括多叉和多级调整,再结合基于DOM格式目录树的模板文档进行遍历,完成所有自定义标签数据替换和属性变更,生成完整的模板文档文件,并计算遍历DOM目录树所耗费的时间。
DOM格式目录树遍历采用深度优先遍历法,从节点开始,层层深入,每进入一个子节点就与决策树进行匹配判别,当子节点不在决策树上存在,直接进入下一兄弟节点遍历,否则深入遍历,直到遍历此节点子树完成及替换自定义标签内容为止,重复此遍历过程直到遍历完成为止。
步骤3:通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
通过比对所有调整优化决策树的模板文档DOM目录树遍历时效性,获取耗费时间最小的模型作为快速自动生成模板文档文件的辅助决策树模型。
步骤4:按照筛选出的决策树模型,生成已经进行替换和属性变更的文档。

Claims (5)

1.一种模板文档自动生成方法,包括如下步骤:
S1.根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
S2.对步骤S1产生的决策树进行多叉和多级调整优化,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
S3.通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
S4.按照S3中筛选出的决策树模型,生成所需要的模板文档。
2.根据权利要求1所述的模板文档自动生成方法,其特征在于所述的步骤S1中的产生相匹配的决策树,为在遍历DOM格式目录树的同时,按同样的树形结构生成决策树,决策树的节点来自DOM目录树,决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,且当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,生成完整的决策树。
3.根据权利要求1或2所述的模板文档自动生成方法,其特征在于步骤S2中所述的遍历优化决策树,为采用深度优先算法进行遍历。
4.根据权利要求1或2所述的模板文档自动生成方法,其特征在于步骤S4中所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
5.根据权利要求3所述的模板文档自动生成方法,其特征在于步骤S4中所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
CN201510822691.8A 2015-11-24 2015-11-24 模板文档自动生成方法 Pending CN105426352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510822691.8A CN105426352A (zh) 2015-11-24 2015-11-24 模板文档自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510822691.8A CN105426352A (zh) 2015-11-24 2015-11-24 模板文档自动生成方法

Publications (1)

Publication Number Publication Date
CN105426352A true CN105426352A (zh) 2016-03-23

Family

ID=55504567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510822691.8A Pending CN105426352A (zh) 2015-11-24 2015-11-24 模板文档自动生成方法

Country Status (1)

Country Link
CN (1) CN105426352A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268436A (zh) * 2016-12-30 2018-07-10 珠海金山办公软件有限公司 一种幻灯片美化匹配的方法及装置
US11269835B2 (en) 2019-07-11 2022-03-08 International Business Machines Corporation Customization and recommendation of tree-structured templates

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
US20140067819A1 (en) * 2009-10-30 2014-03-06 Oracle International Corporation Efficient xml tree indexing structure over xml content
CN103858386A (zh) * 2011-08-02 2014-06-11 凯为公司 通过优化的决策树进行的包分类

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067819A1 (en) * 2009-10-30 2014-03-06 Oracle International Corporation Efficient xml tree indexing structure over xml content
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103858386A (zh) * 2011-08-02 2014-06-11 凯为公司 通过优化的决策树进行的包分类
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268436A (zh) * 2016-12-30 2018-07-10 珠海金山办公软件有限公司 一种幻灯片美化匹配的方法及装置
CN108268436B (zh) * 2016-12-30 2021-08-20 珠海金山办公软件有限公司 一种幻灯片美化匹配的方法及装置
US11269835B2 (en) 2019-07-11 2022-03-08 International Business Machines Corporation Customization and recommendation of tree-structured templates

Similar Documents

Publication Publication Date Title
CN103136184A (zh) 一种自动排版的方法及其装置
CN110058856A (zh) 页面配置方法及装置
CN104035754A (zh) 一种基于xml的自定义代码生成方法及生成器
CN101968817B (zh) 网页模板配置方法
CN109299446A (zh) 报告生成方法及装置
CN109190094B (zh) 基于ifc标准的建筑信息模型文件切分方法
CN102385505B (zh) 针对面向对象程序设计语言源代码的软件可视化方法
CN103092589A (zh) 一种基于ssh框架的代码自动生成方法
CN104598462B (zh) 提取结构化数据的方法及装置
CN105302803A (zh) 一种产品bom差异分析与同步更新方法
CN107067200B (zh) 一种物料清单数据的操作方法及装置
CN105426352A (zh) 模板文档自动生成方法
CN109284152A (zh) 一种菜单可视化配置方法、设备及计算机可读存储介质
CN108984744A (zh) 一种非主链区块自增长方法
CN111435347A (zh) 数据库中关系表的高效扩展方法和系统
CN105760491A (zh) 基于设备功能的数据建模方法及装置
CN102707945A (zh) 一种Eclipse基于布局模版的表单设计器的实现方法
CN105095473A (zh) 一种对差异数据进行分析的方法及系统
CN107992654A (zh) 一种智能化排版方法
CN107239539A (zh) 一种基于关系型数据库的自定义建模方法
CN104123422A (zh) 一种利用数据库管理系统的制前设计方法
CN105893591A (zh) 一种数据共享服务智能编排技术
CN104572744A (zh) 结构化文档生成方法和装置
CN104715029A (zh) 一种多渠道发布方法
CN103294791A (zh) 一种可扩展标记语言模式匹配方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160323

WD01 Invention patent application deemed withdrawn after publication