CN101727497B

CN101727497B - 一种网页化文档生成交互式文档结构的方法

Info

Publication number: CN101727497B
Application number: CN2010100118838A
Authority: CN
Inventors: 陈景亮; 张金石; 陈晨
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-01-13
Filing date: 2010-01-13
Publication date: 2012-08-15
Anticipated expiration: 2030-01-13
Also published as: CN101727497A

Abstract

本发明属于电子计算机应用技术领域，涉及一种快速自动的将网页化文档变为交互式文档结构的方法，特别是一种网页化文档生成交互式文档结构的方法，先将文档内的所有标签分类过滤，把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记；再根据统一标识的共同特征，快速获取已做过统一标识标记的标签集合，形成与在文档中先后顺序一致的专用标记文档结构的标签集合；然后在所形成的专用标记文档结构的标签集合中，用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构，同时建立与之关联的交互式文档结构中的索引项；其生成交互式文档速度快，实时性强，灵活性好，节省时间和人力。

Description

一种网页化文档生成交互式文档结构的方法

技术领域：

本发明属于电子计算机应用技术领域，涉及一种快速自动的将网页化文档变为交互式文档结构的方法，特别是一种网页化文档生成交互式文档结构的方法。

背景技术：

网页化文档也成为超文本标记语言(Hypertext Markup Language，简称HTML)，采用由特定字母组成的文字字符串或称为标签来界定正文内容的不同显示方式，是数据和显示风格组合在一起的数据结构。随着计算机网络的普及应用，基于网页形式浏览大型文档的情况越来越多，这类大型网页化文档的内容一般比较丰富，打印出来常常都在几十页，甚至达数百页，这些文档阅读与使用起来费时费力，如果没有目录索引结构使用起来更是无处下手。目前，如何提高这类大型网页化文档的使用效率成为本技术领域中正在探求的创新型课题；在使用word查阅大型文档时其自带的“文档结构图”给使用者留下了深刻的印象，这是一种基于标题目录层次关系创建的交互式文档结构，文档结构上的索引与关联的对应内容随点随到。利用微软提供的生成文档结构的范例方法，可以生成交互式文档结构，但是对于大型网页文档要花费的时间往往在几分钟以上，其等待时间之长让使用者难以让人忍受。总结起来，现有的网页化文档生成交互式文档结构的技术还不成熟，已经实施的类似方法也还存在着速度慢，生成结构复杂，使用方便性差等缺点。因此，寻求一种可以提高大型网页化文档变为交互式文档结构的自动生成速度，不需要预先保存文档结构的计算机应用方法满足使用需要，具有明显的实际应用价值。

发明内容：

本发明的目的在于克服现有技术的不足，利用电子计算机技术的遍历算法为大型网页化文档提供一种自动生成交互式文档结构的快速方法。

为了实现上述目的，本发明采用遍历算法遍历文档中的所有标签，对其中用于文档结构的标签生成对应的交互锚点结构，并建立与之关联的交互式文档结构索引的关联，在word查阅大型文档时使用文档结构图点击文档结构的索引，跳转显示相应的文档内容；本发明方法能提高用遍历算法生成大型网页化文档对应的交互式文档结构的速度，缩短文档结构的生成的等待时间，不需要预先生成与保存文档结构即可快速自动生成交互式文档结构；为了实现遍历算法生成文档结构快速即时的目的，本发明采用快速获取标记文档结构的专用标签集合，构建有效且缩小的标签集合的遍历方法。

本发明方法的主要步骤包括以下三个过程：

步骤1：将文档内的所有标签分类过滤，把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记；

步骤2：根据统一标识的共同特征，快速获取已做过统一标识标记的标签集合，形成与在文档中先后顺序一致的专用标记文档结构的标签集合；

步骤3：在所形成的专用标记文档结构的标签集合中，用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构，同时建立与之关联的交互式文档结构中的索引项。

本发明所述的用特殊标记和统一标识对文档结构标签进行标记是对文档结构标签进行逐类快速地统一标识标记；所述的获取专用标记文档结构的标签集合和用遍历算法进行生成交互式文档结构是根据统一标识的共同特征，快速获取已做过统一标识标记的标签，形成专用的标记文档结构的标签集合；并基于已获取的专用标记文档结构的标签集合进行生成交互式文档结构；对文档结构专用标签集合用遍历算法逐个在网页文档内容中生成对应的交互锚点结构，再同时建立与之关联的交互式文档结构。

本发明的核心在于用尽可能快的速度获取最精准的标记标签集合，再由特定标记标签集合快速地去组织生成文档结构；与现有技术相比，其生成交互式文档的速度快，实时性强，灵活性好，节省时间和人力。

附图说明：

图1为本发明工作流程结构原理示意框图。

具体实施方式：

下面通过实施例并结合附图做进一步说明。

本实施例按下列步骤实施：

1)把网页文档内的所有标签过滤分类，再把能够体现文档结构的内容或各级标题，逐类分别用特殊的统一标识标记出来；采用的这种特殊的统一标识要利于下一步骤中快速直接获取对应标签集合；具体是在HTML标签处理中，用document.all.tags(″H1″)按在文档中出现的先后顺序获取文档中所有一级标题的标签，并给每个标题指定ID为同一标识，例如为“HI”；用相同方法把组成文档结构的标签统一标识出来；

2)按这些标记标签在文档中的先后位置关系快速获取这些做过标记的标签集合，构建一个用于文档结构的文中所有标题组成的遍历数组；具体是用document.all(″HI″)按在文档中出现的先后顺序获取获取文档中所有ID为“HI”标签；

3)用遍历算法在缩小的所选定的标签集合——遍历数组中，生成对应的交互式文档结构中的各个索引项，实现文档结构内的索引标识与文档内容具体位置的关联浏览；具体是指定document.all(″HI″)的结果作为实现文档结构遍历标签的集合，进行充分必要的标签遍历与索引的生成。

本实施例由于缩小了遍历的标签数量——为必要充分的用于文档结构的所有标题标签集合，从而提高读写大型网页文档的速度，尤其是即时生成交互式文档结构的大型网页文档的开档速度。

本实施例根据网页化文档内的所有标签进行分类过滤，把能够体现文档结构的内容标题用特殊的标记快速逐类用统一标识进行标记；再根据统一标识的共同特征，快速获取这些做过统一标识标记的标签集合，形成专用标记文档结构的标签集合；再基于专用标记文档结构的标签集合，用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构，同时建立与之关联的交互式文档结构中的索引项。

本实施例所述的用特殊的标记对文档结构标签进行统一标识标记是对文档结构标签进行逐类快速地统一标识标记；所述的获取专用的标记文档结构的标签集合用遍历算法进行生成交互式文档结构是根据统一标识的共同特征，快速获取这些做过统一标识标记的标签，形成专用的标记文档结构的标签集合；再基于已获取的专用的标记文档结构的标签集合进行生成交互式文档结构；本实施方式仅用于以说明本发明的技术方案而非对其限制；对于非结构化网页文档，在内容长达数十页甚至数百页，编制、阅读与使用起来都比较费时费力，采用微软范例算法生成文档结构，对于大型文档花费时间在几十秒钟甚至数分钟以上，该方法即时快速自动生成类似word中的“文档结构图”，对于含有过万个标记标签的HTML文档，采用微软范例算法生成文档结构，平均需要1分钟以上；采用新算法，不超过5秒钟，大大改善了文档结构生成时的响应速度；另外该方法不需要额外存放文档结构内容，方便了网页正文的其他用途。

Claims

1.一种网页化文档生成交互式文档结构的方法，其特征在于采用遍历算法遍历文档中的所有标签，对其中的文档结构专用标签生成对应的交互锚点结构，并建立与网页化文档关联的交互式文档结构索引的关联，在word查阅大型文档时使用文档结构图点击交互式文档结构索引，跳转显示相应的文档内容；包括下列三个步骤：

步骤3：在所形成的专用标记文档结构的标签集合中，用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构，同时建立与网页化文档关联的交互式文档结构中的索引项。