CN101727497B - 一种网页化文档生成交互式文档结构的方法 - Google Patents

一种网页化文档生成交互式文档结构的方法 Download PDF

Info

Publication number
CN101727497B
CN101727497B CN2010100118838A CN201010011883A CN101727497B CN 101727497 B CN101727497 B CN 101727497B CN 2010100118838 A CN2010100118838 A CN 2010100118838A CN 201010011883 A CN201010011883 A CN 201010011883A CN 101727497 B CN101727497 B CN 101727497B
Authority
CN
China
Prior art keywords
document
interactive
web page
file structure
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010100118838A
Other languages
English (en)
Other versions
CN101727497A (zh
Inventor
陈景亮
张金石
陈晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2010100118838A priority Critical patent/CN101727497B/zh
Publication of CN101727497A publication Critical patent/CN101727497A/zh
Application granted granted Critical
Publication of CN101727497B publication Critical patent/CN101727497B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于电子计算机应用技术领域,涉及一种快速自动的将网页化文档变为交互式文档结构的方法,特别是一种网页化文档生成交互式文档结构的方法,先将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记;再根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形成与在文档中先后顺序一致的专用标记文档结构的标签集合;然后在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结构中的索引项;其生成交互式文档速度快,实时性强,灵活性好,节省时间和人力。

Description

一种网页化文档生成交互式文档结构的方法
技术领域:
本发明属于电子计算机应用技术领域,涉及一种快速自动的将网页化文档变为交互式文档结构的方法,特别是一种网页化文档生成交互式文档结构的方法。
背景技术:
网页化文档也成为超文本标记语言(Hypertext Markup Language,简称HTML),采用由特定字母组成的文字字符串或称为标签来界定正文内容的不同显示方式,是数据和显示风格组合在一起的数据结构。随着计算机网络的普及应用,基于网页形式浏览大型文档的情况越来越多,这类大型网页化文档的内容一般比较丰富,打印出来常常都在几十页,甚至达数百页,这些文档阅读与使用起来费时费力,如果没有目录索引结构使用起来更是无处下手。目前,如何提高这类大型网页化文档的使用效率成为本技术领域中正在探求的创新型课题;在使用word查阅大型文档时其自带的“文档结构图”给使用者留下了深刻的印象,这是一种基于标题目录层次关系创建的交互式文档结构,文档结构上的索引与关联的对应内容随点随到。利用微软提供的生成文档结构的范例方法,可以生成交互式文档结构,但是对于大型网页文档要花费的时间往往在几分钟以上,其等待时间之长让使用者难以让人忍受。总结起来,现有的网页化文档生成交互式文档结构的技术还不成熟,已经实施的类似方法也还存在着速度慢,生成结构复杂,使用方便性差等缺点。因此,寻求一种可以提高大型网页化文档变为交互式文档结构的自动生成速度,不需要预先保存文档结构的计算机应用方法满足使用需要,具有明显的实际应用价值。
发明内容:
本发明的目的在于克服现有技术的不足,利用电子计算机技术的遍历算法为大型网页化文档提供一种自动生成交互式文档结构的快速方法。
为了实现上述目的,本发明采用遍历算法遍历文档中的所有标签,对其中用于文档结构的标签生成对应的交互锚点结构,并建立与之关联的交互式文档结构索引的关联,在word查阅大型文档时使用文档结构图点击文档结构的索引,跳转显示相应的文档内容;本发明方法能提高用遍历算法生成大型网页化文档对应的交互式文档结构的速度,缩短文档结构的生成的等待时间,不需要预先生成与保存文档结构即可快速自动生成交互式文档结构;为了实现遍历算法生成文档结构快速即时的目的,本发明采用快速获取标记文档结构的专用标签集合,构建有效且缩小的标签集合的遍历方法。
本发明方法的主要步骤包括以下三个过程:
步骤1:将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记;
步骤2:根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形成与在文档中先后顺序一致的专用标记文档结构的标签集合;
步骤3:在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结构中的索引项。
本发明所述的用特殊标记和统一标识对文档结构标签进行标记是对文档结构标签进行逐类快速地统一标识标记;所述的获取专用标记文档结构的标签集合和用遍历算法进行生成交互式文档结构是根据统一标识的共同特征,快速获取已做过统一标识标记的标签,形成专用的标记文档结构的标签集合;并基于已获取的专用标记文档结构的标签集合进行生成交互式文档结构;对文档结构专用标签集合用遍历算法逐个在网页文档内容中生成对应的交互锚点结构,再同时建立与之关联的交互式文档结构。
本发明的核心在于用尽可能快的速度获取最精准的标记标签集合,再由特定标记标签集合快速地去组织生成文档结构;与现有技术相比,其生成交互式文档的速度快,实时性强,灵活性好,节省时间和人力。
附图说明:
图1为本发明工作流程结构原理示意框图。
具体实施方式:
下面通过实施例并结合附图做进一步说明。
本实施例按下列步骤实施:
1)把网页文档内的所有标签过滤分类,再把能够体现文档结构的内容或各级标题,逐类分别用特殊的统一标识标记出来;采用的这种特殊的统一标识要利于下一步骤中快速直接获取对应标签集合;具体是在HTML标签处理中,用document.all.tags(″H1″)按在文档中出现的先后顺序获取文档中所有一级标题的标签,并给每个标题指定ID为同一标识,例如为“HI”;用相同方法把组成文档结构的标签统一标识出来;
2)按这些标记标签在文档中的先后位置关系快速获取这些做过标记的标签集合,构建一个用于文档结构的文中所有标题组成的遍历数组;具体是用document.all(″HI″)按在文档中出现的先后顺序获取获取文档中所有ID为“HI”标签;
3)用遍历算法在缩小的所选定的标签集合——遍历数组中,生成对应的交互式文档结构中的各个索引项,实现文档结构内的索引标识与文档内容具体位置的关联浏览;具体是指定document.all(″HI″)的结果作为实现文档结构遍历标签的集合,进行充分必要的标签遍历与索引的生成。
本实施例由于缩小了遍历的标签数量——为必要充分的用于文档结构的所有标题标签集合,从而提高读写大型网页文档的速度,尤其是即时生成交互式文档结构的大型网页文档的开档速度。
本实施例根据网页化文档内的所有标签进行分类过滤,把能够体现文档结构的内容标题用特殊的标记快速逐类用统一标识进行标记;再根据统一标识的共同特征,快速获取这些做过统一标识标记的标签集合,形成专用标记文档结构的标签集合;再基于专用标记文档结构的标签集合,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结构中的索引项。
本实施例所述的用特殊的标记对文档结构标签进行统一标识标记是对文档结构标签进行逐类快速地统一标识标记;所述的获取专用的标记文档结构的标签集合用遍历算法进行生成交互式文档结构是根据统一标识的共同特征,快速获取这些做过统一标识标记的标签,形成专用的标记文档结构的标签集合;再基于已获取的专用的标记文档结构的标签集合进行生成交互式文档结构;本实施方式仅用于以说明本发明的技术方案而非对其限制;对于非结构化网页文档,在内容长达数十页甚至数百页,编制、阅读与使用起来都比较费时费力,采用微软范例算法生成文档结构,对于大型文档花费时间在几十秒钟甚至数分钟以上,该方法即时快速自动生成类似word中的“文档结构图”,对于含有过万个标记标签的HTML文档,采用微软范例算法生成文档结构,平均需要1分钟以上;采用新算法,不超过5秒钟,大大改善了文档结构生成时的响应速度;另外该方法不需要额外存放文档结构内容,方便了网页正文的其他用途。

Claims (1)

1.一种网页化文档生成交互式文档结构的方法,其特征在于采用遍历算法遍历文档中的所有标签,对其中的文档结构专用标签生成对应的交互锚点结构,并建立与网页化文档关联的交互式文档结构索引的关联,在word查阅大型文档时使用文档结构图点击交互式文档结构索引,跳转显示相应的文档内容;包括下列三个步骤:
步骤1:将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记;
步骤2:根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形成与在文档中先后顺序一致的专用标记文档结构的标签集合;
步骤3:在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与网页化文档关联的交互式文档结构中的索引项。
CN2010100118838A 2010-01-13 2010-01-13 一种网页化文档生成交互式文档结构的方法 Expired - Fee Related CN101727497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010100118838A CN101727497B (zh) 2010-01-13 2010-01-13 一种网页化文档生成交互式文档结构的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010100118838A CN101727497B (zh) 2010-01-13 2010-01-13 一种网页化文档生成交互式文档结构的方法

Publications (2)

Publication Number Publication Date
CN101727497A CN101727497A (zh) 2010-06-09
CN101727497B true CN101727497B (zh) 2012-08-15

Family

ID=42448383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010100118838A Expired - Fee Related CN101727497B (zh) 2010-01-13 2010-01-13 一种网页化文档生成交互式文档结构的方法

Country Status (1)

Country Link
CN (1) CN101727497B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102642B (zh) * 2013-04-03 2018-09-28 腾讯科技(深圳)有限公司 网页信息访问方法和装置
CN104111918B (zh) 2013-04-16 2018-06-22 腾讯科技(北京)有限公司 网页内容的无障碍处理方法和无障碍网页装置
CN103618961B (zh) * 2013-11-28 2017-12-08 乐视网信息技术(北京)股份有限公司 一种显示视频标题的方法、系统及浏览器
CN107391534B (zh) * 2017-04-19 2020-06-02 阿里巴巴集团控股有限公司 页面显示、页面文件返回方法及装置、计算机存储介质
CN107807948A (zh) * 2017-09-06 2018-03-16 安徽本末数据科技有限公司 基于网页web模式下的文件生成器
CN112989766B (zh) * 2021-05-11 2021-08-03 金锐同创(北京)科技股份有限公司 文档标注信息的处理方法、装置及终端设备

Also Published As

Publication number Publication date
CN101727497A (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
CN101727497B (zh) 一种网页化文档生成交互式文档结构的方法
CN104881488B (zh) 基于关系表的可配置信息抽取方法
CN101025738B (zh) 一种免模板动态网站生成方法
CN101984434B (zh) 基于可扩展标记语言查询的网页数据抽取方法
US8868556B2 (en) Method and device for tagging a document
CN101751476A (zh) 电子书签标记方法和装置
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN106055667A (zh) 一种基于文本‑标签密度的网页核心内容提取方法
CN106484663A (zh) 一种文档内容的提取方法和装置
CN101004762A (zh) 一种动态多维互联网网页系统
CN104090869B (zh) 一种翻译网络信息的方法及翻译系统
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
CN108170671A (zh) 一种提取新闻事件发生时间的方法
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN109753638A (zh) 多层级文档管理系统及其管理方法
CN102262658A (zh) 一种基于实体的自底向上Web数据抽取方法
CN104217025B (zh) 针对多记录网页的记录项抽取系统及方法
Visconti et al. Handbook of communication in the legal sphere
CN104484323A (zh) 一种基于文档片段的翻译处理方法
CN103324668A (zh) 一种在网页上标记文本的标记系统
CN103577444A (zh) 一种操控浏览器的方法及系统
CN108959248A (zh) 一种实体标注方法和装置、计算机可读存储介质
CN109062890A (zh) 一种标签切换方法和装置、计算机可读存储介质
CN105447027A (zh) 一种pdf文档目录的获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120815

Termination date: 20130113