CN100565524C - 一种保存网页内容的系统、方法及浏览器 - Google Patents

一种保存网页内容的系统、方法及浏览器 Download PDF

Info

Publication number
CN100565524C
CN100565524C CNB2007100736797A CN200710073679A CN100565524C CN 100565524 C CN100565524 C CN 100565524C CN B2007100736797 A CNB2007100736797 A CN B2007100736797A CN 200710073679 A CN200710073679 A CN 200710073679A CN 100565524 C CN100565524 C CN 100565524C
Authority
CN
China
Prior art keywords
content
web page
preserved
script
page contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007100736797A
Other languages
English (en)
Other versions
CN101079059A (zh
Inventor
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2007100736797A priority Critical patent/CN100565524C/zh
Publication of CN101079059A publication Critical patent/CN101079059A/zh
Application granted granted Critical
Publication of CN100565524C publication Critical patent/CN100565524C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种保存网页内容的系统,包括:内容选取单元,用于选取网页中的待保存内容,所述待保存内容为网页中的部分内容;文档转换单元,用于根据网页脚本将所述内容选取单元选取的待保存内容转换为一个完整的文件;内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。本发明还提供一种对应的保存网页内容的方法及浏览器。本发明通过选取并保存网页中的部分内容,而不保存网页中的其它无关内容,节省了存储空间且方便了对保存内容的浏览。

Description

一种保存网页内容的系统、方法及浏览器
技术领域
本发明涉及计算机信息存储领域,更具体地说,涉及一种保存网页内容的系统、方法及浏览器。
背景技术
用户浏览因特网网页时,其网页浏览器与服务器的数据交互采用超文本传输协议(HTTP);服务器发送的网页数据包括超文本标记语言(HTML)等格式的文本文件及相关媒体资源,网页浏览器进一步解析这些文件,并将其绘制到窗口中,以供用户友好交互。
通常,用户可使用浏览器提供的网页保存功能保存当前正在浏览的网页,其保存格式根据浏览内容的不同可以是HTML(Hyper Text Markup Language,超文本标记语言)脚本和图片等。随着多媒体信息的迅速膨胀,用户通过网页获取越来越多的资源,与此同时,保存网页内容也成为用户信息储备的一个重要手段。
然而,现有网页的内容和版式日趋复杂。以普通的门户网站为例,其常规的新闻页面中,除了包括用户感兴趣的特定新闻内容,往往还包括大量的广告和相关推荐新闻等信息。此类信息不为用户所感兴趣,大多采用动态图片方式呈现,而且保存时占用较多的存储空间。例如某一门户网站的普通新闻网页,其实质新闻内容占用大约39068字节(包括有效附图),而实际保存内容却占用了224478字节,有效比例仅为17.4%。由此可见,用户为了保存某则新闻信息,却需要为其它不相关内容耗费更大比例的存储空间。这种额外开销存在于很多网页中。
通常情况下,用户仅对网页中的部分内容感兴趣,但现有的浏览器却不能单独保存该部分内容,而只能保存整个网页,从而不仅浪费了存储空间,并且使用户在后续浏览时,造成一些操作上的不方便,例如需要重新定位到感兴趣的部分内容。
此外,利用某些提供网页编辑功能的软件,例如Dreamweaver、MS Word等,可以保存网页中的指定内容。这些软件在保存网页内容时,必须首先在浏览器中通过选取欲保存的内容,将其复制到剪贴板中;然后在Dreamweaver/Word中粘贴,并保存为html格式的网页文件。显然,这种方式保存内容时操作过程较为复杂,需要在不同的软件之间切换;选取待保存内容的方式比较单一,尤其是在大规模文本的情况下,保持鼠标左键按下并拖动,使得操作非常不方便。
发明内容
本发明要解决的技术问题在于,针对上述网页内容保存占用空间且查看保存的内容不方便的问题,提供一种保存网页内容的系统、方法及浏览器。
本发明解决上述技术问题的技术方案是,提供一种保存网页内容的系统,包括:
内容选取单元,用于从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,所述待保存内容为网页中的部分内容;
文档转换单元,用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来,然后在所述脚本片段中加入所述选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件;
内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。
在本发明所述的一种保存网页内容的系统中,所述文档转换单元进一步包括选区定位子单元,所述内容选取单元进一步包括内容输入子单元、内容预览子单元和内容调整子单元,其中:
所述内容输入子单元,用于从浏览器显示的网页中选取内容;
所述选区定位子单元,用于将所述选取的内容转换为脚本片段;
所述内容预览子单元,用于将所述选区定位子单元获得的脚本片段显示为待保存内容;
所述内容调整子单元,用于调整并确认内容预览子单元中显示的待保存内容。
在本发明所述的一种保存网页内容的系统中,所述文档转换单元进一步包括:
文档维护子单元,用于将<html>标签加入待保存内容对应的脚本片段的起始位置并将</html>标签加入所述脚本片段的结尾位置。
在本发明所述的一种保存网页内容的系统中,所述文档转换单元进一步包括:
语法校正子单元,用于修正所述选取的待保存内容对应的脚本片段的语法错误。
在本发明所述的一种保存网页内容的系统中,所述选区定位子单元根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。
在本发明所述的一种保存网页内容的系统中,所述选区定位子单元根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。
本发明还提供一种保存网页内容的方法,包括以下步骤:
(a)从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,并从网页脚本将所述待保存内容对应的脚本片段提取出来,然后在所述脚本片段中加入选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件,所述待保存内容为网页中的部分内容;
(b)将所述文件保存到存储空间。
在本发明所述的一种保存网页内容的方法中,所述步骤(a)进一步包括:
(a1)将所述选取的待保存内容转换为脚本片段;
(a2)将所述脚本片段显示为待保存内容;
(a3)调整并确认显示的待保存内容;
(a4)将所有确认的待保存内容对应的脚本片段转化为一个完整的文件。
在本发明所述的一种保存网页内容的方法中,所述步骤(a)进一步包括:修正所述选取的待保存内容对应的脚本片段的语法错误。
在本发明所述的一种保存网页内容的方法中,所述步骤(a1)中,根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。
本发明还提供一种可保存网页内容的浏览器,包括:
内容选取单元,用于从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,所述待保存内容为网页中的部分内容;
文档转换单元,用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来,并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件;
内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。
本发明一种保存网页内容的系统、方法及浏览器,通过选取并保存网页中的部分内容,而不保存网页中的其它无关内容,节省了存储空间且方便了对保存内容的浏览。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种保存网页内容的系统实施例的结构示意图;
图2是图1中文档转换单元和内容选取单元的详细结构示意图;
图3是本发明一种保存网页内容的方法第一实施例的流程图;
图4是图3中选取待保存内容步骤的流程图。
具体实施方式
本发明主要使用户在浏览网页时,能够灵活地保存需要的内容,而不用保存网页中其它无关内容,并且保存内容的样式能较好地忠实原文。
如图1所示,在本发明一种保存网页内容的系统的实施例,包括内容选取单元11、文档转换单元12以及内容保存单元13。
内容选取单元11用于选取网页中的待保存内容,其中待保存内容为网页中的部分内容。该内容选取单元11可通过在浏览窗口中使用鼠标拖动方式选取待保存内容;也可以使用弹出窗口显示网页内容列表从而通过该列表选取需保存的内容。在确定选取的待保存内容后,内容选取单元11将待保存内容发送到文档转换单元12。
文档转换单元12用于根据网页脚本将上述内容选取单元11选取的待保存内容转换为一个完整的文件。由于一般的网页都是使用HTML和/或XML脚本实现的,而HTML和/或XML通过在文本文件中加入一系列的标签(tag)来表示网页中的不同内容及表现形式。标签是HTML和/或XML语法的基本元素,由“<”和“>”成对组成,两者之间是标签的内容。文档转换单元12根据网页脚本中的标签识别选取的内容,并将选取的内容对应的脚本片段从网页脚本中提取出来,重新生成一个仅包含待保存内容的网页脚本,从而实现了选取的内容的转换。
在本实施例中,文档转换单元12不仅复制页面原始的<html>、<head>等标签内容,还将选取内容的样式、使用的附加javascript等代码都写入转换后的文件。
内容保存单元13用于将文档转换单元12转换获得的文件保存到存储空间。内容保存单元13按照现有存储网页的方式存储上述文件,也就是将网页脚本存储到设定的目录下,而其它诸如图片等独立的文件存储到存储空间的相应目录下。由于上述文件中仅包含待保存内容,而不包含其它诸如广告等内容,因此可大量节约存储空间。
如图2所示,是图1中文档转换单元12和内容选取单元11的详细结构示意图。其中文档转换单元12进一步包括:选区定位子单元121以及文档维护子单元123;内容选取单元11则包括内容输入子单元111、内容预览子单元112、内容调整子单元113。
内容输入子单元111用于从浏览器显示的网页中选取内容,例如通过鼠标拖动方式或弹出窗口方式等。
选区定位子单元121用于将内容输入子单元111输入的内容转换为脚本片段。由于HTML文件中的组件以不同的层级显示,在DOM中则以树形目录的形式显示。树形目录中的每个组件都是拥有由DOM定义的多种属性和方式的对象。例如,一个网页可以按文件对象的形式显示。各个对象可以通过在树形目录中的位置锁定,或者通过标签、名称以及ID直接获取。因此,选区定位子单元121可根据DOM(Document Object Model,文档对象模型)树中的网页内容对象结构,获取相应内容的脚本片段。
内容预览子单元112用于将选区定位子单元111获得的脚本片段显示为对应内容。该内容预览子单元112可通过与现有浏览器相同的方式显示脚本片段,也可以仅显示脚本片段对应内容的列表。
内容调整子单元113用于调整并确认内容预览子单元113中显示的待保存内容。该内容调整子单元113可通过与内容输入子单元111相同的方式选取或删除对应内容。
文档维护子单元123用于将待保存内容对应的脚本片段转化为一个完整的文件。在具体实现时,文档维护子单元123在待保存内容对应的脚本片段中加入HTML文件标签对,例如将<html>标签加入脚本片段的起始位置并将</html>标签加入脚本片段的结尾位置,从而将脚本片段转化完整的保存文件。
在本实施例中,文档维护子单元123还把选定内容的样式、使用的附加javascript代码等都写入保存文件。
在本发明一种保存网页内容的系统的第二实施例中,除包括上述各组成单元外,还包括语法校正子单元,用于修正所述选取或经过确认的待保存内容的脚本片段的语法错误。例如若选取内容中包括表格的一部分,而不是完整的表格,则得到的脚本内容中损失了表格的起始标签(<table>、<body>等)或终止标签(</table>、</body>等),语法校正子单元即可根据DOM树进行局部语法自动校正,防止以后打开保存的文件时解析出错。
上述的系统可直接集成到网页浏览器,从而可在浏览网页的同时选择保存部分网页内容。
如图3所示,是本发明一种保存网页内容的方法第一实施例的流程图,其包括以下步骤:
步骤S31:选取网页中的待保存内容,并根据网页脚本将所选取内容转换为一个完整的文件,其中待保存内容为网页中的部分内容。
在该步骤中,可通过在浏览窗口中使用鼠标拖动方式选取待保存内容;也可以使用弹出窗口显示网页内容列表从而通过该列表选取需保存的内容。
而文件转换则通过网页脚本中的标签识别选取的内容,并将选取的内容对应的脚本片段从网页脚本中提取出来,重新生成一个仅包含待保存内容的网页脚本。
步骤S32:将所述文件保存到存储空间。在该步骤中,可按照现有存储网页的方式存储上述文件(例如浏览器存储网页的方式),也就是将网页脚本存储到设定的目录下,而其它诸如图片等独立的文件存储到存储空间的相应目录下。
如图4所示,是图3中选取待保存内容步骤的详细流程图,其具体包括:
步骤S41:将选取的待保存内容转换为脚本片段。在该步骤中,可根据DOM树中的网页内容对象结构,获取相应内容的脚本片段。
步骤S42:将所述选区定位子单元获得的脚本片段显示为待保存内容。在该步骤中,可通过与现有浏览器相同的方式显示脚本片段,也可以仅显示脚本片段对应内容的列表。
步骤S43:调整并确认步骤S42中显示的选取内容。该步骤可通过与步骤S31中选取待保存内容相同的方式实现。
步骤S44:将上述确认的内容对应的脚本片段转化为一个完整的文件。在具体实现时,在待保存内容对应的脚本片段中加入HTML文件标签对,例如将<html>标签加入脚本片段的起始位置并将</html>标签加入脚本片段的结尾位置,从而将脚本片段转化完整的保存文件。在本实施例中,该步骤还把选定内容的样式、使用的附加javascript代码等都写入保存文件。
在本发明的第二实施例中,除包括上述第一实施例的各步骤,还包括:修正所述选取或经过确认的待保存内容的脚本片段的语法错误。该步骤可根据DOM树进行局部语法自动校正,防止以后打开保存的文件时解析出错。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1、一种保存网页内容的系统,其特征在于,包括:
内容选取单元,用于从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,所述待保存内容为网页中的部分内容;
文档转换单元,用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来,然后在所述脚本片段中加入所述选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件;
内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。
2、根据权利要求1所述的一种保存网页内容的系统,其特征在于,所述文档转换单元进一步包括选区定位子单元,所述内容选取单元进一步包括内容输入子单元、内容预览子单元和内容调整子单元,其中:
所述内容输入子单元,用于从浏览器显示的网页中选取内容;
所述选区定位子单元,用于将所述选取的内容转换为脚本片段;
所述内容预览子单元,用于将所述选区定位子单元获得的脚本片段显示为待保存内容;
所述内容调整子单元,用于调整并确认内容预览子单元中显示的待保存内容。
3、根据权利要求2所述的一种保存网页内容的系统,其特征在于,所述文档转换单元进一步包括:
文档维护子单元,用于将<html>标签加入待保存内容对应的脚本片段的起始位置并将</html>标签加入所述脚本片段的结尾位置。
4、根据权利要求1-3中任一项所述的一种保存网页内容的系统,其特征在于,所述文档转换单元进一步包括:
语法校正子单元,用于修正所述选取的待保存内容对应的脚本片段的语法错误。
5、根据权利要求2所述的一种保存网页内容的系统,其特征在于,所述选区定位子单元根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。
6、一种保存网页内容的方法,其特征在于,包括以下步骤:
(a)从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,并从网页脚本将所述待保存内容对应的脚本片段提取出来,然后在所述脚本片段中加入选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件,所述待保存内容为网页中的部分内容;
(b)将所述文件保存到存储空间。
7、根据权利要求6所述的一种保存网页内容的方法,其特征在于,所述步骤(a)进一步包括:
(a1)将所述选取的待保存内容转换为脚本片段;
(a2)将所述脚本片段显示为待保存内容;
(a3)调整并确认显示的待保存内容;
(a4)将所有确认的待保存内容对应的脚本片段转化为一个完整的文件。
8、根据权利要求6或7所述的一种保存网页内容的方法,其特征在于,所述步骤(a)进一步包括:修正所述选取的待保存内容对应的脚本片段的语法错误。
9、根据权利要求7所述的一种保存网页内容的方法,其特征在于,所述步骤(a1)中,根据文档对象模型树中的网页内容对象结构,获取选取内容的脚本片段。
10、一种可保存网页内容的浏览装置,其特征在于,包括:
内容选取单元,用于从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容,所述待保存内容为网页中的部分内容;
文档转换单元,用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来,然后在所述脚本片段中加入所述选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对,以获得一个完整的文件;
内容保存单元,用于将所述文档转换单元转换获得的文件保存到存储空间。
CNB2007100736797A 2007-03-27 2007-03-27 一种保存网页内容的系统、方法及浏览器 Active CN100565524C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100736797A CN100565524C (zh) 2007-03-27 2007-03-27 一种保存网页内容的系统、方法及浏览器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100736797A CN100565524C (zh) 2007-03-27 2007-03-27 一种保存网页内容的系统、方法及浏览器

Publications (2)

Publication Number Publication Date
CN101079059A CN101079059A (zh) 2007-11-28
CN100565524C true CN100565524C (zh) 2009-12-02

Family

ID=38906538

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100736797A Active CN100565524C (zh) 2007-03-27 2007-03-27 一种保存网页内容的系统、方法及浏览器

Country Status (1)

Country Link
CN (1) CN100565524C (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982044A (zh) * 2011-09-07 2013-03-20 腾讯科技(深圳)有限公司 一种网页浏览方法及装置
CN103795845A (zh) * 2012-10-31 2014-05-14 中兴通讯股份有限公司 历史界面的访问方法、装置及移动终端
CN104077292B (zh) * 2013-03-27 2018-03-23 腾讯科技(深圳)有限公司 网页信息的存储方法及设备
CN104123125A (zh) 2013-04-26 2014-10-29 腾讯科技(深圳)有限公司 网页资源的获取方法及装置
CN103778252A (zh) * 2014-02-24 2014-05-07 武汉传神信息技术有限公司 一种收集信息碎片的方法
KR20150111221A (ko) * 2014-03-25 2015-10-05 삼성전자주식회사 페이지 구성 방법 및 이를 지원하는 전자장치
CN104317949B (zh) * 2014-11-06 2017-12-08 北京德塔普博软件有限公司 文档片段内容提取方法、装置和系统
CN106202005A (zh) * 2015-05-08 2016-12-07 珠海金山办公软件有限公司 一种网页转换方法及装置
CN104951516A (zh) * 2015-05-29 2015-09-30 小米科技有限责任公司 存储网页文件的方法及装置
CN105279245A (zh) * 2015-09-30 2016-01-27 北京奇虎科技有限公司 一种收藏网页上内容的方法及电子设备
CN105320751A (zh) * 2015-09-30 2016-02-10 北京奇虎科技有限公司 一种在网页上做标记的方法及电子设备
CN105260433A (zh) * 2015-09-30 2016-01-20 北京奇虎科技有限公司 一种网页内容收藏方法及电子设备
CN105278810A (zh) * 2015-09-30 2016-01-27 北京奇虎科技有限公司 一种收藏方法及电子设备
CN105868344A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 一种信息处理方法及电子设备
CN106557587B (zh) * 2016-11-30 2020-07-14 惠州Tcl移动通信有限公司 一种保存和显示网页图片与对应文本的方法及系统
CN107368568A (zh) * 2017-07-11 2017-11-21 广州视源电子科技股份有限公司 一种笔记生成的方法、装置、设备和存储介质
CN107391655B (zh) * 2017-07-18 2020-11-24 北京京东尚科信息技术有限公司 一种抽取试读文件的方法和装置

Also Published As

Publication number Publication date
CN101079059A (zh) 2007-11-28

Similar Documents

Publication Publication Date Title
CN100565524C (zh) 一种保存网页内容的系统、方法及浏览器
US7631260B1 (en) Application modification based on feed content
EP1672524B1 (en) Systems and methods for converting a formatted document to a web page
TWI322950B (zh)
US10387535B2 (en) System and method for selectively displaying web page elements
CN101771681B (zh) 一种页面显示控制方法、服务器及系统
WO2008092079A2 (en) System, method and apparatus for selecting content from web sources and posting content to web logs
CN101441644A (zh) 网页批注系统与方法
CN103761277A (zh) 一种ePub电子书的加载方法和系统
CN110717127A (zh) 一种ofd文件在线解析与浏览的方法与装置
CN102065114A (zh) 一种移动终端访问网页的方法及装置
US20110191381A1 (en) Interactive System for Extracting Data from a Website
CN101013436A (zh) 将不同格式的文本数据转换为统一格式的方法及其系统
US20140013211A1 (en) Content providing apparatus compatible with various terminal devices
CN107943915A (zh) 基于html5的ofd文件在线显示的方法以及装置
CN105447198A (zh) 页面脚本便捷导入的方法及装置
CN102880679B (zh) 一种网页信息存储方法和装置
CN110825382A (zh) 一种前端大数据树形结构展示方法
US20110078165A1 (en) Document-fragment transclusion
WO2011069903A1 (en) Method and system for on-line editing electronic documents
KR101287371B1 (ko) 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체
CN102096670A (zh) 一种数据字典生成方法以及装置
CN112433995B (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN105740239A (zh) 一种网页上文字的翻译方法及系统
CN111708529B (zh) 一种基于angular通过拖拽生成表单的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant