CN100565524C

CN100565524C - 一种保存网页内容的系统、方法及浏览器

Info

Publication number: CN100565524C
Application number: CNB2007100736797A
Authority: CN
Inventors: 胡鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2009-12-02
Anticipated expiration: 2027-03-27
Also published as: CN101079059A

Abstract

本发明公开了一种保存网页内容的系统，包括：内容选取单元，用于选取网页中的待保存内容，所述待保存内容为网页中的部分内容；文档转换单元，用于根据网页脚本将所述内容选取单元选取的待保存内容转换为一个完整的文件；内容保存单元，用于将所述文档转换单元转换获得的文件保存到存储空间。本发明还提供一种对应的保存网页内容的方法及浏览器。本发明通过选取并保存网页中的部分内容，而不保存网页中的其它无关内容，节省了存储空间且方便了对保存内容的浏览。

Description

一种保存网页内容的系统、方法及浏览器

技术领域

本发明涉及计算机信息存储领域，更具体地说，涉及一种保存网页内容的系统、方法及浏览器。

背景技术

用户浏览因特网网页时，其网页浏览器与服务器的数据交互采用超文本传输协议(HTTP)；服务器发送的网页数据包括超文本标记语言(HTML)等格式的文本文件及相关媒体资源，网页浏览器进一步解析这些文件，并将其绘制到窗口中，以供用户友好交互。

通常，用户可使用浏览器提供的网页保存功能保存当前正在浏览的网页，其保存格式根据浏览内容的不同可以是HTML(Hyper Text Markup Language，超文本标记语言)脚本和图片等。随着多媒体信息的迅速膨胀，用户通过网页获取越来越多的资源，与此同时，保存网页内容也成为用户信息储备的一个重要手段。

然而，现有网页的内容和版式日趋复杂。以普通的门户网站为例，其常规的新闻页面中，除了包括用户感兴趣的特定新闻内容，往往还包括大量的广告和相关推荐新闻等信息。此类信息不为用户所感兴趣，大多采用动态图片方式呈现，而且保存时占用较多的存储空间。例如某一门户网站的普通新闻网页，其实质新闻内容占用大约39068字节(包括有效附图)，而实际保存内容却占用了224478字节，有效比例仅为17.4％。由此可见，用户为了保存某则新闻信息，却需要为其它不相关内容耗费更大比例的存储空间。这种额外开销存在于很多网页中。

通常情况下，用户仅对网页中的部分内容感兴趣，但现有的浏览器却不能单独保存该部分内容，而只能保存整个网页，从而不仅浪费了存储空间，并且使用户在后续浏览时，造成一些操作上的不方便，例如需要重新定位到感兴趣的部分内容。

此外，利用某些提供网页编辑功能的软件，例如Dreamweaver、MS Word等，可以保存网页中的指定内容。这些软件在保存网页内容时，必须首先在浏览器中通过选取欲保存的内容，将其复制到剪贴板中；然后在Dreamweaver/Word中粘贴，并保存为html格式的网页文件。显然，这种方式保存内容时操作过程较为复杂，需要在不同的软件之间切换；选取待保存内容的方式比较单一，尤其是在大规模文本的情况下，保持鼠标左键按下并拖动，使得操作非常不方便。

发明内容

本发明要解决的技术问题在于，针对上述网页内容保存占用空间且查看保存的内容不方便的问题，提供一种保存网页内容的系统、方法及浏览器。

本发明解决上述技术问题的技术方案是，提供一种保存网页内容的系统，包括：

内容选取单元，用于从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容，所述待保存内容为网页中的部分内容；

文档转换单元，用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来，然后在所述脚本片段中加入所述选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对，以获得一个完整的文件；

内容保存单元，用于将所述文档转换单元转换获得的文件保存到存储空间。

在本发明所述的一种保存网页内容的系统中，所述文档转换单元进一步包括选区定位子单元，所述内容选取单元进一步包括内容输入子单元、内容预览子单元和内容调整子单元，其中：

所述内容输入子单元，用于从浏览器显示的网页中选取内容；

所述选区定位子单元，用于将所述选取的内容转换为脚本片段；

所述内容预览子单元，用于将所述选区定位子单元获得的脚本片段显示为待保存内容；

所述内容调整子单元，用于调整并确认内容预览子单元中显示的待保存内容。

在本发明所述的一种保存网页内容的系统中，所述文档转换单元进一步包括：

文档维护子单元，用于将<html>标签加入待保存内容对应的脚本片段的起始位置并将</html>标签加入所述脚本片段的结尾位置。

语法校正子单元，用于修正所述选取的待保存内容对应的脚本片段的语法错误。

在本发明所述的一种保存网页内容的系统中，所述选区定位子单元根据文档对象模型树中的网页内容对象结构，获取选取内容的脚本片段。

本发明还提供一种保存网页内容的方法，包括以下步骤：

(a)从浏览器显示的网页中使用鼠标拖动方式选取待保存内容或使用弹出窗口显示网页内容列表从而通过该列表选取待保存内容，并从网页脚本将所述待保存内容对应的脚本片段提取出来，然后在所述脚本片段中加入选取内容的样式、使用的附加javascript代码并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对，以获得一个完整的文件，所述待保存内容为网页中的部分内容；

(b)将所述文件保存到存储空间。

在本发明所述的一种保存网页内容的方法中，所述步骤(a)进一步包括：

(a1)将所述选取的待保存内容转换为脚本片段；

(a2)将所述脚本片段显示为待保存内容；

(a3)调整并确认显示的待保存内容；

(a4)将所有确认的待保存内容对应的脚本片段转化为一个完整的文件。

在本发明所述的一种保存网页内容的方法中，所述步骤(a)进一步包括：修正所述选取的待保存内容对应的脚本片段的语法错误。

在本发明所述的一种保存网页内容的方法中，所述步骤(a1)中，根据文档对象模型树中的网页内容对象结构，获取选取内容的脚本片段。

本发明还提供一种可保存网页内容的浏览器，包括：

文档转换单元，用于从网页脚本将所述内容选取单元选取的内容对应的脚本片段提取出来，并在所述脚本片段的起始位置和结尾位置中加入HTML文件标签对，以获得一个完整的文件；

本发明一种保存网页内容的系统、方法及浏览器，通过选取并保存网页中的部分内容，而不保存网页中的其它无关内容，节省了存储空间且方便了对保存内容的浏览。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明一种保存网页内容的系统实施例的结构示意图；

图2是图1中文档转换单元和内容选取单元的详细结构示意图；

图3是本发明一种保存网页内容的方法第一实施例的流程图；

图4是图3中选取待保存内容步骤的流程图。

具体实施方式

本发明主要使用户在浏览网页时，能够灵活地保存需要的内容，而不用保存网页中其它无关内容，并且保存内容的样式能较好地忠实原文。

如图1所示，在本发明一种保存网页内容的系统的实施例，包括内容选取单元11、文档转换单元12以及内容保存单元13。

内容选取单元11用于选取网页中的待保存内容，其中待保存内容为网页中的部分内容。该内容选取单元11可通过在浏览窗口中使用鼠标拖动方式选取待保存内容；也可以使用弹出窗口显示网页内容列表从而通过该列表选取需保存的内容。在确定选取的待保存内容后，内容选取单元11将待保存内容发送到文档转换单元12。

文档转换单元12用于根据网页脚本将上述内容选取单元11选取的待保存内容转换为一个完整的文件。由于一般的网页都是使用HTML和/或XML脚本实现的，而HTML和/或XML通过在文本文件中加入一系列的标签(tag)来表示网页中的不同内容及表现形式。标签是HTML和/或XML语法的基本元素，由“<”和“>”成对组成，两者之间是标签的内容。文档转换单元12根据网页脚本中的标签识别选取的内容，并将选取的内容对应的脚本片段从网页脚本中提取出来，重新生成一个仅包含待保存内容的网页脚本，从而实现了选取的内容的转换。

在本实施例中，文档转换单元12不仅复制页面原始的<html>、<head>等标签内容，还将选取内容的样式、使用的附加javascript等代码都写入转换后的文件。

内容保存单元13用于将文档转换单元12转换获得的文件保存到存储空间。内容保存单元13按照现有存储网页的方式存储上述文件，也就是将网页脚本存储到设定的目录下，而其它诸如图片等独立的文件存储到存储空间的相应目录下。由于上述文件中仅包含待保存内容，而不包含其它诸如广告等内容，因此可大量节约存储空间。

如图2所示，是图1中文档转换单元12和内容选取单元11的详细结构示意图。其中文档转换单元12进一步包括：选区定位子单元121以及文档维护子单元123；内容选取单元11则包括内容输入子单元111、内容预览子单元112、内容调整子单元113。

内容输入子单元111用于从浏览器显示的网页中选取内容，例如通过鼠标拖动方式或弹出窗口方式等。

选区定位子单元121用于将内容输入子单元111输入的内容转换为脚本片段。由于HTML文件中的组件以不同的层级显示，在DOM中则以树形目录的形式显示。树形目录中的每个组件都是拥有由DOM定义的多种属性和方式的对象。例如，一个网页可以按文件对象的形式显示。各个对象可以通过在树形目录中的位置锁定，或者通过标签、名称以及ID直接获取。因此，选区定位子单元121可根据DOM(Document Object Model，文档对象模型)树中的网页内容对象结构，获取相应内容的脚本片段。

内容预览子单元112用于将选区定位子单元111获得的脚本片段显示为对应内容。该内容预览子单元112可通过与现有浏览器相同的方式显示脚本片段，也可以仅显示脚本片段对应内容的列表。

内容调整子单元113用于调整并确认内容预览子单元113中显示的待保存内容。该内容调整子单元113可通过与内容输入子单元111相同的方式选取或删除对应内容。

文档维护子单元123用于将待保存内容对应的脚本片段转化为一个完整的文件。在具体实现时，文档维护子单元123在待保存内容对应的脚本片段中加入HTML文件标签对，例如将<html>标签加入脚本片段的起始位置并将</html>标签加入脚本片段的结尾位置，从而将脚本片段转化完整的保存文件。

在本实施例中，文档维护子单元123还把选定内容的样式、使用的附加javascript代码等都写入保存文件。

在本发明一种保存网页内容的系统的第二实施例中，除包括上述各组成单元外，还包括语法校正子单元，用于修正所述选取或经过确认的待保存内容的脚本片段的语法错误。例如若选取内容中包括表格的一部分，而不是完整的表格，则得到的脚本内容中损失了表格的起始标签(<table>、<body>等)或终止标签(</table>、</body>等)，语法校正子单元即可根据DOM树进行局部语法自动校正，防止以后打开保存的文件时解析出错。

上述的系统可直接集成到网页浏览器，从而可在浏览网页的同时选择保存部分网页内容。

如图3所示，是本发明一种保存网页内容的方法第一实施例的流程图，其包括以下步骤：

步骤S31：选取网页中的待保存内容，并根据网页脚本将所选取内容转换为一个完整的文件，其中待保存内容为网页中的部分内容。

在该步骤中，可通过在浏览窗口中使用鼠标拖动方式选取待保存内容；也可以使用弹出窗口显示网页内容列表从而通过该列表选取需保存的内容。

而文件转换则通过网页脚本中的标签识别选取的内容，并将选取的内容对应的脚本片段从网页脚本中提取出来，重新生成一个仅包含待保存内容的网页脚本。

步骤S32：将所述文件保存到存储空间。在该步骤中，可按照现有存储网页的方式存储上述文件(例如浏览器存储网页的方式)，也就是将网页脚本存储到设定的目录下，而其它诸如图片等独立的文件存储到存储空间的相应目录下。

如图4所示，是图3中选取待保存内容步骤的详细流程图，其具体包括：

步骤S41：将选取的待保存内容转换为脚本片段。在该步骤中，可根据DOM树中的网页内容对象结构，获取相应内容的脚本片段。

步骤S42：将所述选区定位子单元获得的脚本片段显示为待保存内容。在该步骤中，可通过与现有浏览器相同的方式显示脚本片段，也可以仅显示脚本片段对应内容的列表。

步骤S43：调整并确认步骤S42中显示的选取内容。该步骤可通过与步骤S31中选取待保存内容相同的方式实现。

步骤S44：将上述确认的内容对应的脚本片段转化为一个完整的文件。在具体实现时，在待保存内容对应的脚本片段中加入HTML文件标签对，例如将<html>标签加入脚本片段的起始位置并将</html>标签加入脚本片段的结尾位置，从而将脚本片段转化完整的保存文件。在本实施例中，该步骤还把选定内容的样式、使用的附加javascript代码等都写入保存文件。

在本发明的第二实施例中，除包括上述第一实施例的各步骤，还包括：修正所述选取或经过确认的待保存内容的脚本片段的语法错误。该步骤可根据DOM树进行局部语法自动校正，防止以后打开保存的文件时解析出错。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种保存网页内容的系统，其特征在于，包括：

2、根据权利要求1所述的一种保存网页内容的系统，其特征在于，所述文档转换单元进一步包括选区定位子单元，所述内容选取单元进一步包括内容输入子单元、内容预览子单元和内容调整子单元，其中：

3、根据权利要求2所述的一种保存网页内容的系统，其特征在于，所述文档转换单元进一步包括：

4、根据权利要求1-3中任一项所述的一种保存网页内容的系统，其特征在于，所述文档转换单元进一步包括：

5、根据权利要求2所述的一种保存网页内容的系统，其特征在于，所述选区定位子单元根据文档对象模型树中的网页内容对象结构，获取选取内容的脚本片段。

6、一种保存网页内容的方法，其特征在于，包括以下步骤：

(b)将所述文件保存到存储空间。

7、根据权利要求6所述的一种保存网页内容的方法，其特征在于，所述步骤(a)进一步包括：

(a1)将所述选取的待保存内容转换为脚本片段；

(a2)将所述脚本片段显示为待保存内容；

(a3)调整并确认显示的待保存内容；

8、根据权利要求6或7所述的一种保存网页内容的方法，其特征在于，所述步骤(a)进一步包括：修正所述选取的待保存内容对应的脚本片段的语法错误。

9、根据权利要求7所述的一种保存网页内容的方法，其特征在于，所述步骤(a1)中，根据文档对象模型树中的网页内容对象结构，获取选取内容的脚本片段。

10、一种可保存网页内容的浏览装置，其特征在于，包括：