CN102646135B

CN102646135B - 一种网页收藏方法、装置及系统

Info

Publication number: CN102646135B
Application number: CN201210092944.7A
Authority: CN
Inventors: 曾强; 张平; 魏钦刚
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2012-03-31
Filing date: 2012-03-31
Publication date: 2014-01-08
Anticipated expiration: 2032-03-31
Also published as: CN102646135A

Abstract

本发明公开一种网页收藏方法、装置及系统。所述方法包括：接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；对所抓取的网页内容进行保存。应用本发明实施例所提供的技术方案，可以保证抓取的网页内容的全面性，并且可以提升网页收藏结果的有序性，便于用户进行阅读。

Description

一种网页收藏方法、装置及系统

技术领域

本发明涉及网络数据处理领域，特别是涉及一种网页收藏方法、装置及系统。

背景技术

收藏网页，是指互联网用户将感兴趣的网页进行保存，以便于随时能够重新阅读相关信息。

现有技术中一种网页收藏方法是：将用户浏览过的网页内容以快照的形式保存起来。具体的，该方法实现的过程中，根据用户所提供的待收藏网页的超链接，定位网页并对网页进行快照，将快照保存为网页收藏信息，用户还可以进一步对所收藏的网页标题、简介和标签等信息进行编辑。网页收藏成功后，用户可以随时进行查看。

但是，现有技术中的网页收藏方法，在快照的形式显示网页收藏内容时，也丢失大量的网页原始信息，很容易导致所述显示的收藏网页内容失去原有的排版格式，页面杂乱无章，可读性差。

发明内容

本发明的目的是提供一种网页收藏方法、装置及系统，能够较为完整的保存网页收藏页面内容。

为实现上述目的，本发明提供了如下方案：

一种网页收藏方法，包括：

接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；

对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；

对所抓取的网页内容进行保存。

其中，还包括：

当检测到所述用户所浏览的网页加载完成时，向用户所浏览的网页中写入用于抓取网页内容的脚本代码；

或者，

当接收到用户对所浏览的网页执行的收藏操作指令时，向用户所浏览的网页中写入用于抓取网页内容的脚本代码。

其中，所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码，包括：

在用户所浏览的网页中添加内嵌框架；

在所述内嵌框架中写入所述脚本代码。

其中，所述抓取所述网页的内容描述信息，包括：

抓取所述网页的文档对象模型信息。

其中，所述对所抓取的网页内容进行保存，包括：

根据所述网页的文档对象模型信息，将所抓取的网页内容以结构化样式进行保存。

其中，所述根据解析结果抓取所述网页的内容包括：

根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤，根据过滤结果抓取所述网页的内容。

其中，所述根据解析结果抓取所述网页的内容包括：

在网页内容包括图片的情况下，判断网页中的图片数量是否大于预设的阈值，如果是，则采用异步方式下载所述网页的图片内容。

其中，

在抓取网页的内容描述信息之后，还包括：将所述内容描述信息发送至服务器端设备；

所述服务器端设备对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容，并对所抓取的网页内容进行保存。

一种网页收藏装置，包括：

描述信息抓取单元，用于接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；

网页内容抓取单元，用于对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；

网页内容保存单元，用于对所抓取的网页内容进行保存。

其中，还包括：

代码注入单元，用于当检测到所述用户所浏览的网页加载完成时，向用户所浏览的网页中写入用于抓取网页内容的脚本代码；或者，当接收到用户对所浏览的网页执行的收藏操作指令时，向用户所浏览的网页中写入用于抓取网页内容的脚本代码。

其中，所述代码注入单元，包括：

框架添加子单元，用于在用户所浏览的网页中添加内嵌框架；

代码写入子单元，用于在所述内嵌框架中写入所述脚本代码。

其中，所述描述信息抓取单元，具体用于：

在接收到用户的收藏操作指令后，利用预先写入的脚本代码，抓取所述网页的文档对象模型信息。

其中，所述网页内容保存单元，具体用于：

其中，所述网页内容抓取单元，具体用于：

一种网页收藏系统，包括客户端设备和服务器端设备；

所述客户端设备，包括：

描述信息发送单元，用于将所述网页内容描述信息发送至服务器端设备；

所述服务器端设备，包括：

描述信息接收单元，用于接收客户端设备发送的网页内容描述信息；

网页内容抓取单元，用于对所述网页内容描述信息进行解析，根据解析结果抓取网页的内容；

网页内容保存单元，用于对所抓取的网页内容进行保存。

其中，所述客户端设备还包括：

其中，所述代码注入单元，包括：

其中，所述描述信息抓取单元，具体用于：

其中，所述网页内容保存单元，具体用于：

其中，所述网页内容抓取单元，具体用于：

本发明实施例所提供的技术方案，由于通过预先写入所述网页的脚本代码对网页的描述信息进行抓取，一方面保证了抓取的网页内容的全面性；另一方面，由于网页的描述信息中携带有网页的样式信息，因此在保存网页内容时，可以根据样式信息对网页内容进行排版，从而提高了网页收藏结果的有序性，便于用户进行阅读。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的网页收藏方法一种实施例的流程图；

图2为本发明的网页收藏方法另一种实施例的流程图；

图3为本发明的网页收藏装置实施例的结构示意图；

图4为本发明的网页收藏系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明实施例所提供的一种网页收藏方法进行说明，该方法可以包括以下步骤：

对所抓取的网页内容进行保存。

在本发明的一种实施方式中，上述步骤可以全部在客户端设备中实现，例如在浏览器本身、浏览器插件或者专用的网页收藏软件中实现。

在本发明的一种实施方式中，上述步骤中写入脚本代码步骤以及抓取网页内容描述信息的步骤在客户端设备中实现，客户端抓取到网页内容描述信息后发送至服务器端设备，由服务器完成后续步骤。

首先，如图1所示，该网页收藏方法包括步骤：

S101：接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；

在本发明实施例中，并不是采用服务器直接抓取网页页面内容，这是因为：对于一部分网页，服务器无法直接抓取，比如某些页面必须登录后才能展现，如果客户端没有登录，则服务器端也无法抓取。因此在本发明实施例中，抓取网页页面的内容的操作由客户端完成，例如由浏览器等软件完成。

根据本发明实施例的方案，可以在用户浏览网页时，在检测到被浏览的网页加载完毕之后，向用户所浏览的网页内写入脚本代码。这段代码能在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字)，点“我喜欢”按钮后即可触发收藏操作。或者，在另一种实时方式下，可以默认在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字)，用户如果想要收藏当前浏览的网页，就可以点击该“我喜欢”按钮，然后执行向用户所浏览的网页内写入脚本代码的操作，同时相当于用户触发了收藏操作。

其中，写入网页的脚本代码具有抓取网页页面内容的功能，由于目前有很多网页页面采用JS(JavaScript)技术开发，因此本发明实施例中，采向网页中写入JS脚本代码的方式实现，既能够解决用户登录后的页面内容抓取问题，又可以保证信息抓取的安全性。

在本发明的一种改进实施方式中，可以先在用户所浏览的网页中中添加内嵌框架，然后在内嵌框架中写入所述脚本代码。

其中内嵌框架可以是iframe框架，iframe框架可以隔离脚本代码和浏览器接口。这样实施的原因在于：因为实际应用中，别有用心的用户如果能够获取脚本代码，就可以操作浏览器接口，从而带来一些安全问题，比如：用户可以通过利用脚本代码在浏览器中发起跨域请求，可以操作浏览器接口修改浏览器配置文件，以及浏览器的其他接口功能。为了避免脚本代码被恶意利用，本发明实施例中，将脚本代码写入内嵌框架中，通过内嵌框架将脚本代码与浏览器接口相隔离，从而增加安全性。

向网页写入脚本代码后，可以待页面加载完毕后，在页面一侧绘制按钮或用户交互面板。以便用户点击该按钮触发收藏操作。当然，在本发明中，用户发出收藏操作指令的方式并仅限于点击按钮。此外，用户还可以用过交互面板进行设置按钮皮肤、分享配置等操作，这里不再赘述。

当然，在实际应用中，本发明实施例的方案可以通过一个浏览器插件的方式来实现，在浏览器插件支持的情况下，也可以直接在用户浏览的网页中注入脚本，而不必采用上述添加内嵌框架的方式来实现。

当接收用户通过点击收藏操作按钮或其他方式发起收藏操作指令后，利用预先写入的脚本代码，抓取网页的内容描述信息。

在本发明中，主要需要抓取的网页内容描述信息包括网页的DOM(Document ObjectModel，文档对象模型)信息，在网页的DOM树中包含有页面的布局结构信息，利用这些信息，后续就可以在保存网页内容时，根据网页原有的样式进行排版，以结构化的形式进行保存。

本领域技术人员可以理解，在抓取网页内容描述信息的过程中，除DOM信息之外，还可以进一步抓取网页的页面超链接、标题等信息。本发明实施例对此并不需要进行限定。

S102：对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；

通过解析网页的DOM树，可以抽取出页面所包含的文字、图片等内容。其中，所解析出的图片内容是图片文件所在的源位置，还需要进一步从源位置将实际的图片文件下载下载到本地。

在下在图片文件的过程中，可以首先判断判断网页中的图片数量是否大于某个预设的阈值(例如10幅、20幅等等)，如果否，则直接下载每个图像文件。而在网页所包含的图片数量比较多时，抓取图片文件的过程中将会十分费时。为了提高系统性能，可以采用异步方式实现图片文件的多线程批量下载，所有图片文件处理完之后在统一归档，这样可以有效降低抓取图片所需的时间。

在实际应用中，有些网站可能采用了防盗链技术，无法直接下载图片文件。针对这种情况，在本发明实施例中，在下载图片文件的请求发起时，可以在http头的referer字段中添加上图片资源所在的网站的源域名。图片资源所在的网站的服务器解析该请求时，会认为这个请求是由自身发起的，从而返回图片内容。

在抓取图片内容的过程中，还可以首先获得网页中图片的尺寸，对于尺寸过小的图片，不进行下载。这种抓取图片的方式，可以筛选出图片尺寸大于预设尺寸阈值的图片。这是因为网页中的图片可能有很多，这其中包括大量的广告图片等等不存在收藏意义的内容。然而作为网页主要内容的图片，通常都具有较大的尺寸，因此采用图片尺寸进行过滤的方式，可以有效减少无用图片内容的抓取，既节约了系统资源，也提高了收藏结果的可读性。

可以理解的是，处除了利用图片尺寸进行图片内容过滤之外，还可以采用其他的预置规则，例如网址关键字、文件名关键字等方式，对网页中可能存在的不具有收藏意义的信息进行过滤，从而达到节约系统资源和提高了收藏结果的可读性的目的，本发明实施例对此并不需要进行限定。

S103：对所抓取的网页内容进行保存。

在本步骤中，对S103中所抓取的网页内容进行保存，特别地，根据网页的DOM树信息，可以对抓取的网页内容按照网页的原始样式，样式进行排版，以结构化的形式进行保存。

进一步地，还可以根据所保存的内容信息生成网页摘要，以便在收藏列表中展示给用户，便于用户进行浏览。在具体实施过程中，可以根据网页标题信息可以生成摘要的标题、根据网页的页面文字可以生成摘要中的文字部分、根据页面图片信息可以生成摘要中的缩略图，等等。保存所述摘要信息，用户就可以在后续的上网浏览过程中，在网页收藏列表中直接查看收藏过的网页的摘要信息。

此外，应用本发明方案，还允许用户将收藏的网页分享到其他网站，还可以通过调用其他网站的接口，将排版好的网页内容信息以及摘要信息发送到目标网站，从而实现用户信息的共享，提高用户体验。

上述所提供的网页收藏方法，通过预先写入所述网页的脚本代码对网页的描述信息进行抓取，一方面保证了抓取的网页内容的全面性；另一方面，由于网页的描述信息中携带有网页的样式信息，因此在保存网页内容时，可以根据样式信息对网页内容进行排版，从而提高了网页收藏结果的有序性，便于用户进行阅读。

在上述实施例中，所有网页收藏步骤都是在客户端设备中实现，在本发明的另一种实施方式中，可以由客户端和服务器设备协作完成网页收藏操作，参见图2所示，该方法包括以下步骤：

S201：客户端设备接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；

S202：客户端设备将所述内容描述信息发送至服务器端设备；

S203：服务器端设备对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；

S204：服务器端设备对所抓取的网页内容进行保存。

与前一实施例相比：S201与S101相同；S203-S204与S102-S103相比，区别在于执行主体由客户端设备变为服务器端设备；增加了S202客户端设备将内容描述信息描述信息发送至服务器端设备的步骤。

由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此可以这种方式可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕，也更便于用户之间的信息分享。

此外，根据之前的描述，由于服务端无法直接抓取某些网页，因此抓取网页描述信息的步骤仍然由客户端完成，从而保证抓取的成功率。

可以理解的是，客户端设备在将内容描述信息描述信息发送至服务器端设备的过程中，可以采用数据压缩技术，从而进一步提升传输效率。

相应于上面的方法实施例，本发明实施例还提供一种网页收藏装置，参见图3所示，该装置可以包括：

描述信息抓取单元301，用于接收到用户对所浏览的网页执行的收藏操作指令后，利用写入所述网页的用于抓取网页内容的脚本代码，抓取所述网页的内容描述信息；

网页内容抓取单元302，用于对所述内容描述信息进行解析，根据解析结果抓取所述网页的内容；

网页内容保存单元303，用于对所抓取的网页内容进行保存。

具体实现时，该装置还可以包括：

其中，在本发明的一种实施方式中，所述代码注入单元，可以包括：

框架添加子单元，用于在用户所浏览的网页中中添加内嵌框架；

其中，所述描述信息抓取单元301，可以具体用于：

网页内容保存单元303，可以具体用于：

在本发明的一种实施方式中，所述网页内容抓取单元302，可以具体用于：

在本发明的另一种实施方式中，所述网页内容抓取单元302，还可以具体用于：

以上提供的网页收藏装置，可以是位于客户端的功能模块，该模块可以是浏览器本身、浏览器插件或者专用的网页收藏软件等等。

相应与上述在客户端实现全部收藏操作的方案，本发明实施例还提供一种网页收藏系统，参见图4所示，该系统包括客户端设备401和服务器端设备402；

所述客户端设备401，包括：

描述信息抓取单元4011，用于在接收到用户的收藏操作指令后，利用预先写入的脚本代码，抓取所述网页的内容描述信息；

描述信息发送单元4012，用于将所述网页内容描述信息发送至服务器端设备；

所述服务器端设备402，包括：

描述信息接收单元4021，用于接收客户端设备发送的网页内容描述信息；

网页内容抓取单元4022，用于对所述网页内容描述信息进行解析，根据解析结果抓取网页的内容；

网页内容保存单元4023，用于对所抓取的网页内容进行保存。

由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此本发明实施例所提供的网页收藏系统可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕，也更便于用户之间的信息分享。

具体实现时，客户端设备401还可以包括：

在本发明的一种实施方式中，所述代码注入单元可以包括：

在本发明的一种实施方式中，所述描述信息抓取单元4011，可以具体用于：

在本发明的一种实施方式中，所述网页内容保存单元4023，可以具体用于：

在本发明的一种实施方式中，所述网页内容抓取单元4022，可以具体用于：

在本发明的一种实施方式中，所述网页内容抓取单元4022，还可以具体用于：

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的一种网页收藏方法、装置及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网页收藏方法，其特征在于，包括：

接收到用户对所浏览的网页执行的收藏操作指令后，向所述网页中写入脚本代码，利用所述写入的脚本代码抓取所述网页的内容描述信息；

对所述内容描述信息进行解析，根据解析结果由浏览器客户端抓取所述网页的内容；

对所抓取的网页内容进行保存。

2.根据权利要求1所述的方法，其特征在于，还包括：

或者，

3.根据权利要求2所述的方法，其特征在于，所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码，包括：

在用户所浏览的网页中添加内嵌框架；

在所述内嵌框架中写入所述脚本代码。

4.根据权利要求1所述的方法，其特征在于，所述抓取所述网页的内容描述信息，包括：

抓取所述网页的文档对象模型信息。

5.根据权利要求1所述的方法，其特征在于，所述对所抓取的网页内容进行保存，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据解析结果抓取所述网页的内容包括：

7.根据权利要求1所述的方法，其特征在于，所述根据解析结果抓取所述网页的内容包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，

9.一种网页收藏装置，其特征在于，包括：

描述信息抓取单元，用于接收到用户对所浏览的网页执行的收藏操作指令后，向所述网页中写入脚本代码，利用所述写入的脚本代码抓取所述网页的内容描述信息；

网页内容抓取单元，用于对所述内容描述信息进行解析，根据解析结果由浏览器客户端抓取所述网页的内容；

网页内容保存单元，用于对所抓取的网页内容进行保存。

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求10所述的装置，其特征在于，所述代码注入单元，包括：

12.根据权利要求9所述的装置，其特征在于，所述描述信息抓取单元，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述网页内容保存单元，具体用于：

14.根据权利要求9所述的装置，其特征在于，所述网页内容抓取单元，具体用于：

15.根据权利要求9所述的装置，其特征在于，所述网页内容抓取单元，具体用于：

16.一种网页收藏系统，其特征在于，包括客户端设备和服务器端设备；

所述客户端设备，包括：

所述服务器端设备，包括：

网页内容保存单元，用于对所抓取的网页内容进行保存。

17.根据权利要求16所述的系统，其特征在于，所述客户端设备还包括：

18.根据权利要求17所述的系统，，其特征在于，所述代码注入单元，包括：

19.根据权利要求16所述的系统，，其特征在于，所述描述信息抓取单元，具体用于：

20.根据权利要求16所述的系统，其特征在于，所述网页内容保存单元，具体用于：

21.根据权利要求16所述的系统，其特征在于，所述网页内容抓取单元，具体用于：

22.根据权利要求16所述的系统，其特征在于，所述网页内容抓取单元，具体用于：