CN102646135B - 一种网页收藏方法、装置及系统 - Google Patents

一种网页收藏方法、装置及系统 Download PDF

Info

Publication number
CN102646135B
CN102646135B CN201210092944.7A CN201210092944A CN102646135B CN 102646135 B CN102646135 B CN 102646135B CN 201210092944 A CN201210092944 A CN 201210092944A CN 102646135 B CN102646135 B CN 102646135B
Authority
CN
China
Prior art keywords
webpage
web page
page contents
user
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210092944.7A
Other languages
English (en)
Other versions
CN102646135A (zh
Inventor
曾强
张平
魏钦刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210092944.7A priority Critical patent/CN102646135B/zh
Priority to CN201310603186.5A priority patent/CN103617224B/zh
Priority to CN201310603048.7A priority patent/CN103617223B/zh
Publication of CN102646135A publication Critical patent/CN102646135A/zh
Application granted granted Critical
Publication of CN102646135B publication Critical patent/CN102646135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种网页收藏方法、装置及系统。所述方法包括:接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。应用本发明实施例所提供的技术方案,可以保证抓取的网页内容的全面性,并且可以提升网页收藏结果的有序性,便于用户进行阅读。

Description

一种网页收藏方法、装置及系统
技术领域
本发明涉及网络数据处理领域,特别是涉及一种网页收藏方法、装置及系统。
背景技术
收藏网页,是指互联网用户将感兴趣的网页进行保存,以便于随时能够重新阅读相关信息。
现有技术中一种网页收藏方法是:将用户浏览过的网页内容以快照的形式保存起来。具体的,该方法实现的过程中,根据用户所提供的待收藏网页的超链接,定位网页并对网页进行快照,将快照保存为网页收藏信息,用户还可以进一步对所收藏的网页标题、简介和标签等信息进行编辑。网页收藏成功后,用户可以随时进行查看。
但是,现有技术中的网页收藏方法,在快照的形式显示网页收藏内容时,也丢失大量的网页原始信息,很容易导致所述显示的收藏网页内容失去原有的排版格式,页面杂乱无章,可读性差。
发明内容
本发明的目的是提供一种网页收藏方法、装置及系统,能够较为完整的保存网页收藏页面内容。
为实现上述目的,本发明提供了如下方案:
一种网页收藏方法,包括:
接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
对所抓取的网页内容进行保存。
其中,还包括:
当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;
或者,
当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码,包括:
在用户所浏览的网页中添加内嵌框架;
在所述内嵌框架中写入所述脚本代码。
其中,所述抓取所述网页的内容描述信息,包括:
抓取所述网页的文档对象模型信息。
其中,所述对所抓取的网页内容进行保存,包括:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述根据解析结果抓取所述网页的内容包括:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述根据解析结果抓取所述网页的内容包括:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
其中,
在抓取网页的内容描述信息之后,还包括:将所述内容描述信息发送至服务器端设备;
所述服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容,并对所抓取的网页内容进行保存。
一种网页收藏装置,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
网页内容抓取单元,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
其中,还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
其中,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
一种网页收藏系统,包括客户端设备和服务器端设备;
所述客户端设备,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
描述信息发送单元,用于将所述网页内容描述信息发送至服务器端设备;
所述服务器端设备,包括:
描述信息接收单元,用于接收客户端设备发送的网页内容描述信息;
网页内容抓取单元,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
其中,所述客户端设备还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
其中,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
本发明实施例所提供的技术方案,由于通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携带有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网页收藏方法一种实施例的流程图;
图2为本发明的网页收藏方法另一种实施例的流程图;
图3为本发明的网页收藏装置实施例的结构示意图;
图4为本发明的网页收藏系统实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
首先对本发明实施例所提供的一种网页收藏方法进行说明,该方法可以包括以下步骤:
接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
对所抓取的网页内容进行保存。
在本发明的一种实施方式中,上述步骤可以全部在客户端设备中实现,例如在浏览器本身、浏览器插件或者专用的网页收藏软件中实现。
在本发明的一种实施方式中,上述步骤中写入脚本代码步骤以及抓取网页内容描述信息的步骤在客户端设备中实现,客户端抓取到网页内容描述信息后发送至服务器端设备,由服务器完成后续步骤。
首先,如图1所示,该网页收藏方法包括步骤:
S101:接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
在本发明实施例中,并不是采用服务器直接抓取网页页面内容,这是因为:对于一部分网页,服务器无法直接抓取,比如某些页面必须登录后才能展现,如果客户端没有登录,则服务器端也无法抓取。因此在本发明实施例中,抓取网页页面的内容的操作由客户端完成,例如由浏览器等软件完成。
根据本发明实施例的方案,可以在用户浏览网页时,在检测到被浏览的网页加载完毕之后,向用户所浏览的网页内写入脚本代码。这段代码能在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字),点“我喜欢”按钮后即可触发收藏操作。或者,在另一种实时方式下,可以默认在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字),用户如果想要收藏当前浏览的网页,就可以点击该“我喜欢”按钮,然后执行向用户所浏览的网页内写入脚本代码的操作,同时相当于用户触发了收藏操作。
其中,写入网页的脚本代码具有抓取网页页面内容的功能,由于目前有很多网页页面采用JS(JavaScript)技术开发,因此本发明实施例中,采向网页中写入JS脚本代码的方式实现,既能够解决用户登录后的页面内容抓取问题,又可以保证信息抓取的安全性。
在本发明的一种改进实施方式中,可以先在用户所浏览的网页中中添加内嵌框架,然后在内嵌框架中写入所述脚本代码。
其中内嵌框架可以是iframe框架,iframe框架可以隔离脚本代码和浏览器接口。这样实施的原因在于:因为实际应用中,别有用心的用户如果能够获取脚本代码,就可以操作浏览器接口,从而带来一些安全问题,比如:用户可以通过利用脚本代码在浏览器中发起跨域请求,可以操作浏览器接口修改浏览器配置文件,以及浏览器的其他接口功能。为了避免脚本代码被恶意利用,本发明实施例中,将脚本代码写入内嵌框架中,通过内嵌框架将脚本代码与浏览器接口相隔离,从而增加安全性。
向网页写入脚本代码后,可以待页面加载完毕后,在页面一侧绘制按钮或用户交互面板。以便用户点击该按钮触发收藏操作。当然,在本发明中,用户发出收藏操作指令的方式并仅限于点击按钮。此外,用户还可以用过交互面板进行设置按钮皮肤、分享配置等操作,这里不再赘述。
当然,在实际应用中,本发明实施例的方案可以通过一个浏览器插件的方式来实现,在浏览器插件支持的情况下,也可以直接在用户浏览的网页中注入脚本,而不必采用上述添加内嵌框架的方式来实现。
当接收用户通过点击收藏操作按钮或其他方式发起收藏操作指令后,利用预先写入的脚本代码,抓取网页的内容描述信息。
在本发明中,主要需要抓取的网页内容描述信息包括网页的DOM(Document ObjectModel,文档对象模型)信息,在网页的DOM树中包含有页面的布局结构信息,利用这些信息,后续就可以在保存网页内容时,根据网页原有的样式进行排版,以结构化的形式进行保存。
本领域技术人员可以理解,在抓取网页内容描述信息的过程中,除DOM信息之外,还可以进一步抓取网页的页面超链接、标题等信息。本发明实施例对此并不需要进行限定。
S102:对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
通过解析网页的DOM树,可以抽取出页面所包含的文字、图片等内容。其中,所解析出的图片内容是图片文件所在的源位置,还需要进一步从源位置将实际的图片文件下载下载到本地。
在下在图片文件的过程中,可以首先判断判断网页中的图片数量是否大于某个预设的阈值(例如10幅、20幅等等),如果否,则直接下载每个图像文件。而在网页所包含的图片数量比较多时,抓取图片文件的过程中将会十分费时。为了提高系统性能,可以采用异步方式实现图片文件的多线程批量下载,所有图片文件处理完之后在统一归档,这样可以有效降低抓取图片所需的时间。
在实际应用中,有些网站可能采用了防盗链技术,无法直接下载图片文件。针对这种情况,在本发明实施例中,在下载图片文件的请求发起时,可以在http头的referer字段中添加上图片资源所在的网站的源域名。图片资源所在的网站的服务器解析该请求时,会认为这个请求是由自身发起的,从而返回图片内容。
在抓取图片内容的过程中,还可以首先获得网页中图片的尺寸,对于尺寸过小的图片,不进行下载。这种抓取图片的方式,可以筛选出图片尺寸大于预设尺寸阈值的图片。这是因为网页中的图片可能有很多,这其中包括大量的广告图片等等不存在收藏意义的内容。然而作为网页主要内容的图片,通常都具有较大的尺寸,因此采用图片尺寸进行过滤的方式,可以有效减少无用图片内容的抓取,既节约了系统资源,也提高了收藏结果的可读性。
可以理解的是,处除了利用图片尺寸进行图片内容过滤之外,还可以采用其他的预置规则,例如网址关键字、文件名关键字等方式,对网页中可能存在的不具有收藏意义的信息进行过滤,从而达到节约系统资源和提高了收藏结果的可读性的目的,本发明实施例对此并不需要进行限定。
S103:对所抓取的网页内容进行保存。
在本步骤中,对S103中所抓取的网页内容进行保存,特别地,根据网页的DOM树信息,可以对抓取的网页内容按照网页的原始样式,样式进行排版,以结构化的形式进行保存。
进一步地,还可以根据所保存的内容信息生成网页摘要,以便在收藏列表中展示给用户,便于用户进行浏览。在具体实施过程中,可以根据网页标题信息可以生成摘要的标题、根据网页的页面文字可以生成摘要中的文字部分、根据页面图片信息可以生成摘要中的缩略图,等等。保存所述摘要信息,用户就可以在后续的上网浏览过程中,在网页收藏列表中直接查看收藏过的网页的摘要信息。
此外,应用本发明方案,还允许用户将收藏的网页分享到其他网站,还可以通过调用其他网站的接口,将排版好的网页内容信息以及摘要信息发送到目标网站,从而实现用户信息的共享,提高用户体验。
上述所提供的网页收藏方法,通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携带有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。
在上述实施例中,所有网页收藏步骤都是在客户端设备中实现,在本发明的另一种实施方式中,可以由客户端和服务器设备协作完成网页收藏操作,参见图2所示,该方法包括以下步骤:
S201:客户端设备接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
S202:客户端设备将所述内容描述信息发送至服务器端设备;
S203:服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
S204:服务器端设备对所抓取的网页内容进行保存。
与前一实施例相比:S201与S101相同;S203-S204与S102-S103相比,区别在于执行主体由客户端设备变为服务器端设备;增加了S202客户端设备将内容描述信息描述信息发送至服务器端设备的步骤。
由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此可以这种方式可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕,也更便于用户之间的信息分享。
此外,根据之前的描述,由于服务端无法直接抓取某些网页,因此抓取网页描述信息的步骤仍然由客户端完成,从而保证抓取的成功率。
可以理解的是,客户端设备在将内容描述信息描述信息发送至服务器端设备的过程中,可以采用数据压缩技术,从而进一步提升传输效率。
相应于上面的方法实施例,本发明实施例还提供一种网页收藏装置,参见图3所示,该装置可以包括:
描述信息抓取单元301,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
网页内容抓取单元302,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
网页内容保存单元303,用于对所抓取的网页内容进行保存。
具体实现时,该装置还可以包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,在本发明的一种实施方式中,所述代码注入单元,可以包括:
框架添加子单元,用于在用户所浏览的网页中中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元301,可以具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
网页内容保存单元303,可以具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
在本发明的一种实施方式中,所述网页内容抓取单元302,可以具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
在本发明的另一种实施方式中,所述网页内容抓取单元302,还可以具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
以上提供的网页收藏装置,可以是位于客户端的功能模块,该模块可以是浏览器本身、浏览器插件或者专用的网页收藏软件等等。
相应与上述在客户端实现全部收藏操作的方案,本发明实施例还提供一种网页收藏系统,参见图4所示,该系统包括客户端设备401和服务器端设备402;
所述客户端设备401,包括:
描述信息抓取单元4011,用于在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的内容描述信息;
描述信息发送单元4012,用于将所述网页内容描述信息发送至服务器端设备;
所述服务器端设备402,包括:
描述信息接收单元4021,用于接收客户端设备发送的网页内容描述信息;
网页内容抓取单元4022,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;
网页内容保存单元4023,用于对所抓取的网页内容进行保存。
由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此本发明实施例所提供的网页收藏系统可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕,也更便于用户之间的信息分享。
此外,根据之前的描述,由于服务端无法直接抓取某些网页,因此抓取网页描述信息的步骤仍然由客户端完成,从而保证抓取的成功率。
具体实现时,客户端设备401还可以包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
在本发明的一种实施方式中,所述代码注入单元可以包括:
框架添加子单元,用于在用户所浏览的网页中中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
在本发明的一种实施方式中,所述描述信息抓取单元4011,可以具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
在本发明的一种实施方式中,所述网页内容保存单元4023,可以具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
在本发明的一种实施方式中,所述网页内容抓取单元4022,可以具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
在本发明的一种实施方式中,所述网页内容抓取单元4022,还可以具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的一种网页收藏方法、装置及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种网页收藏方法,其特征在于,包括:
接收到用户对所浏览的网页执行的收藏操作指令后,向所述网页中写入脚本代码,利用所述写入的脚本代码抓取所述网页的内容描述信息;
对所述内容描述信息进行解析,根据解析结果由浏览器客户端抓取所述网页的内容;
对所抓取的网页内容进行保存。
2.根据权利要求1所述的方法,其特征在于,还包括:
当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;
或者,
当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
3.根据权利要求2所述的方法,其特征在于,所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码,包括:
在用户所浏览的网页中添加内嵌框架;
在所述内嵌框架中写入所述脚本代码。
4.根据权利要求1所述的方法,其特征在于,所述抓取所述网页的内容描述信息,包括:
抓取所述网页的文档对象模型信息。
5.根据权利要求1所述的方法,其特征在于,所述对所抓取的网页内容进行保存,包括:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
6.根据权利要求1所述的方法,其特征在于,所述根据解析结果抓取所述网页的内容包括:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
7.根据权利要求1所述的方法,其特征在于,所述根据解析结果抓取所述网页的内容包括:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
8.根据权利要求1-7任一项所述的方法,其特征在于,
在抓取网页的内容描述信息之后,还包括:将所述内容描述信息发送至服务器端设备;
所述服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容,并对所抓取的网页内容进行保存。
9.一种网页收藏装置,其特征在于,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,向所述网页中写入脚本代码,利用所述写入的脚本代码抓取所述网页的内容描述信息;
网页内容抓取单元,用于对所述内容描述信息进行解析,根据解析结果由浏览器客户端抓取所述网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
10.根据权利要求9所述的装置,其特征在于,还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
11.根据权利要求10所述的装置,其特征在于,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
12.根据权利要求9所述的装置,其特征在于,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
13.根据权利要求9所述的装置,其特征在于,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
14.根据权利要求9所述的装置,其特征在于,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
15.根据权利要求9所述的装置,其特征在于,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
16.一种网页收藏系统,其特征在于,包括客户端设备和服务器端设备;
所述客户端设备,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,向所述网页中写入脚本代码,利用所述写入的脚本代码抓取所述网页的内容描述信息;
描述信息发送单元,用于将所述网页内容描述信息发送至服务器端设备;
所述服务器端设备,包括:
描述信息接收单元,用于接收客户端设备发送的网页内容描述信息;
网页内容抓取单元,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
17.根据权利要求16所述的系统,其特征在于,所述客户端设备还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
18.根据权利要求17所述的系统,,其特征在于,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
19.根据权利要求16所述的系统,,其特征在于,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
20.根据权利要求16所述的系统,其特征在于,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
21.根据权利要求16所述的系统,其特征在于,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
22.根据权利要求16所述的系统,其特征在于,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
CN201210092944.7A 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统 Active CN102646135B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210092944.7A CN102646135B (zh) 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统
CN201310603186.5A CN103617224B (zh) 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统
CN201310603048.7A CN103617223B (zh) 2012-03-31 2012-03-31 网页收藏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210092944.7A CN102646135B (zh) 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN201310603186.5A Division CN103617224B (zh) 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统
CN201310603048.7A Division CN103617223B (zh) 2012-03-31 2012-03-31 网页收藏方法和装置

Publications (2)

Publication Number Publication Date
CN102646135A CN102646135A (zh) 2012-08-22
CN102646135B true CN102646135B (zh) 2014-01-08

Family

ID=46658954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210092944.7A Active CN102646135B (zh) 2012-03-31 2012-03-31 一种网页收藏方法、装置及系统

Country Status (1)

Country Link
CN (1) CN102646135B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853768B (zh) * 2012-12-04 2018-03-13 腾讯科技(深圳)有限公司 一种网络收藏内容分享方法和装置
CN103116609B (zh) * 2013-01-18 2015-11-25 北京奇虎科技有限公司 实现浏览器中页面加载的服务器、客户端、系统和方法
CN103235785B (zh) * 2013-03-28 2016-02-24 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN103544272A (zh) * 2013-10-18 2014-01-29 北京奇虎科技有限公司 一种在浏览器中显示图片的方法和装置
CN104572753A (zh) * 2013-10-24 2015-04-29 腾讯科技(深圳)有限公司 一种书签存储方法及书签存储装置
CN103593772A (zh) * 2013-11-15 2014-02-19 北京奇虎科技有限公司 用于实现商品收藏及状态变化提醒的方法、装置和系统
CN105354204A (zh) * 2014-08-22 2016-02-24 北京金山安全软件有限公司 一种网页数据的搜集方法以及装置
CN105550179B (zh) * 2014-10-29 2020-07-24 腾讯科技(深圳)有限公司 一种网页收藏方法和浏览器插件
CN104732144B (zh) * 2015-04-01 2017-06-23 河海大学 一种基于伪协议的远程代码注入漏洞检测方法
WO2018165837A1 (zh) * 2017-03-14 2018-09-20 深圳市博信诺达经贸咨询有限公司 网上信息抓取方法及系统
CN107203630B (zh) * 2017-05-31 2020-11-24 北京安云世纪科技有限公司 应用程序页面收藏方法、装置及相应的移动终端
CN108595510A (zh) * 2018-03-22 2018-09-28 成都数聚城堡科技有限公司 一种基于浏览器端的爬虫、分布式爬虫系统及方法
WO2020073290A1 (zh) * 2018-10-11 2020-04-16 华为技术有限公司 一种网络页面保存方法及终端
CN114117269B (zh) * 2022-01-26 2022-09-20 荣耀终端有限公司 备忘信息收藏方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756160A (zh) * 2004-09-27 2006-04-05 戴志军 方便用户上网的个性化网站
CN101051325A (zh) * 2007-05-16 2007-10-10 杭州华三通信技术有限公司 一种Web页面动作收藏方法和装置
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统
CN101782911A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种网络资源内容提示方法及系统
WO2010102165A1 (en) * 2009-03-05 2010-09-10 Alibaba Group Holding Limited Method, apparatus and system for visualizing user's web page browsing behavior

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756160A (zh) * 2004-09-27 2006-04-05 戴志军 方便用户上网的个性化网站
CN101051325A (zh) * 2007-05-16 2007-10-10 杭州华三通信技术有限公司 一种Web页面动作收藏方法和装置
WO2010102165A1 (en) * 2009-03-05 2010-09-10 Alibaba Group Holding Limited Method, apparatus and system for visualizing user's web page browsing behavior
CN101782911A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种网络资源内容提示方法及系统
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统

Also Published As

Publication number Publication date
CN102646135A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102646135B (zh) 一种网页收藏方法、装置及系统
US11907642B2 (en) Enhanced links in curation and collaboration applications
US10567407B2 (en) Method and system for detecting malicious web addresses
JP6488508B2 (ja) ウェブページのアクセス方法、装置、デバイス及びプログラム
US20160188551A1 (en) System for clipping webpages
WO2015120327A2 (en) Developer based document collaboration
CN103473302A (zh) 一种锁屏信息展示方法、装置和系统
CN102799372B (zh) 一种图片信息的上传方法及上传装置
CN104765746B (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN103412890A (zh) 一种网页加载方法和装置
CN104243273A (zh) 即时通讯客户端显示信息的方法及设备和信息显示系统
CN110020329B (zh) 用于生成网页的方法、装置和系统
US20150373150A1 (en) Server, client, system and method for preloading browsed page in browser
CN105550179B (zh) 一种网页收藏方法和浏览器插件
CN106874271A (zh) 一种将pc网页转换为移动终端网页的方法及系统
CN111177623A (zh) 信息处理方法及装置
CN102624910B (zh) 处理用户选取的网页内容的方法、装置及系统
CN104361007B (zh) 浏览器及其收藏夹的处理方法
CN104899212A (zh) 网页展示方法、服务器及系统
CN102955852A (zh) 一种网页资源处理方法、装置及设备
CN103617043A (zh) 一种带图片网页数据上传的方法和系统
CN105450460B (zh) 网络操作记录方法及系统
CN103617224A (zh) 一种网页收藏方法、装置及系统
CN108108381B (zh) 页面的监测方法及装置
CN104113464B (zh) 基于即时通讯提示的交互方法、装置和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING QIHU TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20120919

Owner name: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20120919

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100016 CHAOYANG, BEIJING TO: 100088 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20120919

Address after: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Applicant after: Qizhi software (Beijing) Co.,Ltd.

Address before: The 4 layer 100016 unit of Beijing city Chaoyang District Jiuxianqiao Road No. 14 Building C

Applicant before: Qizhi software (Beijing) Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220726

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.