CN103617223A - 网页收藏方法和装置 - Google Patents
网页收藏方法和装置 Download PDFInfo
- Publication number
- CN103617223A CN103617223A CN201310603048.7A CN201310603048A CN103617223A CN 103617223 A CN103617223 A CN 103617223A CN 201310603048 A CN201310603048 A CN 201310603048A CN 103617223 A CN103617223 A CN 103617223A
- Authority
- CN
- China
- Prior art keywords
- webpage
- content
- collected
- description information
- capturing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001914 filtration Methods 0.000 claims description 15
- 230000009193 crawling Effects 0.000 description 12
- 238000002347 injection Methods 0.000 description 8
- 239000007924 injection Substances 0.000 description 8
- 239000000243 solution Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种网页收藏方法、装置及系统。所述方法包括:接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;对所抓取的网页内容进行保存。应用本发明实施例所提供的技术方案,可以保证抓取的网页内容的全面性,并且可以提升网页收藏结果的有序性,便于用户进行阅读。
Description
本发明专利申请是申请日为2012年3月31日、申请号为201210092944.7、名称为“一种网页收藏方法、装置及系统”的中国发明专利申请的分案申请。
技术领域
本发明涉及网络数据处理领域,特别是涉及一种网页收藏方法、装置及系统。
背景技术
收藏网页,是指互联网用户将感兴趣的网页进行保存,以便于随时能够重新阅读相关信息。
现有技术中一种网页收藏方法是:将用户浏览过的网页内容以快照的形式保存起来。具体的,该方法实现的过程中,根据用户所提供的待收藏网页的超链接,定位网页并对网页进行快照,将快照保存为网页收藏信息,用户还可以进一步对所收藏的网页标题、简介和标签等信息进行编辑。网页收藏成功后,用户可以随时进行查看。
但是,现有技术中的网页收藏方法,在快照的形式显示网页收藏内容时,也丢失大量的网页原始信息,很容易导致所述显示的收藏网页内容失去原有的排版格式,页面杂乱无章,可读性差。
发明内容
本发明的目的是提供一种网页收藏方法、装置及系统,能够较为完整的保存网页收藏页面内容。
为实现上述目的,本发明提供了如下方案:
一种网页收藏方法,包括:
接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
对所抓取的网页内容进行保存。
其中,还包括:
当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;
或者,
当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述向用户所浏览的网页中写入用于抓取网页内容的脚本代码,包括:
在用户所浏览的网页中添加内嵌框架;
在所述内嵌框架中写入所述脚本代码。
其中,所述抓取所述网页的内容描述信息,包括:
抓取所述网页的文档对象模型信息。
其中,所述对所抓取的网页内容进行保存,包括:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述根据解析结果抓取所述网页的内容包括:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述根据解析结果抓取所述网页的内容包括:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
其中,
在抓取网页的内容描述信息之后,还包括:将所述内容描述信息发送至服务器端设备;
所述服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容,并对所抓取的网页内容进行保存。
一种网页收藏装置,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
网页内容抓取单元,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
其中,还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
其中,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
一种网页收藏系统,包括客户端设备和服务器端设备;
所述客户端设备,包括:
描述信息抓取单元,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
描述信息发送单元,用于将所述网页内容描述信息发送至服务器端设备;
所述服务器端设备,包括:
描述信息接收单元,用于接收客户端设备发送的网页内容描述信息;
网页内容抓取单元,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;
网页内容保存单元,用于对所抓取的网页内容进行保存。
其中,所述客户端设备还包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元,具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
其中,所述网页内容保存单元,具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
其中,所述网页内容抓取单元,具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
其中,所述网页内容抓取单元,具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
本发明实施例所提供的技术方案,由于通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携带有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网页收藏方法一种实施例的流程图;
图2为本发明的网页收藏方法另一种实施例的流程图;
图3为本发明的网页收藏装置实施例的结构示意图;
图4为本发明的网页收藏系统实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
首先对本发明实施例所提供的一种网页收藏方法进行说明,该方法可以包括以下步骤:
接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
对所抓取的网页内容进行保存。
在本发明的一种实施方式中,上述步骤可以全部在客户端设备中实现,例如在浏览器本身、浏览器插件或者专用的网页收藏软件中实现。
在本发明的一种实施方式中,上述步骤中写入脚本代码步骤以及抓取网页内容描述信息的步骤在客户端设备中实现,客户端抓取到网页内容描述信息后发送至服务器端设备,由服务器完成后续步骤。
首先,如图1所示,该网页收藏方法包括步骤:
S101:接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
在本发明实施例中,并不是采用服务器直接抓取网页页面内容,这是因为:对于一部分网页,服务器无法直接抓取,比如某些页面必须登录后才能展现,如果客户端没有登录,则服务器端也无法抓取。因此在本发明实施例中,抓取网页页面的内容的操作由客户端完成,例如由浏览器等软件完成。
根据本发明实施例的方案,可以在用户浏览网页时,在检测到被浏览的网页加载完毕之后,向用户所浏览的网页内写入脚本代码。这段代码能在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字),点“我喜欢”按钮后即可触发收藏操作。或者,在另一种实时方式下,可以默认在网页指定位置处(例如右侧)显示一个按钮(按钮上可以显示“我喜欢”等文字),用户如果想要收藏当前浏览的网页,就可以点击该“我喜欢”按钮,然后执行向用户所浏览的网页内写入脚本代码的操作,同时相当于用户触发了收藏操作。
其中,写入网页的脚本代码具有抓取网页页面内容的功能,由于目前有很多网页页面采用JS(JavaScript)技术开发,因此本发明实施例中,采向网页中写入JS脚本代码的方式实现,既能够解决用户登录后的页面内容抓取问题,又可以保证信息抓取的安全性。
在本发明的一种改进实施方式中,可以先在用户所浏览的网页中中添加内嵌框架,然后在内嵌框架中写入所述脚本代码。
其中内嵌框架可以是iframe框架,iframe框架可以隔离脚本代码和浏览器接口。这样实施的原因在于:因为实际应用中,别有用心的用户如果能够获取脚本代码,就可以操作浏览器接口,从而带来一些安全问题,比如:用户可以通过利用脚本代码在浏览器中发起跨域请求,可以操作浏览器接口修改浏览器配置文件,以及浏览器的其他接口功能。为了避免脚本代码被恶意利用,本发明实施例中,将脚本代码写入内嵌框架中,通过内嵌框架将脚本代码与浏览器接口相隔离,从而增加安全性。
向网页写入脚本代码后,可以待页面加载完毕后,在页面一侧绘制按钮或用户交互面板。以便用户点击该按钮触发收藏操作。当然,在本发明中,用户发出收藏操作指令的方式并仅限于点击按钮。此外,用户还可以用过交互面板进行设置按钮皮肤、分享配置等操作,这里不再赘述。
当然,在实际应用中,本发明实施例的方案可以通过一个浏览器插件的方式来实现,在浏览器插件支持的情况下,也可以直接在用户浏览的网页中注入脚本,而不必采用上述添加内嵌框架的方式来实现。
当接收用户通过点击收藏操作按钮或其他方式发起收藏操作指令后,利用预先写入的脚本代码,抓取网页的内容描述信息。
在本发明中,主要需要抓取的网页内容描述信息包括网页的DOM(Document Object Model,文档对象模型)信息,在网页的DOM树中包含有页面的布局结构信息,利用这些信息,后续就可以在保存网页内容时,根据网页原有的样式进行排版,以结构化的形式进行保存。
本领域技术人员可以理解,在抓取网页内容描述信息的过程中,除DOM信息之外,还可以进一步抓取网页的页面超链接、标题等信息。本发明实施例对此并不需要进行限定。
S102:对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
通过解析网页的DOM树,可以抽取出页面所包含的文字、图片等内容。其中,所解析出的图片内容是图片文件所在的源位置,还需要进一步从源位置将实际的图片文件下载下载到本地。
在下在图片文件的过程中,可以首先判断判断网页中的图片数量是否大于某个预设的阈值(例如10幅、20幅等等),如果否,则直接下载每个图像文件。而在网页所包含的图片数量比较多时,抓取图片文件的过程中将会十分费时。为了提高系统性能,可以采用异步方式实现图片文件的多线程批量下载,所有图片文件处理完之后在统一归档,这样可以有效降低抓取图片所需的时间。
在实际应用中,有些网站可能采用了防盗链技术,无法直接下载图片文件。针对这种情况,在本发明实施例中,在下载图片文件的请求发起时,可以在http头的referer字段中添加上图片资源所在的网站的源域名。图片资源所在的网站的服务器解析该请求时,会认为这个请求是由自身发起的,从而返回图片内容。
在抓取图片内容的过程中,还可以首先获得网页中图片的尺寸,对于尺寸过小的图片,不进行下载。这种抓取图片的方式,可以筛选出图片尺寸大于预设尺寸阈值的图片。这是因为网页中的图片可能有很多,这其中包括大量的广告图片等等不存在收藏意义的内容。然而作为网页主要内容的图片,通常都具有较大的尺寸,因此采用图片尺寸进行过滤的方式,可以有效减少无用图片内容的抓取,既节约了系统资源,也提高了收藏结果的可读性。
可以理解的是,处除了利用图片尺寸进行图片内容过滤之外,还可以采用其他的预置规则,例如网址关键字、文件名关键字等方式,对网页中可能存在的不具有收藏意义的信息进行过滤,从而达到节约系统资源和提高了收藏结果的可读性的目的,本发明实施例对此并不需要进行限定。
S103:对所抓取的网页内容进行保存。
在本步骤中,对S103中所抓取的网页内容进行保存,特别地,根据网页的DOM树信息,可以对抓取的网页内容按照网页的原始样式,样式进行排版,以结构化的形式进行保存。
进一步地,还可以根据所保存的内容信息生成网页摘要,以便在收藏列表中展示给用户,便于用户进行浏览。在具体实施过程中,可以根据网页标题信息可以生成摘要的标题、根据网页的页面文字可以生成摘要中的文字部分、根据页面图片信息可以生成摘要中的缩略图,等等。保存所述摘要信息,用户就可以在后续的上网浏览过程中,在网页收藏列表中直接查看收藏过的网页的摘要信息。
此外,应用本发明方案,还允许用户将收藏的网页分享到其他网站,还可以通过调用其他网站的接口,将排版好的网页内容信息以及摘要信息发送到目标网站,从而实现用户信息的共享,提高用户体验。
上述所提供的网页收藏方法,通过预先写入所述网页的脚本代码对网页的描述信息进行抓取,一方面保证了抓取的网页内容的全面性;另一方面,由于网页的描述信息中携带有网页的样式信息,因此在保存网页内容时,可以根据样式信息对网页内容进行排版,从而提高了网页收藏结果的有序性,便于用户进行阅读。
在上述实施例中,所有网页收藏步骤都是在客户端设备中实现,在本发明的另一种实施方式中,可以由客户端和服务器设备协作完成网页收藏操作,参见图2所示,该方法包括以下步骤:
S201:客户端设备接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
S202:客户端设备将所述内容描述信息发送至服务器端设备;
S203:服务器端设备对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
S204:服务器端设备对所抓取的网页内容进行保存。
与前一实施例相比:S201与S101相同;S203-S204与S102-S103相比,区别在于执行主体由客户端设备变为服务器端设备;增加了S202客户端设备将内容描述信息描述信息发送至服务器端设备的步骤。
由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此可以这种方式可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕,也更便于用户之间的信息分享。
此外,根据之前的描述,由于服务端无法直接抓取某些网页,因此抓取网页描述信息的步骤仍然由客户端完成,从而保证抓取的成功率。
可以理解的是,客户端设备在将内容描述信息描述信息发送至服务器端设备的过程中,可以采用数据压缩技术,从而进一步提升传输效率。
相应于上面的方法实施例,本发明实施例还提供一种网页收藏装置,参见图3所示,该装置可以包括:
描述信息抓取单元301,用于接收到用户对所浏览的网页执行的收藏操作指令后,利用写入所述网页的用于抓取网页内容的脚本代码,抓取所述网页的内容描述信息;
网页内容抓取单元302,用于对所述内容描述信息进行解析,根据解析结果抓取所述网页的内容;
网页内容保存单元303,用于对所抓取的网页内容进行保存。
具体实现时,该装置还可以包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
其中,在本发明的一种实施方式中,所述代码注入单元,可以包括:
框架添加子单元,用于在用户所浏览的网页中中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
其中,所述描述信息抓取单元301,可以具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
网页内容保存单元303,可以具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
在本发明的一种实施方式中,所述网页内容抓取单元302,可以具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
在本发明的另一种实施方式中,所述网页内容抓取单元302,还可以具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
以上提供的网页收藏装置,可以是位于客户端的功能模块,该模块可以是浏览器本身、浏览器插件或者专用的网页收藏软件等等。
相应与上述在客户端实现全部收藏操作的方案,本发明实施例还提供一种网页收藏系统,参见图4所示,该系统包括客户端设备401和服务器端设备402;
所述客户端设备401,包括:
描述信息抓取单元4011,用于在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的内容描述信息;
描述信息发送单元4012,用于将所述网页内容描述信息发送至服务器端设备;
所述服务器端设备402,包括:
描述信息接收单元4021,用于接收客户端设备发送的网页内容描述信息;
网页内容抓取单元4022,用于对所述网页内容描述信息进行解析,根据解析结果抓取网页的内容;
网页内容保存单元4023,用于对所抓取的网页内容进行保存。
由于服务端的分析能力、下载可控性、重新排版等方面要比前端JS脚本高出很多。因此本发明实施例所提供的网页收藏系统可以有效提升网页内容的抓取质量。而且服务端的存储空间更为充裕,也更便于用户之间的信息分享。
此外,根据之前的描述,由于服务端无法直接抓取某些网页,因此抓取网页描述信息的步骤仍然由客户端完成,从而保证抓取的成功率。
具体实现时,客户端设备401还可以包括:
代码注入单元,用于当检测到所述用户所浏览的网页加载完成时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码;或者,当接收到用户对所浏览的网页执行的收藏操作指令时,向用户所浏览的网页中写入用于抓取网页内容的脚本代码。
在本发明的一种实施方式中,所述代码注入单元可以包括:
框架添加子单元,用于在用户所浏览的网页中中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
在本发明的一种实施方式中,所述描述信息抓取单元4011,可以具体用于:
在接收到用户的收藏操作指令后,利用预先写入的脚本代码,抓取所述网页的文档对象模型信息。
在本发明的一种实施方式中,所述网页内容保存单元4023,可以具体用于:
根据所述网页的文档对象模型信息,将所抓取的网页内容以结构化样式进行保存。
在本发明的一种实施方式中,所述网页内容抓取单元4022,可以具体用于:
根据预设的规则对网页内容中包含的不具有收藏意义的内容进行过滤,根据过滤结果抓取所述网页的内容。
在本发明的一种实施方式中,所述网页内容抓取单元4022,还可以具体用于:
在网页内容包括图片的情况下,判断网页中的图片数量是否大于预设的阈值,如果是,则采用异步方式下载所述网页的图片内容。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的一种网页收藏方法、装置及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
本发明实施例公开了A1一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息;
根据解析结果抓取所述待收藏网页的内容;
保存所抓取的待收藏网页的内容。
A2、根据A1所述的方法,其中,所述内容描述信息包括文档对象模型信息。
A3、根据A2所述的方法,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
A4、根据A2或A3所述的方法,其中,解析所述内容描述信息进一步包括:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
A5、根据A4所述的方法,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
A6、根据A1至A5中任一项所述的方法,还包括:
根据所保存的待收藏网页的内容生成页面摘要;
把所述页面摘要存放在收藏列表中以便展示。
A7、根据A6所述的方法,其中,根据所保存的待收藏网页的内容生成页面摘要进一步包括:
根据网页标题信息生成页面摘要的标题;
根据待收藏网页的页面文字生成页面摘要中的文字部分;
根据页面图片信息生成页面摘要中的缩略图。
B8、一种网页收藏装置,其包括:
抓取单元,适于抓取待收藏网页的内容描述信息;
解析单元,适于解析所述内容描述信息;
获取单元,适于根据解析结果抓取所述待收藏网页的内容;
保存单元,适于保存所抓取的待收藏网页的内容。
B9、根据B8所述的装置,其中,所述内容描述信息包括文档对象模型信息。
B10、根据B9所述的装置,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
B11、根据B9或B10所述的装置,其中,所述解析单元还适于:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
B12、根据B11所述的装置,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
B13、根据B8至B12中任一项所述的装置,还包括:
生成单元,适于根据所保存的待收藏网页的内容生成页面摘要;
存放单元,适于把所述页面摘要存放在收藏列表中以便展示。
B14、根据B13所述的装置,其中,所述存放生成单元还适于:
标题生成单元,适于根据网页标题信息生成页面摘要的标题;
文字部分生成单元,适于根据待收藏网页的页面文字生成页面摘要中的文字部分;
缩略图生成单元,适于根据页面图片信息生成页面摘要中的缩略图。
C15、一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息以得到待收藏网页所包含的内容;
根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容;
保存所抓取的待收藏网页的网页内容。
C16、根据C15所述的方法,其中,如果待收藏网页所包含的内容为图片文件所在的源位置,则根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容进一步包括:
判断待收藏网页中的图片数量是否大于预设阈值;
如果待收藏网页中的图片数量不大于预设阈值,则从各图片文件所在的源位置下载各图片文件;否则采用异步方式多线程批量下载各图片文件。
C17、根据C16所述的方法,其中,所述内容描述信息包括文档对象模型信息。
C18、根据C17所述的方法,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
C19、根据C15至C18中任一项所述的方法,还包括:
根据所保存的待收藏网页的内容生成页面摘要;
把所述页面摘要存放在收藏列表中以便展示。
C20、根据C19所述的方法,其中,根据所保存的待收藏网页的内容生成页面摘要进一步包括:
根据网页标题信息生成页面摘要的标题;
根据待收藏网页的页面文字生成页面摘要中的文字部分;
根据页面图片信息生成页面摘要中的缩略图。
D21、一种网页收藏装置,其包括:
抓取单元,适于抓取待收藏网页的内容描述信息;
解析单元,适于解析所述内容描述信息以得到待收藏网页所包含的内容;
获取单元,适于根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容;
保存单元,适于保存所抓取的待收藏网页的网页内容。
D22、根据权利要求D21所述的装置,其中,如果所述解析单元得到的是图片文件所在的源位置,则所述获取单元还适于:
判断待收藏网页中的图片数量是否大于预设阈值;
如果待收藏网页中的图片数量不大于预设阈值,则从各图片文件所在的源位置下载各图片文件;否则采用异步方式多线程批量下载各图片文件。
D23、根据D22所述的装置,其中,所述内容描述信息包括文档对象模型信息。
D24、根据D23所述的装置,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
D25、根据D21至24中任一项所述的装置,还包括:
生成单元,适于根据所保存的待收藏网页的内容生成页面摘要;
存放单元,适于把所述页面摘要存放在收藏列表中以便展示。
D26、根据D25所述的装置,其中,所述存放生成单元还适于:
标题生成单元,适于根据网页标题信息生成页面摘要的标题;
文字部分生成单元,适于根据待收藏网页的页面文字生成页面摘要中的文字部分;
缩略图生成单元,适于根据页面图片信息生成页面摘要中的缩略图。
E27、一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息以得到待收藏网页所包含的内容;
根据待收藏网页所包含的内容以及预定规则抓取所述待收藏网页的网页内容并过滤掉不具有收藏意义的网页内容;
保存所抓取的待收藏网页的网页内容。
E28、根据E15所述的方法,其中,如果待收藏网页所包含的内容为图片文件所在的源位置,则根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容并过滤掉不具有收藏意义的网页内容进一步包括:
如果图片尺寸小于预设值,则不下载该图片文件;否则判断待收藏网页中的图片尺寸大于预设值的图片数量是否大于预设阈限;
如果不大于预设阈限,则从各图片文件所在的源位置下载各图片文件;否则采用异步方式多线程批量下载各图片文件。
E29、根据E27所述的方法,其中,所述预定规则包括图片尺寸、网址关键字和/或文件名关键字。
E30、根据E29所述的方法,其中,所述内容描述信息包括文档对象模型信息。
E31、根据E30所述的方法,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
E32、根据E27至E31中任一项所述的方法,还包括:
根据所保存的待收藏网页的内容生成页面摘要;
把所述页面摘要存放在收藏列表中以便展示。
E33、根据E32所述的方法,其中,根据所保存的待收藏网页的内容生成页面摘要进一步包括:
根据网页标题信息生成页面摘要的标题;
根据待收藏网页的页面文字生成页面摘要中的文字部分;
根据页面图片信息生成页面摘要中的缩略图。
Claims (10)
1.一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息;
根据解析结果抓取所述待收藏网页的内容;
保存所抓取的待收藏网页的内容。
2.根据权利要求1所述的方法,其中,所述内容描述信息包括文档对象模型信息。
3.根据权利要求2所述的方法,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
4.根据权利要求2或3所述的方法,其中,解析所述内容描述信息进一步包括:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
5.根据权利要求4所述的方法,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
6.根据权利要求1至5中任一项所述的方法,还包括:
根据所保存的待收藏网页的内容生成页面摘要;
把所述页面摘要存放在收藏列表中以便展示。
7.一种网页收藏装置,其包括:
抓取单元,适于抓取待收藏网页的内容描述信息;
解析单元,适于解析所述内容描述信息;
获取单元,适于根据解析结果抓取所述待收藏网页的内容;
保存单元,适于保存所抓取的待收藏网页的内容。
8.一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息以得到待收藏网页所包含的内容;
根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容;
保存所抓取的待收藏网页的网页内容。
9.一种网页收藏装置,其包括:
抓取单元,适于抓取待收藏网页的内容描述信息;
解析单元,适于解析所述内容描述信息以得到待收藏网页所包含的内容;
获取单元,适于根据待收藏网页所包含的内容抓取所述待收藏网页的网页内容;
保存单元,适于保存所抓取的待收藏网页的网页内容。
10.一种网页收藏方法,其包括:
抓取待收藏网页的内容描述信息;
解析所述内容描述信息以得到待收藏网页所包含的内容;
根据待收藏网页所包含的内容以及预定规则抓取所述待收藏网页的网页内容并过滤掉不具有收藏意义的网页内容;
保存所抓取的待收藏网页的网页内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310603048.7A CN103617223B (zh) | 2012-03-31 | 2012-03-31 | 网页收藏方法和装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310603048.7A CN103617223B (zh) | 2012-03-31 | 2012-03-31 | 网页收藏方法和装置 |
CN201210092944.7A CN102646135B (zh) | 2012-03-31 | 2012-03-31 | 一种网页收藏方法、装置及系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210092944.7A Division CN102646135B (zh) | 2012-03-31 | 2012-03-31 | 一种网页收藏方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103617223A true CN103617223A (zh) | 2014-03-05 |
CN103617223B CN103617223B (zh) | 2018-03-20 |
Family
ID=50167926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310603048.7A Active CN103617223B (zh) | 2012-03-31 | 2012-03-31 | 网页收藏方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617223B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956173A (zh) * | 2016-05-24 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 页面内容获取方法和装置 |
CN111104619A (zh) * | 2018-10-25 | 2020-05-05 | 青岛海信移动通信技术股份有限公司 | 一种收藏文章的方法及移动终端 |
CN115033770A (zh) * | 2022-05-20 | 2022-09-09 | 南京一盏神灯网络信息科技有限公司 | 一种防止被认定为侵权抓取资讯的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959679A (zh) * | 2006-09-25 | 2007-05-09 | 北京爱笛星科技有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
CN101727498A (zh) * | 2010-01-15 | 2010-06-09 | 西安交通大学 | 一种基于web结构的网页信息自动提取方法 |
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
-
2012
- 2012-03-31 CN CN201310603048.7A patent/CN103617223B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959679A (zh) * | 2006-09-25 | 2007-05-09 | 北京爱笛星科技有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN101727498A (zh) * | 2010-01-15 | 2010-06-09 | 西安交通大学 | 一种基于web结构的网页信息自动提取方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956173A (zh) * | 2016-05-24 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 页面内容获取方法和装置 |
CN111104619A (zh) * | 2018-10-25 | 2020-05-05 | 青岛海信移动通信技术股份有限公司 | 一种收藏文章的方法及移动终端 |
CN111104619B (zh) * | 2018-10-25 | 2023-09-26 | 青岛海信移动通信技术有限公司 | 一种收藏文章的方法及移动终端 |
CN115033770A (zh) * | 2022-05-20 | 2022-09-09 | 南京一盏神灯网络信息科技有限公司 | 一种防止被认定为侵权抓取资讯的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103617223B (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102646135B (zh) | 一种网页收藏方法、装置及系统 | |
US20220147696A1 (en) | Enhanced links in curation and collaboration applications | |
US10515142B2 (en) | Method and apparatus for extracting webpage information | |
US9311283B2 (en) | System for clipping webpages by traversing a dom, and highlighting a minimum number of words | |
CN104333531B (zh) | 网络资源的分享及获取方法、装置、终端 | |
CN102054028B (zh) | 一种网络爬虫系统实现页面渲染功能的方法 | |
CN106599270B (zh) | 网络数据抓取方法和爬虫 | |
CN103593354A (zh) | 一种过滤网络页面广告的方法、装置、服务器及系统 | |
CN109428877B (zh) | 一种用于通过用户设备访问业务系统的方法和装置 | |
CN106874271A (zh) | 一种将pc网页转换为移动终端网页的方法及系统 | |
CN103365877B (zh) | 对网页进行转码后建立目录的方法以及服务器 | |
CN102799372A (zh) | 一种图片信息的上传方法及上传装置 | |
CN102651016A (zh) | 一种基于用户计算机终端的桌面信息采集系统及采集方法 | |
CN105550179B (zh) | 一种网页收藏方法和浏览器插件 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN103092834A (zh) | 浏览网页图片的方法及客户端装置 | |
CN104281629B (zh) | 从网页中提取图片的方法、装置及客户端设备 | |
CN103365919B (zh) | 网页解析容器及方法 | |
CN103617223B (zh) | 网页收藏方法和装置 | |
CN114443928B (zh) | 一种网络文本数据爬虫方法与系统 | |
CN113190512A (zh) | 一种基于埋点技术的电力客户行为数据分析方法 | |
CN103617224B (zh) | 一种网页收藏方法、装置及系统 | |
CN111125485A (zh) | 基于Scrapy的网站URL爬取方法 | |
CN105488218A (zh) | 一种基于搜索的加载瀑布流的方法和装置 | |
CN113010814A (zh) | 网页内容的处理方法、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220727 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |