CN102819613A - Rss信息分页抓取系统及方法 - Google Patents

Rss信息分页抓取系统及方法 Download PDF

Info

Publication number
CN102819613A
CN102819613A CN2012103116640A CN201210311664A CN102819613A CN 102819613 A CN102819613 A CN 102819613A CN 2012103116640 A CN2012103116640 A CN 2012103116640A CN 201210311664 A CN201210311664 A CN 201210311664A CN 102819613 A CN102819613 A CN 102819613A
Authority
CN
China
Prior art keywords
paging
rss
channel
information
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103116640A
Other languages
English (en)
Other versions
CN102819613B (zh
Inventor
郑伟
赵刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210311664.0A priority Critical patent/CN102819613B/zh
Publication of CN102819613A publication Critical patent/CN102819613A/zh
Application granted granted Critical
Publication of CN102819613B publication Critical patent/CN102819613B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种RSS信息分页抓取系统及方法。所述系统包括:列表建立单元,适于收集具有分页的RSS频道,建立分页频道列表;列表分析单元,适于分析分页频道列表,得到对应每个RSS频道的分页标签;代码获取单元,适于当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于分页频道列表,则获取当前信息对应的页面代码;标签查找单元,适于在页面代码中查找目标RSS频道对应的分页标签;分页组合单元,适于根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。所述系统及方法,保证了推送给用户的RSS信息的完整性,提高了用户的阅读效率。

Description

RSS信息分页抓取系统及方法
技术领域
本发明涉及互联网技术领域,特别涉及一种RSS信息分页抓取系统及方法。
背景技术
RSS(简易信息聚合,也叫聚合内容)是一种描述以及同步网站内容的格式。RSS可以是以下三个解释的其中一个:Really SimpleSyndication;RDF(Resource Description Framework)Site Summary;Rich Site Summary,其实这三个解释都是指同一种Syndication的技术。RSS目前广泛用于网上新闻频道,博客和wiki,主要的版本有0.91,1.0,2.0。使用RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。
其中,RSS订阅是站点用来和其他站点之间共享内容的一种简易方式,面对扑面而来的新闻,不用再花费大量的时间冲浪和从新闻网站下载,只需要通过RSS阅读器就可以阅读大量的信息。目前RSS订阅主要分两种:第一种是用户通过RSS阅读器从RSS源站摘取信息,这种方式需要用户主动添加RSS源,信息来源单一,而且RSS的内容完全由其源站决定,很多RSS源只推送信息摘要,如果要看详细信息必须去原始网页查看;第二种是用户从一些第三方站点订阅,第三方订阅站点事先从一些质量较高的RSS源抽取信息,并进行一定的处理,返回给用户的是已经聚合好的信息。
第二种订阅方式显然更能满足用户的阅读需求,但是其同样存在问题:当第三方订阅站点从RSS源抽取信息时,假设被抽取的信息是一篇文章的摘要,会从原文链接中抽取全文,但是如果原文的内容是分页的,则只能抽取第一页。
发明内容
本发明要解决的技术问题是:如何提供一种RSS信息分页抓取系统及方法,以保证从RSS源抽取信息时能够识别分页并抽取全文。
为解决上述技术问题,本发明提供一种RSS信息分页抓取系统,其包括:
列表建立单元,适于收集具有分页的RSS频道,建立分页频道列表;
列表分析单元,适于分析所述分页频道列表,得到对应每个RSS频道的分页标签;
代码获取单元,适于当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码;
标签查找单元,适于在所述页面代码中查找所述目标RSS频道对应的分页标签;
分页组合单元,适于根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
其中,所述列表分析单元进一步包括:
网页提取模块,适于依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页;
标签对应模块,适于分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
其中,所述代码获取单元进一步包括:
信息抓取模块,适于从RSS源抓取信息;
判断模块,适于判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表;
代码获取模块,适于当作为当前信息来源的目标RSS频道属于所述分页频道列表时,获取所述当前信息对应的页面代码。
其中,所述分页组合单元进一步包括:
URL获取模块,适于根据查找到的分页标签得到各分页的URL;
正文获取模块,适于根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文;
分页组合模块,适于组合各分页的正文,得到完整的RSS信息。
其中,所述系统还包括:
推送单元,适于将所述完整的RSS信息推送给用户。
本发明还提供一种RSS信息分页抓取方法,其包括步骤:
收集具有分页的RSS频道,建立分页频道列表;
分析所述分页频道列表,得到对应每个RSS频道的分页标签;
当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码;
在所述页面代码中查找所述目标RSS频道对应的分页标签;
根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
其中,所述分析所述分页频道列表,得到对应每个RSS频道的分页标签具体包括:
依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页;
分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
其中,所述当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息的页面代码具体包括:
从RSS源抓取信息,判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表,如果是,获取所述当前信息对应的页面代码;否则,认为所述当前信息对应的网页不存在分页,结束流程。
其中,所述根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息具体包括:
根据查找到的分页标签得到各分页的URL;
根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文;
组合各分页的正文,得到完整的RSS信息。
其中,在所述得到完整的RSS信息之后还包括步骤:
将所述完整的RSS信息推送给用户。
本发明还提供一种服务器,其包括所述的RSS信息分页抓取系统。
本发明所述RSS信息分页抓取系统及方法,根据常用RSS频道建立分页频道列表,并得到对应每个RSS频道的分页标签,进而在从RSS源抓取的信息对应的页面代码中查找相应的分页标签,根据分页标签获得各分页的内容,从而得到完整的RSS信息,保证了推送给用户的RSS信息的完整性,提高了用户的阅读效率。
附图说明
图1是本发明实施例一所述RSS信息分页抓取系统的模块结构示意图;
图2a~b是分页标签所对应的页面展示效果图;
图3是所述列表分析单元的模块结构示意图;
图4是所述代码获取单元的模块结构示意图;
图5是所述分页组合单元的模块结构示意图;
图6是本发明实施例二所述RSS信息分页抓取系统的模块结构示意图;
图7是本发明实施例三所述RSS信息分页抓取方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例一所述RSS信息分页抓取系统的模块结构示意图,如图1所示,所述系统包括:
列表建立单元100,适于收集具有分页的RSS频道,建立分页频道列表。
RSS频道一般是指各网站按照内容类型划分得到的诸如新闻频道、娱乐频道、生活休闲频道、读书频道、下载频道、体育频道、游戏频道、音乐频道、视频频道、汽车频道、房产频道等版块。随网站的不同,这些频道的名称可能不同,并且各个频道之间的层次关系也可能不同,比如在某些网站中游戏频道可能作为娱乐频道的子频道出现。方便起见,将上述包含子频道的频道称为父频道,由于同一个网站中,每个父频道下的网页采用相同的分页形式,本申请中的RSS频道可以对应到父频道这一层,而无需向下对应到子频道。
所述分页频道列表中包括所有常见的具有分页的RSS频道,比如新浪汽车频道、网易数码频道、搜狐军事频道等等。
列表分析单元200,适于分析所述分页频道列表,得到对应每个RSS频道的分页标签。
每个RSS频道均会对应一种分页标签,比如,图2a是新浪汽车频道的分页标签所对应的页面展示效果图,表1a是该分页标签对应的源代码,该分页标签可以概括为class属性为pb的div标签;图2b是网易数码频道的分页标签所对应的页面展示效果图,表1b是该分页标签对应的源代码,该分页标签可以概括为class属性为endPageNum的div标签。一般情况下,一个RSS频道中的所有网页信息如果存在分页均会采用相同的分页标签,根据这一情况,可以建立RSS频道与分页标签的对应关系表。
表1a新浪汽车频道分页标签
Figure BDA00002067351500061
表1b网易数码频道分页标签
Figure BDA00002067351500062
Figure BDA00002067351500071
图3是所述列表分析单元的模块结构示意图,如图3所示,所述列表分析单元200进一步包括:
网页提取模块210,适于依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页。
标签对应模块220,适于分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
代码获取单元300,适于当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码。
图4是所述代码获取单元的模块结构示意图,如图4所示,所述代码获取单元300进一步包括:
信息抓取模块310,适于从RSS源抓取信息。这里的RSS源包括所述分页频道列表中的RSS频道,以及其他的RSS频道。
判断模块320,适于判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表。
代码获取模块330,适于当作为当前信息来源的目标RSS频道属于所述分页频道列表时,获取所述当前信息对应的页面代码。
标签查找单元400,适于在所述页面代码中查找所述目标RSS频道对应的分页标签。
根据所述RSS频道与分页标签的对应关系表,可以查找到目标RSS频道对应的分页标签,简记为目标标签;这时,目标标签已知,进而可以在当前信息对应的页面代码中查找所述目标标签,比如当目标标签是class属性为endPageNum的div标签时,可以以“<divclass="endPageNum">”作为关键字在当前信息对应的页面代码进行查找,确定目标标签在当前信息对应的页面代码中的位置。
分页组合单元500,适于根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
图5是所述分页组合单元的模块结构示意图,如图5所示,所述分页组合单元500进一步包括:
URL(Uniform/Universal Resource Locator,统一资源定位符)获取模块510,适于根据查找到的分页标签得到各分页的URL。
首先,以表1a所示分页标签为例进行说明,找到该分页标签后,通过提取该div标签下所有a标签的href属性可以得到各分页的URL如下:'http://auto.sina.com.cn/news/2005-12-26/1450160051.shtml';
'http://auto.sina.com.cn/news/2005-12-26/1450160051.shtml';
'http://auto.sina.com.cn/news/2005-12-26/1450160053.shtml';
'http://auto.sina.com.cn/news/2005-12-26/1450160053.shtml'。
其中,前两个URL相同,均是对应第1页;后两个URL相同,均是对应第3页。通过删除重复的URL可以得到第1页和第3页的URL,同时当前页(第2页)的URL是已知的,至此得到所有分页的URL。
再以表1b所示分页标签为例说明,找到该分页标签后,通过提取该div标签下所有a标签的href属性可以得到各分页的URL如下:
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_2.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_3.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_4.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_5.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_6.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_7.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_2.html";
"http://tech.163.com/digi/12/0802/06/87SPF4HA00163HEB_all.html#p1"。
其中,第2页对应的URL出现了两次,通过删冗操作可以删除多余的URL。另外,最后一个URL是对应全文的URL,根据该URL可以得到全文的内容。但是,由于很多RSS频道的网页并不设置这种URL,所以本申请仍然采用整合各分页URL的方式获得全文的内容。而对于这种全文的URL,本申请中需要从根据分页标签获得的所有URL中删除这种对应全文的URL,以保证最终获得的是各个分页的URL。具有应用中,可以通过解析分页标签对应的代码,根据关键词(比如“全文”)删除该种URL。
正文获取模块520,适于根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文。
分页组合模块530,适于组合各分页的正文,得到完整的RSS信息。
图6是本发明实施例二所述RSS信息分页抓取系统的模块结构示意图,如图6所示,本实施例所述系统与实施例一所述系统基本相同,其不同之处仅在于,本实施例所述系统还包括:
推送单元600,适于将所述完整的RSS信息推送给用户。
一般情况下,所述推送单元600通过邮件方式将所述完整的RSS信息发送到目标用户的邮箱中,用户接收邮件时可以查看到完整RSS信息,无需再到相应的出处网站查看原文,提高了阅读效率。
本发明实施例一、实施例二所述RSS信息分页抓取系统目前可以设置于服务器端,随着硬件性能的提升,也可以在客户端实施。
图7是本发明实施例三所述RSS信息分页抓取方法流程图,如图7所示,所述方法包括步骤:
S100:收集具有分页的RSS频道,建立分页频道列表。
其中,所述步骤S100体包括:
依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页。
分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
S200:分析所述分页频道列表,得到对应每个RSS频道的分页标签。
S300:当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码。
其中,所述步骤S300具体包括:
从RSS源抓取信息,判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表,如果是,获取所述当前信息对应的页面代码;否则,认为所述当前信息对应的网页不存在分页,结束流程。
S400:在所述页面代码中查找所述目标RSS频道对应的分页标签。
S500:根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
其中,所述步骤S500具体包括:
根据查找到的分页标签得到各分页的URL;
根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文;
组合各分页的正文,得到完整的RSS信息。
另外,在所述步骤S500之后还可以包括步骤S600:将所述完整的RSS信息推送给用户。
本发明实施例所述RSS信息分页抓取系统及方法,根据常用RSS频道建立分页频道列表,并得到对应每个RSS频道的分页标签,进而在从RSS源抓取的信息对应的页面代码中查找相应的分页标签,根据分页标签获得各分页的内容,从而得到完整的RSS信息,保证了推送给用户的RSS信息的完整性,提高了用户的阅读效率。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (11)

1.一种RSS信息分页抓取系统,其包括:
列表建立单元,适于收集具有分页的RSS频道,建立分页频道列表;
列表分析单元,适于分析所述分页频道列表,得到对应每个RSS频道的分页标签;
代码获取单元,适于当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码;
标签查找单元,适于在所述页面代码中查找所述目标RSS频道对应的分页标签;
分页组合单元,适于根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
2.如权利要求1所述的系统,其特征在于,所述列表分析单元进一步包括:
网页提取模块,适于依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页;
标签对应模块,适于分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
3.如权利要求1所述的系统,其特征在于,所述代码获取单元进一步包括:
信息抓取模块,适于从RSS源抓取信息;
判断模块,适于判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表;
代码获取模块,适于当作为当前信息来源的目标RSS频道属于所述分页频道列表时,获取所述当前信息对应的页面代码。
4.如权利要求1所述的系统,其特征在于,所述分页组合单元进一步包括:
URL获取模块,适于根据查找到的分页标签得到各分页的URL;
正文获取模块,适于根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文;
分页组合模块,适于组合各分页的正文,得到完整的RSS信息。
5.如权利要求1所述的系统,其特征在于,所述系统还包括:
推送单元,适于将所述完整的RSS信息推送给用户。
6.一种RSS信息分页抓取方法,其包括步骤:
收集具有分页的RSS频道,建立分页频道列表;
分析所述分页频道列表,得到对应每个RSS频道的分页标签;
当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息对应的页面代码;
在所述页面代码中查找所述目标RSS频道对应的分页标签;
根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息。
7.如权利要求6所述的方法,其特征在于,所述分析所述分页频道列表,得到对应每个RSS频道的分页标签具体包括:
依次取出所述分页频道列表中的每个RSS频道,找到所述RSS频道中具有分页的网页;
分析所述具有分页的网页的页面代码,找到其中的分页标签作为相应RSS频道所对应的分页标签。
8.如权利要求6所述的方法,其特征在于,所述当从RSS源抓取信息时,如果作为当前信息来源的目标RSS频道属于所述分页频道列表,则获取所述当前信息的页面代码具体包括:
从RSS源抓取信息,判断作为当前信息来源的目标RSS频道是否属于所述分页频道列表,如果是,获取所述当前信息对应的页面代码;否则,认为所述当前信息对应的网页不存在分页,结束流程。
9.如权利要求6所述的方法,其特征在于,所述根据查找到的分页标签获得各分页对应的页面,组合各分页对应的页面,得到完整的RSS信息具体包括:
根据查找到的分页标签得到各分页的URL;
根据各分页的URL获得各分页的页面代码,从所述页面代码中抽取各分页的正文;
组合各分页的正文,得到完整的RSS信息。
10.如权利要求6所述的方法,其特征在于,在所述得到完整的RSS信息之后还包括步骤:
将所述完整的RSS信息推送给用户。
11.一种服务器,其包括权利要求1至5之一所述的RSS信息分页抓取系统。
CN201210311664.0A 2012-08-28 2012-08-28 Rss信息分页抓取系统及方法 Expired - Fee Related CN102819613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210311664.0A CN102819613B (zh) 2012-08-28 2012-08-28 Rss信息分页抓取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210311664.0A CN102819613B (zh) 2012-08-28 2012-08-28 Rss信息分页抓取系统及方法

Publications (2)

Publication Number Publication Date
CN102819613A true CN102819613A (zh) 2012-12-12
CN102819613B CN102819613B (zh) 2015-11-25

Family

ID=47303724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210311664.0A Expired - Fee Related CN102819613B (zh) 2012-08-28 2012-08-28 Rss信息分页抓取系统及方法

Country Status (1)

Country Link
CN (1) CN102819613B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810177A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种准确获取网站访问者在网页上真实停留时间的方法
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN106503016A (zh) * 2015-09-07 2017-03-15 北京国双科技有限公司 抓取页面信息的方法及装置
CN106547778A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网页的爬取方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1913522A (zh) * 2005-12-23 2007-02-14 王建波 基于xml文件的rss信息交互处理方法
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN101788991A (zh) * 2009-06-23 2010-07-28 北京搜狗科技发展有限公司 一种更新提醒的方法及系统
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1913522A (zh) * 2005-12-23 2007-02-14 王建波 基于xml文件的rss信息交互处理方法
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN101788991A (zh) * 2009-06-23 2010-07-28 北京搜狗科技发展有限公司 一种更新提醒的方法及系统
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810177A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种准确获取网站访问者在网页上真实停留时间的方法
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN104462142B (zh) * 2013-09-24 2019-01-15 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN106503016A (zh) * 2015-09-07 2017-03-15 北京国双科技有限公司 抓取页面信息的方法及装置
CN106503016B (zh) * 2015-09-07 2020-05-19 北京国双科技有限公司 抓取页面信息的方法及装置
CN106547778A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网页的爬取方法和装置

Also Published As

Publication number Publication date
CN102819613B (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
US8321396B2 (en) Automatically extracting by-line information
CN101950312B (zh) 一种互联网网页内容解析方法
CN104699704B (zh) 内容推送及接收方法、装置和系统
CN102254027B (zh) 批量获取网页内容的方法
CN102663135B (zh) 用于嵌入式浏览器的图形化书签实现方法、装置及终端
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN101097578A (zh) 一种网络资源检索方法及系统
CN103997507A (zh) 一种信息的推送方法及装置
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN102955850A (zh) 加载排序网址的方法和装置
US20110219017A1 (en) System and methods for citation database construction and for allowing quick understanding of scientific papers
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN102819613A (zh) Rss信息分页抓取系统及方法
CN103226599A (zh) 一种精确提取网页内容的方法及系统
CN102207967A (zh) 一种自动提供浏览器新插件的方法和系统
CN101894109A (zh) 一种数据库建立方法和装置
CN103246646A (zh) 一种网络数据获取方法和装置
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN103927367A (zh) 基于事件的微博采集系统及方法
CN103617225A (zh) 一种关联网页搜索方法和系统
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN103064943B (zh) 一种客户端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220707

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125