CN101178713A - 一种采集网页的方法及系统 - Google Patents

一种采集网页的方法及系统 Download PDF

Info

Publication number
CN101178713A
CN101178713A CNA2006101607483A CN200610160748A CN101178713A CN 101178713 A CN101178713 A CN 101178713A CN A2006101607483 A CNA2006101607483 A CN A2006101607483A CN 200610160748 A CN200610160748 A CN 200610160748A CN 101178713 A CN101178713 A CN 101178713A
Authority
CN
China
Prior art keywords
url
formation
typing
update cycle
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006101607483A
Other languages
English (en)
Inventor
杨卫
文杰
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNA2006101607483A priority Critical patent/CN101178713A/zh
Publication of CN101178713A publication Critical patent/CN101178713A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种采集网页的方法及系统,用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。本发明方法在系统中设定更新周期由短到长的至少两个队列;之后包括:系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时;以及当检测到URL超时时,判断该URL中的网页内容是否被更新,若被更新,则将该URL录入比当前所在队列的更新周期次短的队列;否则将该URL录入比当前所在队列的更新周期次长的队列。本发明系统包括:队列设定单元、更新周期检测单元、更新判断单元和录入单元。本发明可保证网页集合的高新鲜度。

Description

一种采集网页的方法及系统
技术领域
本发明涉及通信及网络领域,特别是涉及一种采集网页的方法及系统。
背景技术
爬虫(也称为crawler、spider或robot)是搜索引擎中负责数据采集的子系统。爬虫采集的数据质量的高低直接影响到搜索引擎的搜索结果的质量。
爬虫系统在第一次爬行时,按照一定的策略来决定哪些网页先爬,哪些网页后爬;之后不断检测已爬过的网页是否被更新,并不断采集新的URL。在爬虫本轮爬行过程中,先爬行的网页内容(URL不变)可能已经发生了变化,如果搜索引擎对过期的页面进行索引,并作为某些关键字的搜索结果显示给用户,则用户看到的网页内容与预期的页面不符,会很大程度上影响用户感受。例如:某个商店的热门商品柜台的页面,商品频繁地上架下架,如果爬虫检测更新速度不快的话,很可能用户搜索mp3播放器得到的页面却显示蛋糕。又如:用户搜索XXX软件,得到的页面却为空白页。
爬虫系统的爬行能力是有限的,而互联网上的页面相对来说是无限的。爬虫在爬行新的网页的同时,要重新爬行旧的网页,以检测该网页是否被更新,并告知搜索引擎用新鲜的页面代替不新鲜的页面,维持整个网页集合一定的新鲜度。
设爬行URL集合为S={e1,e2,e3,...,eN},含有N个URL,则单个URL的新鲜度(freshness)定义为: F ( e i ; t ) = 1 , if e i isuptodateattimet 0 , otherwise
URL集合S的新鲜度(freshness)定义为: F ( S ; t ) = 1 N Σ i = 1 N F ( e i ; t )
为了使网页集合S的新鲜度最大化,即越接近1越好,现有技术提供了两种采集网页的方法。
现有技术一、固定更新法。即按照第一次采集网页时的顺序,依次检测更新网页内容。
显然,这种方法无异于重新爬行一遍互联网,每一轮所需爬行的网页数量巨大,无法在一定时间内全部检测更新所有的网页,进而使得网页集合S的新鲜度较小,不能根据网页的实际变化情况而变化。
现有技术二、随机更新法。从已采集的网页集合中随机抽取URL来做检测更新。
显然,这种方法检测更新的URL具有随机性,不能维持整个网页集合S的高新鲜度。
综上所述,现有的采集网页的方法不能保证网页集合的高新鲜度。
发明内容
本发明提供一种采集网页的方法及系统,用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。
本发明方法包括:在系统中设定更新周期由短到长的至少两个队列;之后,包括下列步骤:系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时;以及当检测到URL超时时,判断该URL中的网页内容是否被更新,若被更新,则将该URL录入比当前所在队列的更新周期次短的队列;否则将该URL录入比当前所在队列的更新周期次长的队列。
进一步,若URL被录入更新周期最短的队列中,并且当超时时判定该URL中的网页内容被更新,则将该URL移至所述更新周期最短的队列的队尾;以及若URL被录入更新周期最长的队列中,并且当超时时判定该URL中的网页内容未被更新,则将该URL移出系统。
进一步,当系统搜索到新的URL时,将该URL录入系统中设定的任一队列中。又进一步,当系统搜索到新的URL时,将该URL录入各个队列中更新周期长度处于中间的队列。当系统搜索到新的URL时,也可将该URL录入各个队列中更新周期最长的队列。
综上所述,系统将URL从队列的队尾录入;以及系统检测每一队列的队首URL是否超时。
综上所述,根据每一URL当前的重要性,相应为该URL设定PR值;并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。
本发明系统,包括:队列设定单元,用于设定和保存更新周期由短到长的至少两个队列;更新周期检测单元,用于根据队列的更新周期检测该队列中录入的URL是否超时,并在检测到URL超时时,将该URL取出并发送到更新判断单元;更新判断单元,用于判断收到的URL中的网页内容是否被更新,并将判断结果告知录入单元;录入单元,用于在所述判断结果表明URL中的网页内容被更新时,将该URL录入比当前所在队列的更新周期次短的队列;在所述判断结果表明URL中的网页内容未被更新时,将该URL录入比当前所在队列的更新周期次长的队列。
进一步,当系统搜索到新的URL时,所述录入单元将该URL录入队列设定单元中设定的任一队列中。
综上所述,所述系统还包括:PR值设定单元,用于根据每一URL当前的重要性,相应为该URL设定PR值;并将URL的PR值与预设的阀值的比较结果输出到录入单元,作为该URL录入特定队列的条件。
本发明有益效果如下:
本发明不在采用固定更新法和随机更新法,而是在系统中设定更新周期由短到长的至少两个队列;之后,系统根据各个队列的更新周期检测该队列中录入的各个URL是否超时;以及当检测到URL超时时,判断该URL中的网页内容是否被更新,若被更新,则将该URL录入比当前所在队列的更新周期次短的队列;否则将该URL录入比当前所在队列的更新周期次长的队列。
这样URL会根据该URL中的网页内容是否被更新,而在更新周期各不相同的队列中不断跳转,即URL中的网页内容更新越频繁,则会被提升到更新周期更短的队列中;URL中的网页内容更新越不频繁,则会被降低到更新周期更长的队列中。从而实现了URL更新周期的自适应,最大限度的利用了爬虫系统的爬行能力;进而保证网页集合的高新鲜度。
附图说明
图1为本发明方法步骤流程图;
图2为本发明系统结构示意图。
具体实施方式
由于爬虫的爬行能力相对于可爬行的网页资源是有限的,重爬所有的网页的时间可能使得许多页面变为不新鲜。因此,爬虫要利用有限的资源,重爬尽量少的网页来维持尽量高的新鲜度。对于已爬行的网页,应选择不同的周期去检测更新它们。
例如:如果爬虫只爬行3个网页A、B、C,而且A、B、C网页的更新时间各不相同,A一天更新一次,B三天更新一次,C九天更新一次。如现有技术一提及的固定更新法,重新爬行的顺序将会是:A、B、C、A、B、C、A、B、C、A、B、C...。而采用合理检测更新策略的顺序应该是:A、A、A、B、A、A、A、B、A、A、A、B、C、A、A、A、B、A、A...。
为了使网页集合的新鲜度最大化,系统检测更新URL的周期应由该URL中的网页内容的更新周期来决定,然而网页内容的更新周期往往是不固定的,不仅不同网页间的更新周期不相同,即使是同一网页,在某段时间内与另一段时间内的内容更新周期也会有可能不同。因此需要系统自适应的调整各个URL的检测更新周期。
本发明提供了一种采集网页的方法,首先,在系统中设定更新周期由短到长的至少两个队列。之后,参见图1所示,包括下列主要步骤:
S1、系统根据各个队列的更新周期检测该队列中录入的各个URL是否超时;当检测到超时的URL时(即当检测到有URL到达其对应的更新周期时认为该URL超时),转入步骤S2。
本发明中,系统将URL录入队列时,从队列的队尾录入;也可从队列的队首录入。所述录入包括:步骤S3和S4中所述的录入,以及搜索到新的URL时的录入。当系统搜索到新的URL时,可将该URL录入系统中设定的任一队列;例如:将该URL录入各个队列中更新周期长度处于中间的队列;又如:将该URL录入各个队列中更新周期最长的队列。
以从队列的队尾录入为例,当URL被录入队尾时,开始以其所在队列的更新周期对该URL计时,所以越接近队首的URL越接近超时时间,进而系统只需检测每一队列的队首URL是否超时。
当系统检测到某一队列的队首URL超时时,系统从该URL所在队列中取出该URL,并转入步骤S2。
S2、判断该URL中的网页内容是否被更新,若被更新,则转入步骤S3;否则,转入步骤S4。
本步骤中所述判断该URL中的网页内容是否被更新的方式包括但不限于:根据网页脚本中的更新时间进行判断;或者下载该URL当前的网页内容,并与之前下载的该URL的网页内容进行比较,以判断是否被更新。
若被更新,则转入步骤S3;否则,转入步骤S4。
S3、将该URL录入比当前所在队列的更新周期次短的队列。
即该URL中的网页内容在该URL当前所在队列的更新周期内进行了更新,表明该URL与其当前所在队列的更新周期并不匹配,应该缩短该URL的检测周期,所以将该URL录入比当前所在队列的更新周期次短的队列。
当然,若URL被录入更新周期最短的队列中,并且当超时时判定该URL中的网页内容被更新,则该URL无法再录入更新周期更短的队列,所以将该URL移至所述更新周期最短的队列的队尾即可。
进一步,本步骤中进行录入操作时,还可增加附加条件。即根据每一URL当前的重要性,相应为该URL设定PR值,所述PR值在通信及网络领域中用于表示优先级信息;并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如:若想录入更新周期最短的队列,不但要满足URL中的网页内容被更新,而且还需该URL的PR值大于等于预设的阀值,即该URL当前具有较高的优先级才能被录入更新周期最短的队列。
S4、将该URL录入比当前所在队列的更新周期次长的队列。
即该URL中的网页内容在该URL当前所在队列的更新周期内未进行更新,表明该URL与其当前所在队列的更新周期并不匹配,应该加长该URL的检测周期,所以将该URL录入比当前所在队列的更新周期次长的队列。
当然,若URL被录入更新周期最长的队列中,并且当超时时判定该URL中的网页内容未被更新,则该URL无法再录入更新周期更长的队列,所以将该URL移出系统即可。所述被移出系统的URL将作为新的URL,当再次被采集进入系统后,按照预设的录入规则录入相应队列(参见步骤S1),重新开始更新检测。
进一步,本步骤中进行录入操作时,还可增加附加条件。即根据每一URL当前的重要性,相应为该URL设定PR值;并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如:若想录入更新周期最长的队列,不但要满足URL中的网页内容未被更新,而且还需该URL的PR值小于预设的阀值。即该URL当前具有较低的优先级才能被录入更新周期最长的队列。
至此本发明方法的概述完毕,以下通过两个实施例具体描述本发明方法。
●方法实施例一、系统搜索到新的URL,将其录入各个队列中更新周期长度处于中间的队列,并自适应该URL的更新周期。
L11、首先在系统中设定更新周期由短到长的5个队列,即队列q0的更新周期为1小时;队列q1的更新周期为5小时;队列q2的更新周期为1天;队列q3的更新周期为3天;队列q4的更新周期为8天。
之后,以单台爬虫的爬行速度为200个/秒计算,并且认为更新的时间不超过整个爬行时间的50%,则根据各个队列的更新周期可计算出各个队列可容纳的URL的数量:
q0的大小=200个/秒×60分×60秒×50%×1小时=360,000
q1的大小=200个/秒×60分×60秒×50%×5小时=1,800,000
q2的大小=200个/秒×60分×60秒×50%×24小时=8,640,000
q3的大小=200个/秒×60分×60秒×50%×24小时×3天=25,920,000
q4的大小=200个/秒×60分×60秒×50%×24小时×8天=69,120,000
L12、系统搜索到新的URL,将其录入各个队列中更新周期长度处于中间的队列。即将该URL录入队列q2的队尾,并开始以队列q2的更新周期(1天)对该URL计时。随着队列q2队首的URL不断超时被取出,所述新的URL被移至队列q2的队首。当所述新的URL被判定超时时,将该URL从队列q2中取出。
本方法实施例中,由于新的URL初始录入的队列为各个队列中更新周期长度处于中间的队列,所以可以经过最少次数的循环检测,将该URL录入其最匹配的队列中,从而达到更好的效果。
L13、系统利用爬虫重新爬行被取出的URL中的网页内容,根据网页脚本中的更新时间进行判断;或者下载该URL当前的网页内容,并与之前下载的该URL的网页内容进行比较,以判断是否被更新。
本例中判定该URL中的网页内容未被更新,即表明该URL与其当前所在队列q2的更新周期(1天)并不匹配,应该加长该URL的检测周期。
L14、将该URL录入队列q3的队尾,并开始以队列q3的更新周期(3天)对该URL计时。当检测到该URL的计时时间到达3天时,又将该URL从队列q3中取出,并重复上述L13中的操作。
如此往复,该URL被列入队列q4,当超时时判定该URL中的网页内容未被更新,则认为该URL中的网页内容更新过于缓慢,为了节约有限的爬行资源,无需再将该URL录入更新周期更长的队列,所以将该URL移出系统即可。待系统再次将该URL作为新搜索到的URL录入队列q2时,重复上述操作。
●方法实施例二、系统搜索到新的URL,将其录入各个队列中更新周期最长的队列,并自适应该URL的更新周期。
L21、与步骤L11相同。
L22、系统搜索到新的URL,将其录入各个队列中更新周期最长的队列,即将该URL录入队列q4的队尾,并开始以队列q4的更新周期(8天)对该URL计时。随着队列q4队首的URL不断超时被取出,所述新的URL被移至队列q4的队首。当所述新的URL被判定超时时,将该URL从队列q4中取出。
L23、系统利用爬虫重新爬行被取出的URL中的网页内容,根据网页脚本中的更新时间进行判断;或者下载该URL当前的网页内容,并与之前下载的该URL的网页内容进行比较,以判断是否被更新。
本例中判定该URL中的网页内容被更新,即表明该URL与其当前所在队列q4的更新周期(8天)并不匹配,应该缩短该URL的检测周期。
L24、将该URL录入队列q3的队尾,并开始以队列q3的更新周期(3天)对该URL计时。当检测到该URL的计时时间到达3天时,又将该URL从队列q3中取出,并重复上述L23中的操作。
如此往复,该URL所在的队列不断变化,随之该URL的检测更新周期不断缩短。从步骤L21中可以看出,队列q0所能容纳的URL数量最少,显然应该提高进入队列q0中的URL的数量;而且队列q0的更新周期也最短,检测更新最为频繁,若不严格控制队列q0中URL的数量,则会导致爬虫绝大部分时间消耗在队列q0的循环更新上。
所以在URL被录入队列q0之前,还可增加附加条件。即根据每一URL当前的重要性(上一轮检测时的重要性),相应为该URL设定PR值;并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如:所述URL采集自某个人网站,并且该URL中的网页内容为八卦新闻,则该URL当前的PR值被设定为3(重要性较低),若预设的阀值为5,比较结果表明该URL不符合进入队列q0的附加条件,即使该URL中的网页内容频繁更新,也不能进入队列q0,只能稳定停留在队列q1。
若URL被录入队列q0中,并且当超时时判定该URL中的网页内容被更新,则该URL无法再录入更新周期更短的队列,所以将该URL移至队列q0的队尾即可。
本发明还提供了一种采集网页的系统,参见图2所示,其包括:环形相接的队列设定单元1、更新周期检测单元2、更新判断单元3和录入单元4;进一步还包括与所述录入单元4相连的PR值设定单元5。
所述队列设定单元1,用于设定和保存更新周期由短到长的至少两个队列。
所述更新周期检测单元2,用于根据队列的更新周期检测该队列中录入的URL是否超时,并在检测到URL超时时,将该URL取出并发送到更新判断单元3。
所述更新判断单元3,用于判断收到的URL中的网页内容是否被更新,并将判断结果告知录入单元4。
所述录入单元4,用于在所述判断结果表明URL中的网页内容被更新时,将该URL录入比当前所在队列的更新周期次短的队列;在所述判断结果表明URL中的网页内容未被更新时,将该URL录入比当前所在队列的更新周期次长的队列。或者,用于当系统搜索到新的URL时,将该URL录入队列设定单元1中设定的任一队列中。
所述PR值设定单元5,用于根据每一URL当前的重要性,相应为该URL设定PR值(即根据每一URL当前的重要性,相应为该URL设定优先级);并将URL的PR值与预设的阀值的比较结果输出到录入单元4,作为该URL录入特定队列的条件。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种采集网页的方法,其特征在于,在系统中设定更新周期由短到长的至少两个队列;之后,包括下列步骤:
系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时;以及
当检测到URL超时时,判断该URL中的网页内容是否被更新,若被更新,则将该URL录入比当前所在队列的更新周期次短的队列;否则将该URL录入比当前所在队列的更新周期次长的队列。
2.如权利要求1所述的方法,其特征在于,若URL被录入更新周期最短的队列中,并且当超时时判定该URL中的网页内容被更新,则将该URL移至所述更新周期最短的队列的队尾;以及
若URL被录入更新周期最长的队列中,并且当超时时判定该URL中的网页内容未被更新,则将该URL移出系统。
3.如权利要求1所述的方法,其特征在于,当系统搜索到新的URL时,将该URL录入系统中设定的任一队列中。
4.如权利要求3所述的方法,其特征在于,当系统搜索到新的URL时,将该URL录入各个队列中更新周期长度处于中间的队列。
5.如权利要求3所述的方法,其特征在于,当系统搜索到新的URL时,将该URL录入各个队列中更新周期最长的队列。
6.如权利要求1至5任一项所述的方法,其特征在于,系统将URL从队列的队尾录入;以及
系统检测每一队列的队首URL是否超时。
7.如权利要求1至5任一项所述的方法,其特征在于,根据每一URL当前的重要性,相应为该URL设定PR值;并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。
8.一种采集网页的系统,其特征在于,包括:
队列设定单元,用于设定和保存更新周期由短到长的至少两个队列;
更新周期检测单元,用于根据队列的更新周期检测该队列中录入的URL是否超时,并在检测到URL超时时,将该URL取出并发送到更新判断单元;
更新判断单元,用于判断收到的URL中的网页内容是否被更新,并将判断结果告知录入单元;
录入单元,用于在所述判断结果表明URL中的网页内容被更新时,将该URL录入比当前所在队列的更新周期次短的队列;在所述判断结果表明URL中的网页内容未被更新时,将该URL录入比当前所在队列的更新周期次长的队列。
9.如权利要8所述的系统,其特征在于,当系统搜索到新的URL时,所述录入单元将该URL录入队列设定单元中设定的任一队列中。
10.如权利要8或9所述的系统,其特征在于,所述系统还包括:
PR值设定单元,用于根据每一URL当前的重要性,相应为该URL设定PR值;并将URL的PR值与预设的阀值的比较结果输出到录入单元,作为该URL录入特定队列的条件。
CNA2006101607483A 2006-11-29 2006-11-29 一种采集网页的方法及系统 Pending CN101178713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006101607483A CN101178713A (zh) 2006-11-29 2006-11-29 一种采集网页的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006101607483A CN101178713A (zh) 2006-11-29 2006-11-29 一种采集网页的方法及系统

Publications (1)

Publication Number Publication Date
CN101178713A true CN101178713A (zh) 2008-05-14

Family

ID=39404971

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006101607483A Pending CN101178713A (zh) 2006-11-29 2006-11-29 一种采集网页的方法及系统

Country Status (1)

Country Link
CN (1) CN101178713A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339290A (zh) * 2010-07-22 2012-02-01 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
CN102117275B (zh) * 2009-12-31 2012-11-07 北大方正集团有限公司 一种基于互联网定向站点网页数据采集的方法及装置
CN102929920A (zh) * 2012-09-19 2013-02-13 北京奇虎科技有限公司 基于Web信息抽取的软件更新信息的监控方法和装置
CN103164435A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103164438A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络评论的采集方法及系统
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
CN106294364A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 实现网络爬虫抓取网页的方法和装置
CN106970998A (zh) * 2017-04-06 2017-07-21 北京奇虎科技有限公司 新闻数据的更新方法及装置
CN108021439A (zh) * 2016-10-31 2018-05-11 阿里巴巴集团控股有限公司 一种任务轮询方法、任务排布方法和相关装置
CN108319866A (zh) * 2018-01-31 2018-07-24 上海携程商务有限公司 分布式的js文件篡改监控方法、系统、设备及存储介质
CN108959580A (zh) * 2018-07-06 2018-12-07 深圳市彬讯科技有限公司 一种标签数据的优化方法及系统
CN109815387A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 一种基于脚本的网页采集服务方法和系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117275B (zh) * 2009-12-31 2012-11-07 北大方正集团有限公司 一种基于互联网定向站点网页数据采集的方法及装置
CN102339290B (zh) * 2010-07-22 2013-12-11 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
CN102339290A (zh) * 2010-07-22 2012-02-01 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
CN103164435B (zh) * 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103164438B (zh) * 2011-12-13 2016-07-06 北大方正集团有限公司 一种网络评论的采集方法及系统
CN103164435A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103164438A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络评论的采集方法及系统
WO2013087005A1 (zh) * 2011-12-13 2013-06-20 北大方正集团有限公司 一种网络评论的采集方法及系统
US20140289395A1 (en) * 2011-12-13 2014-09-25 Peking University Founder Group Co., Ltd. Network comment collection method and system
CN102929920B (zh) * 2012-09-19 2016-04-20 北京奇虎科技有限公司 基于Web信息抽取的软件更新信息的监控方法和装置
CN102929920A (zh) * 2012-09-19 2013-02-13 北京奇虎科技有限公司 基于Web信息抽取的软件更新信息的监控方法和装置
CN103793421A (zh) * 2012-10-31 2014-05-14 北京拓尔思信息技术股份有限公司 基于网页结构的信息动态采集更新调度方法
CN106294364A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 实现网络爬虫抓取网页的方法和装置
CN106294364B (zh) * 2015-05-15 2020-04-10 阿里巴巴集团控股有限公司 实现网络爬虫抓取网页的方法和装置
CN108021439A (zh) * 2016-10-31 2018-05-11 阿里巴巴集团控股有限公司 一种任务轮询方法、任务排布方法和相关装置
CN108021439B (zh) * 2016-10-31 2022-07-15 阿里巴巴集团控股有限公司 一种任务轮询方法、任务排布方法和相关装置
CN106970998A (zh) * 2017-04-06 2017-07-21 北京奇虎科技有限公司 新闻数据的更新方法及装置
CN108319866A (zh) * 2018-01-31 2018-07-24 上海携程商务有限公司 分布式的js文件篡改监控方法、系统、设备及存储介质
CN108959580A (zh) * 2018-07-06 2018-12-07 深圳市彬讯科技有限公司 一种标签数据的优化方法及系统
CN109815387A (zh) * 2018-12-29 2019-05-28 中国科学院计算技术研究所 一种基于脚本的网页采集服务方法和系统
CN109815387B (zh) * 2018-12-29 2021-11-19 中国科学院计算技术研究所 一种基于脚本的网页采集服务方法和系统

Similar Documents

Publication Publication Date Title
CN101178713A (zh) 一种采集网页的方法及系统
CN101957857B (zh) 一种信息主动推送方法及服务器
CN102722563B (zh) 页面显示方法及装置
AU2005200231B2 (en) Decision-theoretic web-crawling and predicting web-page change
US9215246B2 (en) Website scanning device and method
CN105320740A (zh) 微信文章以及公众号的获取方法及获取系统
CN103118007B (zh) 一种用户访问行为的获取方法和系统
TWI617927B (zh) 用戶行為資訊收集及資訊發送方法及裝置
CN100456286C (zh) 一种通用的文件搜索系统及方法
CN104836843A (zh) 客户端应用程序更新的方法及装置
US20090300009A1 (en) Behavioral Targeting For Tracking, Aggregating, And Predicting Online Behavior
CN105808633A (zh) 数据归档方法和系统
CN105245583A (zh) 一种推广信息推送方法及装置
CN102904912B (zh) 一种网页内容下载方法及装置
CN102857493A (zh) 内容过滤方法和装置
CN107145556B (zh) 通用的分布式采集系统
CN105653655A (zh) 应用推送方法及装置
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN104536792A (zh) 清除应用程序残留文件的方法及装置
CN101599089A (zh) 视频服务网站内容更新信息的自动搜索与抽取系统及方法
CN103118111A (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
GB2378284A (en) Updating computer files on wireless data processing devices
CN104820667A (zh) 网页点击量的上报方法、装置和系统
CN102929768A (zh) 提示误装软件的方法和客户端
CN101997853A (zh) 数据下载方法及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080514