CN101178713A

CN101178713A - 一种采集网页的方法及系统

Info

Publication number: CN101178713A
Application number: CNA2006101607483A
Authority: CN
Inventors: 杨卫; 文杰; 王宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2008-05-14

Abstract

本发明公开了一种采集网页的方法及系统，用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。本发明方法在系统中设定更新周期由短到长的至少两个队列；之后包括：系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时；以及当检测到URL超时时，判断该URL中的网页内容是否被更新，若被更新，则将该URL录入比当前所在队列的更新周期次短的队列；否则将该URL录入比当前所在队列的更新周期次长的队列。本发明系统包括：队列设定单元、更新周期检测单元、更新判断单元和录入单元。本发明可保证网页集合的高新鲜度。

Description

一种采集网页的方法及系统

技术领域

本发明涉及通信及网络领域，特别是涉及一种采集网页的方法及系统。

背景技术

爬虫(也称为crawler、spider或robot)是搜索引擎中负责数据采集的子系统。爬虫采集的数据质量的高低直接影响到搜索引擎的搜索结果的质量。

爬虫系统在第一次爬行时，按照一定的策略来决定哪些网页先爬，哪些网页后爬；之后不断检测已爬过的网页是否被更新，并不断采集新的URL。在爬虫本轮爬行过程中，先爬行的网页内容(URL不变)可能已经发生了变化，如果搜索引擎对过期的页面进行索引，并作为某些关键字的搜索结果显示给用户，则用户看到的网页内容与预期的页面不符，会很大程度上影响用户感受。例如：某个商店的热门商品柜台的页面，商品频繁地上架下架，如果爬虫检测更新速度不快的话，很可能用户搜索mp3播放器得到的页面却显示蛋糕。又如：用户搜索XXX软件，得到的页面却为空白页。

爬虫系统的爬行能力是有限的，而互联网上的页面相对来说是无限的。爬虫在爬行新的网页的同时，要重新爬行旧的网页，以检测该网页是否被更新，并告知搜索引擎用新鲜的页面代替不新鲜的页面，维持整个网页集合一定的新鲜度。

设爬行URL集合为S＝{e₁，e₂，e₃，...，e_N}，含有N个URL，则单个URL的新鲜度(freshness)定义为：

F (e_{i}; t) = \{\begin{matrix} 1, if e_{i} isuptodateattimet \\ 0, otherwise \end{matrix}

URL集合S的新鲜度(freshness)定义为：

F (S; t) = \frac{1}{N} Σ_{i = 1}^{N} F (e_{i}; t)

为了使网页集合S的新鲜度最大化，即越接近1越好，现有技术提供了两种采集网页的方法。

现有技术一、固定更新法。即按照第一次采集网页时的顺序，依次检测更新网页内容。

显然，这种方法无异于重新爬行一遍互联网，每一轮所需爬行的网页数量巨大，无法在一定时间内全部检测更新所有的网页，进而使得网页集合S的新鲜度较小，不能根据网页的实际变化情况而变化。

现有技术二、随机更新法。从已采集的网页集合中随机抽取URL来做检测更新。

显然，这种方法检测更新的URL具有随机性，不能维持整个网页集合S的高新鲜度。

综上所述，现有的采集网页的方法不能保证网页集合的高新鲜度。

发明内容

本发明提供一种采集网页的方法及系统，用以解决现有的采集网页的方法不能保证网页集合的高新鲜度的问题。

本发明方法包括：在系统中设定更新周期由短到长的至少两个队列；之后，包括下列步骤：系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时；以及当检测到URL超时时，判断该URL中的网页内容是否被更新，若被更新，则将该URL录入比当前所在队列的更新周期次短的队列；否则将该URL录入比当前所在队列的更新周期次长的队列。

进一步，若URL被录入更新周期最短的队列中，并且当超时时判定该URL中的网页内容被更新，则将该URL移至所述更新周期最短的队列的队尾；以及若URL被录入更新周期最长的队列中，并且当超时时判定该URL中的网页内容未被更新，则将该URL移出系统。

进一步，当系统搜索到新的URL时，将该URL录入系统中设定的任一队列中。又进一步，当系统搜索到新的URL时，将该URL录入各个队列中更新周期长度处于中间的队列。当系统搜索到新的URL时，也可将该URL录入各个队列中更新周期最长的队列。

综上所述，系统将URL从队列的队尾录入；以及系统检测每一队列的队首URL是否超时。

综上所述，根据每一URL当前的重要性，相应为该URL设定PR值；并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。

本发明系统，包括：队列设定单元，用于设定和保存更新周期由短到长的至少两个队列；更新周期检测单元，用于根据队列的更新周期检测该队列中录入的URL是否超时，并在检测到URL超时时，将该URL取出并发送到更新判断单元；更新判断单元，用于判断收到的URL中的网页内容是否被更新，并将判断结果告知录入单元；录入单元，用于在所述判断结果表明URL中的网页内容被更新时，将该URL录入比当前所在队列的更新周期次短的队列；在所述判断结果表明URL中的网页内容未被更新时，将该URL录入比当前所在队列的更新周期次长的队列。

进一步，当系统搜索到新的URL时，所述录入单元将该URL录入队列设定单元中设定的任一队列中。

综上所述，所述系统还包括：PR值设定单元，用于根据每一URL当前的重要性，相应为该URL设定PR值；并将URL的PR值与预设的阀值的比较结果输出到录入单元，作为该URL录入特定队列的条件。

本发明有益效果如下：

本发明不在采用固定更新法和随机更新法，而是在系统中设定更新周期由短到长的至少两个队列；之后，系统根据各个队列的更新周期检测该队列中录入的各个URL是否超时；以及当检测到URL超时时，判断该URL中的网页内容是否被更新，若被更新，则将该URL录入比当前所在队列的更新周期次短的队列；否则将该URL录入比当前所在队列的更新周期次长的队列。

这样URL会根据该URL中的网页内容是否被更新，而在更新周期各不相同的队列中不断跳转，即URL中的网页内容更新越频繁，则会被提升到更新周期更短的队列中；URL中的网页内容更新越不频繁，则会被降低到更新周期更长的队列中。从而实现了URL更新周期的自适应，最大限度的利用了爬虫系统的爬行能力；进而保证网页集合的高新鲜度。

附图说明

图1为本发明方法步骤流程图；

图2为本发明系统结构示意图。

具体实施方式

由于爬虫的爬行能力相对于可爬行的网页资源是有限的，重爬所有的网页的时间可能使得许多页面变为不新鲜。因此，爬虫要利用有限的资源，重爬尽量少的网页来维持尽量高的新鲜度。对于已爬行的网页，应选择不同的周期去检测更新它们。

例如：如果爬虫只爬行3个网页A、B、C，而且A、B、C网页的更新时间各不相同，A一天更新一次，B三天更新一次，C九天更新一次。如现有技术一提及的固定更新法，重新爬行的顺序将会是：A、B、C、A、B、C、A、B、C、A、B、C...。而采用合理检测更新策略的顺序应该是：A、A、A、B、A、A、A、B、A、A、A、B、C、A、A、A、B、A、A...。

为了使网页集合的新鲜度最大化，系统检测更新URL的周期应由该URL中的网页内容的更新周期来决定，然而网页内容的更新周期往往是不固定的，不仅不同网页间的更新周期不相同，即使是同一网页，在某段时间内与另一段时间内的内容更新周期也会有可能不同。因此需要系统自适应的调整各个URL的检测更新周期。

本发明提供了一种采集网页的方法，首先，在系统中设定更新周期由短到长的至少两个队列。之后，参见图1所示，包括下列主要步骤：

S1、系统根据各个队列的更新周期检测该队列中录入的各个URL是否超时；当检测到超时的URL时(即当检测到有URL到达其对应的更新周期时认为该URL超时)，转入步骤S2。

本发明中，系统将URL录入队列时，从队列的队尾录入；也可从队列的队首录入。所述录入包括：步骤S3和S4中所述的录入，以及搜索到新的URL时的录入。当系统搜索到新的URL时，可将该URL录入系统中设定的任一队列；例如：将该URL录入各个队列中更新周期长度处于中间的队列；又如：将该URL录入各个队列中更新周期最长的队列。

以从队列的队尾录入为例，当URL被录入队尾时，开始以其所在队列的更新周期对该URL计时，所以越接近队首的URL越接近超时时间，进而系统只需检测每一队列的队首URL是否超时。

当系统检测到某一队列的队首URL超时时，系统从该URL所在队列中取出该URL，并转入步骤S2。

S2、判断该URL中的网页内容是否被更新，若被更新，则转入步骤S3；否则，转入步骤S4。

本步骤中所述判断该URL中的网页内容是否被更新的方式包括但不限于：根据网页脚本中的更新时间进行判断；或者下载该URL当前的网页内容，并与之前下载的该URL的网页内容进行比较，以判断是否被更新。

若被更新，则转入步骤S3；否则，转入步骤S4。

S3、将该URL录入比当前所在队列的更新周期次短的队列。

即该URL中的网页内容在该URL当前所在队列的更新周期内进行了更新，表明该URL与其当前所在队列的更新周期并不匹配，应该缩短该URL的检测周期，所以将该URL录入比当前所在队列的更新周期次短的队列。

当然，若URL被录入更新周期最短的队列中，并且当超时时判定该URL中的网页内容被更新，则该URL无法再录入更新周期更短的队列，所以将该URL移至所述更新周期最短的队列的队尾即可。

进一步，本步骤中进行录入操作时，还可增加附加条件。即根据每一URL当前的重要性，相应为该URL设定PR值，所述PR值在通信及网络领域中用于表示优先级信息；并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如：若想录入更新周期最短的队列，不但要满足URL中的网页内容被更新，而且还需该URL的PR值大于等于预设的阀值，即该URL当前具有较高的优先级才能被录入更新周期最短的队列。

S4、将该URL录入比当前所在队列的更新周期次长的队列。

即该URL中的网页内容在该URL当前所在队列的更新周期内未进行更新，表明该URL与其当前所在队列的更新周期并不匹配，应该加长该URL的检测周期，所以将该URL录入比当前所在队列的更新周期次长的队列。

当然，若URL被录入更新周期最长的队列中，并且当超时时判定该URL中的网页内容未被更新，则该URL无法再录入更新周期更长的队列，所以将该URL移出系统即可。所述被移出系统的URL将作为新的URL，当再次被采集进入系统后，按照预设的录入规则录入相应队列(参见步骤S1)，重新开始更新检测。

进一步，本步骤中进行录入操作时，还可增加附加条件。即根据每一URL当前的重要性，相应为该URL设定PR值；并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如：若想录入更新周期最长的队列，不但要满足URL中的网页内容未被更新，而且还需该URL的PR值小于预设的阀值。即该URL当前具有较低的优先级才能被录入更新周期最长的队列。

至此本发明方法的概述完毕，以下通过两个实施例具体描述本发明方法。

●方法实施例一、系统搜索到新的URL，将其录入各个队列中更新周期长度处于中间的队列，并自适应该URL的更新周期。

L11、首先在系统中设定更新周期由短到长的5个队列，即队列q0的更新周期为1小时；队列q1的更新周期为5小时；队列q2的更新周期为1天；队列q3的更新周期为3天；队列q4的更新周期为8天。

之后，以单台爬虫的爬行速度为200个/秒计算，并且认为更新的时间不超过整个爬行时间的50％，则根据各个队列的更新周期可计算出各个队列可容纳的URL的数量：

q0的大小＝200个/秒×60分×60秒×50％×1小时＝360,000

q1的大小＝200个/秒×60分×60秒×50％×5小时＝1,800,000

q2的大小＝200个/秒×60分×60秒×50％×24小时＝8,640,000

q3的大小＝200个/秒×60分×60秒×50％×24小时×3天＝25,920,000

q4的大小＝200个/秒×60分×60秒×50％×24小时×8天＝69,120,000

L12、系统搜索到新的URL，将其录入各个队列中更新周期长度处于中间的队列。即将该URL录入队列q2的队尾，并开始以队列q2的更新周期(1天)对该URL计时。随着队列q2队首的URL不断超时被取出，所述新的URL被移至队列q2的队首。当所述新的URL被判定超时时，将该URL从队列q2中取出。

本方法实施例中，由于新的URL初始录入的队列为各个队列中更新周期长度处于中间的队列，所以可以经过最少次数的循环检测，将该URL录入其最匹配的队列中，从而达到更好的效果。

L13、系统利用爬虫重新爬行被取出的URL中的网页内容，根据网页脚本中的更新时间进行判断；或者下载该URL当前的网页内容，并与之前下载的该URL的网页内容进行比较，以判断是否被更新。

本例中判定该URL中的网页内容未被更新，即表明该URL与其当前所在队列q2的更新周期(1天)并不匹配，应该加长该URL的检测周期。

L14、将该URL录入队列q3的队尾，并开始以队列q3的更新周期(3天)对该URL计时。当检测到该URL的计时时间到达3天时，又将该URL从队列q3中取出，并重复上述L13中的操作。

如此往复，该URL被列入队列q4，当超时时判定该URL中的网页内容未被更新，则认为该URL中的网页内容更新过于缓慢，为了节约有限的爬行资源，无需再将该URL录入更新周期更长的队列，所以将该URL移出系统即可。待系统再次将该URL作为新搜索到的URL录入队列q2时，重复上述操作。

●方法实施例二、系统搜索到新的URL，将其录入各个队列中更新周期最长的队列，并自适应该URL的更新周期。

L21、与步骤L11相同。

L22、系统搜索到新的URL，将其录入各个队列中更新周期最长的队列，即将该URL录入队列q4的队尾，并开始以队列q4的更新周期(8天)对该URL计时。随着队列q4队首的URL不断超时被取出，所述新的URL被移至队列q4的队首。当所述新的URL被判定超时时，将该URL从队列q4中取出。

L23、系统利用爬虫重新爬行被取出的URL中的网页内容，根据网页脚本中的更新时间进行判断；或者下载该URL当前的网页内容，并与之前下载的该URL的网页内容进行比较，以判断是否被更新。

本例中判定该URL中的网页内容被更新，即表明该URL与其当前所在队列q4的更新周期(8天)并不匹配，应该缩短该URL的检测周期。

L24、将该URL录入队列q3的队尾，并开始以队列q3的更新周期(3天)对该URL计时。当检测到该URL的计时时间到达3天时，又将该URL从队列q3中取出，并重复上述L23中的操作。

如此往复，该URL所在的队列不断变化，随之该URL的检测更新周期不断缩短。从步骤L21中可以看出，队列q0所能容纳的URL数量最少，显然应该提高进入队列q0中的URL的数量；而且队列q0的更新周期也最短，检测更新最为频繁，若不严格控制队列q0中URL的数量，则会导致爬虫绝大部分时间消耗在队列q0的循环更新上。

所以在URL被录入队列q0之前，还可增加附加条件。即根据每一URL当前的重要性(上一轮检测时的重要性)，相应为该URL设定PR值；并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。例如：所述URL采集自某个人网站，并且该URL中的网页内容为八卦新闻，则该URL当前的PR值被设定为3(重要性较低)，若预设的阀值为5，比较结果表明该URL不符合进入队列q0的附加条件，即使该URL中的网页内容频繁更新，也不能进入队列q0，只能稳定停留在队列q1。

若URL被录入队列q0中，并且当超时时判定该URL中的网页内容被更新，则该URL无法再录入更新周期更短的队列，所以将该URL移至队列q0的队尾即可。

本发明还提供了一种采集网页的系统，参见图2所示，其包括：环形相接的队列设定单元1、更新周期检测单元2、更新判断单元3和录入单元4；进一步还包括与所述录入单元4相连的PR值设定单元5。

所述队列设定单元1，用于设定和保存更新周期由短到长的至少两个队列。

所述更新周期检测单元2，用于根据队列的更新周期检测该队列中录入的URL是否超时，并在检测到URL超时时，将该URL取出并发送到更新判断单元3。

所述更新判断单元3，用于判断收到的URL中的网页内容是否被更新，并将判断结果告知录入单元4。

所述录入单元4，用于在所述判断结果表明URL中的网页内容被更新时，将该URL录入比当前所在队列的更新周期次短的队列；在所述判断结果表明URL中的网页内容未被更新时，将该URL录入比当前所在队列的更新周期次长的队列。或者，用于当系统搜索到新的URL时，将该URL录入队列设定单元1中设定的任一队列中。

所述PR值设定单元5，用于根据每一URL当前的重要性，相应为该URL设定PR值(即根据每一URL当前的重要性，相应为该URL设定优先级)；并将URL的PR值与预设的阀值的比较结果输出到录入单元4，作为该URL录入特定队列的条件。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种采集网页的方法，其特征在于，在系统中设定更新周期由短到长的至少两个队列；之后，包括下列步骤：

系统根据各个队列的更新周期检测该队列中录入的各个网页链接地址URL是否超时；以及

当检测到URL超时时，判断该URL中的网页内容是否被更新，若被更新，则将该URL录入比当前所在队列的更新周期次短的队列；否则将该URL录入比当前所在队列的更新周期次长的队列。

2.如权利要求1所述的方法，其特征在于，若URL被录入更新周期最短的队列中，并且当超时时判定该URL中的网页内容被更新，则将该URL移至所述更新周期最短的队列的队尾；以及

若URL被录入更新周期最长的队列中，并且当超时时判定该URL中的网页内容未被更新，则将该URL移出系统。

3.如权利要求1所述的方法，其特征在于，当系统搜索到新的URL时，将该URL录入系统中设定的任一队列中。

4.如权利要求3所述的方法，其特征在于，当系统搜索到新的URL时，将该URL录入各个队列中更新周期长度处于中间的队列。

5.如权利要求3所述的方法，其特征在于，当系统搜索到新的URL时，将该URL录入各个队列中更新周期最长的队列。

6.如权利要求1至5任一项所述的方法，其特征在于，系统将URL从队列的队尾录入；以及

系统检测每一队列的队首URL是否超时。

7.如权利要求1至5任一项所述的方法，其特征在于，根据每一URL当前的重要性，相应为该URL设定PR值；并以URL的PR值与预设的阀值的比较结果作为该URL录入特定队列的条件。

8.一种采集网页的系统，其特征在于，包括：

队列设定单元，用于设定和保存更新周期由短到长的至少两个队列；

更新周期检测单元，用于根据队列的更新周期检测该队列中录入的URL是否超时，并在检测到URL超时时，将该URL取出并发送到更新判断单元；

更新判断单元，用于判断收到的URL中的网页内容是否被更新，并将判断结果告知录入单元；

录入单元，用于在所述判断结果表明URL中的网页内容被更新时，将该URL录入比当前所在队列的更新周期次短的队列；在所述判断结果表明URL中的网页内容未被更新时，将该URL录入比当前所在队列的更新周期次长的队列。

9.如权利要8所述的系统，其特征在于，当系统搜索到新的URL时，所述录入单元将该URL录入队列设定单元中设定的任一队列中。

10.如权利要8或9所述的系统，其特征在于，所述系统还包括：

PR值设定单元，用于根据每一URL当前的重要性，相应为该URL设定PR值；并将URL的PR值与预设的阀值的比较结果输出到录入单元，作为该URL录入特定队列的条件。