CN104090976B

CN104090976B - 搜索引擎爬虫抓取网页的方法及装置

Info

Publication number: CN104090976B
Application number: CN201410347538.XA
Authority: CN
Inventors: 王智广
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2017-06-23
Anticipated expiration: 2034-07-21
Also published as: CN104090976A

Abstract

本发明公开了一种搜索引擎爬虫抓取网页的方法，其包括：获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；根据链接锚文本识别每个目标网页是否为原创网页；对于识别出的原创网页，计算原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页的抓取优先级；根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率，及时收录了用户的原创内容。

Description

搜索引擎爬虫抓取网页的方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种搜索引擎爬虫抓取网页的方法及装置。

背景技术

搜索引擎的爬虫程序每天能够发现大量的互联网中新产生的URL(统一资源定位符)，但是搜索引擎每天能够实际抓取的URL量是有限的，这就需要在爬虫实际发起抓取之前对已经发现的URL做一个排序，优先抓取质量较高的URL。但是，新发现的URL能够获取到的信息是很少的，在有限的信息基础上预测URL对应的网页是否是一个高质量的网页是一件难度较大的工作。

现有的对新发现的URL排序主要根据已抓取的网页来反馈，比如如果已抓取网页的质量较高，那么认为与已抓取的URL具有相同模式的新发现的URL的质量也是较高的。这种方案的缺点是存在富集的现象，即对应相同模式的URL量可能是巨大的。这时根据已抓取URL来进行反馈的实际效果并不好。之所以存在这种问题是因为这种方案没有考虑每个URL各自单独的特征，虽然这些URL具有相同的模式，其实质量是千差万别的，只能是说这个模式总体上是好的，但是还是存在垃圾、重复的网页，即使质量都是较高的网页，在流量有限的情况下还是需要进行区分的。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索引擎爬虫抓取网页的方法和相应的搜索引擎爬虫抓取网页的装置。

根据本发明的一个方面，提供了一种搜索引擎爬虫抓取网页的方法，其包括：

获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本；

根据所述链接锚文本识别每个目标网页是否为原创网页；

对于识别出的原创网页，计算所述原创网页的网页内容被转载的次数；

基于原创网页被转载的次数确定各个目标网页的抓取优先级；

根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。

可选地，所述获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本进一步包括：

在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息；

以及，在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。

可选地，根据所述链接锚文本识别每个目标网页是否为原创网页进一步包括：

判断所述链接锚文本是否包含转载关键字；

若所述链接锚文本不包含所述转载关键字，则识别所述目标网页为原创网页；

所述方法进一步包括：若所述链接锚文本包含所述转载关键字，则识别所述目标网页为转载网页。

可选地，该方法还包括：确定各个目标网页的来源页的其它内链网页的抓取优先级，以及根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取；

其中，原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数确定的。

可选地，所述原创网页被转载的次数越高，该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。

可选地，所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。

可选地，所述对于识别出的原创网页，计算所述原创网页的网页内容被转载的次数进一步包括：

根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页，根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。

可选地，所述根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页进一步包括：

根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页的链接锚文本匹配的转载网页。

可选地，该方法还包括，根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合；

所述根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页进一步包括：

根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的链接锚文本匹配的转载网页。

根据本发明的另一方面，提供了一种搜索引擎爬虫抓取网页的装置，其包括：

获取模块，适于获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本；

识别模块，适于根据所述链接锚文本识别每个目标网页是否为原创网页；

计算模块，适于对于识别出的原创网页，计算所述原创网页的网页内容被转载的次数；

优先级确定模块，适于确定各个目标网页的抓取优先级，其中，所述原创网页的抓取优先级是根据原创网页被转载的次数确定的；

抓取模块，适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。

可选地，所述获取模块进一步适于：

可选地，所述识别模块进一步包括：

判断单元，适于判断所述链接锚文本是否包含转载关键字；

识别单元，适于在判断所述链接锚文本不包含所述转载关键字时，将所述目标网页识别为原创网页；

识别单元进一步适于：在判断所述链接锚文本包含所述转载关键字时，将所述目标网页识别为转载网页。

可选地，优先级确定模块进一步适于：确定各个目标网页的来源页的其它内链网页的抓取优先级；

所述抓取模块还适于：根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取；

可选地，所述计算模块进一步包括：

查找单元，适于根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页；

计算单元，适于根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。

可选地，该装置还包括：数据库，适于存储所有网页；

查找单元进一步适于：根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页的链接锚文本匹配的转载网页。

可选地，该装置还包括：目标网页集合确定模块，适于根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合；

所述查找单元进一步适于：根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的链接锚文本匹配的转载网页。

根据本发明提供的方案，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；根据链接锚文本识别每个目标网页是否为原创网页；对于识别出的原创网页，计算原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页的抓取优先级；根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率，及时收录了用户的原创内容。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的方法的流程图；

图2示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的方法的流程图；

图3示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的装置的结构框图；

图4示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S100，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本。

在本步骤中，目标网页指可以作为抓取对象的网页，这里目标网页可能是原创网页，也可能是转载网页；网址信息指网页的URL；链接锚文本是网页中关于链接的一段描述，用于连向其他网页。链接锚文本主要有两种方式：外部链接与内部链接，外部链接是指链接到其他网站上的文件；而内部链接则指链接到自己网站上的文件。每一个链接锚文本都会有一个URL，该URL代表了链接锚文本指向的网页的地址。其中，研发人员在编写网页的代码时会定义网页的连结格式，该格式定义了网页的超链接网址信息以及该超链接网址信息对应的链接锚文本。

步骤S110，根据链接锚文本识别每个目标网页是否为原创网页。

原创网页指由用户自己生产内容首次发表的网页。由于搜索引擎可以根据指向某一个网页的链接锚文本的描述来判断该网页的内容属性，例如，某网页是原创网页还是转载网页，因此可以根据链接锚文本识别每个目标网页是否原创网页。

步骤S120，对于识别出的原创网页，计算原创网页的网页内容被转载的次数。

在根据链接锚文本对每个目标网页进行识别处理后，目标网页被识别为原创网页或者转载网页，对于识别出的原创网页，计算原创网页的网页内容被转载的次数。

步骤S130，基于原创网页被转载的次数确定各个目标网页的抓取优先级。

这里原创网页的抓取优先级是根据原创网页被转载的次数确定的，其中，原创网页被转载的次数越高，该原创网页的抓取优先级越高。由于目标网页中的转载网页是其他用户转载的原创用户创作的内容，该转载网页在指导搜索引擎爬虫抓取网页方面的利用价值很小，因此会为转载网页分配较低的抓取优先级。

步骤S140，根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。

待抓取列表是一个网页URL集合，该网页URL集合中根据抓取优先级由高至低的顺序对网页URL进行排序，对搜索引擎爬虫抓取网页起到指导作用。具体地，根据步骤S130中确定的目标网页的抓取优先级将各个目标网页插入到待抓取网页列表，搜索引擎爬虫根据该待抓取网页列表进行抓取。

根据本发明上述实施例提供的方法，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；根据链接锚文本识别每个目标网页是否为原创网页；对于识别出的原创网页，计算原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页的抓取优先级；根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率，及时收录了用户的原创内容。

图2示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S200，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本。

具体地，在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息；以及，在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。其中，目标网页指可以作为抓取对象的网页，这里目标网页可能是原创网页，也可能是转载网页。

本实施例中，爬虫一般选取目标网页的来源页(该来源页为爬虫已抓取的网页)中的超链接网页作为目标网页。举例来说，爬虫在爬取网页A的内容的过程中，发现网页A包含了多个超链接网页B、C和D，爬虫即可在超链接网页B、C和D中选取部分或全部网页作为目标网页。具体地，研发人员在编写网页A的代码时定义了网页的连结格式，该连结格式定义了超链接网页B、C和D的URL以及该URL对应的链接锚文本，爬虫根据已抓取网页A中定义的网页连结格式发现超链接网页B、C和D，并在超链接网页B、C和D中选取部分或全部网页作为目标网页，获取所选目标网页的URL以及该URL对应的链接锚文本。

步骤S210，判断链接锚文本是否包含转载关键字，若链接锚文本包含转载关键字，则执行步骤S220；若链接锚文本不包含转载关键字，则执行步骤S230。

这里的转载关键字可以为转载、源自、引用、转发等关键字。具体地，提取链接锚文本中的内容文字，将提取的内容文字与转载关键字库进行匹配。

步骤S220，将目标网页识别为转载网页。

在判断链接锚文本包含转载、源自、引用、转发等关键字时，则该目标网页为转载网页。

步骤S230，将目标网页识别为原创网页。

在判断链接锚文本不包含转载、源自、引用、转发等关键字时，则该目标网页为原创网页。

步骤S240，根据原创网页的链接锚文本，查找与原创网页的链接锚文本匹配的转载网页。

爬虫从目标网页的来源页选取目标网页时可以将具有同类特征的网页选取为目标网页，也可以从目标网页的来源页中随机选取目标网页。

下面将针对上述两种选取的目标网页具体介绍查找与原创网页的链接锚文本匹配的转载网页的方法：

针对从目标网页的来源页中随机选取的目标网页的情况主要利用以下方法：根据原创网页的链接锚文本从存储有所有网页的数据库中查找与原创网页的链接锚文本匹配的转载网页。

针对爬虫从目标网页的来源页中随机选取的目标网页这种情况，需要从存储有所有网页的数据库中查找原创网页的转载网页。具体地，从存储有所有网页的数据库中查找与原创网页的链接锚文本匹配的网页，然后判断网页是否包含转载关键字，若包含，则确定网页为某一原创网页的转载网页。这里判断网页是否为转载网页的方法与本实施例中步骤S210中的判断方法类似，在此不再赘述，本领域技术人员可以根据实际需要采用合适的方法进行判断，此处不做具体限定。

针对目标网页选取的是具有同类特征的网页的情况主要利用以下方法：

步骤1、根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合。

这里的同类特征可以是指链接锚文本具有同类标题，本领域技术人员可以根据具体应用选择合适的特征，在此不做具体限定。

具体地，根据网址信息对应的链接锚文本的标题对目标网页进行分类，将目标网页分类为具有同类标题的多个目标网页集合。

步骤2、根据原创网页的链接锚文本从目标网页集合中查找与原创网页的链接锚文本匹配的转载网页。

具体地，通过将原创网页的链接锚文本与目标网页集合中的网页的链接锚文本进行匹配，若某一网页的链接锚文本包含原创网页的链接锚文本，并且该网页包含转载关键字，则将该网页确定为原创网页的转载网页。通过一一匹配的方法查找目标网页中所有原创网页的转载网页。

在查找出与原创网页的链接锚文本匹配的转载网页之后，对原创网页的转载网页的个数进行统计，并将统计的结果与相应的原创网页存储于一DB数据库中。

步骤S250，根据查找出的转载网页的个数确定原创网页的网页内容被转载的次数。

转载网页的个数体现了原创网页被转载的次数，具体地，可以通过从DB数据库中获取存储的统计结果来确定原创网页被转载的次数。

步骤S260，基于原创网页被转载的次数确定各个目标网页以及目标网页的来源页的其它内链网页的抓取优先级。

根据上面的描述可知，目标网页是在爬虫抓取目标网页的来源页的过程中选取的，目标网页的来源页的超链接网页除了目标网页外，还可能有其它未被选取的内链网页，本步骤除了可确定目标网页的抓取优先级，还可确定目标网页的来源页中其它未被选取为目标网页的内链网页的抓取优先级。

对于原创网页来说，原创网页以及原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数确定的。原创网页被转载的次数越高，该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。

原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于转载网页以及转载网页的来源页的其它内链网页的抓取优先级。由于目标网页中的转载网页是其他用户转载的原创用户创作的内容，该转载网页在指导搜索引擎爬虫抓取网页方面的利用价值很小，因此会为转载网页分配较低的抓取优先级。

一般来说，如果目标网页为原创网页且该原创网页的转载次数较高不仅仅代表该原创网页的抓取质量高，还代表该原创网页的来源页的其它内链网页具有较高的抓取质量的可能性，本实施例提供的方法不仅有利于发现抓取质量高的原创网页，还有利于爬虫更进一步挖掘其它具有较高的抓取质量的可能性的其它内链网页，从而抓取到更多的原创网页，进一步优化了搜索引擎爬虫抓取结果。

步骤S270，根据确定的抓取优先级将各个目标网页以及目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取。

待抓取列表是一个网页URL集合，该网页URL集合中根据抓取优先级由高至低的顺序对网页URL进行排序，对搜索引擎爬虫抓取网页起到指导作用。具体地，根据步骤S260中确定的目标网页以及目标网页的来源页的其它内链网页的抓取优先级将各个目标网页以及目标网页的来源页的其它内链网页插入到待抓取网页列表，搜索引擎爬虫根据该待抓取网页列表进行抓取。

下面通过一个具体的示例对本实施例的方案作进一步介绍：

在步骤S200中，获取搜索引擎爬虫多个目标网页的URL以及URL对应的链接锚文本，得到：

URL-1：http://abc.cn/xxxcb.html anchor:“艺术品投资攻略”；该URL-1的来源页为http://abc.cn/articlelist-xgtjcb.html，即该URL-1是网页http://abc.cn/articlelist-xgtjcb.html中的内链网页，除此之外，网页http://abc.cn/articlelist-xgtjcb.html中还包括其他内链网页http://abc.cn/xfrca.html、http://abc.cn/xyhca.html，其他内链网页并没有作为目标网页被爬虫选取。

URL-2：http://abc.cn/xxdca.html anchor:[转载]“艺术品投资攻略”；该URL-2的来源页为http://abc.cn/articlelist-xthucb.html。

URL-3：http://abc.cn/xxdfb.html anchor:[转载]“艺术品投资攻略”；该URL-3的来源页为http://abc.cn/articlelist-cfggtjcb.html。

URL-4：http://abc.cn/xhgfb.html anchor:[转载]“艺术品投资攻略”；该URL-4的来源页为http://abc.cn/articlelist-kijjcb.html。

URL-5：http://ghm.cn/xhefb.html anchor:“奇异的鸟”；该URL-5的来源页为http://abc.cn/articlelist-cbncb.html，其中，网页http://abc.cn/articlelist-cbncb.html中还包括其他内链网页http://ghm.cn/xolfb.html、http://ghm.cn/xsefb.html，其他内链网页并没有作为目标网页被爬虫选取。

URL-6：http://ghm.cn/xxefb.html anchor:[转载]“奇异的鸟”；该URL-6的来源页为http://abc.cn/articlelist-ftgtjcb.html。

URL-7：http://ghm.cn/xxexb.html anchor:[转载]“奇异的鸟”；该URL-7的来源页为http://abc.cn/articlelist-asdjcb.html。

在步骤S210中，判断上述URL对应的链接锚文本中是否包含转载关键字，若链接锚文本包含转载关键字，则识别目标网页为转载网页，若链接锚文本不包含转载关键字，则识别目标网页为原创网页，根据该方法确定上述URL-1、URL-5对应的网页为原创网页；URL-2、URL-3、URL-4、URL-6、URL-7对应的网页是转载网页。

在步骤S240中，根据URL-1、URL-5对应的链接锚文本“艺术品投资攻略”、“奇异的鸟”确定URL-2、URL-3、URL-4对应的网页为URL-1的原创网页的转载网页，URL-6、URL-7对应的网页为URL-5的原创网页的转载网页。

在步骤S250中，根据转载网页的个数确定URL-1的原创网页被转载了3次，URL-5的原创网页被转载了2次。

在步骤S260中，根据所确定的转载次数，确定了URL-1—URL-7对应的网页以及其来源页的其他内链网页的抓取优先级，其中URL-1的原创网页以及该原创网页的来源页中的其他内链网页的抓取优先级高于URL-5的原创网页以及该原创网页的来源页中的其他内链网页的抓取优先级，URL-1、URL-5对应的网页以及它们来源页的其它内链网页的抓取优先级高于URL-2、URL-3、URL-4、URL-6、URL-7对应的网页以及它们的来源页的其它内链网页的抓取优先级，由于转载网页以及转载网页的来源页的抓取质量不高，这里将转载网页以及转载网页的来源页的抓取优先级设置的较低。

在步骤S270中，依据所确定的抓取优先级将URL-1—URL-7对应的网页以及其来源页的其他内链网页插入到待抓取网页列表进行网页抓取。

根据本发明上述实施例提供的方法，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；判断链接锚文本是否包含转载关键字，若链接锚文本包含转载关键字，则识别目标网页为转载网页，若链接锚文本不包含转载关键字，识别目标网页为原创网页；根据原创网页的链接锚文本，查找与原创网页的链接锚文本匹配的转载网页；根据查找出的转载网页的个数确定原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页以及目标网页的来源页的其它内链网页的抓取优先级；根据确定的抓取优先级将各个目标网页以及目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；通过确定目标网页以及目标网页的来源页的其它内链网页的抓取优先级提升了搜索引擎抓取流量的利用效率以及搜索引擎的覆盖率，使得爬虫及时发现隐藏的原创网页并收录用户的原创内容，使得搜索引擎爬虫在抓取能力有限时优先抓取质量较高的网页，优化了搜索引擎爬虫抓取结果，将优先级确定的网页插入到待抓取列表后，搜索引擎爬虫能够根据抓取列表中的排序有重点的抓取网页，重点抓取原创网页，对于一些转载网页的网站可以降低抓取次数。

图3示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的装置的结构框图。如图3所示，该装置包括：获取模块300、识别模块310、计算模块320、优先级确定模块330、抓取模块340。

获取模块300，适于获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本。

其中，目标网页指可以作为抓取对象的网页，这里目标网页可能是原创网页，也可能是转载网页；网址信息指网页的URL；链接锚文本是网页中关于链接的一段描述，用于连向其他网页。

获取模块300进一步适于：在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息；以及，在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址信息对应的链接锚文本。

识别模块310，适于根据链接锚文本识别每个目标网页是否为原创网页。

识别模块310进一步包括：判断单元350，适于判断链接锚文本是否包含转载关键字。

识别单元360，适于在判断链接锚文本不包含转载关键字时，将目标网页识别为原创网页。

识别单元360进一步适于：在判断链接锚文本包含转载关键字时，将目标网页识别为转载网页。

计算模块320，适于对于识别出的原创网页，计算原创网页的网页内容被转载的次数。

计算模块320进一步包括：查找单元370，适于根据原创网页的链接锚文本，查找与原创网页的链接锚文本匹配的转载网页。

计算单元380，适于根据查找出的转载网页的个数确定原创网页的网页内容被转载的次数。

优先级确定模块330，适于确定各个目标网页的抓取优先级，其中，原创网页的抓取优先级是根据原创网页被转载的次数确定的。

根据上面的描述可知，目标网页是在爬虫抓取目标网页的来源页的过程中选取的，目标网页的来源页的超链接网页除了目标网页外，还可能有其它未被选取的内链网页，本模块除了可确定目标网页的抓取优先级，还可确定目标网页的来源页中其它未被选取为目标网页的内链网页的抓取优先级。

优先级确定模330块进一步适于：确定各个目标网页的来源页的其它内链网页的抓取优先级。

抓取模块340，适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。

抓取模块340还适于：根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取。

待抓取列表是一个网页URL集合，该网页URL集合中根据抓取优先级由高至低的顺序对网页URL进行排序，对搜索引擎爬虫抓取网页起到指导作用。具体地，根据优先级确定模块330中确定的目标网页以及目标网页的来源页的其它内链网页的抓取优先级将各个目标网页以及目标网页的来源页的其它内链网页插入到待抓取网页列表，搜索引擎爬虫根据该待抓取网页列表进行抓取。

该装置还包括：数据库390，适于存储所有网页。

查找单元370进一步适于：根据原创网页的链接锚文本从存储有所有网页的数据库390中查找与原创网页的链接锚文本匹配的转载网页。

具体地，从存储有所有网页的数据库中查找与原创网页的链接锚文本匹配的网页，然后判断网页是否包含转载关键字，若包含，则确定网页为某一原创网页的转载网页。

根据本发明上述实施例提供的装置，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；根据链接锚文本识别每个目标网页是否为原创网页；对于识别出的原创网页，计算原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页的抓取优先级；根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；通过从存储有所有网页的数据库中查找原创网页的转载网页，可以精准地统计原创网页被转载的次数，使得根据转载次数确定的抓取优先级更为精确；通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率，及时收录了用户的原创内容。

图4示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的装置的结构框图。与图3所示装置不同之处在于，图4所示装置是在目标网页集合确定模块400中查找与原创网页的链接锚文本匹配的转载网页，而图3是从数据库中查找与原创网页的链接锚文本匹配的转载网页。

目标网页集合确定模块400，适于根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合。

在目标网页集合确定模块400确定具有同类特征的目标网页集合后，查找单元370根据原创网页的链接锚文本从目标网页集合中查找与原创网页的链接锚文本匹配的转载网页。

根据本发明上述实施例提供的装置，获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本；根据链接锚文本识别每个目标网页是否为原创网页；对于识别出的原创网页，计算原创网页的网页内容被转载的次数；基于原创网页被转载的次数确定各个目标网页的抓取优先级；根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分，分为原创网页和转载网页，避免了搜索引擎爬虫每天能够实际抓取的URL有限时，搜索引擎爬虫重复抓取转载网页的问题；爬虫选取具有同类特征的目标网页，简化了后续确定转载网页的流程，提高了爬虫抓取效率；通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率，及时收录了用户的原创内容。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的搜索引擎爬虫抓取网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种搜索引擎爬虫抓取网页的方法，其包括：

根据所述链接锚文本识别每个目标网页是否为原创网页；

基于原创网页被转载的次数确定各个目标网页的抓取优先级，其中，所述原创网页的抓取优先级是根据原创网页被转载的次数确定的，原创网页被转载的次数越高，该原创网页的抓取优先级越高；

根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取；

其中，所述对于识别出的原创网页，计算所述原创网页的网页内容被转载的次数进一步包括：

2.根据权利要求1所述的方法，其中，所述获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本进一步包括：

3.根据权利要求1或2所述的方法，其中，根据所述链接锚文本识别每个目标网页是否为原创网页进一步包括：

判断所述链接锚文本是否包含转载关键字；

4.根据权利要求3所述的方法，其中，还包括：确定各个目标网页的来源页的其它内链网页的抓取优先级，以及根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网页列表进行网页抓取；

5.根据权利要求4所述的方法，其中，所述原创网页被转载的次数越高，该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。

6.根据权利要求4所述的方法，其中，所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。

7.根据权利要求1所述的方法，所述根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页进一步包括：

8.根据权利要求1所述的方法，其中，还包括，根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合；

9.一种搜索引擎爬虫抓取网页的装置，其包括：

优先级确定模块，适于确定各个目标网页的抓取优先级，其中，所述原创网页的抓取优先级是根据原创网页被转载的次数确定的，原创网页被转载的次数越高，该原创网页的抓取优先级越高；

抓取模块，适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取；

其中，所述计算模块进一步包括：查找单元，适于根据所述原创网页的链接锚文本，查找与所述原创网页的链接锚文本匹配的转载网页；

10.根据权利要求9所述的装置，所述获取模块进一步适于：

11.根据权利要求9或10所述的装置，所述识别模块进一步包括：

判断单元，适于判断所述链接锚文本是否包含转载关键字；

12.根据权利要求11所述的装置，优先级确定模块进一步适于：确定各个目标网页的来源页的其它内链网页的抓取优先级；

13.根据权利要求12所述的装置，所述原创网页被转载的次数越高，该原创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。

14.根据权利要求12所述的装置，所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。

15.根据权利要求9所述的装置，该装置还包括：数据库，适于存储所有网页；

16.根据权利要求9所述的装置，该装置还包括：目标网页集合确定模块，适于根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合；