CN104794199B

CN104794199B - 抓取网页数据的方法及系统

Info

Publication number: CN104794199B
Application number: CN201510190833.3A
Authority: CN
Inventors: 吕明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-04-21
Filing date: 2015-04-21
Publication date: 2018-11-09
Anticipated expiration: 2035-04-21
Also published as: CN104794199A

Abstract

本发明提供一种抓取网页数据的方法及系统，所述方法包括选取出未抓取过的优质链接，其中，所述优质链接为指向满足用户的检索需求的网页的链接；对所述选取出的优质链接标记网络出口；根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。根据采用本发明提供的技术方案，可以提高对复杂多变的抓取环境的适应性，从而显著地提高跨国家抓取网页数据的成功率。

Description

抓取网页数据的方法及系统

技术领域

本发明涉及通信领域，更为具体而言，涉及抓取网页数据的方法及系统。

背景技术

实现网页数据的抓取是搜索引擎的基本功能之一。搜索引擎通过一种程序(蜘蛛)根据一定规则扫描存在于互联网上的网站，通过网页的链接地址来寻找网页：从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去。近年来随着国内互联网公司的国际化战略的逐步迈进，搜索引擎对于跨国家抓取网页数据的要求也逐渐提高，然而跨国家抓取网页数据的问题非常复杂，例如某些站点可以在一个国家进行抓取，但在其他国家无法抓取。目前的解决方案是通过在一个统一的机房中进行各国家的抓取，难以应对复杂多变的抓取环境，造成大量的抓取失败，阻碍了跨国家抓取网页数据效果。

发明内容

为有效地解决上述技术问题，本发明提供了一种抓取网页数据的方法及系统。

一方面，本发明的实施方式提供了一种抓取网页数据的方法，所述方法包括：

选取出未抓取过的优质链接，其中，所述优质链接为指向满足用户的检索需求的网页的链接；

对所述选取出的优质链接标记网络出口；

根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。

另一方面，本发明的实施方式还提供了一种抓取网页数据的系统，所述系统包括：

选取模块，用于选取出未抓取过的优质链接，其中，所述优质链接为指向满足用户的检索需求的网页的链接；

标记模块，用于对所述选取模块所选取出的优质链接标记网络出口；

分发抓取模块，用于根据所述标记模块所标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。

实施本发明提供的抓取网页数据的方法及系统可以提高对复杂多变的抓取环境的适应性，从而显著地提高跨国家抓取网页数据的成功率。

附图说明

图1是根据本发明实施方式的一种抓取网页数据的方法的流程图；

图2示出了图1所示的处理S110的一种实施方式；

图3示出了图1所示的处理S120的一种实施方式；

图4是根据本发明实施方式的另一种抓取网页数据的方法的流程图；

图5示出了图4所示的处理S130’的一种实施方式；

图6是根据本发明实施方式的又一种抓取网页数据的方法的框架图；

图7是根据本发明实施方式的一种抓取网页数据的系统的结构示意图；

图8示出了图7所示的选取模块110的一种实施方式；

图9示出了图7所示的标记模块120的一种实施方式。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作详细描述。

图1是根据本发明实施方式的一种抓取网页数据的方法的流程图，参见图1，所述方法包括：

S110：选取出未抓取过的优质链接，其中，所述优质链接为指向满足用户的检索需求的网页的链接；

S120：对所述选取出的优质链接标记网络出口；

在本发明的实施方式中，例如，所述网络出口包括，但不限于：美国、日本、泰国、巴西等地的CDN(Content Delivery Network，内容分发网络)出口以及默认出口(例如，香港出口)。

S130：根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取，其中，通过默认出口(香港出口)进行抓取无需占用国际带宽，而通过CDN出口需占用国际带宽。

通过上述的实施方式，将地域适配站点(适于在特定地域进行抓取的站点)的链接分发至相应的CDN出口进行抓取，提高了对复杂多变的抓取环境的适应性，并且，将非地域适配站点的链接分发至默认出口进行抓取，减少了对国际带宽的占用，提高抓取的稳定性，从而显著地提高跨国家抓取网页数据的成功率。

如图2所示，所述处理S110可以通过以下方式实现：

S111：从链接库中选取出未抓取过的链接；

S112：对所述未抓取过的链接进行质量预测；

其中，在本发明的实施方式中，所述质量预测例如可以通过已抓取过的链接反馈未抓取过的链接的方式进行，例如，若某链接的同类正则表达式的其它链接抓取后为优质链接，则可以判定该连接也是优质链接。

S113：根据所述质量预测的结果选取出优质链接。

如图3所示，所述处理S120可以通过以下方式实现：

S121：根据地域适配站点词典来匹配所述选取出的优质链接，其中，所述地域适配站点词典包括：地域适配站点上的链接以及与所述地域适配站点对应的CDN出口；

S122：若匹配成功，则对所述选取出的优质链接标记该优质链接所对应的CDN出口，若匹配失败，则对所述选取出的优质链接标记默认出口。

在本发明的实施方式中，可以预先在线下构造所述地域适配站点词典，具体包括：挖掘出地域适配站点和与所述地域适配站点对应的CDN出口；根据所述挖掘的结果，建立所述地域适配站点上的链接与所述地域适配站点所对应的CDN出口的对应关系以构造出所述地域适配站点词典。

其中，对于挖掘出地域适配站点和与所述地域适配站点对应的CDN出口的处理可以通过以下方式实现：对站点的抓取状态信息进行统计；若所述统计的结果为所述站点的全部链接都抓取失败，则从所述站点的全部链接中按照抓取失败的返回码随机选取出样本链接；将所述样本链接转发至不同的CDN出口(包括，但不限于：美国、日本、巴西、泰国等地的CDN出口)进行抓取；若所述样本链接在所述CDN出口上的抓取成功率大于或等于预定阈值(例如，预定阈值为90％，本领域技术人员应当理解，本发明实施方式不限于此，根据实际需要可以设定预定阈值为85％到95％范围内的任意比例)，则判定所述站点为地域适配站点，并且，在所述不同的CDN出口中，选取成功率大于或等于其它任意一个CDN出口的CDN出口作为与所述地域适配站点对应的CDN出口。

图4是根据本发明实施方式的另一种抓取网页数据的方法的流程图。参见图4，所述方法包括：

S110’至S120’：同上述的S110至S120，在此不再赘述；

S130’：控制所述选取出的优质链接所对应的站点的抓取压力；

S140’：同上述的S130，在此不再赘述。

通过对抓取压力进行控制可以有效避免对站点带来负载的困扰。

需要说明的是，以上仅仅是对本发明的举例说明，在不脱离本发明原理的前提下可以进行各种修改和变形，例如，可以将所述处理S130’与所述处理S140’进行合并，即在抓取时对站点的抓取压力进行实时地控制。

如图5所示，所述处理S130’可以通过以下方式实现：

S131’：基于链接来计算所述选取出的优质链接所对应的站点的规模；

S132’：通过在所述计算出的规模上设置权重来控制抓取压力。

为了应对托管服务器的情况，在本发明的一种优选的实施方式中，在执行所述处理S140’前，还可以在所述选取出的优质链接所对应的站点中，基于多地域DNS(DomainName System，域名系统)，对映射到同一IP(Internet Protocol，网络之间互连的协议)地址的站点的抓取压力的总量进行控制。

以下结合具体的例子对本发明的实施方式进行具体说明。如图6所示，首先进行链接选取，具体地，从海量的链接库中选取出未抓取过的链接，进行链接的质量预测，将优质链接选取出来，例如可以采用已抓取过的链接反馈未抓取过的链接的方式进行质量预测，比如若某链接的同类正则表达式的其它链接抓取后为优质链接，则可以判定该连接为优质链接；其次进行链接转发，具体地，将上游发送过来的优质链接根据地域适配站点词典(该地域适配站点词典包括地域适配站点上的链接和与所述地域适配站点对应的CDN出口)进行匹配，若匹配成功，则标记上所述优质链接所对应的CDN出口，否则标记默认出口，标记上相应的网络出口后将所述优质链接传递至下游，其中，所述地域适配站点词典可以预先在线下进行构造，具体地，对站点的抓取状态信息进行统计；若所述站点的整站都抓取失败，则从所述站点中按照抓取失败的返回码随机选取出样本链接；以抓取代理的方式将所述样本链接转发至不同的CDN出口(包括，但不限于：美国、日本、巴西、泰国等地的CDN出口)进行抓取；若所述样本链接在所述CDN出口上的抓取成功率大于或等于预定阈值(例如90％，当然不限于此，根据实际需要可以设定预定阈值为85％到95％范围内的任意比例)，则判定所述站点为地域适配站点，并且，在所述不同的CDN出口中，选取成功率大于或等于其它任意一个CDN出口的CDN出口作为与所述地域适配站点对应的CDN出口，从而挖掘出地域适配站点以及与所述地域适配站点对应的CDN出口，再根据所述挖掘的结果，建立所述地域适配站点上的链接与所述地域适配站点所对应的CDN出口的对应关系以构造出所述地域适配站点词典；然后，对选取出的优质链接所对应的站点的抓取压力进行控制(由于通过CDN出口进行抓取会占用国际带宽，因此需要对站点的抓取压力进行控制以免对站点带来负载的困扰)，具体地，基于站点上所发现的链接来计算所述站点的规模，再加上一定的权重，把抓取压力设置到一个相对合理的值，在实际抓取的时候，若发现站点的抓取失败率上升，则实时地把抓取压力进行下调，当然本发明实施方式不限于此，本领域技术人员可以采用其他实施方式，只要能够控制抓取压力即可，此外为了应对托管服务器的情况，还可以在所述选取出的优质链接所对应的站点中，基于多地域DNS，对映射到同一IP地址的站点的抓取压力的总量进行控制，其中，所述多地域DNS采用地域适配站点词典作为输入，在解析这些地域适配站点的IP地址时，不仅在香港解析出IP地址，还需要在美国、日本、巴西等地的CDN出口解析出IP地址，在DNS内部要存储这些地域适配站点在香港、美国、日本、巴西等地的相应IP地址，从而更加全面地对IP进行解析；再通过抓取器抓取网页数据，其中，以抓取代理的模式，基于上游所标记的网络出口(包括，但不限于：美国、日本、泰国、巴西等地的CDN出口以及香港出口(默认出口))，将选取出的优质链接分发至对应的网络出口以进行网页数据的抓取；最后将各网络出口抓取回的数据包统一发回至抓取器，并下发至下游进行页面解析(对页面做DOM(Document Object Model，文档对象模型)树解析，并对网页内容进行判断)。

图7是根据本发明实施方式的一种抓取网页数据的系统的结构示意图。参见图7，该系统100包括：选取模块110、标记模块120以及分发抓取模块130，具体地：

选取模块110，用于选取出未抓取过的优质链接，其中，所述优质链接为指向满足用户的检索需求的网页的链接；

标记模块120，用于对所述选取模块110所选取出的优质链接标记网络出口；

在本发明的实施方式中，所述网络出口包括，但不限于：美国、日本、泰国、巴西等地的CDN(Content Delivery Network，内容分发网络)出口以及默认出口(香港出口)。

分发抓取模块130，用于根据所述标记模块120所标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。

如图8所示，所述选取模块110可以包括：第一选取单元111、质量预测单元112以及第二选取单元113，具体地：

第一选取单元111，用于从链接库中选取出未抓取过的链接；

质量预测单元112，用于对所述第一选取单元111所选取出的未抓取过的链接进行质量预测；

在本发明的实施方式中，所述质量预测单元可以包括：反馈预测组件，用于通过已抓取过的链接反馈未抓取过的链接的方式对所述未抓取过的链接进行质量预测。

第二选取单元113，用于根据所述质量预测单元112的结果选取出优质链接。

如图9所示，所述标记模块120可以包括：匹配单元121、第一标记单元122以及第二标记单元123，具体地：

匹配单元121，用于根据地域适配站点词典来匹配所述选取出的优质链接，其中，所述地域适配站点词典包括：地域适配站点上的链接以及与所述地域适配站点对应的CDN出口；

第一标记单元122，用于当所述匹配单元121的结果为匹配成功时，对所述选取出的优质链接标记该优质链接所对应的CDN出口；

第二标记单元123，用于当所述匹配单元121的结果为匹配失败时，对所述选取出的优质链接标记默认出口。

在本发明的实施方式中，所述系统100还可以包括构造模块，用于构造所述地域适配站点词典，具体地，该构造模块例如可以包括：挖掘单元，用于挖掘出地域适配站点和与所述地域适配站点对应的CDN出口；构造单元，用于根据所述挖掘单元所挖掘的结果，建立所述地域适配站点上的链接与所述地域适配站点所对应的CDN出口的对应关系以构造出所述地域适配站点词典。

其中，所述挖掘单元例如可以包括：统计组件，用于对站点的抓取状态信息进行统计；选取组件，用于当所述统计组件的结果为所述站点的全部链接都抓取失败时，从所述站点的全部链接中按照抓取失败的返回码随机选取出样本链接；转发及抓取组件，用于将所述选取组件所选取出的样本链接转发至不同的CDN出口进行抓取；判定及选取组件，用于当所述样本链接在所述CDN出口上的抓取成功率大于或等于预定阈值时，判定所述站点为地域适配站点，并且，在所述不同的CDN出口中，选取成功率大于或等于其它任意一个CDN出口的CDN出口作为与所述地域适配站点对应的CDN出口。

为有效地避免对站点带来负载的困扰，在本发明的一种优选的实施方式中，所述系统100还可以包括：第一抓取压力控制模块，用于控制所述选取出的优质链接所对应的站点的抓取压力。

其中，所述第一抓取压力控制模块例如可以包括：计算单元，用于基于链接来计算所述选取出的优质链接所对应的站点的规模；控制单元，用于通过在所述计算单元所计算出的规模上设置权重来控制抓取压力。

此外，为了应对托管服务器的情况，所述系统100还可以包括：第二抓取压力控制模块，用于在所述选取出的优质链接所对应的站点中，基于多地域DNS，对映射到同一IP地址的站点的抓取压力的总量进行控制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以全部通过软件来实施，也可以借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种抓取网页数据的方法，其特征在于，所述方法包括：

对所述选取出的优质链接标记网络出口；

根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取；

所述方法还包括：

对站点的抓取状态信息进行统计；

若所述统计的结果为所述站点的全部链接都抓取失败，则从所述站点的全部链接中按照抓取失败的返回码随机选取出样本链接；

将所述样本链接转发至不同的内容分发网络CDN出口进行抓取；

若所述样本链接在所述CDN出口上的抓取成功率大于或等于预定阈值，则判定所述站点为地域适配站点，并且，在所述不同的CDN出口中，选取成功率大于或等于其它任意一个CDN出口的CDN出口作为与所述地域适配站点对应的CDN出口；

根据挖掘的结果，建立所述地域适配站点上的链接与所述地域适配站点所对应的CDN出口的对应关系以构造出地域适配站点词典。

2.如权利要求1所述的方法，其特征在于，选取出未抓取过的优质链接包括：

从链接库中选取出未抓取过的链接；

对所述未抓取过的链接进行质量预测；

根据所述质量预测的结果选取出优质链接。

3.如权利要求2所述的方法，其特征在于，对所述未抓取过的链接进行质量预测包括：

通过已抓取过的链接反馈未抓取过的链接的方式对所述未抓取过的链接进行质量预测。

4.如权利要求1所述的方法，其特征在于，对所述选取出的优质链接标记网络出口包括：

根据所述地域适配站点词典来匹配所述选取出的优质链接；

若匹配成功，则对所述选取出的优质链接标记该优质链接所对应的CDN出口。

5.如权利要求4所述的方法，其特征在于，若匹配失败，则对所述选取出的优质链接标记默认出口。

6.如权利要求1至5中任意一项所述的方法，其特征在于，所述方法还包括：

在执行所述根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取的步骤前，控制所述选取出的优质链接所对应的站点的抓取压力。

7.如权利要求6所述的方法，其特征在于，控制所述选取出的优质链接所对应的站点的抓取压力包括：

基于链接来计算所述选取出的优质链接所对应的站点的规模；

通过在所述计算出的规模上设置权重来控制抓取压力。

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

在执行所述根据所述标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取的步骤前，在所述选取出的优质链接所对应的站点中，基于多地域域名系统DNS，对映射到同一IP地址的站点的抓取压力的总量进行控制。

9.一种抓取网页数据的系统，其特征在于，所述系统包括：

分发抓取模块，用于根据所述标记模块所标记的结果，将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取；

构造模块，包括：挖掘单元和构造单元；

所述挖掘单元包括：

统计组件，用于对站点的抓取状态信息进行统计，

选取组件，用于当所述统计组件的结果为所述站点的全部链接都抓取失败时，从所述站点的全部链接中按照抓取失败的返回码随机选取出样本链接，

转发及抓取组件，用于将所述选取组件所选取出的样本链接转发至不同的CDN出口进行抓取，

判定及选取组件，用于当所述样本链接在所述CDN出口上的抓取成功率大于或等于预定阈值时，判定所述站点为地域适配站点，并且，在所述不同的CDN出口中，选取成功率大于或等于其它任意一个CDN出口的CDN出口作为与所述地域适配站点对应的CDN出口；

所述构造单元，用于根据所述挖掘单元所挖掘的结果，建立所述地域适配站点上的链接与所述地域适配站点所对应的CDN出口的对应关系以构造出地域适配站点词典。

10.如权利要求9所述的系统，其特征在于，所述选取模块包括：

第一选取单元，用于从链接库中选取出未抓取过的链接；

质量预测单元，用于对所述第一选取单元所选取出的未抓取过的链接进行质量预测；

第二选取单元，用于根据所述质量预测单元的结果选取出优质链接。

11.如权利要求10所述的系统，其特征在于，所述质量预测单元包括：

反馈预测组件，用于通过已抓取过的链接反馈未抓取过的链接的方式对所述未抓取过的链接进行质量预测。

12.如权利要求9所述的系统，其特征在于，所述标记模块包括：

匹配单元，用于根据所述地域适配站点词典来匹配所述选取出的优质链接；

第一标记单元，用于当所述匹配单元的结果为匹配成功时，对所述选取出的优质链接标记该优质链接所对应的CDN出口。

13.如权利要求12所述的系统，其特征在于，所述标记模块还包括：

第二标记单元，用于当所述匹配单元的结果为匹配失败时，对所述选取出的优质链接标记默认出口。

14.如权利要求9至13中任意一项所述的系统，其特征在于，所述系统还包括：

第一抓取压力控制模块，用于控制所述选取出的优质链接所对应的站点的抓取压力。

15.如权利要求14所述的系统，其特征在于，所述第一抓取压力控制模块包括：

计算单元，用于基于链接来计算所述选取出的优质链接所对应的站点的规模；

控制单元，用于通过在所述计算单元所计算出的规模上设置权重来控制抓取压力。

16.如权利要求14所述的系统，其特征在于，所述系统还包括：

第二抓取压力控制模块，用于在所述选取出的优质链接所对应的站点中，基于多地域DNS，对映射到同一IP地址的站点的抓取压力的总量进行控制。