CN103389983A

CN103389983A - 一种用于网络爬虫系统的网页内容抓取方法及装置

Info

Publication number: CN103389983A
Application number: CN2012101407514A
Authority: CN
Inventors: 孙杰; 蔡同利
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-05-08
Filing date: 2012-05-08
Publication date: 2013-11-13
Anticipated expiration: 2032-05-08
Also published as: CN103389983B

Abstract

本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置，所述方法首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，从而提高了对大网站的抓取效率。

Description

一种用于网络爬虫系统的网页内容抓取方法及装置

技术领域

本发明涉及计算机、互联网技术领域，尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。

背景技术

网络爬虫（又被称为网页蜘蛛，网络机器人等），是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本，它们的行为被称为网页抓取或蜘蛛爬行。

由于网络上的HTML文档使用超链接连接了起来，就像组成了一张网，因此，网络爬虫可以顺着这张网爬行，每到一个网页就利用抓取程序将这个网页抓下来，并将其中的超链接抽取出来，作为进一步爬行的线索。

一般来说，网络爬虫都是从一组要访问的URL（统一资源定位符，或简称网址）链接开始，可以称这些URL为种子。爬虫访问这些链接，并辨认出这些页面中的所有超链接，然后将这些超链接添加到一个URL列表中，再按照一定的策略反复访问这些列表中的URL链接。

然而，现有的网络爬虫系统经常会遇到的一个问题是，对于一些比较大的网站，无法在较短的时间内将其内容全部抓取完，这是因为网络爬虫在爬取网页的过程中，需要遵守一定的礼仪规范，不能对同一个网站进行过于频繁的抓取，否则会给对方网站的服务器造成过大的压力，严重时可能会导致该网站不得不屏蔽该网络爬虫，禁止其抓取行为。

抓取的礼仪规范在业界是有标准的，具体体现在robots.txt中，如果对方网站的robots.txt中包含crawl delay:value这一项，则爬虫对网站连续两次访问请求的时间间隔必须大于value的值。如果对方网站的robots.txt中不包含这一项或者根本就没有robots.txt，那么作为网络爬虫也应该间隔一定的时间发起下一次请求。

但是有一些网站的规模非常大，页面数量是亿甚至是十亿的量级，每天新增的页面数也非常大，如果严格遵守抓取礼仪的话，会使得这些大网站在一定的时间内无法被抓取完。

为了解决这个问题，现有的网络爬虫的抓取策略都是把规模很大的网站连续两次抓取的时间间隔设置到ms级别，并且在此基础上同时保持很多个连接，但是这不仅给对方网站的带来了很大的压力，而且也存在被对方网站封锁的危险。

发明内容

本申请所要解决的技术问题在于提供一种用于网络爬虫系统的网页内容抓取方法及装置，以克服现有技术中无法在遵守抓取礼仪规范的前提下短时间内将大型网站的内容全部抓取完的问题。

为解决上述技术问题，本申请提供一种用于网络爬虫系统的网页内容抓取方法，首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

本发明进而还提供一种用于网络爬虫系统的网页内容抓取装置，包括：

数据库模块，用于通过构建一IP地址数据库，记录预设网站的域名及与该域名对应的多个IP地址；

替换模块，用于通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN（内容分发网络）结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，这样可以同时分别对大网站的内容进行抓取，而又不会对某一个单独的服务器造成很大的压力，从而提高了对大网站的抓取效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例所述的URL规则示意图。

图2为根据本申请实施例所述的用于网络爬虫系统的网页内容抓取方法流程图。

图3为根据本申请另一实施例所述的用于网络爬虫系统的网页内容抓取方法流程图。

图4为根据本申请实施例所述的用于网络爬虫系统的网页内容抓取装置示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为充分理解本申请的技术方案，下面首先对CDN及IP轮询技术做一简单介绍。

CDN，全称为Content Delivery Network，即内容分发网络，是一种新型的网络构建方式。其基本原理是，将用户的请求根据智能DNS系统定位到一个离用户最近的CDN结点上，而每个CDN结点都是网站的一个高速缓存服务器，通过这种方式可以极大提高用户访问网站的响应速度。目前像新浪和网易这种大规模的网站基本上都是采用的这种网络构建方式。

IP轮询：大多域名注册商都支持多条A记录的解析，DNS服务器将解析请求按照A记录的顺序，逐一分配到不同的IP上，这样就可以实现简单的负载均衡。

那么，接下来也有必要对现有网络爬虫抓取页面的过程进行一个简要的说明。

爬虫抓取网页的过程实际上与用户平时使用浏览器浏览网页的原理是一样的。“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。更进一步，可以通过浏览器端查看“抓取”过来的文件源代码。例如选择“查看”|“源文件”命令，就会出现从服务器上“抓取”下来的文件的源代码。

网站中的每个网页都有一个对应的代码，也就是用户在浏览器的地址栏中输入的字符串，它叫做URL，其一般由协议名、主机（有时也包括端口号）、路径及文件名这三部分组成。其中，第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。

大体来说，URL的一般形式可以归纳为：

<URL的访问方式>://<主机>:<端口>/<路径>

URL的访问方式至少包括：

1.ftp——文件传送协议FTP

2.http——超文本传送协议HTTP

3.News——USENET新闻

4.https——用安全套接字层传送的超文本传输协议

5.mailto——电子邮件地址

6.ldap——轻型目录访问协议搜索

7.gopher——Gopher协议

8.telnet——Telnet协议

其中，<主机>字段可以是存放资源的服务器在因特网中的域名或IP地址，但由于IP地址较为繁琐且不方便记忆，因此使用域名更为常见。

如图1所示，http://www.cctv.com/geogarghy/dpgs/index.html，其中，第一部分表示该网站采用HTTP协议；第二部分表示该网页所在网站的域名；第三部分表示该网页的路径和文件名。该URL整体上代表了中央电视台网站中的某个网页的网址。

网站的主页往往会省略路径和文件名，只有协议名和该网站的域名两部分，例如http://www.sina.com.cn，就是新浪网的主页网址URL。

现有的网络爬虫系统，在从种子库中获得一个URL后，会直接根据该URL地址进行抓取，例如对于上述http://www.sina.com.cn来说，将新浪网首页抓取到本地后，抽取出其中的新的URL链接，例如第一个URL是http://www.sina.com.cn/a.html，第二个URL是http://www.sina.com.cn/b.html，接下来，网络爬虫就会再去访问抓取http://www.sina.com.cn/a.html和http://www.sina.com.cn/b.html的网页，再继续抽取其中的链接，持续进行抓取，直至将整个网站的网页都抓取下来。

在上述过程中我们可以发现，每次抓取访问都是针对www.sina.com这一主机服务器，而当一个网站的网页数量很大时，整个抓取时间将会是非常长，再考虑到抓取的礼仪规范，这会对www.sina.com的主机服务器造成很大的压力。

但另一方面，通过上述CDN及IP轮询技术的说明可以知道，该网站同样的网页内容实际上同时存在于多个服务器中，只不过由于现有技术条件下的各种规则和策略的限制，对于相同条件下的爬虫系统来说，即使保持多个或发起多次连接，其很可能每次被分配到的服务器都是相同的，无法充分利用其它服务器提供的网页内容。

而本申请的实施例，针对上述技术问题，提供了一种用于网络爬虫系统的网页内容抓取方法，如图2所示，可以包括如下步骤：

步骤201：构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；

步骤202：通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

其中，所述IP地址数据库可以根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。

而所述预设规则可以包括随机返回一个IP地址；或根据记录顺序返回上一次返回的IP地址的下一个IP地址。

而所述与预设网站的域名对应的多个IP地址，则可以是包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。这些IP地址可以在线下搜集全国各地运营商所提供的DNS Server（域名系统服务器）列表，根据这些DNS服务器查询到所有CDN的地址或者轮询的IP，将获取到的结果缓存下来，并定期更新。

如图3所示，为根据本申请的技术方案提供的另一具体实施例示意图，首先，在步骤301中，需要事先搜集到全国各地运营商提供的DNS server地址；

然后在步骤302中，对需要处理的大网站，查询每一个DNS server地址，获取到不同的CDN的IP地址或者轮询的IP地址；

在步骤303中，将查询到的这些IP地址存储到一个本地DNS缓存系统中，即构建一IP地址数据库；

在步骤304中，网络爬虫从种子库中拿到一个URL，准备进行抓取；

步骤305中，爬虫系统向本地的DNS缓存系统查询目标URL的IP地址，DNS缓存系统随机的返回一个IP地址；

步骤306中，根据这个IP地址，在保证抓取礼仪的前提下对服务器进行抓取。

然后，再回到步骤304。

例如，还是以上述抓取www.sina.com.cn这个网站为例，通过事先构建的数据库，可以知道该网站域名对应的IP假设包括61.172.201.195及220.181.111.85，那么，假设网络爬虫获得的第一个URL是http://www.sina.com.cn/a.html，第二个URL是http://www.sina.com.cn/b.html，那么在执行针对第一个URL的抓取之前，根据本申请的实施例，首先会去查询DNS缓存中的数据库，获得与域名www.sina.com.cn对应的IP地址，例如随机返回的IP地址是61.172.201.195，这时，爬虫就会用IP地址替换域名，实际使用http://61.172.201.195/a.html进行抓取；同样，对于获得的第二个URL，抓取之前会去查询DNS缓存，这时查询到的IP地址是220.181.111.85，那么实际就会用http://220.181.111.85/b.html进行抓取。

由此可见，由于每个预设域名都对应有多个IP地址，而每个URL只使用其中的一个IP进行了实际的抓取，这就将针对该网站的多个URL访问分散到不同的IP来执行，大大减轻了对同一个IP下的服务器的压力。

如图4所示，本申请的实施例还相应提供了一种用于网络爬虫系统的网页内容抓取装置，包括数据库模块401，替换模块402，其中：

数据库模块401，用于通过构建一IP地址数据库，记录预设网站的域名及与该域名对应的多个IP地址；

替换模块402，用于通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

所述数据库模块401可以根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。

同样，所述预设规则包括随机返回一个IP地址，或根据记录顺序返回上一次返回的IP地址的下一个IP地址等规则。

所述数据库模块401中记录的与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。

上述装置实施例的各部分运作细节与上述方法实施例相同，可参照理解，在此不再赘述。

本说明书中的各个实施例一般是采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同或相似的部分可互相参见即可。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块或单元。一般地，程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说，程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其主要思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用于网络爬虫系统的网页内容抓取方法，其特征在于，包括如下步骤：

构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；

通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

2.如权利要求1所述的方法，其特征在于，所述IP地址数据库根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。

3.如权利要求2所述的方法，其特征在于，所述预设规则包括随机返回一个IP地址。

4.如权利要求2所述的方法，其特征在于，所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。

5.如权利要求1所述的方法，其特征在于，所述与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。

6.一种用于网络爬虫系统的网页内容抓取装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述数据库模块，根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。

8.如权利要求7所述的装置，其特征在于，所述预设规则包括随机返回一个IP地址。

9.如权利要求7所述的装置，其特征在于，所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。

10.如权利要求6所述的装置，其特征在于，所述数据库模块中记录的与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。