CN103533097B

CN103533097B - 一种网络爬虫下载解析方法及装置

Info

Publication number: CN103533097B
Application number: CN201310471411.4A
Authority: CN
Inventors: 周东
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2017-03-15
Anticipated expiration: 2033-10-10
Also published as: CN103533097A

Abstract

本发明公开了一种网络爬虫下载解析方法及装置，下载解析方法包括：将多个待下载网络地址划分为多个下载任务；将包括有多个IP地址的代理IP地址池划分为多个IP地址集合；为每个所述下载任务分配一个可支配IP地址集合，为每个所述下载任务建立一个下载线程池；每个所述下载线程从可支配IP地址集合中分配一个IP地址；每个所述下载任务采用所述下载线程池执行多线程下载，下载网页数据；对所述网页数据进行解析。本发明对同一个待下载网络地址采用多下载线程下载时，由于每个下载线程的IP地址均不一样，因此，能很好地模拟真实用户的下载行为，避免待下载网站将下载线程判定为不友好下载而采取禁止下载的措施。

Description

一种网络爬虫下载解析方法及装置

技术领域

本发明涉及网络爬虫相关技术领域，特别是一种网络爬虫下载解析方法及装置。

背景技术

互联网数据每天以数亿级增长，网络爬虫在数据采集中起着举足轻重的作用。一个网络爬虫系统最核心的两大模块是下载和解析模块。

对于一个单节点网络爬虫的数据下载与解析目前有两种方法：

（1）常规顺序执行方法：首先从种子URL队列里挨个取得URL种子，通过使用开源工具Httpclient，对URL种子地址发送下载网页请求，然后进行模拟登陆和请求数据，进而下载网页源代码数据，最后对下载的网页数据进行解析。其中模拟登陆不是必需的，因为一些数据下载不需要登陆。工作流程图如图1所示。

（2）多线程并行执行方法：这种方法是以第一种常规顺序方法为基础，将顺序执行的全过程创建为一个线程。每个线程都是从URL种子队列中取出一个或者多个URL，然后顺序执行下载与解析数据，最后保存数据。流程图如图2所示。

现有的技术方案中，第一种方法是从URL种子队列中取出种子，顺序执行下载、解析。这种方法不存在多线程并发，所以好处是可以充分像真实用户一样模拟URL数据下载请求。但是该方法有2个缺点：第一，效率较低。这种方法相当于串行执行任务，每个URL种子数据的下载和解析必须等到前面的URL执行完成之后才能执行。第二，资源利用率较低。一次只能有一个URL地址的下载及解析，其耗费的CPU及内存占比很小，一般不会超过10%，但是与此同时后面还有大量待抓取的种子URL在排着队，这就造成资源利用率低的问题。

第二种方法较第一种方法有所改进，引入了多线程机制，效率及资源利用率有所提升。但是该方法同样存在如下缺点：第一，不能模拟真实用户请求下载。多线程URL请求下载的时候，同一个网站，不同的子URL，如果同一时间点有多个线程去请求不同的子URL，而同时本节点对外默认是一个本机的IP，那这种行为就被认为不是真实用户的行为，不友好，从而会对下载行为实施禁止下载等措施。第二，该方法虽然引入了多线程，但是每个线程依然是串行的，虽然总体提升了资源利用率，但是一定程度上提高的还不够。一个下载的过程包括客户端发送数据请求、建立网络连接、对方服务器响应请求、数据传送与本地客户端接收，这些行为同时也和网络有很大的关系，所以一个URL地址的数据下载从发送请求到下载完成，这个过程所花费的时间是不确定性的，通常比解析过程时间长。解析的效率主要取决于机器及解析方式本身，如CPU性能、内存大小、正则表达式内容解析等，而下载与网络关系较大，并且需要主动提供信息如IP地址以及一些本机Cookie信息等。所以下载与解析这个两个模块在一个线程中串行执行，导致资源利用率不够充分。

发明内容

基于此，有必要针对现有技术存在的网络爬虫不能真实地模拟用户下载行为的技术问题，提出一种网络爬虫下载解析方法及装置。

一种网络爬虫下载解析方法，包括：

将多个待下载网络地址划分为多个下载任务，所述下载任务包括多个所述待下载网络地址；

将包括有多个IP地址的代理IP地址池划分为多个IP地址集合，每个所述IP地址集合包括多个所述代理IP地址池中的IP地址，每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数；

为每个所述下载任务分配一个所述IP地址集合作为所述下载任务的可支配IP地址集合，为每个所述下载任务建立包括多个下载线程的下载线程池，所述下载任务所包括的每个所述下载线程从所述下载任务的所述可支配IP地址集合中分配一个所述IP地址；

每个下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据；

对所述网页数据进行解析。

一种网络爬虫下载解析装置，包括：

下载任务生成模块，用于将多个待下载网络地址划分为多个下载任务，所述下载任务包括多个所述待下载网络地址；

IP地址集合生成模块，用于将包括有多个IP地址的代理IP地址池划分为多个IP地址集合，每个所述IP地址集合包括多个所述代理IP地址池中的IP地址，每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数；

下载线程分配IP地址模块，用于为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合，为每个下载任务建立包括多个下载线程的下载线程池，所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址；

下载模块，用于每个下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据；

解析模块，用于对所述网页数据进行解析。

本发明将多个待下载网络地址划分为多个任务，同时将多个IP地址划分为多个IP地址集合，对于一个下载任务分配一个IP地址集合，且同一下载任务所生成的下载线程分配IP地址集合中的一个IP地址，因此，对同一个待下载网络地址采用多下载线程下载时，由于每个下载线程的IP地址均不一样，因此，能很好地模拟真实用户的下载行为，避免待下载网站将下载线程判定为不友好下载而采取禁止下载的措施。

附图说明

图1为现有第一种网络爬虫下载方式示意图；

图2为现有第二种网络爬虫下载方式示意图；

图3为本发明一种网络爬虫下载解析方法的工作流程图；

图4为本发明一个例子的工作流程图；

图5为一个下载的网页源代码的截图；

图6为本发明一种网络爬虫下载解析装置的结构模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图3所示为本发明一种网络爬虫下载解析方法的工作流程图，包括：

步骤S301，将多个待下载网络地址划分为多个下载任务，所述下载任务包括多个所述待下载网络地址；

步骤S302，将包括有多个IP地址的代理IP地址池划分为多个IP地址集合，每个所述IP地址集合包括多个所述代理IP地址池中的IP地址，每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数；

步骤S303，为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合，为每个下载任务建立包括多个下载线程的下载线程池，所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址；

步骤S304，每个下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据；

步骤S305，对所述网页数据进行解析。

其中，步骤S301将多个待下载网络地址划分为多个下载任务，待下载网络地址可以采用URL种子的形式实现。

其中，步骤S304中，采用多线程下载时，每个下载线程所使用的IP地址均不同，因此，能很好地模拟真实用户的下载行为。

其中，步骤S305中，对网页数据进行解析，指的是从网页数据的源代码中获得该网络爬虫需要的数据。

在其中一个实施例中，采用如下方式计算每个所述IP地址集合的所述可支配IP个数：

将多个所述待下载网络地址划分为m个所述下载任务，每个下载任务包括多个所述待下载网络地址，其中m为大于或等于2的自然数；

将所述代理IP地址池中的n个IP地址划分为m个IP地址集合，其中n为大于或等于m的自然数，每个所述IP地址集合包括多个代理IP地址池中的IP地址；

计算以m为除数n为被除数的商，记为num1；

计算以m为除数n为被除数的余数，记为num2；

令每个所述IP地址集合的可支配IP个数为num1，且如果num2大于0，则选择num2个IP地址集合的可支配IP个数为num1+1。

本实施例，用于计算每个所述IP地址集合的所述可支配IP个数的方式，使得每个IP地址集合的可支配IP个数基本接近，避免某个IP地址集合的可支配IP个数与另一个IP地址集合的可支配IP个数相差太多，从而使得系统资源能得到最大优化。

在其中一个实施例中，每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。从而避免同一个IP地址同时请求同一个网站的多个URL地址，从而更好地模拟真实用户的下载行为。

在其中一个实施例中，为每个所述下载任务创建一个任务管理线程。每个下载任务均关联一个任务管理线程，从而能更好地对每个下载任务进行管理。

在其中一个实施例中，采用与所述下载线程无关的解析线程对所述网页数据进行解析。

本实施例中，解析线程与下载线程无关，将对网页数据的下载与对网页数据的解析完全分离，因此下载线程是否完成对网页数据的下载，并不会影响解析线程对网页数据的解析。

优选地，每个所述下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据，并将所述网页数据发送到包括多个解析线程的解析线程池，所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。

所有下载完成的网页数据，均保存在解析线程池中，由解析线程池采用多线程解析，从而得到该网络爬虫需要得到的数据。

如图4所示为本发明一个例子的工作流程图，包括：

步骤S401，从待抓取的URL种子队列中取出固定数值的URL种子，这个固定数值一般可以大于或等于2，然后根据这些URL种子，创建一个下载任务，同时创建并启动一个执行该下载任务的任务管理线程。然后重复上述步骤，将最终生成多个下载任务及相应的任务管理线程，假设生成的任务数为m。

步骤S402，将包括有多个IP地址的代理IP地址池划分为多个IP地址集合。其中，IP地址的数量为n，n大于或等于m，IP地址分别为IP1、IP2、…、IPn，。根据步骤S401生成的任务数m，将n个IP地址划分为m份，记为集合C={C1、C2、…、Cm},其中每个元素也同时为一个子集合。现需要计算2个值，以m为除数，n为被除数，计算出商，记为num1，同时计算出余数，记为num2。计算公式如下：

num1=n/m；

num2=n%m；

步骤S403,为每个所述下载任务分配一个所述IP地址集合作为所述下载任务的可支配IP地址集合。对每个下载任务，创建下载线程池，对下载任务中包含的多个URL种子，执行多线程下载，下载线程的数量为k，并且k需要满足条件：k小于或等于num1+1其中num1+1表示上述分到每个下载任务的可支配IP个数。之所以需要满足这个条件，原因是如果下载线程的数量大于下载任务的可支配IP个数，将无法避免同一个IP地址同时请求一个网站的多个URL地址，从而无法模拟真实用户请求下载。

步骤S404，执行多线程下载，首次执行，每个下载线程对应分配一个IP地址，该IP地址将从该下载任务的可支配IP地址集合中随机取得，当一个下载线程执行完下载之后，该下载线程继续取URL种子，然后执行下载，如果没有URL种子，则该下载线程将不会发送HTTP请求，自动释放使用的IP地址，该IP地址将会被回收，然后供其他下载线程使用。

步骤S404，创建一个独立的解析线程池，执行多线程内容解析。该解析无关IP，所以创建的是一个全局性的线程池。所有下载任务中每个下载线程执行下载完成之后，都将会把下载后的网页数据交给该解析线程池来解析。内容解析指的是从网页的源代码中获得该网络爬虫需要得到的数据，如图5为一个下载的网页源代码，对其进行解析，如解析出标题：“蓝烨：京东移动用户活跃度6月同比增4倍”。待网页数据解析完成之后，保存数据。

如图6所示为本发明一种网络爬虫下载解析装置的结构模块图，包括：

下载任务生成模块601，用于将多个待下载网络地址划分为多个下载任务，所述下载任务包括多个所述待下载网络地址；

IP地址集合生成模块602，用于将包括有多个IP地址的代理IP地址池划分为多个IP地址集合，每个所述IP地址集合包括多个所述代理IP地址池中的IP地址，每个所述IP地址集合包括的代理IP地址池中的IP地址的个数为所述IP地址集合的可支配IP个数；

下载线程分配IP地址模块603，用于为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合，为每个下载任务建立包括多个下载线程的下载线程池，所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址；

下载模块604，用于每个下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据；

解析模块605，用于对所述网页数据进行解析。

计算以m为除数n为被除数的商，记为num1；

计算以m为除数n为被除数的余数，记为num2；

在其中一个实施例中，每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。

在其中一个实施例中，为每个所述下载任务创建一个任务管理线程。

在其中一个实施例中，每个所述下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据，并将所述网页数据发送到包括多个解析线程的解析线程池，所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网络爬虫下载解析方法，其特征在于，包括：

为每个下载任务分配一个所述IP地址集合作为下载任务的可支配IP地址集合，为每个下载任务建立包括多个下载线程的下载线程池，所述下载任务所包括的每个下载线程从下载任务的可支配IP地址集合中分配一个IP地址；

对所述网页数据进行解析。

2.根据权利要求1所述的网络爬虫下载解析方法，其特征在于，采用如下方式计算每个所述IP地址集合的所述可支配IP个数：

计算以m为除数n为被除数的商，记为num1；

计算以m为除数n为被除数的余数，记为num2；

3.根据权利要求1所述的网络爬虫下载解析方法，其特征在于，每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。

4.根据权利要求1所述的网络爬虫下载解析方法，其特征在于，为每个所述下载任务创建一个任务管理线程。

5.根据权利要求1所述的网络爬虫下载解析方法，其特征在于，采用与所述下载线程无关的解析线程对所述网页数据进行解析。

6.根据权利要求5所述的网络爬虫下载解析方法，其特征在于，每个所述下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据，并将所述网页数据发送到包括多个解析线程的解析线程池，所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。

7.一种网络爬虫下载解析装置，其特征在于，包括：

解析模块，用于对所述网页数据进行解析。

8.根据权利要求7所述的网络爬虫下载解析装置，其特征在于，采用如下方式计算每个所述IP地址集合的所述可支配IP个数：

计算以m为除数n为被除数的商，记为num1；

计算以m为除数n为被除数的余数，记为num2；

9.根据权利要求7所述的网络爬虫下载解析装置，其特征在于，每个所述下载任务的所述下载线程池所包括的所述下载线程的数量少于或等于所述IP地址集合的可支配IP个数。

10.根据权利要求7所述的网络爬虫下载解析装置，其特征在于，为每个所述下载任务创建一个任务管理线程。

11.根据权利要求7所述的网络爬虫下载解析装置，其特征在于，采用与所述下载线程无关的解析线程对所述网页数据进行解析。

12.根据权利要求11所述的网络爬虫下载解析装置，其特征在于，每个所述下载任务采用所述下载线程池执行多线程下载，从下载任务所包括的待下载网络地址下载网页数据，并将所述网页数据发送到包括多个解析线程的解析线程池，所述解析线程池采用所述解析线程对所述网页数据执行多线程解析。