CN112417242A

CN112417242A - 分布式爬虫的集中管理系统

Info

Publication number: CN112417242A
Application number: CN202011240728.3A
Authority: CN
Inventors: 钟通; 罗平
Original assignee: Shenzhen Bessky Technology Co ltd
Current assignee: Shenzhen Bessky Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-26

Abstract

本发明实施例公开了一种分布式爬虫的集中管理系统，其中,该分布式爬虫的集中管理系统包括主机服务器和与该主机服务器通信的多台从机服务器，上述主机服务器和从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行URL的管理。本发明通过采用分布式爬虫来进行数据爬取并对分布式爬虫通过管理平台进行管理，不仅实现了对爬虫任务的集中管理，还节省了人力资源，完善了对爬虫任务的管理。

Description

分布式爬虫的集中管理系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种分布式爬虫的集中管理系统。

背景技术

随着现代科技的飞速发展，信息化、数字化时代的展开，互联网俨然成为了当今社会信息的最大载体。为了能够在浩瀚的信息海洋中精确地查找出用户所需要的信息，搜索引擎技术应运而生，而作为这一技术的重要组成部分——网络爬虫，它直接影响了搜索引擎的质量、大数据分析的准确性、模型培养的完善等相关需要数据基础的工作的完成效果。因此保证爬虫的高效性、准确性、速度以及如何管理多个爬虫任务等方面是目前爬虫的技术要点。

目前，爬虫任务的数量较多，如果通过人工进行管理，不仅会浪费大量的人力资源，而且无法做到集中精准，因此目前对爬虫任务的管理还需完善。

发明内容

基于此，有必要针对上述问题，提出了一种分布式爬虫的集中管理系统，用于实现对分布式爬虫任务的集中管理。

在第一方面，本发明实施例提供一种分布式爬虫的集中管理系统，所述集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis 队列进行统一资源定位符URL的管理；

其中，所述scrapy框架包含引擎、调度器、下载器、爬虫、管道以及中间件；

所述redis队列、所述调度器、所述引擎及所述管道布局在所述主机服务器，所述下载器、所述爬虫及所述中间件布局在所述从机服务器上；

所述从机服务器用于向所述主机服务器发送request；

所述主机服务器用于基于所述request分配对应的URL，并向所述从机服务器反馈包含所述URL的request；

所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中。

可选的，所述Scrapy框架与Django对接。

可选的，所述主机服务器中设置有爬虫，所述主机服务器调用所述爬虫从网络获取URL，并进行去重处理，将去重之后的URL按照优先级添加至所述redis 队列。

可选的，所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中，包括：

所述从机服务器具体用于从所述包含URL的request中提取URL，并由所述下载器下载所述URL对应的页面，通过所述爬虫按照预设的匹配规则对所述页面进行解析及数据提取，并将提取的数据发送给所述主机服务器中的管道，所述管道则用于将所述提取的数据存储至所述预设的数据库中。

可选的，所述从机服务器采用多线程的方式对所述页面进行解析及数据提取。

可选的，所述多线程的数量由CONCURRENT_REQUESTS模块确定。

可选的，所述从机服务器中的爬虫继承爬虫功能及RedisMixin，所述 RedisMixin用于从所述包含URL的request中提取URL。

可选的，继承所述爬虫功能时，调用steupsetup_redis函数，所述setup_redis 函数用于连接redis队列。

可选的，当所述从机服务器中的爬虫处于空闲状态时，调用spider_idle函数，所述spider_idle函数用于调用schedule_next_request函数，以使得所述爬虫处于活着状态，且抛出DontCloseSpider异常。

可选的，当所述从机服务器中的爬虫解析到数据时，调用item_scraped函数，所述item_scraped函数用于调用schedule_next_request函数，获取下一个request。

采用本发明实施例，具有如下有益效果：

本发明实施例公开了一种分布式爬虫的集中管理系统，其中集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行统一资源定位符URL的管理，其中，从机服务器用于向主机服务器发送request；主机服务器用于基于request分配对应的URL，并向所述从机服务器反馈包含该 URL的request，从机服务器还用于根据包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中。通过本发明采用分布式爬虫来进行数据爬取并对分布式爬虫通过管理系统进行管理，不仅实现了对爬虫任务的集中管理，还节省了人力资源，完善了对爬虫任务的管理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明实施例中分布式爬虫的集中管理系统的框架示意图；

图2为本发明图1所示的实施例中的分布式爬虫的集中管理系统的示意图；

图3为本发明实施例中分布式爬虫的集中管理系统的主机服务器与从机服务器交互式实现方式示意图；

图4为本发明实施例中分布式爬虫的集中管理系统的页面解析的多线程开启流程图；

图5为本发明实施例中分布式爬虫的集中管理系统的功能模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1及图2，图1为本发明实施例中分布式爬虫的集中管理系统的框架示意图，图2为本发明图1所示的实施例中的分布式爬虫的集中管理系统的示意图。

本发明实施例中，分布式爬虫集中管理系统包括主机服务器(Master)和与主机服务器通信的多台从机服务器(Slave)，如图2所示，其中，主机表示的是主机服务器，从机表示的是从机服务器，主机服务器和从机服务器使用如图1所示的Scrapy框架进行布局，且scrapy框架使用redis队列进行统一资源定位符 (Uniform Resource Locator，URL)的管理；

其中，如图1所示，scrapy框架包含引擎(Scrapy Egine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Speders)、管道(item Pipeline)以及中间件(Spidermiddlewares)；

其中，redis队列、调度器、引擎及管道布局在主机服务器，下载器、爬虫及中间件布局在从机服务器上；

基于上述的框架，从机服务器用于向主机服务器发送request；主机服务器在接收到request之后，主机服务器用于基于request分配对应的URL，并向从机服务器反馈包含URL的request；从机服务器还用于根据包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中。

本发明实施例，采用的是分布式爬虫scrapy_redis框架来进行爬虫的数据采集，scrapy_redis框架区别于其他的框架的不同之处在于，该框架可以进行集中调度，通过redis队列，做到一对多集中调度，即一个爬虫任务对应多个从机服务器。

如图2所示，可以理解的是主机服务器即master，一个从机服务器对应一个slave，主机服务器与多台slave进行通信。

进一步地，请参阅图3，图3为本发明实施例中分布式爬虫的集中管理系统的主机服务器与从机服务器交互式实现方式示意图，假设有四台设备：任意一台设备都可以作为Master端或Slaver端，本发明实施例中，将其中任意一台作为主机服务器即Master端，其余设备作为从机服务器即Slaver端。

其中，master端：存在Redis队列，将从从机服务器获取的request进行分配对应的url，以及将从机服务器爬取到的数据存储到预设数据库；Slaver端：负责执行主机服务器获得的包含URL的request的爬取，并在爬取运行过程中提交 request给主机服务器，将爬取到的数据存入预设数据库。

本发明实施例中，进一步的，Scrapy框架与Django对接。

首先，配置环境变量PYTHONPATH，设置其值为此Django的项目根目录的路径，例如E:\PythonProjects\helloscrapy。

其次，在项目根目录下新建一个bots文件夹，进入bots目录，新建一个init.py 文件，内容如下：

然后，在bots目录下运行以下命令来新建一个scrapy项目：

scrapy startproject testbot

得到testbot项目结构如下：

然后，编写items、spiders、pipelines，最后进行爬虫设置部署，完成对接。

可以理解的是上述对接过程描述所做示例，只做举例，不做具体限定。

本发明实施例中，进一步的，主机服务器中设置有爬虫，主机服务器调用爬虫从网络获取URL，并进行去重处理，将去重之后的URL按照优先级添加至redis 队列。

其中，可以理解的是，该框架将原本的Scrapy queue换成了redis队列，因此Scheduler调度器替换为scrapy_redis调度器，负责将从机服务器提交的request 进行入列操作，并去除下一个主机服务器要分配的基于request的URL等操作。同时把待爬队列即从机服务器提交的request进行入列操作形成的队列，按照优先级建立了一个字典结构比如：

其中，通过Duplication Filter组件实现去重功能，利用redis中的set的不重复的特性去重。调度器从引擎接受从机服务器提交的request，将request的指纹存入redis的set检查是否重复，并将不重复从机服务器提交的request进行入列操作写入redis的request queue。引擎将从机服务器发出的request送入主机服务器时，主机中的调度器从redis的request queue队列里根据优先级取出个对应的url，主机在通过引擎将包括request的url发给从机服务器爬虫进行爬取。

本发明实施例中，进一步的，从机服务器还用于根据包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中，包括：

从机服务器具体用于从包含URL的request中提取URL，并由下载器下载 URL对应的页面，通过爬虫按照预设的匹配规则对页面进行解析及数据提取，并将提取的数据发送给主机服务器中的管道，管道则用于将提取的数据存储至预设的数据库中。

本发明实施例中，进一步的，从机服务器采用多线程的方式对所述页面进行解析及数据提取。

本发明实施例中，进一步的，多线程的数量由CONCURRENT_REQUESTS 模块确定。

其中，可以理解的是，线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务，多线程就是在一个进程中的多个线程，如果使用多线程默认开启一个主线程，按照程序需求自动开启多个线程(也可以自己定义线程数)

其中，普通的python爬虫是单进程单线程的，这样在遇到大量重复的操作时就只能逐个进行。例如，你有1000个美图的链接，送入给下载器，看着图片只能一个个下载出来，进度很慢，于是为了同时启动多个下载器，实现多图同时下载，因此使用多线程来实现，把每个带着不同参数下载器分给每个线程，然后实现高速下载。

其中，页面解析过程如图4所示，图4为本发明实施例中分布式爬虫的集中管理系统的页面解析的多线程开启流程图。通过开启多线程解析页面，实现提升对页面的爬取速度。

其中，引擎将从机服务器爬取到的Item返回到管道Item Pipeline，可以理解的是，该框架将原本的Scrapy queue换成了redis队列，因此scrapy-redis的管道 ItemPipeline将爬取到的Item存入redis的items queue。因此，修改过Item Pipeline可以很方便的根据key从items queue提取item，从而实现items processes 集群。

在本发明实施例中，进一步的，从机服务器中的爬虫继承爬虫功能及RedisMixin，RedisMixin用于从包含URL的request中提取URL。

可选的，当从机服务器中的爬虫处于空闲状态时，调用spider_idle函数，spider_idle函数用于调用schedule_next_request函数，以使得爬虫处于活着状态，且抛出DontCloseSpider异常。

可选的，当从机服务器中的爬虫解析到数据时，调用item_scraped函数， item_scraped函数用于调用schedule_next_request函数，获取下一个request。

其中，可以理解的是，该框架将原本的Scrapy queue换成了redis队列，因此不再使用scrapy原有的Spider类，重写的RedisSpider继承了Spider和 RedisMixin这两个类，RedisMixin是用来从redis读取url的类。当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis队列，然后会设置signals(信号)：

当spider空闲时候的signal，会调用spider_idle函数，这个函数调用 schedule_next_request函数，保证spider是一直活着的状态，并且抛出 DontCloseSpider异常；

当抓到一个item时的signal，会调用item_scraped函数，这个函数会调用schedule_next_request函数，获取下一个request。

其中，为更好理解本发明实施例，对图一所示架构图进行必要且完整的解释：

1.Spiders(爬虫):它负责处理所有url,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)

2.Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

3.Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

4.Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests 请求，并将其获取到的url交还给Scrapy Engine(引擎)，由引擎交给Spider来处理

5.ItemPipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理(详细分析、过滤、存储等)的地方.

6.Downloader Middlewares(下载中间件)：你可以当作是一个可以自定义扩展下载功能的组件。

7.Spider Middlewares(Spider中间件)：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的url；和从Spider出去的Requests)

以及其完整运行原理如下：

1.SPIDERS的yeild将request发送给ENGIN；

2.ENGINE对request不做任何处理发送给SCHEDULER；

3.SCHEDULER(url调度器)，通过去重和优先级调度将生成包含request的 url交给ENGIN；

4.ENGINE拿到包含request的url，通过MIDDLEWARE进行层层过滤发送给DOWNLOADER；

5.DOWNLOADER在网上获取到包含request的url数据之后，又经过MIDDLEWARE进行层层过滤发送给ENGIN；

6.ENGINE获取到包含request的url数据之后，返回给SPIDERS，SPIDERS 的parse()方法对获取到的包含request的url数据进行处理，解析出items或者 requests；

7.将解析出来的items或者requests发送给ENGIN；

8.ENGIN获取到items或者requests传回主机服务器，将items发送给ITEMPIPELINES管道，将requests发送给SCHEDULER进行去重和入列。

其中如图5所示为本发明实施例中分布式爬虫的集中管理系统的功能模块示意图，图5展示了两个功能模块：网络爬虫模块，爬虫管理平台模块。

其中，爬虫管理模块由主机服务器和从机服务器组成，主要负责对所有爬虫机的集中管控，通过一台中心服务器主机，去集中调度所有的爬虫从机服务器，且可以使用专门用来进行分布式部署的Scrapy框架，该框架提供http接口用于实现部署、启动、停止、删除爬虫等等。

其中，网络爬虫模块，就是负责海量数据的抓取功能。

其中，从机服务器向主机服务器发送request，该request中携带IP，Headers 等，主机服务器将基于redis队列中爬虫任务(URL)的优先级确定URL，并携带在request中反馈给从机服务器，从机服务器下载URL对应的html页面，通过定制的xpath匹配规则，或者正则匹配规则，对该html页面进行匹配，获取所需要的数据，并将这些数据生成实例化对象，传入管道中，并保存至预设的数据库，例如可以是setting配置的MYSQL地址对应的表中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态 RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种分布式爬虫的集中管理系统，其特征在于，所述集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行统一资源定位符URL的管理；

所述从机服务器用于向所述主机服务器发送request；

2.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述Scrapy框架与Django对接。

3.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述主机服务器中设置有爬虫，所述主机服务器调用所述爬虫从网络获取URL，并进行去重处理，将去重之后的URL按照优先级添加至所述redis队列。

4.根据权利要求1所述一种分布式爬虫的集中管理系统，其特征在于，所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中，包括：

5.根据权利要求4所述一种分布式爬虫的集中管理系统，其特征在于，所述从机服务器采用多线程的方式对所述页面进行解析及数据提取。

6.根据权利要求5所述一种分布式爬虫的集中管理系统，其特征在于，所述多线程的数量由CONCURRENT_REQUESTS模块确定。

7.根据权利要求4所述一种分布式爬虫的集中管理系统，其特征在于，所述从机服务器中的爬虫继承爬虫功能及RedisMixin，所述RedisMixin用于从所述包含URL的request中提取URL。

8.根据权利要求7所述一种分布式爬虫的集中管理系统，其特征在于，继承所述爬虫功能时，调用steupsetup_redis函数，所述setup_redis函数用于连接redis队列。

9.根据权利要求4所述一种分布式爬虫的集中管理系统，其特征在于，当所述从机服务器中的爬虫处于空闲状态时，调用spider_idle函数，所述spider_idle函数用于调用schedule_next_request函数，以使得所述爬虫处于活着状态，且抛出DontCloseSpider异常。

10.根据权利要求4所述一种分布式爬虫的集中管理系统，其特征在于，当所述从机服务器中的爬虫解析到数据时，调用item_scraped函数，所述item_scraped函数用于调用schedule_next_request函数，获取下一个request。