CN111400574A

CN111400574A - 一种异步爬虫系统及数据爬取方法

Info

Publication number: CN111400574A
Application number: CN202010171572.1A
Authority: CN
Inventors: 周坤朋; 秦曼; 王连军
Original assignee: Zhengzhou Xizhi Information Technology Co ltd
Current assignee: Zhengzhou Xizhi Information Technology Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10

Abstract

本申请提供了一种异步爬虫系统及数据爬取方法，其中，异步爬虫系统包括业务层模块和服务层模块；业务层模块在接收到来自终端的爬虫需求时，根据爬虫需求生成爬虫请求，将生成的爬虫请求进行缓存；服务层模块从已缓存的爬虫请求中取爬虫请求至Celery队列；利用Celery系统的多个任务执行单元并行爬取Celery队列中多个爬虫请求分别对应的数据，并将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据；以及利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块，以供终端从业务层模块获取。本申请能够大大提高数据爬取效率，且当面对源源不断的爬虫需求时，能够快速地进行响应。

Description

一种异步爬虫系统及数据爬取方法

技术领域

本申请涉及数据爬取技术领域，尤其涉及一种异步爬虫系统及数据爬取方法。

背景技术

目前的数据爬取方法都是非异步的，即，终端产生爬虫需求信息给服务器，等待服务器进行响应，服务器在获得爬虫需求信息后，做爬虫准备，调用爬虫方法，执行爬虫方法爬取数据，将爬取的数据响应给终端。现有的数据爬取方法的爬取效率较低，并且，当终端产生源源不断的爬虫需求信息时，服务器侧会因爬虫需求信息大而阻塞，进而影响服务。

发明内容

有鉴于此，本申请提供了一种异步爬虫系统及数据爬取方法，用以解决现有技术中的数据爬取方法的爬取效率较低，并且，当终端产生源源不断的爬虫需求信息时，服务器侧会因爬虫需求信息大而阻塞，进而影响服务的问题，其技术方案如下：

一种异步爬虫系统，包括：业务层模块和服务层模块；

所述业务层模块，用于当接收到来自终端的爬虫需求信息时，根据所述爬虫需求信息生成爬虫请求，并将生成的爬虫请求进行缓存；

所述服务层模块，用于从已缓存的爬虫请求中取爬虫请求至Celery任务队列中；利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据；利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据；以及利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块，以供所述终端从所述业务层模块获取。

可选的，所述服务层模块在利用所述Celery系统的一任务执行单元爬取一爬虫请求对应的数据时，具体用于：

利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。

可选的，所述服务层模块在利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据时，具体用于：

通过调用gevent协程包，加载爬虫任务，并行地从多个数据爬取途径爬取该爬虫请求对应的数据；

其中，一个爬虫任务对应一个数据爬取途径，任一爬取任务用于从对应的数据爬取途径爬取数据。

可选的，所述爬虫请求中至少包括：目标词和回调地址，所述爬虫请求用于请求爬取与所述目标词相关的词；

所述服务层模块在利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块时，具体用于：

根据每个爬虫请求中的回调地址，将每个爬虫请求对应的目标数据返回给所述业务层模块。

可选的，所述爬虫请求中还包括：词库标识；

所述业务层模块，还用于在获得每个爬虫请求对应的目标数据后，将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。

一种数据爬取方法，应用于服务器，所述服务器包括业务层模块和服务层模块，所述方法包括：

当接收到来自终端的爬虫需求信息时，利用所述业务层模块和所述爬虫需求信息生成爬虫请求，并将生成的爬虫请求进行缓存；

利用所述服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中；

利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据；

利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据；

利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块，以供所述终端从所述业务层模块获取。

可选的，利用所述Celery系统的任一任务执行单元爬取一爬虫请求对应的数据，包括：

可选的，所述利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据，包括：

利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块，包括：

利用所述Celery系统和每个爬虫请求中的回调地址，将每个爬虫请求对应的目标数据返回给所述业务层模块。

可选的，所述爬虫请求中还包括：词库标识；

所述数据爬取方法还包括：

在获得每个爬虫请求对应的目标数据后，利用业务层模块将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。

经由上述方案可知，本申请提供的异步爬虫系统中，业务层模块在接收到来自终端的爬虫需求信息时，可根据爬虫需求信息生成爬虫请求，并将生成的爬虫请求进行缓存，服务层模块可从已缓存的爬虫请求中取爬虫请求至Celery任务队列中，利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据，并将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据，服务层模块还可利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块，以供终端从所述业务层模块获取。经由上述方案可知，本申请可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据，这使得数据爬取效率大大提高，并且，业务层模块在接收到爬虫需求信息时，可迅速将爬虫需求信息组装成爬虫请求进行缓存，这个过程的执行速度很快，使得当业务层模块面对源源不断的爬虫需求信息时，服务层模块能够快速地进行响应，即业务层模块不会因为爬虫需求信息的数量较大而影响服务。另外，本申请中数据的爬取、所爬取数据的整合和回传都由Celery系统实现，服务层模块并未接触到具体的数据，这使得业务层模块和服务层模块实现了解耦合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的异步爬虫系统的结构示意图；

图2为本申请实施例提供的从获得爬虫需求至并行爬取Celery任务队列中多个爬虫请求分别对应的数据的示意图；

图3为本申请实施例提供的数据爬取方法的流程示意图；

图4为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有的数据爬取方法存在的问题，本案发明人进行了深入研究，最终提供了一种异步爬虫系统，该异步爬虫系统能够提高数据爬取效率，且能够对终端的爬虫需求快速地进行响应，接下来通过下述实施例对本申请提供的异步爬虫系统进行介绍。

请参阅图1，示出了本申请实施例提供的异步爬虫系统的结构示意图，该异步爬虫系统可以包括：业务层模块101和服务层模块102。

业务层模块101，用于接收终端产生的爬虫需求信息，并在接收到终端产生的爬虫需求信息时，根据爬虫需求信息生成爬虫请求，将生成的爬虫请求进行缓存。

其中，爬虫需求信息包括与待爬取信息相关的信息，爬虫需求信息中至少包括目标词，爬虫需求信息至少用于指示异步爬虫系统爬取与目标词相关的词。

具体的，业务层模块101在根据爬虫需求信息生成爬虫请求后，可将生成的爬虫请求缓存至Redis任务队列中。

其中，爬虫请求中至少包括目标词和回调地址，爬虫请求用于请求服务层模块102爬取与目标词相关词，并使服务层模块102将数据爬取结果基于回调地址返回给业务层模块101。

服务层模块102，用于从已缓存的爬虫请求中取爬虫请求至Celery任务队列中；利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据；利用Celery系统将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据；以及利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块101，以供终端从业务层模块101获取。

前述内容提到，业务层模块101在生成爬虫请求后，可将爬虫请求缓存于Redis任务队列中，基于此，服务层模块102可从Redis任务队列中取爬虫请求至Celery任务队列中。需要说明的是，服务层模块102从Redis任务队列中取爬虫请求的速率和个数可根据具体情况设定。

需要说明的是，Celery系统是基于python语言开发的分布式异步消息任务队列系统，其适用于数据量级大，性能需求高的应用场景。Celery系统中包括Celery任务队列和任务执行单元(任务执行单元本质上为任务执行进程worker)，其中，任务执行单元从Celery任务队列读取Celery任务并执行，Celery任务队列符合先进先出原则，如果Celery任务队列中有多个Celery任务，则可将多个Celery任务置于不同的执行进程中执行，即多个Celery任务可由多个任务执行单元执行。

基于上述Celery系统的特性，如图2所示，本申请实施例中的业务层模块101将爬虫请求放至Redis任务队列中后，为了可以利用Celery系统的任务执行单元执行Redis任务队列中的任务，服务层模块102首先需要从Redis任务队列中取爬虫请求至Celery任务队列中，然后利用Celery系统的多个任务执行单元(多个worker)并行爬取Celery任务队列中多个爬虫请求分别对应的数据。

可以理解的是，数据的爬取途径通常为多个，比如，百度、谷歌、搜狐等，为了进一步提高数据的爬取效率，本申请实施例中的服务层模块102在利用Celery系统的一任务执行单元爬取一爬虫请求对应的数据时，具体用于利用Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。

具体的，服务层模块102可通过调用gevent协程包，加载爬虫任务，并行地从多个数据爬取途径爬取任一爬虫请求对应的数据。其中，一个爬虫任务对应一个数据爬取途径，一个爬取任务用于从对应的数据爬取途径爬取与目标词相关的词。

服务层模块102在利用Celery系统获得每个爬虫请求对应的目标数据后，根据每个爬虫请求中的回调地址将每个爬虫请求对应的目标数据返回给业务层模块。终端可以从业务层模块轮询获取数据并展示。

另外，本申请中，业务层模块101生成的爬虫请求中还包括词库标识。业务层模块在获得每个爬虫请求对应的目标数据后，可将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。

可选的，本申请实施例中的爬虫请求中还可以包括任务标识。服务层模块102在针对一爬虫请求向业务层模块101返回该爬虫请求对应的目标数据时，可将该爬虫请求一并返回给业务层模块101。本实施例中的异步爬虫系统还可以包括监测模块，监测模块用于根据任务标识监控对每个爬虫请求的响应情况。

本申请实施例提供的异步爬虫系统，可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据，这使得数据爬取效率大大提高，并且，业务层模块在接收到爬虫需求信息时，可迅速将爬虫需求信息组装成爬虫请求放到Redis任务队列，这个过程的执行速度很快，使得当业务层模块面对源源不断的爬虫需求信息时，服务层模块能够快速地进行响应，即业务层模块不会因为爬虫需求信息的数量较大而影响服务。另外，本申请实施例中，数据的爬取、所爬取数据的整合和回传都由Celery系统实现，服务层模块102并未接触到具体的数据，这使得业务层模块和服务层模块实现了解耦合。

本申请实施例还提供了一种数据爬取方法，请参阅图3，示出了该数据爬取方法的流程示意图，该数据爬取方法可应用于服务器，该服务器可以包括业务层模块和服务层模块，该数据爬取方法可以包括：

步骤S301：当接收到来自终端的爬虫需求信息时，利用业务层模块和爬虫需求信息生成爬虫请求，并将生成的爬虫请求进行缓存。

其中，爬虫需求信息包括与待爬取词相关的信息。本实施例利用业务层模块对爬虫需求信息进行组装，以生成爬虫请求。爬虫请求中至少包括目标词和回调地址，爬虫请求用于请求服务层模块爬取与目标词相关词，并使服务层模块将数据爬取结果基于回调地址返回。

具体的，服务器在利用业务层模块和爬虫需求信息生成爬虫请求后，可将生成的爬虫请求缓存至Redis任务队列中。

步骤S302：利用服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中。

前述内容提到，在利用业务层模块和爬虫需求信息生成爬虫请求后，可将爬虫请求缓存于Redis任务队列中，基于此，可利用服务层模块从Redis任务队列中取爬虫请求至Celery任务队列中。本申请中，服务器可控制服务层模块从Redis任务队列中取爬虫请求的速率和数量。

步骤S303：利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据。

本申请实施例中，在利用业务层模块将爬虫请求放至Redis任务队列中后，为了可以利用Celery系统的任务执行单元执行Redis任务队列中的任务，首先需要利用服务层模块从Redis任务队列中取爬虫请求至Celery任务队列中，然后利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据。本申请实施例利用Celery的多worker机制，采用多进程并行响应多个爬虫请求。

步骤S304：利用Celery系统将针对每个爬虫请求爬取的数据进行整合，以获得每个爬虫请求对应的目标数据。

优选的，利用Celery系统的任一任务执行单元爬取一爬虫请求对应的数据的过程可以包括：利用Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。针对任一爬取请求，并行地从多个数据爬取途径爬取该爬虫请求对应的数据，能够进一步提高数据爬取效率。

在一种可能的实现方式中，在并行地从多个数据爬取途径爬取该爬虫请求对应的数据时，可通过调用gevent协程包，加载爬虫任务，并行地从多个数据爬取途径爬取任一爬虫请求对应的数据。其中，一个爬虫任务对应一个数据爬取途径，一个爬取任务用于从对应的数据爬取途径爬取与目标词相关的词。

步骤S305：利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块，以供终端从业务层模块获取。

具体的，在利用Celery系统获得每个爬虫请求对应的目标数据后，可利用Celery系统，根据每个爬虫请求中的回调地址，将每个爬虫请求对应的目标数据返回给业务层模块。

优选的，本实施例中的爬虫请求中还包括：词库标识，相应的，本实施例提供的数据爬取方法还可以包括：在获得每个爬虫请求对应的目标数据后，利用业务层模块将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。

可选的，本申请实施例中的爬虫请求中还可以包括任务标识。在利用Celery系统向业务层模块返回爬虫请求对应的目标数据时，可将该爬虫请求一并返回给业务层模块。本实施例提供的数据爬取方法还可以包括：根据任务标识监控对每个爬虫请求的响应情况。

本申请实施例提供的数据爬取方法，可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据，这使得数据爬取效率大大提高，并且，在接收到爬虫需求信息时，可利用业务层模块迅速将爬虫需求信息组装成爬虫请求放到Redis任务队列，这个过程的执行速度很快，使得当服务器面对源源不断的爬虫需求信息时，能够快速地进行响应，即服务器不会因为爬虫需求信息的数量较大而影响服务。另外，本申请实施例中，数据的爬取、所爬取数据的整合和回传都基于Celery系统实现，服务器的服务层模块并未接触到具体的数据，这使得服务器的业务层模块和服务层模块实现了解耦合。

本申请实施例还提供了一种服务器，请参阅图4，示出了该服务器的结构示意图，该服务器可以包括：至少一个处理器401，至少一个通信接口402，至少一个存储器403和至少一个通信总线404；

在本申请实施例中，处理器401、通信接口402、存储器403、通信总线404的数量为至少一个，且处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信；

处理器401可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器403可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

当接收到来自终端的爬虫需求信息时，利用服务器的业务层模块和所述爬虫需求信息生成爬虫请求，并将生成的爬虫请求进行缓存；

利用所述服务器的服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中；

利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块，以供所述终端从所述服务器的业务层模块获取。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种异步爬虫系统，其特征在于，包括：业务层模块和服务层模块；

2.根据权利要求1所述的异步爬虫系统，其特征在于，所述服务层模块在利用所述Celery系统的一任务执行单元爬取一爬虫请求对应的数据时，具体用于：

3.根据权利要求2所述的异步爬虫系统，其特征在于，所述服务层模块在利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据时，具体用于：

4.根据权利要求1所述的异步爬虫系统，其特征在于，所述爬虫请求中至少包括：目标词和回调地址，所述爬虫请求用于请求爬取与所述目标词相关的词；

5.根据权利要求4所述的异步爬虫系统，其特征在于，所述爬虫请求中还包括：词库标识；

6.一种数据爬取方法，其特征在于，应用于服务器，所述服务器包括业务层模块和服务层模块，所述方法包括：

7.根据权利要求6所述的数据爬取方法，其特征在于，利用所述Celery系统的任一任务执行单元爬取一爬虫请求对应的数据，包括：

8.根据权利要求7所述的数据爬取方法，其特征在于，所述利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据，包括：

9.根据权利要求6所述的数据爬取方法，其特征在于，所述爬虫请求中至少包括：目标词和回调地址，所述爬虫请求用于请求爬取与所述目标词相关的词；

10.根据权利要求9所述的数据爬取方法，其特征在于，所述爬虫请求中还包括：词库标识；

所述数据爬取方法还包括：