CN111400574A - 一种异步爬虫系统及数据爬取方法 - Google Patents

一种异步爬虫系统及数据爬取方法 Download PDF

Info

Publication number
CN111400574A
CN111400574A CN202010171572.1A CN202010171572A CN111400574A CN 111400574 A CN111400574 A CN 111400574A CN 202010171572 A CN202010171572 A CN 202010171572A CN 111400574 A CN111400574 A CN 111400574A
Authority
CN
China
Prior art keywords
crawler
crawling
request
layer module
service layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010171572.1A
Other languages
English (en)
Inventor
周坤朋
秦曼
王连军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xizhi Information Technology Co ltd
Original Assignee
Zhengzhou Xizhi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Xizhi Information Technology Co ltd filed Critical Zhengzhou Xizhi Information Technology Co ltd
Priority to CN202010171572.1A priority Critical patent/CN111400574A/zh
Publication of CN111400574A publication Critical patent/CN111400574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请提供了一种异步爬虫系统及数据爬取方法,其中,异步爬虫系统包括业务层模块和服务层模块;业务层模块在接收到来自终端的爬虫需求时,根据爬虫需求生成爬虫请求,将生成的爬虫请求进行缓存;服务层模块从已缓存的爬虫请求中取爬虫请求至Celery队列;利用Celery系统的多个任务执行单元并行爬取Celery队列中多个爬虫请求分别对应的数据,并将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;以及利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块,以供终端从业务层模块获取。本申请能够大大提高数据爬取效率,且当面对源源不断的爬虫需求时,能够快速地进行响应。

Description

一种异步爬虫系统及数据爬取方法
技术领域
本申请涉及数据爬取技术领域,尤其涉及一种异步爬虫系统及数据爬取方法。
背景技术
目前的数据爬取方法都是非异步的,即,终端产生爬虫需求信息给服务器,等待服务器进行响应,服务器在获得爬虫需求信息后,做爬虫准备,调用爬虫方法,执行爬虫方法爬取数据,将爬取的数据响应给终端。现有的数据爬取方法的爬取效率较低,并且,当终端产生源源不断的爬虫需求信息时,服务器侧会因爬虫需求信息大而阻塞,进而影响服务。
发明内容
有鉴于此,本申请提供了一种异步爬虫系统及数据爬取方法,用以解决现有技术中的数据爬取方法的爬取效率较低,并且,当终端产生源源不断的爬虫需求信息时,服务器侧会因爬虫需求信息大而阻塞,进而影响服务的问题,其技术方案如下:
一种异步爬虫系统,包括:业务层模块和服务层模块;
所述业务层模块,用于当接收到来自终端的爬虫需求信息时,根据所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
所述服务层模块,用于从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;以及利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述业务层模块获取。
可选的,所述服务层模块在利用所述Celery系统的一任务执行单元爬取一爬虫请求对应的数据时,具体用于:
利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。
可选的,所述服务层模块在利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据时,具体用于:
通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取该爬虫请求对应的数据;
其中,一个爬虫任务对应一个数据爬取途径,任一爬取任务用于从对应的数据爬取途径爬取数据。
可选的,所述爬虫请求中至少包括:目标词和回调地址,所述爬虫请求用于请求爬取与所述目标词相关的词;
所述服务层模块在利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块时,具体用于:
根据每个爬虫请求中的回调地址,将每个爬虫请求对应的目标数据返回给所述业务层模块。
可选的,所述爬虫请求中还包括:词库标识;
所述业务层模块,还用于在获得每个爬虫请求对应的目标数据后,将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
一种数据爬取方法,应用于服务器,所述服务器包括业务层模块和服务层模块,所述方法包括:
当接收到来自终端的爬虫需求信息时,利用所述业务层模块和所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
利用所述服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;
利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;
利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述业务层模块获取。
可选的,利用所述Celery系统的任一任务执行单元爬取一爬虫请求对应的数据,包括:
利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。
可选的,所述利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据,包括:
通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取该爬虫请求对应的数据;
其中,一个爬虫任务对应一个数据爬取途径,任一爬取任务用于从对应的数据爬取途径爬取数据。
可选的,所述爬虫请求中至少包括:目标词和回调地址,所述爬虫请求用于请求爬取与所述目标词相关的词;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,包括:
利用所述Celery系统和每个爬虫请求中的回调地址,将每个爬虫请求对应的目标数据返回给所述业务层模块。
可选的,所述爬虫请求中还包括:词库标识;
所述数据爬取方法还包括:
在获得每个爬虫请求对应的目标数据后,利用业务层模块将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
经由上述方案可知,本申请提供的异步爬虫系统中,业务层模块在接收到来自终端的爬虫需求信息时,可根据爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存,服务层模块可从已缓存的爬虫请求中取爬虫请求至Celery任务队列中,利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据,并将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据,服务层模块还可利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块,以供终端从所述业务层模块获取。经由上述方案可知,本申请可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据,这使得数据爬取效率大大提高,并且,业务层模块在接收到爬虫需求信息时,可迅速将爬虫需求信息组装成爬虫请求进行缓存,这个过程的执行速度很快,使得当业务层模块面对源源不断的爬虫需求信息时,服务层模块能够快速地进行响应,即业务层模块不会因为爬虫需求信息的数量较大而影响服务。另外,本申请中数据的爬取、所爬取数据的整合和回传都由Celery系统实现,服务层模块并未接触到具体的数据,这使得业务层模块和服务层模块实现了解耦合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的异步爬虫系统的结构示意图;
图2为本申请实施例提供的从获得爬虫需求至并行爬取Celery任务队列中多个爬虫请求分别对应的数据的示意图;
图3为本申请实施例提供的数据爬取方法的流程示意图;
图4为本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有的数据爬取方法存在的问题,本案发明人进行了深入研究,最终提供了一种异步爬虫系统,该异步爬虫系统能够提高数据爬取效率,且能够对终端的爬虫需求快速地进行响应,接下来通过下述实施例对本申请提供的异步爬虫系统进行介绍。
请参阅图1,示出了本申请实施例提供的异步爬虫系统的结构示意图,该异步爬虫系统可以包括:业务层模块101和服务层模块102。
业务层模块101,用于接收终端产生的爬虫需求信息,并在接收到终端产生的爬虫需求信息时,根据爬虫需求信息生成爬虫请求,将生成的爬虫请求进行缓存。
其中,爬虫需求信息包括与待爬取信息相关的信息,爬虫需求信息中至少包括目标词,爬虫需求信息至少用于指示异步爬虫系统爬取与目标词相关的词。
具体的,业务层模块101在根据爬虫需求信息生成爬虫请求后,可将生成的爬虫请求缓存至Redis任务队列中。
其中,爬虫请求中至少包括目标词和回调地址,爬虫请求用于请求服务层模块102爬取与目标词相关词,并使服务层模块102将数据爬取结果基于回调地址返回给业务层模块101。
服务层模块102,用于从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据;利用Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;以及利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块101,以供终端从业务层模块101获取。
前述内容提到,业务层模块101在生成爬虫请求后,可将爬虫请求缓存于Redis任务队列中,基于此,服务层模块102可从Redis任务队列中取爬虫请求至Celery任务队列中。需要说明的是,服务层模块102从Redis任务队列中取爬虫请求的速率和个数可根据具体情况设定。
需要说明的是,Celery系统是基于python语言开发的分布式异步消息任务队列系统,其适用于数据量级大,性能需求高的应用场景。Celery系统中包括Celery任务队列和任务执行单元(任务执行单元本质上为任务执行进程worker),其中,任务执行单元从Celery任务队列读取Celery任务并执行,Celery任务队列符合先进先出原则,如果Celery任务队列中有多个Celery任务,则可将多个Celery任务置于不同的执行进程中执行,即多个Celery任务可由多个任务执行单元执行。
基于上述Celery系统的特性,如图2所示,本申请实施例中的业务层模块101将爬虫请求放至Redis任务队列中后,为了可以利用Celery系统的任务执行单元执行Redis任务队列中的任务,服务层模块102首先需要从Redis任务队列中取爬虫请求至Celery任务队列中,然后利用Celery系统的多个任务执行单元(多个worker)并行爬取Celery任务队列中多个爬虫请求分别对应的数据。
可以理解的是,数据的爬取途径通常为多个,比如,百度、谷歌、搜狐等,为了进一步提高数据的爬取效率,本申请实施例中的服务层模块102在利用Celery系统的一任务执行单元爬取一爬虫请求对应的数据时,具体用于利用Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。
具体的,服务层模块102可通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取任一爬虫请求对应的数据。其中,一个爬虫任务对应一个数据爬取途径,一个爬取任务用于从对应的数据爬取途径爬取与目标词相关的词。
服务层模块102在利用Celery系统获得每个爬虫请求对应的目标数据后,根据每个爬虫请求中的回调地址将每个爬虫请求对应的目标数据返回给业务层模块。终端可以从业务层模块轮询获取数据并展示。
另外,本申请中,业务层模块101生成的爬虫请求中还包括词库标识。业务层模块在获得每个爬虫请求对应的目标数据后,可将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
可选的,本申请实施例中的爬虫请求中还可以包括任务标识。服务层模块102在针对一爬虫请求向业务层模块101返回该爬虫请求对应的目标数据时,可将该爬虫请求一并返回给业务层模块101。本实施例中的异步爬虫系统还可以包括监测模块,监测模块用于根据任务标识监控对每个爬虫请求的响应情况。
本申请实施例提供的异步爬虫系统,可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据,这使得数据爬取效率大大提高,并且,业务层模块在接收到爬虫需求信息时,可迅速将爬虫需求信息组装成爬虫请求放到Redis任务队列,这个过程的执行速度很快,使得当业务层模块面对源源不断的爬虫需求信息时,服务层模块能够快速地进行响应,即业务层模块不会因为爬虫需求信息的数量较大而影响服务。另外,本申请实施例中,数据的爬取、所爬取数据的整合和回传都由Celery系统实现,服务层模块102并未接触到具体的数据,这使得业务层模块和服务层模块实现了解耦合。
本申请实施例还提供了一种数据爬取方法,请参阅图3,示出了该数据爬取方法的流程示意图,该数据爬取方法可应用于服务器,该服务器可以包括业务层模块和服务层模块,该数据爬取方法可以包括:
步骤S301:当接收到来自终端的爬虫需求信息时,利用业务层模块和爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存。
其中,爬虫需求信息包括与待爬取词相关的信息。本实施例利用业务层模块对爬虫需求信息进行组装,以生成爬虫请求。爬虫请求中至少包括目标词和回调地址,爬虫请求用于请求服务层模块爬取与目标词相关词,并使服务层模块将数据爬取结果基于回调地址返回。
具体的,服务器在利用业务层模块和爬虫需求信息生成爬虫请求后,可将生成的爬虫请求缓存至Redis任务队列中。
步骤S302:利用服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中。
前述内容提到,在利用业务层模块和爬虫需求信息生成爬虫请求后,可将爬虫请求缓存于Redis任务队列中,基于此,可利用服务层模块从Redis任务队列中取爬虫请求至Celery任务队列中。本申请中,服务器可控制服务层模块从Redis任务队列中取爬虫请求的速率和数量。
步骤S303:利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据。
本申请实施例中,在利用业务层模块将爬虫请求放至Redis任务队列中后,为了可以利用Celery系统的任务执行单元执行Redis任务队列中的任务,首先需要利用服务层模块从Redis任务队列中取爬虫请求至Celery任务队列中,然后利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据。本申请实施例利用Celery的多worker机制,采用多进程并行响应多个爬虫请求。
步骤S304:利用Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据。
优选的,利用Celery系统的任一任务执行单元爬取一爬虫请求对应的数据的过程可以包括:利用Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。针对任一爬取请求,并行地从多个数据爬取途径爬取该爬虫请求对应的数据,能够进一步提高数据爬取效率。
在一种可能的实现方式中,在并行地从多个数据爬取途径爬取该爬虫请求对应的数据时,可通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取任一爬虫请求对应的数据。其中,一个爬虫任务对应一个数据爬取途径,一个爬取任务用于从对应的数据爬取途径爬取与目标词相关的词。
步骤S305:利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块,以供终端从业务层模块获取。
具体的,在利用Celery系统获得每个爬虫请求对应的目标数据后,可利用Celery系统,根据每个爬虫请求中的回调地址,将每个爬虫请求对应的目标数据返回给业务层模块。
优选的,本实施例中的爬虫请求中还包括:词库标识,相应的,本实施例提供的数据爬取方法还可以包括:在获得每个爬虫请求对应的目标数据后,利用业务层模块将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
可选的,本申请实施例中的爬虫请求中还可以包括任务标识。在利用Celery系统向业务层模块返回爬虫请求对应的目标数据时,可将该爬虫请求一并返回给业务层模块。本实施例提供的数据爬取方法还可以包括:根据任务标识监控对每个爬虫请求的响应情况。
本申请实施例提供的数据爬取方法,可利用Celery系统的多个任务执行单元并行爬取Celery任务队列中多个爬虫请求分别对应的数据,这使得数据爬取效率大大提高,并且,在接收到爬虫需求信息时,可利用业务层模块迅速将爬虫需求信息组装成爬虫请求放到Redis任务队列,这个过程的执行速度很快,使得当服务器面对源源不断的爬虫需求信息时,能够快速地进行响应,即服务器不会因为爬虫需求信息的数量较大而影响服务。另外,本申请实施例中,数据的爬取、所爬取数据的整合和回传都基于Celery系统实现,服务器的服务层模块并未接触到具体的数据,这使得服务器的业务层模块和服务层模块实现了解耦合。
本申请实施例还提供了一种服务器,请参阅图4,示出了该服务器的结构示意图,该服务器可以包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404;
在本申请实施例中,处理器401、通信接口402、存储器403、通信总线404的数量为至少一个,且处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信;
处理器401可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
当接收到来自终端的爬虫需求信息时,利用服务器的业务层模块和所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
利用所述服务器的服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;
利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;
利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述服务器的业务层模块获取。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
当接收到来自终端的爬虫需求信息时,利用服务器的业务层模块和所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
利用所述服务器的服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;
利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;
利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述服务器的业务层模块获取。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种异步爬虫系统,其特征在于,包括:业务层模块和服务层模块;
所述业务层模块,用于当接收到来自终端的爬虫需求信息时,根据所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
所述服务层模块,用于从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;以及利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述业务层模块获取。
2.根据权利要求1所述的异步爬虫系统,其特征在于,所述服务层模块在利用所述Celery系统的一任务执行单元爬取一爬虫请求对应的数据时,具体用于:
利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。
3.根据权利要求2所述的异步爬虫系统,其特征在于,所述服务层模块在利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据时,具体用于:
通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取该爬虫请求对应的数据;
其中,一个爬虫任务对应一个数据爬取途径,任一爬取任务用于从对应的数据爬取途径爬取数据。
4.根据权利要求1所述的异步爬虫系统,其特征在于,所述爬虫请求中至少包括:目标词和回调地址,所述爬虫请求用于请求爬取与所述目标词相关的词;
所述服务层模块在利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块时,具体用于:
根据每个爬虫请求中的回调地址,将每个爬虫请求对应的目标数据返回给所述业务层模块。
5.根据权利要求4所述的异步爬虫系统,其特征在于,所述爬虫请求中还包括:词库标识;
所述业务层模块,还用于在获得每个爬虫请求对应的目标数据后,将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
6.一种数据爬取方法,其特征在于,应用于服务器,所述服务器包括业务层模块和服务层模块,所述方法包括:
当接收到来自终端的爬虫需求信息时,利用所述业务层模块和所述爬虫需求信息生成爬虫请求,并将生成的爬虫请求进行缓存;
利用所述服务层模块从已缓存的爬虫请求中取爬虫请求至Celery任务队列中;
利用Celery系统的多个任务执行单元并行爬取所述Celery任务队列中多个爬虫请求分别对应的数据;
利用所述Celery系统将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,以供所述终端从所述业务层模块获取。
7.根据权利要求6所述的数据爬取方法,其特征在于,利用所述Celery系统的任一任务执行单元爬取一爬虫请求对应的数据,包括:
利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据。
8.根据权利要求7所述的数据爬取方法,其特征在于,所述利用所述Celery系统的该任务执行单元并行地从多个数据爬取途径爬取该爬虫请求对应的数据,包括:
通过调用gevent协程包,加载爬虫任务,并行地从多个数据爬取途径爬取该爬虫请求对应的数据;
其中,一个爬虫任务对应一个数据爬取途径,任一爬取任务用于从对应的数据爬取途径爬取数据。
9.根据权利要求6所述的数据爬取方法,其特征在于,所述爬虫请求中至少包括:目标词和回调地址,所述爬虫请求用于请求爬取与所述目标词相关的词;
利用所述Celery系统将每个爬虫请求对应的目标数据返回给所述业务层模块,包括:
利用所述Celery系统和每个爬虫请求中的回调地址,将每个爬虫请求对应的目标数据返回给所述业务层模块。
10.根据权利要求9所述的数据爬取方法,其特征在于,所述爬虫请求中还包括:词库标识;
所述数据爬取方法还包括:
在获得每个爬虫请求对应的目标数据后,利用业务层模块将每个爬虫请求对应的目标数据存入对应爬虫请求中的词库标识对应的词库中。
CN202010171572.1A 2020-03-12 2020-03-12 一种异步爬虫系统及数据爬取方法 Pending CN111400574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171572.1A CN111400574A (zh) 2020-03-12 2020-03-12 一种异步爬虫系统及数据爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171572.1A CN111400574A (zh) 2020-03-12 2020-03-12 一种异步爬虫系统及数据爬取方法

Publications (1)

Publication Number Publication Date
CN111400574A true CN111400574A (zh) 2020-07-10

Family

ID=71428615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171572.1A Pending CN111400574A (zh) 2020-03-12 2020-03-12 一种异步爬虫系统及数据爬取方法

Country Status (1)

Country Link
CN (1) CN111400574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765432A (zh) * 2021-01-11 2021-05-07 北京微步在线科技有限公司 基于Python的安全威胁情报获取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109930A1 (en) * 2010-10-29 2012-05-03 Fujitsu Limited Technique for coordinating the distributed, parallel crawling of interactive client-server applications
CN105868258A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 爬虫系统
US20170185678A1 (en) * 2015-12-28 2017-06-29 Le Holdings (Beijing) Co., Ltd. Crawler system and method
CN107105071A (zh) * 2017-05-05 2017-08-29 北京京东金融科技控股有限公司 Ip调用方法及装置、存储介质、电子设备
CN111274032A (zh) * 2020-01-17 2020-06-12 Oppo广东移动通信有限公司 任务处理系统及方法、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120109930A1 (en) * 2010-10-29 2012-05-03 Fujitsu Limited Technique for coordinating the distributed, parallel crawling of interactive client-server applications
CN105868258A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 爬虫系统
US20170185678A1 (en) * 2015-12-28 2017-06-29 Le Holdings (Beijing) Co., Ltd. Crawler system and method
CN107105071A (zh) * 2017-05-05 2017-08-29 北京京东金融科技控股有限公司 Ip调用方法及装置、存储介质、电子设备
CN111274032A (zh) * 2020-01-17 2020-06-12 Oppo广东移动通信有限公司 任务处理系统及方法、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚良: "《Python3爬虫实战 数据清洗、数据分析与可视化》", 31 October 2019, 中国铁道出版社 *
罗娇敏等: "一种基于Redis的分布式爬虫系统设计与实现", 《软件》 *
范晖等: "《高等学校新工科人才培养"十三五"规划教材 Python大数据基础与实战》", 31 July 2019, 广东人民出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765432A (zh) * 2021-01-11 2021-05-07 北京微步在线科技有限公司 基于Python的安全威胁情报获取方法及系统

Similar Documents

Publication Publication Date Title
US11159411B2 (en) Distributed testing service
EP2002343B1 (en) Multi-cache cooperation for response output caching
CN110489447A (zh) 数据查询方法、装置、计算机设备和存储介质
CN107451853B (zh) 一种红包实时派发的方法、装置、系统及存储介质
CN109033814B (zh) 智能合约触发方法、装置、设备及存储介质
CN111913818A (zh) 一种确定服务间依赖关系的方法及相关装置
CN111641676B (zh) 一种第三方云监控服务的构建方法及装置
CN110413822B (zh) 离线图像结构化分析方法、装置、系统和存储介质
US7818752B2 (en) Interface for application components
CN112787999B (zh) 跨链调用方法、装置、系统与计算机可读存储介质
CN110992188A (zh) 交易处理方法、装置及设备
CN111694639A (zh) 进程容器地址的更新方法、装置和电子设备
CN114760233A (zh) 业务处理方法、装置、电子设备及存储介质
CN111400574A (zh) 一种异步爬虫系统及数据爬取方法
CN111581226B (zh) 基于大数据平台的数据共享方法、装置及政企云平台
CN107819855B (zh) 一种消息分发方法及装置
CN111835797A (zh) 一种数据处理方法、装置及设备
CN113905091A (zh) 用于对访问请求进行处理的方法及装置
CN115114042A (zh) 存储数据访问方法、装置、电子设备和存储介质
CN115145806A (zh) 一种数据采集方法、装置、以及计算机可读存储介质
CN114390104A (zh) 过程取证系统、方法、装置、计算机设备及介质
CN113886082A (zh) 请求处理方法、装置、计算设备及介质
CN114493598A (zh) 计算资源管理方法、装置、计算机设备和存储介质
CN114764324A (zh) 企业资源规划系统及其集成方法
US20170149894A1 (en) Network node, electronic device and methods for benefitting from a service provided by a cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710

RJ01 Rejection of invention patent application after publication