CN111209460A - 基于scrapy爬虫框架的数据采集系统及方法 - Google Patents

基于scrapy爬虫框架的数据采集系统及方法 Download PDF

Info

Publication number
CN111209460A
CN111209460A CN201911376762.0A CN201911376762A CN111209460A CN 111209460 A CN111209460 A CN 111209460A CN 201911376762 A CN201911376762 A CN 201911376762A CN 111209460 A CN111209460 A CN 111209460A
Authority
CN
China
Prior art keywords
crawler
queue
seed
task
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911376762.0A
Other languages
English (en)
Inventor
魏志强
贾东宁
聂为之
刘安安
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao National Laboratory for Marine Science and Technology Development Center
Original Assignee
Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao National Laboratory for Marine Science and Technology Development Center filed Critical Qingdao National Laboratory for Marine Science and Technology Development Center
Priority to CN201911376762.0A priority Critical patent/CN111209460A/zh
Publication of CN111209460A publication Critical patent/CN111209460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本发明公开了一种基于scrapy爬虫框架的数据采集系统及方法,包括:爬虫队列模块和爬虫执行模块;爬虫队列模块包括爬虫种子队列、爬虫种子处理单元和爬虫任务队列;爬虫种子队列用于存储爬虫任务;爬虫种子处理单元用于对爬虫种子队列中的爬虫任务进行去重筛选处理,并将去重筛选后的爬虫任务存储入爬虫任务队列;爬虫执行模块包括网页下载单元和URL挖掘单元;网页下载单元用于从爬虫任务队列中读取当前需要执行的爬虫任务,基于读取到的爬虫任务下载网页;URL挖掘单元用于在下载到的网页中提取到新的URL链接作为新的爬虫任务存入爬虫种子队列;实现对特定领域网站域名的深度挖掘,提升了系统的爬取广度。

Description

基于scrapy爬虫框架的数据采集系统及方法
技术领域
本发明属于数据采集技术领域,具体地说,是涉及一种基于scrapy爬虫框架的数据采集系统及方法。
背景技术
信息网络技术的快速发展,带来了网络信息量的指数性增长。在网络信息资源充足的条件下,为了快速、针对性获取相关网络信息,促使了搜索引擎的诞生。
搜索引擎,是指运用特定的计算机程序按照一定的策略自动从因特网上搜集信息,对信息进行组织和处理以后,提供给用户检索服务。搜索引擎从因特网上搜集信息的过程,依赖于网络蜘蛛对相关网站信息的爬取。网络蜘蛛是一种自动浏览网络,分析网页内容的程序,是搜索引擎的重要组成部分。
Scrapy是目前最主流的爬虫框架,它是基于twisted(用Python实现的基于事件驱动的网络引擎框架)异步网络库实现的,在爬取速度上相对其他爬虫是高效的,且具有可定制性。由于网络爬虫对I/O的要求较高,Scrapy将待爬取的URLs直接存储在内存中而非硬盘中,这样一来,在爬取网页过程中,当爬取的网页数量达到数万时,需要存储的URLs数量可能会超过百万甚至千万,再加上Python(一种解释型、面向对象、动态数据类型的高级程序设计语言)本身是脚本语言,其对象占用内存往往比C/C++等编译型语言要大得多,而且Python垃圾收集器的释放内存算法并不会在对象不再被引用时立即释放内存。因此,很可能会导致单机内存枯竭,造成爬取速度变慢。
发明内容
本发明的目的在于提供一种基于scrapy爬虫框架的数据采集系统及方法,克服现有爬虫框架数据采集方式的不足,提升了爬取效率、爬取稳定性和爬取广度。
本发明采用以下技术方案予以实现:
提出一种基于scrapy爬虫框架的数据采集系统,包括:爬虫队列模块,包括爬虫种子队列、爬虫种子处理单元和爬虫任务队列;所述爬虫种子队列,用于存储爬虫任务;所述爬虫种子处理单元,用于对爬虫种子队列中的爬虫任务进行去重筛选处理,并将去重筛选后的爬虫任务存储入爬虫任务队列; 爬虫执行模块,包括网页下载单元和URL挖掘单元;所述网页下载单元,用于从爬虫任务队列中读取当前需要执行的爬虫任务,基于读取到的爬虫任务下载网页;所述URL挖掘单元,用于在下载到的网页中提取到新的URL链接作为新的爬虫任务存入所述爬虫种子队列。
进一步的,所述系统还包括:任务调度模块,包括爬虫进程队列和进程管理器;其中,所述进程管理器,用于根据控制信息和爬虫任务队列信息创建爬虫进程,将创建的爬虫进程加入所述爬虫进程队列并进行管理,以及控制所述网页下载单元下载网页;所述爬虫进程队列,用于存储当前正在执行、暂时挂起和已经结束的爬虫进程。
进一步的,所述系统还包括:Kafka消息库,用于存储所述爬虫种子队列。
进一步的,所述系统还包括:Redis数据库,用于存储所述爬虫任务队列。
进一步的,所述系统还包括:MongoDB数据库,用于存储所述网页下载单元下载的网页内容。
进一步的,所述爬虫种子处理单元包括:去重插件,用于将所述URL挖掘单元得到的新的爬虫种子与所述爬虫任务队列中的爬虫队列进行判重处理,得到未被爬取过的爬虫种子;筛选插件,用于根据筛选标准对爬虫种子进行匹配筛选。
进一步的,所述网页下载单元还用于:重写scrapy的下载组件,实现通过代理vpn下载网页;所述URL挖掘单元,还用于重写scrapy的spider组件,实现提取网站网页的网址链接;将提取到的网址链接存入所述爬虫种子队列。
进一步的,所述系统还包括:爬虫管理器,基于HTTP并使用Twisted Application框架实现,部署在所述爬虫队列模块、所述爬虫执行模块和所述任务调度模块,使得所述爬虫队列模块、所述爬虫执行模块和所述任务调度模块之间通过调用Twisted框架内部的TimerService接口通信。
提出一种基于scrapy爬虫框架的数据采集方法,包括:步骤1)读取爬虫种子队列中的爬虫任务;步骤2)将爬虫种子队列中的爬虫任务进行去重筛选,并将去重筛选后的爬虫任务存储入爬虫任务队列;步骤3)从爬虫任务队列中读取当前需要执行的爬虫任务,基于爬虫任务下载网页;步骤4)从下载得到的网页中提取到新的URL连接作为新的爬虫任务存入所述爬虫种子队列;步骤5)重复步骤1)至步骤4),直到所述爬虫种子队列和所述爬虫任务队列为空。
进一步的,在步骤1)之前,所述方法还包括:将所需爬取的网站域名、可能存在所需爬取网址URL的网站域名存入所述爬虫种子队列中。
与现有技术相比,本发明的优点和积极效果是:本发明提出的基于scrapy爬虫框架的数据采集系统及方法中,爬虫执行模块在下载的网页中提取新的URL链接作为新的爬虫任务存入创建的爬虫种子队列中,对爬虫种子队列中的爬虫任务进行去重筛选后存入爬虫任务队列,爬虫执行模块再从爬虫任务队列中读取爬虫任务,继续进行下载、去重和筛选,如此重复直至爬虫虫子队列和爬虫任务队列为空,实现对特定领域网站域名的深度挖掘,达到大量获取、下载以及存储相关网页内容的目的,适用于规模大、相关度高的网页内容资源挖掘任务,提升了系统的爬取广度;同时,对爬虫种子队列中的爬虫任务进行去重和筛选,降低了处理操作的复杂度和所需时间,提升了系统的爬取效率。
进一步的,本系统将爬虫种子队列存储于kafka消息库,由于kafka具有可持久性,当中心节点宕机的情况下,也不会丢失带爬取的任务,保证了系统的可靠性,提升了系统的爬取稳定性。
进一步的,本系统将爬虫任务队列存储于Redis内存型数据库中,替代了scrapy框架原有在本地内存上创建任务队列存储,实现多个不同机器上的scrapy都可以从一个数据库获取任务进行分布式爬取,进一步提升了系统的爬取效率。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1 为本发明提出的基于scrapy爬虫框架的数据采集系统的架构图;
图2为本发明提出的基于scrapy爬虫框架的数据采集方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
本发明提出的基于scrapy爬虫框架的数据采集系统,如图1所示,包括爬虫队列模块1、爬虫执行模块2和任务调度模块3;其中,爬虫队列模块1包括爬虫种子队列11、爬虫种子处理单元12和爬虫任务队列13;爬虫执行模块2包括网页下载单元21和URL挖掘单元22;任务调度模块3包括爬虫进程队列31和进程管理器32。
爬虫种子队列11用于存储爬虫任务,包括但不限定于用户发出的爬虫任务以及爬虫执行模块2提交的新的爬虫任务;爬虫种子处理单元12用于对爬虫种子队列中的爬虫任务进行去重筛选处理,并将去重筛选后的爬虫任务存储入爬虫任务队列13中;爬虫任务队列13中的爬虫任务需要提交给进程管理器32。
网页下载单元21用于从爬虫任务队列中读取当前需要执行的爬虫任务,基于读取到的爬虫任务下载网页;URL挖掘单元22用于在下载到的网页中提取到新的URL链接作为新的爬虫任务存入爬虫种子队列。
进程管理器32用于根据控制信息和爬虫任务队列信息创建爬虫进程,将创建的爬虫进程加入爬虫进程队列31并进行管理,以及控制网页下载单元21下载网页;爬虫进程队列31用于存储当前正在执行、暂时挂起和已经结束的爬虫进程。
上述本发明提出的基于scrapy爬虫框架的数据采集系统中,爬虫执行模块在下载的网页中提取新的URL链接作为新的爬虫任务存入创建的爬虫种子队列中,对爬虫种子队列中的爬虫任务进行去重筛选后存入爬虫任务队列,爬虫执行模块再从爬虫任务队列中读取爬虫任务,继续进行下载、去重和筛选,如此重复直至爬虫虫子队列和爬虫任务队列为空,实现对特定领域网站域名的深度挖掘,达到大量获取、下载以及存储相关网页内容的目的,适用于规模大、相关度高的网页内容资源挖掘任务,提升了爬虫的爬取广度。
本发明提出的基于scrapy爬虫框架的数据采集系统中,选取kafka消息中间件来存储爬虫种子队列,由于kafka具有可持久性,当中心节点宕机的情况下,不会丢失待爬取任务,保证了系统的可靠性,提升了爬虫的爬取稳定性。
爬虫种子处理单元12包括去重插件和筛选插件,筛选插件用于根据筛选标准对经URL挖掘单元挖掘得到的新的爬虫种子进行匹配筛选,将通过筛选的种子送入去重插件,去重插件用于将URL挖掘单元得到的新的爬虫种子与爬虫任务队列中的爬虫队列进行判重处理,得到未被爬取过的爬虫种子;未被爬取过的爬虫种子存入爬虫任务队列13中。本发明实施例中,爬虫任务队列存储于Redis数据库中,由于爬虫种子处理单元12进行种子筛选后再进行去重,降低了处理操作的复杂度和所需时间,从而提高了系统的爬取效率。
本发明实施例中,网页下载单元21包括下载子单元,用于重写scrapy的下载组件,实现通过代理vpn下载网页,本发明实施例中,将下载的网页页面存入MongoDB数据库中;URL挖掘单元22包括网页URL提取子单元和数据管道子单元,网页URL提取子单元通过重写scrapy的spider组件,实现提取网站网页的网址链接;数据管道子单元负责将提取到的网址链接存入爬虫种子队列11。
由于各个模块之间无法直接通信,导致任务调度模块3无法实时监控爬虫执行模块2与爬虫队列模块1的信息,无法控制从节点爬虫的启动与终止。本发明实施例中,使用Twisted Application框架实现一个基于HTTP的爬虫管理器部署在各模块的节点上,各模块通过调用Twisted框架内部的 TimerService接口,在本模块运行期间反复查询待启动的爬虫队列、查询运行中的爬虫进程,将爬虫节点以及相关模块当前进程的状态存入Redis等。任务调度模块3通过访问Redis,实现对各模块的监控,并通过http请求来远程控制各个模块中的爬虫。
爬虫进程队列内部维护着三个队列:正在执行、暂时挂起和已经结束的爬虫进程信息队列。进程管理器32接收爬虫任务队列13的爬虫信息并依次从队列中取出信息并创建爬虫进程,发送http的启动请求。爬虫启动请求信息包括启动爬虫任务队列以及标识即将启动该爬虫进程的任务号。启动请求中的请求信息存入队列正在执行爬虫信息队列。收到取消爬虫进程的请求后,进程管理器32先从参数中解析出要取消的爬虫项目名及爬虫任务号,如果该爬虫任务仍存在于爬虫任务队列中,则直接从该队列中删除该爬虫任务;如果在爬虫任务队列中不能查询到该爬虫任务,则遍历正在运行的爬虫进程信息队列找到与爬虫启动任务相同任务号的爬虫进程,并调用Twisted内部的signalProcess 接口向该进程发送结束的信号停止该进程。
对于创建和结束爬虫进程,本发明实施例使用的方法是:通过调用Twisted框架内部提供的spawnProcess接口创建相应的进程,其中该接口的第一个参数为processProtocol对象,负责监听所有与爬虫进程相关的事件(如爬虫进程结束,爬虫进程创建成功等等),当监听到爬虫进程创建成功时,将该爬虫进程信息加入正在运行的爬虫进程信息队列。当监听到爬虫进程结束时,将该爬虫进程信息从正在运行的爬虫进程信息队列中删除,并将该爬虫进程信息存入已经结束的爬虫进程信息队列。
基于上述提出的基于scrapy爬虫框架的数据采集系统,本发明还提出一种基于scrapy爬虫框架的数据采集方法,如图2所示,包括如下步骤:
步骤S21:将所需爬取的网站域名、可能存在所需爬取网址URL的网站域名存入爬虫种子队列中。
其中,可能存在所需爬取网址URL的网站域名,指的是一些相关领域门户网站,这些站点极有可能收集并存储了部分所需网页的域名信息。
步骤S22:读取爬虫种子队列中的爬虫任务。
将爬虫种子队列作为系统的入口,采用kafka消息系统存储,由于kafka具有可持久性以及存储量大的特点,保证了爬虫种子任务不会丢失,同时作为消息中间件,解决消费者与生产者处理速度不匹配的问题。
步骤S23:将爬虫种子队列中的爬虫任务进行去重筛选,并将去重筛选后的爬虫任务存储入爬虫任务队列。
其中,爬虫任务队列使用内存型数据库Redis数据库存储,替代了scrapy框架原有在本地内存上创建任务队列存储,实现多个不同机器上的scrapy都可以从一个数据库获取任务进行分布式爬取。
步骤S24:从爬虫任务队列中读取当前需要执行的爬虫任务,基于爬虫任务下载网页。
进程管理器根据爬虫进程队列信息和用户控制信息,创建爬虫进程将其加入爬虫进程队列,并控制网页下载单元从爬虫任务队列中读取相应的爬虫任务,进行下载对应的网页内容,URL挖掘单元从下载得到的网页内容中提取新的网站域名,将其存入爬虫种子队列中。
步骤S25:重复执行步骤S22至步骤S24,直到爬虫种子队列和爬虫任务队列或爬虫进程队列为空。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (10)

1.一种基于scrapy爬虫框架的数据采集系统,其特征在于,包括:
爬虫队列模块,包括爬虫种子队列、爬虫种子处理单元和爬虫任务队列;所述爬虫种子队列,用于存储爬虫任务;所述爬虫种子处理单元,用于对爬虫种子队列中的爬虫任务进行去重筛选处理,并将去重筛选后的爬虫任务存储入爬虫任务队列;
爬虫执行模块,包括网页下载单元和URL挖掘单元;所述网页下载单元,用于从爬虫任务队列中读取当前需要执行的爬虫任务,基于读取到的爬虫任务下载网页;所述URL挖掘单元,用于在下载到的网页中提取到新的URL链接作为新的爬虫任务存入所述爬虫种子队列。
2.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述系统还包括:
任务调度模块,包括爬虫进程队列和进程管理器;
其中,所述进程管理器,用于根据控制信息和爬虫任务队列信息创建爬虫进程,将创建的爬虫进程加入所述爬虫进程队列并进行管理,以及控制所述网页下载单元下载网页;所述爬虫进程队列,用于存储当前正在执行、暂时挂起和已经结束的爬虫进程。
3.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述系统还包括:
Kafka消息库,用于存储所述爬虫种子队列。
4.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述系统还包括:
Redis数据库,用于存储所述爬虫任务队列。
5.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述系统还包括:
MongoDB数据库,用于存储所述网页下载单元下载的网页内容。
6.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述爬虫种子处理单元包括:
去重插件,用于将所述URL挖掘单元得到的新的爬虫种子与所述爬虫任务队列中的爬虫队列进行判重处理,得到未被爬取过的爬虫种子;
筛选插件,用于根据筛选标准对爬虫种子进行匹配筛选。
7.根据权利要求1所述的基于scrapy爬虫框架的数据采集系统,其特征在于,所述网页下载单元还用于:重写scrapy的下载组件,实现通过代理vpn下载网页;
所述URL挖掘单元,还用于重写scrapy的spider组件,实现提取网站网页的网址链接;将提取到的网址链接存入所述爬虫种子队列。
8.根据权利要求2所述的基于scrapy爬虫系统的数据采集系统,其特征在于,所述系统还包括:
爬虫管理器,基于HTTP并使用Twisted Application框架实现,部署在所述爬虫队列模块、所述爬虫执行模块和所述任务调度模块,使得所述爬虫队列模块、所述爬虫执行模块和所述任务调度模块之间通过调用Twisted框架内部的TimerService接口通信。
9.一种基于scrapy爬虫框架的数据采集方法,其特征在于,包括:
步骤1)读取爬虫种子队列中的爬虫任务;
步骤2)将爬虫种子队列中的爬虫任务进行去重筛选,并将去重筛选后的爬虫任务存储入爬虫任务队列;
步骤3)从爬虫任务队列中读取当前需要执行的爬虫任务,基于爬虫任务下载网页;
步骤4)从下载得到的网页中提取到新的URL连接作为新的爬虫任务存入所述爬虫种子队列;
步骤5)重复步骤1)至步骤4),直到所述爬虫种子队列和所述爬虫任务队列为空。
10.根据权利要求9所述的基于scrapy爬虫框架的数据采集方法,其特征在于,在步骤1)之前,所述方法还包括:
将所需爬取的网站域名、可能存在所需爬取网址URL的网站域名存入所述爬虫种子队列中。
CN201911376762.0A 2019-12-27 2019-12-27 基于scrapy爬虫框架的数据采集系统及方法 Pending CN111209460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911376762.0A CN111209460A (zh) 2019-12-27 2019-12-27 基于scrapy爬虫框架的数据采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911376762.0A CN111209460A (zh) 2019-12-27 2019-12-27 基于scrapy爬虫框架的数据采集系统及方法

Publications (1)

Publication Number Publication Date
CN111209460A true CN111209460A (zh) 2020-05-29

Family

ID=70788201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911376762.0A Pending CN111209460A (zh) 2019-12-27 2019-12-27 基于scrapy爬虫框架的数据采集系统及方法

Country Status (1)

Country Link
CN (1) CN111209460A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898011A (zh) * 2020-07-15 2020-11-06 北京明亮的星文化传媒有限公司 基于Kubernetes和Typescript扩展数据方法和系统
CN112347330A (zh) * 2020-11-05 2021-02-09 江苏电力信息技术有限公司 一种面向城市大数据的分布式并行获取方法
CN112417242A (zh) * 2020-11-09 2021-02-26 深圳市宝视佳科技有限公司 分布式爬虫的集中管理系统
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器
CN112528119A (zh) * 2020-12-21 2021-03-19 北京中安智达科技有限公司 一种基于Pulsar的分布式爬取网页信息的系统
CN112667873A (zh) * 2020-12-16 2021-04-16 北京华如慧云数据科技有限公司 一种适用于多数网站通用采集数据的爬虫系统及方法
CN113190737A (zh) * 2021-05-06 2021-07-30 上海慧洲信息技术有限公司 一种基于云平台的网站信息采集系统
CN114625989A (zh) * 2022-05-16 2022-06-14 国能大渡河大数据服务有限公司 一种基于卷积神经网络的数据分析方法及系统
CN116302536A (zh) * 2023-03-17 2023-06-23 广东朝恒科技有限公司 一种数据采集的内存优化方法以及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110298881A1 (en) * 2003-01-16 2011-12-08 Silverbrook Research Pty Ltd Printing system for cured 3d structures
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110298881A1 (en) * 2003-01-16 2011-12-08 Silverbrook Research Pty Ltd Printing system for cured 3d structures
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898011A (zh) * 2020-07-15 2020-11-06 北京明亮的星文化传媒有限公司 基于Kubernetes和Typescript扩展数据方法和系统
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器
CN112347330A (zh) * 2020-11-05 2021-02-09 江苏电力信息技术有限公司 一种面向城市大数据的分布式并行获取方法
CN112417242A (zh) * 2020-11-09 2021-02-26 深圳市宝视佳科技有限公司 分布式爬虫的集中管理系统
CN112667873A (zh) * 2020-12-16 2021-04-16 北京华如慧云数据科技有限公司 一种适用于多数网站通用采集数据的爬虫系统及方法
CN112528119A (zh) * 2020-12-21 2021-03-19 北京中安智达科技有限公司 一种基于Pulsar的分布式爬取网页信息的系统
CN113190737A (zh) * 2021-05-06 2021-07-30 上海慧洲信息技术有限公司 一种基于云平台的网站信息采集系统
CN113190737B (zh) * 2021-05-06 2024-04-16 上海慧洲信息技术有限公司 一种基于云平台的网站信息采集系统
CN114625989A (zh) * 2022-05-16 2022-06-14 国能大渡河大数据服务有限公司 一种基于卷积神经网络的数据分析方法及系统
CN116302536A (zh) * 2023-03-17 2023-06-23 广东朝恒科技有限公司 一种数据采集的内存优化方法以及装置

Similar Documents

Publication Publication Date Title
CN111209460A (zh) 基于scrapy爬虫框架的数据采集系统及方法
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN103970788A (zh) 一种基于网页爬取的爬虫技术
CN102355488B (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN105095207B (zh) 检索、获取应用软件内容的方法和装置
CN105389191A (zh) 一种基于局域网的软件升级方法、装置和系统
CN104735112A (zh) 发送资源文件的方法、缓存资源文件的方法和装置
CN105871587A (zh) 日志上传方法及装置
CN103475687A (zh) 用于下载网站数据的分布式方法和系统
CN103577482B (zh) 一种网页收藏方法、装置及浏览器
CN106657228A (zh) 一种利用云端进行并发采集的爬虫实现方法
CN103475688A (zh) 用于下载网站数据的分布式方法和系统
CN103051496A (zh) 一种监测点服务器的监控方法及装置
CN109710440A (zh) 网页前端的异常处理方法、装置、存储介质及终端设备
CN105447146A (zh) 一种海量数据的收集与交换系统及方法
CN112818201A (zh) 一种网络数据采集方法、装置、计算机设备及存储介质
CN107463657A (zh) 文件操作方法及终端
CN109766488B (zh) 一种基于Scrapy的数据采集方法
CN104317857A (zh) 一种房屋信息采集服务系统
CN113032281B (zh) 一种代码覆盖率实时获取方法及装置
CN105099829B (zh) 一种基于http协议的电子资源服务可用性自动化监测方法
CN102739423B (zh) 一种采集性能数据的方法、设备和网管系统
CN108243238A (zh) 一种性能数据的采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination