CN105677918A - 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 - Google Patents
一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 Download PDFInfo
- Publication number
- CN105677918A CN105677918A CN201610120023.5A CN201610120023A CN105677918A CN 105677918 A CN105677918 A CN 105677918A CN 201610120023 A CN201610120023 A CN 201610120023A CN 105677918 A CN105677918 A CN 105677918A
- Authority
- CN
- China
- Prior art keywords
- reptile
- quartz
- kafka
- url
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/483—Multiproc
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Kafka和Quartz的分布式爬虫架构及其实现方法,属于计算机数据挖掘技术领域,本发明要解决的技术问题为如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取。技术方案为:(1)、一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台。(2)、一种基于Kafka和Quartz的分布式爬虫架构的实现方法,包括如下步骤:(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署。
Description
技术领域
本发明涉及计算机数据挖掘技术领域,具体地说是一种基于Kafka和Quartz的分布式爬虫架构及其实现方法。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,活的初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前页面上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中,从而可以加快用户的搜索速度。
随着互联网的爆炸性增长,网络所承载的数据量已经远远超出人们的想象。在大数据时代,面对如此巨大的数据量,如何快速精准的检索信息,如何能够更高效的收集网络信息,显然变得至关重要。
为满足上述的要求,作为抓取工具的爬虫必须具备更加优越的性能。具备单一节点的传统爬虫架构无法满足海量数据的抓取需求。因此,便产生了支持高并发,多节点分布式部署的分布式爬虫架构。
对于分布式爬虫来说,其中有两个需要解决的重点问题是:一,爬取队列消息的多节点分发问题;二,定时爬取问题;对于解决上述两个问题,不同的分布式爬虫架构有不同的解决方案,就目前来讲,因为分布式爬虫架构往往是各个公司的核心机密,所以一般不会公开分布式爬虫的具体实现细节。已经开源的常用的分布式爬虫包括GoogleCrawler,Mercator,Nutch等,但开源分布式爬虫缺乏一定的定制性,不能很好的满足多变的爬取需求。是否可以利用已有的成熟的单机爬虫框架结合分布式工具完成分布式爬虫的需求,使其可以满足大部分的爬取需求,并具备高并发,支持分布式等特征,成为众多技术人员研究的方向。
综上所述,如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取是目前现有技术中存在的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于Kafka和Quartz的分布式爬虫架构及其实现方法,来解决如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取的问题。
本发明解决其技术问题所采用的技术方案是:一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台;
所述基础爬虫组件是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;
所述URL存储队列,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;其中,URL存储队列利用高校的内存数据库来完成,如使用键值结构自动去重的Redis,或者是具备优良性能的伯克利数据库。
所述基于Kafka的消息分发机制,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列;其中,Kafka是Linkedin开发的一种分布式的消息队列系统(MessageQueue),支持分布式部署,Kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker。Kafka采用生产者-消费者模式来异步处理请求,信息生产者(Producer)和消费者(Consumer)可以在多个Broker上生产和消费topic,达到消除请求高峰的目的,从而提高系统稳定性和吞吐量。
所述基于Quartz的作业调度机制,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业(ProducerJob)和消费者作业(ConsumerJob)两种类型,使用不同的作业调度规则进行调度;其中,生产者作业与消费者作业的对应关系是1对N的关系,N不同,调度规则也不同,即由于N的不同,不同组的消费者作业使用不同的调度规则,故消费者作业使用不同的作业调度规则;消费者端可以部署在多台机器上,生产者仅需部署在一台机器上,这样就可以实现爬虫作业的分布式部署,通过Quartz的调度就可以实现不同节点的分布式调度。Quartz是一种开源的轻量级作业调度框架,完全由java编写,具备很大的灵活性而又不失简单性,可以用来为执行一个作业创建简单或者复杂的调度,为确保可伸缩性,Quartz采用了基于多线程的架构,Quartz同样支持分布式部署,能够并发运行多个作业,可以很好的满足分布式爬虫作业的调度需求。
所述前端控制台,负责完成对分布式爬虫的管理以及定制。
作为优选,所述页面解析生成URL负责从当前页面中提取URL链接。
更优地,所述URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接。
更优地,所述页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容。
更优地,所述前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
更优地,所述内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取。
一种基于Kafka和Quartz的分布式爬虫架构的实现方法,采用上述任意一种基于Kafka和Quartz的分布式爬虫架构,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度机制,调用基础爬虫组件根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度机制,调用基础爬虫组件,通过获取基于Kafka的消息分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
本发明的一种基于Kafka和Quartz的分布式爬虫架构及其实现方法和现有技术相比,具有以下有益效果:
1、本发明是基于开源组件构建分布式爬虫,可以在利用原有技术框架的基础之上进行深度开发定制,满足特定的需求,节省开发成本;
2、Kafka与Quartz都是经过实战验证的开源分布式框架,可以很好的满足分布式爬虫的需求,可灵活的与其他框架相结合,从而在保证架构性能的基础之上,实现灵活开发定制;
3、本发明利用已有的成熟的单机爬虫框架结合Kafka与Quartz分布式工具完成分布式爬虫的需求,使其可以满足大部分的爬取需求,并具备高并发,支持分布式等特征,解决了爬取队列消息的多节点分发以及定时爬取的问题。
由此可见,本发明具有设计合理、结构简单、使用方便、一物多用等特点,因而,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为一种基于Kafka和Quartz的分布式爬虫架构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1
本发明的一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台;基础爬虫组件是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;页面解析生成URL负责从当前页面中提取URL链接。URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接。页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容。URL存储队列,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取。基于Kafka的消息分发机制,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列。基于Quartz的作业调度机制,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业和消费者作业两种类型,使用不同的作业调度规则进行调度。前端控制台,负责完成对分布式爬虫的管理以及定制。前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
如附图1所示,基于Quartz的爬虫监控中心监控基于kafka的爬虫1爬取开源数据库(HBASE)中的网页(Page)信息,基于kafka的爬虫1包括生产者作业和消费者作业,即基于Quartz爬虫监控中心监控生产者和消费者完成网页爬取的作业,并将网页信息存储到格式化存储模块,即格式化存储模块从网页中提取爬取信息并存储。同时,基于Quartz爬虫监控中心监控爬虫2到爬虫N完成网页爬取任务,并存储到内存数据库中。
实施例2
一种基于Kafka和Quartz的分布式爬虫架构的实现方法,采用实施例1中的一种基于Kafka和Quartz的分布式爬虫架构,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度机制,调用基础爬虫组件根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度机制,调用基础爬虫组件,通过获取基于Kafka的消息分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的两种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (7)
1.一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台;
所述基础爬虫组件是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;
所述URL存储队列,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;
所述基于Kafka的消息分发机制,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列;
所述基于Quartz的作业调度机制,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业和消费者作业两种类型,使用不同的作业调度规则进行调度;
所述前端控制台,负责完成对分布式爬虫的管理以及定制。
2.根据权利要求1所述的一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:所述页面解析生成URL负责从当前页面中提取URL链接。
3.根据权利要求1或2所述的一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:所述URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接。
4.根据权利要求3所述的一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:所述页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容。
5.根据权利要求1所述的一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:所述前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
6.根据权利要求1所述的一种基于Kafka和Quartz的分布式爬虫架构,其特征在于:所述内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取。
7.一种基于Kafka和Quartz的分布式爬虫架构的实现方法,其特征在于:采用权利要求1-6中任意一种基于Kafka和Quartz的分布式爬虫架构,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度机制,调用基础爬虫组件根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度机制,调用基础爬虫组件,通过获取基于Kafka的消息分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610120023.5A CN105677918B (zh) | 2016-03-03 | 2016-03-03 | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610120023.5A CN105677918B (zh) | 2016-03-03 | 2016-03-03 | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677918A true CN105677918A (zh) | 2016-06-15 |
CN105677918B CN105677918B (zh) | 2019-02-15 |
Family
ID=56306611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610120023.5A Active CN105677918B (zh) | 2016-03-03 | 2016-03-03 | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677918B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021608A (zh) * | 2016-06-22 | 2016-10-12 | 广东亿迅科技有限公司 | 一种分布式爬虫系统及其实现方法 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN106168985A (zh) * | 2016-08-26 | 2016-11-30 | 南京车易淘网络信息技术有限公司 | 一种可快速分布式部署的爬虫方法 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN106980678A (zh) * | 2017-03-30 | 2017-07-25 | 温馨港网络信息科技(苏州)有限公司 | 基于zookeeper技术的数据分析方法及系统 |
CN107066526A (zh) * | 2017-02-23 | 2017-08-18 | 武汉智寻天下科技有限公司 | 一种网络爬虫系统及方法 |
CN107451223A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 一种高并发并行计算的大数据采集系统及方法 |
CN107563715A (zh) * | 2017-07-19 | 2018-01-09 | 天津云脉三六五科技有限公司 | 外贸集客营销系统及方法 |
CN107657053A (zh) * | 2017-10-17 | 2018-02-02 | 山东浪潮云服务信息科技有限公司 | 一种爬虫实现方法及装置 |
CN107784036A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 网络爬虫系统和基于网络爬虫系统的数据处理方法 |
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN108038007A (zh) * | 2017-11-30 | 2018-05-15 | 中电福富信息科技有限公司 | 一种基于Ignite的消息有序处理方法及系统 |
CN108520024A (zh) * | 2018-03-22 | 2018-09-11 | 河海大学 | 基于Spark Streaming的双周期爬虫系统及其运行方法 |
CN109063019A (zh) * | 2018-07-12 | 2018-12-21 | 山东汇贸电子口岸有限公司 | 一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法 |
CN109359231A (zh) * | 2017-12-29 | 2019-02-19 | 广州Tcl智能家居科技有限公司 | 一种分布式网络爬虫的信息爬取方法、服务器及存储介质 |
CN109783715A (zh) * | 2019-01-08 | 2019-05-21 | 鑫涌算力信息科技(上海)有限公司 | 网络爬虫系统及方法 |
CN110262888A (zh) * | 2019-06-26 | 2019-09-20 | 京东数字科技控股有限公司 | 任务调度方法和装置及计算节点执行任务的方法和装置 |
CN110457556A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN110929126A (zh) * | 2019-12-02 | 2020-03-27 | 杭州安恒信息技术股份有限公司 | 一种基于远程过程调用实现的分布式爬虫调度方法 |
CN111209460A (zh) * | 2019-12-27 | 2020-05-29 | 青岛海洋科学与技术国家实验室发展中心 | 基于scrapy爬虫框架的数据采集系统及方法 |
CN112528119A (zh) * | 2020-12-21 | 2021-03-19 | 北京中安智达科技有限公司 | 一种基于Pulsar的分布式爬取网页信息的系统 |
CN112765432A (zh) * | 2021-01-11 | 2021-05-07 | 北京微步在线科技有限公司 | 基于Python的安全威胁情报获取方法及系统 |
CN113065051A (zh) * | 2021-04-02 | 2021-07-02 | 西南石油大学 | 一种可视化农业大数据分析交互系统 |
CN113392297A (zh) * | 2020-03-12 | 2021-09-14 | 上海云盾信息技术有限公司 | 一种爬取数据的方法、系统及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678571A (zh) * | 2013-12-09 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 应用于单台多核处理器主机的多线程网络爬虫执行方法 |
-
2016
- 2016-03-03 CN CN201610120023.5A patent/CN105677918B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678571A (zh) * | 2013-12-09 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 应用于单台多核处理器主机的多线程网络爬虫执行方法 |
Non-Patent Citations (4)
Title |
---|
尉建兴: "基于Lecene搜索引擎的研究与应用", 《中国优秀硕士学位论文全文数据库》 * |
彭宇等: "大数据:内涵、技术体系与展望", 《电子测量与仪器学报》 * |
白鹤等: "分布式多主题网络爬虫系统的研究与实现", 《计算机工程》 * |
高景生: "一种面向主题的分布式爬虫系统的研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021608A (zh) * | 2016-06-22 | 2016-10-12 | 广东亿迅科技有限公司 | 一种分布式爬虫系统及其实现方法 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN106096056B (zh) * | 2016-06-30 | 2019-11-26 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN106168985A (zh) * | 2016-08-26 | 2016-11-30 | 南京车易淘网络信息技术有限公司 | 一种可快速分布式部署的爬虫方法 |
CN107784036A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 网络爬虫系统和基于网络爬虫系统的数据处理方法 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN106897357B (zh) * | 2017-01-04 | 2023-07-18 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN107066526A (zh) * | 2017-02-23 | 2017-08-18 | 武汉智寻天下科技有限公司 | 一种网络爬虫系统及方法 |
CN106980678A (zh) * | 2017-03-30 | 2017-07-25 | 温馨港网络信息科技(苏州)有限公司 | 基于zookeeper技术的数据分析方法及系统 |
CN107451223A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 一种高并发并行计算的大数据采集系统及方法 |
CN107563715A (zh) * | 2017-07-19 | 2018-01-09 | 天津云脉三六五科技有限公司 | 外贸集客营销系统及方法 |
CN107657053A (zh) * | 2017-10-17 | 2018-02-02 | 山东浪潮云服务信息科技有限公司 | 一种爬虫实现方法及装置 |
CN108038007A (zh) * | 2017-11-30 | 2018-05-15 | 中电福富信息科技有限公司 | 一种基于Ignite的消息有序处理方法及系统 |
CN108038007B (zh) * | 2017-11-30 | 2022-04-05 | 中电福富信息科技有限公司 | 一种基于Ignite的消息有序处理方法及系统 |
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN109359231A (zh) * | 2017-12-29 | 2019-02-19 | 广州Tcl智能家居科技有限公司 | 一种分布式网络爬虫的信息爬取方法、服务器及存储介质 |
CN108520024A (zh) * | 2018-03-22 | 2018-09-11 | 河海大学 | 基于Spark Streaming的双周期爬虫系统及其运行方法 |
CN109063019A (zh) * | 2018-07-12 | 2018-12-21 | 山东汇贸电子口岸有限公司 | 一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法 |
CN109783715A (zh) * | 2019-01-08 | 2019-05-21 | 鑫涌算力信息科技(上海)有限公司 | 网络爬虫系统及方法 |
CN110262888A (zh) * | 2019-06-26 | 2019-09-20 | 京东数字科技控股有限公司 | 任务调度方法和装置及计算节点执行任务的方法和装置 |
CN110262888B (zh) * | 2019-06-26 | 2020-11-20 | 京东数字科技控股有限公司 | 任务调度方法和装置及计算节点执行任务的方法和装置 |
CN110457556A (zh) * | 2019-07-04 | 2019-11-15 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN110457556B (zh) * | 2019-07-04 | 2023-11-14 | 重庆金融资产交易所有限责任公司 | 分布式爬虫系统架构、爬取数据的方法和计算机设备 |
CN110929126A (zh) * | 2019-12-02 | 2020-03-27 | 杭州安恒信息技术股份有限公司 | 一种基于远程过程调用实现的分布式爬虫调度方法 |
CN111209460A (zh) * | 2019-12-27 | 2020-05-29 | 青岛海洋科学与技术国家实验室发展中心 | 基于scrapy爬虫框架的数据采集系统及方法 |
CN113392297A (zh) * | 2020-03-12 | 2021-09-14 | 上海云盾信息技术有限公司 | 一种爬取数据的方法、系统及设备 |
CN112528119A (zh) * | 2020-12-21 | 2021-03-19 | 北京中安智达科技有限公司 | 一种基于Pulsar的分布式爬取网页信息的系统 |
CN112765432A (zh) * | 2021-01-11 | 2021-05-07 | 北京微步在线科技有限公司 | 基于Python的安全威胁情报获取方法及系统 |
CN113065051A (zh) * | 2021-04-02 | 2021-07-02 | 西南石油大学 | 一种可视化农业大数据分析交互系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105677918B (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677918A (zh) | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 | |
CN107943991A (zh) | 一种基于内存数据库的分布式爬虫框架及实现方法 | |
CN106790718A (zh) | 服务调用链路分析方法及系统 | |
CN105045932B (zh) | 一种基于降序存储的数据分页查询方法 | |
CN110362544A (zh) | 日志处理系统、日志处理方法、终端及存储介质 | |
CN107451034A (zh) | 一种大数据集群日志管理装置、方法及系统 | |
CN108847977A (zh) | 一种业务数据的监控方法、存储介质和服务器 | |
CN107193960A (zh) | 一种分布式爬虫系统及周期性增量抓取方法 | |
CN103970788A (zh) | 一种基于网页爬取的爬虫技术 | |
CN103177094B (zh) | 一种物联网数据清洗方法 | |
DE202011110890U1 (de) | System für die Bereitstellung eines Datenspeicherungs- und Datenverarbeitungsservices | |
CN106339408B (zh) | 数据同步方法、数据同步装置和服务器 | |
CN102164186A (zh) | 一种实现云搜索服务的方法及系统 | |
CN107145556B (zh) | 通用的分布式采集系统 | |
CN109063196A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN104077402A (zh) | 数据处理方法和数据处理系统 | |
CN102508913A (zh) | 一种带有数据立方存储索引结构的云计算系统 | |
CN105447146A (zh) | 一种海量数据的收集与交换系统及方法 | |
CN108520024A (zh) | 基于Spark Streaming的双周期爬虫系统及其运行方法 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN110083600A (zh) | 一种日志收集处理的方法、装置、计算设备及存储介质 | |
CN103902667A (zh) | 一种基于元搜索的网络信息采集器简单实现方法 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
CN103258017A (zh) | 一种并行的垂直交叉网络数据采集方法及系统 | |
CN105426407A (zh) | 一种基于内容分析的web数据采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |