CN105677918B - 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 - Google Patents

一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 Download PDF

Info

Publication number
CN105677918B
CN105677918B CN201610120023.5A CN201610120023A CN105677918B CN 105677918 B CN105677918 B CN 105677918B CN 201610120023 A CN201610120023 A CN 201610120023A CN 105677918 B CN105677918 B CN 105677918B
Authority
CN
China
Prior art keywords
url
quartz
kafka
crawl
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610120023.5A
Other languages
English (en)
Other versions
CN105677918A (zh
Inventor
甄教明
王茂帅
于文才
高峰
柳廷娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610120023.5A priority Critical patent/CN105677918B/zh
Publication of CN105677918A publication Critical patent/CN105677918A/zh
Application granted granted Critical
Publication of CN105677918B publication Critical patent/CN105677918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/483Multiproc

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Kafka和Quartz的分布式爬虫架构及其实现方法,属于计算机数据挖掘技术领域,本发明要解决的技术问题为如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取。技术方案为:(1)、一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台。(2)、一种基于Kafka和Quartz的分布式爬虫架构的实现方法,包括如下步骤:(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署。

Description

一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
技术领域
本发明涉及计算机数据挖掘技术领域,具体地说是一种基于Kafka和Quartz的分布式爬虫架构及其实现方法。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干个初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,活的初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前页面上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中,从而可以加快用户的搜索速度。
随着互联网的爆炸性增长,网络所承载的数据量已经远远超出人们的想象。在大数据时代,面对如此巨大的数据量,如何快速精准的检索信息,如何能够更高效的收集网络信息,显然变得至关重要。
为满足上述的要求,作为抓取工具的爬虫必须具备更加优越的性能。具备单一节点的传统爬虫架构无法满足海量数据的抓取需求。因此,便产生了支持高并发,多节点分布式部署的分布式爬虫架构。
对于分布式爬虫来说,其中有两个需要解决的重点问题是:一,爬取队列消息的多节点分发问题;二,定时爬取问题;对于解决上述两个问题,不同的分布式爬虫架构有不同的解决方案,就目前来讲,因为分布式爬虫架构往往是各个公司的核心机密,所以一般不会公开分布式爬虫的具体实现细节。已经开源的常用的分布式爬虫包括Google Crawler,Mercator,Nutch等,但开源分布式爬虫缺乏一定的定制性,不能很好的满足多变的爬取需求。是否可以利用已有的成熟的单机爬虫框架结合分布式工具完成分布式爬虫的需求,使其可以满足大部分的爬取需求,并具备高并发,支持分布式等特征,成为众多技术人员研究的方向。
综上所述,如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取是目前现有技术中存在的问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于Kafka和Quartz的分布式爬虫架构及其实现方法,来解决如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求,实现爬取队列消息的多节点分发以及定时爬取的问题。
本发明解决其技术问题所采用的技术方案是:一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台;
所述基础爬虫组件是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;
所述URL存储队列,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;其中,URL存储队列利用高校的内存数据库来完成,如使用键值结构自动去重的Redis,或者是具备优良性能的伯克利数据库。
所述基于Kafka的消息分发机制,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列;其中,Kafka是Linkedin开发的一种分布式的消息队列系统(Message Queue),支持分布式部署,Kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker。Kafka采用生产者-消费者模式来异步处理请求,信息生产者(Producer)和消费者(Consumer)可以在多个Broker上生产和消费topic,达到消除请求高峰的目的,从而提高系统稳定性和吞吐量。
所述基于Quartz的作业调度机制,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业(Producer Job)和消费者作业(Consumer Job)两种类型,使用不同的作业调度规则进行调度;其中,生产者作业与消费者作业的对应关系是1对N的关系,N不同,调度规则也不同,即由于N的不同,不同组的消费者作业使用不同的调度规则,故消费者作业使用不同的作业调度规则;消费者端可以部署在多台机器上,生产者仅需部署在一台机器上,这样就可以实现爬虫作业的分布式部署,通过Quartz的调度就可以实现不同节点的分布式调度。Quartz是一种开源的轻量级作业调度框架,完全由java编写,具备很大的灵活性而又不失简单性,可以用来为执行一个作业创建简单或者复杂的调度,为确保可伸缩性,Quartz采用了基于多线程的架构,Quartz同样支持分布式部署,能够并发运行多个作业,可以很好的满足分布式爬虫作业的调度需求。
所述前端控制台,负责完成对分布式爬虫的管理以及定制。
作为优选,所述页面解析生成URL负责从当前页面中提取URL链接。
更优地,所述URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接。
更优地,所述页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容。
更优地,所述前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
更优地,所述内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取。
一种基于Kafka和Quartz的分布式爬虫架构的实现方法,采用上述任意一种基于Kafka和Quartz的分布式爬虫架构,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度机制,调用基础爬虫组件根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度机制,调用基础爬虫组件,通过获取基于Kafka的消息分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
本发明的一种基于Kafka和Quartz的分布式爬虫架构及其实现方法和现有技术相比,具有以下有益效果:
1、本发明是基于开源组件构建分布式爬虫,可以在利用原有技术框架的基础之上进行深度开发定制,满足特定的需求,节省开发成本;
2、Kafka与Quartz都是经过实战验证的开源分布式框架,可以很好的满足分布式爬虫的需求,可灵活的与其他框架相结合,从而在保证架构性能的基础之上,实现灵活开发定制;
3、本发明利用已有的成熟的单机爬虫框架结合Kafka与Quartz分布式工具完成分布式爬虫的需求,使其可以满足大部分的爬取需求,并具备高并发,支持分布式等特征,解决了爬取队列消息的多节点分发以及定时爬取的问题。
由此可见,本发明具有设计合理、结构简单、使用方便、一物多用等特点,因而,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为一种基于Kafka和Quartz的分布式爬虫架构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1
本发明的一种基于Kafka和Quartz的分布式爬虫架构,该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台;基础爬虫组件是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;页面解析生成URL负责从当前页面中提取URL链接。URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接。页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容。URL存储队列,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取。基于Kafka的消息分发机制,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列。 基于Quartz的作业调度机制,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业和消费者作业两种类型,使用不同的作业调度规则进行调度。前端控制台,负责完成对分布式爬虫的管理以及定制。前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
如附图1所示,基于Quartz的爬虫监控中心监控基于kafka的爬虫1爬取开源数据库(HBASE)中的网页(Page)信息,基于kafka的爬虫1包括生产者作业和消费者作业,即基于Quartz爬虫监控中心监控生产者和消费者完成网页爬取的作业,并将网页信息存储到格式化存储模块,即格式化存储模块从网页中提取爬取信息并存储。同时,基于Quartz爬虫监控中心监控爬虫2到爬虫N完成网页爬取任务,并存储到内存数据库中。
实施例2
一种基于Kafka和Quartz的分布式爬虫架构的实现方法,采用实施例1中的一种基于Kafka和Quartz的分布式爬虫架构,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度机制,调用基础爬虫组件根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度机制,调用基础爬虫组件,通过获取基于Kafka的消息分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的两种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (2)

1.一种基于Kafka和Quartz的分布式爬虫系统,其特征在于:该爬虫架构包括基础爬虫模块、URL存储队列模块、基于Kafka的URL消息分发模块、基于Quartz的爬虫作业调度模块和前端控制台;
所述基础爬虫模块是基于开源的单机爬虫组件,包括页面解析生成URL、URL过滤器和页面爬取;页面解析生成URL负责从当前页面中提取URL链接;URL过滤器负责根据爬取规则将产生URL链接进行过滤,得到符合规则的URL链接;页面爬取负责符合爬取规则的URL链接进行页面抓取,定制页面抓取内容;
所述URL存储队列模块,采用内存数据库,内存数据库用来存储待爬取以及已经爬取完成的URL消息队列,实现分布式爬虫的增量爬取;内存数据库自动完成数据的去重存储,完成待爬取队列的去重存储以及已爬取队列的存储,实现分布式爬虫的增量爬取和中断爬取;
所述基于Kafka的消息分发模块,采用生产者-消费者异步请求处理机制,一个生产者对应N个消费者,分别部署于不同的节点;生产者负责产生待爬取的URL消息队列,而消费者负责从待爬取队列中获取URL消息队列进行爬取,并将已完成的爬取存入已爬取队列;
所述基于Quartz的作业调度模块,负责完成对分布式爬虫架构的爬取作业的调度,爬取作业分为生产者作业和消费者作业两种类型,使用不同的作业调度规则进行调度;
所述前端控制台,负责完成对分布式爬虫的管理以及定制;前端控制台负责完成爬取入口、爬取规则、爬取结果存储方式和调度规则的参数设定以及完成对爬取作业的启停管理和分布式爬虫的集群部署管理。
2.一种基于Kafka和Quartz的分布式爬虫系统的实现方法,其特征在于:采用权利要求1中一种基于Kafka和Quartz的分布式爬虫系统,包括如下步骤:
(1)、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数,同时选择要部署的集群节点进行部署;
(2)、生产者作业根据基于Quartz的作业调度模块的调度机制,调用基础爬虫模块根据爬虫入口,提取爬取URL链接,并去重存储在待爬取队列中;
(3)、各个结点的消费者作业根据基于Quartz的作业调度模块的调度机制,调用基础爬虫模块,通过获取基于Kafka的消息分发模块的分发机制分发到本节点的URL链接消息,对URL链接进行解析爬取,并将结果存储到系统中;
(4)、通过前端控制台的页面完成对已部署爬取作业的启停管理以及各个结点的消费者作业增删管理。
CN201610120023.5A 2016-03-03 2016-03-03 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 Active CN105677918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610120023.5A CN105677918B (zh) 2016-03-03 2016-03-03 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610120023.5A CN105677918B (zh) 2016-03-03 2016-03-03 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法

Publications (2)

Publication Number Publication Date
CN105677918A CN105677918A (zh) 2016-06-15
CN105677918B true CN105677918B (zh) 2019-02-15

Family

ID=56306611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610120023.5A Active CN105677918B (zh) 2016-03-03 2016-03-03 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法

Country Status (1)

Country Link
CN (1) CN105677918B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021608A (zh) * 2016-06-22 2016-10-12 广东亿迅科技有限公司 一种分布式爬虫系统及其实现方法
CN106096056B (zh) * 2016-06-30 2019-11-26 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106168985A (zh) * 2016-08-26 2016-11-30 南京车易淘网络信息技术有限公司 一种可快速分布式部署的爬虫方法
CN107784036A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 网络爬虫系统和基于网络爬虫系统的数据处理方法
CN106897357B (zh) * 2017-01-04 2023-07-18 北京京拍档科技股份有限公司 一种用于带验证分布式智能爬取网络信息的方法
CN107066526A (zh) * 2017-02-23 2017-08-18 武汉智寻天下科技有限公司 一种网络爬虫系统及方法
CN106980678A (zh) * 2017-03-30 2017-07-25 温馨港网络信息科技(苏州)有限公司 基于zookeeper技术的数据分析方法及系统
CN107451223A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种高并发并行计算的大数据采集系统及方法
CN107563715A (zh) * 2017-07-19 2018-01-09 天津云脉三六五科技有限公司 外贸集客营销系统及方法
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置
CN108038007B (zh) * 2017-11-30 2022-04-05 中电福富信息科技有限公司 一种基于Ignite的消息有序处理方法及系统
CN107943991A (zh) * 2017-12-01 2018-04-20 成都嗨翻屋文化传播有限公司 一种基于内存数据库的分布式爬虫框架及实现方法
CN109359231A (zh) * 2017-12-29 2019-02-19 广州Tcl智能家居科技有限公司 一种分布式网络爬虫的信息爬取方法、服务器及存储介质
CN108520024A (zh) * 2018-03-22 2018-09-11 河海大学 基于Spark Streaming的双周期爬虫系统及其运行方法
CN109063019A (zh) * 2018-07-12 2018-12-21 山东汇贸电子口岸有限公司 一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法
CN109783715A (zh) * 2019-01-08 2019-05-21 鑫涌算力信息科技(上海)有限公司 网络爬虫系统及方法
CN110262888B (zh) * 2019-06-26 2020-11-20 京东数字科技控股有限公司 任务调度方法和装置及计算节点执行任务的方法和装置
CN110457556B (zh) * 2019-07-04 2023-11-14 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110929126A (zh) * 2019-12-02 2020-03-27 杭州安恒信息技术股份有限公司 一种基于远程过程调用实现的分布式爬虫调度方法
CN111209460A (zh) * 2019-12-27 2020-05-29 青岛海洋科学与技术国家实验室发展中心 基于scrapy爬虫框架的数据采集系统及方法
CN113392297A (zh) * 2020-03-12 2021-09-14 上海云盾信息技术有限公司 一种爬取数据的方法、系统及设备
CN112528119A (zh) * 2020-12-21 2021-03-19 北京中安智达科技有限公司 一种基于Pulsar的分布式爬取网页信息的系统
CN112765432A (zh) * 2021-01-11 2021-05-07 北京微步在线科技有限公司 基于Python的安全威胁情报获取方法及系统
CN113065051B (zh) * 2021-04-02 2022-04-15 西南石油大学 一种可视化农业大数据分析交互系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678571A (zh) * 2013-12-09 2014-03-26 中国科学院深圳先进技术研究院 应用于单台多核处理器主机的多线程网络爬虫执行方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678571A (zh) * 2013-12-09 2014-03-26 中国科学院深圳先进技术研究院 应用于单台多核处理器主机的多线程网络爬虫执行方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种面向主题的分布式爬虫系统的研究与实现;高景生;《中国优秀硕士学位论文全文数据库》;20150515(第05期);第2.3节和第4节 *
分布式多主题网络爬虫系统的研究与实现;白鹤等;《计算机工程》;20091031;第35卷(第19期);全文 *
基于Lecene搜索引擎的研究与应用;尉建兴;《中国优秀硕士学位论文全文数据库》;20110815(第08期);第4.1节 *
大数据:内涵、技术体系与展望;彭宇等;《电子测量与仪器学报》;20150430;第29卷(第4期);第3.1节 *

Also Published As

Publication number Publication date
CN105677918A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN105677918B (zh) 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN105243159B (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
Hammoud et al. DREAM: distributed RDF engine with adaptive query planner and minimal communication
CN106790718A (zh) 服务调用链路分析方法及系统
Kamburugamuve et al. Survey of distributed stream processing for large stream sources
CN109921927A (zh) 基于微服务的实时调用链跟踪方法
CN106487596A (zh) 分布式服务跟踪实现方法
CN102880607A (zh) 网络动态内容抓取方法及网络动态内容爬虫系统
Firouzi et al. Architecting iot cloud
CN111435344A (zh) 一种基于大数据的钻井提速影响因素分析模型
CN111400326A (zh) 一种智慧城市数据管理系统及其方法
CN107943991A (zh) 一种基于内存数据库的分布式爬虫框架及实现方法
CN106339408B (zh) 数据同步方法、数据同步装置和服务器
CN108021618A (zh) 一种数据查询方法及系统
CN112580831B (zh) 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN107729564A (zh) 一种分布式的聚焦网络爬虫网页爬取方法及系统
CN107193960A (zh) 一种分布式爬虫系统及周期性增量抓取方法
CN107203532A (zh) 索引系统的构建方法、搜索的实现方法及装置
US11055074B2 (en) Key-based logging for processing of structured data items with executable logic
CN107733696A (zh) 一种机器学习和人工智能应用一体机部署方法
CN109101575A (zh) 计算方法及装置
CN108520024A (zh) 基于Spark Streaming的双周期爬虫系统及其运行方法
Smid et al. Case study on data communication in microservice architecture
GB2463546A (en) Handling malfunction/trouble in an information system comprising prioritising, searching and recommending previously executed trouble handling methods
CN109063216A (zh) 一种分布式垂直业务搜索爬虫框架

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant