CN106980678A - 基于zookeeper技术的数据分析方法及系统 - Google Patents

基于zookeeper技术的数据分析方法及系统 Download PDF

Info

Publication number
CN106980678A
CN106980678A CN201710201748.1A CN201710201748A CN106980678A CN 106980678 A CN106980678 A CN 106980678A CN 201710201748 A CN201710201748 A CN 201710201748A CN 106980678 A CN106980678 A CN 106980678A
Authority
CN
China
Prior art keywords
data
consumer
zookeeper
master scheduler
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710201748.1A
Other languages
English (en)
Inventor
郝小锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Warm Harbor Network Information Technology (suzhou) Co Ltd
Original Assignee
Warm Harbor Network Information Technology (suzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Warm Harbor Network Information Technology (suzhou) Co Ltd filed Critical Warm Harbor Network Information Technology (suzhou) Co Ltd
Priority to CN201710201748.1A priority Critical patent/CN106980678A/zh
Publication of CN106980678A publication Critical patent/CN106980678A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了基于zookeeper技术的数据分析方法及系统,确定主调度器和主生产者,各消费者向zookeeper注册节点信息及所在的消费者群组,并为其所在的消费者群组创建一个队列以及通知主调度器;主调度器控制主生产者将下载的待处理数据写入相应消费者本机以及将数据的本地存储路径注册到相应的队列里;主调度器通知各消费者进行数据处理;消费者获取数据进行处理,生成结构化/半结构化数据,导入到 Hadoop 集群中;通过hive工具离线分析,并将分析结果集插入到关系型数据库以及solr搜索引擎中。本发明可以利用Hadoop 系统进行数据分析而避免了繁杂的对关系型数据库的分表、拆表、合并等操作,简化了数据分析流程,又提供了更为方便地对任务进行调度、管理的系统。

Description

基于zookeeper技术的数据分析方法及系统
技术领域
本发明涉及一种数据分析方法及系统,尤其是一种基于zookeeper技术的数据分析方法及系统。
背景技术
随着社会工业化、信息化水平的不断提高,互联网用户呈现爆炸式增长的趋势,大量的用户在浏览、使用各种基于HTTP协议的网站时,会产生了海量的数据,这些数据中蕴藏着大量的有用信息,存在着各方面的应用价值,因此如何将这些信息资源充分的开发利用成为众多企业的研究方向,这其中如何处理和分析海量的数据又成为当前信息技术领域的难点和热点问题。
采用中央数据库分析方法的计算成本要比分析处理分布式的众多小块数据的总和的成本要高很多,所以在对海量信息中的可用数据资源进行分布式的大数据挖掘是最优选方式,而目前市面上鲜有报道针对用户上网的海量数据进行数据挖掘的有效技术。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于zookeeper技术的数据分析方法及系统。
本发明的目的通过以下技术方案来实现:
基于zookeeper技术的数据分析方法,包括如下步骤:
S1,所有调度器、生产者向zookeeper注册自身节点信息,选举出主调度器、主生产者,各消费者向zookeeper注册自身节点信息及其所在的 消费者群组,并为其所在的消费者群组创建一个队列以及通知主调度器;
S2,主调度器根据各消费者汇报的队列,控制主生产者根据配置策略,将从已存在待处理数据的配置位置下载的待处理数据分别写入各消费者群组中的相应消费者本机,以及将待处理数据的本地存储路径注册到相应消费者对应的队列里;
S3,主调度器通知各消费者群组中的消费者进行待处理数据处理;
S4,各消费者按照指定原则获取待处理数据,进行解析、格式化处理,生成结构化/半结构化数据,并导入到Hadoop集群中;
S5,通过hive工具根据业务场景离线分析S4步骤中生成的结构化/半结构化数据,并将分析结果集插入到关系型数据库以及solr搜索引擎中。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在S1步骤中,在选举所述主生产者时,所有生产者向zookeeper注册自身节点信息,并请求创建/argus/lives/produsers/produsers#id目录,都注册成功了,取序号最小的节点作为主生产者。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在S1步骤中,在选举所述主调度器时,所有调度器向zookeeper注册自身节点信息并请求创建/argus/dispatchers/dispatcher#id目录,都注册成功了,取序号最小的节点作为主调度器。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在S2步骤中,所述待处理数据是数据采集器采集的HTTP的流量镜像数据,所述数据采集器采用C语言编写,所述HTTP的流量镜像数据由路由器通过旁路镜像得到。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在S2步骤中,主生产者在下载待处理数据时根据数据采集器的数量采用多线程下载。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在所述S4步骤中,所述解析、格式化过程是将下载的每条http的流量数据中的refer属性进行上下文关联,分析计算来关联到每次的session,继而还原整个访问轨迹,并还原到当时的页面请求快照。
优选的,所述的基于zookeeper技术的数据分析方法,其中:在所述S4步骤中,消费者在进行解析、格式化处理,生成结构化/半结构化数据的任务时,根据处理结果进行下述处理:
当消费者反馈的任务结果是成功时,则主调度器将会通知该消费者对应的队列删除数据,并记录日志;
当消费者反馈的任务结果是失败时,则主调度器将该数据重新放入该消费者对应的队列来重试,并记录数据的重试次数,如果连续3-7次都失败,则消费者会将数据保存进失败目录,同时向主调度器汇报失败结果;
当消费者反馈的任务结果是超时,则主调度器直接通知该消费者对应的队列删除数据,并记录日志。
基于zookeeper技术的数据分析系统,包括
数据采集器,用于获取由路由器通过旁路镜像得到HTTP的流量镜像数据,并存储到指定位置;
zookeeper,用于感知发现节点、进行主节点选举;
生产者,用于参加主节点选举,并由主生产者从已存在待处理数据的配置位置下载待处理数据,根据配置策略将待处理数据轮流写入到各消费者群组中的相应消费者本机,同时将待处理数据的本地存储路径注册到相应消费者对应的队列里,并向主调度器报告待处理数据数量;
调度器,用于参加主节点选举,并由主调度器根据各消费者汇报的队列,控制主生成者按照配置策略将下载的待处理数据分配给相应消费者, 并通知消费者处理及进行处理状态的监控管理;
消费者,用于创建队列以及获取待处理数据,进行解析、格式化处理,生成结构化/半结构化数据,并导入到Hadoop集群中以及反馈任务结果给主调度器;
Hadoop集群,用于通过hive工具根据业务场景离线分析消费者生成的结构化/半结构化数据,并将分析结果集插入到关系型数据库以及solr搜索引擎中。
优选的,所述的基于zookeeper技术的数据分析系统,其中:所述主调度器按照本地文件优先的原则分配待处理数据给消费者。
优选的,所述的基于zookeeper技术的数据分析系统,其中:还包括用于存储系统启动基础数据的Redis缓存。
本发明技术方案的优点主要体现在:
本发明设计精巧,过程简单,通过位于协议层的数据采集器采集基于HTTP协议的网站中的数据,专用的数据采集器便于进行大数据的数据传输,提高数据传输效率,同时采用分布式任务调度框架,利用zookeeper来实现对任务的统筹管理,以便提供更为人性化的、更为方便的交互管理模式;进一步,在数据分析挖掘过程中利用Hadoop系统(如HiveServer中安装的基于Hadoop的组件Hive)来进行数据分析,从而既可以利用Hadoop系统进行数据分析而避免了繁杂的对关系型数据库的分表、拆表、合并等操作,简化了数据分析流程,便于进行可视化查询,又提供了更为方便地对任务进行调度、管理的技术;结合专用的数据分析算法,能够有效的挖掘出基于HTTP协议的网站的有用数据,提供了此种网络数据的有效挖掘方法和系统,为企业的发展和决策提供了数据支持。
采用本地文件优先的任务分配原则,减少不必要的网络IO,有利于缩 短数据的传输时间,提高数据的传输、分析效率。
具体实施方式
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
本发明揭示了一种基于zookeeper技术的数据分析系统,包括数据采集器、zookeeper、生产者、调度器、消费者以及Hadoop集群,整个系统采用分布式任务框架,分布式任务框架的日志使用SLF4J工具来实现日志记录,分布式任务框架处理日志与业务处理日志分开保存,在日志保存根目录下,保存一份全量日志,该日志保存了完整的任务框架处理及业务处理日志,便于从总体分析、排查问题;在测试及调度阶段同时提供控制台日志,该日志也是全量的,在生产环境中应关闭。
所述数据采集器用于获取待处理数据,并存储到指定位置,所述待处理数据是由路由器通过旁路镜像得到的HTTP的流量镜像数据,它包括一次请求中包含的请求头信息,请求体信息,响应头信息,响应体等信息,所述数据采集器采用c语言进行编写,能够对镜像文件进行采集,基于linux内核做增强,便于大数据量的数据传输,可以根据操作系统做编译,其采集到的数据会存在中间服务器等待处理。
所述zookeeper至少用于感知发现节点、进行主节点选举,整个系统的分布式状态一致由zookeeper管理。
所述生产者用于参加主节点选举,并且在选举出主生产者后,由主生产者从已存在待处理数据的配置位置下载待处理数据,并根据配置策略将待处理数据轮流写入到各消费者群组包含的消费者本机,同时将待处理数 据的本地存储地址注册到各消费者对应的队列里,并向下述的主调度器报告待处理数据的数量,其进程与调度器、消费者进程可以运行在一台机器上,并且,只要数据采集器将采集到的待处理数据存放到中间服务器指定的位置,生产者就启动数据下载。
所述生产者运行时采用主-从模式,多个生产者不能同时通过FTP下载数据,如果需要同时有多个生产者FTP下载数据的话,则需要从文件选择策略上隔离文件,以避免多个生产者下载到同一个文件导致错误。
所述主生产者下载文件时,根据数据采集器的数量,采用多线程下载,一台线程下载一台机器上的数据,下载量为工单提交的请求量,所述工单是系统内部定义的一个对象,由后台进行配置,主生产者在下载文件后,将文件存放至工单指定的目录(该目录使用NFS挂载);并且,下载时可以使用已经实现的策略,也可以使用自定义策略,可选的策略有:按数量下载、按时间片下载、按指定模式的文件名下载。
主生产者在下载待处理数据后,根据下述的主调度器的调度,按照如下配置策略将数据写入到各消费者群组对应的消费者本机中,
(1)按消费者群组的数量分配,比如共有3个群组,它们的消费能力都是40,则分配数量为:群组A 40个,群组B 40个,群组C 20个。
(2)按比例分配,比如共有3个群组,它们的消费能力是40,则分配数量时按各自比例来分配:群组A 34个,群组B 33个,群组C 33个。
(3)动态压力分配,在分配之前获取各生产者的压力情况,如果压力大,则暂缓往该群组分配文件。
(4)指定分配,完全由人工指定分配。
生产者的任务接口主要为了解耦任务框架的逻辑和业务逻辑,任务接口只做与框架任务调度的事情,业务逻辑通过实现ProductTaskHandler接 口,该接口由框架调用来完成整个生产逻辑。框架提供的线程池提供了线程隔离来保证线程安全,具体业务实现时无需考虑线程安全问题。
所述调度器用于参加主节点选举,并且在选出主调度器后,由主调度器根据各消费者汇报的队列,控制主生成者将其下载的待处理数据分配给相应的消费者(即根据本地优先原则,将待处理数据写入各消费者本机),并通知消费者处理及进行处理状态的监控管理、进行数据可靠性管理、控制消费者压力。
调度器采用一主多从结构,活动调度器称为主调度器,非活动调度器称为从调度器,在某一时刻只能有一个主调度器工作,在分配待处理数据时,所述主调度器按照本地文件优先的原则分配待处理数据给消费者,即控制各生产者将待处理数据写到各消费者本机上。
所述消费者用于在向zookeeper注册时,为其所在的消费者群组创建一个队列以及根据所述主调度器的通知获取待处理数据,放进相应的线程进行处理,并将任务处理结果反馈给主调度器以及在任务处理成功时,将生成的数据导入到Hadoop集群中。
其中,所述队列使用ActiveMQ实现,队列中保存的元素信息为下载的待处理文件的本地存储路径。
在相应线程中的处理包括对待处理数据进行解析、格式化处理,生成结构化/半结构化数据,其任务处理结果分为成功、失败以及超时。
当消费者反馈的任务结果是成功时,则主调度器将会向该消费者对应的队列发送签收信息以通知队列删除数据,并记录日志,随后主调度器会重新分配新的任务给消费者。
当消费者反馈的任务结果是失败时,则主调度器将该待处理数据重新放入该消费者对应的队列来重试,并记录数据的重试次数,如果连续3-7 次都失败,优选为5次,则消费者会将该待处理数据保存进失败目录,同时向主调度器汇报失败结果。
当消费者反馈的任务结果是超时,则主调度器直接通知该消费者对应的队列删除数据,并记录日志。
消费者的任务接口主要为了解耦任务框架的逻辑和业务逻辑,任务接口只做与框架任务调度的事情,业务逻辑通过TaskCallback和TaskResultHandler接口实现,这两个接口由框架调用来完成整个生产逻辑,框架提供的线程池来提供了线程隔离保证线程安全,具体业务实现时无需考虑线程安全问题。
所述Hadoop集群用于通过hive工具根据业务场景离线分析消费者生成的结构化/半结构化数据,并将分析结果集插入到关系型数据库以及solr搜索引擎中。
所述离线分析基于Hive和HBase工具,例如可通过MapReduce和Spark计算框架,构建统计分析平台,提供对离线数据的查询检索分析功能以及通过集成RStudio页面IDE,提供基于Spark计算框架的R语言运行和开发环境,并集成基本的挖掘算法,支持自定义挖掘算法,提供对离线数据的挖掘分析。
由于所述的基于zookeeper技术的数据分析系统在启动时,需要大量基础数据,这部分数据变化频率极低,适合放入缓存以避免每次从数据库中获取,提高性能,本系统中选用Redis缓存,进入缓存时,遵循如下规则:首先查询数据时先到缓存中查找,如果存在指定的Key,则返回数据。如果不存在指定的Key,则先到数据库查询数据后,将数据写入缓存,再返回数据。
本发明的基于zookeeper技术的数据分析系统的工作过程,包括如下步骤:
S1,所有调度器向zookeeper注册自身节点信息并启动,选举出主调度器,调度器向zookeeper的/argus/dispatchers目录下注册节点时,该节点名称为:dispatcher#id,其中id为正整数,取值范围为[1,255],节点写入内容包括如下示例内容:
type:dispatcher
id:1
launchTime:2014-05-06 11:23:22.333
ip:192.168.1.201
nettyPort:12301。
在选举所述主调度器时,所有调度器向zookeeper注册自身节点信息并请求创建/argus/dispatchers/dispatcher#id目录,都注册成功了,取序号最小(id最小)的节点作为主调度器。
master节点选举出来后,相应的调度器把自己的信息写入至/argus/master/dispatcher下,名称和内容与自身的信息保持一致。
所有生产者向zookeeper注册自身节点信息并启动,具体的,生产者向zookeeper的/argus/livers/producers/ids/注册自身节点信息,该节点名称为:id,其中id为正整形数字,取值范围为[1,255],节点写入内容包括如下示例内容:
Type:producer
Id:1
Launchtime:2014-05-06 11:23:22.333
Ip:192.168.1.201。
生产者启动完成后,将会进行主节点选举,选举出主生产者,所述主生产者是所有生产者向zookeeper注册自身节点信息并请求创建/argus/lives/produsers/produsers#id目录时,都注册成功了且序号(Id)最小的节点。
如果主生产者或主调度器宕机时,则对应的临时节点就会消失,此时再次进行master选举即可。
各消费者向zookeeper注册自身节点信息并启动时,为了便于后续将本地文件发送给消费者,需要在livers目录下创建路径为该机器IP的子目录,然后在该子目录下注册自身节点信息,该节点名称为:consumer#id,其中id为正整形数字,取值范围为[1,255],节点写入内容包括如下示例内容:
Type:consumer
Id:1
LaunchTime:2014-05-06 11:23:22.333
Ip:192.168.1.201
Throughput:30
其中Throughput为吞吐量。
消费者在启动时会同时注册自身所在的消费者群组至zookeeper,同时为其所在的消费者群组创建一个队列并汇报给主调度器,其中消费者群组是由过个同类型的消费节点构成的小集群,同一消费者集群中的多个消费者可以在不同的本机上,zookeeper根据消费的topic注册每个生产者与消费者本机的配对关系,生产者根据topic至/topic/consumer_group获取子节点列表,该列表是有序的。
S2,主调度器根据各消费者汇报的队列,通知主生产者,主生产者通过zookeeper获取相应的消费者本机(即每个消费者进程所在的本机),从已存在待处理数据的配置位置下载待处理数据,并根据上述的配置策略将 待处理数据分别写入到各消费者群组相应的消费者本机中,以及将待处理数据的本地存储路径注册到相应消费者对应的队列里,主生产者向主调度器报告已完成下载及待处理数据的数量。
S3,所述主调度器通知各消费者群组中的消费者进行待处理数据处理,并监控任务处理情况及进行调度。
S4,各消费者按照指定原则从与其匹配的队列里获取待处理数据的本地存储路径,进而获得本地的待处理数据进行解析、格式化处理,生成结构化/半结构化数据,并导入到Hadoop集群中;所述解析、格式化过程是将下载的每条http的流量数据中的refer属性进行上下文关联,分析计算来关联到每次的session,继而还原整个访问轨迹,并还原到当时的页面请求快照。
S5,通过hive工具根据业务场景离线分析S4步骤中生成的结构化/半结构化数据,形成分析结果集插入到关系型数据库以及solr搜索引擎中。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.基于zookeeper技术的数据分析方法,其特征在于:包括如下步骤:
S1,所有调度器、生产者向zookeeper注册自身节点信息并启动,选举出主调度器、主生产者,各消费者向zookeeper注册自身节点信息及其所在的消费者群组,并为其所在的消费者群组创建一个队列以及通知主调度器;
S2,主调度器根据各消费者汇报的队列,控制主生产者根据配置策略,将从已存在待处理数据的配置位置下载的待处理数据分别写入各消费者群组中的相应消费者本机,以及将待处理数据的本地存储路径注册到相应消费者对应的队列里;
S3,主调度器通知各消费者群组中的消费者进行待处理数据处理;
S4,各消费者按照指定原则获取待处理数据,进行解析、格式化处理,生成结构化/半结构化数据,并导入到Hadoop集群中;
S5,通过hive工具根据业务场景离线分析S4步骤中生成的结构化/半结构化数据,并将分析结果集插入到关系型数据库以及solr搜索引擎中。
2.根据权利要求1所述的基于zookeeper技术的数据分析方法,其特征在于:在S1步骤中,在选举所述主生产者时,所有生产者向zookeeper注册自身节点信息并请求创建/argus/lives/produsers/produsers#id目录,都注册成功了,取序号最小的节点作为主生产者。
3.根据权利要求1所述的基于zookeeper技术的数据分析方法,其特征在于:在S1步骤中,在选举所述主调度器时,所有调度器向zookeeper注册自身节点信息,请求创建/argus/dispatchers/dispatcher#id目录,都注册成功了,取序号最小的节点作为主调度器。
4.根据权利要求1所述的基于zookeeper技术的数据分析方法,其特征在于:在所述S2步骤中,所述待处理数据是数据采集器采集的HTTP的流量镜像数据,所述数据采集器采用C语言编写,所述HTTP的流量镜像数据由路由器通过旁路镜像得到。
5.根据权利要求4所述的基于zookeeper技术的数据分析方法,其特征在于:在所述S2步骤中,主生产者在下载待处理数据时根据数据采集器的数量采用多线程下载。
6.根据权利要求1-5任一所述的基于zookeeper技术的数据分析方法,其特征在于:在所述S4步骤中,所述解析、格式化过程是将下载的每条http的流量数据中的refer属性进行上下文关联,分析计算来关联到每次的session,继而还原整个访问轨迹,并还原到当时的页面请求快照。
7.根据权利要求6所述的基于zookeeper技术的数据分析方法,其特征在于:在所述S4步骤中,消费者在进行解析、格式化处理,生成结构化/半结构化数据的任务时,根据处理结果进行下述处理:
当消费者反馈的任务结果是成功时,则主调度器将会通知该消费者对应的队列删除数据,并记录日志;
当消费者反馈的任务结果是失败时,则主调度器将该数据重新放入该消费者对应的队列来重试,并记录数据的重试次数,如果连续3-7次都失败,则消费者会将数据保存进失败目录,同时向主调度器汇报失败结果;
当消费者反馈的任务结果是超时,则主调度器直接通知该消费者对应的队列删除数据,并记录日志。
8.基于zookeeper技术的数据分析系统,其特征在于:包括
数据采集器,用于获取由路由器通过旁路镜像得到HTTP的流量镜像数据,并存储到指定位置;
zookeeper,用于感知发现节点、进行主节点选举;
生产者,用于参加主节点选举,并由主生产者从已存在待处理数据的配置位置下载待处理数据,根据配置策略将待处理数据轮流写入到各消费者群组中的相应消费者本机,同时将待处理数据的本地存储路径注册到相应消费者对应的队列里,并向主调度器报告待处理数据数量;
调度器,用于参加主节点选举,并由主调度器根据各消费者汇报的队列,控制主生成者按照配置策略将下载的待处理数据分配给相应消费者,并通知消费者处理及进行处理状态的监控管理;
消费者,用于创建队列以及获取待处理数据,进行解析、格式化处理,生成结构化/半结构化数据,并导入到Hadoop集群中以及反馈任务结果给主调度器;
Hadoop集群,用于通过hive工具根据业务场景离线分析消费者生成的结构化/半结构化数据,并将分析结果集插入到关系型数据库以及solr搜索引擎中。
9.根据权利要求8所述的基于zookeeper技术的数据分析系统,其特征在于:所述主调度器按照本地文件优先的原则分配待处理数据给消费者。
10.根据权利要求8所述的基于zookeeper技术的数据分析系统,其特征在于:还包括用于存储系统启动基础数据的Redis缓存。
CN201710201748.1A 2017-03-30 2017-03-30 基于zookeeper技术的数据分析方法及系统 Pending CN106980678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710201748.1A CN106980678A (zh) 2017-03-30 2017-03-30 基于zookeeper技术的数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710201748.1A CN106980678A (zh) 2017-03-30 2017-03-30 基于zookeeper技术的数据分析方法及系统

Publications (1)

Publication Number Publication Date
CN106980678A true CN106980678A (zh) 2017-07-25

Family

ID=59338446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710201748.1A Pending CN106980678A (zh) 2017-03-30 2017-03-30 基于zookeeper技术的数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN106980678A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862038A (zh) * 2017-11-04 2018-03-30 公安部第三研究所 一种解耦web客户端与大数据挖掘分析的数据挖掘平台及实现方法
CN108009029A (zh) * 2017-11-30 2018-05-08 中电福富信息科技有限公司 基于Ignite网格缓存数据解耦持久化的方法及系统
CN109298937A (zh) * 2018-09-19 2019-02-01 中国联合网络通信集团有限公司 文件解析方法及网络设备
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN110246006A (zh) * 2019-05-26 2019-09-17 必成汇(成都)科技有限公司 分布式环境动态分配撮合任务量的方法
CN110673945A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 分布式任务管理方法和管理系统
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111858653A (zh) * 2020-07-15 2020-10-30 武汉众邦银行股份有限公司 一种基于数据库分段的分布式批量处理方法
CN112134929A (zh) * 2020-08-28 2020-12-25 新华三技术有限公司 一种会话报文分析方法、装置及存储介质
CN112559360A (zh) * 2020-12-22 2021-03-26 盛银消费金融有限公司 一种基于代码方法级的压力测试方法
CN113132678A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 一种数据传输方法、装置、电子设备及存储介质
CN113641477A (zh) * 2021-08-17 2021-11-12 南方电网深圳数字电网研究院有限公司 基于Zookeeper的线程调度方法及装置
CN114338535A (zh) * 2022-01-12 2022-04-12 平安壹钱包电子商务有限公司 基于zookeeper的集群限流方法、系统、设备及存储介质
CN115460103A (zh) * 2022-09-05 2022-12-09 中国银行股份有限公司 一种服务状态监控方法及系统、电子设备、存储介质
CN117742998A (zh) * 2024-02-18 2024-03-22 浩鲸云计算科技股份有限公司 一种面向计费采集数据转发的高性能队列方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
WO2016101423A1 (zh) * 2014-12-23 2016-06-30 中兴通讯股份有限公司 作业调度方法和云调度服务器
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
WO2016101423A1 (zh) * 2014-12-23 2016-06-30 中兴通讯股份有限公司 作业调度方法和云调度服务器
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪超: "《从Paxos到Zookeeper分布式一致性原理与实践》", 28 February 2015 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862038A (zh) * 2017-11-04 2018-03-30 公安部第三研究所 一种解耦web客户端与大数据挖掘分析的数据挖掘平台及实现方法
CN107862038B (zh) * 2017-11-04 2022-01-21 公安部第三研究所 一种解耦web客户端与大数据挖掘分析的数据挖掘平台及实现方法
CN108009029A (zh) * 2017-11-30 2018-05-08 中电福富信息科技有限公司 基于Ignite网格缓存数据解耦持久化的方法及系统
CN108009029B (zh) * 2017-11-30 2022-01-04 中电福富信息科技有限公司 基于Ignite网格缓存数据解耦持久化的方法及系统
CN110673945A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 分布式任务管理方法和管理系统
CN109298937A (zh) * 2018-09-19 2019-02-01 中国联合网络通信集团有限公司 文件解析方法及网络设备
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN110246006A (zh) * 2019-05-26 2019-09-17 必成汇(成都)科技有限公司 分布式环境动态分配撮合任务量的方法
CN113132678A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 一种数据传输方法、装置、电子设备及存储介质
CN113132678B (zh) * 2019-12-31 2023-08-01 深圳云天励飞技术有限公司 一种数据传输方法、装置、电子设备及存储介质
CN111858653A (zh) * 2020-07-15 2020-10-30 武汉众邦银行股份有限公司 一种基于数据库分段的分布式批量处理方法
CN112134929A (zh) * 2020-08-28 2020-12-25 新华三技术有限公司 一种会话报文分析方法、装置及存储介质
CN112134929B (zh) * 2020-08-28 2022-05-27 新华三技术有限公司 一种会话报文分析方法、装置及存储介质
CN112559360A (zh) * 2020-12-22 2021-03-26 盛银消费金融有限公司 一种基于代码方法级的压力测试方法
CN113641477B (zh) * 2021-08-17 2024-08-16 南方电网数字平台科技(广东)有限公司 基于Zookeeper的线程调度方法及装置
CN113641477A (zh) * 2021-08-17 2021-11-12 南方电网深圳数字电网研究院有限公司 基于Zookeeper的线程调度方法及装置
CN114338535A (zh) * 2022-01-12 2022-04-12 平安壹钱包电子商务有限公司 基于zookeeper的集群限流方法、系统、设备及存储介质
CN114338535B (zh) * 2022-01-12 2023-09-22 平安壹钱包电子商务有限公司 基于zookeeper的集群限流方法、系统、设备及存储介质
CN115460103A (zh) * 2022-09-05 2022-12-09 中国银行股份有限公司 一种服务状态监控方法及系统、电子设备、存储介质
CN115460103B (zh) * 2022-09-05 2024-02-27 中国银行股份有限公司 一种服务状态监控方法及系统、电子设备、存储介质
CN117742998A (zh) * 2024-02-18 2024-03-22 浩鲸云计算科技股份有限公司 一种面向计费采集数据转发的高性能队列方法及系统
CN117742998B (zh) * 2024-02-18 2024-05-07 浩鲸云计算科技股份有限公司 一种面向计费采集数据转发的高性能队列方法及系统

Similar Documents

Publication Publication Date Title
CN106980678A (zh) 基于zookeeper技术的数据分析方法及系统
CN105723679B (zh) 用于配置节点的系统和方法
US20210117425A1 (en) Management of distributed computing framework components in a data fabric service system
CN105765575B (zh) 数据流摄取和持久性技术
CN104486445B (zh) 一种基于云平台的分布式可扩展资源监控系统
Coutinho et al. Elasticity in cloud computing: a survey
CN105706086B (zh) 用于获取、存储和消费大规模数据流的管理服务
CN106844198B (zh) 一种分布式调度自动化测试平台及方法
CN109857518A (zh) 一种网络资源的分配方法及设备
US20190138639A1 (en) Generating a subquery for a distinct data intake and query system
CN103092698B (zh) 云计算应用自动部署系统及方法
CN102227121B (zh) 基于机器学习的分布式缓存策略自适应切换方法及系统
CN106201754A (zh) 任务信息分析方法及装置
Meng et al. State monitoring in cloud datacenters
CN107679192A (zh) 多集群协同数据处理方法、系统、存储介质及设备
CN107071009A (zh) 一种负载均衡的分布式大数据爬虫系统
CN107317724A (zh) 基于云计算技术的数据采集系统及方法
CN107864222A (zh) 一种基于PaaS平台的工业大数据计算架构
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN108228796A (zh) Mpp数据库的管理方法、装置、系统、服务器及介质
CN102761602A (zh) 一种基于Hadoop的海量数据实时分析处理方法
CN104112049A (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
CN106254561A (zh) 一种网络资源文件的实时离线下载方法及系统
Rajalakshmi et al. An improved dynamic data replica selection and placement in cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170725

RJ01 Rejection of invention patent application after publication