CN104468710A - 一种混合大数据处理系统及处理方法 - Google Patents
一种混合大数据处理系统及处理方法 Download PDFInfo
- Publication number
- CN104468710A CN104468710A CN201410605808.2A CN201410605808A CN104468710A CN 104468710 A CN104468710 A CN 104468710A CN 201410605808 A CN201410605808 A CN 201410605808A CN 104468710 A CN104468710 A CN 104468710A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- strom
- gearman
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种混合大数据处理系统,包括与Gearman服务器端连接的多个客户端和多个数据处理模块,多个数据处理模块均与存储系统连接。本发明的混合大数据处理系统,能够降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。本发明的另一种采用上述混合大数据处理系统的处理方法,降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。
Description
技术领域
本发明属于大数据技术领域,涉及一种混合大数据处理系统,还涉及一种混合大数据处理方法。
背景技术
目前,大数据在很多企业中已经广泛被应用,在处理大数据时,Hadoop通常被作为标准来使用,例如IBM、Oracle、SAP、甚至微软等大型软件供应商都采了Hadoop。Hadoop虽然在批量数据处理方面功效卓越,然而它对实时性要求高的业务却显得力有未逮。
而Storm是一个高度容错的、分布式的实时流式处理系统,能够在实时性需求高的场景中对持续不断的数据流进行分析处理,比如在一些精准广告推荐、话题趋势预测等。
在资源分配方面,对于Hadoop生态系统而言,无论是处理器还是存储能力等方面的需求都是随着数据量和业务复杂性的变化而动态改变的,因此,在考虑如何高效利用Hadoop系统资源的情况下,适时地将暂时不用的资源分配给需要实时处理的系统使用,再在其需要时重新获取使用将是一件有意义的事情。
发明内容
本发明的目的是提供一种混合大数据处理系统,能够降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。
本发明的另一目的是提供一种混合大数据处理方法,能够降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。
本发明所采用的一种技术方案是,一种混合大数据处理系统,包括与Gearman服务器端连接的多个客户端和多个数据处理模块,多个数据处理模块均与存储系统连接。
本发明一种技术方案的特点还在于,
数据处理模块包括strom topology单元,strom topology单元与mapreduce Job单元连接,strom topology单元和mapreduce Job单元均与Gearman服务器端连接,strom topology单元和mapreduce Job单元均与存储系统连接。
本发明所采用的另一种技术方案是,一种混合大数据处理方法,采用一种混合大数据处理系统,其结构为:包括与Gearman服务器端连接的多个客户端和多个数据处理模块,多个数据处理模块均与存储系统连接;
数据处理模块包括strom topology单元,strom topology单元与mapreduce Job单元连接,strom topology单元和mapreduce Job单元均与Gearman服务器端连接,strom topology单元和mapreduce Job单元均与存储系统连接;
采用上述混合大数据处理系统的处理方法,具体按照以下步骤实施:
步骤1,用户根据需求编写请求,客户端发送请求给Gearman服务器端,请求为实时数据处理请求或离线批量数据处理请求;
步骤2,Gearman服务器端接收客户端发送的请求,并根据请求判断将需要处理的业务分发给strom topology单元或mapreduce Job单元,如果请求为实时数据处理请求,则执行步骤3;如果请求为离线批量数据处理请求,则执行步骤4;
步骤3,strom topology单元对数据进行实时处理,并将处理结果经Gearman服务器端返回给客户端,将需要存储的数据存入存储系统中;
步骤4,mapreduce Job单元对数据进行离线批量处理,并将处理结果经Gearman服务器端返回给客户端,将需要存储的数据存入存储系统中。
本发明另一种技术方案的特点还在于,
其中,步骤3具体按照以下步骤实施:
步骤3.1,strom topology单元判断资源是否紧张,如果资源紧张,则向Hadoop系统借调资源,并执行步骤3.2;如果资源不紧张,则执行步骤3.2;
步骤3.2,strom topology单元对数据进行实时处理,并在空闲时释放资源;
步骤3.3,strom topology单元判断经过实时处理后的数据是否需要mapreduce Job单元再做处理,如果需要,则将经过实时处理后的数据发送给mapreduce Job单元处理,并将经过mapreduce Job单元处理后的数据经Gearman服务器端返回给客户端,然后执行步骤3.4;如果不需要,则将经过实时处理后的数据经Gearman服务器端返回给客户端,然后执行步骤3.4;
步骤3.4,strom topology单元判断实时处理后的数据或经过mapreduceJob单元处理后的数据是否需要存储,如果需要存储,则将最终处理后的数据发送给存储系统存储。
其中,步骤4具体按照以下步骤实施:
步骤4.1,mapreduce Job单元对离线批量数据进行处理;
步骤4.2,mapreduce Job单元将经过离线批量处理后的数据经Gearman服务器端返回给客户端,并判断经过离线批量处理后的数据是否需要存储,如果需要存储,则将经过mapreduce Job单元处理后的数据发送给存储系统进行存储。
本发明的有益效果是,
1)数据处理效率高:对于大批量离线的有处理分析请求的数据而言,采用Hadoop MapReduce计算框架能够达到所需的计算能力;对于变化频率快的数据而言,采用storm这种流式处理技术能够保证对数据的及时有效处理。
2)弹性潜力大:实时处理的负载一般不恒定,而且难以预测,就Storm本身而言,当处于峰值处理期时,它会需要大量资源。而将storm和批处理系统Hadoop结合使用之后,storm可以在Hadoop空闲资源充足的情况下获取一部分来作为实时处理资源的需求。
3)具有动态扩展性:支持弹性扩展,通过动态增加或减少节点应对变化的数据访问负载,提供可预测的性能与扩展性。
4)高可用性:无论是gearman、Hadoop还是Storm都有很好的容错性和故障检测能力。
5)易用性:提供统一的可视化管理和监控界面,动态扩展或失效恢复时无需人工配置,便于统一管理和维护。
附图说明
图1是本发明一种混合大数据处理系统的结构示意图;
图2是本发明一种混合大数据处理方法中实时数据处理的流程示意图;
图3是本发明一种混合大数据处理方法中离线批量数据处理的流程示意图。
图中,1.Gearman服务器端,2.客户端,3.strom topology单元,4.mapreduce Job单元,5.存储系统。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种混合大数据处理系统,如图1所示,包括与Gearman服务器端1连接的多个客户端2和多个数据处理模块,多个数据处理模块均与存储系统5连接。数据处理模块包括strom topology单元3,strom topology单元3与mapreduce Job单元4连接,strom topology单元3和mapreduce Job单元4均与Gearman服务器端1连接,strom topology单元3和mapreduce Job单元4均与存储系统5连接。
存储系统5包括HDFS和HBase存储系统。
本发明一种混合大数据处理系统的工作原理是,首先启动Gearman服务器端1,用户编写好处理具体任务的处理模块作为具体任务处理端,并启动,具体任务处理端包括实时任务处理模块和离线批量任务处理模块;然后由用户根据需求编写具体的调度系统客户端2,并启动;Gearman服务器端1的服务器端接收客户端2的请求并将其需要处理的业务分发给实际适合处理该业务的工作节点,并根据请求类型选择实时处理任务或者离线批量处理任务进行处理,处理结束有需要入库的直接入库存入分布式存储系统5,并将最终结果经服务器端返回到客户端2。
本发明选择Hadoop用作处理离线的、批量的、对精确度要求高,但对实时性要求不高的数据;而将storm用于处理Hadoop无法处理的、对实时性要求较高的场景中;在storm对数据做了实时处理之后再将其导入到Hadoop系统中做更进一步的分析,实现了趋近于零误差的精准计算。
本发明中任务的分发由Gearman这种高效的分布式任务分发器来具体分发,通过命令行形式对所要处理的数据进行导向,选择Hadoop还是Storm。
本发明另一种混合大数据处理方法,采用上述混合大数据处理系统的处理方法,
其中,如图2所示,流式数据处理具体按照以下步骤实施:
步骤1,用户编写流式数据处理请求,客户端2发送实时数据处理请求给Gearman服务器端1;
步骤2,Gearman服务器端1接收客户端2发送的实时数据处理请求,并将需要实时处理的任务和数据导入strom topology单元3中;
步骤3,判断strom topology单元3中资源是否紧张,如果资源紧张,则向Hadoop系统借调资源,并执行步骤4;如果资源不紧张,则执行步骤4;
步骤4,strom topology单元3对数据进行实时处理,并在空闲时释放资源;
步骤5,strom topology单元3判断经过实时处理后的数据是否需要mapreduce Job单元4再做处理,如果需要,则将经过实时处理后的数据发送给mapreduce Job单元4处理,并将经过mapreduce Job单元4处理后的数据经Gearman服务器端1返回给客户端2,然后执行步骤6;如果不需要,则将经过实时处理后的数据经Gearman服务器端1返回给客户端2,然后执行步骤6;
步骤6,strom topology单元3判断实时处理后的数据或经过mapreduceJob单元4处理后的数据是否需要存储,如果需要存储,则将最终处理后的数据发送给存储系统5存储。
如图3所示,离线批量数据处理按照以下步骤实施:
步骤1,用户编写离线批量数据处理请求,客户端2发送离线批量数据处理请求给Gearman服务器端1;
步骤2,mapreduce Job单元4对批处理任务和数据进行处理;
步骤3,mapreduce Job单元4将经过批处理后的数据经Gearman服务器端1返回给客户端2,并判断经过批处理后的任务和数据是否需要存储,如果需要存储,则将处理后的数据发送给存储系统5进行存储。
Claims (5)
1.一种混合大数据处理系统,其特征在于,包括与Gearman服务器端(1)连接的多个客户端(2)和多个数据处理模块,所述多个数据处理模块均与存储系统(5)连接。
2.根据权利要求1所述的一种混合大数据处理系统,其特征在于,所述数据处理模块包括strom topology单元(3),所述strom topology单元(3)与mapreduce Job单元(4)连接,所述strom topology单元(3)和mapreduceJob单元(4)均与Gearman服务器端(1)连接,所述strom topology单元(3)和mapreduce Job单元(4)均与存储系统(5)连接。
3.一种混合大数据处理方法,其特征在于,采用一种混合大数据处理系统,其结构为:包括与Gearman服务器端(1)连接的多个客户端(2)和多个数据处理模块,所述多个数据处理模块均与存储系统(5)连接;
所述数据处理模块包括strom topology单元(3),所述strom topology单元(3)与mapreduce Job单元(4)连接,所述strom topology单元(3)和mapreduce Job单元(4)均与Gearman服务器端(1)连接,所述strom topology单元(3)和mapreduce Job单元(4)均与存储系统(5)连接;
采用上述混合大数据处理系统的处理方法,具体按照以下步骤实施:
步骤1,用户根据需求编写请求,客户端(2)发送请求给Gearman服务器端(1),所述请求为实时数据处理请求或离线批量数据处理请求;
步骤2,Gearman服务器端(1)接收客户端发送的请求,并根据请求判断将需要处理的业务分发给strom topology单元(3)或mapreduce Job单元(4),如果请求为实时数据处理请求,则执行步骤3;如果请求为离线批量数据处理请求,则执行步骤4;
步骤3,strom topology单元(3)对数据进行实时处理,并将处理结果经Gearman服务器端(1)返回给客户端(2),将需要存储的数据存入存储系统(5)中;
步骤4,mapreduce Job单元(4)对数据进行离线批量处理,并将处理结果经Gearman服务器端(1)返回给客户端(2),将需要存储的数据存入存储系统(5)中。
4.根据权利要求3所述的一种混合大数据处理方法,其特征在于,步骤3具体按照以下步骤实施:
步骤3.1,strom topology单元(3)判断资源是否紧张,如果资源紧张,则向Hadoop系统借调资源,并执行步骤3.2;如果资源不紧张,则执行步骤3.2;
步骤3.2,strom topology单元(3)对数据进行实时处理,并在空闲时释放资源;
步骤3.3,strom topology单元(3)判断经过实时处理后的数据是否需要mapreduce Job单元(4)再做处理,如果需要,则将经过实时处理后的数据发送给mapreduce Job单元(4)处理,并将经过mapreduce Job单元(4)处理后的数据经Gearman服务器端(1)返回给客户端(2),然后执行步骤3.4;如果不需要,则将经过实时处理后的数据经Gearman服务器端(1)返回给客户端(2),然后执行步骤3.4;
步骤3.4,strom topology单元(3)判断实时处理后的数据或经过mapreduce Job单元(4)处理后的数据是否需要存储,如果需要存储,则将最终处理后的数据发送给存储系统(5)存储。
5.根据权利要求3所述的一种混合大数据处理方法,其特征在于,步骤4具体按照以下步骤实施:
步骤4.1,mapreduce Job单元(4)对离线批量数据进行处理;
步骤4.2,mapreduce Job单元(4)将经过离线批量处理后的数据经Gearman服务器端(1)返回给客户端(2),并判断经过离线批量处理后的数据是否需要存储,如果需要存储,则将经过mapreduce Job单元(4)处理后的数据发送给存储系统(5)进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410605808.2A CN104468710A (zh) | 2014-10-31 | 2014-10-31 | 一种混合大数据处理系统及处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410605808.2A CN104468710A (zh) | 2014-10-31 | 2014-10-31 | 一种混合大数据处理系统及处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104468710A true CN104468710A (zh) | 2015-03-25 |
Family
ID=52914063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410605808.2A Pending CN104468710A (zh) | 2014-10-31 | 2014-10-31 | 一种混合大数据处理系统及处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104468710A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915902A (zh) * | 2015-06-30 | 2015-09-16 | 南京信息工程大学 | 一种基于云平台的外卖在线派送实现方法 |
CN105183470A (zh) * | 2015-09-06 | 2015-12-23 | 东南大学 | 一种自然语言处理系统化服务平台 |
CN107181825A (zh) * | 2017-07-07 | 2017-09-19 | 广东中星电子有限公司 | 终端设备数据的在线处理方法 |
CN108241722A (zh) * | 2016-12-23 | 2018-07-03 | 北京金山云网络技术有限公司 | 一种数据处理系统、方法及装置 |
CN109117285A (zh) * | 2018-07-27 | 2019-01-01 | 高新兴科技集团股份有限公司 | 支持高并发的分布式内存计算集群系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130283233A1 (en) * | 2012-04-24 | 2013-10-24 | Maria Guadalupe Castellanos | Multi-engine executable data-flow editor and translator |
CN104008007A (zh) * | 2014-06-12 | 2014-08-27 | 深圳先进技术研究院 | 基于流式计算和批处理计算的互操作数据处理系统及方法 |
CN104036025A (zh) * | 2014-06-27 | 2014-09-10 | 蓝盾信息安全技术有限公司 | 一种基于分布式的海量日志采集系统 |
CN104102702A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种实现软硬件结合的面向应用的大数据系统及方法 |
-
2014
- 2014-10-31 CN CN201410605808.2A patent/CN104468710A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130283233A1 (en) * | 2012-04-24 | 2013-10-24 | Maria Guadalupe Castellanos | Multi-engine executable data-flow editor and translator |
CN104008007A (zh) * | 2014-06-12 | 2014-08-27 | 深圳先进技术研究院 | 基于流式计算和批处理计算的互操作数据处理系统及方法 |
CN104036025A (zh) * | 2014-06-27 | 2014-09-10 | 蓝盾信息安全技术有限公司 | 一种基于分布式的海量日志采集系统 |
CN104102702A (zh) * | 2014-07-07 | 2014-10-15 | 浪潮(北京)电子信息产业有限公司 | 一种实现软硬件结合的面向应用的大数据系统及方法 |
Non-Patent Citations (1)
Title |
---|
黎飞君: "Antnest:一种支持多计算模型的分布式计算系统", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915902A (zh) * | 2015-06-30 | 2015-09-16 | 南京信息工程大学 | 一种基于云平台的外卖在线派送实现方法 |
CN105183470A (zh) * | 2015-09-06 | 2015-12-23 | 东南大学 | 一种自然语言处理系统化服务平台 |
CN105183470B (zh) * | 2015-09-06 | 2018-11-30 | 东南大学 | 一种自然语言处理系统化服务平台 |
CN108241722A (zh) * | 2016-12-23 | 2018-07-03 | 北京金山云网络技术有限公司 | 一种数据处理系统、方法及装置 |
CN107181825A (zh) * | 2017-07-07 | 2017-09-19 | 广东中星电子有限公司 | 终端设备数据的在线处理方法 |
CN107181825B (zh) * | 2017-07-07 | 2021-08-17 | 广东中星电子有限公司 | 终端设备数据的在线处理方法 |
CN109117285A (zh) * | 2018-07-27 | 2019-01-01 | 高新兴科技集团股份有限公司 | 支持高并发的分布式内存计算集群系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6882511B2 (ja) | ブロックチェーンコンセンサスのための方法、装置およびシステム | |
US10169709B2 (en) | Avoiding incompatibility between data and computing processes to enhance computer performance | |
CN104468710A (zh) | 一种混合大数据处理系统及处理方法 | |
CN103942098A (zh) | 一种任务处理系统和方法 | |
CN103761146B (zh) | 一种MapReduce动态设定slots数量的方法 | |
Liu et al. | A survey on virtual machine scheduling in cloud computing | |
CN103164283A (zh) | 一种虚拟桌面系统中虚拟化资源动态调度管理方法及系统 | |
WO2020119060A1 (zh) | 容器资源调度方法和系统、服务器及计算机可读存储介质 | |
Arthi et al. | Energy aware cloud service provisioning approach for green computing environment | |
CN101316280A (zh) | 基于反馈的网格资源智能监控方法 | |
CN104112049A (zh) | 基于P2P构架的MapReduce任务跨数据中心调度系统及方法 | |
CN105007311A (zh) | 一种基于云平台和云计算的资源管理系统和方法 | |
CN102915255A (zh) | 用于大规模数据集并行运算的云计算服务系统和方法 | |
CN113485806A (zh) | 处理任务的方法、装置、设备和计算机可读介质 | |
CN101771703A (zh) | 一种资讯服务系统和方法 | |
CN203301532U (zh) | 云桌面系统 | |
Yao et al. | COMIC: Cost optimization for internet content multihoming | |
CN109388501B (zh) | 基于人脸识别请求的通信匹配方法、装置、设备及介质 | |
CN103617090A (zh) | 一种基于分布式管理的节能方法 | |
CN107197013B (zh) | 一种增强云计算环境节能系统 | |
CN116402318B (zh) | 面向配电网的多级算力资源分配方法、装置及网络架构 | |
CN112948088A (zh) | 一种云计算平台中的云工作流智能管理与调度系统 | |
CN103973784A (zh) | 一种云存储服务器资源有效利用方法 | |
CN105302817A (zh) | 分布式文件系统管理方法和装置 | |
CN203301534U (zh) | 基于云架构的虚拟机管理平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |