CN103067486A - 基于PaaS平台的大数据处理方法 - Google Patents

基于PaaS平台的大数据处理方法 Download PDF

Info

Publication number
CN103067486A
CN103067486A CN2012105714776A CN201210571477A CN103067486A CN 103067486 A CN103067486 A CN 103067486A CN 2012105714776 A CN2012105714776 A CN 2012105714776A CN 201210571477 A CN201210571477 A CN 201210571477A CN 103067486 A CN103067486 A CN 103067486A
Authority
CN
China
Prior art keywords
paas platform
service
data processing
server
hadoop cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105714776A
Other languages
English (en)
Other versions
CN103067486B (zh
Inventor
邓宏栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201210571477.6A priority Critical patent/CN103067486B/zh
Publication of CN103067486A publication Critical patent/CN103067486A/zh
Application granted granted Critical
Publication of CN103067486B publication Critical patent/CN103067486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于PaaS平台的大数据处理方法,该方法包括:用户终端向PaaS平台服务器发送数据处理请求;PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联;PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令;所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业;所述hadoop集群将作业结果返回给所述Service服务器;所述Service服务器将作业结果返回给PaaS平台服务器;PaaS平台服务器根据所述作业结果向用户终端返回服务响应。本发明实施例能够解决hadoop集群单点故障源问题,提高PaaS系统的稳定性和运行效率。

Description

基于PaaS平台的大数据处理方法
技术领域
本发明涉及通信技术领域,尤其涉及一种基于PaaS(Platform-as-a-Service,平台即服务)平台的大数据处理方法。
背景技术
人们在工作中随时都面临着海量数据的处理带来的挑战,例如机器日志、RFID(Radio Frequency Identification,无线射频识别)检测器、传感器网络、车载GPS(Global Positioning System,全球定位系统)和零售交易数据,所有这些都将使数据量显著增加。目前,在处理海量数据方面,比较成熟的技术有hadoop分布式技术。然而,hadoop受限于网络和IO瓶颈,而且hadoop是基于现实的设备,随着集群的扩展和电脑性能配置的要求的提高,企业级的hadoop应用所耗费的成本开销较大。同时,hadoop的可扩展性和可靠性设计并不完美。当前的hadoop采用单一Namenode和多个Datanode的架构,单一Jobtracker的设计严重制约了整个hadoop的可扩展性和可靠性。首先,Namenode和Jobtracker是整个系统中明显的单点故障源(SPOF)。再次,单一Namenode的内存容量有限,使得hadoop集群的节点数量被限制到2000个左右,能支持的文件系统大小被限制在10-50PB, 最多能支持的文件数量大约为1.5亿 左右,实际数量取决于Namenode的内存大小,因此不得不为Namenode分配足够的内存。并且,在集中式的Namenode造成Datanode的blocks report(块报告),也会对Namenode的性能造成严重的影响。
发明内容
本发明实施例提出一种基于PaaS平台的大数据处理方法,能够解决hadoop集群单点故障源问题,提高PaaS系统的稳定性和运行效率。
本发明实施例提供一种基于PaaS平台的大数据处理方法,包括:
用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联; 
所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令;
所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业;
所述hadoop集群完成作业后,将作业结果返回给所述Service服务器;
所述Service服务器将所述作业结果返回给所述PaaS平台服务器;
所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。
其中,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。
所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。所述Service服务器是所述PaaS平台服务器上的一个服务组件。
本发明实施例提供的基于PaaS平台的大数据处理方法,在PaaS平台服务器上构建多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联,从而构建一种云的分布式并行计算架构,为用户提供数据处理服务。多个hadoop集群并行运作,即使有个别的hadoop集群的主节点NameNode出现Jobtracker崩溃,其他的hadoop集群也同样能够不受影响地继续作业,整个系统也不受影响,解决了hadoop集群单点故障源问题。而且,采用多个hadoop集群并行运作的架构,可以减少每个hadoop集群中的从节点Datanode的数量,每个hadoop集群所要执行的任务量就相对减少,从而减轻hadoop集群的负担,降低数据传输受到IO限制的几率,提高系统的运行效率。
附图说明
图1是本发明提供的基于PaaS平台的大数据处理系统的一个实施例的结构示意图;
图2是本发明提供的基于PaaS平台的大数据处理系统的工作流程示意图;
图3是本发明提供的基于PaaS平台的大数据处理方法的一个实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的基于PaaS平台的大数据处理系统的一个实施例的结构示意图。
本发明实施例在PaaS平台服务器1上构建有多个Service服务器,例如 Service服务器11、Service服务器12和Service服务器13。
每个Service服务器对应地与一个hadoop集群相关联,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。例如,如图1所示,Service服务器11对应的hadoop集群包括主节点21,以及与主节点21相关联的3个从节点。Service服务器12对应的hadoop集群包括主节点22,以及与主节点22相关联的3个从节点。Service服务器13对应的hadoop集群包括主节点23,以及与主节点23相关联的3个从节点。
其中,PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。PaaS平台服务器基于OSGi(Open Service Gateway Initiative)组件和CXF服务引擎,集成了Web应用服务器和WebService容器,支持XML(Extensible Markup Language, 可扩展标记语言)、SOAP(简单对象访问协议)和WSDL(Web Services Description Language),并有可靠的和安全的消息支持,能方便地管理和使用WebService。PaaS平台服务器能动态地安装和卸载各种服务组件或者应用程序,允许创建高性能和可扩展的服务应用。PaaS平台服务器负责解析用户终端发来的Web应用请求,实现资源的存储和虚拟化配置,合理调度和负载均衡等功能。每一个Service服务器调用对应的hadoop集群去执行具体的作业,并将作业结果返回给PaaS平台服务器,再由PaaS平台服务器根据作业结果响应用户终端的Web应用请求。
Service服务器是所述PaaS平台服务器上的一个服务组件,此服务组件可以动态地扩展或减少。其功能相当于一个服务器,Service服务器通过调用hadoop集群去执行作业,并将作业结果返回给PaaS平台服务器。
每一个hadoop集群对应PaaS平台服务器上的一个Service服务器,hadoop集群分布在虚拟云端,可以动态地增加或减少。每一个hadoop集群具有分布式存储和计算的能力。hadoop集群包括一台主节点Namenode的主机、一台次节点Secondary Namenode的主机及多台从节点Datanode的主机构成。主节点Namenode在hadoop集群中起任务调度的作用,从节点Datanode起执行作业的作用,可以动态扩展任意多个从节点Datanode。
参见图2,是本发明提供的基于PaaS平台的大数据处理系统的工作流程示意图。具体实施时,当用户终端向PaaS平台服务器1发送一项服务请求时,PaaS平台服务器1就向对应的Service服务器(例如Service服务器11和Service服务器12)发送相关的任务指令,每个Service服务器接收到任务指令后,调用其对应的hadoop集群去作业,hadoop集群完成作业后把作业结果返回给Service服务器,Service服务器再将作业结果返回给PaaS平台服务器1,PaaS平台服务器1再响应用户终端的相关请求。
本发明实施例还提供一种基于PaaS平台的大数据处理方法,可应用于上述的基于PaaS平台的大数据处理系统。
参见图3,是本发明提供的基于PaaS平台的大数据处理方法的一个实施例的流程示意图。
本实施例提供一种基于PaaS平台的大数据处理方法,包括以下步骤:
S1,用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联。
S2,所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令。
S3,所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业。
S4,所述hadoop集群完成作业后,将作业结果返回给所述Service服务器。
S5,所述Service服务器将所述作业结果返回给所述PaaS平台服务器。
S6,所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。
其中,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。
所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。所述Service服务器是所述PaaS平台服务器上的一个服务组件。
本发明实施例提供的基于PaaS平台的大数据处理方法,具有以下有益效果:
(1)、在PaaS平台服务器上构建多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联,从而构建一种云的分布式并行计算架构,为用户提供数据处理服务。多个hadoop集群并行运作,即使有个别的hadoop集群的主节点NameNode出现Jobtracker崩溃,其他的hadoop集群也同样不受影响地继续作业,整个系统也不受影响,解决了hadoop集群单点故障源问题。
(2)、以Web服务的方式调用hadoop集群来运作,使hadoop集群运行在云终端上,使得客户端任务操作更加方便。PaaS平台采用多个hadoop集群并行运作的架构,每个hadoop集群所要执行的任务量就相对减少,从而减轻hadoop集群的负担,这样每个hadoop集群很快就得到计算结果返回,加快了系统的运行效率。
(3)、本发明以分布式集群的方式将hadoop的集群规模减少,使得每个hadoop集群中的从节点Datanode的数量减少,从而减轻hadoop集群的负担,更加利于数据在集群之间传输,提高数据传输效率。而且降低了数据传输受到IO限制的几率,IO之间瓶颈得到解决。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种基于PaaS平台的大数据处理方法,其特征在于,包括:
用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联; 
所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令;
所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业;
所述hadoop集群完成作业后,将作业结果返回给所述Service服务器;
所述Service服务器将所述作业结果返回给所述PaaS平台服务器;
所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。
2.如权利要求1所述的基于PaaS平台的大数据处理方法,其特征在于,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。
3.如权利要求1或2所述的基于PaaS平台的大数据处理方法,其特征在于,所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。
4.如权利要求3所述的基于PaaS平台的大数据处理方法,其特征在于,所述Service服务器是所述PaaS平台服务器上的一个服务组件。
CN201210571477.6A 2012-12-26 2012-12-26 基于PaaS平台的大数据处理方法 Active CN103067486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210571477.6A CN103067486B (zh) 2012-12-26 2012-12-26 基于PaaS平台的大数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210571477.6A CN103067486B (zh) 2012-12-26 2012-12-26 基于PaaS平台的大数据处理方法

Publications (2)

Publication Number Publication Date
CN103067486A true CN103067486A (zh) 2013-04-24
CN103067486B CN103067486B (zh) 2016-05-18

Family

ID=48109940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210571477.6A Active CN103067486B (zh) 2012-12-26 2012-12-26 基于PaaS平台的大数据处理方法

Country Status (1)

Country Link
CN (1) CN103067486B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546571A (zh) * 2013-10-29 2014-01-29 北京华胜天成科技股份有限公司 一种平台即服务实现方法及装置
CN103559247A (zh) * 2013-10-29 2014-02-05 北京华胜天成科技股份有限公司 一种数据业务处理方法及装置
CN103761102A (zh) * 2014-01-26 2014-04-30 中国联合网络通信集团有限公司 一种统一数据服务平台及其实现方法
CN105426425A (zh) * 2015-11-04 2016-03-23 华中科技大学 一种基于移动信令的大数据营销方法
CN108563787A (zh) * 2018-04-26 2018-09-21 郑州云海信息技术有限公司 一种数据中心综合管理系统的数据交互管理系统及方法
CN109582451A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 任务调度方法、系统、设备以及可读介质
CN113542373A (zh) * 2021-06-30 2021-10-22 深圳市云网万店电子商务有限公司 用于paas平台的路由服务发现装置及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394929A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 一种面向会话的云计算负载均衡系统及其方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394929A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 一种面向会话的云计算负载均衡系统及其方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546571A (zh) * 2013-10-29 2014-01-29 北京华胜天成科技股份有限公司 一种平台即服务实现方法及装置
CN103559247A (zh) * 2013-10-29 2014-02-05 北京华胜天成科技股份有限公司 一种数据业务处理方法及装置
CN103546571B (zh) * 2013-10-29 2017-02-22 北京华胜天成科技股份有限公司 一种平台即服务实现方法及装置
CN103761102A (zh) * 2014-01-26 2014-04-30 中国联合网络通信集团有限公司 一种统一数据服务平台及其实现方法
CN105426425A (zh) * 2015-11-04 2016-03-23 华中科技大学 一种基于移动信令的大数据营销方法
CN108563787A (zh) * 2018-04-26 2018-09-21 郑州云海信息技术有限公司 一种数据中心综合管理系统的数据交互管理系统及方法
CN109582451A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 任务调度方法、系统、设备以及可读介质
CN113542373A (zh) * 2021-06-30 2021-10-22 深圳市云网万店电子商务有限公司 用于paas平台的路由服务发现装置及方法

Also Published As

Publication number Publication date
CN103067486B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103067486B (zh) 基于PaaS平台的大数据处理方法
CN107066319B (zh) 一种面向异构资源的多维调度系统
CN104125208B (zh) 数据传输方法及装置
US20200099606A1 (en) Distrubuted testing service
CN110908658A (zh) 一种“微服务+微应用”系统、数据处理方法及装置
CN108282514B (zh) 一种分布式业务建立方法及装置
CN108600300B (zh) 日志数据处理方法及装置
CN105025095A (zh) 实现云计算弹性服务的集群架构
CN106817408B (zh) 一种分布式服务器集群调度方法及装置
CN103533063A (zh) 一种可实现web应用资源动态扩展的方法及装置
CN103986748A (zh) 实现服务化的方法和装置
CN104601702B (zh) 集群远程过程调用方法及系统
CN110071965B (zh) 一种基于云平台的数据中心管理系统
CN111124589B (zh) 一种服务发现系统、方法、装置及设备
CN109412878A (zh) 多租户业务接入实现方法、装置及电子设备
CN105491150A (zh) 基于时间序列的负载均衡处理方法及系统
CN105592122A (zh) 一种云平台监控方法以及云平台监控系统
CN103577251A (zh) 基于事件的互联网计算处理系统及方法
CN113849312A (zh) 数据处理任务的分配方法、装置、电子设备及存储介质
US20130054735A1 (en) Wake-up server
CN111092921A (zh) 数据采集方法、装置及存储介质
CN112199353A (zh) 一种数据处理方法及电力客户服务平台
CN115567251A (zh) 用于微服务集群的多业务隔离方法及系统
CN114911598A (zh) 任务调度方法、装置、设备以及存储介质
CN111258760A (zh) 一种平台管理方法、系统、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant