CN104112049B - 基于P2P构架的MapReduce任务跨数据中心调度系统及方法 - Google Patents

基于P2P构架的MapReduce任务跨数据中心调度系统及方法 Download PDF

Info

Publication number
CN104112049B
CN104112049B CN201410344229.7A CN201410344229A CN104112049B CN 104112049 B CN104112049 B CN 104112049B CN 201410344229 A CN201410344229 A CN 201410344229A CN 104112049 B CN104112049 B CN 104112049B
Authority
CN
China
Prior art keywords
data center
explorer
task
mapreduce
resource manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410344229.7A
Other languages
English (en)
Other versions
CN104112049A (zh
Inventor
董博
阮建飞
郑庆华
张汉宁
马天
张未展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Servyou Software Group Co., Ltd.
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410344229.7A priority Critical patent/CN104112049B/zh
Publication of CN104112049A publication Critical patent/CN104112049A/zh
Application granted granted Critical
Publication of CN104112049B publication Critical patent/CN104112049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于P2P架构MapReduce任务跨数据中心的调度系统,其特征在于,各数据中心的资源管理器均包含一个P2P代理模块Proxyer,用于各数据中心之间建立P2P对等架构的联邦式任务调度机制;客户端通过Submitter提交MapReduce任务请求,并选择确定本次任务的主数据中心资源管理器,主资源管理器根据任务请求和各数据中心忙闲状态向其它数据中心的资源管理器进行任务分派。本发明所述系统及方法实现了MapReduce任务的跨数据中心调度,为跨数据中心的MapReduce任务提供统一入口,有效实现了各数据中心的数据和计算资源共享。

Description

基于P2P构架的MapReduce任务跨数据中心调度系统及方法
技术领域
本申请涉及云计算技术,特别涉及一种MapReduce(用于大规模数据集并行运算的编程模型)任务调度系统及方法。
背景技术
云计算(CloudComputing)是随着处理器技术、虚拟化技术、分布式存储技术、互联网技术和自动化管理技术的发展而产生的,由分布式的大规模集群和服务器虚拟化软件搭建。目前以开源社区Apache的Hadoop项目分布式文件系统(HadoopDistributedFileSystem,简称HDFS)和并行编程框架HadoopMapReduce为代表的技术逐渐成为海量数据存储与分析处理的主流技术。其中,HadoopMapReduce是当前使用最广泛的海量数据分析技术。
基于HadoopYARN平台的MapReduce系统如图1所示,主要由ResourceManager(资源管理器)、NodeManager(节点管理器)、AppMaster(应用程序管理器)、Container(执行数据任务的容器)和Client(客户端)组成。资源管理器管理集群内所有应用程序的计算资源的分配。节点管理器是每一台机器框架的代理,是执行应用程序的容器,并监控应用程序的资源使用情况(CPU、内存、硬盘、网络)同时向节点管理器汇报。应用程序管理器负责本应用内的调度和协调,是MapReduce作业的Master,它结合从资源管理器获得的资源和节点管理器协同工作来运行和监控任务。资源管理器和节点管理器可以管理用户在该台机器上的进程并能对计算进行组织。Container管理着一个JVM(Java虚拟机)进程,是执行应用程序的容器,负责执行Map(映射)或者Reduc(归约)任务。
目前,HadoopMapReduce被众多企业、高校、科研院所等广泛应用于数据中心的数据分析中,但这些分析任务主要在单个数据中心中进行,数据中心之间的处理任务很难开展。随着越来越多分散在各处的独立中小型数据中心的建立,如何实现各数据中心的数据资源和计算资源有效共享,为数据分析应用提供统一的任务提交入口,提高数据分析效率,越来越成为大家关注的问题。目前关于MapReduce任务跨数据中心的调度技术未见有具体的公开报道,是当前亟待解决的问题。
发明内容
本发明的目的是提供一种能实现各数据中心的数据及计算资源共享,为数据分析应用提供统一任务提交入口,提高数据分析效率的跨数据中心MapReduce任务调度的系统及方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于P2P架构MapReduce任务跨数据中心的调度系统,其特征在于,
包括一个客户端、n个数据中心,各数据中心均有一个资源管理器和多个节点管理器,其中各数据中心的资源管理器与客户端之间采用广域网链接,各数据中心的资源管理器之间采用广域网链接,各数据中心的资源管理器与节点管理器之间由局域网链接;各数据中心的资源管理器均包含一个P2P代理模块Proxyer,通过该Proxyer,使各数据中心的资源管理器组成一个P2P对等架构;各数据中心的资源管理器都能接收来自客户端的MapReduce任务请求,成为主资源管理器,并根据任务请求和各数据中心忙闲状态向其它数据中心的资源管理器进行任务分派;被分派任务的资源管理器就成为本次MapReduce任务的执行资源管理器;各数据中心的资源管理器将本中心的MapReduce任务和资源信息同步至其他数据中心的资源管理器中;所述客户端包含有一个MapReduce任务多途径提交模块Submitter:用于与各数据中心的资源管理器交互,客户端通过该Submitter的选择确定本次任务的数据中心主资源管理器,并提交MapReduce任务请求,同时实时从主资源管理器获取任务执行状态。
一种基于P2P架构MapReduce任务跨数据中心的调度方法,其特征在于,包括下述步骤:
(1)通过各个数据中心资源管理器中的Proxyer建立基于P2P架构对等互联,使各个数据中心资源管理器之间实时同步各数据中心状态信息,各数据中心中的节点管理器资源被所有数据中心共享;
(2)客户端通过Submitter发起MapReduce任务请求,根据Submitter预置策略将MapReduce任务发送至某一数据中心的资源管理器,由该主资源管理器按预置的调度策略进行MapReduce任务调度;
(3)主资源管理器按预设调度算法进行任务分析拆解,并分派至其它各数据中心的资源管理器,启动MapReduce任务执行;
(4)各数据中心执行资源管理器实时将任务执行信息同步至主资源管理器,主资源管理器通过Proxyer在各数据中心间同步状态信息,并调度和监控MapReduce任务的执行;
(5)客户端实时从主资源管理器获取任务执行状态信息,直至任务结束。
上述方法中,所述MapReduce任务请求包括Map和Reduce的输入数据路径、输出数据路径、Map和Reduce任务个数、任务优先级、资源权限任何一特征。
所述客户端Submitter预置策略为随机映射选择法和预设映射表法。
本发明通过对HadoopYARN的ResourceManager进行扩展开发,增加Proxyer模块,形成具有数据中心ResourceManager的P2P对等互联架构,在P2P架构上建立一个联邦式的ResourceManager任务调度机制,各ResourceManager间实时同步集群状态信息,各数据中心中的NodeManager资源被所有数据中心共享。同时在任务提交客户端Client上,扩展开发Submitter模块,其可按照预设算法选择任务提交的数据中心,通过任务提交这一层映射关系,达到均衡负载、提高效率的目的,最终实现各数据中心的MapReduce任务的数据和计算资源共享。本发明在保持原系统高效稳定的同时降低系统复杂度,防止单点故障造成任务不可执行,为跨数据中心的MapReduce任务提供了保证。此外,系统实施方便、对原系统修改小、向前兼容,可有效实现跨数据中心的MapReduce任务调度。
附图说明
图1为基于HadoopYARN平台的MapReduce系统框架图。
图2为本发明MapReduce任务跨数据中心调度系统组成图。
图3为本发明MapReduce任务跨数据中心调度流程图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图和具体实施例对本发明进行详细描述。
如图2所示,一种基于P2P架构(Peer-to-Peer,简称P2P,又称点对点技术,是无中心服务器、依靠用户群自身交换信息的互联网体系)MapReduce任务跨数据中心的调度系统,包括一个客户端Client、编号为01到N的n个数据中心,各数据中心都有一个资源管理器ResourceManager和多个节点管理器NodeManager,其中各数据中心的资源管理器与客户端之间采用广域网链接,各数据中心的资源管理器之间采用广域网链接,各数据中心的资源管理器与节点管理器之间由局域网链接;各数据中心的资源管理器中均包含一个Proxyer(P2P代理)模块,用于各数据中心之间建立基于P2P对等架构的联邦式任务调度机制;使各数据中心的资源管理器都能接收客户端MapReduce任务请求,成为该MapReduce任务的主资源管理器。
当某一数据中心的资源管理器成为主资源管理器后,将根据任务请求和各数据中心状态信息向其它数据中心的资源管理器进行任务分派;被分派的资源管理器就成为执行MapReduce任务的资源管理器,从而就可根据MapReduce任务信息和本数据中心状态实施MapReduce任务的操作。
各数据中心的资源管理器通过Proxyer模块实时将本数据中心接收MapReduce任务和资源信息同步至其他数据中心的资源管理器中。
各数据中心的节点管理器用于管理MapReduce任务在本节点上的具体执行,监控MapReduce任务的资源使用情况(CPU、内存、硬盘、网络等),并按预置算法定时地将任务执行情况和本节点资源情况发送给本数据中心的资源管理器。
客户端包含有一个Submitter(MapReduce任务多途径提交)模块:用于与各数据中心的资源管理器交互,Client通过Submitter模块根据该模块预设选择算法,选择本次任务的数据中心主资源管理器并提交MapReduce任务请求,Client可实时从主资源管理器获取任务执行状态。
图2MapReduce任务跨数据中心的调度系统的数据中心的个数n可选1至200个;
通过上述系统,本发明提供了跨数据中心的MapReduce任务调度方法,下面通过图3进行描述:
S301基于P2P对等架构,建立一个联邦式任务调度机制的ResourceManager互联结构;不同数据中心的域名标识不同,处在同一数据中心的ResourceManager和NodeManager使用同一域名标识;各数据中心的ResourceManager间同步MapReduce任务和资源信息;NodeManager定时向具有相同域名标识的资源管理器汇报节点状态信息;
数据中心ResourceManager通过Proxyer实现P2P对等互联,各ResourceManager间实时同步MapReduce任务和资源信息,各数据中心中的NodeManager资源被所有数据中心共享;
S302Client通过Submitter模块,根据MapReduce任务请求和预置策略,选择本次MapReduce任务主数据中心并向其提交MapReduce任务请求;所述预设选择策略包括随机映射、规则映射表、距离度量、性能优先等方法;预设策略可由本领域技术人员根据需要灵活定制;
所述MapReduce任务请求包括Map和Reduce的输入数据路径、输出数据路径、Map和Reduce任务个数、输入数据在各数据中心的分布、任务优先级、资源权限等特征。
S303上述主数据中心ResourceManager按预设调度算法进行任务分析拆解,将任务分派至其它各数据中心,各数据中心内由其ResourceManager进行调度,启动MapReduce任务执行;
主数据中心ResourceManager预设调度算法根据任务请求和各数据中心的数据分布、系统性能、负载情况等信息,采用数据分布优先、性能优先等策略进行任务拆分并分派任务至各数据中心,调度算法也可由本领域技术人员根据需要开发定制;
S304各数据中心ResourceManager实时将本中心状态和MapReduce任务执行信息实时同步至主数据中心ResourceManager;ResourceManager通过Proxyer在集群间同步状态信息,并负责调度和监控本中心MapReduce任务的执行;
S305客户端Client可实时从主数据中心ResourceManager获取任务执行状态信息,直至任务结束。
综上所述,本发明解决了随着分散各处的独立中小型数据中心越来越多,而难以实现各数据中心的数据资源和计算资源有效共享,以及如何为数据分析应用提供统一的MapReduce任务提交入口等问题,实现了基于P2P对等架构的实施简便、向前兼容、接口统一和稳定可靠的针对跨数据中心的MapReduce任务调度架构及方法。

Claims (2)

1.一种基于P2P架构的MapReduce任务跨数据中心调度系统,其特征在于,包括一个客户端、n个数据中心,各数据中心均有一个资源管理器和多个节点管理器,其中各数据中心的资源管理器与客户端之间采用广域网链接,各数据中心的资源管理器之间采用广域网链接,各数据中心的资源管理器与节点管理器之间由局域网链接;各数据中心的资源管理器均包含一个P2P代理模块Proxyer,通过该Proxyer,使各数据中心的资源管理器组成一个P2P对等架构;各数据中心的资源管理器都能接收来自客户端的MapReduce任务请求,成为主资源管理器,并根据任务请求和各数据中心忙闲状态向其它数据中心的资源管理器进行任务分派;被分派任务的资源管理器就成为本次MapReduce任务的执行资源管理器;各数据中心的资源管理器将本中心的任务和资源信息同步至其他数据中心的资源管理器中;所述客户端包含有一个MapReduce任务多途径提交模块Submitter:用于与各数据中心的资源管理器交互,客户端通过该Submitter的选择确定本次任务的数据中心主资源管理器,并提交MapReduce任务请求,同时实时从主资源管理器获取任务执行状态。
2.一种基于P2P架构的MapReduce任务跨数据中心调度方法,其特征在于,包括下述步骤:
(1)通过各个数据中心资源管理器中的Proxyer建立基于P2P架构对等互联,使各个数据中心资源管理器之间实时同步各数据中心状态信息,各数据中心中的节点管理器资源被所有数据中心共享;
(2)客户端通过Submitter发起MapReduce任务请求,根据Submitter预置策略将MapReduce任务发送至某一数据中心的资源管理器,由该主资源管理器按预置的调度策略进行MapReduce任务调度;
(3)主资源管理器按预设调度算法进行任务分析拆解,并分派至其它各数据中心的资源管理器,启动MapReduce任务执行;
(4)各数据中心执行资源管理器实时将任务执行信息同步至主资源管理器,主资源管理器通过Proxyer在各数据中心间同步状态信息,并调度和监控MapReduce任务的执行;
(5)客户端实时从主资源管理器获取任务执行状态信息,直至任务结束。
CN201410344229.7A 2014-07-18 2014-07-18 基于P2P构架的MapReduce任务跨数据中心调度系统及方法 Active CN104112049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410344229.7A CN104112049B (zh) 2014-07-18 2014-07-18 基于P2P构架的MapReduce任务跨数据中心调度系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410344229.7A CN104112049B (zh) 2014-07-18 2014-07-18 基于P2P构架的MapReduce任务跨数据中心调度系统及方法

Publications (2)

Publication Number Publication Date
CN104112049A CN104112049A (zh) 2014-10-22
CN104112049B true CN104112049B (zh) 2015-11-11

Family

ID=51708837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410344229.7A Active CN104112049B (zh) 2014-07-18 2014-07-18 基于P2P构架的MapReduce任务跨数据中心调度系统及方法

Country Status (1)

Country Link
CN (1) CN104112049B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852012B2 (en) 2015-08-26 2017-12-26 International Business Machines Corporation Scheduling mapReduce tasks based on estimated workload distribution

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404549B (zh) * 2015-12-06 2019-04-26 北京天云融创软件技术有限公司 基于yarn架构的虚拟机调度系统
CN106919445B (zh) * 2015-12-28 2021-08-20 华为技术有限公司 一种在集群中并行调度容器的方法和装置
CN107436806A (zh) * 2016-05-27 2017-12-05 苏宁云商集团股份有限公司 一种资源调度方法及系统
CN106953895A (zh) * 2017-02-20 2017-07-14 中山大学 一种对等结构的分布式云系统集群
CN109471705B (zh) * 2017-09-08 2021-08-13 杭州海康威视数字技术股份有限公司 任务调度的方法、设备及系统、计算机设备
CN112104485B (zh) * 2020-08-30 2022-10-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 多站多目标去中心化数据共享决策运行管控架构

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035884A (zh) * 2010-12-03 2011-04-27 华中科技大学 一种云存储系统及其数据部署方法
CN102333116A (zh) * 2011-09-20 2012-01-25 华中科技大学 P2p网络构建方法及数据定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035884A (zh) * 2010-12-03 2011-04-27 华中科技大学 一种云存储系统及其数据部署方法
CN102333116A (zh) * 2011-09-20 2012-01-25 华中科技大学 P2p网络构建方法及数据定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于P2P的云存储系统模型设计与分析》;黄杨锋;《中国优秀硕士学位论文全文数据库》;20130523;第4页 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852012B2 (en) 2015-08-26 2017-12-26 International Business Machines Corporation Scheduling mapReduce tasks based on estimated workload distribution
US9891950B2 (en) 2015-08-26 2018-02-13 International Business Machines Corporation Scheduling MapReduce tasks based on estimated workload distribution
US9934074B2 (en) 2015-08-26 2018-04-03 International Business Machines Corporation Scheduling MapReduce tasks based on estimated workload distribution

Also Published As

Publication number Publication date
CN104112049A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN104112049B (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
CN104123182B (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
Peng et al. A multi-objective trade-off framework for cloud resource scheduling based on the deep Q-network algorithm
Liu et al. Resource preprocessing and optimal task scheduling in cloud computing environments
CN103414761A (zh) 一种基于Hadoop架构的移动终端云资源调度方法
Kaur et al. Optimization techniques for resource provisioning and load balancing in cloud environment: a review
CN104102533B (zh) 一种基于带宽感知的Hadoop调度方法和系统
Rejiba et al. Custom scheduling in kubernetes: A survey on common problems and solution approaches
Li et al. Endpoint-flexible coflow scheduling across geo-distributed datacenters
Xu et al. Enhancing Kubernetes Automated Scheduling with Deep Learning and Reinforcement Techniques for Large-Scale Cloud Computing Optimization
Saravanan et al. Advance Map Reduce Task Scheduling algorithm using mobile cloud multimedia services architecture
CN114490049A (zh) 在容器化边缘计算中自动分配资源的方法及系统
Mofrad et al. Service level agreement based adaptive Grid superscheduling
Niu et al. An adaptive efficiency-fairness meta-scheduler for data-intensive computing
Malathy et al. Performance improvement in cloud computing using resource clustering
Wang et al. A hard real-time scheduler for Spark on YARN
Patel et al. Improved PSO based job scheduling algorithm for resource management in grid computing
Salama A swarm intelligence based model for mobile cloud computing
Cao et al. Online cost-rejection rate scheduling for resource requests in hybrid clouds
CN111522637B (zh) 一种基于成本效益的storm任务调度方法
Zhao et al. A dynamic dispatching method of resource based on particle swarm optimization for cloud computing environment
Liu A Programming Model for the Cloud Platform
Shiekh et al. A load-balanced hybrid heuristic for allocation of batch of tasks in cloud computing environment
Niu et al. Multi-objective optimizations in geo-distributed data analytics systems
Zhang et al. Optimising data access latencies of virtual machine placement based on greedy algorithm in datacentre

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Dong Bo

Inventor after: Ruan Jianfei

Inventor after: Zheng Qinghua

Inventor after: Zhang Hanning

Inventor after: Ma Tian

Inventor after: Zhang Weizhan

Inventor before: Dong Bo

Inventor before: Zhang Hanning

Inventor before: Zheng Qinghua

Inventor before: Ma Tian

Inventor before: Zhang Weizhan

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: DONG BO ZHANG HANNING ZHENG QINGHUA MA TIAN ZHANG WEIZHAN TO: DONG BO RUANJIANFEI ZHENG QINGHUA ZHANG HANNING MA TIAN ZHANG WEIZHAN

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160420

Address after: 310053, tax building, No. 3738 South Ring Road, Hangzhou, Zhejiang, Binjiang District

Patentee after: Servyou Software Group Co., Ltd.

Address before: 710049 Shaanxi province Xi'an Beilin District Xianning Road No. 28

Patentee before: Xi'an Jiaotong University