CN104461748A

CN104461748A - 一种基于MapReduce的最优本地化任务调度方法

Info

Publication number: CN104461748A
Application number: CN201510002039.1A
Authority: CN
Inventors: 高胜立; 薛瑞尼; 敖立翔; 管仲洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-01-04
Filing date: 2015-01-04
Publication date: 2015-03-25
Anticipated expiration: 2035-01-04
Also published as: CN104461748B

Abstract

本发明提出一种可以同时工作在同构和异构集群环境下MapReduce任务调度算法，属于计算机技术领域。该调度算法能综合考虑集群中各计算节点的处理性能，把计算节点和计算任务抽象为一个二分图，通过适当扩展该二分图并结合KM带权最优匹配算法形成最终的全局任务调度方案。实验数据表明，该调度算法能将Map阶段数据本地化程度提升到接近100％，MapReduce作业整体执行时间最优能减少67.1％。

Description

一种基于MapReduce的最优本地化任务调度方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于MapReduce的最优本地化任务调度方法。

背景技术

MapReduce任务调度直接影响MapReduce计算作业的执行时间，高效的调度算法能有效提升作业执行效率。

数据本地化程度直接影响MapReduce作业的执行效率。MapReduce作业主要由Map阶段和Reduce阶段组成，Map阶段计算节点产生的中间输出数据需要经过网络传输到Reduce阶段的计算节点作为其输入数据，这个中间阶段称为Shuffle。Shuffle阶段的数据传输和Reduce阶段的数据持久化存储所带来的网络带宽的资源消耗是不可避免的，在有限的网络带宽资源条件下，如何减少Map阶段不必要的网络带宽占用，成为提升MapReduce作业执行效率的关键。而Map阶段的网络带宽占用和其数据本地化程度直接关联，所以提升数据本地化程度能有效提升MapReduce作业的执行效率。

提升Map阶段数据本地化程度的调度方法多种多样，但都存在一些实用性不高，适用范围不广等问题。Zaharia等人提出一种延迟调度的算法能有效提升数据本地化程度(“Delayscheduling:a simple technique for achieving locality and fairness in cluster scheduling,”inProceedings of the 5th European conference on Computer systems.ACM,2010,pp.265–278.)，但这种延迟调度的方法是建立在损失局部作业的执行效率的基础上的，并且这种调度算法适用性不广，当只有一个或几个作业在运行时，并不能取得最优的数据本地化程度和作业整体执行时间。Xie等人提出一种根据计算节点性能来提前分布数据的方法(“Improving mapreduceperformance through data placement in heterogeneous hadoop clusters,”in Parallel & DistributedProcessing,Workshops and Phd Forum(IPDPSW),2010IEEE International Symposium on.IEEE,2010,pp.1–9.)，这种方法需要预先测量各计算节点的性能，在可以通过调整参数而动态设置计算节点计算资源的MapReduce平台下，这种方法实用性不高。

发明内容

本发明提出一种可以同时工作在同构和异构集群环境下MapReduce任务调度方法，该方法综合考虑集群中各计算节点的处理性能，把计算节点和计算任务抽象为一个二分图，通过扩展该二分图并结合KM带权最优匹配算法形成最终的全局任务调度方案。

本发明具体采用如下技术方案：

一种基于MapReduce的最优本地化任务调度方法，其流程如图1所示，包括以下步骤：

步骤一.模型抽象：

将集群中的物理计算节点抽象为一类点的集合，将集群中准备处理的数据块抽象为另一类点的集合，并构建二分图：由于在任务调度过程中，每个数据块可能被调度到任意一个计算节点，故将每个数据块和每个计算节点连接，若某个物理计算节点上存储有某数据块，则该数据块与该计算节点间的连接线为一条实线，即这种实线连接的数据块所对应的任务为本地化任务，反之，非本地化的数据块与计算节点之间则用虚线连接；对所述连接线赋权值：定义三个权值α、β、γ，满足α<β<γ，本地化任务对应的是用实线连接的数据块和物理节点形成处理关系的一类任务，在所述二分图中这类任务对应的连线的权值为α，非本地化对应的是用虚线连接的数据块和物理节点形成处理关系的一类任务，在图中这类任务对应的连线的权值为β或γ，其中所连接的数据块的物理位置与计算节点的物理位置如果属于计算集群中的相同机架，则虚线权值为β，如果所连接的数据块的物理位置与计算节点的物理位置分别属于计算集群中的不同机架，则虚线权值为γ；由此得抽象后的二分图模型；

步骤二.计算节点初始化：

将集群中各个物理计算节点的计算性能初始化为相同值，即假定每个计算节点单位时间内均能处理相同数量的数据块；

步骤三.第一次模型扩展：

对步骤一所得的二分图模型进行扩展，通过虚拟增加数据块或者镜像计算节点，使扩展后的模型中计算节点数与数据块数相等，从而使扩展后的模型能使用KM带权最优匹配算法；

步骤四.生成第一次调度方案：

利用KM带权最优匹配算法对步骤三所得的经第一次扩展的模型进行匹配，得到一个全局权值最小的任务调度结果；若步骤三的模型扩展过程中通过虚拟增加了数据块，则将虚拟的数据块从调度结果的队列中剔除，若通过虚拟增加了镜像计算节点，则将调度结果中分配给每个镜像节点的任务分配至其相应的原始物理计算节点上，最终得第一次任务调度方案；

步骤五.物理计算节点实际性能评估：

执行第一次任务调度方案，待所有计算节点启动第一个任务后，通过各计算节点Map阶段处理的数据量和花费的时间计算各计算节点的实际计算性能，且各个计算节点继续执行当前正在处理的任务；

步骤六.物理计算节点性能判定：

若步骤五所得的每个物理计算节点的实际计算性能均相同，则继续执行第一次任务调度方案直至任务调度完成；若不完全相同，则执行步骤七；

步骤七.第二次模型扩展：

对步骤一所得的二分图模型进行扩展，使得扩展后的模型中计算节点数与整个集群中经第一次任务调度方案处理后剩余待处理的数据块数相等，从而使扩展后的模型能使用KM带权最优匹配算法；

步骤八.生成第二次调度方案：

利用KM带权最优匹配算法对步骤七所得的经第二次扩展的模型进行匹配，得到一个全局权值最小的任务调度结果；若步骤七通过虚拟增加了镜像计算节点，则将调度结果中分配给每个镜像节点的任务映射到其相应的原始物理计算节点上，最终得第二次任务调度方案；

步骤九.调度完成：

执行第二次调度任务方案对剩余的数据块进行任务分配，完成任务调度。

本发明的有益效果是：

本发明提出一种可以同时工作在同构和异构集群环境下的MapReduce任务调度方法，该方法无需预先测量各个计算节点的计算性能，实施起来灵活方便，且不会影像局部作业的执行效率，最终得到的调度任务方案的数据本地化程度解决100％，能在最大程度上降低Map阶段的网络带宽占用，从而使得集群作业并行度提高，于此同时各个作业的整体执行时间也得到明显缩短。

附图说明

图1为本发明提供的任务调度方法流程图；

图2为抽象后的二分图模型示意图；

图3为模型扩展示意图；

图4为实施例使用本发明提供的调度方法的本地化提升比例示意图；

图5为网络不拥塞时，实施例使用本发明提供的调度方法后，计算性能提升比例示意图；

图6为网络拥塞时，实施例使用本发明提供的调度方法后，计算性能提升比例示意图。

具体实施方式

步骤一.模型抽象：

如图2所示，将集群中的物理计算节点N₁、N₂、N₃等抽象为一类点的集合，将集群中准备处理的数据块B₁、B₂、B₃、B₄等抽象为另一类点的集合并构建二分图：由于在任务调度过程中，每个数据块可能被调度到任意一个计算节点，故将每个数据块和每个计算节点连接，若某计算节点上存储有某数据块，则该数据块与该计算节点间的连接线为一条实线，即这种实线连接的数据块所对应的任务为本地化任务，反之，非本地的数据块与计算节点之间则用虚线连接；对所述连接线赋权值：定义三个权值α、β、γ，满足α<β<γ，本地化任务即图中实线连接的数据块对应的任务，其对应的连线的权值为α，非本地化的数据块即对应图中虚线连接的数据块对应的任务，其对应的连线的权值为β或γ，一般情况下，一个计算集群由若干机架构成，每个机架由若干物理计算节点组成，其中所连接的数据块与计算节点属于计算集群中的相同机架的虚线权值为β，所连接的数据块与计算节点分别属于计算集群中的不同机架的虚线权值为γ；由此得到抽象后的二分图模型；

步骤二.计算节点初始化：

将集群中各个物理计算节点的计算性能初始化为相同值，即假定每个物理计算节点单位时间内均能处理相同数量的数据块；

步骤三.第一次模型扩展：

设计算集群中的物理计算节点数为n，所需处理的数据块数为M，对步骤一所得的二分图模型进行扩展，使得扩展后的模型能使用KM带权最优匹配算法，即扩展后的模型中计算节点数与数据块数相等，扩展方式如下：

(1)若n≥M，则虚拟W₁＝n-M个数据块，把虚拟的数据块添加至步骤一所得的二分图模型中，每个虚拟的数据块与所有物理计算节点均用虚线相连，若计算集群有两个以上机架，则所述虚线赋权值γ；若计算集群只有一个机架，则所述虚线赋权值β；

(2)若n<M，则具体扩展方法如下：

理论上每个物理计算节点应处理的数据块数量T_i＝M·P_i/(P₁+…+P_n)，其中P_i为第i个物理计算节点的计算性能，i＝1,…,n；由于第一次模型扩展前假设所有计算节点的计算性能相同，即T_i＝T＝M/n。由于通常情况下T为非整数，故对T向下取整得整数D，即T＝D+Si'，0≤Si'<1，则有M＝n·D+S'，其中S'＝n·Si'为剩余未划分的数据块数量；

由于每个计算节点的Pi是相等的，所以Si'也是相等的，又由于各计算节点的性能也相等，所以再划分一个任务后的计算节点的总执行时间都为(D+1)*t，其中t为各计算节点处理1个数据块所用时间，(D+1)*t也是该作业的最理想总执行时间。即，首先每个物理计算节点均分配D个数据块，而后在n个物理计算节点中随意选取S'个物理计算节点，将剩下的S'个数据块平均分配给所述S'个物理计算节点，完成任务划分；按照各计算节点划分的数据块数减一所得的值虚拟对应个数的镜像节点，例如计算节点Ni划分了D+1个待处理数据块，则计算节点Ni需要通过虚拟增加D个镜像节点，所有镜像计算节点的计算性能均与其对应的原始物理计算节点的计算性能相同；

把镜像计算节点添加至步骤一所得的二分图模型中，每个镜像计算节点同所有数据块的连接关系及相应权值与该镜像计算节点所对应的原始物理计算节点同所有数据块的连接关系及相应权值相同，由此完成第一次模型扩展；

步骤四.生成第一次调度方案：

步骤五.物理计算节点实际性能评估：

执行第一次任务调度方案，直至集群中每个物理计算节点至少完成一个数据块的处理时停止，根据每个计算节点处理相应数据块所需的时间，可得到每个计算节点的实际计算性能；

步骤六.物理计算节点性能判定：

若步骤五所得的每个物理计算节点的实际计算性能均相同，则继续执行第一次任务调度方案直至任务调度完成；若不完全相同，则执行步骤七，且各个计算节点继续执行当前正在处理的任务；

步骤七.第二次模型扩展：

设执行第一次任务调度方案后实际剩余的未处理数据块数为m，如果m＝0，即n≥M，此时第一轮分配后没有任务(数据块)剩余，则不作处理。如果第一轮分配结果有拖后腿的任务则交给推测式任务(speculative task)处理；如果m>0，表示第二轮分配需要调整之前计算节点性能一致假设前提下的分配结果，则：

(1)若n≥M，不作处理，此时没有待处理的任务，拖后腿的任务交由推测式执行的任务

处理；

(2)若n>M，则具体扩展方法如下：

设P_i为第i个物理计算节点经步骤五所得的实际计算性能，i＝1,…,n，对于剩余的m个数据块，理论上每个物理计算节点应处理的数据块数量T_i＝m·P_i/(P₁+…+P_n)；通常情况下T_i为非整数，对T_i向下取整得整数D_i，即T_i＝D_i+S_i，0≤S_i<1，则有m＝(D₁+…+D_n)+S，其中S＝S₁+…+S_n为剩余未分配数据块数量；

设Q_r为集群中计算性能最高与最低的物理计算节点之间的实际计算性能值之比，对Q_r向上取整得整数Q，即Q_r≤Q<Q_r+1，计算每个物理计算节点分别再处理D_i+1,…,D_i+Q个数据块所需要的时间加上该计算节点处理完正在处理的任务(开始执行第一次任务调度方案时，第一次分配后各节点都有待处理任务，第二次模型扩展不暂停这些正在处理的任务，只是将其剩余处理时间纳入调度考虑之中)的剩余时间之和t_i,1,…,t_i,Q，由此得到n×Q个时间数据t_1,1,…,t_1,Q,…,t_i,1,…,t_i,Q,…,t_n,1,…,t_n,Q，按由小到大顺序对所述n×Q个时间数据进行排列并构成一个映射列表，列表中的每一个时间均映射一个其相应的物理计算节点，此列表的意义表明，剩余未分配的S个任务按照映射列表由小到大的分配给各计算节点，能保证作业能在最小时间内完成；

选取映射列表中前S个时间所映射的S个物理计算节点，统计整个计算集群中第i个计算节点在这S个计算节点中出现的次数L_i，且S＝L₁+…+L_n；

故，对于剩余的m个数据块，集群中每个物理计算节点应处理的数据块数量为R_i＝D_i+L_i；针对第i个物理计算节点，通过虚拟增加(D_i+L_i-1)个与其计算性能相同的镜像计算节点，总计虚拟W₄＝(D₁+L₁-1)+…+(D_n+L_n-1)个镜像计算节点；

把镜像计算节点添加至步骤一所得的二分图模型中，断开正在处理的数据块所同各计算节点的连线并从二分图中剔除这些数据块，因为这些数据块不需要在分配；每个镜像计算节点同所有数据块的连接关系及相应权值与该镜像计算节点所对应的原始物理计算节点同所有数据块的连接关系及相应权值均相同，由此完成第二次模型扩展，如图3所示，图3中节点N ₃'是物理计算节点N₃的虚拟镜像计算节点；

步骤八.生成第二次调度方案：

步骤九.调度完成：

执行第二次调度任务方案对剩余的m个数据块进行任务分配，完成任务调度。

下面结合实施例对本发明作进一步说明。

实施例

本实施例在搭建了11台物理计算节点(1个主节点，10个从节点)的Hadoop集群中实验，以128MB为一个数据块，分别运行测试用例wc16，wc22，wc38，wc60，wc98，其中wc16表示16个数据块大小的wordcount测试用例，得出的本地化提升比例如图4所示，本地化程度最高提升了17.9％。在网络不拥堵的情况下Map阶段和整个MapReduce阶段的性能提升图如图5所示，从图中看出Map阶段性能最高提升了19.7％，整个MapReduce阶段性能提升了17.8％；在网络堵塞的情况下(用linux的tc命令模拟网络拥塞控制各计算节点的上行和下行带宽)Map阶段和整个MapReduce阶段的性能提升图如图6所示，其中Map阶段性能最高提升了70.4％，整个MapReduce阶段性能最高提升了67.1％。

Claims

1.一种基于MapReduce的最优本地化任务调度方法，包括以下步骤：

步骤一.模型抽象：

将集群中的物理计算节点抽象为一类点的集合，将集群中准备处理的数据块抽象为另一类点的集合并构建二分图；将抽象后的每个数据块对应的点和每个物理计算节点对应的点连接，若某个物理计算节点上存储有某数据块，则该数据块与该计算节点间的连接线为一条实线，即这种实线连接的数据块所对应的任务为本地化任务，反之，非本地化的数据块与计算节点之间则用虚线连接；对所述连接线赋权值：定义三个权值α、β、γ，满足α<β<γ，本地化任务对应的是用实线连接的数据块和物理节点形成处理关系的一类任务，在图中这类任务对应的连线的权值为α；非本地化任务对应的是用虚线连接的数据块和物理节点形成处理关系的一类任务，在所述二分图中这类任务对应的连线的权值为β或γ，其中所连接的数据块的物理位置与计算节点的物理位置若属于计算集群中的相同机架，则虚线权值为β，若所连接的数据块的物理位置与计算节点的物理位置分别属于计算集群中的不同机架，则虚线权值为γ；由此得抽象后的二分图模型；

步骤二.计算节点初始化：

将集群中各个物理计算节点的计算性能初始化为相同值，即假定每个物理计算节点在单位时间内均能处理相同数量的数据块；

步骤三.第一次模型扩展：

步骤四.生成第一次调度方案：

步骤五.物理计算节点实际性能评估：

执行第一次任务调度方案，待所有计算节点启动第一个任务后，通过各计算节点Map阶段处理的数据量和花费的时间计算各计算节点的实际计算性能。

步骤六.物理计算节点性能判定：

步骤七.第二次模型扩展：

步骤八.生成第二次调度方案：

步骤九.调度完成：

执行第二次调度任务方案对剩余的待处理数据块进行任务分配，完成任务调度。

2.根据权利要求1所述的基于MapReduce的最优本地化任务调度方法，其特征在于，步骤三所述的第一次模型扩展的具体扩展方式如下：

设计算集群中的物理计算节点数为n，所需处理的数据块数为M，则：

(1)若n≥M，则虚拟W1＝n-M个数据块，把虚拟的数据块添加至步骤一所得的二分图模型中，每个虚拟的数据块与所有物理计算节点均用虚线相连，若计算集群有两个以上机架，则所述虚线赋权值γ；若计算集群只有一个机架，则所述虚线赋权值β；

(2)若n<M，则具体扩展方法如下：

理论上每个计算节点应处理的数据块数量T＝M/n*Pi，其中Pi为对应计算节点的性能，由于第一次模型扩展前假设所有计算节点的计算性能相同，所以不妨设Pi都等于1，即T＝M/n。由于通常情况下T为非整数，故对T向下取整得整数D，即T＝D+S_i'，0≤S_i'<1，则有M＝n·D+S'，其中＝n·S_i'为剩余未划分的数据块数量；

首先向每个物理计算节点分配D个数据块，而后在n个物理计算节点中随意选取S'个计算节点，将剩下的S'个数据块平均分配给所述S'个物理计算节点，完成任务划分；针对所述S'个物理计算节点，每个节点均通过虚拟增加D个镜像计算节点；剩余的每一个物理计算节点则通过虚拟增加D-1个镜像计算节点；所有镜像计算节点的计算性能均与其对应的原始物理计算节点的计算性能相同；

把镜像计算节点添加至步骤一所得的二分图模型中，每个镜像计算节点同所有数据块间的连接关系及相应权值与该镜像计算节点所对应的原始物理计算节点同所有数据块间的连接关系及相应权值相同，由此完成第一次模型扩展。

3.根据权利要求2所述的基于MapReduce的最优本地化任务调度方法，其特征在于，步骤七所述的第二次模型扩展的具体扩展方式如下：

设执行第一次任务调度方案后实际剩余的未处理数据块数为m，如果m＝0，即n≥M，此时第一轮分配后没有任务即待处理数据块剩余，则不作处理。如果第一轮分配结果有拖后腿的任务则交给推测式任务(speculative task)处理；如果m>0，表示第二轮分配需要调整之前的计算节点性能一致假设前提下的分配结果，则：

(1)若n≥M，不作处理，此时没有待处理的任务，拖后腿的任务交由推测式执行的任务处理；

(2)若n>M，则具体扩展方法如下：

设P_i为第i个物理计算节点经步骤五所得的实际计算性能，i＝1,…,n，对于剩余的m个数据块，理论上每个物理计算节点应处理的数据块数量T_i＝m·Pi/(P₁+…+P_n)；通常情况下T_i为非整数，对T_i向下取整得整数D_i，即T_i＝D_i+S_i，0≤S_i<1，则有m＝(D₁+…+D_n)+S，其中S＝S₁+…+S_n为剩余未分配数据块数量；

设Q_r为集群中计算性能最高与最低的物理计算节点之间的实际计算性能值之比，对Q_r向上取整得整数Q，即Q_r≤Q<Q_r+1，计算每个物理计算节点分别再处理D_i+1,…,D_i+Q个数据块所需要的时间加上该计算节点处理完正在处理的任务的剩余时间的和t_i,1,…,t_i,Q，由此得到n×Q个时间数据t_1,1,…,t_1,Q,…,t_i,1,…,t_i,Q,…,t_n,1,…,t_n,Q，按由小到大顺序对所述n×Q个时间数据进行排列并构成一个映射列表，列表中的每一个时间均映射一个其相应的物理计算节点；

选取映射列表中前S个时间所映射的S个物理计算节点，统计整个计算集群中第i个物理计算节点在这S个物理计算节点中出现的次数L_i；

针对第i个物理计算节点，通过虚拟增加(D_i+L_i-1)个与其计算性能相同的镜像计算节点，由此总计虚拟W₄＝(D₁+L₁-1)+…+(D_n+L_n-1)个镜像计算节点；

把镜像计算节点添加至步骤一所得的二分图模型中，断开正在处理的数据块所同各计算节点的连线并从二分图中剔除这些数据块；每个镜像计算节点同所有数据块的连接关系及相应权值与该镜像计算节点所对应的原始物理计算节点同所有数据块的连接关系及相应权值均相同，由此完成第二次模型扩展。