CN115357368A

CN115357368A - 一种基于异构环境感知的MapReduce作业调度方法

Info

Publication number: CN115357368A
Application number: CN202211280671.9A
Authority: CN
Inventors: 吕敏; 杨振宇; 许胤龙; 牛天洋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-11-18

Abstract

本发明涉及分布式计算系统技术领域，公开了一种基于异构环境感知的MapReduce作业调度方法，包含混合存储模式下数据的均衡放置、节点任务并发度评估、多作业并发时的资源均衡分配和作业内任务分配优先级划分等步骤；能够有效提升MapReduce作业的处理效率。适用于底层数据采用多种纠删码或纠删码和副本混合存储、计算侧硬件异构和后台负载多变的Hadoop集群环境中，既能保证MapReduce框架的作业吞吐，又能保证每个作业的服务质量，且保证集群节点存储或计算设备资源占用的均衡性。

Description

一种基于异构环境感知的MapReduce作业调度方法

技术领域

本发明涉及分布式计算系统技术领域，具体涉及一种基于异构环境感知的MapReduce作业调度方法。

背景技术

Hadoop MapReduce是一个典型的分布式离线批处理计算框架，其将海量数据的处理过程抽象为Map（映射）和Reduce（归约）两个阶段，通过资源管理框架YARN来进行资源管理与作业调度，实现对底层HDFS分布式文件系统中存储的大规模离线数据进行分析计算。但由于目前环境下，HDFS分布式文件系统为了降低存储开销，采用了纠删码和副本存储混合的存储模式，放大了MapReduce作业运行时对底层存储系统数据访问的热度倾斜现象，使得MapReduce作业中部分任务的数据访问效率降低；另一方面，集群节点间的硬件异构和运行时不同计算设备的实时负载差异也会影响MapReduce作业中不同任务的执行效率。上述两方面因素共同影响了当前MapReduce框架的作业处理能力。

发明内容

为解决上述技术问题，本发明提供一种基于异构环境感知的MapReduce作业调度方法，均衡MapReduce作业运行时对存储系统的数据访问热度和集群计算设备如CPU、内存等的资源占用并实现框架运行效率的提升；该方法通用性好，兼容当前Hadoop中MapReduce和HDFS等框架的设计。同时相比其他设计，无需采用复杂算法来进行资源分配和任务调度决策，从而避免产生大量额外开销，性能较好。

为解决上述技术问题，本发明采用如下技术方案：

一种基于异构环境感知的MapReduce作业调度方法，包括以下步骤：

第一步、混合存储模式下数据的均衡放置：

Hadoop集群中各数据存储节点收集自身的磁盘顺序读能力

和磁盘顺序写能力

，以及网络上行带宽

和网络下行带宽

，此外周期性（以

表示存储侧历史负载分析周期）分析数据存储节点自身相关硬件设备一段时间内（以

表示每次分析日志的时间跨度）的历史负载，得出数据存储节点的数据传输性能，其中

、

为用户可配置的参数：对于磁盘顺序读写，可通过磁盘负载监控工具按一定的时间间隔（如每分钟、每小时）对磁盘读写负载采样，将采样结果记录中大于80%时间中的负载峰值作为长期磁盘后台负载

，对于网络传输,用类似方式利用网络负载监控工具对网络上下行带宽占用情况进行采样，将采样结果记录中数据存储节点大于80%时间中的网络上行负载峰值、下行负载峰值作为长期上行后台负载

、长期下行后台负载

，

的单位均为数据传输速度MB/s。

元数据管理节点周期性获取Hadoop集群中各数据存储节点的数据传输性能，根据节点分组阈值θ，依照各节点的数据传输性能高低进行分组，θ为可配置参数，单位为MB/s。数据存储节点

（i为节点序号）将根据公式（1）被划分到对应的节点组N个节点组

中（j为节点组序号），元数据管理节点周期性更新节点分组情况：

；

；

（1）

表示数据存储节点的数据读取性能，

表示数据存储节点的数据写入性能，单位均为MB/s；数据存储节点的数据读取性能和数据写入性能统称为数据存储节点的数据传输性能。

当进行文件写入时，元数据管理节点根据上述数据存储节点分组情况，在保证单个机架容错的前提下，将同一纠删码条带放在属于同一节点组的节点中，并且保证各节点组上存放的不同配置的条带数量均衡，在每个节点组内部的各节点上保证数据块和校验块比例的相对均衡；具体可以采用如下方式：以各节点组内数据存储节点上存储的全部块的平均数量来表征节点组的存储占用情况，通过将节点组的存储占用情况进行升序遍历的方式为纠删码条带的存储位置选址；通过将节点组内各存储节点上的数据块与全部块的比例进行升序遍历的方式，为该节点组内纠删码条带的数据块选取存储位置；通过将节点组内各存储节点上的校验块与全部块的比例进行升序遍历的方式，为该节点组内纠删码条带的校验块选取存储位置。

第二步、节点任务并发度评估：

在第一步保证了底层存储数据均衡的情况下，在进行作业处理时考虑每个计算节点动态变化的计算能力。每个计算节点周期性（以

表示算计算节点硬件负载采样周期，为用户可调参数）采集自身CPU实时占用率

、内存实时占用率

，并结合Hadoop 静态配置的默认可用CPU核心数

和内存最大可用容量

，根据公式（2）对计算节点当前的弹性可用计算单元EAC的数量

进行计算：

（2）

、

分别为计算节点的CPU物理核心数和内存容量，

是每个任务所需的内存资源上限。

为保证计算节点CPU性能所允许的最大任务并发度，

为保证计算节点内存性能所允许的最大任务并发度，综合二者得出最终的EAC数量

，作为计算节点任务并发度的控制阈值，由此实现根据真实负载情况对集群弹性可用计算单元的动态调节。

第三步、多作业并发时的资源均衡分配：

基于第二步得出某一时间周期内集群各计算节点任务并发度的控制阈值。对于一组作业提交序列

，该序列中各作业对应包含的任务数量为

，某一时间段内队列中作业为

，其中

，集群在后续任务分配中应尽可能等分集群资源，即保证作业

各分配

的集群资源。

这样做有利于保证短作业的快速执行，从而避免基于作业规模或作业剩余任务数的比例来决定资源分配导致的部分作业饥饿现象。当有新作业提交时，系统实时更新为各作业分配的弹性可用计算单元数量。

第四步：作业内任务分配优先级划分

一个作业内包含了大量Map任务和Reduce任务，在第三步确定了集群为各作业分配的弹性可用计算单元数量后，第四步考虑每个作业内部具体的任务分配优先级。作业内的Reduce任务一般在全部Map任务完成后开始分配执行，当作业

进行Map任务的选取和分配时，若当前集群根据第一步划分为了n个节点组

，对应的数据访问性能比例为

，则作业

将以

的比例选取对应数据位于节点组

的Map任务,以保证接下来一段时间内数据访问负载的相对均衡。当作业

进行Reduce任务的选取和分配时，假设集群为作业

分配的弹性可用计算单元数量为

，则根据当前集群各计算节点的弹性可用计算单元数量的比例计算出各计算节点应该处理的作业

的Reduce任务数量。若集群中部分计算节点上的空闲弹性可用计算单元数量小于待为其分配的作业

的Reduce任务数量，则作业

中的部分 Reduce任务需要等待这部分计算节点上弹性可用计算单元的释放。

与现有技术相比，本发明的有益技术效果是：

本发明基于异构环境感知的MapReduce作业调度方法，包含混合存储模式下数据的均衡放置、节点任务并发度评估、多作业并发时的资源均衡分配和作业内任务分配优先级划分等步骤。

首先，由于本发明用启发式算法更改了Hadoop默认的随机数据放置和默认的公平作业调度策略，并未引入过高的算法复杂性，因此不会对系统的数据存储能力产生影响，且实现起来较为简单；此外，一定周期性内的节点软硬件信息统计产生的存储、计算和网络开销相较于MapReduce作业运行过程本身的开销也可以忽略不计。

在MapReduce作业并发场景下，一般各作业中Reduce任务的数量相较于Map任务要小近乎一个量级，并且不同作业对应的Reduce任务特征相较于Map任务差异更加明显，即Reduce任务对于各类计算资源的敏感程度相较于Map任务更高，因此，为了降低任务分配的复杂程度，实现对存储系统数据访问的热度均衡，需要对Map任务和Reduce任务进行进一步区分，引入任务优先级划分来保证各作业当前分配的Map任务对集群各节点数据访问压力均衡，并且保证各作业当前分配的Reduce任务在集群中均匀分布，避免了由于任务特征差异造成的CPU、内存资源竞争。

因此本方法与传统方法相比，能够有效提升MapReduce作业的处理效率。适用于底层数据采用多种纠删码或纠删码和副本混合存储、计算侧硬件异构和后台负载多变的Hadoop集群环境中，既能保证MapReduce框架的作业吞吐，又能保证每个作业的服务质量，且保证集群节点存储或计算设备资源占用的均衡性。

附图说明

图1为Hadoop集群默认的数据存储和作业内任务分配模式示意图；

图2为本发明中Hadoop集群数据存储和作业内任务分配方案示意图；

图3为MapReduce作业并发场景下的作业调度和任务分配方案示意图；

图4为MapReduce作业并发场景下作业内部任务优先级确定方案示意图；

图5为Map任务优先级确定时节点组内部数据访问的两种情况示意图；

图6为本发明基于异构环境感知的MapReduce作业调度方法的操作流程示意图。

具体实施方式

下面结合附图通过一个具体实施例对本发明基于异构环境感知的MapReduce作业调度方法作进一步地说明。

本实施例中的基于异构环境感知的MapReduce作业调度方法的应用场景，是同时运行了HDFS分布式文件系统和YARN资源管理框架且由15台服务器节点组成的集群。

图1中给出了HDFS分布式文件系统默认的数据存储方式和YARN资源管理框架默认的资源管理和任务分配方式，HDFS分布式文件包括元数据管理节点（主节点）、数据存储节点（从属节点），YARN资源管理框架包括资源管理节点（主节点）、实际负责任务运行的计算节点（从属节点）。集群分为3个机架，每个机架内有5个节点，为了简化复杂程度示意图中仅展示部分节点。

在存储侧，当向HDFS分布式文件系统中存入一个RS-(3,2)纠删码条带时，)纠删码条带的1个数据块存放在了HDFS分布式文件系统中读写性能较低的一个数据存储节点。一般情况下，MapReduce作业中的Map任务需要访问纠删码条带的全部数据块，来获取原始文件连续的一部分数据进行处理；因此当MapReduce作业中的任务Task1在访问该纠删码条带的3个数据块时，由于数据存储节点数据访问性能差异的影响，位于低读写性能的数据存储节点上的数据块可能迟迟无法完成数据传输，影响任务Task1的处理效率。

而在计算侧，资源管理节点将各计算节点的任务并发度静态控制为10，并随机决定各节点上的任务分配，导致在集群中某个低计算性能的计算节点上的任务数量反高于高计算性能的计算节点上的任务数量，从而在低计算性能的计算节点上发生CPU、内存等资源竞争，影响多个任务的处理效率。

因此需要动态感知异构集群中的软硬件变化情况，进行更加均衡的数据存放和动态计算资源管理，能够有效均衡数据存储节点上存储压力和计算节点的负载压力，加快任务的处理速度，从而提升MapReduce作业的完成效率。

本实施例基于异构环境感知的MapReduce作业调度方法，具体包括以下步骤：

第一步：混合存储模式下数据的均衡放置

图2为数据写入时如何均衡放置的示意图。图2中有14个数据存储节点DN1-DN14，元数据管理节点首先通过数据存储节点上的设备信息组件采集得到的磁盘顺序读写性能、网络上下行带宽和历史负载记录，并按公式（1）将数据存储节点分为了三个性能的节点组

，其中

，

，

。向HDFS分布式文件系统中写入两个RS-(3,2)纠删码条带，考虑机架级别容错，每个机架内节点放置同一纠删码条带的数据块或校验块总数不超过2。因此纠删码条带1中的3个数据块分别放置在数据存储节点DN6、DN9和DN10，校验块分别放置在数据存储节点DN4和数据存储节点DN14。考虑存储占用均衡和节点组访问性能，纠删码条带2中的数据块分别放置在数据存储节点DN1、DN4和DN14，校验块分别放置在数据存储节点DN5和DN11。

第二步：节点任务并发度评估

图2示意了各计算节点对任务并发度的动态控制。YARN资源管理框架中计算节点利用增加的负载计算组件周期性采集后台CPU、内存等设备负载情况，根据公式（2）得出自身合适的弹性可用计算单元（Elastic-Avail-Container，简称EAC）数量，并汇报给资源管理节点。每个Map任务或者Reduce任务在一个EAC中运行，通过EAC数量控制计算节点任务并发度，即任务并发度等于EAC数量。

如图2，计算节点NM4计算得到该周期内自身合适的任务并发度为15，说明计算节点NM4的CPU、内存等硬件性能较高或该时刻节点后台负载较低，与之相反计算节点NM5的任务并发度计算为5，其余计算节点的任务并发度为10。考虑当前系统中只有一个MapReduce 作业，Map任务数量为56，则资源管理节点将把MapReduce作业的全部Map任务按各计算节点计算出的任务并发度比例进行分配。计算节点NM4分配了6个Map任务，计算节点NM5分配了2 个Map任务，其余计算节点分配4个Map任务，实现了节点间弹性可用计算单元的负载均衡。图2中任务Task1对应处理的数据恰好是纠删码条带1的数据块部分，由于纠删码条带1的数据块部分位于同一节点组

内，因此避免了由于节点数据访问性能差异造成的传输效率降低。

第三步：多作业并发时的资源均衡分配

图3给出了多作业并发时的资源均衡分配方案，考虑当前系统作业队列中存在5个作业Job1至Job5，对应剩余任务数量分别为T_job1=30、T_job2=70、T_job3=50、T_job4=110、T_job5=20；假设该时刻各计算节点的任务并发度为：计算节点NM4任务并发度CNM4=15，计算节点NM5的任务并发度CNM5=5，其余计算节点的任务并发度为10，可知集群当前总的任务并发度为

，此时对于作业Job1至Job5，系统为其等分集群的弹性可用计算单元，每个作业的最大任务分配数量为28，由于Job5只剩下20个任务，因此其余作业可以等量增加2 个任务的分配，最终作业Job1至Job5的任务并发度为30，30，30，30，20。

第四步：作业内任务分配优先级划分

如图4所示，在第三步确定好各作业的资源分配后，作业Job4内部任务分配的优先级确定。如图4所示，在当前周期内Job4在集群中分配的任务数量不超过30，而Job4剩余的 110个任务中有90个Map任务和20个Reduce任务，Reduce任务在全部Map任务执行结束后开始运行。因此在当前阶段Job4的作业管理进程将选取30个Map任务进行分配。在HDFS存储侧，节点性能分组如图2、图4所示，若节点组

数据访问性能比为1：3：6，则需挑选30 个Map任务，满足其对应的纠删码条带的数据块部分位于节点组

的数量分别为3、 9、18，并且保证选取的纠删码条带在节点组内部的具体存储节点相对均衡，如图5所示，挑选3个对应纠删码条带数据块在节点组

上的Map任务时，情况一对节点组

内的各节点访问压力要比情况二更均衡，图5中各纠删码条带中的框表示数据块或者校验块。当Job4的全部Map任务执行结束后，开始为其Reduce任务进行分配，需要保证每个计算节点上分配的 Job4 Reduce任务数量比例和计算节点的实时任务并发度数量比例一致。当作业队列发生更新或到下一周期时，集群各计算节点动态更新任务并发度，此时Job4对应的任务分配数量限制也会变化，但任务优先级确定和分配方式依据保持不变。

图6给出了整个方案的实施操作流程图。首先存储侧实现对异构集群节点数据访问性能的分组，在数据写入时实现混合存储模式下数据块的均衡放置。而后在MapReduce作业并发场景下，根据一定的时间周期或作业队列的变化，动态调节集群各节点的弹性可用计算单元。最后各作业根据集群可为其分配的资源上限，按照存储侧的节点分组情况，选取数据访问压力均衡的一批Map任务开始执行，当作业的全部Map任务结束后，再按照当前计算侧各节点实时的任务并发度比例，分配不超过集群为作业分配的资源上限数量的Reduce任务至作业完成，至此整个流程结束。

在本实施例中，通过基于异构环境感知的MapReduce作业调度方法，一方面在存储侧可以根据集群的硬件异构情况和长期后台读写负载来均衡纠删码条带的数据放置，提升MapReduce作业的数据访问性能。另一方面，在计算侧动态调节每个节点可处理的任务并发度，能够有效避免高性能或空闲节点的资源浪费，同时缓解低性能或高负载节点上严重的资源竞争状况，提升MapReduce作业的数据计算性能。通过上述两方面来在异构Hadoop集群环境中提升MapReduce框架的数据处理能力。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于异构环境感知的MapReduce作业调度方法，异构环境包括同时运行着HDFS分布式文件系统和YARN资源管理框架的集群，MapReduce作业中任务的数据以纠删码条带形式存储在HDFS分布式文件系统中，纠删码条带包括数据块和校验块，数据块和校验块统称为全部块，MapReduce作业调度方法包括以下步骤：

步骤一：根据HDFS分布式文件系统各数据存储节点的数据传输性能，对各数据存储节点进行分组，得到多个节点组；将同一纠删码条带的全部块放在属于同一节点组的数据存储节点中，以各节点组内数据存储节点上存储的全部块的平均数量来表征节点组的存储占用情况，通过将节点组的存储占用情况进行升序遍历的方式为纠删码条带的存储位置选址；通过将节点组内各存储节点上的数据块与全部块的比例进行升序遍历的方式，为该节点组内纠删码条带的数据块选取存储位置；通过将节点组内各存储节点上的校验块与全部块的比例进行升序遍历的方式，为该节点组内纠删码条带的校验块选取存储位置；

步骤二：根据YARN资源管理框架各计算节点的硬件信息，得到计算节点当前的弹性可用计算单元数量

，将一个MapReduce作业的各任务按照各计算单元内的弹性可用计算单元的数量比分配到各计算单元中；MapReduce作业包括Map任务和Reduce任务，

步骤三：步骤二中，在HDFS分布式文件系统中选取Map任务时，根据各节点组的数据传输性能，按比例选择位于各节点组内的以纠删码条带形式存储的Map任务数量；Reduce任务在所有Map任务执行结束后再执行；执行Reduce任务时，根据各计算节点中当前的弹性可用计算单元数量比，将Reduce任务分配到各计算单元中。

2.根据权利要求1所述的基于异构环境感知的MapReduce作业调度方法，其特征在于：步骤一中，集群中各数据存储节点收集自身的磁盘顺序读能力