CN104407921A

CN104407921A - 一种基于时间的yarn任务资源动态调度方法

Info

Publication number: CN104407921A
Application number: CN201410819147.3A
Authority: CN
Inventors: 杨勇; 亓开元; 辛国茂; 卢军佐
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-03-11

Abstract

本发明公开了一种基于时间的yarn任务资源动态调度方法，包括以下步骤：设计yarn队列，根据任务特点，设计多个队列，每个队列对应一类任务，队列的数量动态增加，同时同一层级所有队列的资源分配比例之和是100%；编写定时刷新队列的脚本，根据时间变化和业务需求，定时调用yarn控制台命令，刷新yarn任务队列的配置参数；提交任务到指定队列，提交任务到yarn框架上时，指定任务提交到哪个队列上，从而保证各个任务在指定队列上运行。该一种基于时间的yarn任务资源动态调度方法与现有技术相比，满足在不同时间负载变化大的任务的资源需要，达到充分利用系统资源、保证关键任务的效果，实用性强。

Description

一种基于时间的yarn任务资源动态调度方法

技术领域

本发明涉及大数据技术领域，具体地说是一种实用性强、基于时间的yarn任务资源动态调度方法。

背景技术

大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。MapReduce是一种编程模型，常用于大规模数据集（大于1TB）的并行运算，是Hadoop1.x版本主要的计算编程模型。但从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看，MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性，内存消耗，线程模型，可靠性和性能上的缺陷。

旧的 Hadoop 架构受到了 JobTracker 的高度约束，JobTracker 负责整个集群的资源管理和作业调度。新的 yarn 架构打破了这种模型，允许一个新 ResourceManager 管理跨应用程序的资源使用，ApplicationMaster 负责管理作业的执行。这一更改消除了一处瓶颈，还改善了将 Hadoop 集群扩展到比以前大得多的配置的能力。此外，不同于传统的 MapReduce，yarn允许使用 Message Passing Interface 等标准通信模式，同时执行各种不同的编程模型，包括图形处理、迭代式处理、机器学习和一般集群计算。实际上，可以将 MapReduce 模型视为 yarn架构可运行的一些应用程序中的其中一个，只是为自定义开发公开了基础框架的更多功能。随着 yarn 变得更加健全，它有能力取代其他一些分布式处理框架，从而完全消除了专用于其他框架的资源开销，同时还可以简化整个系统。

Capacity Scheduler是YARN中默认的资源调度器，它适合于多用户共享集群的环境的调度器，采用队列的形式分配和调度集群资源。某个作业可被提交到某一个队列中，每个队列会配置一定比例的计算资源，且所有提交到队列中的作业共享该队列中的资源。空闲资源会被分配给那些未达到资源使用上限的队列，当某个未达到资源的队列需要资源时，一旦出现空闲资源资源，便会分配给他们。Capacity Scheduler支持批量调度任务、任务优先级划分、资源抢占和动态加载配置文件。

基于上述技术，现提供一种基于时间的yarn任务资源动态调度方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、基于时间的yarn任务资源动态调度方法。

一种基于时间的yarn任务资源动态调度方法，其具体实现过程为：

设计yarn队列，根据任务特点，设计多个队列，每个队列对应一类任务，队列的数量动态增加，同时同一层级所有队列的资源分配比例之和是100%；

编写定时刷新队列的脚本，根据时间变化和业务需求，定时调用yarn控制台命令，刷新yarn任务队列的配置参数；

提交任务到指定队列，提交任务到yarn框架上时，指定任务提交到哪个队列上，从而保证各个任务在指定队列上运行。

所述定时任务脚本编写完成后，在指定时间将对应方案的配置文件复制到$YARN_HOME/conf目录下，并调用yarn控制台命令yarn rmadmin –refreshQueues 刷新配置文件。

提交yarn任务时，配置yarn框架提供的环境变量，即"mapreduce.job.queuename"来指定任务要提交到哪个队列上。

本发明的一种基于时间的yarn任务资源动态调度方法，具有以下优点：

该发明的一种基于时间的yarn任务资源动态调度方法满足了时间强相关类业务在不同时间段需要不同资源量的动态调度需求，充分利用了yarn框架下队列资源分配和任务资源抢占的机制，使用简单的方式加以调度，大大提高了Hadoop集群的资源利用率，并且由于yarn框架与计算逻辑的无关性，本方法不仅适用于MapReduce任务，还适用于spark任务、SparkStreaming任务等其他类型的大数据任务，有很高的实用价值，实用性强，易于推广。

附图说明

附图1为本发明的调度流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提出一种基于时间的yarn任务资源动态调度方法，充分利用yarn框架下资源调度器的队列特性，通过将需要动态调度的任务分配到不同的队列中，通过脚本按时间动态刷新各队列之间的资源分配比例，从而达到动态调整各任务资源分配比例的效果，满足在不同时间负载变化大的任务的资源需要，达到充分利用系统资源、保证关键任务的效果。并且由于yarn框架与计算逻辑的无关性，本方法不仅适用于MapReduce任务，还适用于spark任务、SparkStreaming任务等其他类型的大数据任务，有很高的实用价值。

如附图1所示，其具体实现过程为：

设计yarn队列，根据任务特点，设计多个队列，每个队列对应一类任务，队列的数量可以动态增加，但不能动态减少，同时同一层级所有队列的资源分配比例之和是100%。

编写定时刷新队列的脚本，可根据不同系统类型使用不同的脚本语言，主要负责根据时间变化和业务需求，定时调用yarn控制台命令，刷新yarn任务队列的配置参数。

提交任务到指定队列，在提交任务到yarn框架上时，需要指定任务要提交到哪个队列上，从而保证各个任务在指定队列上运行。

基于上述步骤，其具体实现过程为：

根据业务需要，划分yarn层级队列；例如某公司有两个常驻内存的计算任务A和B，正常情况下任务A和任务B可以分别使用整个yarn集群50%的资源，而在每天中午11:00-13:00之间，任务B会有较大的计算压力，需要使用集群80%的资源来支撑，则需要准备2套capacity-scheduler.xml配置文件，分别对应两种资源配置方案；

这两套配置方案中，在root队列下设置两个子队列queueA和queueB，则关于队列和资源的部分分别配置如下：

方案1：

<name>yarn.scheduler.capacity.root.queues</name>

<value>queueA, queueB</value>

</property>

<name>yarn.scheduler.capacity.root.queueA.capacity</name>

</property>

<name>yarn.scheduler.capacity.root.queueB.capacity</name>

</property>

方案2：

<name>yarn.scheduler.capacity.root.queues</name>

<value>queueA, queueB</value>

</property>

<name>yarn.scheduler.capacity.root.queueA.capacity</name>

</property>

<name>yarn.scheduler.capacity.root.queueB.capacity</name>

</property>

编写定时任务脚本，在指定时间将对应方案的配置文件复制到$YARN_HOME/conf目录下，并调用yarn控制台命令yarn rmadmin –refreshQueues 刷新配置文件；如上例，即需要在每天11:00的时候，复制方案2的配置文件到$YARN_HOME/conf目录，刷新队列配置，然后在13:00的时候，复制方案1的配置文件到$YARN_HOME/conf目录，再刷新队列配置。

提交yarn任务时，需要配置yarn框架提供的环境变量，即"mapreduce.job.queuename"来指定任务要提交到哪个队列上，例如，将一个任务提交到queueA队列上，则需要在任务上下文对象中设置conf.set("mapreduce.job.queuename", "queueA")。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于时间的yarn任务资源动态调度方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种基于时间的yarn任务资源动态调度方法，其特征在于，其具体实现过程为：

2.根据权利要求1所述的一种基于时间的yarn任务资源动态调度方法，其特征在于，所述定时任务脚本编写完成后，在指定时间将对应方案的配置文件复制到$YARN_HOME/conf目录下，并调用yarn控制台命令yarn rmadmin –refreshQueues 刷新配置文件。

3.根据权利要求1所述的一种基于时间的yarn任务资源动态调度方法，其特征在于，提交yarn任务时，配置yarn框架提供的环境变量，即"mapreduce.job.queuename"来指定任务要提交到哪个队列上。