CN112035251B

CN112035251B - 基于强化学习作业布局的深度学习训练系统及方法

Info

Publication number: CN112035251B
Application number: CN202010866752.1A
Authority: CN
Inventors: 谭光明; 马立贤; 邵恩; 张春明; 段勃
Original assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Current assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Priority date: 2020-07-14
Filing date: 2020-08-25
Publication date: 2023-09-26
Anticipated expiration: 2040-08-25
Also published as: CN112035251A

Abstract

本发明提供一种基于强化学习作业布局的深度学习训练方法，其包括：S1：对用户提交的作业进行代码完整性测试；S2：判断测试是否成功，若是，则进步下一步，若否，则将作业打回给用户；S3：计算作业的优先级，并将优先级计算完成的作业放入优先级队列中；S4：调度器判断集群资源是否充足，若是，进入下一步，若否，调度器根据优先级对当前运行的作业进行抢占，并进入下一步；S5：调度器从优先级队列中取作业进行调度；S6：被调度的作业通过布局算法对作业的任务进行优化布局；S7：判断调度间隔时间片是否耗尽，若是，进入步骤S3；若否，继续执行作业。可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题，提高GPU资源利用率。

Description

基于强化学习作业布局的深度学习训练系统及方法

技术领域

本发明涉及云计算资源调度技术领域，尤其涉及一种基于强化学习作业布局的深度学习训练系统及方法。

背景技术

深度学习训练是一种计算密集型任务，通常需要占用大量的GPU资源进行运算。一种高效地利用GPU资源的方法既可以缩减深度学习训练作业的完成时间又可以提高GPU资源的利用率。造成资源利用低作业完成时间长的主要因素可以分成以下几类：(1)在分布式训练中，由于作业调度器的不合理导致作业阻塞迟迟不能执行，影响作业完成。(2)不同模型特征的作业由于任务分布的不合理会加剧woker之间的通信开销，导致GPU资源利用率下降。(3)不同的任务数量也会导致作业完成的效率不同，但是过量的任务不一定会带来成比例性能的提升，因此会影响GPU利用率。(4)在AI训练系统中，由于节点故障导致资源污染的问题也会大大降低资源的利用率并且影响作业的完成时间。

因此，亟需一种提高资源利用率的深度学习训练系统及方法。

发明内容

有鉴于此，本发明提供一种基于强化学习作业布局的深度学习训练系统及方法。

本发明提供一种基于强化学习作业布局的深度学习训练方法，所述方法包括以下步骤：

S1：对用户提交的作业进行代码完整性测试；

S2：判断测试是否成功，若是，则进步下一步，若否，则将作业打回给用户；

S3：计算作业的优先级，并将优先级计算完成的作业放入优先级队列中；

S4：调度器判断集群资源是否充足，若是，进入下一步，若否，调度器根据优先级对当前运行的作业进行抢占，并进入下一步；

S5：调度器从优先级队列中取作业进行调度；

S6：被调度的作业通过布局算法对作业的任务进行优化布局；

S7：判断调度间隔时间片是否耗尽，若是，进入步骤S3；若否，继续执行作业。

进一步，所述步骤S6具体包括：

S61：经过优先级调度器后的作业通过模型分析器，获取模型的模型大小、大Tensor占比、卷积层占比、全连接层占比等特征并结合作业的任务数量；

S62:通过训练好的深度Q学习网络(Deep Q-Learning Network，DQN)获取一系列的放置策略组及打分组。

进一步，所述步骤S6具体包括：

S63：在生成的策略组中去除包含此频繁出错节点的多任务多节点分布作业，对于只存在于此频繁出错节点的作业我们仍保存此放置策略不变；

S64：判断过滤后的放置策略组是否为空，若是，返回步骤S5，若否，进入下一步；

S65：通过深度Q学习网络生成的打分对过滤后的动作进行优选，挑选出打分最高的动作，所述动作为作业的放置策略。

进一步，所述训练好的深度Q学习网络采用如下方法获得：

S621：获取模型特征与定义作业的状态集为：S＝(M，N，R)，M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源，R通过一个N*U的矩阵表达，U是资源的种类数量可以包括GPU、CPU、Memory；

S622：定义作业的动作集:A＝X，其中，A表示作业的动作集，X表示任务在节点的分布，X是一个N*K的二维矩阵，K是当前集群中节点的数量。

S623：定义奖励函数:奖励函数r为作业的工作效率，即作业在一段时间内单位资源下模型迭代的轮数，所述奖励函数如下：

其中，r表示奖励函数，num_i表示作业执行效率即单位时间内作业执行的迭代数、epoch表示作业需要的总迭代数、u_i表示作业所需要的总资源量、k是一个常数可以增强作业执行效率的比重，避免单卡的奖励值总是大于多卡的奖励值；

S624：神经网络结构设计与训练：

神经网络结构包括输入层、两个卷积层、两个全连接层与输出层，假设网络的参数为θ，在状态s下动作a的价值函数为Q，通过价值迭代方法不断的对下式的网络参数进行优化求解，

式中L_i代表网络的损失函数、γ表示衰减因子、a’，s’表示下一时刻选择的动作与对应的状态、E(.)表示求均值函数，表示梯度下降函数。

进一步，所述模型特征的向量包括：模型大小、大Tensor占比、卷积层占比、全连接层占比。

进一步，步骤S3中计算作业的优先级，采用如下方法确定：

P＝αT_left+βT_wait+γU_resource (3)

其中，P是作业优先级，T_left是作业剩余完成时间、T_wait是作业在队列的等待时间、U_resource是作业的资源使用量，ɑ、β、γ、分别为对应T_left、T_wait、U_resource的系数；

优先级队列中的作业根据优先级从大到小排列。

相应地，本发明还提供一种基于强化学习作业布局的深度学习训练系统，其特征在于：包括：用于检测用户提交的代码准确性的作业预执行模块、用于从优先级队列中获取作业调度的优先级抢占式调度器和基于增强学习的作业布局器；

所述预执行包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器；

所述优先级抢占式调度器包括用于定义作业优先级的作业优先级定义模块和用于调整作业的优先级的作业优先级动态调整模块；

所述基于增强学习的作业布局器包括经深度Q学习网络的方式离线训练的神经网络。

进一步，所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的检查点标记与重新恢复功能。

进一步，所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。

本发明的有益技术效果：本发明提供的基于强化学习作业布局的深度学习训练系统及方法可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题，有效解决节点故障导致资源污染的问题，提高GPU资源利用率。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的训练系统结构图。

图2为本发明的训练方法流程图。

图3为本发明的深度学习工作单元放置策略选取统流程图。

图4为本发明的系统原理图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明：

S1：对用户提交的作业进行代码完整性测试；对用户提交的作用进行完整性测试是为了防止会出错的作业运行在正式集群中从而导致资源浪费的问题；为了避免作业在预执行模块中阻塞，可以通过随机抽取作业的方式来随机选取作业进入预执行模块中。

S5：调度器从优先级队列中取作业进行调度；

S7：判断调度间隔时间片是否耗尽，若是，进入步骤S3；若否，继续执行作业。在一个调度时间片内，优先级队列中的作业与正在运行的作业优先级保持不变。在一个调度时间片过后，由于作业剩余完成时间、作业在队列等待时间都在变化因此需要动态地调整作业的优先级。

通过上述技术方案可有效解决由于作业调度器的不合理导致作业阻塞迟迟不能执行的问题，有效解决节点故障导致资源污染的问题，提高GPU资源利用率。

在本实施例中，所述步骤S6具体包括：

S62:通过训练好的DQN获取一系列的放置策略组及打分组。

在本实施例中，所述步骤S6具体包括：

S65：通过DQN生成的打分对过滤后的动作进行优选，挑选出打分最高的动作，所述动作为作业的放置策略。

通过上述技术方案，形成作业放置策略，以减少worker之间的通信开销，提高资源的利用率。

在本实施例中，所述训练好的DQN采用如下方法获得：

S621：获取模型特征与定义作业的状态集为：S＝(M，N，R)，M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源，R通过一个N*U的矩阵表达，U是资源的种类数量可以包括GPU、CPU、Memory；用户所使用的深度学习框架包括但不限于：Tensorflow、PyTorch、MxNet等。

S624：神经网络结构设计与训练：

式中，L_i代表网络的损失函数、γ表示衰减因子、a’，s’表示下一时刻选择的动作与对应的状态、E(.)表示求均值函数，表示梯度下降函数。

在本实施例中，所述模型特征的向量包括：模型大小、大Tensor占比、卷积层占比、全连接层占比。所述模型大小、大Tensor占比、卷积层占比、全连接层占比通过模型分析器获得。

在本实施例中，步骤S3中计算作业的优先级，采用如下方法确定：

P＝αT_left+βT_wait+γU_resource (3)

其中，P是作业优先级，T_left是作业剩余完成时间、T_wait是作业在队列的等待时间、U_resource是作业的资源使用量，ɑ、β、γ、分别为对应T_left、T_wait、

U_resource的系数；

优先级队列中的作业根据优先级从大到小排列。

所述预执行包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器；作业预执行模块包含预执行(Prerun)队列，Prerun队列对用户提交的作业在测试集群中进行少许轮数的迭代，测试成功后将任务提交到正式集群的队列中，否则将作业打回。

所述基于增强学习的作业布局器包括经深度学习DQN的方式离线训练的神经网络。考虑到一个作业中多个工作单元布局的所有可能组合数量很大，并且所有状态集与对于的动作集数据量随着工作单元的数量呈指数增加，因此我们的布局算法通过深度增强学习DQN的方式离线的训练出一个作业布局网络模型。

在本实施例中，所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的断点标记与重新恢复功能。

在本实施例中，所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于强化学习作业布局的深度学习训练方法，其特征在于：所述方法包括以下步骤：

S1：对用户提交的作业进行代码完整性测试；

S2：判断测试是否成功，若是，则进入下一步，若否，则将作业打回给用户；

S5：调度器从优先级队列中取作业进行调度；

S61：经过优先级调度器后的作业通过模型分析器，获取模型的模型大小、大Tensor占比、卷积层占比、全连接层占比特征并结合作业的任务数量；

S62:通过训练好的深度Q学习网络DQN获取一系列的放置策略组及打分组；

所述训练好的深度Q学习网络采用如下方法获得：

S621：获取模型特征与定义作业的状态集为：S＝(M，N，R)，M为用户输入模型特征的向量,N代表了一个作业的任务数量,R代表任务所需要的资源，R通过一个N*U的矩阵表达，U是资源的种类数量，包括GPU、CPU、Memory；

S622：定义作业的动作集:A＝X，其中，A表示作业的动作集，X表示任务在节点的分布，X是一个N*K的二维矩阵，K是当前集群中节点的数量；

其中，r表示奖励函数，num_e表示作业执行效率即单位时间内作业执行的迭代数、epoch表示作业需要的总迭代数、u_e表示作业所需要的总资源量、k是一个常数，用于增强作业执行效率的比重，避免单卡的奖励值总是大于多卡的奖励值；

S624：神经网络结构设计与训练：

式中L_i代表网络的损失函数、γ表示衰减因子、a′，s′表示下一时刻选择的动作与对应的状态、E表示求均值函数，表示梯度下降函数；

S63：在生成的策略组中去除包含频繁出错节点的多任务多节点分布作业，对于只存在于频繁出错节点的作业保持放置策略不变；

S65：通过深度Q学习网络生成的打分对过滤后的动作进行优选，挑选出打分最高的动作，所述动作为作业的放置策略；

2.根据权利要求1所述基于强化学习作业布局的深度学习训练方法，其特征在于：所述模型特征的向量包括：模型大小、大Tensor占比、卷积层占比、全连接层占比。

3.根据权利要求1所述基于强化学习作业布局的深度学习训练方法，其特征在于：步骤S3中计算作业的优先级，采用如下方法确定：

P＝αT_left+βT_wait+δU_resource (3)

其中，P是作业优先级，T_left是作业剩余完成时间T_wait是作业在队列的等待时间、U_resource是作业的资源使用量，α、β、δ、分别为对应T_left、T_wait、U_resource的系数；

优先级队列中的作业根据优先级从大到小排列。

4.一种基于权利要求1-3任一项所述深度学习训练方法的深度学习训练系统，其特征在于：包括：用于检测用户提交的代码准确性的作业预执行模块、用于从优先级队列中获取作业调度的优先级抢占式调度器和基于增强学习的作业布局器；

所述预执行模块包括用于提取用户定义模型代码的模型抽取器和根据用户定义模型代码生成训练代码的测试代码生成器；

5.根据权利要求4所述的深度学习训练系统，其特征在于：所述测试代码生成器生成的训练代码包括优化器优化代码、模型迭代轮数与循环次数、模型的检查点标记与重新恢复功能。

6.根据权利要求4所述的深度学习训练系统，其特征在于：所述作业布局器还包括对所述神经网络生产的高分放置策略进行过滤的过滤优选模块。