CN113190351B

CN113190351B - 一种面向分布式深度学习训练任务的高效资源分配系统

Info

Publication number: CN113190351B
Application number: CN202110487973.2A
Authority: CN
Inventors: 李方舒; 赵来平; 曲雯毓
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2022-06-21
Anticipated expiration: 2041-05-06
Also published as: CN113190351A

Abstract

本发明公开了一种面向分布式深度学习训练任务的高效资源分配系统，包括：初始资源配置模块；LAS队列；二分类器；性能模型；多级反馈队列MLFQ，首先将分布式深度学习作业分为可预测作业和不可预测作业，并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业，资源调整的收益往往是可以预测的，因此每次调整都可以给集群带来收益。而不可预测作业，其收益往往不可知。此外，可预测作业和不可预测作业的优先级计算方式不同，可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级，而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度，我们采用波达计数法来解决该问题。

Description

一种面向分布式深度学习训练任务的高效资源分配系统

技术领域

本发明属于云计算技术领域，特别涉及大型云计算集群下分布式训练任务的预测、调度和资源分配，具体涉及一种面向分布式深度学习训练任务的高效资源分配系统。

背景技术

近几年来，深度学习模型的参数规模和复杂度迅速增长。例如，GPT-2、Turing NLG和GPT-3等自然语言处理模型的参数数量分别从1.5亿个参数增加到了17亿和175亿个参数。此外，Facebook的模型参数复杂度在过去的两年中也增加了两倍。这些超大规模的模型数量将会导致较高的训练费用。例如使用Tesla V100云实例训练一次GPT-3的成本超过460万美元，如此高的成本严重限制了研究进展。因此，如何提高云计算集群的训练效益和资源利用率，是资源管理面临的一个重要挑战。

现有的工作对训练效益的提升方法主要分为两类：动态优先级调度和动态资源分配。动态作业优先级调度为每个作业分配一个随时间变化的优先级，并按照作业当前的优先级来调度作业。该方法类似于最少获得服务数(LAS)算法的调度算法，它可以保证短作业具有较高优先级，优先被调度。但是，由于作业的运行时资源是固定的，该方法反而降低了集群资源利用率。动态资源分配方法不改变作业的优先级，而是根据作业运行时的资源需求和集群变化的资源可用性来调整超参数或资源分配。一旦资源配置发生了变化，这些作业往往依赖于一个预测模型来预测作业的训练效益。然而，较差的预测精度，特别是对非收敛模型，会导致整体训练性能的降低。

发明内容

本发明的目的是提供一种面向分布式深度学习训练任务的高效资源分配系统，旨在解决大型分布式深度学习集群下的资源利用低效问题，通过对分布式深度学习任务的预测、调度和资源调整，最小化平均作业完成时间和提升集群资源利用率。

为实现本发明的目的，本发明提供的一种面向分布式深度学习训练任务的高效资源分配系统，包括：

初始资源配置模块，其用于为训练作业分配一个初始资源配置；

LAS队列，其用于将作业按照获得服务数升序排序；

二分类器，其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业；

性能模型，其用于该模型可以估计作业的作业完成时间JCT；

正效益队列和负效益队列，其用于分别放置JCT增加或减少的作业；

多级反馈队列MLFQ，其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列，基于波达计数的队列融合策略，将这四个队列结合起来，生成一个综合考虑多个因素的多级反馈队列；

资源分配调整单元，其用于根据MLFQ队列调整对所有作业的资源分配。

其中，

以每个作业的5个指标作为输入来设计二分类器，其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交，二分类器采用机器学习算法来识别可预测作业。

其中，

所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量机、多层感知机MLP时的准确率结果。

其中，

采用组合子模型策略来预测作业的剩余步骤数目(s_i)和步骤处理速度(q_i)，使用c_i表示作业的完成时间，上述三个因子具有以下函数关系：

其中s_i和q_i分别代表作业i的剩余训练步骤数和单个步骤的处理速度。

其中，

所述组合子模型包括用于在参数服务器系统中，对一批输入数据的进行处理，包括前向传播、后向传播、数据传输、模型更新、数据拉取的速度模型；

其中，

所述组合子模型包括用于来描述每个可预测作业的收敛速度的步数模型。

其中，

对于速度模型，采用离线拟合的方法测量了不同资源配置

下的作业训练速度(q_i)，并推导出了(α₁,β₁,γ₁,α₂,β₂,γ₂)和

的系数，使用最小二乘法来计算最适合的样本系数。

其中，

对于步数模型，采用在线拟合的方法，在每个训练步骤后收集数据点(l,k)，用最小二乘法对预测模型进行拟合，找到(u₀,u₁)的最佳系数。

为了对分布式深度学习作业进行加速，现有的调度系统提出了许多不同的调度策略，可以大致分为两类，一类是以作业运行信息作为输入的动态优先级调度，另一类是以作业资源为核心的动态资源调整。虽然这些方法都可以从一定程度上提升作业的运行效率，但是收益往往是有限的，并且伴随着作业在时间或空间上的牺牲。为了弥补上述方案的不足，本发明提供了一种基于作业可预测性的同一资源分配系统。从作业优先级和资源动态调整两个角度对作业进行高效的资源调度。

相比于现有工作，本发明首先将分布式深度学习作业分为可预测作业和不可预测作业，并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业，资源调整的收益往往是可以预测的，因此每次调整都可以给集群带来收益。而不可预测作业，其收益往往不可知，对其盲目的资源调整，通常会给集群带来负收益。此外，可预测作业和不可预测作业的优先级计算方式不同，可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级，而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度，我们采用波达计数法来解决该问题。

相比于现有的工作，本发明具有显著的效果。在平均作业完成时间上，本发明的效果是最新调度器的3倍。在平均CPU资源和GPU资源的利用率上，本发明提升了系统平均20％以上的资源利用率。在作业排队时间上，本发明的效果是最新调度器的5倍。

附图说明

图1为本发明的系统架构示意图。

图2为基于多级反馈队列的波尔达计数法示例。

具体实施方式

本发明提出了基于分布式深度学习作业的统一计算分配方法，来最小化深度学习作业的平均完成时间。相比于现有的工作，本发明充分利用了训练作业的部分可预测性和异构CPU-GPU集群资源的特性。它将可预测作业和不可预测作业相结合一起在集群中进行调度。另一方面，本发明还支持按照最少获得服务数(LAS)算法来调度不可预测作业，从而减少作业的平均完成时间。

本发明提出了一种面向分布式深度学习训练任务的高效资源分配系统。该系统的基本思想是，在CPU和GPU混合资源上，可以准确识别部分可预测作业，并对可预测作业和不可预测作业做动态资源调度。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

对于本领域技术人员而言，可根据具体情况理解上述术语在本申请中的具体含义。

一、系统架构

图1是本申请系统的整体架构。

用户首先提交了一个训练作业，若用户指定了资源配置，则该作业以该配置运行，若没有指定资源配置，则由调度器分配一个初始资源配置。资源调度器根据作业和资源状态，定期调整资源分配和其他超参数配置，以最小化平均作业完成时间。受最少获得服务数(LAS)策略的启发，调度器维护了一个LAS队列，将作业(可预测作业和不可预测作业)按照获得服务数升序排序。因此，一个最新到达的作业将被放在队列的头部。然而，直接采用LAS队列是不可行的，因为CPU服务数(S_cpu＝cpu×time)和GPU服务数(S_gpu＝gpu×time)不可同时进行比较。我们使用转换系数δ:S_cpu＝δ×S_gpu来解决这一问题，并通过多次实验来评价最佳的系数δ。

新提交的作业都是不可预测作业，调度器定期将这些作业放入二分类器中，来识别它们是否由不可预测作业转变为可预测作业。对于每一个可预测作业，我们建立了性能模型，该模型可以估计作业的作业完成时间(JCT)，从而在不同的资源配置下展开作业调度和资源调整。根据性能模型和资源分配状态，我们可以推导出调整任意资源分配后，作业的JCT收益。如果一个正在运行的作业所分配的资源减少，那么它的JCT将会变长，反之亦然。作业的资源调整后得到两个队列，分别为正效益队列和负效益队列，分别放置JCT增加或减少的作业。

针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列，本申请进一步设计了一种基于波达计数的队列融合策略，将这四个队列结合起来，生成一个综合考虑多个因素的多级反馈队列(MLFQ)，从而缓解不可预测作业长时间训练带来而导致其他作业饥饿的问题，然后，调度器根据MLFQ队列调整对所有作业的资源分配。集群中的监控器对所有运行中的作业进行监控，并不断收集作业的运行信息(例如损失值等)，拟合并更新二分类器和性能分析模型。

二、二分类器

影响训练中作业可预测性的因素有很多，其中主要分为三种类型：(1)模型本身的特征。如参数大小、模型结构、损失值等。(2)训练框架的超参数。如参数服务器的数量、工作节点的数量、学习率、阶段(epoch)。(3)作业运行状态。如是否重新提交、CPU/GPU利用率、训练速度、收敛曲线。如表1所示，本申请总结了具有代表性的深度学习微基准测试，并从中选取了12个具有代表性的指标。

表1作业可预测性和指标间的相关性

本发明使用皮尔森相关系数、肯德尔相关系数和斯皮尔曼相关系数评估这些指标与作业可预测性之间的相关性，最终得到与可预测性有很强相关性的5个指标，包括最大完工时间、精度、损失值、吞吐量和是否重新提交。因此，我们以每个作业的5个指标作为输入来设计我们的二分类器。二分类器采用机器学习算法来识别可预测作业。为了获得准确的二分类器，我们通过采集8692个实际训练作业的5个指标建立了一个特征数据集。并使用数据集中90％的数据样本进行训练，使用剩下的10％的样本进行测试。我们最终得到的二分类器的准确率可以达到99％以上。

表2分别显示了二分类器使用K邻近(KNN)、逻辑回归(LR)、随机森林回归(RFR)、支持向量机(SVR)、多层感知机(MLP)时的准确率结果。评价指标包括精度、召回率、F1值和曲线下面积(AUC)。其中KNN和RFR的效果明显优于其他方法，精度高达99.8％。因此，在本发明的二分类器中选择KNN最为预测算法。

表2预测精度

三、预测模型和可预测作业

当位于LAS队列中的不可预测作业被确定为可预测后，调度系统就会为该作业建立一个准确的预测模型来估计不同资源配置下的作业完成时间(JCT)。在此基础上，本发明希望构建一个性能资源模型，该模型可以很好的描绘作业性能和资源(包括异构CPU和GPU资源)之间的关系。利用性能资源模型，可以在降低平均作业完成时间(JCT)的同时提高异构系统的资源效率。

为了精确预测作业的完成时间，我们采用组合子模型策略来预测作业的剩余步骤数目(s_i)和步骤处理速度(q_i)，使用c_i表示作业i的完成时间。上述三个因子具有以下函数关系：

3.1速度模型

在参数服务器架构中，对一批输入数据的处理包括前向传播、后向传播、数据传输、模型更新、数据拉取。

前向传播：将一批输入数据转化为预测，与给定的标签进行比较，计算预测误差。

后向传播：使用计算的误差，通过后向传播计算每层可学习参数的梯度。

数据传输：工作节点向参数服务器节点传输梯度。

模型更新：每个参数服务器使用模型更新算法(SGD)来更新自己本地的模型参数。

数据拉取：工作节点从每个参数服务器拉取更新好的模型参数，并使用新的参数开启下一个训练步骤。

因此，单个步骤的处理速度为：

前向传播和后向传播

表示前向传播处理一个数据实例的时间，那么，处理一批大小为m的数据所需要的时间为

前向传播的时间随批处理数据的大小不同而不同，而后向传播通常与数据大小m无关，是一个固定的值。因此

和

在固定资源下变化不大。

当工作节点运行在CPU上时，通过拟合不同CPU资源下的性能曲线，我们发现前向和后向传播时间与所分配的CPU核心数呈现负指数关系，因此，我们得到公式：

其中α₁,β₁,γ₁是相关系数，

代表工作节点所分配的CPU核心数，m_i为作业i的批大小。

当工作节点运行在GPU上时，如果有多个GPU分配给同一个工作节点时(较少网络开销)，则会引入额外的局部梯度聚合开销。即每个GPU在后向传播中计算完梯度后，必须在本地进行梯度聚合，然后在将梯度发送给参数服务器。假设一个工作节点分配了g_i个GPU，那么梯度聚合时间表示为

在使用GPU资源的情况下，我们得到的前向和后向传播公式为：

传输数据和拉取数据的时间

数据传输和数据拉取过程数据的大小是相同的，只是数据传输方向相反，因此有

假设网络带宽为N，M_i是作业i的参数大小。因为模型参数在参数服务器上平均分配，而网络带宽瓶颈往往在参数服务器端，所以一个步骤内的网络通信时间为

其中p_i为参数服务器的数量，w_i为工作节点的数量。此外，随着参数服务器和工作节点的增多，会产生额外的通信开销

因此，我们可以得到传输数据和拉取数据的时间为：

模型更新时间(t_u)：每个参数服务器使用梯度下降优化算法(SGD)来更新本地的模型参数。假设在一个参数服务器上更新所有参数M所花费的时间为t_M，那么，每个参数服务器上的模型更新时间为t_M/p。此外，我们发现模型参数更新时间与CPU核心数也具有负指数关系。因此，模型更新时间为：

其中α₂,β₂,γ₂是相关系数。由于参数服务器在CPU上的处理效率和GPU上相似，而GPU却十分昂贵，因此我们不考虑在参数服务器使用GPU资源。

3.2步数模型

为了预测作业达到预期精度所需要的步骤数k，本申请建立了一个子模型来描述每个可预测作业的收敛速度。从tensorflow官方给出的一些训练曲线发现，大多数深度学习模型使用随机梯度下降算法来更新模型参数，使用该算法的模型其损失值都随着训练步骤数的增多逐渐下降，并最终达到收敛。因此本申请可以选择下面的预测模型来拟合作业的损失曲线：

其中l代表损失值，u₀,u₁为非负系数。因此s_i可以通过k_i减去已完成的步骤数算得。

3.3模型拟合

本发明采用拟合方法推导出速度模型和步数模型。对于速度模型，采用离线拟合的方法测量了不同资源配置

的系数。使用最小二乘法来计算最适合的样本系数。由于每次刻画训练只需要训练少量步骤数，时间仅需要几十秒，与几小时的训练时间相比，离线分析的成本可以忽略不计。在作业运行期间，当产生跟多的数据后，模型会不断更新。

对于步数模型，本发明采用在线拟合的方法，在每个训练步骤后收集数据点(l,k)，用最小二乘法对预测模型进行拟合，找到(u₀,u₁)的最佳系数。因为频繁的曲线拟合代价昂贵，所以我们每隔几十步更新一次模型。随着数据的增多，模型的准确性也在不断升高。

需要说明的是，

1.可预测作业的资源分配

在得到可预测作业的预测模型后，该发明可以推导出最优的资源分配和参数服务器/工作节点的资源配置，从而最小化作业完成时间。但是，考虑到深度学习集群中的作业是连续到达的，因此我们需要最小化所有提交作业的剩余所需服务数，从而提高系统的长期资源效率。假设

代表作业i所需要的剩余服务数。在每个调度间隔，资源调度策略可以表述为：

目标:

约束条件：

其中

和

以及上述约束确保所有任务分配的GPU和CPU资源不超过系统的总CPU(C)和GPU(G)资源量。上述问题是一个非线性整数规划问题，因为c_i不是一个线性函数。针对一般的NP难问题，我们设计了一种新的效用调度算法来解决它。

调度器不仅偏向于将更多的资源分配给那些可以从额外资源中获得收益的作业，还鼓励那些资源效益较低的作业为其他作业释放资源。因此，本申请调度算法运行如下：对于每个作业，调度器遍历五种资源

包括参数服务器数目、工作节点数目、GPU数目、参数服务器使用的CPU核心数、工作节点使用的CPU核心数。并分别计算增加单位量的五种资源和减少单位量的五种资源后的剩余服务数，选取这十种结果中的最小值。如果该作业的最终结果是增加资源，则将该作业放入正效益队列，若减少资源，则放入负效益队列。两个队列都按照V_i升序排序。该算法的时间复杂度为O(10J)，其中J为作业总数量。

2.统一计算分配

到目前为止，只有可预测作业可以根据两个效益队列进行实际部署和处理。在LAS队列中仍有许多不可预测作业等待着。如何在可预测作业和不可预测作业之间分配异构的CPU/GPU资源是一个重大挑战。

为了将LAS队列中的任务和两个效益队列中的任务统一起来，本申请采用了波尔达计数法，这是一种用于选举获胜者的投票系统，每个投票人将候选人名单按照喜好排序进行投票。作业i从某一队列中收到的得分为J-i_rank，其中i_rank表示作业i在队列中的排序位置，通过计算不同作业在不同队列中的得分之和来计算获胜者。然而，由于不可预测作业只出现在LAS队列中，而可预测作业同时出现在正效益队列、负效益队列和LAS队列中，因此直接采用波尔达计数法对不可预测作业来说是不公平的。为了解决这一问题，我们将LAS队列分为两个独立的子队列，其中可预测LAS队列和不可预测LAS队列都以作业获得的服务数升序排序。如图2所示，可预测LAS队列与正效益队列和负效益队列相结合，从而计算所有可预测作业的得分。为了公平对比可预测作业和不可预测作业，不可预测LAS队列中的不可预测作业得分加倍。然后，将可预测作业和不可预测作业想结合，按照得分降序排序。

由于作业的优先级不断变化，导致作业间频繁的抢占，从而造成了巨大的开销。我们进一步将波尔达计数法应用到多级反馈队列上，即基于多级反馈队列的波尔达计数法。多级反馈队列每个队列都有一个阈值，而作业的得分作为作业的优先级，依次放入多级反馈队列中的对应位置。在调度过程中，优先调度高优先级队列中的作业，并抢占低优先级队列中的作业。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，包括：

LAS队列，其用于将作业按照获得服务数升序排序；

性能模型，其用于估计作业的作业完成时间JCT；

2.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，以每个作业的5个指标作为输入来设计二分类器，其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交，二分类器采用机器学习算法来识别可预测作业。

3.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，

4.根据权利要求3所述的一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，

采用组合子模型策略来预测作业的剩余步骤数目s_i和步骤处理速度q_i，使用c_i表示作业的完成时间，上述三个因子具有以下函数关系：

5.根据权利要求4所述的一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，

所述组合子模型包括用于在参数服务器系统中，对一批输入数据的进行处理，包括前向传播、后向传播、数据传输、模型更新、数据拉取的速度模型。

6.根据权利要求5所述的一种面向分布式深度学习训练任务的高效资源分配系统，其特征自于，