CN112052087A

CN112052087A - 动态资源调整与迁移的深度学习训练系统及方法

Info

Publication number: CN112052087A
Application number: CN202010865757.2A
Authority: CN
Inventors: 谭光明; 马立贤; 邵恩; 张春明; 段勃
Original assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Current assignee: Zhongke Yuncai Chongqing Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-08-25
Publication date: 2020-12-08
Anticipated expiration: 2040-08-25
Also published as: CN112052087B

Abstract

本发明提供一种动态资源调整与迁移的深度学习训练方法，所述方法包括如下步骤：S1：调整机群中作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比；所述机群整体的计算效率进行量化，采用如下方法确定：

其中，P表示机群整体的计算效率，J表示当前集群中作业的总数，E_i(W_i)表示作业i的在使用资源W_i下的扩缩效率，W_i表示当前作业所使用的worker数量；S2：获取机群中所有作业的模型特征；S3：根据步骤S2的模型特征，对步骤S1调整后的作业资源进行迁移。本发明利用动态集群资源调整法，减少GPU资源的浪费，缩减作业运行时间，提高作业运行效率，达到系统平均作业运行效率与资源利用率最佳的状态。

Description

动态资源调整与迁移的深度学习训练系统及方法

技术领域

本发明涉及云计算资源调度技术领域，尤其涉及一种动态资源调整与迁移的深度学习训练系统及方法。

背景技术

深度学习训练作业是一种计算密集型任务，通常需要使用大量的GPU资源进行并行运算以加快作业的完成时间。对于已存在的深度学习框架如Tensorflow、MXNet、PyTorch等都是采用静态资源分配的方式，而静态资源分配往往一方面会导致资源的浪费另一方面也会造成作业运行效率不高。当有作业失败或采用抢占式调度器情景时都会面临作业重调度的问题，对于重调度的作业会出现以下两个问题：(1)空闲资源或可抢占资源无法满足出错重调度作业的资源需求数量时，重调度作业出现长时间排队，影响作业平均JCT性能。(2)重调度作业排队过程中，空闲的碎片计算资源因被闲置，而降低计算资源的利用率。通过动态资源扩缩，一方面计算出重调度作业的最佳资源数量、另一方面对正在运行的作业进行动态扩缩与作业迁移使得重调度的作业满足运行需求并保证资源的利用率与作业的运行效率。

因此，亟需一种基于重调度动态资源扩缩算法的深度学习训练系统及方法。

发明内容

有鉴于此，本发明提供一种动态资源调整与迁移的深度学习训练系统及方法。

本发明提供一种动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法包括如下步骤：

S1：调整机群中作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比；

所述机群整体的计算效率进行量化，采用如下方法确定：

其中，P表示机群整体的计算效率，J表示当前集群中作业的总数，E_i(W_i)表示作业i的在使用资源W_i下的扩缩效率，W_i表示当前作业所使用的工作单元数量；

S2：获取机群中所有作业的模型特征；

S3：根据步骤S2的模型特征，对步骤S1调整后的作业资源进行迁移。

进一步，所述方法还包括：在动态资源调整的同时，通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。

进一步，步骤S1具体包括如下步骤：

S11：定义预设的资源调整粒度S，设机群中的作业集合[M₁、M₂、...M_J]，其中，J集群中作业的总数，令N＝(1…J)；

当一个新作业到达机群中时，首先检查是否存在此作业对应的计算效率，若是，则直接计算机群整体计算效率；若否，进入下一步；

S12：从机群中的作业集合中依次取出作业M_N进行W_i-1规模的缩容，同时，判断可利用的资源是否大于等于S，若是，对新作业同步进行W_i-1规模的扩容，其中W_i表示当前作业所使用的worker数量，若否，则结束对新作业的扩容；

S13：判断作业M_N的缩容是否大于S，若是，判断N是否大于J，若是，则结束，若否，则计算机群作业M_N的扩缩效率和新作业的扩缩效率，并令N＝N+1，进入S12；若否，直接进入S12；

所述扩缩效率采用如下方法确定：

其中，E表示扩缩效率，N_iter表示在一测试时间内的迭代的次数，w表示作业所有工作单元占用的GPU资源数量。

进一步，所述步骤S3包括以下步骤：

S31：当新作业到来时，获取当前集群剩余资源大小、剩余资源分布，同时，判断当前集群中的剩余资源是否为空，若不为空则进入步骤S32，若为空则进入步骤S33；

S32：若当前集群剩余资源不为空，则为新来的作业分配当前集群中的所有剩余资源；

S33：选择资源占用最多的运行作业进行缩容，缩容的容量为扩缩效率大于固定阈值τ为止，扩缩步长最少为1次；

S34：遍历所有可能存在的资源分配可能性，循环动态调整所有运行作业的数量，最大化优化集群整体计算效率；

S35：判断作业的大张量单元占比是否不小于预设的临界值，若是，则将作业所占用资源的工作单元尽量迁移到相同的节点，若否，则将作业所占用资源工作单元尽量迁移到不同的节点上充分利用资源的碎片。

相应地，本发明还提供一种动态资源调整与迁移的深度学习训练系统，其特征在于：所述系统包括：用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块；

所述统计模块包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器；

所述动态作业资源调整模块包括动态逐步调整作业资源与资源重启子模块、数据存储单元和作业资源迁移单元。

本发明的有益技术效果：本发明提供的动态资源扩缩与迁移的深度学习训练系统及方法利用动态集群资源调整法，减少GPU资源的浪费，缩减作业运行时间，提高作业运行效率，达到系统平均作业运行效率与资源利用率最佳的状态。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的训练系统结构图。

图2为本发明的训练方法流程图。

图3为本发明的训练系统的系统原理图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明：

所述机群整体的计算效率进行量化，采用如下方法确定：

量化机群整体的计算效率。调整各个训练作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比。为了保证机群的整体计算效率达到最高，首先需要对机群整体计算效率进行量化。该量化过程需要通过不断改变机群中各个训练作业的工作单元数量，获得各个训练作业在不同资源用量配比条件下的扩缩效率E，并使机群整体计算效率P达到最大值。机群整体计算效P其含义是：在不断地改变所有作业的资源数量的过程中求得的机群中所有作业计算效率的总和。通过每个作业的计算效率，可以得到每个作业对应的工作单元数量。通过上式获取机群整体计算效率最大值并决定最终资源的分配。

S2：获取机群中所有作业的模型特征；

S3：根据步骤S2的模型特征，对步骤S1调整后的作业资源进行迁移。由于不同特征的模型在不同的资源拓扑下训练的效率会不同，因此通过作业特征提取器获取作业模型的特征，根据不同的模型特征做不同的作业资源迁移策略，提高作业的运行效率并减少资源碎片。

通过上述技术方案，减少GPU资源的浪费，缩减作业运行时间，提高作业运行效率，达到系统平均作业运行效率与资源利用率最佳的状态。

在本实施例中，所述方法还包括：在动态资源调整的同时，通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。在动态逐步调整作业资源的同时，需要通过迭代测试去获得某个作业在某个资源用量下的扩缩效率。为了防止资源的浪费通过主动保存检查点机制在作业迭代测试之后主动将训练的参数进行保存。

在本实施例中，步骤S1具体包括如下步骤：

S12：从机群中的作业集合中取出作业M_N进行W_i-1规模的缩容，同时，判断可利用的资源是否大于等于S，若是，对新作业进行W_i-1规模的扩容，其中W_i表示当前作业所使用的worker数量，若否，则结束对新作业的扩容；

所述扩缩效率采用如下方法确定：

其中，E表示扩缩效率，N_iter表示在一测试时间内的迭代的次数，w表示作业所有worker占用的GPU资源数量。

在本实施例中，所述步骤S3包括以下步骤：如图2所示，

S34：遍历所有可能存在的资源分配可能性，循环动态调整所有运行作业的数量，最大化优化集群整体计算效率；对于之前在集群中已经运行过的作业，通过运行时作业统计模块将得到的扩缩效率进行存储以便下次使用。对于没有历史运行信息或新运行的作业则需要通过迭代测试获取扩缩效率。在所有作业进行迭代测试最优化整体计算效率过程中，通过主动checkpoint机制保存在迭代测试过程中的训练参数，当下一次重启时可以重新加载保存的参数避免资源的浪费。

S35：判断作业的大张量单元占比是否不小于预设的临界值，若是，则将作业所占用资源的工作单元尽量迁移到相同的节点，若否，则将作业所占用资源的worker尽量迁移到不同的节点上充分利用资源的碎片。通过步骤S35，可实现在重启动所有任务之前通过作业的迁移减少作业间的通信开销。

如图1所示，本申请包含两个子模块：运行时作业统计模块、动态作业资源调整模。针对运行时作业统计模块，包括作业运行时工作状态日志代码生成子模块、用于提取作业模型特征的作业特征提取器和用于监控资源使用状态与作业运行时状态的监控器，具有如下三个特征：

(1)作业运行时工作状态日志代码生成：作业的运行日志是后续模块进动态作业资源调整的重要依据，由于作业运行日志一般都是出现在客户端代码，因此不能保证用户所定义的运行日志符合后续统计的需求。因此需要通过抽象语法树(AST)的方法解析用户端代码，并添加特定格式的运行时日志以满足后续作业动态调整的需求，具体的日志内容包括：作业迭代的次数、作业耗费的时间。

(2)作业特征提取器：用户定义的模型特征是作业迁移的重要依据，因为不同特征的模型在不同位置的放置策略下作业的运行效率会不同，通过分析客户端代码的模型定义，获取模型大张量单元操作的占比，来决定迁移的策略。对于大张量单元占比较高的模型如VGG，尽量将作业迁移至相同的节点上防止通信的开销；对于大张量单元占比小的模型行如Resnet，可以将作业分布在不同的节点上，利用资源碎片提高整体资源的利用率。

(3)资源使用状态与作业运行时状态监控器：提供了获取资源当前使用状态如剩余资源大小、剩余资源分布的接口；提供了获取作业运行时状态的接口，作业运行时状态包括：包括集群剩余资源分布、当前运行时作业的资源分布与作业扩缩效率。动态作业资源调整模块利用这两个接口进行资源的动态调整。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法包括如下步骤：

所述机群整体的计算效率进行量化，采用如下方法确定：

S2：获取机群中所有作业的模型特征；

2.根据权利要求1所述动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法还包括：在动态资源调整的同时，通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。

3.根据权利要求2所述动态资源调整与迁移的深度学习训练方法，其特征在于：步骤S1具体包括如下步骤：

所述扩缩效率采用如下方法确定：

4.根据权利要求2所述动态资源调整与迁移的深度学习训练方法，其特征在于：所述步骤S3包括以下步骤：

5.一种动态资源调整与迁移的深度学习训练系统，其特征在于：所述系统包括：用于统计作业运行时各项数据的统计模块和用于动态调整作业的动态作业资源调整模块；