CN114911621A

CN114911621A - 一种用于分布式训练计算阶段的自动优化方法

Info

Publication number: CN114911621A
Application number: CN202210553734.7A
Authority: CN
Inventors: 林海阳; 严明玉; 邹沫; 王铎; 李文明; 叶笑春; 唐志敏; 范东睿
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-16

Abstract

本发明提供一种用于分布式训练计算阶段的自动优化方法，所述方法包括在分布式训练的每个回合执行如下步骤：S1、以预设的最小单位负载为粒度，计算当前回合中参与分布式训练的所有节点的计算性能；S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间，分别计算每个节点在限制时间内能够完成计算的最大负载数，以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略；S3、以步骤S2中负载分配策略，分配下一回合每个计算节点的负载。其中，节点的计算性能是该节点完成预设最小单位负载计算的时间。

Description

一种用于分布式训练计算阶段的自动优化方法

技术领域

本发明涉及人工智能领域，具体来说，涉及应用于深度神经网络的分布式训练系统领域，更具体地说，涉及深度神经网络分布式训练过程中的计算阶段，即一种用于分布式训练计算阶段的自动优化方法。

背景技术

近年来，DNN(Deep Neural Network深度神经网络)发展迅速，其在计算机视觉、自然语言处理等方面不断取得进展，但是问题也随之产生：一方面，随着ResNet的残差连接等解决梯度消失问题的理论方法的提出，DNN的深度不断增加。为了追求更高的精度，会尝试用更深的层次结构以及更多的参数，这就导致了模型的大小不断增加；另一方面，由于网络信息时代数据的爆炸性增长，可用于训练的数据迅速增加，若能让DNN用更多的输入数据进行训练,更有希望能取得更好的精度。所以，DNN模型大小以及输入数据规模不断变大，导致对算力的需求也更加急迫。

为了降低DNN训练的时间开销，分布式训练方案被提出。分布式训练方法使用大量计算节点，从而可以更快速地进行实验与部署DNN。分布式训练更集中于保证其可扩展性，希望每增加一个计算节点，其性能能够对应的线性增加。通过合理划分数据集，让每个节点得到属于自己的部分数据集，从而可以将输入数据和模型都存于内存中，避免了内存与硬盘间频繁搬运数据带来的能耗与时间开销，再加上随着计算部件的倍增，其单位时间所能完成的计算量也是成倍增长，所以近年来分布式训练在大数据训练上取得了非常不错的成绩。目前的分布式训练主要分为同步分布式训练和异步分布式训练。异步分布式训练由于有可能出现不收敛的情况且其到收敛阶段所需的时间也比同步训练的长，故而应用不如同步分布训练广泛。同步分布式训练分成两个阶段：计算阶段与同步阶段。在计算阶段，各节点取一部分输入数据集的数据，在DNN模型上完成前向传播与反向传播，得到DNN反向传播的梯度(gradients)；在同步阶段，统一进行同步操作，得到梯度的和，并更新模型的参数(weights)，然后继续下一轮的计算。目前应用最广泛的同步训练算法为Worker-Agg(Worker-Aggregator)、HD(Halving-Doubling)和Ring。

Worker-Agg存在关键节点Agg，为一对多的通讯模式，所以容易出现堵塞情况，可扩展性不好，Allreduce算法HD与Ring可扩展性好，但是又由于HD与Ring算法的同步阶段为所有节点一起同步完成，由于“木桶短板”效应，单节点的低性能会拖累整体的性能，所以要求各个计算节点在计算性能上要相近，否则意味着浪费了高性能节点的能力。然而在现实生活中，保证各节点计算能力相近是困难的，其主要原因包括：首先，目前市场上的加速卡多种多样，比如GPU/CPU/TPU等，即使是同一个公司产品，也不断在更新换代，不同代GPU性能差距在1.4x-1.8x往上，而且由于硬件更替，常常出现计算平台中有不同代产品共存的情况。其次，就算所用的加速卡一样，现实使用中，基本也不会存在只跑一个线程的情况，往往是多个负载共存，资源的竞争导致其能力波动，这类网络不平衡现象，影响计算阶段，导致整体性能受损。

由此可见，解决网络不平衡现象对计算阶段的影响是提高分布式训练性能的一个关键。

发明内容

因此，为了达到上述目的，本发明提供一种能够解决网络不平衡现象对分布式训练计算阶段的影响的计算阶段优化方法。

根据本发明的第一方面，提供一种用于分布式训练计算阶段的自动优化方法，所述方法包括在分布式训练的每个回合执行如下步骤：S1、以预设的最小单位负载为粒度，计算当前回合中参与分布式训练的所有节点的计算性能；S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间，分别计算每个节点在限制时间内能够完成计算的最大负载数，以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略；S3、以步骤S2中负载分配策略，分配下一回合每个计算节点的负载。其中，节点的计算性能是该节点完成预设最小单位负载计算的时间。

优选的，计算性能最差的节点是所有参与分布式训练的节点中、完成最小单位负载计算所需时间最长的节点。

优选的，每个计算节点在限制时间内能够完成计算的最大负载数＝限制时间/该节点完成最小单位负载计算的时间。

在本发明的一些实施例中，所述步骤S2包括：S21、根据所有节点的计算性能，确定计算性能最差的节点；S22、根据计算性能最差的节点的计算性能，获取最大限制时间，其中，最大限制时间＝节点对应的最大允许负载数*计算性能最差的节点完成最小单位负载计算所需的时间；S23、基于预设的时间划分粒度，在小于或等于最大限制时间的范围内设置多个限制时间，计算每个限制时间内每个节点能够完成计算的最大负载数，以所有节点在每个限制时间内能够完成计算的最大负载数组成每个限制时间对应的负载分配策略；S24、计算每个限制时间对应的负载分配策略的系统效率，并选出效率最高的负载分配策略。

优选的，每个策略对应的系统效率＝该负载分配策略对应的所有节点的负载数/该负载分配策略对应的计算总时间。

在本发明的一些实施例中，负载分配策略对应的计算总时间包括在该负载分配策略对应的负载分配下，所有节点完成分布式训练计算阶段和同步阶段的总时间。

根据本发明的第二方面，提供一种分布式训练方法，用于对深度神经网络进行多回合训练，所述分布式训练的每个回合包括深度神经网络在分布式训练系统中的计算阶段和同步阶段，所述方法包括在每个回合的计算阶段采用如本发明第一方面所述的方法分配下一回合每个计算节点的负载以进行下一回合的分布式训练。

通过本发明的方法寻找负载分配策略，DNN同步分布式训练中计算阶段的不平衡现象大大缓解，空闲等待时间减少。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的现有技术下训练效果示意图；

图2为根据本发明实施例的同步分布式训练效果示意图；

图3为根据本发明实施例的分布式训练原理示意图；

图4为根据本发明实施例的实验数据示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提到的英文或缩写含义如下：

DNN：Deep Neural Network深度神经网络

Worker-Agg：Worker-Aggregator分布式训练同步算法

Ring:Ring Allreduce分布式训练同步算法

HD:Halving-Doubling Allreduce分布式训练同步算法

gradients:DNN反向传播产生的梯度

weights：DNN模型中的参数

minibatch:本文所提算法负载的最小计量单位

为了更好的理解本发明，首先介绍一下网络不平衡现象。

图1是现有技术下的All Reduce算法架构分布式训练示例示意图，假设有四个节点的分布式训练系统(节点0、1、2、3),在计算阶段，每个节点的负载平均分配，但是由于个节点本身算力不同或者共存负载竞争资源会导致出现算力不平衡现象，由于同步阶段需要各节点协作，使得计算阶段出现大量的等待时间(如图1中斜线部分所表示的)，造成了资源的浪费，所以算力不平衡现象将拖累整个系统的性能。要想使每个节点算力平衡，可以通过调整节点的负载来调整算力，使各个节点能够在同步阶段同时完成负载计算。但是对于神经网络训练来说，每一轮的训练样本的大小(batch size)对最终的精度有明显的影响，因此需要根据训练数据集的具体大小设置适当的batch大小。在这种要求下，很难在保证每一轮的最终batch大小基本不变的情况下调整每个节点的工作负载。首先，如果按每轮测量的每个节点的计算能力构成的比例来划分负载，这样的设计会使具体实施的编程变得十分困难，因为其负载粒度分布范围大。此外，对于许多计算节点来说，只有分到的负载大于一定阈值时，才能有效利用其本身的计算资源，达到预期的性能。

为了解决这些问题，本发明提出一种计算阶段的自动优化方法，通过动态调整节点负载来实现计算阶段的优化。主要工作原理为设定minibatch的大小，然后将根据此为最小的负载粒度规划各计算节点的负载。通过在训练中收集各节点在计算阶段的运行情况，调整各计算节点下轮运行的minibatch数目，使节点尽量在同一时间完成计算任务，减轻不平衡现象带来的空闲等待，导致性能下降的问题。如图2所示，通过监控节点的算力，为不同的节点分配不同的负载数量，使所有节点能够同步完成其各自负载计算同步进入同步阶段，极大的减少了等待时间，提高系统效率。

本发明的主要思想是通过在训练中收集各节点在计算阶段的运行情况，调整各计算节点下轮运行的minibatch数目(minibatch:本发明预先设定的最小单位负载)，使节点尽量在同一时间完成计算任务，减轻不平衡现象带来的空闲等待，导致性能下降的问题。根据本发明的一个实施例，在决定负载时，本发明通过查询当前系统中节点的计算性能，找出其中完成一个minibatch计算的最大计算时间t_max，即性能最差的节点完成一次minibatch正向和反向传播的时间，接下来是在时间成本限制在n_m*t_max的情况下(n_m表示性能最差的节点每轮计算可以负责计算至多n_m个负载)，在可能的方案中找到性能最好的负载分配方案,以此为依据控制各节点的负载情况。通过这样以minibatch为单位动态调整每个节点的工作负载，缓解DNN分布式训练计算阶段的节点算力不平衡问题，使整体性能提升。

下面结合具体实施例详细说明本发明。

根据本发明的一个实施例，提供一种用于分布式训练计算阶段的自动优化方法，所述分布式训练的每个回合包括深度神经网络在分布式训练系统中的计算阶段和同步阶段，其中，所述计算阶段指的是当前回合深度神经网络在每个分布式节点进行训练的阶段，所述方法包括在每个回合的计算阶段执行步骤S1、S2、S3，下面详细说明每个步骤。

在步骤S1中，以预设的最小单位负载为粒度，计算当前回合中参与分布式训练的所有节点的计算性能，其中，节点的计算性能是指该节点完成预设最小单位负载计算的时间。具体来说，在当前回合中，

在步骤S2中，以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间，分别计算每个节点在限制时间内能够完成计算的最大负载数，以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略。其中，计算性能最差的节点是所有参与分布式训练的节点中、完成最小单位负载计算所需时间最长的节点。

根据本发明的一个实施例，通过如下方式获得负载分配策略:

S21、根据所有节点的计算性能，找出计算性能最差的节点；根据本发明的一个实施例，计算性能最差的节点是所有参与分布式训练的节点中、完成最小单位负载计算所需时间最长的节点。

S22、根据计算性能最差的节点的计算性能，获取最大限制时间，其中，最大限制时间＝节点对应的最大允许负载数*计算性能最差的节点完成最小单位负载计算所需的时间；其中，节点对应的最大允许负载数为由用户定义，即用户允许单个节点在一轮中最多运行的负载数。一般为具体某个整数。比如数字3等，一般限制条件由总的负载大小决定，通过总的负载除以节点数目可得。

S23、基于预设的时间划分粒度，在小于或等于最大限制时间的范围内设置多个限制时间，计算每个限制时间内每个节点能够完成计算的最大负载数(每个计算节点在限制时间内能够完成计算的最大负载数＝限制时间/该节点完成最小单位负载计算的时间)，以所有节点在每个限制时间内能够完成计算的最大负载数组成每个限制时间对应的负载分配策略。例如，假设最大限制时间为10s，分别在小于或等于10s的时间范围内，设置多个限制时间为9s、8s、7s、6s等，然后分别计算每个限制时间(9s、8s、7s、6s等)对应的复杂分配策略。

S24、计算每个限制时间对应的负载分配策略的系统效率，并选出效率最高的负载分配策略，其中，每个策略对应的系统效率＝该负载分配策略对应的所有节点的负载数/该负载分配策略对应的计算总时间，负载分配策略对应的计算总时间包括在该负载分配策略对应的负载分配下所有节点完成分布式训练计算阶段和同步阶段的总时间。其中，总时间为计算阶段时间与同步阶段时间之和。根据本发明的一个实施例，同步阶段时间为前几轮收集的同步时间的均值，计算阶段时间则为由前几轮收集的各节点单个负载计算时间均值乘以目前规划给其的负载数目，取其中最大的作为计算阶段时间。

表1所示的为本发明优化方法的具体实施伪代码。

其中，伪代码中的输入：List_ct记录各个节点完成一个minibatch负载的计算所需的时间，这个时间通过对各节点前几轮的计算过程进行记录并进行平均得到；List_an表示系统中激活节点列表，也就是目前参与分布式训练的计算节点；t_syn表示前几轮计算过程中同步阶段的时间平均值，用于估计后面同步阶段所需花费时间；C_d，用户自定义的参数，决定了寻找方案的细致程度，当C_d越大时，花费于寻找最优方案的时间越多，而找到的最优方案更接近理想最优方案；n_m表示性能最差的节点每轮计算可以负责计算至多负载数。

输出：List_nm表示各个节点下一轮应该计算多少minibatch，也就是负载分配方案。

下面简单说明一下伪代码所示的具体步骤：

1、首先找出所有计算节点中性能最差的节点，也就是计算一个minibatch花费时间最多的节点，性能最差的阶段计算一个minibatch所花费的时间为t_max；

2、建立一个空白列表List_tl；

3-5、设置最大限制时间为n_m*t_max，也就是允许性能最差的节点计算n_m个minibatch的时间，按C_d为划分粒度，将该最大限制时间划分成各个限制时间，各个限制时间均小于或等于最大限制时间存入List_tl；

7-19、在各个时间限制下寻找各个节点的最大负载情况，并依据此计算效率，其中，9-14表示对目前的限制时间，各个节点用该限制时间除以自己计算一个minibatch所需时间，便可得到自己在当前限制时间条件下的负载，所有节点的负载对应于当前限制时间条件下的负载分配方案，累加所有节点负载n_tmp，除以该负载分配方案下的总时间，便得该负载分配方案对应的系统效率值，e_tmp＝n_tmp/(t_tmp+t_syn)，t_tmp表示该负载分配方案下的计算阶段的时间，也相当于其对应的限制时间。

20-25、根据之前找到的最大效率的时间限制，计算出各个节点的负载，产生负载分配方案List_nm。

表1

为了验证本发明的效果，发明人采用本发明的方法在ResNet-50,AlexNet,VGG-16模型中进行实验，并设定网络不平衡现象为各网络节点的网络性能情况，且为正态分布，60_5表示不平衡程度为正态分布N(0.6,0.05)，其他以此类推，设定时间为1000s，没100s重新调整网络情况来模拟动态不平衡，节点数为32。实验结果如图4所示，由图4可以看出，采用本发明优化方法的模型性能相比原本的Ring算法有明显提升计算阶段的空闲等待时间大幅度下降。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于分布式训练计算阶段的自动优化方法，所述方法包括在分布式训练的每个回合执行如下步骤：

S1、以预设的最小单位负载为粒度，计算当前回合中参与分布式训练的所有节点的计算性能；

S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间，分别计算每个节点在限制时间内能够完成计算的最大负载数，以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略；

S3、以步骤S2中负载分配策略，分配下一回合每个计算节点的负载。

2.根据权利要求1所述的方法，其特征在于，节点的计算性能是该节点完成预设最小单位负载计算的时间。

3.根据权利要求2所述的方法，其特征在于，计算性能最差的节点是所有参与分布式训练的节点中、完成最小单位负载计算所需时间最长的节点。

4.根据权利要求3所述的方法，其特征在于，每个计算节点在限制时间内能够完成计算的最大负载数＝限制时间/该节点完成最小单位负载计算的时间。

5.根据权利要求4所述的方法，其特征在于，所述步骤S2包括：

S21、根据所有节点的计算性能，确定计算性能最差的节点；

S22、根据计算性能最差的节点的计算性能，获取最大限制时间，其中，最大限制时间＝节点对应的最大允许负载数*计算性能最差的节点完成最小单位负载计算所需的时间；

S23、基于预设的时间划分粒度，在小于或等于最大限制时间的范围内设置多个限制时间，计算每个限制时间内每个节点能够完成计算的最大负载数，以所有节点在每个限制时间内能够完成计算的最大负载数组成每个限制时间对应的负载分配策略；

S24、计算每个限制时间对应的负载分配策略的系统效率，并选出效率最高的负载分配策略。

6.根据权利要求5所述的方法，其特征在于，每个策略对应的系统效率＝该负载分配策略对应的所有节点的负载数/该负载分配策略对应的计算总时间。

7.根据权利要求6所述的方法，其特征在于，负载分配策略对应的计算总时间包括在该负载分配策略对应的负载分配下，所有节点完成分布式训练计算阶段和同步阶段的总时间。

8.一种分布式训练方法，用于对深度神经网络进行多回合训练，所述分布式训练的每个回合包括深度神经网络在分布式训练系统中的计算阶段和同步阶段，其特征在于，所述方法包括在每个回合的计算阶段采用如权利要求1-7任一所述的方法分配下一回合每个计算节点的负载以进行下一回合的分布式训练。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至7任一所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述方法的步骤。