CN112134812B

CN112134812B - 一种基于网络带宽分配的分布式深度学习性能优化方法

Info

Publication number: CN112134812B
Application number: CN202010932914.7A
Authority: CN
Inventors: 徐飞; 齐强
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-08-05
Anticipated expiration: 2040-09-08
Also published as: CN112134812A

Abstract

本发明公开了一种基于网络带宽分配的分布式深度学习性能优化方法，其特点是采用网络带宽分配策略Nebula的方法，将集群的网络资源在作业训练过程中动态分配进行性能优化，具体包括：提交分布式深度学习作业预运行、获取分布式深度学习作业相关参数；收集运行节点相关特征参数等步骤。本发明与现有技术相比具有带宽资源得到合理利用，优化作业运行性能，大大提高了作业的平均完成时间，方法简便，进一步缓解了进程间的网络资源竞争，有效提升集群资源的利用率。

Description

一种基于网络带宽分配的分布式深度学习性能优化方法

技术领域

本发明涉及分布式深度学习作业训练技术领域，具体的说是一种基于网络带宽分配的分布式深度学习性能优化方法。

背景技术

深度学习近些年被广泛运用到了学术界和工业界，它通常被用于从图片语音等各种媒介上提取关键信息。其中计算机视觉已经被用到图像识别，医学诊断等重要领域。随着深度神经网络(Deep Neural Network,DNN)模型的逐渐复杂化，用于DNN训练的软硬件(如主流开源框架Tensorflow，并行加速处理器GPU)也在不断的更新迭代。主流的开源框架均支持分布式深度学习作业的训练，在分布式深度学习作业训练过程中，数据并行的方式占据了重要地位。数据并行中最常用的是参数服务器(Parameter Server,PS)架构，即每个worker进程运行一个完整的模型副本，在本地计算得出模型梯度之后上传给PS进程，PS进程将所有worker传来的梯度聚合平均并更新参数，最后将更新后的参数分发给各个worker进程。

随着GPU集群的大量使用，PS进程只需要占用小部分的计算资源，GPU机器上的空闲计算资源足以满足PS进程，因此PS进程数量获得了大幅度的增多，导致了PS进程往往会和worker进程共享一个机器的网络资源。这两个进程会在DDNN作业训练过程中对网络资源产生竞争，现有技术的PS进程面临着参数服务器端网络资源瓶颈的制约。

发明内容

发明的目的是针对现有技术的不足而设计的一种基于网络带宽分配的分布式深度学习性能优化方法，采用网络带宽分配策略Nebula，将集群的网络资源在作业训练过程中动态分配，以缓解进程间的网络资源竞争，通过建立分布式深度神经网络(DistributedDeep Neural Network,DDNN)作业网络传输模型，分析各参数之间的聚类关系以及每个聚类的网络传输对一轮训练时间的影响程度，利用函数模拟并结合算法得到网络带宽分配的策略，从而通过各个时间点不同进程正在传输的数据计算不同进程的权重值，在DDNN训练过程中结合模型计算各进程的权重比，利用tc工具分配带宽，使得带宽资源得到合理利用，优化学习作业性能，提高作业的平均完成时间，方法简便、有效，大大缓解了进程间的网络资源竞争，进一步提升集群资源的利用率。

本发明的目的是这样实现的：一种基于网络带宽分配的分布式深度学习性能优化方法，其特点是采用网络带宽分配策略Nebula的方法，将集群的网络资源在作业训练过程中动态分配进行性能优化，该方法具体包括以下步骤：

步骤1：提交DDNN运行作业，把DDNN训练的前10轮数据存为预运行结果；

步骤2：通过分析预运行结果，得到模型的各参数反向传播结束的时间，梯度上传以及参数更新的时间耗费，各个机器的网络带宽；

步骤3：通过在nethogs基础上改进的网络工具监测DDNN训练过程中每个节点上不同的进程带宽；

步骤4：建立DDNN作业网络传输模型，分析各参数之间的聚类关系以及每个聚类的网络传输对一轮训练时间的影响程度，从而通过各个时间点不同进程正在传输的数据计算不同进程的权重值；

步骤5：在接下来的DDNN训练过程中，结合模型计算得出的各进程的权重比利用tc工具分配带宽，使得带宽资源得到合理利用，优化学习作业性能，提高作业的平均完成时间。

所述DDNN作业有多个PS进程和多个worker进程协作完成，当下大部分运行环境下，会存在一个作业的PS进程和worker进程运行在一个GPU机器上，GPU用来运行worker进程，CPU上负责PS进程。

所述worker进程主要是计算密集型的进程，运行在GPU上，通常用来训练单个完整的DNN模型，然后将计算得到的梯度发送给PS进程，由PS进程统一更新再传回各个worker，达到worker进程之间协作的目的。

所述PS进程上进行的传输分为两类，分别为收集数据和分发数据；所述PS进程上收集数据即从所有的worker进程收集本地存储参数的更新值而后进行参数聚合平均，达到参数更新的目的；所述PS进程上的分发数据即将在PS进程中更新的参数往所有的worker进程上传输；所述更新的数据即在从各个PS进程上拉取下一轮前向运算所需要的最新参数信息，对应于各个PS进程分发数据的过程。

所述worker进程上进行的传输分为两类，分别为上传数据和更新数据；所述worker进程上传数据即将本地反向传播过程中产生的梯度往相应的PS进程上传输，对应于各个PS进程收集数据的过程。

所述PS进程和worker进程会在DDNN训练过程中竞争网络资源，通过监控并计算各个进程的权重，实时调整带宽，每个进程的权重为所有参数的权重之和，对于每个机器来说，一旦有数据开始传输或者结束传输，都需要重新计算两个权重值，根据两个权重值对带宽进行进一步调整，每次两个权重得到更新之后都需要判断是否更新带宽，更新带宽时使用cgroup对不同进程发出的数据进行标记，并利用tc(基于Linux内核的网络控制工具)对两个进程分配带宽。

所述PS进程和worker进程的权重值w由下述a式计算：

w＝∑e^-mp[i] (a)；

其中：i为该进程正在传输的数据的序号；mp为Nebula在预训练结束后得到的参数分类；mp[i]为传输数据的分类。

本发明与现有技术相比具有带宽资源得到合理利用，优化作业运行性能，大大提高了作业的平均完成时间，方法简便，有效缓解了进程间的网络资源竞争，进一步提升集群资源的利用率。

附图说明

图1为本发明流程图；

图2为网络冲突产生原因分析图；

图3为PS与worker共存情况下的DDNN作业工作流程图；

图4为Nebula进行网络分配时关于限制参数的模拟图；

图5为Nebula内部设计图。

具体实施方式

以下通过具体实施例对本发明作进一步的阐述：

实施例1

参阅附图1，本发明采用网络带宽分配策略Nebula的方法，将集群的网络资源在作业训练过程中动态分配进行性能优化，该方法的具体步骤如下骤：

步骤1：将提交的DDNN作业预运行，把DDNN训练的前十轮数据存为预运行结果；

步骤2：通过分析与预运行结果，得到模型的各参数反向传播结束的时间，梯度上传以及参数更新的时间耗费，以及各机器的网络带宽；

步骤3：利用在nethogs基础上改进的网络工具，监测DDNN训练过程中每个节点的PS进程带宽和worker进程带宽；

步骤4：建立DDNN作业网络传输模型，分析各参数之间的聚类关系以及每个聚类的网络传输对一轮训练时间的影响程度，并根据各个时间点的PS进程和worker进程的传输数据，计算不同进程的权重值；

步骤5：在DDNN训练过程中根据模型计算PS进程权重比和worker进程权重比，利用

tc工具分配带宽，使得带宽资源得到合理利用，优化学习作业性能，提高作业的平均完成时间。

参阅附图2，本发明通过对该资源竞争的问题建模，函数模拟，并结合算法得到网络带宽分配的策略。

参阅附图3，在DDNN作业启动之后，每台机器上会运行一个PS进程以及多个worker进程。将PS进程上进行的传输分为两类，分别为收集数据和分发数据，worker进程上进行的传输分为两类，分别为上传数据和拉取数据。对于PS进程来说，收集数据即从所有的worker进程收集本地存储参数的更新值而后进行参数聚合平均，达到参数更新的目的；分发数据即将在PS进程中更新的参数往所有的worker进程上传输。对于worker进程来说，上传数据即将本地反向传播过程中产生的梯度往相应的PS进程上传输，对应于各个PS进程收集数据的过程；拉取数据即在从各个PS进程上拉取下一轮前向运算所需要的最新参数信息，对应于各个PS进程分发数据的过程。忽略同一个节点内部的通信，定义S和E表示每个传输数据开始进行某项传输操作的时间以及传输结束的时间，就可以得到下述b式：

其中：

表示第m个机器上的worker进程在第i个运行周期中push(上传操作)开始的时间；

表示第m个机器上的worker进程在第i-1个运行周期中pull(拉取操作)结束的时间；τ_m,i则表示在第i-1个运行周期中拉取操作结束之后可以进行下一轮上传操作的间隔时间。

与此类似地，为了对每个机器每个运行周期的时间建模，得到下述c式：

其中：bct为PS进程的分发操作；

表示第m个机器上的PS进程在第i个运行周期中分发操作开始时间，它是由本机器上收集操作结束的时间决定的，即其它所有机器worker进程上传结束的时间点；

表示上传开始时间点；

则表示上传所需要的时间，分子为push操作所需要传输的数据量，分母B_w表示这段传输操作过程中worker进程所能获得的平均带宽。

定义每个worker进程拉取数据结束的时间点为一个周期的开始以及上一个周期的结束，为了计算每个运行周期的时间，得到下述d式：

结合上述b～d式，可以对一个运行周期的时间做出如下述e式表示：

其中，等式左端表示两个相邻的运行周期拉取操作结束的时间差，等式右端M表示该DDNN作业运行的集群机器的集合，n,q均为集合M中的机器，其中n≠q。

进一步地，为了最小化这个目标可由下述f式的目标函数求解：

其中：m、n、q均为集合M中的机器，n≠m,n≠q。

目标函数属于最小最大化问题，但是因为不连续且不可导的原因不能使用传统的梯度优化进行求解。为了得到网络带宽分配策略，做出如下假设，忽略所有与带宽B无关的变量，并假设B_p+B_w由于网络竞争符合某种正态分布。

参阅附图4，以每次限制带宽的比例为自变量，画出一个周期的完成时间的期望值的图，可以得出，随着限制比例的增大，每个周期的完成时间呈现先减后增的趋势，于是在Nebula中将默认值设置为0.4，并进一步验证了其有效性。

所述Nebula需要三个输入参数，第一个是每个机器上的可用带宽，第二个是在做带宽限制的时候针对限制的进程做的资源带宽限制比例，即可用带宽的占比，第三个参数则是在网络带宽分配过程中为了稳定网络环境设置的一个阈值。在DDNN训练作业开始之前，初始化一个map数据结构，用来存储每个传输数据对应的分类数据。并在DDNN训练开始后的10个iteration获得网络参数以及传输数据的生成时间，并利用一个简单的聚类算法对所有的传输数据进行分类，存储到map中。

在DDNN作业训练过程中，Nebula使用权重标识运行在同一个机器上的两个进程，每个进程的权重是其中正在传输数据的权重之和，而每个传输数据的权重由在map中存储的分类决定，Nebula采用了在[0,∞)上的e^-x的算法决定每个传输数据的权重。Nebula时刻监控DDNN训练过程中的网络情况。一旦有一个传输数据开始或结束传输，便重新计算两个进程的权重。然后根据新计算的权重重新制定网络带宽分配策略。

具体地，当PS进程的权重大于worker进程的权重与设置的阈值之和时，限制worker进程的带宽；相反地，当worker进程的权重大于PS进程的权重与设置的阈值之和时，限制PS带宽。另外，在每次变化网络带宽分配之后会做上标记避免无效修改。

参阅附图5，所述Nebula由Nebula监督器和Nebula控制器构成，实现动态监控和修改带宽。所述Nebula监督器以共享内存与信号量的方式与两个进程不断的沟通更新权重，更新权重之后，通过Nebula控制器限制带宽。所述Nebula控制器是一个shell script，由tc和cgroup工具组成，实现进程级别的带宽限制。

为了验证本发明的可行性和准确性，本发明在Amazon EC2上建立了一个DDNN训练集群，网络带宽从1Gbps到4bps不等。在每个实例上，启动两个进程，一个PS进程和一个worker进程，其中PS进程运行在CPU上，worker进程运行在GPU上。DNN模型选取：选择了图像识别领域四个具有代表性的模型作为基准，包括：AlexNet，ResNet101，ResNet50和VGG16。此外，将Nebula与原始的MXNet做比较。AlexNet成功使用ReLU作为CNN的激活函数，验证了其效果在较深的网络中超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题，被称为最具影响力的模型。ResNet可以说是过去几年中计算机视觉和深度学习领域最具开创性的工作。因其强大的表征能力，除图像分类以外，包括目标检测和人脸识别在内的许多计算机视觉应用都得到了性能提升。VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸和最大池化尺寸，属于经典模型之一。

评估指标：主要使用两个重要的指标来说明Nebula的有效性：每一个运行周期的时间和集群的资源利用率。为了使性能评估准确，对每个DNN模型的训练都运行了五次实验，并用误差的标准差来说明作业性能。AlexNet作为一个CNN经典模型，其参数量达到60M，而其运行时间相比于ResNet等新兴模型比较低。因此，网络竞争问题在AlexNet模型上体现的尤为明显。Nebula在AlexNet上降低了25％的运行时间，即从4.67s到3.50s。

详见如下表1，相比于MXNet，Nebula降低了作业运行时间达到了15.2～25.0％。

表1：所有运行周期平均运行时间在原始的MXNet和Nebula中运行时间的比较

	MXNet运行时间	Nebula运行时间
			AlexNet	4.67s	3.50s
ResNet101	4.15	3.37s
			ResNet50	2.72s	2.18s
VGG16	4.87s	4.10s

通过下表2对比网络资源利用率和GPU利用率，可以看出Nebula使得网络吞吐率提高了至多30％，并且使得整体的网络利用率达到了比较理想的状况，GPU利用率的提升与均在20％左右。其中，AlexNet的GPU利用率较低的产生原因是，AlexNet可以充分利用并行计算的优势，不存在shortcuts等DNN元件的阻塞控制。

表2：网络吞吐量以及GPU利用率在MXNet和Nebula中的比较

以上只是对本发明作进一步的说明，并非用以限制本专利，在不背离本发明构思的精神和范围下的等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于网络带宽分配的分布式深度学习性能优化方法，其特征在于采用网络带宽分配策略Nebula的方法，将集群的网络资源在作业训练过程中动态分配，其性能优化具体包括以下步骤：

步骤2：通过分析预运行结果，得到模型的各参数反向传播结束的时间，梯度上传以及参数更新的时间耗费，以及各机器的网络带宽；

步骤4：建立DDNN作业网络传输模型，分析各参数之间的聚类关系以及每个聚类的网络传输对一轮训练时间的影响程度，并根据各个时间点的PS进程和worker进程的传输数据，计算不同进程的权重值，所述PS进程和worker进程的权重值w由下述a式计算：

（a）；

其中： i为该进程正在传输的数据的序号；mp为 Nebula在预训练结束后得到的参数分类；mp[i]为传输数据的分类；

所述每个进程的权重为所有参数的权重之和；

步骤5：在DDNN训练过程中根据模型计算PS进程权重比和worker进程权重比，利用基于Linux内核的网络控制工具tc分配带宽，当PS进程的权重大于worker进程的权重与设置的阈值之和时，限制worker进程的带宽；相反地，当worker进程的权重大于PS进程的权重与设置的阈值之和时，限制PS带宽，使得带宽资源得到合理利用，优化学习作业性能，提高作业的平均完成时间。

2.根据权利要求1所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述worker进程为计算密集型的进程，运行在GPU上训练单个完整的DNN模型，然后将计算得到的梯度发送给PS进程，并由PS进程统一更新后传回各个worker，达到worker进程之间协作的目的，所述PS进程上传输分别为收集数据和分发数据的传输；所述worker进程上传输分别为上传数据和更新数据的传输。

3.根据权利要求1所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述DDNN作业预运行由多个PS进程和多个worker进程协作完成。

4.根据权利要求1所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述数据开始传输或结束传输，都需要重新计算两个权重值，根据两个权重值对带宽进行进一步调整，每次两个权重得到更新之后都需要判断是否更新带宽，更新带宽时使用cgroup对不同进程发出的数据进行标记，并利用基于Linux内核的网络控制工具tc对两个进程分配带宽。

5.根据权利要求2所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述PS进程上收集数据为收集本地存储参数的更新值；所述PS进程上分发数据是将PS进程中更新的参数往所有的worker进程上传输。

6.根据权利要求2所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述worker进程上传输是将本地反向传播过程中产生的梯度往相应的PS进程上传输，且对应各个PS进程收集数据的过程。

7.根据权利要求5所述基于网络带宽分配的分布式深度学习性能优化方法，其特征在于所述worker进程中更新的参数是从各个PS进程上拉取下一轮前向运算所需要的最新参数信息，且对应于各个PS进程分发数据的过程。