CN115277454B

CN115277454B - 用于分布式深度学习训练的聚合通信方法

Info

Publication number: CN115277454B
Application number: CN202210901380.0A
Authority: CN
Inventors: 董德尊; 黄泽彪; 王笑雨; 于恩达; 汪杨海; 杨维铃
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-10-24
Anticipated expiration: 2042-07-28
Also published as: CN115277454A

Abstract

本发明公开了一种用于分布式深度学习训练的聚合通信方法，其具体步骤包括：S1，收集各个计算节点的执行任务信息，聚合管理器将聚合通信操作所需的聚合通信资源分配给各个计算节点；S2，初始化通信域；S3，注册内存；S4，聚合交换机对接收到的数据执行聚合通信操作，得到当前聚合结果，该聚合交换机向其在可扩展的分层聚合协议树中的上一层的聚合交换机，根聚合交换机进行最终的聚合通信操作，得到最终聚合结果。本发明通过将传统的需要在计算节点进行的聚合通信操作转移到了交换机上执行，提高了计算节点的资源利用率，减缓了网络拥塞，消除了计算节点处理多任务时对聚合通信的影响，降低了分布式深度学习训练过程的通信开销，提升了训练性能。

Description

用于分布式深度学习训练的聚合通信方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于分布式深度学习训练的聚合通信方法。

背景技术

聚合通信是分布式深度学习训练中最主要的通信方式，是训练时用于梯度信息同步的方式之一,其主要包括Allreduce、Barrier、Broadcast等操作，这些集合类通信操作由于涉及分布式深度学习训练的多个计算节点，常常会对应用程序的并行效率产生巨大的影响。为了进一步减少分布式训练时间，许多研究人员针对聚合通信进行了研究，并提出了多种优化的方法。例如，腾讯公司提出了分层Ring-Allreduce方法，IBM公司提出了BlueConnect方法等。虽然这些方法也很好的提升了聚合通信的效率，但是这些优化方法仅仅是在软件层面上对聚合通信操作进行了改进，改进后的操作依然需要在网络中进行多次通信才能完成整体聚合通信操作，且很容易引入网络拥塞。而且，当分布式深度学习训练系统的规模增大时，聚合通信操作的计算步骤、计算量、进程之间的距离将会相应增大，消息传输延迟给分布式深度学习训练任务带来很大的时间开销，且随着系统规模增加，这种时间开销增加是迅速的，使得软件实现的聚合通信可扩展性较差。

在网计算能够大幅度降低聚合通信时间，极大地提高了分布式深度学习训练的速度。在传统的基于软件的聚合通信操作中，处理器在发起聚合通信操作后，会一直处于阻塞状态，直至聚合通信操作完成。这导致该形式的聚合通信操作难于实现对计算与通信的重叠，造成计算资源的浪费；同时，随着通信数据量的增加，处理器在聚合通信操作中的计算负担愈加沉重。相对于软件实现方式，采用在网计算方式实现聚合通信操作时，将其放到网络硬件(网卡或交换机)上来执行，从而避免受到处理器系统噪声的影响，这进一步加速了聚合通信操作的执行。同时，硬件实现的方式允许分布式深度学习训练任务以非阻塞的方式执行，有效地实现了计算和通信的重叠，缩短了训练时间。目前已经有很多针对在网计算开展的研究，例如Barefoot公司主导提出的SwitchML交换机卸载系统、伊利诺大学提出的iSwitch系统，以及Mellanox公司提出的协议——Scalable Hierarchical Aggregationand Reduction Protocol(SHARP)等。这些研究的实验结果表明了在网计算有助于缓解分布式应用网络通信问题，提升应用的整体性能。

聚合通信库是分布式深度学习训练中执行通信操作的重要部件。目前常用的聚合通信库有Gloo、MPI、NCCL等。如果能够在这些通信库中集成聚合通信在网计算功能，那么将很有可能极大缩短分布式深度学习训练过程中的聚合通信时间，进一步提升分布式深度学习训练的整体性能。当前NVIDIA公司已经在Open MPI和NCCL中集成了SHARP技术，但是OpenMPI是个体系结构比较庞大的通信库，且存在着很多分布式深度学习训练不需要的功能；而NCCL虽然是开源的，但是如果研究人员想要利用使用NCCL的在网计算功能，还需要另外安装一个插件，非常麻烦；虽然Gloo是一套面向分布式深度学习的开源的轻量级聚合通信库，但是它只实现了软件层面的聚合通信操作，并不能利用在网计算功能来加速分布式深度学习训练。

发明内容

针对现有的用于分布式深度学习训练的聚合通信方法所存在的时间开销大、可扩展性较差的问题，本发明公开了一种用于分布式深度学习训练的聚合通信方法，其利用聚合通信操作模块和上下文模块来实现，聚合通信操作模块实现各个计算节点之间数据的归约、广播以及屏障同步操作，上下文模块用于管理通信域的环境，并实现各个计算节点之间的连接，以及完成计算节点之间数据的传输；分布式深度学习训练任务通过若干个计算节点和交换机所构成的计算集群来完成；每个计算节点均包括聚合通信操作模块和上下文模块；将计算集群中的一个计算节点作为聚合管理器，除聚合管理器外的其余的计算节点负责完成分布式深度学习训练任务的计算任务，将集群中的部分交换机设置为聚合交换机；所述的聚合交换机执行数据的聚合通信操作以及数据的转发操作。

所述的通信域的环境，包括执行分布式深度学习训练的进程的编号、进程数目和计算节点地址信息。

所述的聚合通信操作模块利用上下文模块提供的通信功能来实现其聚合通信操作。

所述的聚合管理器用于配置和管理聚合交换机的聚合通信功能，并创建可扩展的分层聚合协议树，根据分布式深度学习训练任务的资源需求分配聚合通信资源，并在分布式深度学习训练任务结束时释放聚合通信资源；

所述的聚合通信资源包括用于实现聚合通信的聚合交换机和安装了可扩展的分层聚合协议守护进程的计算节点。

所述的可扩展的分层聚合协议守护进程用于完成其所在计算节点通道适配器与聚合交换机之间的连接管理，以及完成其所在计算节点与其他计算节点的信息交换。

所述的可扩展的分层聚合协议树是由计算节点作为叶子结点，由聚合交换机作为非叶子节点，由叶子结点和非叶子节点所组成的树形网络拓扑结构，位于该可扩展的分层聚合协议树的最顶层的非叶子节点对应的聚合交换机称为根聚合交换机；在执行聚合通信操作时，叶子结点作为数据源，将参数或/和梯度数据发送给聚合交换机，聚合交换机负责数据的聚合和转发。

所述的用于分布式深度学习训练的聚合通信方法，其具体步骤包括：

S1，在各个计算节点上执行分布式深度学习训练任务；在进行聚合通信操作之前，收集各个计算节点的执行任务信息，然后将该执行任务信息发给聚合管理器；聚合管理器根据收到的执行任务信息，按照分布式深度学习训练任务中各个计算节点的聚合通信需求，将聚合通信操作所需的聚合通信资源分配给各个计算节点；聚合管理器将聚合通信资源信息发送到计算节点的可扩展的分层聚合协议守护进程，并为每个计算节点提供可执行聚合通信操作的聚合交换机；

S2，初始化通信域，通信域包括上下文和进程组，上下文包括计算节点的设备参数信息以及参与分布式深度学习训练任务的进程需要用到的全局变量信息，一个通信域对应一个进程组；按照聚合管理器分配的聚合通信资源以及分布式深度学习训练任务所需的进程，选择相应的计算节点与聚合交换机建立连接，所有参与分布式深度学习训练任务的进程构成通信域的进程组，利用进程组与上下文构建通信域，并对通信域进行初始化，后续的聚合通信操作都通过通信域中的进程组和上下文来实现；

S3，注册内存，从深度学习训练框架获取存储训练参数或/和梯度数据的内存地址，然后将该内存地址进行注册和绑定，以确保该内存地址在分布式深度学习训练过程中不被其他程序所占用，并将该内存地址产生的内存句柄存入哈希表中以备后续使用；

S4，进行聚合通信，从已经注册的内存地址上获取训练参数或/和梯度数据，并将所获取的训练参数或/和梯度数据发送给聚合交换机，当聚合交换机接收到的训练参数或/和梯度数据的数量等于计算节点数量时，聚合交换机对接收到的数据执行聚合通信操作，得到当前聚合结果，该聚合交换机向其在可扩展的分层聚合协议树中的上一层的聚合交换机发送当前聚合结果，直到训练参数或/和梯度数据到达根聚合交换机后，根聚合交换机进行最终的聚合通信操作，得到最终聚合结果，根聚合交换机将最终聚合结果沿由可扩展的分层聚合协议树中的根聚合交换机到计算节点的方向，依次广播给各个计算节点，最终聚合结果到达所有计算节点后，完成聚合通信操作。

所述的执行任务信息包括所执行的分布式深度学习训练任务的任务序号、计算节点名称以及服务质量信息QoS。

所述的深度学习训练框架包括TensorFlow、PyTorch以及MXNet。

所述的通信域的环境，包括执行分布式深度学习训练的进程的编号、进程数目和计算节点地址等信息。

所述的聚合管理器用于配置和管理聚合交换机的聚合通信功能，并创建可扩展的分层聚合协议树，根据分布式深度学习训练任务的资源需求分配聚合通信资源，并在分布式深度学习训练任务结束时释放聚合通信资源。

所述的可扩展的分层聚合协议守护进程用于完成其所在计算节点通道适配器(HCA)与聚合交换机之间的连接管理，以及完成其所在计算节点与其他计算节点的信息交换。

所述的可扩展的分层聚合协议树是由计算节点作为叶子结点，由聚合交换机作为非叶子节点，由叶子结点和非叶子节点所组成的树形网络拓扑结构，位于该可扩展的分层聚合协议树的最顶层的非叶子节点对应的聚合交换机称为根聚合交换机。在执行聚合通信操作时，叶子结点作为数据源，将参数或/和梯度数据发送给聚合交换机，聚合交换机负责数据的聚合和转发。

所述的聚合交换机用于执行数据的聚合通信操作以及数据的转发操作。

本发明公开了一种分布式深度学习训练的聚合通信方法，其具体步骤包括：

S1，在各个计算节点上执行分布式深度学习训练任务；在进行聚合通信之前，收集各个计算节点的执行任务信息，执行任务信息包括所执行的分布式深度学习训练任务的任务序号、计算节点名称以及服务质量信息QoS，然后将该执行任务信息发给聚合管理器。聚合管理器根据收到的执行任务信息，按照分布式深度学习训练任务中各个计算节点的聚合通信需求，将聚合通信操作所需的聚合通信资源分配给各个计算节点。聚合管理器将聚合通信资源信息发送到计算节点的可扩展的分层聚合协议守护进程，并为每个计算节点提供可执行聚合通信操作的聚合交换机；

S2，初始化通信域，通信域包括上下文(context)和进程组(group)，上下文包括计算节点的设备参数信息以及参与分布式深度学习训练任务的进程需要用到的全局变量信息等，一个通信域对应一个进程组。按照聚合管理器分配的聚合通信资源以及分布式深度学习训练任务所需的进程，选择相应的计算节点与聚合交换机建立连接，所有参与分布式深度学习训练任务的进程构成通信域的进程组，利用进程组与上下文构建通信域，并对通信域进行初始化，后续的聚合通信过程都通过通信域中的进程组和上下文来实现。所述的通信域中的进程发起聚合通信请求后，计算节点将进程需要的训练参数或/和梯度数据发送到其直接连接的聚合交换机上；

S3，注册内存，从深度学习训练框架获取存储训练参数或/和梯度数据的内存地址，然后将该内存地址进行注册和绑定，以确保该内存地址在分布式深度学习训练过程中不被其他程序所占用，并将该内存地址产生的内存句柄存入哈希表中以备后续使用；深度学习训练框架包括TensorFlow、PyTorch以及MXNet等。

S4，进行聚合通信，从已经注册的内存地址上获取训练参数或/和梯度数据，并将所获取的训练参数或/和梯度数据发送给聚合交换机，当聚合交换机接收到的训练参数或/和梯度数据的数量等于计算节点数量时，聚合交换机对接收到的数据执行聚合通信操作，得到当前聚合结果，该聚合交换机向其在可扩展的分层聚合协议树中的上一层的聚合交换机，发送当前聚合结果，直到训练参数或/和梯度数据到达根聚合交换机后，根聚合交换机进行最终的聚合通信操作，得到最终聚合结果，然后将最终聚合结果沿由可扩展的分层聚合协议树中的根聚合交换机到计算节点的方向，依次广播给各个计算节点，最终聚合结果到达所有计算节点后，完成聚合通信操作。

本发明的有益效果为：

本发明公开了一种分布式深度学习训练的聚合通信方法，获得了以下优势：通过将聚合通信操作从计算节点转移到交换机上，能够极大地减少网络中的数据流量，减缓了网络拥塞，很大程度降低了分布式深度学习训练过程中的通信开销。利用ImageNet数据集和VGG19、AlexNet以及ResNet-50三个深度学习神经网络模型对本发明的聚合通信方法进行了评估，实验结果证明能够极大地加速了分布式深度学习的训练速度，同时由于通信库不改变神经网络训练的流程，所以不会改变模型的收敛精度。相比于OpenMPI和NCCL这两个通信库，本发明的聚合通信方法的实现结构相对简洁，代码量少，不存在分布式深度学习不需要的多余模块，方便研究人员使用，而且通信开销较少；相比于Gloo通信库，本发明的聚合通信方法能够利用在网计算功能来完成聚合通信，极大地减小了分布式深度学习训练的通信开销，加速了训练速度。

附图说明

图1为本发明方法的实现原理图；

图2为本发明的可扩展的分层聚合协议树的拓扑图；

图3为不同数据大小的本发明聚合操作和Gloo聚合通信操作的延迟对比；

图4为VGG19、AlexNet以及ResNet-50三个网络模型利用本发明聚合操作和Gloo通信库进行分布式深度学习训练通信时的吞吐量对比。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本发明公开了一种用于分布式深度学习训练的聚合通信方法，其利用聚合通信操作模块和上下文(context)模块来实现，并利用可扩展的分层聚合协议实现其在网计算功能。聚合通信操作模块用于实现各个计算节点之间数据的归约、广播以及屏障同步操作，上下文模块用于管理通信域的环境，并实现各个计算节点之间的连接，以及完成计算节点之间数据的传输。分布式深度学习训练任务通过若干个计算节点和交换机所构成的计算集群来完成。将计算集群中的一个计算节点作为聚合管理器，除聚合管理器外的其余的计算节点负责完成分布式深度学习训练任务的计算任务，将集群中的部分交换机设置为聚合交换机。

所述的可扩展的分层聚合协议，用于将原本需要在计算节点执行的聚合通信操作转移到交换机上执行。

所述的聚合管理器是一个系统管理组件，用于配置和管理聚合交换机的聚合通信功能，并创建可扩展的分层聚合协议树，根据分布式深度学习训练任务的资源需求分配聚合通信资源，并在分布式深度学习训练任务结束时释放聚合通信资源。

所述的可扩展的分层聚合协议守护进程是一个运行在计算节点的软件，用于完成其所在计算节点通道适配器(HCA)与聚合交换机之间的连接管理，以及完成其所在计算节点与其他计算节点的信息交换。

不管是基于Ring、Tree算法的聚合通信操作，节点之间都会有频繁的数据传输，而基于本发明的在网计算过程，不仅算法高效简单，而且能够减少网络中传输的数据量，消除网络可能发生的拥塞。所述的聚合通信的在网计算过程，首先，聚合管理器给计算节点和聚合节点分配资源并构建进行聚合通信操作的可扩展的分层聚合协议树；其次，计算节点的可扩展的分层聚合协议守护进程根据聚合管理器分配的资源和需要进行聚合通信操作的进程组构建并初始化通信域；然后，该通信域中的进程发起聚合通信请求，计算节点将数据发送到其直接连接的聚合交换机上；最后，聚合交换机对接收到的数据进行聚合通信操作并往父聚合节点发送聚合结果，依次进行聚合通信操作直到到达根聚合交换机，根聚合交换机执行最后的聚合通信操作并将结果广播回各个子节点。

图1为本发明方法的实现原理图，其利用聚合通信操作模块和上下文模块来实现。聚合通信操作模块负责执行归约、广播和屏障同步等聚合通信操作，上下文模块负责执行各个计算节点之间、计算节点与交换机之间的通信。聚合通信操作模块利用上下文模块的点对点通信功能来实现归约、广播和屏障同步等聚合通信操作。

图2是本发明的可扩展的分层聚合协议树的拓扑图，由图2可见，其由聚合管理器、计算节点和聚合交换机组成。在执行聚合通信操作时，数据从计算节点发送到聚合交换机，聚合交换机则执行聚合通信操作，得到聚合通信操作结果，并将聚合通信操作结果向上往父聚合交换机发送，经过各个层的聚合，最后到达根聚合交换机，根聚合交换机则将最终的聚合通信操作结果往计算节点方向广播，最终各计算节点都获得最终的聚合结果。

我们在由1个聚合管理器、4个计算节点和1个聚合交换机组成的集群中进行了实验。图3和图4分别展示了实验结果。图3展示的是我们采用可扩展的分层聚合协议和Gloo分别做全归约、归约、广播和全收集操作的实验结果，可以看到在这四种操作中，可扩展的分层聚合协议完成操作所需要的时间开销都比Gloo低，明显降低了完成这些操作的时间开销。图4展示的是在进行分布式深度学习训练时，分别采用可扩展的分层聚合协议和Gloo时，各个神经网络模型训练的吞吐量，可以看到在VGG19和AlexNet神经网络模型的训练中，可扩展的分层聚合协议在四个批量大小中都表现出比Gloo高得多的吞吐量；在ResNet50神经网络模型中，可扩展的分层聚合协议在16、32和64这三个批量大小下同样是有着比Gloo高的吞吐量，而在128批量大小下则跟Gloo持平。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于分布式深度学习训练的聚合通信方法，其特征在于，

其利用聚合通信操作模块和上下文模块来实现，聚合通信操作模块实现各个计算节点之间数据的归约、广播以及屏障同步操作，上下文模块管理通信域的环境，并实现各个计算节点之间的连接，以及完成计算节点之间数据的传输；分布式深度学习训练任务通过若干个计算节点和交换机所构成的计算集群来完成；每个计算节点均包括聚合通信操作模块和上下文模块；将计算集群中的一个计算节点作为聚合管理器，除聚合管理器外的其余的计算节点负责完成分布式深度学习训练任务的计算任务，将集群中的执行数据的聚合通信操作以及数据的转发操作的交换机设置为聚合交换机；

所述的通信域的环境，包括执行分布式深度学习训练的进程的编号、进程数目和计算节点地址信息；

所述的聚合通信操作模块利用上下文模块提供的通信功能来实现其聚合通信操作；

所述的聚合通信资源包括用于实现聚合通信的聚合交换机和安装了可扩展的分层聚合协议守护进程的计算节点；

所述的可扩展的分层聚合协议守护进程用于完成其所在计算节点通道适配器与聚合交换机之间的连接管理，以及完成其所在计算节点与其他计算节点的信息交换；

所述的可扩展的分层聚合协议树是由计算节点作为叶子结点，由聚合交换机作为非叶子节点，由叶子结点和非叶子节点所组成的树形网络拓扑结构，位于该可扩展的分层聚合协议树的最顶层的非叶子节点对应的聚合交换机称为根聚合交换机；在执行聚合通信操作时，叶子结点作为数据源，将参数或/和梯度数据发送给聚合交换机，聚合交换机负责数据的聚合和转发；

2.如权利要求1所述的用于分布式深度学习训练的聚合通信方法，其特征在于，

3.如权利要求1所述的用于分布式深度学习训练的聚合通信方法，其特征在于，

所述的深度学习训练框架包括TensorFlow、PyTorch以及MXNet。