CN112702267B

CN112702267B - 分布式训练路由方法、系统、储存介质及计算机设备

Info

Publication number: CN112702267B
Application number: CN202110082811.0A
Authority: CN
Inventors: 武继刚; 陈招红; 龙鑫; 陈龙; 孙为军
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-04-07
Anticipated expiration: 2041-01-21
Also published as: CN112702267A

Abstract

本发明针对基于数据融合的分布式机器学习训练中的通信瓶颈，提出了一种分布式训练路由方法、系统、储存介质及计算机设备，其通过在构建梯度更新上传多播树时，根据不同节点发送梯度更新数据的时延差异，将工作节点以最小的跳数加入梯度更新上传多播树中，从而能够最小化对网络资源的占用；同时，本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性，把梯度更新数据路由到同一节点进行数据融合，减小网络中传输的数据量，能显著缓解分布式机器训练过程的通信负载，从而加快分布式机器训练进程。

Description

分布式训练路由方法、系统、储存介质及计算机设备

技术领域

本发明涉及网络路由技术领域，具体涉及分布式训练过程中的通信技术，更具体地，涉及一种分布式训练路由方法、系统、储存介质及计算机设备。

背景技术

分布式训练是当下主流的机器学习训练模式。分布式训练完成一次迭代过程包括以下步骤：工作节点从参数服务器节点获取最新模型参数，然后从本地训练数据中取出一批(即batch，表示一个完整实体的用于训练的输入数据矩阵称为一组，一批可能是一组或者多组)的数据进行梯度更新计算(梯度即用于更新参数矩阵的差值)；将梯度更新数据发送至参数服务器；参数服务器利用参数更新数据计算更新模型参数。由于分布式机器学习训练需要进行全局模型参数获取和更新，其中工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器，而大规模的参数传输需要占用大量的带宽资源，所以分布式机器学习训练中的通信瓶颈是一个亟待解决的技术问题。

目前已经存在许多减小分布式训练通信开销的方法，如通过增加批数据量的大小来减少通信次数、梯度压缩等，这些方法都可以有效减小通信开销，但这些方法经常导致测试精度的严重损失，并且需要复杂的超参数调节。考虑到机器学习中梯度更新数据的可融合性，因此通过数据融合技术更进一步减小分布式机器学习训练的网络负载。如图1所示，数据融合技术可以将传输到同一节点的梯度更新数据融合成为一个数据包，从而减小网络负载。然而，现有的基于数据融合的工作大多假设数据包产生是连续的。分布式训练中，工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器。由于工作节点是异构的，工作节点的计算能力存在差异，导致计算完成时间也不一致，在数据融合时需要等待计算较慢的节点将梯度更新发送过来。传统的数据融合算法没有考虑工作节点计算所带来的延迟，无法在分布式训练场景中发挥其优势。此外，传统的数据融合算法没有考虑网络节点的缓存限制。在分布式训练中，梯度更新的数据量通常较大，如果融合的数据过多，可能会超出缓存的存储的容量限制。

公开日为2020.04.17，公开号为：CN111027708A的中国发明专利：一种面向分布式机器学习的参数通信优化方法，试图通过采用动态延迟同步策略来解决集群不同计算节点计算性能不同导致性能浪费的问题。但是该方案并未解决前述的技术问题。

发明内容

针对现有技术的局限，本发明提出一种分布式训练路由方法、系统、储存介质及计算机设备，本发明采用的技术方案是：

一种分布式训练路由方法，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，包括以下步骤：

S01，获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力；

S02，根据各网络节点间的连接情况构建带权有向图，根据所述带权有向图，运用最短路径算法获取参数服务器节点到各工作节点的最短路径，以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树；

S03，根据所述带权有向图，运用最短路径算法寻找各工作节点到参数服务器节点的最短路径；根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力，从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径；

S04，构建梯度更新上传多播树，将所述关键路径加入到所述梯度更新上传多播树；

S05，遍历各工作节点，获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径，加入所述梯度更新上传多播树中；重复步骤S05直至所述梯度更新上传多播树包括各工作节点；

S06，根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。

相较于现有技术，本发明通过在构建梯度更新上传多播树时，根据不同节点发送梯度更新数据的时延差异，将工作节点以最小的跳数加入梯度更新上传多播树中，从而能够最小化对网络资源的占用；同时，本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性，把梯度更新数据路由到同一节点进行数据融合，减小网络中传输的数据量，能显著缓解分布式机器训练过程的通信负载，从而加快分布式机器训练进程。

作为一种优选方案，所述步骤S03中包括以下步骤：

S031，根据所述模型参数下发多播树以及各网络节点间的带宽容量计算模型参数数据从参数服务器节点传输到各工作节点的时间；

S032，根据所述带权有向图，运用最短路径算法寻找各工作节点到参数服务器节点的最短路径；

S033，根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力，结合模型参数数据从参数服务器节点传输到各工作节点的时间，从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径。

进一步的，所述步骤S05中，包括以下步骤：

S051，根据各网络节点的缓存容量以及工作节点的计算能力，计算所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间；

S052，遍历各工作节点，结合所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间，获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径，加入所述梯度更新上传多播树中。

进一步的，所述步骤S031中，模型参数数据从参数服务器节点传输到各工作节点的时间

按以下公式计算：

其中，M表示网络节点的集合，N表示工作节点的集合，p表示模型参数数据的大小，

表示模型参数数据从参数服务器发送至工作节点过程中网络节点i与网络节点j之间的路径，其中网络节点i与网络节点j为相邻节点，若网络节点i将模型参数数据通过网络节点j发送给工作节点，则

反之

进一步的，所述关键路径L^*通过以下公式获取：

约束条件：

其中，L_i,ε,i∈{1,2,...,|N|}为第i个工作节点到参数服务器ε的最短路径，T_i为第i个工作节点的梯度更新数据沿着路径L_i,ε上传到达参数服务器ε所需的时间；

分别表示第i个工作节点的梯度更新计算时间和传输时间，D为单轮训练模型计算量的大小，q为梯度更新数据大小，q值大小与模型参数数据的大小p相等，w_j表示网络节点j的带宽容量，g_k表示网络节点k的缓存容量，

表示梯度更新数据从工作节点发送到参数服务器节点过程中网络节点j与网络节点k之间的路径，其中网络节点j与网络节点k为相邻节点，若网络节点j将模型参数通过网络节点k发送给工作节点，则

反之

进一步的，所述步骤S051中通过以下公式计算所述梯度更新上传多播树MT^u上的工作节点上传梯度更新数据的时间

约束条件：

进一步的，在步骤S052中，通过求解下列非线性整型规划获得所述梯度更新上传多播树中未包含的工作节点i到所述梯度更新上传多播树上的网络节点j的最短路径L：

约束条件：

其中，t_i,j表示梯度更新数据从网络节点i到网络节点j所需的传输时间。

本发明还提供以下内容：

一种分布式训练路由系统，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，包括网络节点信息获取模块、模型参数下发多播树构建模块、关键路径获取模块、梯度更新上传多播树构建模块、梯度更新上传多播树完善模块以及数据传递路径获取模块；所述网络节点信息获取模块连接所述模型参数下发多播树构建模块、关键路径获取模块、梯度更新上传多播树构建模块，所述关键路径获取模块连接所述模型参数下发多播树构建模块，所述梯度更新上传多播树构建模块连接所述关键路径获取模块，所述梯度更新上传多播树完善模块连接所述梯度更新上传多播树构建模块，所述数据传递路径获取模块连接所述模型参数下发多播树构建模块以及所述梯度更新上传多播树完善模块；其中：

所述网络节点信息获取模块用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力；

所述模型参数下发多播树构建模块用于根据各网络节点间的连接情况构建带权有向图，根据所述带权有向图，运用最短路径算法获取参数服务器节点到各工作节点的最短路径，以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树；

所述关键路径获取模块用于根据所述带权有向图，运用最短路径算法寻找各工作节点到参数服务器节点的最短路径；根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力，从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径；

所述梯度更新上传多播树构建模块用于构建梯度更新上传多播树，将所述关键路径加入到所述梯度更新上传多播树；

所述梯度更新上传多播树完善模块用于遍历各工作节点，获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径，加入所述梯度更新上传多播树中，直至所述梯度更新上传多播树包括各工作节点；

所述数据传递路径获取模块用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的分布式训练路由方法的步骤。

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述分布式训练路由方法的步骤。

附图说明

图1为数据融合前后的路由对比示意图；

图2为本发明实施例1提供的分布式训练路由方法的步骤流程图；

图3为本发明实施例1的无线网络环境示例；

图4为本发明实施例1步骤S03的步骤流程图；

图5为本发明实施例1步骤S05的步骤流程图；

图6为本发明实施例2提供的分布式训练路由系统；

附图标记说明：1、网络节点信息获取模块；2、模型参数下发多播树构建模块；3、关键路径获取模块；4、梯度更新上传多播树构建模块；5、梯度更新上传多播树完善模块；6、数据传递路径获取模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参考图2，一种分布式训练路由方法，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，包括以下步骤：

具体的，本实施例可应用于具有多个网络节点的无线网络环境中，如图3所示，该无线网络环境包括一个参数服务器节点、多个工作节点和多个路由节点；在实际应用中，工作节点可以是边缘服务器，参数服务器可以是云服务器，路由节点可以是基站。

本实施例所构建的模型参数下发多播树MT^d用于反映模型参数从参数服务器发送至各工作节点的路由路径，而梯度更新上传多播树MT^u用于反映梯度更新数据从各工作节点经过数据融合后上传至参数服务器的路由路径。所述模型参数下发多播树MT^d以及梯度更新上传多播树MT^u本身即可视为分布式训练中参数数据的传递路径的集合；在分布式训练中，在梯度更新上传阶段，会对经过同一网络节点的梯度更新数据进行融合后再上传。

所述工作节点的计算能力，具体表现为工作节点的CPU频率f。

上述无线网络环境在进行分布式训练时，可以表示为以下的优化问题：

其中，ω⁰为全局模型参数，ωⁿ为第n个工作节点上的本地模型参数，工作节点数量N，l是第n个工作节点上的精度损失。

若采用同步随机梯度下降法进行分布式机器训练，单次训练过程为：初始化全局模型的参数ω⁰，工作节点数量N，学习率η；首先读取当前全局模型的参数ω⁰；对于每个工作节，从训练集中获取训练样本s_n，计算这个样本上的随机梯度

f(*)为损失函数，更新工作节点的参数

最后同步通信获得所有工作节点上的参数的平均

并更新全局参数

步骤S02、S03中使用的最小路径算法，具体可采用Dijkstra(迪杰斯特拉)算法，Dijkstra算法是一种典型的单源最短路径算法，用于计算一个节点到其他所有节点的最短路径。主要特点是利用带权有向图，以起始点为中心向外层层扩展，直到扩展到终点为止。

作为一种优选实施例，请参阅图4，所述步骤S03中包括以下步骤：

作为一种优选实施例，请参阅图5，所述步骤S05中，包括以下步骤：

按以下公式计算：

反之

具体的，本实施例应用在的无线网络环境中只有一个参数服务器，参数服务器负责参数的收集和融合，由于参数融合时间可以忽略，所以最新的模型参数数据到达参数服务器的时间

作为一种优选实施例，所述关键路径L^*通过以下公式获取：

约束条件：

反之

作为一种优选实施例，所述步骤S051中通过以下公式计算所述梯度更新上传多播树MT^u上的工作节点上传梯度更新数据的时间

约束条件：

约束条件：

实施例2

一种分布式训练路由系统，请参阅图6，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，其特征在于，包括网络节点信息获取模块1、模型参数下发多播树构建模块2、关键路径获取模块3、梯度更新上传多播树构建模块4、梯度更新上传多播树完善模块5以及数据传递路径获取模块6；所述网络节点信息获取模块1连接所述模型参数下发多播树构建模块2、关键路径获取模块3、梯度更新上传多播树构建模块4，所述关键路径获取模块3连接所述模型参数下发多播树构建模块2，所述梯度更新上传多播树构建模块4连接所述关键路径获取模块3，所述梯度更新上传多播树完善模块5连接所述梯度更新上传多播树构建模块4，所述数据传递路径获取模块6连接所述模型参数下发多播树构建模块2以及所述梯度更新上传多播树完善模块5；其中：

所述网络节点信息获取模块1用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力；

所述模型参数下发多播树构建模块2用于根据各网络节点间的连接情况构建带权有向图，根据所述带权有向图，运用最短路径算法获取参数服务器节点到各工作节点的最短路径，以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树；

所述关键路径获取模块3用于根据所述带权有向图，运用最短路径算法寻找各工作节点到参数服务器节点的最短路径；根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力，从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径；

所述梯度更新上传多播树构建模块4用于构建梯度更新上传多播树，将所述关键路径加入到所述梯度更新上传多播树；

所述梯度更新上传多播树完善模块5用于遍历各工作节点，获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径，加入所述梯度更新上传多播树中，直至所述梯度更新上传多播树包括各工作节点；

所述数据传递路径获取模块6用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。

实施例3

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的分布式训练路由方法的步骤。

实施例4

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的分布式训练路由方法的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种分布式训练路由方法，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，其特征在于，包括以下步骤：

2.根据权利要求1所述的分布式训练路由方法，其特征在于，所述步骤S03中包括以下步骤：

3.根据权利要求2所述的分布式训练路由方法，其特征在于，所述步骤S05中，包括以下步骤：

4.根据权利要求3所述的分布式训练路由方法，其特征在于，所述步骤S031中，模型参数数据从参数服务器节点传输到各工作节点的时间

按以下公式计算：

反之

5.根据权利要求4所述的分布式训练路由方法，其特征在于，所述关键路径L^*通过以下公式获取：

约束条件：

其中，L_i,ε为第i个工作节点到参数服务器ε的最短路径，T_i为第i个工作节点的梯度更新数据沿着路径L_i,ε上传到达参数服务器ε所需的时间；

反之

6.根据权利要求5所述的分布式训练路由方法，其特征在于，所述步骤S051中通过以下公式计算所述梯度更新上传多播树MT^u上的工作节点上传梯度更新数据的时间

约束条件：

7.根据权利要求6所述的分布式训练路由方法，其特征在于，在步骤S052中，通过求解下列非线性整型规划获得所述梯度更新上传多播树中未包含的工作节点i到所述梯度更新上传多播树上的网络节点j的最短路径L：

约束条件：

8.一种分布式训练路由系统，其为基于数据融合的分布式训练中的网络节点，包括参数服务器节点、若干工作节点以及若干路由节点，获取分布式训练中的数据传递路径，其特征在于，包括网络节点信息获取模块(1)、模型参数下发多播树构建模块(2)、关键路径获取模块(3)、梯度更新上传多播树构建模块(4)、梯度更新上传多播树完善模块(5)以及数据传递路径获取模块(6)；所述网络节点信息获取模块(1)连接所述模型参数下发多播树构建模块(2)、关键路径获取模块(3)、梯度更新上传多播树构建模块(4)，所述关键路径获取模块(3)连接所述模型参数下发多播树构建模块(2)，所述梯度更新上传多播树构建模块(4)连接所述关键路径获取模块(3)，所述梯度更新上传多播树完善模块(5)连接所述梯度更新上传多播树构建模块(4)，所述数据传递路径获取模块(6)连接所述模型参数下发多播树构建模块(2)以及所述梯度更新上传多播树完善模块(5)；其中：

所述网络节点信息获取模块(1)用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力；

所述模型参数下发多播树构建模块(2)用于根据各网络节点间的连接情况构建带权有向图，根据所述带权有向图，运用最短路径算法获取参数服务器节点到各工作节点的最短路径，以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树；

所述关键路径获取模块(3)用于根据所述带权有向图，运用最短路径算法寻找各工作节点到参数服务器节点的最短路径；根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力，从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径；

所述梯度更新上传多播树构建模块(4)用于构建梯度更新上传多播树，将所述关键路径加入到所述梯度更新上传多播树；

所述梯度更新上传多播树完善模块(5)用于遍历各工作节点，获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径，加入所述梯度更新上传多播树中，直至所述梯度更新上传多播树包括各工作节点；

所述数据传递路径获取模块(6)用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式训练路由方法的步骤。

10.一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式训练路由方法的步骤。