CN114118437A

CN114118437A - 一种面向微云中分布式机器学习的模型更新同步方法

Info

Publication number: CN114118437A
Application number: CN202111163268.3A
Authority: CN
Inventors: 张煜晨; 金琦轩; 罗龙; 孙罡; 虞红芳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-03-01
Anticipated expiration: 2041-09-30
Also published as: CN114118437B

Abstract

本发明公开了一种面向微云中分布式机器学习的模型更新同步方法，通过在所有微云中确定出中间聚合点集；然后确定出每一个工作节点对应的中间聚合点，并将所有工作节点中的本地模型上传至对应的中间聚合点，以使中间聚合点将接收到本地模型进行聚合得到聚合模型；将所有中间聚合点中的聚合模型上传至参数服务器中，以使所述参数服务器根据所有聚合模型确定出全局模型，将所述全局模型分发给所有工作节点，避免了使参数服务器成热点，减小了模型更新同步的延时，实现了快速地对微云中分布式机器学习模型参数进行更新与同步。

Description

一种面向微云中分布式机器学习的模型更新同步方法

技术领域

本发明属于人工智能技术领域，具体涉及一种面向微云中分布式机器学习的模型更新同步方法。

背景技术

近年来，机器学习技术促进了图像识别、自然语言处理等各种应用领域的快速发展，这类需要对海量数据进行处理以及对复杂模型的快速学习的需求推动了分布式机器学习的发展。

传统的分布式机器学习是以云为中心，其需要将用户的原始数据上传到超大规模的数据中心，这不仅会造成很高的通信开销，还会造成隐私问题，因此，越来越多的供应商开始利用微云在互联网边缘进行机器学习模型的训练，微云是部署在用户终端附近的微数据中心，在模型的训练过程中，微云会作为工作节点，将根据本地数据集训练的模型更新上传至参数服务器，参数服务器再将更新的全局模型分发给微云，尽管利用微云可以节省带宽，保护隐私，但由于现如今的网络中有大量的微云需要通过广域网进行模型的更新同步，并且为了模型能够收敛，需要大量的训练轮次，这会产生大量的数据。然而微云之间的广域网带宽通常很小，不足以支撑大量数据的传输。这种大量数据传输的需求与紧缺的带宽资源的冲突使得广域网下面向微云中分布式机器学习的模型的快速更新同步十分具有挑战性。

在现有技术中，大部分分布式机器学习系统是采用直接聚合的方式，所有的工作节点直接将更新的模型上传给参数服务器，这种方案容易使参数服务器成为一个热点，从而导致模型更新同步的延时。

因此，在面向微云的分布式机器学习中，如何快速地对模型进行更新与同步，是本领域技术人员有待解决的技术问题。

发明内容

本发明的目的是为了快速地对微云中分布式机器学习模型参数进行更新与同步，减小模型训练过程中的传输时间，提出了一种面向微云中分布式机器学习的模型更新同步方法。

本发明的技术方案为：一种面向微云中分布式机器学习的模型更新同步方法，包括以下步骤：

S1、在所有微云中确定出中间聚合点集；

S2、确定出每一个工作节点对应的中间聚合点，并将所有工作节点中的本地模型上传至对应的中间聚合点，以使中间聚合点将接收到的本地模型进行聚合得到聚合模型；

S3、将所有中间聚合点中的聚合模型上传至参数服务器中，以使所述参数服务器根据所有聚合模型确定出全局模型；

S4、将所述全局模型分发给所有工作节点；

其中，所述步骤S1-S3均是基于目标函数执行，工作节点集和所述中间聚合点集都属于网络节点集，所述网络节点集中每一个网络节点均和一个微云对应，所述中间聚合点是在所述网络节点集中除所述工作节点集外的剩余网络节点集中进行确定。

进一步地，所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短，通过如下公式表示：

minimizet^agg＝t′+t″

式中，minimize为减小至最低，t^agg为从工作节点到参数服务器的总时间，t′为工作节点中本地模型传输至对应中间聚合点的时间，t″为中间聚合点中聚合模型传输至参数服务器的时间。

进一步地，确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定。

进一步地，所述第一约束条件具体为每个工作节点仅对应一个中间聚合点，当至少一个工作节点选择某网络节点作为中间聚合点，则将该网络节点确定为中间聚合点，所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间，所述第一约束条件如下式所示：

式中，i为工作节点，I为所有工作节点集，j为网络节点，V为所有微云的集合，x_ij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合，y_j表示网络节点j是否作为中间聚合点，D为本地模型的数据量大小，c_j为网络节点j的存储容量。

进一步地，所述步骤S2中将本地模型上传至对应的中间聚合点，具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽后，将所述本地模型上传至对应的中间聚合点。

进一步地，所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽，所述第二约束条件具体如下公式所示：

b′t′＝D′；

式中，b′为工作节点到对应的中间聚合点被分配的带宽，D′为工作节点中本地模型的数据量大小，t′为工作节点中本地模型上传至对应的中间聚合点所需要的时间，i为工作节点，I为所有工作节点的集合，j为中间聚合点，V为所有微云的集合，e′为第一传输链路，

为工作节点i到对应的中间聚合点j的第k′条第一传输路径，

为

是否被用于传输本地模型，c_e′为第一传输链路的带宽容量，E为所有微云之间的传输链路集合，x_ij表示工作节点i是否发送它的本地更新模型到中间聚合点j进行聚合。

进一步地，所述步骤S3中将聚合模型上传至参数服务器中，具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽后，将所述聚合模型上传至参数服务器。

进一步地，所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽，所述第三约束条件具体如下公式所示：

b″t″＝D″；

式中，式中，n″为中间聚合点到参数服务器被分配的带宽，D″为中间聚合点中聚合模型的数据量，t″为中间聚合点中聚合模型上传至参数服务器所需要的时间，j为中间聚合点，V为所有微云的集合，e″为第二传输链路，

为中间聚合点j到参数服务器d的第k″条第二传输路径，

为

是否被用于传输聚合模型，c_e″为第二传输链路的带宽容量，E为所有微云之间的传输链路集合，y_j表示网络节点j是否作为中间聚合点。

进一步地，所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。

与现有技术相比，本发明具备以下有益效果：

本发明通过在所有微云中确定出中间聚合点集；然后确定出每一个工作节点对应的中间聚合点，并将所有工作节点中的本地模型上传至对应的中间聚合点，以使中间聚合点将接收到本地模型进行聚合得到聚合模型；将所有中间聚合点中的聚合模型上传至参数服务器中，以使所述参数服务器根据所有聚合模型确定出全局模型，将所述全局模型分发给所有工作节点，避免了使参数服务器成热点，减小了模型更新同步的延时，实现了快速地对微云中分布式机器学习模型参数进行更新与同步。

附图说明

图1所示为本发明实施例提供的一种面向微云中分布式机器学习的模型更新同步方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了快速地对微云中分布式机器学习模型参数进行更新与同步，本申请提出了一种面向微云中分布式机器学习的模型更新同步方法，如图1所示为本申请实施例提出的一种面向微云中分布式机器学习的模型更新同步方法的流程示意图，该方法包括以下步骤：

步骤S1、在所有微云中确定出中间聚合点集。

在本申请实施例中，先将所有微云间的广域网建模为一个有向图：G＝(V,E)，(V：所有工作节点，E：所有微云之间的链路)任意链路e∈E都有一定的带宽c_e用于传输数据。

步骤S2、确定出每一个工作节点对应的中间聚合点，并将所有工作节点中的本地模型上传至对应的中间聚合点，以使中间聚合点将接收到的本地模型进行聚合得到聚合模型。

步骤S3、将所有中间聚合点中的聚合模型上传至参数服务器中，以使所述参数服务器根据所有聚合模型确定出全局模型。

在本申请实施例中，所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短，通过如下公式表示：

minimizet^agg＝t′+t″

在本申请实施例中，确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定的，所述第一约束条件具体为每个工作节点仅对应一个中间聚合点，当至少一个工作节点选择某网络节点作为中间聚合点，则将该网络节点确定为中间聚合点，所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间，所述第一约束条件如下式所示：

在本申请实施例中，所述步骤S2中将本地模型上传至对应的中间聚合点，具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽(即决策出的工作节点的发送速率)后，将所述本地模型上传至对应的中间聚合点。

也即是说，先确定出中间聚合点，每个工作节点需要选择确定对应的中间聚合点，且需要确定出到达对应中间聚合点的第一传输路径，工作节点传输本地模型到对应中间聚合点的传输速率。

在本申请实施例中，所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽，所述第二约束条件具体如下公式所示：

b′t′＝D′；

为工作节点i到对应的中间聚合点j的第k′条第一传输路径，

为

是否被用于传输本地模型，c_e′为第一传输链路的带宽容量，E为所有微云之间的传输链路集合，x_ij表示工作节点i是否发送它的本地更新模型到网络节点j进行聚合。

在本申请实施例中，所述步骤S3中将聚合模型上传至参数服务器中，具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽(即决策出的中间聚合点的发送速率)后，将所述聚合模型上传至参数服务器。

在本申请实施例中，所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽，所述第三约束条件具体如下公式所示：

b″t″＝D″；

式中，式中，n″为中间聚合点到参数服务器被分配的带宽，D″为中间聚合点中聚合模型的数据量大小，t″为中间聚合点中聚合模型上传至参数服务器所需要的时间，j为中间聚合点，V为所有微云的集合，e″为第二传输链路，

为中间聚合点j到参数服务器d的第k″条第二传输路径，

为

每个中间聚合点需要确定出到达参数服务器的第二传输路径，中间聚合点传输聚合模型到参数服务器的传输速率，需要说明的是，第一传输链路和第二传输链路均是参数服务器和所有微云所在的拓扑结构中的链路。

步骤S4、将所述全局模型分发给所有工作节点。

在本申请实施例中，所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。

结合上述可知，本申请技术方案采用了分层聚合的架构，也即引入一层中间聚合点用于本地模型的聚合，该中间聚合点的确定结合了网络状态和模型更新同步的传输需求，以此减少网络中传输的流量，在本申请方案中，由工作节点将其本地模型上传至中间聚合点中，中间聚合点将接收到的多个本地模型进行聚合得到聚合模型，然后所有中间聚合点将其聚合模型上传到参数服务器中，从而使参数服务器得到所有工作节点上的本地模型。

另外，对全局模型分发阶段的传输过程是参数服务器向所有工作节点分发相同的数据，因此采用构建多播树的方式来加速传输。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种面向微云中分布式机器学习的模型更新同步方法，其特征在于，包括以下步骤：

S1、在所有微云中确定出中间聚合点集；

S4、将所述全局模型分发给所有工作节点；

2.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述目标函数具体为从所述工作节点到所述参数服务器的传输时间最短，通过如下公式表示：

minimizet^agg＝t′+t″

3.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，确定所述中间聚合点集和每个工作节点对应的中间聚合点是根据第一约束条件进行确定的。

4.如权利要求3所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述第一约束条件具体为每个工作节点仅对应一个中间聚合点，当至少一个工作节点选择某网络节点作为中间聚合点，则将该网络节点确定为中间聚合点，所述中间聚合点进行模型聚合的总数据量不超过该中间聚合点的存储空间，所述第一约束条件如下式所示：

5.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述步骤S2中将本地模型上传至对应的中间聚合点，具体为基于第二约束条件确定出每一个工作节点到对应的中间聚合点的第一传输路径和该工作节点到对应的中间聚合点被分配的带宽后，将所述本地模型上传至对应的中间聚合点。

6.如权利要求5所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述第二约束条件具体为工作节点到对应的中间聚合点被分配的带宽与工作节点中本地模型上传至对应的中间聚合点所需要的时间的乘积等于对应工作节点中本地模型的数据量大小、第一传输路径以及决策的发送速率不大于第一传输路径对应的第一传输链路所具有的带宽，所述第二约束条件具体如下公式所示：

b′t′＝D′；

为工作节点i到对应的中间聚合点j的第k′条第一传输路径，

为

7.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述步骤S3中将聚合模型上传至参数服务器中，具体为基于第三约束条件确定出每一个中间聚合点到所述参数服务器的第二传输路径以及该中间聚合点到参数服务器被分配的带宽后，将所述聚合模型上传至参数服务器。

8.如权利要求7所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述第三约束条件具体为中间聚合点到参数服务器被分配的带宽与中间聚合点中聚合模型上传至参数服务器所需要的时间的乘积等于聚合模型的数据量大小、第二传输路径以及决策的发送速率不大于第二传输路径对应的第二传输链路所具有的带宽，所述第三约束条件具体如下公式所示：

b″t″＝D″；

式中，式中，b″为中间聚合点到参数服务器被分配的带宽，D″为中间聚合点中聚合模型的数据量大小，t″为中间聚合点中聚合模型上传至参数服务器所需要的时间，j为中间聚合点，V为所有微云的集合，e″为第二传输链路，

为中间聚合点j到参数服务器d的第k″条第二传输路径，

为

9.如权利要求1所述的面向微云中分布式机器学习的模型更新同步方法，其特征在于，所述步骤S4具体是通过多播树的形式向所有工作节点分发所述全局模型。