CN114827783B

CN114827783B - 一种基于聚合树的跨域分布式机器学习的带宽调度方法

Info

Publication number: CN114827783B
Application number: CN202210765251.3A
Authority: CN
Inventors: 刘玲; 陈曦; 吴涛; 周攀; 陈飞; 曾锐; 虞红芳; 孙罡
Original assignee: Southwest Minzu University
Current assignee: Southwest Minzu University
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-10-14
Anticipated expiration: 2042-07-01
Also published as: CN114827783A

Abstract

本发明提供了一种基于聚合树的跨域分布式机器学习的带宽调度方法，属于带宽调度技术领域，该方法包括如下步骤：步骤1：建立聚合树；步骤2：初始化波长；步骤3：获取每条链路的变量；步骤4：计算出波长；步骤5：检测聚合树上所有边的波长约束；步骤6：对于经过边e的任意链路,更新波长，并转至步骤5；步骤7：检测聚合树上所有节点的波长约束；步骤8：对于经过节点v的任意链路,更新波长，并转至步骤7；步骤9：获得聚合树上所有链路的波长分配集合后，对于网络中的其它边，随机分配波长，得到新拓扑；步骤10：返回波长分配集合及新拓扑。本发明可以定制化最适合的网络拓扑并为聚合树分配适合的带宽。

Description

一种基于聚合树的跨域分布式机器学习的带宽调度方法

技术领域

本发明涉及带宽调度技术领域，尤其是涉及一种基于聚合树的跨域分布式机器学习的带宽调度方法。

背景技术

机器学习已被广泛地应用于各种场景，如语音处理、计算机视觉和区块链等。在语音处理方面，机器学习可用于语音情感的识别、英语语音识别等场景；在计算机视觉方面，机器学习可用于图像识别、视频监控等场景；在区块链方面，机器学习可用于交易行为识别等场景。目前很多的机器学习应用需要使用跨越广域网的数据进行训练，以得到更精确的机器学习模型，这种训练场景被称为跨域分布式机器学习（Geo-Distributed MachineLearning，Geo-DML）。然而，受到稀缺的广域网带宽及数据隐私等限制，不可能把所有数据都跨越广域网传输到一个数据中心进行集中训练。因此，Geo-DML一般采用分层的训练架构，包含数据中心内部的本地模型同步（Local Model Synchronization，LMS）阶段和数据中心间的全局模型同步（Global Model Synchronization，GMS）阶段。首先，在数据中心内，多个计算节点共同完成本地模型训练，可以使用参数服务器架构或All-Reduce架构，其中一个节点（称为本地模型同步节点（Local Model Synchronization Node，LMSN））负责与其它数据中心交互本数据中心内的参数；接着，LMSN节点间跨广域网相互通信完成全局模型同步，每个LMSN节点再把新模型分发给本地数据中心内的计算节点。Geo-DML需要跨广域网执行模型同步，与高速的局域网带宽相比，稀缺的广域网带宽已成为Geo-DML训练的性能瓶颈。

虽然已有研究是针对稀缺的广域网带宽去加速Geo-DML，如减少跨域的全局模型同步频率、减少跨域传输的参数量等，但这些方法获得的性能提升始终受限于底层的网络带宽。因为广域网带宽相差可达12倍，具有最小带宽的链路就会阻碍GMS过程，从而延长训练时间。

近些年，越来越多的学者提出结合可重构的光广域网来加速上层应用。实际上，随着智能光器件——可重构的光分插复用器(Reconfigurable Optical Add DropMultiplexer，ROADM)的使用，现代广域网拓扑都是建立在可重构光层上，每个数据中心面向网络的路由器通过标准短波长连接到ROADM，数据中心间使用光纤进行连接。通过重新配置ROADM，可以改变光纤中承载的波长，从而改变网络层路由器端口的连通性，进而改变了网络层拓扑。另外，软件定义网络也广泛应用于广域网的设计中，它使光广域网可以利用完整的网络信息对网络拓扑进行全局重新配置。然而，大多数现有加速Geo-DML训练的方案都没有利用广域网拓扑的可重构性。目前已有结合可重构的光广域网拓扑来调度数据传输的方案，但它们是针对普通的批量数据传输或多播数据传输，数据传输起点和终点都是确定的，而对于Geo-DML训练来说，LMSN节点间没有固定的数据传输模式，且模型参数在传输过程中还可执行聚合操作以减少网络中的数据量，这样更有得于参数的同步。因此，现有针对批量数据或多播数据的传输算法也并不适用于Geo-DML。

针对光广域网中批量数据传输的调度方案。在传统方案中，数据传输的起点和目的节点都是提前确定的，需要确定拓扑结构，并为每一条数据流确定路径、速率等，目标一般是最小化所有流的传输时间。如Owan使用模拟退火算法最小化数据传输时间。在每一次迭代训练中，网络中传输的模型参数或更新都可以经过简单加法操作以减少网络中的数据量，这样可大大减少网络拥塞，加快参数同步。然而，这些方案中并没有有效利用DML训练的特点，性能提升受限。

针对光广域网中多播数据传输的调度方案。在传统方案中，针对每一个多播数据传输需求，建立多棵斯坦纳树，通过建立整数线性规划模型，使用松弛等技术求解每棵树的速率及拓扑的构建，目标是最大化满足时间要求的多播数据传输需求。Geo-DML训练的目标是尽快地收敛到理想模型精度，在训练之前，并不能确定训练结束的时间。对于每一次迭代，目的是加快模型的同步，以尽快进入下一次迭代，并没有规定完成每一次迭代的截止时间。因此，这些最大化满足时间需求的多播数据传输并不适合Geo-DML。

因此，有必要提供一种基于聚合树的跨域分布式机器学习的带宽调度方法。

发明内容

本发明提供了一种基于聚合树的跨域分布式机器学习的带宽调度方法，结合可执行数据聚合的聚合树和可重构光广域网拓扑，提出了RATree（ReconfigurableAggregation Tree）带宽调度方法，即对于每一个Geo-DML训练任务，定制化最适合的网络拓扑并为聚合树分配适合的带宽。

为实现上述目的，本发明采用了如下技术方案：

一种基于聚合树的跨域分布式机器学习的带宽调度方法，包括如下步骤：

步骤1：建立包含所有LMSN节点的聚合树；

步骤2：初始化聚合树上每条链路的初始波长为0，即链路的波长

；

步骤3：基于聚合树获取聚合树上每条链路的变量

；

步骤4：基于变量

计算出波长

；

骤5：检测聚合树上所有边的波长约束；若所有边都检测完成，则转至步骤7，否则，对于未检测的边e，计算经过边e的所有链路的波长之和，若经过边e的所有链路的波长之和小于或等于边e的波长容量，则转至步骤5，否则转至步骤6；

步骤6：对于经过边e的任意链路

，更新波长

，

并转至步骤5；

其中，

为波长；

为边e的波长容量；

步骤7：检测聚合树上所有节点的波长约束，若所有节点都检测完成，则转至步骤9，否则，对于未检测的节点v,计算经过节点v的所有链路的波长之和，若经过节点v的所有链路的波长之和小于或等于节点v的波长容量，则转至步骤7，否则转至步骤8；

步骤8：对于经过节点v的任意链路

，更新波长

，

并转至步骤7；

其中，

为波长；

为节点v的波长容量；

步骤9：获得聚合树上所有链路的波长分配集合

后，对于网络中的其它边，在满足节点和边的波长容量约束下，给所述其它边随机分配波长，从而得到新拓扑

其中，节点

和边

分别代表ROADM及ROADM间的光纤，

是指给网络中所有边分配的波长集合；

步骤10：返回波长分配集合

及新拓扑

，至此，带宽调度完成。

本发明公开的一个实施例中，步骤3中，使用线性规划求解器求解如下公式：

，

；

，

；

得到聚合树上每条链路的变量

；

其中，

为聚合树上节点v的完成时间，即节点v上准备好数据的时间；

为聚合树上节点

的完成时间，即节点

上准备好数据的时间；

为模型大小；

为波长的带宽；

为节点v的父节点和子节点的数量之和；

为节点v的波长容量；

为边e的波长容量；

为经过边e的所有链路总数；

为从节点

到

的有向链路；

为指示函数，是指链路

是否包含节点v；

为指示函数，是指链路

是否经过边e。

本发明公开的一个实施例中，步骤4中，根据

计算出波长

；其中，

为波长；

为模型大小；

为波长的带宽；

为链路的变量。

本发明公开的一个实施例中，步骤5中，检测聚合树上所有边的波长约束；若所有边都检测完成，则转至步骤7，否则，对于未检测的边e，计算经过边e的所有链路的波长之和

若

则转至步骤5，否则转至步骤6；

其中，

为波长；

为边e的波长容量；

为指示函数，是指边

是否包含节点v。

本发明公开的一个实施例中，步骤7中，检测聚合树上所有节点的波长约束，若所有节点都检测完成，则转至步骤9，否则，对于未检测的节点v，计算经过节点v的所有链路的波长之和

若

则转至步骤7，否则转至步骤8；

其中，

为波长；

为指示函数，是指链路

是否包含节点v；

为节点v 的波长容量。

综上所述，本发明至少具有以下有益效果：

本发明在全局模型同步阶段，使用了聚合树结构，可有效减少跨广域网传输的参数量，加快参数同步；

本发明可以针对不同训练任务，为聚合树的每条边分配适合的带宽，促进参数聚合和分发，提升训练效率；

本发明可以利用光广域网的可重构特性，根据不同训练任务的不同聚合树，重新配置适合该训练任务的广域网拓扑，根据训练任务信息定制化拓扑结构，提高了带宽利用率；

本发明结合可执行数据聚合的聚合树和可重构光广域网拓扑，提出了RATree（Reconfigurable Aggregation Tree）方案，即对于每一个Geo-DML训练任务，定制化最适合的网络拓扑并为聚合树分配适合的带宽。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一些实施例中所涉及的基于聚合树的跨域分布式机器学习的带宽调度方法的方法步骤示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明实施例。此外，本发明实施例可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

下面结合附图对本发明的实施例进行详细说明。

如图1所示，本实施例提供了一种基于聚合树的跨域分布式机器学习的带宽调度方法，包括如下步骤：

步骤1：建立包含所有LMSN节点的聚合树；

；

步骤3：基于聚合树获取聚合树上每条链路的变量

；

步骤4：基于变量

计算出波长

；

步骤5：检测聚合树上所有边的波长约束；若所有边都检测完成，则转至步骤7，否则，对于未检测的边e，计算经过边e的所有链路的波长之和，若经过边e的所有链路的波长之和小于或等于边e的波长容量，则转至步骤5，否则转至步骤6；

步骤6：对于经过边e的任意链路

，更新波长

，

并转至步骤5；

其中，

为波长；

为边e的波长容量；

步骤8：对于经过节点v的任意链路

，更新波长

，

并转至步骤7；

其中，

为波长；

为节点v的波长容量；

步骤9：获得聚合树上所有链路的波长分配集合

其中，节点

和边

分别代表ROADM及ROADM间的光纤，

是指给网络中所有边分配的波长集合；

步骤10：返回波长分配集合

及新拓扑

，至此，带宽调度完成。

在一些实施例中，步骤3中，使用线性规划求解器求解如下公式：

，

；

，

；

得到聚合树上每条链路的变量

；

其中，

为聚合树上节点

的完成时间，即节点

上准备好数据的时间；

为模型大小；

为波长的带宽；

为节点v的父节点和子节点的数量之和；

为节点v的波长容量；

为边e的波长容量；

为经过边e的所有链路总数；

为从节点

到

的有向链路；

为指示函数，是指链路

是否包含节点v；

为指示函数，是指链路

是否经过边e。

在一些实施例中，步骤4中，根据

计算出波长

；其中，

为波长；

为模型大小；

为波长的带宽；

为链路的变量。

在一些实施例中，步骤5中，检测聚合树上所有边的波长约束；若所有边都检测完成，则转至步骤7，否则，对于未检测的边e，计算经过边e的所有链路的波长之和

若

则转至步骤5，否则转至步骤6；

其中，

为波长；

为边e的波长容量；

为指示函数，是指边

是否包含节点v。

在一些实施例中，步骤7中，检测聚合树上所有节点的波长约束，若所有节点都检测完成，则转至步骤9，否则，对于未检测的节点v，计算经过节点v的所有链路的波长之和

若

则转至步骤7，否则转至步骤8；

其中，

为波长；

为指示函数，是指链路

是否包含节点v；

为节点v 的波长容量。

综上，本发明的发明构思如下：

本方案主要针对跨域的全局模型同步阶段GMS，不关注数据中心内部的局部模型同步LMS。由于树结构可以有效减少网络中传输的数据量，本方案结合可重构的光广域网拓扑和树结构来优化全局模型同步时间（Global Model Synchronization Time，GMST）。对于节点固定的树结构，不同的网络拓扑结构和不同的波长分配都会使得聚合树上的边的带宽不同，则模型参数经聚合树执行全局同步的完成时间也不同。因此，需要合理地规划网络拓扑及聚合树上边的带宽。对于每一个Geo-DML训练任务，首先建立一棵包含所有LMSN节点的聚合树，然后建立数学模型，经过等式变换等操作最后求解出新拓扑的结构及树上每条边分配的带宽。本发明所要解决的问题：在光广域网中，如何配置树中每条边的带宽才能最小化每一轮迭代的全局模型同步时间。

首先，网络模型中，把整个光广域网抽像成一个无向图

,其中节点

和边

分别代表ROADM及ROADM间的光纤，

表示为光纤分配的初始波长。受光学技术和光应答器数量的限制，每条光纤和ROADM上能承载的波长数量是有限的，即边和节点的波长约束。假设每一个节点

和每一条边

分配的最大波长数量分别为

和

。另外，一条边可以允许在两个方向上传输数据，因此为每条边引入两条虚拟定向链路，且这两条定向链路上分配的波长总数不超过边的最大波长容量。

接着，数学模型中，本方案的目标是通过利用可重构拓扑来重新构建Geo-DML任务的聚合树来减少GMST，这涉及到为树的每条边分配波长。对于每一棵树，由于没有其它树共享同一条边或链路，则为该树的每条边分配波长就相当于分配带宽。因此，给定训练任务的聚合树，本方案需要根据当前广域网状态，同时考虑ROADM(节点)和光纤(边)约束，确定树中每条边的波长分配，然后将剩余的波长分配给其他光纤，从而得到一个新的拓扑结构。假设全局模型同步过程中的参数聚合和分发使用相同的路径和速率，则本方案只需要优化参数聚合阶段。

建立数学模型如下：

（1）

（1a）

，

（1b）

，

，

，

，

（1c）

（1d）

，

（1e）

其中，公式（1）是模型的目标，即最小化聚合阶段的完成时间。当根节点收到所有子节点的数据后，执行数据聚合并更新参数，并把新参数按原路径分发到每个LMSN节点。约束（1a）是节点约束，对于聚合树上的任意节点v，它到父节点和到子节点的所有链路上分配的波长总数不能大于节点v的最大波长容量。其中指示函数

是指链路

是否包含节点v。约束（1b）是指每条边上的链路分配的波长总和要满足边的波长约束。其中指示函数

代表边

是否经过边e。约束（1c）表示对于每个具有子节点的节点，其完成时间等于最慢的子节点传输时间。

表示从节点

到v的有向链路。约束（1d）表示当所有节点完成数据聚合时参数聚合阶段才完成。

由于约束（1c）不是线性的，不能使用线性规划（Linear Programming，LP）求解器进行求解。因此，引入新变量

则约束（1a）、约束（1b）、约束(1c)依次变为：

(1f)

(1g)

(1h)

注意，约束（1f）不是线性的，根据平均值不等式

可得：

其中，

是指节点v的父节点和子节点的数量之和，进而可得：

(1i)

同样地，约束（1g）可变为：

(1j)

其中，

表示经过边e的所有链路总数。

经过上述变换，公式（1）可变为：

（2）

，

(1h）

(1i）

(1j）

，

（1d）

至此，公式（2）的约束全部是线性的，可以用LP求解器直接求解。当得到

后，可以通过

计算出

。然而，得到的

并不总能满足约束（1a）和（1b），约束（1i）和(1j)扩展并改变了初始的

，因此需要调整

以满足约束。

虽然根据

得到的

不能总是满足节点和边的约束，但得到的值也能反映链路上波长分配的趋势。因此，从聚合树的根节点开始，对于每条链路

，RATree根据

按比例逐个修正

值，直到所有节点和边都满足波长约束，具体步骤如下：

输入：

1、模型大小S

2、节点的波长容量

3、边的波长容量

4、波长的带宽C

5、子节点集合

输出：聚合树上链路波长

以及新拓扑

。

步骤1：建立一棵包含所有LMSN节点的聚合树；

步骤2：初始化聚合树上每条链路的初始波长为0，即链路波长

；

步骤3：使用LP求解器求解公式（2），得到聚合树上每条链路的

；

步骤4：根据

计算出

；

步骤5：检测聚合树上所有边的波长约束，若所有边都检测完成，则转至步骤7，否则对于未检测的边e，计算经过边e的所有链路的波长之和

，若

，则转至步骤5，否则转至步骤6；

步骤6：对于经过边e的任意链路

，更新

，转至步骤5；

步骤7：检测聚合树上所有节点的波长约束，若所有节点都检测完成，则转至步骤 9，否则对于未检测的节点v,计算经过节点v的所有链路的波长之和

，如果

，则转至步骤7，否则转至步骤8；

步骤8：对于经过节点v的任意链路

，更新

，转至步骤7；

步骤9：获得聚合树上所有链路的波长分配

后，对于网络中的其它边，在满足节点和边的波长容量约束下，给这些边随机分配波长，从而得到新拓扑

，其中

是指给网络中所有边分配的波长集合，其中每一个元素

代表为边e分配的

个波长；

步骤10：返回

及

。

至此，配置完树中每条边的带宽，以及得到新的网络拓扑结构。

本发明中所用到的符号定义：

Geo-DML：跨域分布式机器学习(Geo-Distributed Machine Learning)；

DML：分布式机器学习(Distributed Machine Learning)；

RATree：可重构聚合树算法(Reconfigurable Aggregation Tree)；

GMS：全局模型同步(Global Model Synchronization)；

LMS：本地模型同步(Local Model Synchronization)；

LMSN：本地模型同步节点(Local Model Synchronization Node)；

ROADM：可重构的光分插复用器(Reconfigurable Optical Add DropMultiplexer)；

GMST：全局模型同步时间(Global Model Synchronization Time)；

：节点v的波长容量；

：边e的波长容量；

：聚合树上的链路集合；

：聚合树上的节点集合；

：聚合树上的边集合；

：模型大小；

：一个波长的带宽；

：聚合树上节点v的子节点集合；

：有向链路

上分配的波长；

：全局模型同步阶段的聚合过程的完成时间；

：聚合树上节点v的完成时间，即节点v上准备好数据的时间；

：线性规划（Linear Programming）。

为了进一步说明本发明的技术方案，下面简单列举本发明在实际中的应用：

一是本发明在套现风险评估中的应用示例

套现，套取现金的简称，一般是指用违法或虚假的手段交换取得现金利益。排查套现的效率和准确率已成为银行关注的风控热点问题之一。目前，很多银行在全球各个地方都有分行，每个银行为当地用户服务，当地银行系统中也存储着用户相关数据信息，如交易记录。银行风控人员通过分析这些交易记录，可以排查套现风险。但通过人工分析或传统套现规则识别套现行为容易发生误判、漏判。使用机器学习可以帮助风控人员分析、挖掘出隐藏更深的非法套现行为，有效提升套现风险评估的效率和准确率。为了建立一个更加高效、完整的套现判定模型，需要使用这些分布在全球的各个银行的交易数据，但受制于隐私、数据保护等约束，不可能把所有数据跨越广域网集中到一个银行的数据中心执行机器学习模型训练。因此，这些银行分支可以通过广域网共同训练套现判定模型。

本发明的技术方案在此进行应用的使用步骤如下：

（1.1）根据RATree计算出全局模型传输相关的新拓扑及聚合树带宽分配方案X，通过调整可重构的光分插复用器（ROADM）为每条光纤分配波长，使得原拓扑变成新拓扑；

（1.2）为每个银行分配一个初始套现判定模型；

（1.3）每个银行根据本地的交易数据及分配到的模型进行训练；

（1.4）本地银行被称为LMSN的节点把训练好的本地模型的参数或更新按照方案X发送到父节点或者等待其子节点的数据，当父节点执行完数据聚合后，再把新数据发送到它的父节点，直到根节点执行完数据聚合；

（1.5）最后根节点把更新后的模型沿聚合树原路发送给每个银行，再重复步骤（1.3-1.5）。

按照上述步骤迭代多次到模型收敛。最后，每个银行就拥有了一个比较完整的套现判定模型，通过输入交易信息，通过该模型可以判定是否存在套现风险。

二是本发明在运营商客户行为分析中的应用示例

目前，很多地区同时存在多家运营商，每个用户都可以从中选择一家或多家运营商，运营商之间的竞争也越来越激烈。为了有效维护在网用户或减少用户的流失，对运营商客户行为进行分析是非常有必要的。对于每一家运营商，为了建立一个更加高效、完整的客户行为分析判定模型，需要使用这些分布在全球的各个运营商分支的用户信息，但受制于隐私、数据保护等约束，不可能把所有数据跨越广域网集中到一个运营商分支的数据中心执行机器学习模型训练。因此，这些运营商分支可以通过广域网共同训练客户行为判定模型。

本发明的技术方案在此进行应用的使用步骤如下：

（2.1）根据RATree计算出全局模型传输相关的新拓扑及聚合树带宽分配方案X，通过调整可重构的光分插复用器（ROADM）为每条光纤分配波长，使得原拓扑变成新拓扑；

（2.2）为每个运营商分支分配一个初始套现判定模型；

（2.3）每个运营商分支根据本地的用户数据及分配到的模型进行训练；

（2.4）本地运营商分支被称为LMSN的节点把训练好的本地模型的参数或更新按照方案X发送到父节点或者等待其子节点的数据，当父节点执行完数据聚合后，再把新数据发送到它的父节点，直到根节点执行完数据聚合；

（2.5）最后根节点把更新后的模型沿聚合树原路发送给每个运营商分支，再重复步骤（2.3-2.5）。

按照上述步骤迭代多次到模型收敛。最后，每个运营商分支就拥有了一个比较完整的客户行为判定模型，通过输入用户相关信息，通过该模型可以判定用户行为，比如是否存在离网意愿。

综上，本发明技术方案带来的有益效果为：

(1)在全局模型同步阶段，使用了聚合树结构，可有效减少跨广域网传输的参数量，加快参数同步。

(2)针对不同训练任务，为聚合树的每条边分配适合的带宽，促进参数聚合和分发，提升训练效率。

(3)利用光广域网的可重构特性，根据不同训练任务的不同聚合树，重新配置适合该训练任务的广域网拓扑。根据训练任务信息定制化拓扑结构，提高了带宽利用率。

值得注意的是，将本发明应用在除上述涉及的其他领域外时，只需要更换相关训练数据即可。

以上所述实施例是用以说明本发明，并非用以限制本发明，所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。

由以上详细说明，可使本领域普通技术人员明了本发明的确可达成前述目的，实已符合专利法的规定。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以完全由硬件实施、可以完全由软件（包括固件、常驻软件、微代码等）实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

Claims

1.一种基于聚合树的跨域分布式机器学习的带宽调度方法，其特征在于，包括如下步骤：

步骤1：建立包含所有本地模型同步节点的聚合树；

步骤2：初始化聚合树上每条链路的初始波长为0，即链路的波长w_l＝0；

步骤3：基于聚合树获取聚合树上每条链路的变量p_l；

步骤4：基于变量p_l计算出波长w_l；

步骤5：检测聚合树上所有边的波长约束；若所有边都检测完成，则转至步骤7，否则，对于未检测的边e，计算经过边e的所有链路的波长之和∑_lw_lI(v∈e)；

若∑_lw_lI(v∈e)≤R_e，则转至步骤5，否则转至步骤6；

其中，w_l为波长；R_e为边e的波长容量；I(v∈e)为指示函数，是指边e是否包含节点v；

步骤6：对于经过边e的任意链路l，更新波长w_l，

并转至步骤5；

其中，w_l为波长；R_e为边e的波长容量；

步骤7：检测聚合树上所有节点的波长约束，若所有节点都检测完成，则转至步骤9，否则，对于未检测的节点v，计算经过节点v的所有链路的波长之和∑_lw_lI(v∈l)；

若∑_lw_lI(v∈l)≤Q_v，则转至步骤7，否则转至步骤8；

其中，w_l为波长；I(v∈l)为指示函数，是指链路l是否包含节点v；Q_v为节点v的波长容量；

步骤8：对于经过节点v的任意链路l，更新波长w_l，

并转至步骤7；

其中，w_l为波长；Q_v为节点v的波长容量；

步骤9：获得聚合树上所有链路的波长分配集合[w_l]后，对于网络中的其它边，在满足节点和边的波长容量约束下，给所述其它边随机分配波长，从而得到新拓扑G＝(D，F，W)；

其中，节点D和边F分别代表可重构的光分插复用器及可重构的光分插复用器间的光纤，W是指给网络中所有边分配的波长集合；

步骤10：返回波长分配集合[w_l]及新拓扑G＝(D，F，W)。

2.根据权利要求1所述的基于聚合树的跨域分布式机器学习的带宽调度方法，其特征在于，步骤3中，使用线性规划求解器求解如下公式：

mint

t_v-t_v′≥p_l，l＝(v′，v)；

得到聚合树上每条链路的变量p_l；

其中，t_v为聚合树上节点v的完成时间，即节点v上准备好数据的时间；t_v′为聚合树上节点v′的完成时间，即节点v′上准备好数据的时间；S为模型大小；C为波长的带宽；n_v为节点v的父节点和子节点的数量之和；Q_v为节点v的波长容量；R_e为边e的波长容量；n_e为经过边e的所有链路总数；(v′，v)为从节点v′到v的有向链路；I(v∈l)为指示函数，是指链路l是否包含节点v；I(l∈e)为指示函数，是指链路l是否经过边e。

3.根据权利要求1所述的基于聚合树的跨域分布式机器学习的带宽调度方法，其特征在于，步骤4中，根据

计算出波长w_l；其中，w_l为波长；S为模型大小；C为波长的带宽；p_l为链路的变量。