CN117436547A

CN117436547A - 一种动态联邦学习的集群划分方法、终端及边缘服务器

Info

Publication number: CN117436547A
Application number: CN202311542722.5A
Authority: CN
Inventors: 刘贻静; 冯钢; 秦爽; 李晓倩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-01-23

Abstract

本发明公开了一种动态联邦学习的集群划分方法、终端及边缘服务器，涉及联邦学习技术领域，其技术方案要点是：按每个终端本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；依据集群头执行同一集群内所有终端的本地模型聚合训练，当聚合训练完成时，获得集群模型，将集群模型发送至边缘服务器；每个集群的集群头接收边缘服务器下发的全局模型，并将全局模型发送至集群内的终端，终端根据全局模型执行第r+1次通信回合中的本地模型更新；其中全局模型是边缘服务器对接收到任意一个集群发送的集群模型均执行一次异步聚合得到的。

Description

一种动态联邦学习的集群划分方法、终端及边缘服务器

技术领域

本发明涉及联邦学习技术领域，更具体地说，它涉及一种动态联邦学习的集群划分方法、终端及边缘服务器。

背景技术

联邦学习(FederatedLearning，FL)因具有促进机器学习模型的协作训练、保护用户个人隐私和数据安全等优点，在无线网络中得到广泛应用。然而，由于无线网络中多维资源(例如计算资源和通信资源)异构，参与联邦学习(FederatedLearning，FL)训练的终端(UserEquipment，UE)在学习效率和性能上会有所差异，这便产生了落后者。落后者是指在训练过程，更新和/或传输本地模型相对较慢的终端。对于落后者存在的联邦学习机制，其学习效率和性能都将受到明显的限制。一方面，用于更新本地模型的计算资源异构会扩大终端之间的性能差距(例如，模型训练时间)。另一方面，终端频繁地与边缘服务器通信以在异构无线环境中进行本地/全局模型传输，其中脆弱的无线链路会限制传输本地/全局模型的时间。然而，落后者在联邦学习的训练过程中发挥着重要作用，因为它们通常大量存在于无线网络中，并且可能包含不同于其他终端的本地数据/信息。因此，需要探索一种可持续的方法来减少或者迁移落后者造成的影响，同时保证学习效率和性能。

为减少或者迁移落后者造成的影响，同时保证学习效率和性能，目前的一些现有技术提出了减少落后者影响的各种解决方案，具体如下：方案1通过限制模型陈旧性的同步触发机制来减轻落户者掉队效应，提出了一种基于模型差异感知的半异步集群联邦学习框架。方案2通过限制一些训练缓慢的设备参与模型训练，提出了一个时间敏感的联邦学习框架，以最大限度地减少整体运行时间，减少落后者效应的影响，并且以理想的精度协作训练共享的机器学习模型。方案3通过减少落后者承担的计算任务缓解落后者效应，提出了一种深度强化学习方法来学习网络状况和终端的算力，并且自适应地为终端分配训练强度。然而，在上述方案1-3中，都限制终端参与全局聚合，丢弃了部分落后者的模型，忽略了无线接入网中资源有限，这会严重降低学习效率。为了有效应对无线网络中资源有限以及客户端算力异构带来的落后者问题，方案4通过构建一个高效的集群拓扑，设计了一种高效的分层聚合方法进行训练，有效地提升了收敛速度并且减少了网络流量。然而，忽略了无线资源以及无线链路传输模型的不稳定因素，以及动态变化的无线环境对集群划分的影响。

因此，如何减轻由于网络资源(包括计算资源和无线通信资源)异构带来的落后者效应，同时如何减轻无线环境动态变化的影响，使得联邦学习在训练过程中的精确度和收敛时间得以提高，是目前亟需解决的问题。

发明内容

本申请的目的是提供一种动态联邦学习的集群划分方法、终端及边缘服务器，本发明解决了由于网络资源(包括计算资源和无线通信资源)异构带来的落后者效应，同时如何减轻无线环境动态变化的影响，提高了联邦学习在训练过程中的精确度和加减少了训练过程中的收敛时间。

本申请的上述技术目的是通过以下技术方案得以实现的：

本发明的第一方面，提供了一种动态联邦学习的集群划分方法，应用于终端，方法包括：

按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数；

依据集群头执行同一集群内所有终端的本地模型聚合训练，当聚合训练完成时，获得集群模型，将所述集群模型发送至边缘服务器；

每个集群的集群头接收边缘服务器下发的全局模型，并将全局模型发送至集群内的终端，终端根据全局模型执行第r+1次通信回合中的本地模型更新；其中所述全局模型是边缘服务器对接收到任意一个集群发送的集群模型均执行一次异步聚合得到的。

在一种实现方式中，根据每个终端在单次通信回合内对本地模型的更新时间和传输时间，计算出每个终端在第r次通信回合内本地模型的训练时间。

在一种实现方式中，簇头的数学表达式为：其中，n_u表示第u个集群中的终端数目，/>表示三维向量，i表示集群u中的第i个终端；

集群的训练时间平均差的数学表达式：其中，/>表示集群头的三维向量；

同一集群内的终端之间训练时间的最大差异值的数学表达式为：其中，j表示集群u中的第j个终端。

在一种实现方式中，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，包括：

步骤a，依据终端的训练时间大小顺序，确定终端的排列顺序，并以排列顺序的最小训练时间的终端作为起点，作为第一个集群的集群头；

步骤b，对于一个待划分的终端，若根据排列顺序确定的与待划分的终端相邻的终端之间的训练时间的最大差异值小于阈值，且终端数量与集群总数目U的差值小于等于分枝因子，则将待划分的终端划分到相邻终端所属的集群中，并重新确定所属的集群当前终端的训练时间的最小值，将训练时间为最小值的终端作为所属的集群的集群头，否则，以待划分的终端为集群头创建一个新的集群，并将待划分的终端作为新的集群的集群头；

步骤c，重复执行步骤b，当在一个无线网络环境中的终端总数量N全部输入后，获得集群的划分结果。

在一种实现方式中，所述依据集群头执行同一集群内所有终端的本地模型聚合训练的表达式为：

H_min＜＜h＜＜H_max，其中，η表示步长，t表示训练时间索引，r表示通信回合索引，H_min和H_max分别表示本地最少迭代次数和本地最大迭代次数，表示第n个终端在第r次通信回合中第h-1次本地迭代的本地模型，/>表示本地损失函数的梯度。

本发明的第二方面，提供了一种动态联邦学习的集群划分方法，应用于边缘服务器，方法包括：

接收来自作为集群头的终端发送的集群模型，其中，集群头的确定过程具体为：按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数；集群模型是集群头执行同一集群内所有终端的本地模型聚合训练得到的；

对接收到任意一个集群发送的集群模型均执行一次异步聚合，获得全局模型，并将所述全局模型下发至每个集群的集群头。

在一种实现方式中，对接收到任意一个集群发送的集群模型均执行一次异步聚合的数学表达式为：ω_T＝(1-α_t)ω_T-1+α_tω_u,r，其中，α_t∈(0,1)表示混合超参数，ω_T表示异步聚合第T轮全局迭代产生的全局模型，ω_T-1表示异步聚合第T-1轮全局迭代产生的全局模型，ω_u,r表示集群u在第r次集群迭代时候的集群模型。

在一种实现方式中，混合超参数的计算式为：其中，N表示在一个无线网络环境中的终端总数量，U表示集群总数目。

本发明的第三方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本发明的第一方面提供的一种动态联邦学习的集群划分方法所执行的操作。

本发明的第四方面，还提供了一种边缘服务器，所述边缘服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如本发明的第二方面提供的一种动态联邦学习的集群划分方法所执行的操作。

与现有技术相比，本申请具有以下有益效果：

本发明提供的一种动态联邦学习的集群划分方法，为了减轻落后者的影响，同时考虑网络资源(包括计算资源和无线通信资源)异构且有限，以及无线网络动态变化的无线环境，设计了一种落后者感知的联邦学习集群划分方案。具体来说，根据计算资源和无线资源情况，对终端的训练时间作出评估。通过平衡迭代减少和聚类算法将所有训练时间相近的终端动态划分到多个集群中，并在划分过程中动态选择一个终端作为一个集群的集群头。与传统的联邦学习的训练过程不同，集群头首先在集群内对各个终端的本地模型执行同步聚合，得到集群模型，然后通过集群头将集群模型发送到边缘服务器。边缘服务器接收到任意一个集群模型都会执行一次异步全局聚合，得到全局模型，然后将异步全局聚合得到的全局模型发送回对应的集群头，再由集群头分发至集群内的终端。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1示出了本发明实施例的一种动态联邦学习的集群划分方法的流程示意图；

图2示出了现有技术提供的联邦学习使能的无线接入网的架构示意图；

图3示出了本发明实施例的落后者感知的联邦学习集群划分方案的架构示意图；

图4示出了本发明实施例的测试精度与训练次数(MNIST数据集的对比图；

图5示出了本发明实施例的测试损失值与训练次数的关系(MNIST数据集)的对比图；

图6示出了本发明实施例的测试精度与训练次数的关系(CIFAR 10数据集)的对比图；

图7示出了本发明实施例的测试损失值与训练次数的关系(CIFAR 10数据集)的对比图；

图8示出了本发明实施例的训练时间(MNIST数据集)的比较图；

图9示出了本发明实施例的训练时间(CIFAR 10数据集)的比较图。

图10示出了本发明实施例的一种动态联邦学习的集群划分方法的又一流程示意图。

具体实施方式

在下文中，可在本申请的各种实施例中使用的术语“包括”或“可包括”指示所申请的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本申请的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本申请作进一步的详细说明，本申请的示意性实施方式及其说明仅用于解释本申请，并不作为对本申请的限定。

对此，为了减轻落后者的影响，同时考虑网络资源(包括计算资源和无线通信资源)异构且有限，以及无线网络动态变化的无线环境，本文设计了一种落后者感知的联邦学习集群划分方案。具体来说，本文根据计算资源和无线资源情况，对终端的训练时间作出评估。通过改进层次结构的平衡迭代减少和聚类算法将所有训练时间相近的终端动态划分到多个集群中，并在划分过程中动态选择集群头。与传统联邦学习的训练过程不同，落后者感知的联邦学习集群划分方案中的集群头执行集群同步聚合，然后将集群模型发送到中央服务器。中央服务器接收到任意集群的模型都会执行一次异步全局聚合，然后将聚合得到的全局模型发送回终端。数值结果表明，本文所提出的落后者感知的联邦学习集群划分方案在精确度和收敛时间方面明显优于一些传统的解决方案。

下面将对本发明实施例提供的一种动态联邦学习的集群划分方法进行解释与说明，请参考图1，图1示出了本发明实施例提供的一种动态联邦学习的集群划分方法的流程示意图，如图1所示，该方法应用于终端，方法包括以下步骤：

S110，按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数。

在本实施例中，如图2所示，本实施例的应用场景考虑一个支持联邦学习的无线网络，它是由一个基站(Base Station,BS)，和与基站相关联的边缘服务器，以及N个终端组成，N为正整数。对于特定的终端UEn∈N,假设表示其数据集，其中|D_n|表示数据样本数目。在传统的联邦学习范式中，采用迭代方法来训练全局模型，其中每次全局模型更新迭代称为一次通信回合。一轮通信回合由四个阶段组成，包括局部模型更新、局部模型传输、全局模型聚合和全局模型传播。与传统的四阶段的范例不同，集群无线网络中的通信回合增加了额外的集群阶段，包括集群模型聚合和集群模型传输，下面简要介绍联邦学习启用无线边缘网络中通信回合的迭代过程。

在本地模型更新阶段，每个终端基于本地数据集训练其本地模型，以找到使本地损失最小化的最优本地模型/>其中，/>表示终端UEn的数据样本，其中，/>表示特定的UEn在第r轮通信回合中第h次本地迭代的本地模型，对于特定的终端UEn，其数据集D_n上的损失函数定义为：

其中，ω_T表示异步聚合第T轮全局迭代产生的全局模型，在本地模型训练过程中，每个终端在每次本地迭代中执行本地学习算法(例如梯度下降(Gradient Descent,GD)和演员-评论家(Actor-Critic,AC)算法以逐渐逼近最优解。本文使用GD算法来更新本地模型，如下：

H_min＜＜h＜＜H_max(2)，其中，η表示步长，t表示训练时间索引，r表示通信回合索引，H_min和H_max分别表示本地最少迭代次数和本地最大迭代次数，/>表示第n个终端在第r次通信回合中第h-1次本地迭代的本地模型，/>表示本地损失函数的梯度。

在执行H次本地训练后，集群内所有终端将它们的本地模型发送到集群头，集群头根据下式执行全局聚合：

其中，其中/>其中U表示集群数目，n_u表示集群u中的终端数目。集群头完成本地模型聚合后，将聚合后的集群模型发送给边缘服务器。在传统的联邦学习算法的训练机制中，边缘服务器总是通过同步聚合的方式来聚合全局模型，聚合规则为：

其中/>

在一实施例中，根据每个终端在单次通信回合内对本地模型的更新时间和传输时间，计算出每个终端在第r次通信回合内本地模型的训练时间。

具体而言，对于联邦学习算法的训练时间而言，假设表示第n个终端在第r次通信回合中的训练时间估计，包括本地模型的更新时间/>和本地模型的传输时间/>则第n个终端在第r次通信回合中的本地训练时间表示为：/>其中，本地模型更新时间由数据样本量和计算资源决定，而本地模型传输时间受无线信道和无线带宽的影响。为了减轻本地模型更新时间和本地模型传输时间可能存在的数量级差异所产生的影响，通过分别归一化本地模型更新时间和本地模型传输时间来统一训练时间估计指标，如下所示：/>其中，T^max,C和T^max,B分别表示本地模型更新时间和本地模型传输时间的阈值。

进一步的，对于本地模型的更新时间而言，对于特定的第n个终端，假设其计算能力用表示。可以理解的是，计算能力在通信回合中是固定的。此外，令s_n表示在特定的第n个终端计算一个数据样本所需的中央处理器(CentralProcessingUnit,CPU)周期数，由此可以计算出特定的第n个终端更新一次本地模型所需的CPU周期数，即sn|Dn|，其中s_n是一个常量。因此，在第r次通信回合中，特定的第n个终端的本地模型更新时间可以由下式给出：/>从中可以对本地模型更新时间进行排序，即其中n,n'∈N。

对于本地模型的传输时间而言，假设所有本地模型的规模是恒定的，并用a表示本地模型的传输量。此外，假设UEn在时刻t的传输速率由表示。因此，本地模型传输时间可以表示为：/>其中/>具体地，b^t _n表示在时刻t传输本地模型时，基站分配给UEn的上行链路带宽，/>表示在UEn和基站之间在时刻t的信号与干扰加噪声比信干噪(Signal-to-Interference-plus-NoiseRatio,SINR)。

一般来说，在联邦学习使能的无线边缘网中，主要目标是在资源约束下最小化全局损失函数，如下所示：其中，(9.1)-(9.5)分别代表训练时间约束、带宽约束、计算能力约束、集群数目约束和本地迭代次数约束。在式(9)中，由于无线边缘网络不稳定的无线环境影响终端的聚类，训练时间相近的终端被及时分配到同一个簇，此时需要采用动态聚类方法。将具有相似训练时间的终端分组到各个簇中可以减少落后簇对联邦学习性能的负面影响。因此，本实施例设计了一种基于动态落后感知聚类的学习机制，称为FeDSC，根据无线信道状态和终端容量自适应地对终端进行聚类。

使用层次结构的平衡迭代缩减和聚类(Balanced iterative reducing andclustering using hierarchies，BIRCH)算法可以通过有效构建聚类特征(Clusteringfeature,CF)树结构来有效适应动态无线边缘网络和掉队者。但由于动态网络资源和脆弱的无线链路的限制，传统的BIRCH算法可能不适合无线边缘网络。因此，通过设计基于改进的多维BIRCH算法的自适应聚类方案，提出了一种动态的落后者感知联邦学习机制(Dynamicstraggler-aware clustering based FL mechanism，FeDSC)。如图3所示，FeDSC分以下三个阶段进行：

第一阶段、根据训练时间估计对终端进行聚类：首先评估所有终端的训练时间，根据训练时间将终端进行集群划分，即U＝{1,2,...，U}。对于特定的集群u∈U，它由具有相似训练时间估计T_u的终端组成，其中T₁<T₂<…<T_u<…<T_U。

与传统基于概率或距离的BIRCH算法不同，我们基于簇的训练时间估计定义了一个三维CF向量，如下：

给定集群u中的第n个终端，表示为i＝{1,...,n_u}。则集群u的聚类特征树的三维向量定义为/>其中/>

通过使用CF，可以导出一个集群的关键划分集群信息，包括簇头集群的训练时间平均差/>同一集群内的终端之间训练时间的最大差异值对于具有特定聚类特征树的三维向量的两个不相交的集群u和u’，本文给出两个集群合并形成的集群的CF，如下：

S120，依据集群头执行同一集群内所有终端的本地模型聚合训练，当聚合训练完成时，获得集群模型，将所述集群模型发送至边缘服务器。

本实施例中，第二阶段，同步簇聚合：在一个集群u∈U中，选择具有最短训练时间估计的终端作为集群头(Cluster header,CH)。一旦集群头接收到集群中最慢的终端的本地模型，集群头执行集群模型全局聚合，并将聚合得到的集群模型发送到边缘服务器。

S130，每个集群的集群头接收边缘服务器下发的全局模型，并将全局模型发送至集群内的终端，终端根据全局模型执行第r+1次通信回合中的本地模型更新；其中所述全局模型是边缘服务器对接收到任意一个集群发送的集群模型均执行一次异步聚合得到的。

本实施例中，第三阶段，在边缘服务器上的异步全局聚合：在传统的联邦学习中，边缘服务器仅在接收到各个终端上传的所有模型时才进行全局模型聚合。而在本实施例提供的异步全局聚合中，边缘服务器一旦接收到任何一个集群模型就更新全局模型，无论是否接收到所有集群头发送的集群模型。

边缘服务器针对异步全局聚合后所得的全局模型，会将其发送各自的集群头中，而后，由集群头分发至所属集群内的各个终端上，而后，终端根据全局模型执行第r+1次通信回合中的本地模型更新，是属于本领域技术的公知技术，本实施例不做多余说明。

在一些实施例中，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，包括：

在本实施例中，合并集群的结果受两个参数影响，分别是：分支因子β和阈值具体来说，每个集群头最多包含β个终端，其中β≤N-U。此外，同一集群内的终端之间训练时间的最大差异值小于阈值参数/>现在开始对UE划集群划分，终端划分集群主要有以下两个步骤：

步骤I：集群划分。首先按训练时间的顺序依次输入终端的聚类特征树的三维向量。对于一个特定终端，如果同一集群内的终端之间训练时间的最大差异值小于阈值参数并且N-U≤β，则该终端被划分到集群u中。否则，该终端创建一个新的集群并且视为集群头。注意，如果已有多个簇满足同一集群内的终端之间训练时间的最大差异值小于阈值参数/>和N-U≤β，则终端将根据/>被划分到最优的集群。

步骤II：集群头动态选择。当终端被划分到现有集群时，集群的时间训练结构会发生变化。因此，需要根据重新选择集群头。

重复上述步骤，直到输入所有UE，则会得到集群划分结果U＝{Cluster 1,...,Clusteru,...,ClusterU}。请注意，集群的数量和同一集群内UE训练时间的差异都受的影响。具体来说，/>越大，差异越大，集群越少。同时，对于特定的集群u，假设tu＝表示集群u内完成一次通信回合的时间。因此，有t₁<t₂<...<t_u<...<t_U。

故而，结合上述步骤I-II，在每轮通信开始时重新构建簇。一旦完成聚类，同一簇中的终端更新本地模型并将其发送到簇头。当接收到最慢的终端的本地模型时，簇头执行同步簇模型聚合并将聚合后的簇模型发送回关联的终端，同时，簇头将簇全局聚合得到的集群模型发送到边缘服务器。边缘服务器一旦接收到集群模型，边缘服务器执行异步全局聚合，并将异步全局聚合得到的全局模型下发到各个集群头。

在一些实施例中，所述依据集群头执行同一集群内所有终端的本地模型聚合训练的表达式为：H_min＜＜h＜＜H_max，其中，η表示步长，t表示训练时间索引，r表示通信回合索引，H_min和H_max分别表示本地最少迭代次数和本地最大迭代次数，/>表示第n个终端在第r次通信回合中第h-1次本地迭代的本地模型，/>表示本地损失函数的梯度。

下面将对本发明实施例提供的一种动态联邦学习的集群划分方法进行解释与说明，请参考图10，图10示出了本发明实施例提供的一种动态联邦学习的集群划分方法的流程示意图，如图10所示，该方法应用于边缘服务器，方法包括以下步骤：

S1010，接收来自作为集群头的终端发送的集群模型，其中，集群头的确定过程具体为：按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数；集群模型是集群头执行同一集群内所有终端的本地模型聚合训练得到的。

本实施例中，关于在终端部分的集群划分以及集群头的选择已经在上文叙述清楚，故此，本实施例不做多余的说明。

S1020，对接收到任意一个集群发送的集群模型均执行一次异步聚合，获得全局模型，并将所述全局模型下发至每个集群的集群头。

本实施例中，在传统的联邦学习中，本地迭代H次的时间对于不同的集群是不同的。如果边缘服务器在接收到所有集群模型后进行全局模型聚合，训练时间会非常长。而异步聚合集群模型可以很好地解决问题，即，如果边缘服务器接收到任何一个集群模型，则在全局模型的基础上执行一次集群模型聚合。

在无线边缘网络中，由于多维资源的限制和异构性引入了落后者，上文提供的式(4)中的同步全局模型聚合方法会显着减慢整个联邦学习的训练过程的收敛速度。因此，为了减少落后者的负面影响，本实施例在集群无线边缘网络中采用异步全局模型聚合方法。具体地，边缘服务器一旦接收到集群头发送的任意集群模型，对接收到任意一个集群发送的集群模型均执行一次异步聚合，异步聚合的规则如下：ω_T＝(1-α_t)ω_T-1+α_tω_u,r；其中，α_t∈(0,1表示混合超参数，ω_T表示异步聚合第T轮全局迭代产生的全局模型，ω_T-1表示异步聚合第T-1轮全局迭代产生的全局模型，ω_u,r表示集群u在第r次集群迭代时候的集群模型。相应地，混合超参数的计算式为：其中，N表示在一个无线网络环境中的终端总数量，U表示集群总数目。

综合上文提供的划分方法，评估了学习精度和损失值的性能，并且检查了收敛时间以及带宽消耗的性能，使用数值仿真结果验证了本章所提出的FeDSC的有效性。比较算法包括：

1)、具有周期性模型平均的联邦学习(FederatedLearningwithPeriodicModelAveraging,FedAvg)：在本方案中，所有终端都参与训练。当服务器在一定的时间阈值内接收到所有终端的本地模型，则进行全局模型聚合。否则，边缘服务器聚合在该时间阈值内收到的所有本地模型。完成聚合后，边缘服务器将全局模型发送回终端，终端接收到全局模型后开始下一通信回合中的本地模型更新。

2)、基于启发式划集群划分的具有周期性模型平均的联邦学习算法(Feder-atedLearningwithPeriodicModelAveragingbasedonHeuristicClusteringAlgorithm,FedAHC)：本发明首先基于启发式算法根据本地训练时间对终端进行集群划分并且选择训练时延评估处在中间的终端作为集群头。在启发式聚类算法中，首先固定聚类特征树的聚类簇的数量，然后根据排序的训练时间估计将终端按顺序分配到这些簇中。当完成集群划分，每个集群内的终端参与集群内训练，当集群内训练完成，集群头将集群模型发送至边缘服务器进行全局聚合。边缘服务器一旦接收到集群模型，则进行全局模型聚合。完成聚合后，边缘服务器将全局模型发送回集群头，再由集群头发送回终端，终端接收到全局模型后开始下一通信回合中的本地模型更新。

本文还验证了本发明提供的方案在MNIST数据集和CIFAR10数据集上的收敛性，并将训练精度、损失值与其他两种方案进行了比较。每个终端上的样本数量在{200,201,...,1000}中随机设置。图4显示了三种方案的测试精度在MNIST数据集上随着本地训练次数的变化而逐渐收敛，图5显示了三种方案的损失值在MNIST数据集上随着本地训练次数的变化而逐渐收敛。图6显示了三种方案的测试精度在数据集上随着本地训练次数的变化而逐渐收敛，图7显示了三种方案的损失值在MNIST数据集上随着本地训练次数的变化而逐渐收敛。从图4、图5、图6、图7可以看出，本发明提供的方案比其他两种方案收敛得更快。这是因为落后者基于训练较快的集群模型训练，从而使得即使训练时间较慢，也能较快收敛。

本文还比较了模型精确度达到80％所消耗的训练时间。图8和图9分别表示了三种方案在MNIST数据集和CIFAR 10数据集上，模型精度达到80％所消耗的时间(记录从t＝0训练开始，到每次通信回合中本地模型精度达到80％的时间)。从图8和图9可以看出，本文所提出的FeDSC总是比其他两种方案更快达到80％以上的精确度。这是因为FeDSC中，一方面落后者集群基于训练较快的集群模型训练，从而使得即使训练时间较慢，也能较快收敛。另一方面，集群模型执行异步聚合，使得集群内的终端能及时获得较完善的全局模型。另外，FedAHC总是比FedAvg更快达到80％以上的精确度，这是因为FedAHC也执行异步聚合，使得落后者集群可以基于训练较快的集群模型训练。

综上所述，本发明提供的一种动态联邦学习的集群划分方法，为了减轻落后者的影响，同时考虑网络资源(包括计算资源和无线通信资源)异构且有限，以及无线网络动态变化的无线环境，设计了一种落后者感知的联邦学习集群划分方案。具体来说，根据计算资源和无线资源情况，对终端的训练时间作出评估。通过平衡迭代减少和聚类算法将所有训练时间相近的终端动态划分到多个集群中，并在划分过程中动态选择一个终端作为一个集群的集群头。与传统的联邦学习的训练过程不同，集群头首先在集群内对各个终端的本地模型执行同步聚合，得到集群模型，然后通过集群头将集群模型发送到边缘服务器。边缘服务器接收到任意一个集群模型都会执行一次异步全局聚合，得到全局模型，然后将异步全局聚合得到的全局模型发送回对应的集群头，再由集群头分发至集群内的终端。结合上述仿真的数值结果表明，本文所提出的一种动态联邦学习的集群划分方法在精确度和收敛时间方面均明显优于一些传统的解决方案。

本发明再一个实施例中，还提供了一种终端，终端包括处理器、存储器、通信接口和至少一个用于连接处理器、存储器、通信接口的通信总线。存储器包括但不限于是随机存储记忆体(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(PROM)或便携式只读存储器(CD-ROM)，该存储器用于相关指令及数据。

通信接口用于接收和发送数据。处理器可以是一个或多个CPU，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。终端中的处理器用于读取存储器中存储的一个或多个程序，执行以下操作：按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数；依据集群头执行同一集群内所有终端的本地模型聚合训练，当聚合训练完成时，获得集群模型，将所述集群模型发送至边缘服务器；每个集群的集群头接收边缘服务器下发的全局模型，并将全局模型发送至集群内的终端，终端根据全局模型执行第r+1次通信回合中的本地模型更新；其中所述全局模型是边缘服务器对接收到任意一个集群发送的集群模型均执行一次异步聚合得到的。

需要说明的是，各个操作的具体实现可以上述图1所示的方法实施例的相应描述，终端可以用于执行上文实施例提供的一种动态联邦学习的集群划分方法，在此不再具体赘述。

本发明再一个实施例中，还提供了一种边缘服务器，边缘服务器包括处理器、存储器、通信接口和至少一个用于连接处理器、存储器、通信接口的通信总线。存储器包括但不限于是随机存储记忆体(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(PROM)或便携式只读存储器(CD-ROM)，该存储器用于相关指令及数据。

通信接口用于接收和发送数据。处理器可以是一个或多个CPU，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。终端中的处理器用于读取存储器中存储的一个或多个程序，执行以下操作：接收来自作为集群头的终端发送的集群模型，其中，集群头的确定过程具体为：按每个终端在第r次通信回合中本地模型的训练时间的顺序，依次输入终端的集群划分参量，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，并选择集群中最小训练时间的终端作为集群的集群头；其中，集群划分参量是基于平衡迭代减少和聚类算法对训练时间进行估计所确定聚类特征树的三维向量，所述聚类特征树的三维向量包括簇头、集群的训练时间平均差和同一集群内的终端之间训练时间的最大差异值，r为正整数；集群模型是集群头执行同一集群内所有终端的本地模型聚合训练得到的；对接收到任意一个集群发送的集群模型均执行一次异步聚合，获得全局模型，并将所述全局模型下发至每个集群的集群头。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的一种动态联邦学习的集群划分方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态联邦学习的集群划分方法，其特征在于，应用于终端，方法包括：

2.根据权利要求1所述的一种动态联邦学习的集群划分方法，其特征在于，根据每个终端在单次通信回合内对本地模型的更新时间和传输时间，计算出每个终端在第r次通信回合内本地模型的训练时间。

3.根据权利要求1所述的一种动态联邦学习的集群划分方法，其特征在于，簇头的数学表达式为：其中，n_u表示第u个集群中的终端数目，/>表示三维向量，i表示集群u中的第i个终端；

4.根据权利要求1所述的一种动态联邦学习的集群划分方法，其特征在于，根据所述集群划分参量将训练时间相近的终端动态划分到多个集群中，包括：

5.根据权利要求1所述的一种动态联邦学习的集群划分方法，其特征在于，所述依据集群头执行同一集群内所有终端的本地模型聚合训练的表达式为：

H_min＜＜h＜＜H_max，其中，η表示步长，t表示训练时间索引，r表示通信回合索引，H_min和H_max分别表示本地最少迭代次数和本地最大迭代次数，/>表示第n个终端在第r次通信回合中第h-1次本地迭代的本地模型，/>表示本地损失函数的梯度。

6.一种动态联邦学习的集群划分方法，其特征在于，应用于边缘服务器，方法包括：

7.根据权利要求6所述的一种动态联邦学习的集群划分方法，其特征在于，对接收到任意一个集群发送的集群模型均执行一次异步聚合的数学表达式为：ω_T＝(1-α_t)ω_T-1+α_tω_u,r，其中，α_t∈(0,1)表示混合超参数，ω_T表示异步聚合第T轮全局迭代产生的全局模型，ω_T-1表示异步聚合第T-1轮全局迭代产生的全局模型，ω_u,r表示集群u在第r次集群迭代时候的集群模型。

8.根据权利要求7所述的一种动态联邦学习的集群划分方法，其特征在于，混合超参数的计算式为：其中，N表示在一个无线网络环境中的终端总数量，U表示集群总数目。

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至5任一项所述的一种动态联邦学习的集群划分方法所执行的操作。

10.一种边缘服务器，其特征在于，所述边缘服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求6至8任一项所述的一种动态联邦学习的集群划分方法所执行的操作。