CN111447083A

CN111447083A - 动态带宽和不可靠网络下的联邦学习架构及其压缩算法

Info

Publication number: CN111447083A
Application number: CN202010163471.XA
Authority: CN
Inventors: 朱晓敏; 张雄涛; 包卫东; 梁文谦; 周文; 司悦航; 王吉; 吴冠霖; 陈超; 高雄; 闫辉; 张亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-24
Anticipated expiration: 2040-03-10
Also published as: CN111447083B

Abstract

本发明提出了一种动态带宽和不可靠网络下的联邦学习架构及其压缩算法，框架包括云端、客户端和边缘服务器，边缘服务器有若干个并能够相互之间进行数据交换，边缘服务器中一个作为协调器。客户端与边缘服务器之间的数据传输为数据块的传输，所采用的边缘服务器机制缩短了传统的客户端到云之间的传输距离，从而减少客户端与服务器之间的通信延迟；此外，由于引入了多个边缘服务器，并将经过训练的模型划分为相应的块数，从而通过避免丢失整个模型来减少数据包丢失对训练的影响。压缩算法自适应调整压缩率来适应动态带宽，用带宽进行自适应调整来代替固定压缩率，有效利用带宽资源，减少了冗余数据交换。

Description

动态带宽和不可靠网络下的联邦学习架构及其压缩算法

技术领域

本发明涉及联邦学习领域，具体公开了一种动态带宽和不可靠网络下的联邦学习架构及其压缩算法。

背景技术

诸如隐私保护和终身学习之类的新兴问题给大数据和人工智能带来了许多新挑战，例如信息泄漏，法律违规，模型不匹配以及资源限制。此外，通用数据保护条例(GDPR)和其他相关法律进一步限制了此类数据的使用。这些因素在网络中创建了隔离的数据岛，这使得当前的大数据不再庞大。同时，由通用数据集训练的模型无法适应用户的个性化要求(如词汇外单词)和社会变化(如互联网词汇，新术语等)。为了满足这些要求，AI必须能够重新学习最新生成的数据，从而具有终身学习的能力。根据思科最新的视觉网络指数(VNI)，移动数据流量将在2017年至2022年之间以46％的复合年增长率增长，到2022年将达到每月77.5 艾字节(exabytes)。将所有数据集中到云中将进一步增加网络负担。此外，诸如神经网络之类的AI方法通常需要大量计算资源，这使得大多数针对移动设备的学习框架(例如 TensorFlowLite)无法在客户端上进行训练，而只能用于推理。同时，为了保护隐私，消除数据孤岛，并使移动设备具有更强的学习能力，学术界和产业界先后提出了联邦学习技术。由于能够在保护用户隐私的同时不断地在物联网和移动设备上学习新生成的数据，联邦学习已被认为是解决这些挑战的可行方法。作为最有代表性的移动设备的学习技术之一，联邦学习可以将数据保存在本地并协作执行训练任务，其中在客户端和服务器之间共享的信息是经过训练的模型，而不是敏感数据。该方法避免了因直接传输敏感数据而造成的泄漏，并且符合大多数政府隐私政策。此外，客户产生的数据可以继续参加培训，以便不断调整全局模型以实现持续改进。

当前，联邦学习算法通常采用服务器-客户端体系结构，并通过减少通信回合数来减少网络流量。但是，此类方法并未解决通信限制方面的许多挑战，包括：网络不可靠：由于许多因素都会影响通信，并且随着流量的增加，通信中断的可能性也会增加。此外，参与的客户 (包括智能手机，笔记本电脑，自动驾驶汽车等)可能由于移动，电池电量耗尽或其他原因而停止传输。然而，大多数现有的联邦学习工作并未对此挑战进行深入研究；网络吞吐量：在传统的联邦学习算法中，所有选定的客户端将其本地模型发送到同一服务器。这些客户端通常规模较大，将导致带宽峰值占用，对网络吞吐量提出了过于严格的要求。此外，网络的承载能力也限制了客户端的规模，这可能导致新生成的数据无法正常运行；动态带宽：在动态带宽下，联邦学习必须延长其全局共享时间，以等待那些带宽较低的客户端。这减慢了训练和融合的速度。此外，互联网连接速度的不对称性(例如，2019年，美国移动下载速度为 33.88 Mbps，而上传速度为9.75 Mbps)也浪费了大量带宽资源；理论收敛性：联邦学习的数据分布是不平衡且非IID(非独立且相同)的，而大多数分布式学习方法均以IID分布为假设。此外，大多数联邦学习算法仅是经过验证的实验，很少在理论上分析不可靠的网络和通信压缩的影响。

发明内容

本发明目的在提供一种动态带宽和不可靠网络下的联邦学习架构及其压缩算法，以解决现有技术中存在的技术缺陷。

为实现上述目的，本发明提供了一种动态带宽和不可靠网络下的联邦学习架构，包括云端、客户端和边缘服务器，边缘服务器有若干个并能够相互之间进行数据交换，边缘服务器中一个作为协调器，训练时，本地模型存储于客户端中并划分为若干个数据块，客户端利用空闲带宽将数据块上传至不同的边缘服务器中，边缘服务器将数据块进行聚合形成完整的本地模型，通过相互之间的数据交换由协调器将本地模型上传至云端；更新时，云端选择客户端并将本地模型划分为若干数据库发送至不同边缘服务器，被选择的客户端从边缘服务器中下载数据库以更新本地模型。

优选地，云端还直接存储数据块。

依托于上述联邦学习框架，本发明还提出了一种动态带宽和不可靠网络下的联邦学习架构的压缩算法，训练时，数据块在进行上传和/或数据交换前进行自适应通信压缩；更新时，数据块在进行下载和/或数据交换前进行自适应通信压缩。

优选地，对数据库进行聚合的方式为采用FedAvg聚合算法进行聚合。

优选地，FedAvg聚合算法模型为：

其中，d_i是客户n_i的本地训练中使用的样本数，w_*为全局解，η为学习率，t为学习次数，

为梯度，

为云端选择的客户n_i的集合。

优选地，动态带宽可描述为：

其中，b(t)为带宽限制；

不可靠网络可描述为：

p＝(1-p_b)^M

其中，p_b是每比特信息的丢失率，M是发送的数据包的总比特数。

优选地，压缩算法的压缩率和丢失率分别为：

其中，ε_i和r_i分别为压缩算子C(x)的损失率和压缩率。

优选地，数据块更新规则为：

其中，γ_t为步长参数，

为中间变量。

优选地，本地模型的聚合模型为：

其中，

为第T次迭代后全局模型的第j块参数，

为第i个节点在t时刻的第j块参数，

a_t为超参且满足

a_t对应的条件中，δ为网络连通图概率矩阵到的第二大特征值，ε_t为t时刻因信息压缩和丢包导致的信息损失，μ和L分别对应训练时目标函数在L-smooth条件和μ-strongly convex条件下的系数。

优选地，压缩算法的速率收敛速度为：

其中，T为全局迭代次数，

代表经过T次迭代后目标函数值

与实际最优值f^*之间的期望差距，

为σ_i的均值的平方，

为条件参数，μ和L分别对应训练时目标函数在L-smooth条件和μ-strongly convex条件下的系数，n为节点总个数，ε_max为训练过程中每次迭代信息损失的最大值。

本发明具有以下有益效果：

1、本发明提出了一种云边缘客户端联邦学习架构，客户端与边缘服务器之间的数据陈述为数据块的传输，缩短客户端与云端之间的传输距离，从而减少客户端与服务器之间的通信延迟；此外，由于引入了多个边缘服务器，并将经过训练的模型划分为相应的块数，从而通过避免丢失整个模型来减少数据包丢失对训练的影响。

2、本发明还提出了一种适用于云边缘客户端联邦学习框架的自适应通信压缩算法，本算法自适应调整压缩率来适应动态带宽，用带宽进行自适应调整来代替固定压缩率，有效利用带宽资源，减少了冗余数据交换。

3、本发明的压缩算法具有收敛性，可以在任何数据分布上实现训练的收敛，并且具备良好的鲁棒性。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明优选实施例提供的k位量化示意图；

图2为本发明优选实施例提供的体系结构示意图；

图3为本发明优选实施例提供的k位量化顶部稀疏化和随机稀疏化的时间开销示意图；

图4为本发明优选实施例提供的三种算法准确度对比图；

图5为本发明优选实施例提供的客户端中三种算法准确度对比图；

图6为本发明优选实施例提供的三种算法通信效率对比图；

图7为本发明优选实施例提供的压缩率对C-FedAvg的影响示意图；

图8为本发明优选实施例提供的不可靠网络的影响示意图；

图9为本发明优选实施例提供的客户端数量变化的影响示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

联邦学习是用于机器学习的联邦优化的一种特殊形式。因此，本实施例首先将联邦优化定义为一种具有数据并行设置的分布式优化类型，其中数据分布在不同的计算设备上，如下所示：

其中f是全局优化目标，f_i：R^d→R是由每个节点上可用的本地数据定义的目标，w_i∈R^d表示f_i的解。

解决联邦优化问题时，每个计算设备都会根据其本地数据搜索f_i的解决方案w_i，然后服务器使用聚合算法f_agg将w_i聚合到获得全局解w_*：

w_*＝f_agg(w₁，…w_n) (2)

然后，服务器将全局解决方案w_*作为其新w_i分发给每个客户端。每个客户都以这个新w_i为起点搜索更好的解决方案。客户端和服务器重复这些操作，直到w_i收敛到w_*。

因此，w_i之间的差异应尽可能小，以便式(1)可以快速收敛。本实施例使用L2正则化来调整w_i差异：

其中c∈R⁺表示w_i和它们的平均值

的总差。本实施例将联邦优化的范围缩小到联邦设置中的联邦学习中。在联邦学习中，每个节点中的目标f_i可定义为：

对于损失函数F_i：R^d×w∈R和来自数据集D_i的数据样本ξ_i。

这时，解w是机器学习模型的参数。可以通过计算F_i的梯度并以学习率η更新当前解w_i来使用经典方法(例如SGD)(随机梯度下降)来搜索更好的解：

其中t∈{0，1，2，…}是联邦学习的迭代次数。此后，通过式(2)中的f_agg(·)聚合搜索结果

然后以与联盟优化相同的方式解决联盟学习问题。

有限的带宽和不可靠的网络是将联邦学习部署到客户端时必须面对的重要挑战。本实施例使用每个时隙的平均带宽来描述有限的网络资源，以便根据链接条件动态地调整联邦学习。

在不失一般性的前提下，假设时隙t_j的带宽b(t_j)在一段时间[t_i，t_i+1]内是稳定的，其中t_j∈ [t_i，t_i+1]。使用此期间的带宽平均值

来表示带宽的限制，下式成立：

为了作出进一步的提升，从服务器下载参数的期限和上载客户端的模型参数的期限都可以视为带宽为

的时间段.以下部分将在每一轮中记录带宽限制为b^(t)，t∈0，，1，…是联邦学习的轮数。

在对不可靠网络的正式描述中，p为非零概率丢包率。这对于不可靠网络上的分布式学习是普遍的，但是当节点之间传输的数据包的大小不同时，此描述有些不合理。在实际情况下，对于同一链路，数据包传输的持续时间越长，被丢弃的可能性就越大。因此，本实施例通过以下方式改进了对不可靠网络的描述：

p＝(1-p_b)^M (7)

其中p_b是每比特信息的丢失率，M是发送的数据包的总比特数。

由于普通聚合算法无法有效解决通信限制带来的挑战，因此FedAvg被提出并广泛用于联邦学习中。FedAvg的动机是使用客户端保留的计算资源来缓解通信瓶颈。它执行本地训练τ次 (而不是1次，从而减少了通信回合的次数并提高了通信效率。本实施例还假设每一轮交流都是以同步方式进行的。因此，FedAvg中的聚合算法f_agg(·)为：

其中d_i是客户n_i的本地训练中使用的样本数，

服务器将把合计的

作为

发送给客户端。由于

因此在聚合器和客户端之间传输的信息也可以是梯度

而不是参数

然后可以将等式(8)替换为

为了进一步提高FedAvg的效率，τ的值也可以用于平衡计算资源和网络资源。但是，在实际部署中，不同客户端的计算和通信资源状况是多种多样的，这意味着相同的τ将导致许多节点等待下一轮指令。因此，服务对象根据时间限制调整本地培训次数(τ)更为合理。用时间限制调整τ被视为联邦学习协议的一部分，本地训练的时间限制称为报告时间。在本实施例，本地训练方法为算法1中所示的函数。

算法1

在使用保留的计算资源减少通信次数的同时，可以直接通信压缩可以达到相同的效果。在本实施例中将它们标记为压缩算符C。

与其初始值x相比，压缩块C(x)具有信息丢失。为了指示压缩运算符的信息丢失，使用均方误差(MSE)表示如下：

其中L_c(x)是压缩块C(x)的信息丢失。此信息损失的价值与x有关。但是，当压缩运算符不同时，不同C(x)的L_c(x)是无法比拟的。因此，需要进一步的调整。

通常，C(x)信息的丢失将导致12-范数的减少。例如，稀疏运算符在x∈R^d中导致更多0。

因此，式(10)满足：

其中ε∈[0，+∞)可以视为压缩算子C(x)的信息丢失率，并且与x无关。当ε→0时，意味着压缩向量C(x)与原始向量x几乎没有差异。否则，ε越大，丢失的信息越多。

另外，当将大小为B的x通过C(x)压缩为B′位时，C(x)的压缩率r为：

常见压缩算子C(x)及其信息丢失率ε和压缩率r如下：

稀疏化：典型的稀疏化方法是rankk和topk，其中rankk从向量x∈R^d随机选择k个元素，并且topk选择k个最大幅度值进行保留。此处，

二次抽样：随机选择一部分客户发送完整的信息，而其他部分则不发送。有：

w.p.表示具有概率，p是概率。在此，ε＝1-p，r＝p。

k位量化：k位是1位SGD算法的扩展。对于精度较高的向量(例如float32)，以k位(例如int8)以较低的精度替换它。对于向量x＝[x₁，x₂，…，x_d]的k位量化如下：

其中e_j+1是x值范围，j∈0，1，…，2^k-1，的2^k-1个等分点，e_j+1≥x_i≥e_j，如果x_i＝ min{x₁，x₂，…，x_d}。更直观地，该量化过程可以由图1表示。其丢失率

压缩率

其中k₀是原始精度所占用的比特数，d是向量x的维数。

图1中，k位量化。在用k划分x值的范围后，每个元素x_i以概率p或1-p映射到两个端点e_j和e_j+1之一。

本实施例将这些方法结合起来，获得组合的损失率和压缩率。

其中ε_i和r_i是这些组合压缩算子的损失率和压缩率。

基于上述说明，本发明提供了一种动态带宽和不可靠网络下的联邦学习架构，包括云端、客户端和边缘服务器，边缘服务器有若干个并能够相互之间进行数据交换，边缘服务器中一个作为协调器，训练时，本地模型存储于客户端中并划分为若干个数据块，客户端利用空闲带宽将数据块上传至不同的边缘服务器中，边缘服务器将数据块进行聚合形成完整的本地模型，通过相互之间的数据交换由协调器将本地模型上传至云端；更新时，云端选择客户端并将本地模型划分为若干数据库发送至不同边缘服务器，被选择的客户端从边缘服务器中下载数据库以更新本地模型。

将所有客户的模型上传到云进行聚合会给云和网络带来巨大负担。本实施例考虑在生成数据的地方聚合参数以减少这些负担。为此，提出了一种云边缘客户端联邦学习架构Cecilia (塞西莉亚)。Cecilia的体系结构如图2所示。此体系结构由n个客户端(移动电话，便携式计算机等)及其数据集进行本地处理，由m个聚合器(边缘服务器)进行聚合(其中一个被选为协调器)组成。)和1个云用于任务初始化和训练结果存储。由于边缘服务器执行参数聚合，因此不再需要将客户端更新的本地模型实时上传到云。此时，客户端可以使用空闲带宽(例如本地培训期间的带宽)上传本地模型。为了减少不可靠网络造成的数据包丢失的影响，在Cecilia中传输的参数将被分为多个块并发送到不同的边缘服务器。此外，参数块在发送前将根据带宽进行动态压缩。客户端和边缘服务器之间共享的参数不一定是经过训练的模型，而可以是其他生成的中间变量，其通信压缩算法如本实施例中算法2所示。

算法2 ACFL

当信息在网络边缘(边缘服务器和客户端之间)传输时，每个节点执行通信压缩。由于通信限制和网络不可靠，聚合器和客户端之间的模型块传递可能会导致数据包丢失。

在进行迭代训练之前，云端首先将参数，即本地模型拆分为多个块，然后将其分配给每个聚合器，然后选择一个聚合器ac作为协调器。之后，Cecilia将在每个回合中按照以下4 个步骤进行迭代，直到满足停止条件为止。

有时有必要在云中聚合模型以向用户提供更好的服务，例如疾病分析，跌倒检测等。

步骤1.选择：从客户集合N＝{n₁，n₂，…n_n}中随机选择子集

然后由协调器ac将选择信息发送给每个选定的客户端

步骤2.本地处理：选择后，每个选定的客户端都会根据本地数据执行本地处理。同时，客户还将使用本地处理中的空闲带宽将部分或全部本地模型上载到云中。

步骤3.聚合：每个选定的客户端将本地处理的结果划分为m个块。这些块或由它们计算出的中间变量用作参数块。之后，每个选定的客户端进行压缩并将参数块发送到相应的聚合器。最后，聚合器聚合接收到的参数块。

步骤4.下载：每个选定的客户端从相应的聚合器下载聚合参数，然后根据下载的参数块更新其本地模型。

在大多数联邦学习体系结构中，客户端在被选择后会从聚合器下载参数块。即第4步。在第1步之后下载本文。在这些传统的联邦学习体系结构中进行选择。但是，在Cecilia中，将参数块下载放在聚合之后，以匹配ACFL算法(算法2)。本质上，无论是哪种工作流程，选定客户端中的模型都会在迭代后进行更新。

Cecilia中的所有发送操作都可以压缩到不同的级别。此外，边缘服务器在执行聚合任务时不知道全局参数，而仅知道一些离散的状态块，从而降低了从边缘服务器泄漏用户隐私的风险。

根据Cecilia体系结构，所有参数都以划分的块方式进行聚合，以减少链路上的通信压力和丢包率。本实施例将这些划分的块标记为

由Choco-Gossip推动，得到了算法2。

与经典的联邦学习通信方法不同，它直接在客户端和边缘服务器之间发送模型或压缩模型，本实施例引入中间变量

并压缩

使用

作为交换信息。

的更新规则如下：

其中

是局部训练后的模型块。

引入的中间变量

对应于每个客户端上的模型块

当客户端存储自己的

时，还让边缘服务器存储所连接客户端的中间变量

和

都以相同的初始值开始。客户端在本地处理后将

发送到边缘服务器，然后执行式(16) 中的运算以更新

一旦边缘服务器接收到

它们还将执行式(16) 中的运算以更新

这样，

在接收到

并更新

之后，对于每个边缘服务器，只需将

一个就足够了。这不仅节省了边缘服务器的计算资源，而且避免了边缘服务器通过客户端模型直接猜测客户端的原始数据。

其中d_i是在客户端n_i的本地训练中使用的样本数量，d＝∑_id_i，

存储在边缘服务器中。

在等式(17)聚合之后，边缘服务器将

发送给选定的客户端。在设计客户端模型的更新规则时，请考虑网络不可靠和动态压缩率r^(t)造成的信息丢失。引入步长参数γ_t：

当γ_t＝1并用等式(18)中的ω替换

对，等效于经典FedAvg中的

由于不可靠的网络的影响，每次发送信息时，都可能不会接收到该信息。此时，边缘服务器仅需要聚合接收到的中间变量。丢包时，客户端中不同参数块的更新规则采用以下策略：

之后，可以使用算法1处理新的本地训练，即

最后，当达到终止条件时，例如t＝T。可以通过平均和拼接每个客户的模型块来获得全局模型

其中

式(20)在云中进行处理以避免模型泄漏，并且

与云同步由客户端在执行本地培训时(带宽处于空闲状态)。

在不失一般性的前提下，本实施例对所有客户端的每个函数f_i做出以下常用假设并定义了

的值：

假设1：L-smooth：

假设2：strongly convex：

假设3：Bounded variance：

在假设1、2和3下，算法2的速率收敛可表示为：

为假设3中σ_i的均值的平方，

为假设3中第2项条件对应的参数。

从上式的收敛结果来看，当T足够大时，可以忽略第二和第三项收敛速率，即，随着迭代次数的增加，不可靠网络和通信压缩的影响逐渐减小。

实施例2

本实施例将图像分类，情感分析和下一字符预测任务用作实验示例，以评估ACFL的有效性。与典型机器学习模型相对应的所有这些任务包括卷积神经网络(CNN)，单词袋逻辑回归 (Bag-Log-Reg)和长短期记忆(LSTM)。这些任务的数据集符合具有非IDD，不平衡和大规模分布特征的联邦设置。对于图像分类任务，本实施例使用联邦扩展MNIST(FEMNIST)，它是根据作者在扩展MNIST中对数据进行分区而构建的。FEMNIST中有62个不同的类别(10 位数字，26个小写字母，26个大写字母)图像，具有3500个用户的28 x 28像素。对于情感分析任务，本实施例使用Sentiment140，它是通过根据推文中存在的表情符号对推文进行注释并根据660120 Twitter用户进行分区而构建的。对于下一个角色预测任务，本实施例使用莎士比亚，它是通过将每个戏剧中的每个讲话角色都视为与《威廉·莎士比亚全集》不同的装置而构建的。分割后，莎士比亚共有2288位用户。

基于这些数据集和模型，选择FedAvg和C-FedAvg(具有压缩通信的FedAvg)作为与ACFL 进行比较的基准。首先定义不可靠网络，动态带宽，通信压缩和学习速率的共享参数。同时，压缩方法也根据的实验结果决定。之后，将在所有三种任务上验证ACFL的性能和准确性。此外，通过描述发送字节的准确性提高来验证ACFL的通信有效性。然后，调整C-FedAvg的压缩率以与ACFL进行比较。还通过观察这三种算法在不同丢包率下的性能来分析不可靠网络的影响。最后，还评估了所选客户数量的影响。

共享参数：

共享参数包括不可靠网络和客户端有限带宽的设置，联邦学习中的常规参数，每种模型的学习率以及C-FedAvg和ACFL中的压缩。

不可靠网络的设置被设置为每次传输中的丢失率。为了促进不同模型之间的比较，式(7) 中的pb值是通过其整个模型的相应下降率来计算的。例如，如果一个10MB的神经网络模型在FedAvg中的丢包率为0.1，则pb的值为1-(1-0.1)110≈0.01。本实施例将式(7)中的M的单位作为MB。如果没有特殊标记，则满足pb的值：没有压缩时，丢弃整个模型包的概率为0.1。此时，ACFL和C-FedAvg中的通信压缩将降低数据包的丢失率。

客户端的有限带宽由智能手机收集的数据设置。本实施例在长沙的一周的不同时间内收集了15种类型的智能手机(华为P10，Mi6，魅族Pro7，vivo X27等)，3家电信运营商(中国移动，中国联通和中国电信)以及2种通信方式(WiFi和4G)的带宽。为了使这些收集的数据更加合理，通过随机插值将其扩展为10，000条记录。然后，可以通过从这些记录中采样来获得每个客户端的最大可用带宽。

对于联邦学习的设置，本实施例将所选客户端和边缘服务器的默认数量分别设置为10和 5。每个模型和数据集上三种算法的迭代次数和学习率都接近于LEAF中的给定值，即CNN迭代的学习速率为0.01的120次，BagLog-Reg迭代的学习速率为0.005的40次和LSTM迭代的40次学习率0.08。此外，联邦学习过程中的占用带宽由与其选择和聚合阶段相对应的时间来描述。通常，为了确保有足够的时间来成功传输，FedAvg和C-FedAvg中每个迭代时间都有一定的冗余。因此，本实施例通过将模型大小除以带宽的最小值来定义FedAvg中每个迭代tre的时间，而C-FedAvg中的时间为「r×tre。

经典FedAvg选择阶段的子集本质上是一种子采样。在所有三种算法中，每轮培训都随机选择20％的客户参加。对于自适应通信压缩，首先将时间开销作为计算成本和k位量化，顶部稀疏化和随机稀疏化的能量进行测试。结果如图3(a)和图3(b)所示。根据该结果，当压缩率低于232时，k位量化的时间开销小于顶部稀疏性。但是随着压缩率的增加，它呈指数增长，而稀疏化方法没有明显变化。此外，稀疏化可以实现任何大小的通信压缩，而k位量化只能压缩为一些固定值，例如1，8等。因此，k位量化不适合压缩的自适应调整率。同时，顶部稀疏化的时间开销大约是随机稀疏化的83倍，并且丢失率和压缩率相同。因此，本实施例在C-FedAvg和ACFL中使用随机稀疏性进行通信压缩。选择0.25作为C-FedAvg的压缩率。在随机稀疏化之后，传输的数据等效于稀疏矩阵。为了减少该稀疏矩阵占用的传输空间，在随机稀疏化时，使用随机种子作为掩码。

性能比较：

根据共享参数比较ACFL，FedAvg和C-FedAvg的性能。这些算法及其相应的通信带宽占用，带宽利用率，每次迭代的平均时间成本，平均压缩率和准确性如表1所示。每次迭代中所花费的时间由最小带宽和模型大小确定。由于CNN的模型大小比其他模型大得多，因此每次迭代的时间成本最高。实验中的带宽占用定义为联邦学习过程分配的带宽，这意味着发送的信息的大小通常小于占用的带宽。

表1：FedAvg，C-FedAvg和ACFL的总体性能

在表中，I，II和III分别是CNN，Bag-Log-Reg和LSTM的结果。在每个结果中，第一行与FedAvg相对应，第二行与C-FedAvg相对应，第三行与ACFL相对应。根据表2中的结果，ACFL的带宽利用率大于FedAvg和C-FedAvg。这是因为FedAvg和C-FedAvg设置了较大的迭代时间tre，以确保选定的客户端可以在动态带宽下上传本地模型，而ACFL可以自适应地调整模型压缩率以有效地利用可用带宽。这也允许ACFL以更少的带宽发送更多数据。另外，由于一次迭代的时间更少，因此在相同条件下，ACFL可以完成更多次训练，从而加快了联邦学习的速度。CNN中ACFL的平均压缩率为54.00％，而Bag-Log-Reg和LSTM中没有明显的压缩。这是因为CNN模型大于其他模型，并且当单次迭代时间仅为1秒时，大部分带宽无法完成。出于同样的原因，ACFL在较大的模型(例如CNN)中显示出93.12％的更高带宽利用率，在Bag-Log-Reg和LSTM中仅显示了20.00％和18.04％的带宽利用率。

准确性比较：

为了从准确性上比较这三种算法。通过CNN，Bag-Log-Reg和LSTM的典型模型分析ACFL， FedAvg和C-FedAvg算法的准确性。结果如图4和图5所示。

在图4(a)-(f)中，每条线周围的阴影表示不同客户的准确性或损失值的分布，而线则表示这些客户的准确性或损失值的平均值。在训练过程中，ACFL可以在BagLog-Reg和LSTM 等小型模型上获得比FedAvg更好的训练效果。这是因为当模型较小时，ACFL几乎不需要执行模型压缩，并且可以很好地保留基本信息。除了算法2，本申请还设计了更好的模型共享机制，这使ACFL总体上可以获得更高的准确性，并且在模型较小时可以显示出更好的训练结果。

从这些图中还可以看出，在所有类型的模型训练开始时，C-FedAvg的准确性相对较差。这是因为参数需要在模型训练开始时进行较大的更新，并且在通信压缩期间C-FedAvg丢失的信息会导致更新较少。当训练持续一会儿时，这种逐渐的变化就消失了，准确性开始迅速提高。这是因为经过一段时间的训练后，模型中的参数已基本调整。尽管仍然存在一些信息丢失，但微调足以提高模型的准确性。

从客户的模型分布的角度来看，Bag-Log-Reg的准确性差异最大，并且在培训过程中难以有效控制，但是ACFL的分布更加集中。经过ACFL培训的客户在Bag-LogReg的上下四分位数之间的距离最小，最大距离最大。对于CNN和LSTM等模型，尽管ACFL并不是最准确的分布，但与FedAvg和CFedAvg相比，ACFL可以确保训练后的模型在一定范围内，从而确保更好的收敛性。

这三种算法分别执行了120或40次迭代，但是它们各自对应的迭代所需的时间有所不同，如表1所示。ACFL算法的实际训练时间少于FedAvg，并且它们可以达到相似的效果训练结束时的训练结果。因此，ACFL可以充分缩短通信所需的时间，从而加快训练过程。

图5(a)-图5(c)为客户端中三种算法准确度对比图。从三个数据集FEMNIST，Sentiment140和Shakespeare中随机选择了10个客户。用热图表示使用三种算法训练数据集中的每个客户的准确性结果。在此图中，精度越低，相应的像素颜色就越暗。注意，由于精度分布的差异，每个热图的精度颜色表也不同。在数据集中使用的LSTM模型中，C-FedAvg压缩过程中的信息丢失降低了模型更新的幅度，从而导致C-FedAvg之间存在客户端。精度差异较小。但是ACFL和FedAvg也可以显示出更好的训练效果。在此数据集使用的模型(例如 LSTM)中，C-FedAvg中的信息丢失减少了模型更新的幅度，从而导致客户端之间的准确性差异变小。但是ACFL和FedAvg也可以显示更好的训练结果和速度。

通信效率：

C-FedAvg致力于以较少的通信开销实现更高的准确性改进，通常以发送字节与准确性之间的关系表示。为了比较ACFL和C-FedAvg的通信效率，本实施例绘制了准确性和发送字节之间的关系，如图6所示。

从图6(a)-图6(c)中可以看出，CFedAvg的通信效率仅略高于FedAvg。尽管ACFL在各种模型中显示出更高的通信效率，尤其是在CNN和Bag-Log-Reg上。因此，ACFL除了有效减少带宽需求并加快训练速度外，还可以在相同数量的发送字节中获得更好的训练效果。C-FedAvg本质上切出了FedAvg中共享的一些参数，因此可以进行冗余的参数更新以实现较高的通信效率。但是，与使用中间变量C(w-w^)而不是直接发送压缩参数C(w)的方法相比，这种消除通信冗余的方法效果较差。

压缩率对C-FedAvg的影响：

在先前的实验中，本实施例使用0.25作为CFedAvg的压缩率。实际上，可以直接调整该压缩率。那么，如果只想减少网络带宽并提高通信效率，可以直接使用较低的压缩率。针对此形式，本实施例调整了C-FedAvg的压缩率，并将其与FEMNIST中的ACFL和FedAvg进行了比较。图8(a)和图8(b)分别使用不同颜色的线显示了C-FedAvg(压缩率从0.1到0.9)，FedAvg和ACFL的准确性和损失值。其中，每条线周围相同颜色的阴影表示客户端的准确性分布。图7中的小提琴显示了每种通信压缩率的准确度数据分布。在图7中，每个小提琴中心的白点代表中位准确度，它反映了训练的速度。这些图中的实验结果表明，随着压缩率的持续降低，C-FedAvg表现出的训练效果越来越差。尤其是当压缩率仅为0.1时，与压缩率大于0.2的C-FedAvg相比，C-FedAvg训练速度有非常显着的下降。显然，这节省了通信资源，但牺牲了训练速度。但是，通信资源的值应与当前可用带宽相关，而不是直接与发送字节数相关。因此，在资源状况，训练速度和训练效果方面，ACFL表现出比降低C-FedAvg压缩率更好的性能。

不可靠网络的影响：

为了比较不可靠的网络对ACFL的影响，本实施例对FEMNIST进行了附加测试。丢包率从 0.1调整到0.9，这部分的数据包丢失是由相同的随机数种子模拟的。具有这些下降率的精度线如图9所示。在该图中，虚线“...”代表ACFL，虚线“--”代表C-FedAvg，实线代表FedAvg。每行颜色越深，下降率越大。

在ACFL，C-FedAvg和FedAvg对应的行中，存在明显的波动，这是由于丢包的影响所致。其中，FedAvg受数据包丢失的影响最大。尤其是当丢包率达到0.9时，FedAvg升值显示出两个非常明显的准确性下降。C-FedAvg最稳定。这是因为C-FedAvg的压缩率最高，因此每轮发送的字节数最少，因此可能丢失的通信数据包也最少。但是C-FedAvg也显示出最慢的训练速度。与C-FedAvg相比，尽管在训练过程中会有一些细微的波动，但ACFL的整体训练速度要快于其他两个，并且没有像FedAvg那样明显的波动。因此，ACFL在不可靠的通信情况下会很健壮，并且可以在确保快速训练速度的同时，确保相对稳定的训练效果。

被选中客户端数量的影响：

此外，本实施例还调整了参加FEMNIST每轮培训的客户数量，以观察ACFL的表现。该实验总共进行了12次，选择的客户数量从4％增加到48％，增加了4％，其他参数与共享参数相同。

随着所选客户数量的增加，当所选客户达到48％时，FedAvg的培训效果逐渐超过ACFL。但是，这也带来了更多的通信开销，并且通常无法在实际系统中提供这么多的通信资源。 C-FedAvg性能受所选客户端数量的影响最大。当所选客户的数量仅为4％时，该模型在前80 个迭代中几乎没有明显的改进。此外，当选择的客户数量减少时，C-FedAvg在培训方面的差异最为明显。当选定的客户端数量接近48％时，C-FedAvg的性能也开始接近FedAvg。但是，具有48％选定客户端性能的C-FedAvg仅可与约12％选定客户端的ACFL准确性相媲美。在培训期间，ACFL受所选客户数量变化的影响较小。这意味着ACFL也可以通过减少选定客户端的数量来实现比C-FedAvg和FedAvg更高的通信效率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态带宽和不可靠网络下的联邦学习架构，其特征在于，包括云端、客户端和边缘服务器，所述边缘服务器有若干个并能够相互之间进行数据交换，所述边缘服务器中一个作为协调器，训练时，本地模型存储于客户端中并划分为若干个数据块，所述客户端利用空闲带宽将所述数据块上传至不同的所述边缘服务器中，所述边缘服务器将所述数据块进行聚合形成完整的所述本地模型，通过相互之间的数据交换由所述协调器将所述本地模型上传至云端；更新时，所述云端选择所述客户端并将所述本地模型划分为若干数据库发送至不同所述边缘服务器，被选择的所述客户端从所述边缘服务器中下载所述数据库以更新本地模型。

2.根据权利要求1所述的一种动态带宽和不可靠网络下的联邦学习架构，其特征在于，所述云端还直接存储所述数据块。

3.一种基于权利要求1或2所述的动态带宽和不可靠网络下的联邦学习架构的压缩算法，其特征在于，训练时，所述数据块在进行上传和/或数据交换前进行自适应通信压缩；更新时，所述数据块在进行下载和/或数据交换前进行自适应通信压缩。

4.根据权利要求3所述的动态带宽和不可靠网络下的联邦学习架构的压缩算法，其特征在于，对所述数据库进行聚合的方式为采用FedAvg聚合算法进行聚合。

5.根据权利要求4所述的动态带宽和不可靠网络下的联邦学习架构的压缩算法，其特征在于，所述FedAvg聚合算法模型为：