CN113645197A

CN113645197A - 一种去中心化的联邦学习方法、装置及系统

Info

Publication number: CN113645197A
Application number: CN202110822039.1A
Authority: CN
Inventors: 袁烨; 陈蕊娟; 王茂霖; 孙川
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-12
Anticipated expiration: 2041-07-20
Also published as: CN113645197B

Abstract

本发明公开了一种去中心化的联邦学习方法、装置及系统，属于联邦学习领域，方法包括：在参与联邦学习的多个客户端之间建立全局通信网络，使得任意两个客户端之间存在通信路径；各客户端分别接收与其直接通信的其他客户端上一时刻的模型参数，并分别计算其得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算其上一时刻的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，将其当前时刻的模型参数更新为和与第一乘积之间的差值；重复执行上述迭代更新操作，直至各客户端的局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数。在保护各客户端隐私和数据安全的同时，全局训练各局部模型。

Description

一种去中心化的联邦学习方法、装置及系统

技术领域

本发明属于联邦学习领域，更具体地，涉及一种去中心化的联邦学习方法、装置及系统。

背景技术

联邦学习旨在建立一个基于分布数据集的联邦学习模型，以应对数据孤岛问题。随着人工智能在各行业的应用落地，人们对于隐私和数据安全的关注度不断提高。如何在遵守更加严格的、新的隐私保护条例下，解决数据碎片化和数据隔离问题，是当前人工智能研究和实践中面临的首要挑战。人们对于数据失去掌控，以及对于增益分配效果不透明，加剧了所谓数据碎片化和孤岛分布的严重性。为了确保用户隐私和数据安全，各客户端交换模型信息的过程将会被精心的设计，使得没有客户端能够猜测到其他任何客户端的隐私数据内容。

对于设置有中央服务器的联邦学习系统，虽然可以在大型中央服务器上收集、存储和分析数据，但是导致了较高的基础设施成本。中央服务器代表单一的入口点，它必须足够安全以抵抗可能使整个用户数据库处于危险之中的攻击；客户端对局部数据控制有限，存在隐私泄漏的风险。此外，所有客户端被困在“单一思维”模型中，淡化了个别用户的特性，或者导致对某些用户不公平的预测。各客户端获得的数据通常是不平衡、不独立、不均匀的，且分布在不同的机器上，每个客户端的特殊性导致整体模型的复杂性和规模增加，需要在用户之间交换信息以弥补本地数据的缺乏，在这种情况下，通信是一个主要的瓶颈。因此，如何考虑一类避免在用户模型之间达成协议、或者需要一个中央协调器的联邦学习方法，对数据的安全性、模型的可靠性、改善所有客户端之间通信压力具有关键意义。

现有的去中心化联邦学习方法，在客户端之间数据非独立同分布、全局共享模型训练、缓解通信压力三方面的统一分析较为匮乏，而且也并未切实考虑到用户之间存在的攻击行为，这种相互不信任的情况会导致攻击者通过网络对其他人的设备进行攻击，最终导致各参与者数据泄漏。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种去中心化的联邦学习方法、装置及系统，其目的在于在保护各客户端隐私和数据安全的同时，实现各局部模型的全局训练。

为实现上述目的，按照本发明的一个方面，提供了一种去中心化的联邦学习方法，包括：S1，在参与联邦学习的多个客户端之间建立全局通信网络，使得任意两个所述客户端之间存在通信路径，每一所述客户端中设置有相应的局部模型；S2，各所述客户端分别接收与其直接通信的其他客户端在上一时刻的局部模型的模型参数；S3，各所述客户端分别计算其得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算其上一时刻的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将其当前时刻局部模型的模型参数更新为所述和与所述第一乘积之间的差值；S4，重复执行所述S2-S3，直至各所述客户端的局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数，各所述客户端利用最后一次更新得到的局部模型处理其接收到的待处理数据。

更进一步地，所述S1和S2之间还包括：为每两个所述客户端之间的通信路径设置相应的权重系数，所述权重系数满足：客户端k和客户端j直接通信时，客户端k和客户端j之间的权重系数W_kj＞0；客户端k和客户端j间接通信时，W_kj＝0；客户端k的权重系数W_kk＞0；

K为参与联邦学习的客户端的数量，客户端k和客户端j为任意两个所述客户端。

更进一步地，各所述权重系数形成对称的权重矩阵W，所述权重矩阵W满足：

其中，w为任一所述局部模型的模型参数，1_K为K阶分量全为1的向量，λ为矩阵

的谱范数。

更进一步地，所述S3中各客户端更新后的模型参数为：

g_k(w_k(t))满足：

其中，t为上一时刻，t+1为当前时刻，w_k(t+1)为当前时刻客户端k中局部模型的模型参数，w_j(t)为上一时刻客户端j中局部模型的模型参数，K为参与联邦学习的客户端的数量，W_kj为客户端k和客户端j之间的权重系数，η_t为所述自适应学习率，g_k(w_k(t))为上一时刻客户端k在B_k(t)上的局部模型的损失函数梯度，B_k(t)为客户端k中数据集的任一子集，m′_k为B_k(t)中样本的数量，f(A_ki，b_ki，w_k(t))为上一时刻客户端k中局部模型的损失函数，

为梯度，

为期望，m为各所述客户端中样本的总数，F_k(w_k(t))为客户端k的局部模型在上一时刻的损失函数值，A_ki为客户端k中的第i个样本，b_ki为A_ki对应的标签。

更进一步地，所述S2之前还包括：分别为各所述客户端的局部模型的模型参数设置相应的随机初始值。

更进一步地，所述自适应学习率为：

δ和Γ满足约束条件：

其中，η_t为所述自适应学习率，δ和Γ为满足所述约束条件的任意正常数，t为上一时刻，m为各所述客户端中样本的总数，μ为全局损失函数的强凸系数，λ为矩阵

的谱范数，W为权重矩阵，K为参与联邦学习的客户端的数量，1_K为K阶分量全为1的向量，L为全局损失函数的Lipschitz常数。

更进一步地，所述S4中还包括：当

时，停止重复执行所述S2-S3；其中，

为期望，

为上一时刻各所述局部模型的模型参数的平均值，w^*为全局损失损失函数的最优值点，O(*)为同阶无穷小量，ε为设定的误差阈值，ε＞0。

按照本发明的另一个方面，提供了一种去中心化的联邦学习装置，用于第一客户端，所述第一客户端与一个或多个第二客户端参与联邦学习，所述第一客户端和每一所述第二客户端中设置有相应的局部模型，其特征在于，包括：建立模块，用于建立与所述一个或多个第二客户端之间的全局通信网络，以与每一所述第二客户端之间存在通信路径；接收模块，用于分别接收直接通信的各所述第二客户端在上一时刻的局部模型的模型参数；更新模块，用于计算得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算上一时刻所述第一客户端的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将所述第一客户端当前时刻局部模型的模型参数更新为所述和与所述第一乘积之间的差值；迭代模块，用于重复执行所述接收模块和更新模块，直至局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数；处理模块，用于利用最后一次更新得到的局部模型处理接收到的待处理数据。

按照本发明的另一个方面，提供了一种去中心化的联邦学习系统，其特征在于，包括：参与联邦学习的多个客户端，所述多个客户端用于执行如上所述的去中心化的联邦学习方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：各客户端分别同时基于其直接相连的客户端上一时刻的模型参数进行当前时刻自身模型参数的更新，无需中央服务器，降低成本，且各客户端的原始数据永远不会离开客户端，保护用户隐私和数据安全，还减少了原始数据传输所带来的通信开销；仅在直接连接的客户端之间传递模型参数，可以有效保护客户端的数据隐私和数据安全，抵抗恶意参与成员的重构攻击；并且其最终得到的模型的精度与现有具有中心服务器的联邦平均方法得到的模型的精度相比基本一致，即在不影响模型精度的同时保护各客户端隐私和数据安全。

附图说明

图1为本发明实施例提供的去中心化的联邦学习方法的流程图；

图2A和图2B分别为本发明实施例提供的去中心化的联邦学习方法在处理二分类问题时的训练精度和测试精度；

图3A和图3B分别为本发明实施例提供的去中心化的联邦学习方法在线模型中的训练均方误差和测试均方误差；

图4为本发明实施例提供的去中心化的联邦学习装置的框图；

图5为本发明实施例提供的去中心化的联邦学习系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的去中心化的联邦学习方法的流程图。参阅图1，结合图2A-3B以及图5，对本实施例中去中心化的联邦学习方法进行详细说明。参阅图1，方法包括操作S1-操作S4。

操作S1，在参与联邦学习的多个客户端之间建立全局通信网络，使得任意两个客户端之间存在通信路径，每一客户端中设置有相应的局部模型。

本实施例中去中心化的联邦学习方法的应用场景例如为由多个客户端构成的联邦学习场景，每一个客户端中设置有局部模型，并包含有相应的数据集，数据集中包含大量的样本，如图5所示。

建立全局通信网络，使得任意两个客户端之间存在通信路径，即任意两个客户端之间存在连通性，既可以为直接连通，也可以为通过其他一个或多个客户端间接连通。

本实施例中，该多个客户端拥有相同特征空间和不同样本空间的数据集，操作S1中还对各客户端中的数据集进行归一化处理。参与联邦学习的客户端的数量为K，K≥2。第k个客户端上的数据集记为

其中，

是数据集

中的第i个样本，b_ki是样本A_ki对应的标签。数据集

中样本的数量为

并记

是所有客户端上的样本总数。记

是客户端的集合，对任意

记

分别为客户端k中样本和标签构成的矩阵和向量。

客户端例如为物联网终端设备、监控摄像头、移动终端等。客户端中的数据集例如包括设备运行状态信息、采集的图像信息、移动终端用户的历史点击记录等。

每一客户端中都设置有相应的局部模型，对于任一客户端k而言，其局部模型的模型参数为w_k。客户端k中局部模型的损失函数F_k(w_k)为：

其中，f(A_ki，b_ki，w_k)是局部模型参数w_k关于样本(A_ki，b_ki)的损失函数。此时，全局模型的损失函数F(A，b，w)为：

其中，w＝[w₁，...，w_K]^T，块对角矩阵A和标签向量b分别定义如下，

考虑无向连通图

其中

表示图中节点集合，

表示沟通渠道的集合，指的是直接相连的两个客户端之间的连边。进一步地，为每两个客户端之间的通信路径设置相应的权重系数，权重系数满足：客户端k和客户端j直接通信时，客户端k和客户端j之间的权重系数W_kj＞0，两者存在关于模型参数的信息交互；客户端k和客户端j间接通信时，W_kj＝0，两者不存在关于模型参数的信息交互；考虑到客户端局部自我更新，对于任意客户端k，都有权重系数W_kk＞0；考虑到对权重的归一化处理，对于任意客户端k，满足

K为参与联邦学习的客户端的数量，客户端k和客户端j为任意两个客户端。

对于任意客户端k，用

表示所有直接与客户端k连接的客户端。各权重系数形成对称的权重矩阵W，即W_kj＝W_jk。权重矩阵W中第k行第j列、第j行第k列的元素表示客户端k和客户端j之间的权重系数，k≠j；权重矩阵W中第k行第k列的元素表示客户端k自身模型参数对应的权重系数。权重矩阵W满足：

其中，w为任一局部模型的模型参数，1_K为K阶分量全为1的向量，λ为矩阵

的谱范数。

操作S2，各客户端分别接收与其直接通信的其他客户端在上一时刻的局部模型的模型参数。

执行操作S2之前，分别为各客户端k的局部模型的模型参数w_k设置相应的随机初始值w_k(0)。将训练数据集进行独立划分，得到各客户端局部的训练数据集和测试数据集，给定任意初始值，客户端局部完成自身迭代更新后，将更新后的模型参数传递给直接相连的其他客户端。

各客户端k分别接收与其直接通信的其他客户端在上一时刻t的局部模型的模型参数w₁(t)、w₂(t)、……、w_k-1(t)、w_k+1(t)、……、w_K(t)。第一次更新之前，各客户端分别接收与其直接通信的其他客户端在上一时刻的局部模型的模型参数的初始值。

操作S3，各客户端分别计算其得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算其上一时刻的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将其当前时刻局部模型的模型参数更新为和与第一乘积之间的差值。

当前时刻迭代完成后，各客户端更新后的模型参数为：

g_k(w_k(t))满足：

其中，t为上一时刻，t+1为当前时刻，w_k(t+1)为当前时刻客户端k中局部模型的模型参数，w_j(t)为上一时刻客户端j中局部模型的模型参数，K为参与联邦学习的客户端的数量，W_kj为客户端k和客户端j之间的权重系数，η_t为自适应学习率，初始学习率例如为0.1/0.01，g_k(w_k(t))为上一时刻客户端k在B_k(t)上的局部模型的损失函数梯度，B_k(t)为客户端k中数据集的任一子集，m′_k为B_k(t)中样本的数量，f(A_ki，b_ki，w_k(t))为上一时刻客户端k中局部模型的损失函数，

为梯度，随机梯度的批量大小例如为64/128/256，

为期望，m为各客户端中样本的总数，F_k(w_k(t))为客户端k的局部模型在上一时刻的损失函数值，A_ki为客户端k中的第i个样本，b_ki为A_ki对应的标签。

基于上述更新操作，实现全局模型参数

的更新，进行如下定义：

则有：

定义全局平均模型参数

以及全局随机平均梯度g(t)：

由此可以得到全局平均模型的迭代公式为：

即：

操作S4，重复执行操作S2-操作S3，直至各客户端的局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数，各客户端利用最后一次更新得到的局部模型处理其接收到的待处理数据。

本发明实施例中，对于满足L-Lipschitz光滑且μ-强凸的损失函数，当自适应学习率η_t为：

且δ和Γ满足以下约束条件时，操作S4中的判断准则还包括：当各客户端的局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数，或者

时，停止重复执行操作S2-操作S3。其中，

为上一时刻各局部模型的模型参数的平均值，w^*为全局损失损失函数的最优值点，O(*)为同阶无穷小量，ε为设定的误差阈值，ε＞0。δ和Γ满足的约束条件为：

其中，δ和Γ为满足约束条件的任意正常数，μ为全局损失函数的强凸系数，λ为矩阵

本实施例中，由于各客户端分别同时基于其直接相连的客户端上一时刻的模型参数进行当前时刻自身模型参数的更新，因此其最终训练得到的局部模型与利用中央服务器进行全局训练得到的局部模型相比，不会影响模型性能，而且无需中央服务器，降低成本，仅在直接连接的客户端之间传递模型参数，可以有效保护客户端的数据隐私和数据安全，抵抗恶意参与成员的重构攻击。该去中心化的联邦学习方法得到的模型参数可以线性逼近损失函数的全局最优值，并且保持预测精度与具有中心化的经典方法联邦平均之间的相差低于2％。

当所有客户端中局部模型训练完毕之后，各客户端利用训练后的局部模型处理其接收到的待处理数据，例如利用训练后的局部模型完成图像或文字的多分类目标。

假设当前目标是客户端i希望通过重构攻击获得其邻居客户端j的数据集。下面从理论的角度分析本实施例中去中心化的联邦学习方法的隐私保护功能：

步骤(1)：首先，建立单次迭代非线性函数。记客户端i和客户端j的邻居客户端分别为

和

其中邻居客户端

和

的总数分别为I和J，由于

且

即客户端i和客户端j存在不同的邻居客户端，记这些不同的邻居客户端的个数为K₂，并表示为

中其他客户端记为

其中K₁＝J-K₂。考虑客户端j在第t+1次的迭代公式：

计算期望可得：

其中梯度函数

的表达式是已知的，未知变量是客户端j的数据集(A_j，b_j)，不同的邻居客户端上的权重信息W_jk以及这些客户端上的局部模型参数

未知量的个数为m_j(n+1)+K₂n+K₂，而方程的个数为n，显然m_j(n+1)+K₂n+K₂＞n，因此方程组是欠定的。

步骤(2)：其次，通过多次迭代建立非线性函数。注意到步骤(1)中的位置变量(A_j，b_j)和W_jk是不随迭代次数变化的静态未知量，而局部模型参数w_k(t)则是随每次迭代变化的动态未知量，

不失一般性，选择适当的N满足Nn＞m_j(n+1)，根据步骤(1)选择t＝1，...，N，构造如下非线性方程组：

步骤(3)：本实施例中去中心化的联邦学习方法可以有效抵抗恶意邻居客户端的重构攻击。注意到步骤(2)中建立的模型参数和训练数据方程组，解的存在性表明攻击客户端是否成功获得了被攻击客户端的准确数据集。具体来说，如果步骤(2)中方程组有唯一解，则表示攻击客户端可以通过重构攻击成功获取被攻击客户端的准确数据。如果步骤(2)中方程组有无解或者存在无穷多解，那么恶意邻居客户端的攻击被认为是失败的，这也意味着它不能准确地获取攻击客户的数据集，进一步地，说明本实施例中去中心化的联邦学习方法能保证客户端训练数据的安全。具体如下：

首先，步骤(2)中建立的非线性方程组是欠定的，并将其改写成如下格式：

其中，H₁是关于

的函数，k＝1，...，K₂，H₂是关于A_j，b_j的函数。

需要注意的是，H₁和H₂中的变量是相互独立的，这意味着可以分别讨论它们的解的存在性，最后将它们合并得到非线性方程组的解。为方便，不失一般性，设H₁＝0，H₂＝C。首先，对于H₁＝0的方程，未知量个数是K₂(Nn+1)，由K₂≥1，K₂(Nn+1)＞Nn是显然的。即H₁＝0是齐次线性欠定方程组，有无穷多个解。其次，根据m_j(n+1)＞Nn，H₂＝C是一个有唯一解或无解的超定方程。最后结合方程H₁＝0和H₂＝C解的存在性。

当H₂＝C有唯一解时，可以得到非线性方程有无穷多个解。否则，方程组无解。这意味着客户端i无法通过数据重构准确获取其邻居客户端j上的数据集(A_j，b_j)。综上所述，在本实施例中去中心化的联邦学习方法的框架下，恶意邻居客户端的重构攻击不会实现。

下面结合实例来验证本发明的有效性和正确性。对于两个数据集，首先，考虑一种二分类问题。数据集是在MNIST数据集和FMNIST数据集中，从0和1这两个类中分别随机选择1000个样本作为训练数据集，并通过同样的方式选取测试集。本实施例中，选择的是具L2正则化的二元交叉熵损失函数，其中正则项系数为0.1。其次，考虑一类回归问题。训练数据集，是通过函数为y＝0.5*sin(x)+1在区间[-6，6]上生成的具有随机噪声的6000个样本的集合。测试集考虑的是同样的函数在区间[－12，12]生成的具有1000个样本的数据集。回归用的均方误差+0.1*L2正则化损失。

基于上述两个问题，采用本发明的方法设计具有10个客户端的联邦学习框架，考虑各客户端从训练/测试数据集中进行均匀随机采样的数据的划分方式。此时选择的学习率为固定常数，大小是0.1。考虑线性模型时，采用本实施例去中心化的联邦学习方法和具中心服务器的联邦平均方法进行训练。需要提出的是，在模型训练和预测的过程中，本发明未使用非训练数据以外的数据样本。

图2A、图2B、图3A和图3B分别为上述两个数据集采用本实施例的方法、卷积神经网络以及线性模型MLP上进行寿命预测，并将根据训练和预测精度和误差进行比较。图2A-图3B中，FedAvg表示采用具有中心服务器的联邦平均方法；DeFed:diag表示采用本实施例方法；p表示各客户端之间彼此连接的程度，p值越大，多个客户端之间的连接程度越高。图2A和图2B中左侧分别为在MNIST数据集上处理二分类问题时的训练精度和测试精度；图2A和图2B中右侧分别为在FMNIST数据集上处理二分类问题时的训练精度和测试精度。

比较结果表明，和具有中心服务器的联邦平均方法相比，本实施例中去中心化的联邦学习方法在不同的数据集上都可以实现相似的精度，其中最大差异和最小差异在0.5％～0.7％之间。

具体而言，在基于MNIST数据集的2分类问题中，本实施例中去中心化的联邦学习方法可以实现和具有中心服务器的联邦平均方法基本完全一致的、高达99.7％训练精度和99.85％的测试精度。同样的，在FMNIST数据集上，本实施例中去中心化的联邦学习方法可以实现97.5％的训练精度以及97.3％的测试精度，具有中心服务器的联邦平均方法可以实现98％的训练精度以及97.75％的测试精度，二者得到的模型精度基本一致，也验证了本实施例中去中心化的联邦学习方法在保证模型精度方面的可靠性。

本发明实施例公开了一种去中心化的联邦学习方法，包括系统初始化、请求各客户端并行训练局部模型、模型参数加密、模型参数发送、模型参数接收与恢复、模型参数更新等操作。通过使用随机选取参与者作为参数聚合者的策略实现去中心化，解决了现有联邦学习DoS攻击、参数服务器单点故障等缺点；此外，结合PVSS可验证秘密分发协议保护参与者模型参数免受模型反演攻击、数据成员推理攻击。同时，保证每一次训练任务由不同的参与者来进行参数聚合，当出现不信任的聚合者或者其遭受攻击时，可自行恢复正常，增加了联邦学习的鲁棒性。本发明在实现以上功能的同时，保证了联邦学习的性能，有效地改善了联邦学习的安全训练环境，具有广泛的应用前景。

图4为本发明实施例提供的去中心化的联邦学习装置的框图。该去中心化的联邦学习装置用于第一客户端，第一客户端与一个或多个第二客户端参与联邦学习，第一客户端和每一第二客户端中设置有相应的局部模型。参阅图4，该去中心化的联邦学习装置包括建立模块410、接收模块420、更新模块430、迭代模块440和处理模块450。

建立模块410用于建立与一个或多个第二客户端之间的全局通信网络，以与每一第二客户端之间存在通信路径。

接收模块420用于接收直接通信的各第二客户端在上一时刻的局部模型的模型参数。

更新模块430用于计算得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算上一时刻第一客户端的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将第一客户端当前时刻局部模型的模型参数更新为和与第一乘积之间的差值。

迭代模块440用于重复执行接收模块和更新模块，直至局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数。

处理模块450用于利用最后一次更新得到的局部模型处理接收到的待处理数据。

去中心化的联邦学习装置400用于执行上述图1-图3B所示实施例中的去中心化的联邦学习方法中任一客户端中的操作。本实施例未尽之细节，请参阅前述图1-图3B所示实施例中的去中心化的联邦学习方法，此处不再赘述。

图5为本发明实施例提供的去中心化的联邦学习系统的结构示意图。参阅图5，该去中心化的联邦学习系统包括参与联邦学习的多个客户端，即包括客户端1、客户端2、……、客户端K，K≥2，任意两个客户端之间存在通信路径，该多个客户端用于执行如图1-图3B所示实施例中的去中心化的联邦学习方法。本实施例未尽之细节，请参阅前述图1-图3B所示实施例中的去中心化的联邦学习方法，此处不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种去中心化的联邦学习方法，其特征在于，包括：

S1，在参与联邦学习的多个客户端之间建立全局通信网络，使得任意两个所述客户端之间存在通信路径，每一所述客户端中设置有相应的局部模型；

S2，各所述客户端分别接收与其直接通信的其他客户端在上一时刻的局部模型的模型参数；

S3，各所述客户端分别计算其得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算其上一时刻的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将其当前时刻局部模型的模型参数更新为所述和与所述第一乘积之间的差值；

S4，重复执行所述S2-S3，直至各所述客户端的局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数，各所述客户端利用最后一次更新得到的局部模型处理其接收到的待处理数据。

2.如权利要求1所述的去中心化的联邦学习方法，其特征在于，所述S1和S2之间还包括：

为每两个所述客户端之间的通信路径设置相应的权重系数，所述权重系数满足：客户端k和客户端j直接通信时，客户端k和客户端j之间的权重系数W_kj＞0；客户端k和客户端j间接通信时，W_kj＝0；客户端k的权重系数W_kk＞0；

3.如权利要求2所述的去中心化的联邦学习方法，其特征在于，各所述权重系数形成对称的权重矩阵W，所述权重矩阵W满足：

其中，w为任一所述局部模型的模型参数，1K为K阶分量全为1的向量，λ为矩阵

的谱范数。

4.如权利要求1所述的去中心化的联邦学习方法，其特征在于，所述S3中各客户端更新后的模型参数为：

g_k(w_k(t))满足：

为梯度，

5.如权利要求1所述的去中心化的联邦学习方法，其特征在于，所述S2之前还包括：分别为各所述客户端的局部模型的模型参数设置相应的随机初始值。

6.如权利要求1-5任一项所述的去中心化的联邦学习方法，其特征在于，所述自适应学习率为：

δ和Γ满足约束条件：

7.如权利要求6所述的去中心化的联邦学习方法，其特征在于，所述S4中还包括：当

时，停止重复执行所述S2-S3；其中，

为期望，

8.一种去中心化的联邦学习装置，用于第一客户端，所述第一客户端与一个或多个第二客户端参与联邦学习，所述第一客户端和每一所述第二客户端中设置有相应的局部模型，其特征在于，包括：

建立模块，用于建立与所述一个或多个第二客户端之间的全局通信网络，以与每一所述第二客户端之间存在通信路径；

接收模块，用于接收直接通信的各所述第二客户端在上一时刻的局部模型的模型参数；

更新模块，用于计算得到的各上一时刻的模型参数与相应权重系数之间乘积的和，以及计算上一时刻所述第一客户端的局部模型的损失函数梯度与预设自适应学习率之间的第一乘积，并将所述第一客户端当前时刻局部模型的模型参数更新为所述和与所述第一乘积之间的差值；

迭代模块，用于重复执行所述接收模块和更新模块，直至局部模型的损失函数不高于相应的阈值，或者直至重复执行的次数达到最大迭代次数；处理模块，用于利用最后一次更新得到的局部模型处理接收到的待处理数据。

9.一种去中心化的联邦学习系统，其特征在于，包括：参与联邦学习的多个客户端，所述多个客户端用于执行如权利要求1-7任一项所述的去中心化的联邦学习方法。