CN116579443A

CN116579443A - 一种面向数据异构性的个性化联邦学习方法及存储介质

Info

Publication number: CN116579443A
Application number: CN202310582536.8A
Authority: CN
Inventors: 张伟文; 江奕锋
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-11

Abstract

本发明涉及联邦学习技术领域，公开了一种面向数据异构性的个性化联邦学习方法及存储介质，本发明仅需每个客户端公开其本地个性化模型的模型分类器梯度信息，能够缓解隐私泄露的问题，同时基于模型分类器梯度信息进行聚类可以更精确地识别出具有相似数据分布的客户端，降低计算代价，通过具有比全局模型更有价值的聚合模型构造客户端的本地优化目标，可以使客户端获得具有更好的泛化性能和具有收敛性的个性化模型。

Description

一种面向数据异构性的个性化联邦学习方法及存储介质

技术领域

本发明涉及联邦学习技术领域，特别是涉及一种面向数据异构性的个性化联邦学习方法及存储介质。

背景技术

联邦学习是一种基于隐私保护的分布式机器学习框架，用于解决大数据时代的数据孤岛问题。多个参与者可以在不共享数据的情况下共同训练模型，在联邦学习中，每个参与者都拥有自己收集所得的本地数据集，这些数据集可能来自不同的地理位置、不同的设备类型、不同的应用场景等。因此这些数据集可能具有不同的分布、不同的特征和不同的标签，这一现象称为数据异构性。这种差异可能会影响联邦学习的模型训练效果，例如，一些参与方的数据集中可能包含了某些其他参与方没有的特征，即具有不同的数据分布，此时他们共同训练的模型由于需要拟合多个不同的数据分布，表现出难以收敛，准确率较低的特点。此外，不同参与方的数据集可能存在标签分布不平衡、样本数量不平衡等问题，这也会影响模型的效果。

为解决联邦学习数据异构性问题，研究人员提出了许多方法，其中个性化联邦学习引起了广泛关注，例如联邦元学习、联邦多任务学习、聚类联邦学习等，目的都是为每个参与方设计专属的个性化模型。根据系统维护的全局模型是一个还是多个，可以进一步将个性化联邦学习分为两类。第一类是只有一个全局模型的联邦学习算法，然而，将具有异构性的多元知识聚合在一个模型中，可能会影响模型收敛，特别是在高度异构的场景中，这会成为一个潜在的性能瓶颈，用这一模型指导各参与方的本地训练也可能产生负面影响。另一类方法则是为每部分具有相似数据分布的参与方构建一个全局模型，即需要维护多个全局模型。然而，由于半诚实的服务端能够通过梯度信息恢复有关客户端本地数据分布的信息，参与方公开其本地模型梯度信息可能会导致隐私泄漏问题。通过训练信息的方式，如每轮训练前，各参与方计算全局模型在本地训练的损失值并发送给服务端，服务端根据损失值进行聚类，从而识别具有相似数据分布的参与方，这一方法将显著增加每个参与方的计算代价。

现有技术公开了一种联邦学习优化方法及装置，该方法包括：在当前轮次的联邦学习中，获取服务器端发送的全局模型和延迟全局梯度，延迟全局梯度是由上一轮次联邦学习中，每个客户端基于各自本地数据对上一轮次的全局梯度进行更新得到的；基于当前轮次的全局模型和延迟全局梯度，通过本地数据对本地模型进行更新，得到联邦学习更新量，联邦学习更新量包括本地模型的更新量和延迟全局梯度的更新量；将联邦学习更新量发送到服务器端，以供服务器端根据联邦学习更新量进行信息聚合，得到新的全局模型和全局梯度，并将新的全局模型和全局梯度发送到每个客户端，用于下一轮次的联邦学习。该现有技术存在计算代价高、隐私可能泄露以及高度异构性场景中的模型难以收敛的问题。

发明内容

本发明的目的是：提供一种面向数据异构性的个性化联邦学习方法及存储介质，以解决现有技术中存在的计算代价高、隐私可能泄露以及高度异构性场景中的模型难以收敛的问题。

为了实现上述目的，本发明提供了一种面向数据异构性的个性化联邦学习方法，包括：

S1、选取服务端和客户端，从客户端获取构建全局模型需要的数据，通过服务端构建全局模型并初始化全局模型，将初始化后的全局模型发送到每个客户端；

S2、客户端将接收到的初始化后的全局模型作为本地初始化模型，进行本地训练，所述本地训练包括构造本地个性化模型和本地更新，对本地初始化模型进行双层优化获得本地个性化模型，通过本地个性化模型进行本地更新，将本地更新后的模型参数和模型分类器梯度发送回服务端；

S3、服务端根据模型分类器梯度对客户端进行聚类，得到具有相似数据分布的客户端集合；

S4、服务端对同属于一个客户端集合中的客户端的模型参数进行聚合，得到每个客户端集合的聚合模型，服务端通过聚合每一个聚合模型，得到新的全局模型；

S5、服务端检查当前是否有首次参与系统训练的客户端，若有客户端首次参与系统训练，则向该客户端发送新的全局模型，若客户端非首次参与系统训练，则向其发送相应的聚合模型；

S6、重复步骤S2-S5,直至新的全局模型收敛或达到预设的停止条件，每个客户端获得适合其本地数据分布的个性化模型。

优选的，在步骤S2中，所述本地训练要构造客户端的本地目标函数，所述本地目标函数为：

其中，L_i为客户端的损失函数，θ_i为客户端的本地模型，为接收到的来自服务端的模型，在第一轮训练时，/>为全局模型，从第二轮训练开始为聚合模型，正则化参数λ∈[0,∞]。

为解决上述本地目标函数，本地优化目标为：

其中，|D_i|为客户端的本地数据量，为客户端集合中所有客户端的数据量的总和，所述本地优化目标包括外层的目标和内层的目标，即所述双层优化，所述外层的目标是通过多个客户端的知识获得/>所述内层的目标是获得客户端的个性化模型，为解决所述本地优化目标的内层目标计算本地个性化模型，所述个性化模型为：

优选的，在步骤S2中，所述本地更新的公式为：

其中为学习率，为客户端第轮训练的本地模型，c_j为其所属的集合。

优选的，在步骤S2中，所述的本地个性化模型采用梯度下降的方式计算估计值，公式为：

梯度的计算次数为/>其中表示期望的精度水平，d为搜索直径。

优选的，在步骤S3中，所述聚类采用亲和力传播算法。

优选的，在步骤S4中，服务端以全局模型的分类器梯度为基准，计算其与每个客户端的模型的分类器梯度的余弦相似度，公式为：

其中，为客户端的模型分类器梯度，/>为全局模型的分类器梯度。

优选的，在步骤S4中，通过加权平均算法计算每个客户端集合的聚合模型，所述聚合的过程为服务端根据客户端的数据量，对同属于一个客户端集合的客户端的模型参数进行加权平均聚合，得到每个客户端集合的聚合模型，公式为：

优选的，在步骤S4中，服务端通过加权平均算法更新所述新的全局模型，更新过程为服务端根据每个客户端集合的总数据量，对当前|C|个客户端集合的聚合模型进行加权平均聚合，公式为：

其中|D|为所有集合的数据量总和。

优选的，在步骤S6中，所述预设的停止条件为准确率阈值或收敛阈值。

本申请还提出一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任意一项所述的一种面向数据异构性的个性化联邦学习方法。

与现有技术相比，本发明的有益效果在于：本发明仅需每个客户端公开其本地个性化模型的模型分类器梯度信息，能够缓解隐私泄露的问题，同时基于模型分类器梯度信息进行聚类可以更精确地识别出具有相似数据分布的客户端，降低计算代价，通过具有比全局模型更有价值的聚合模型构造客户端的本地优化目标，可以使客户端获得具有更好的泛化性能和具有收敛性的个性化模型。

附图说明

图1是本发明实施例的面向数据异构性的个性化联邦学习方法的流程图；

图2是本发明实施例的全局模型的初始化结构参数；

图3为本发明实施例与FedAvg、Per-FedAvg、PFedMe三个算法的测试准确率曲线对比图；

图4为本发明实施例与FedAvg、Per-FedAvg、PFedMe三个算法的训练损失曲线对比图；

图5为本发明实施例中40个客户端的聚合效果图；

图6为本发明实施例第100轮系统训练后，5个新的客户端加入模型训练的聚合效果图；

图7为本发明实施例的5个新的客户端的测试准确率曲线图；

图8为本发明实施例的5个新的客户端的训练损失曲线图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例一

如图1所示，本发明优选实施例的一种面向数据异构性的个性化联邦学习方法，包括：

实施例二

在步骤S2中，所述本地训练要构造客户端的本地目标函数，客户端用所接收到的模型作为本地初始化模型后，通过L2正则化和moreau envolope构造客户端的本地目标函数，所述本地目标函数为：

其中，L_i为客户端的损失函数，θ_i为客户端的本地模型，为接收到的来自服务端的模型，在第一轮训练时，/>为全局模型，从第二轮训练开始为聚合模型，正则化参数λ∈[0,∞]，λ越大，θ_i越接近/>越小则越远离。

为解决上述本地目标函数，本地优化目标为：

在步骤S2中，由于不具备封闭形式，因此无法准确计算其具体值，所述的本地个性化模型采用梯度下降的方式计算估计值，梯度下降的过程中需要计算_i(θ_i)的梯度这可以通过从客户端本地数据_i中采样小批量数据_i进行无偏估计，该估计值定义为：

进一步定义：

其中是客户端所接收到的模型，可以通过Nesterov加速梯度下降法获得客户端的个性化模型/>的高精度估计值，公式为：

梯度的计算次数为/>其中表示期望的精度水平，d为搜索直径，计算所得的值即为/>的近似值，标记为/>期望误差满足即当客户端最小化/>达到所示精度时，便能获得其个性化模型。

客户端获得其个性化模型后，便解决了其本地优化目标的内层问题，外层问题则可以通过每个客户端基于其个性化模型进行本地更新，并由服务端进行模型聚合来解决，本地更新可以表示为：

由moreau envolope的性质可得，给定一个连续函数_i，无论该函数是凸函数的还是非凸函数，F_i都是连续可微的，具有L_F—平滑性质，L_F＝λ，并且：

在步骤S2中，所述本地更新的公式为：

完成本地更新后，每个客户端将其本地模型参数和本地模型分类器的梯度发送给服务端，各客户端的本地模型参数用于聚合并解决优化目标的外层问题，本地模型分类器的梯度用于识别具有相似数据分布的客户端。

在步骤S3中，所述聚类采用亲和力传播算法。

在步骤S4中，服务端以全局模型的分类器梯度为基准，计算其与每个客户端的模型的分类器梯度的余弦相似度，公式为：

完成全局模型的分类器梯度与个客户端的模型分类器梯度的相似度计算后，服务端通过亲和力传播算法对相似度值[s₁,s₂,s₃,…,s_N]进行聚类，聚类的步骤包括：

S4-1：基于分类器梯度的相似度值[s₁,s₂,s₃,…,s_N]计算相似度矩阵S，其中S(i,j)表示数据点和之间的欧氏距离。

S4-2：初始化责任矩阵和可用性矩阵。在责任矩阵中，R(i,k)表示数据点

将数据点作为簇中心时，i自身作为簇成员的适合度。在可用性矩阵中，A(i,k)表示数据点选取数据点k作为自己的簇成员时，k自身作为簇中心的适合度。这两个矩阵都被初始化为零矩阵。

S4-3：进行消息的迭代传递。在每次迭代中，每个数据点根据其接收到的消息更新其在可用性矩阵和责任矩阵中的值，并将其可用性和责任度发送给其他数据点。这个过程一直持续到可用性矩阵和责任矩阵中的值不再发生变化，即实现收敛为止。

S4-4：选择集合中心并分配数据点。实现收敛时，选择可用性最高的数据点作为集合中心，然后根据责任矩阵将其他数据点分配给相应的集合中心，构成若干个集合。

S4-5：输出聚类结果。分配到同一集合中心的所有数据点共同构成一个集合，输出各个集合作为聚类结果。

S4-1中计算相似度矩阵的时间复杂度为(²d)，其中表示数据点的数量，

表示数据点的维数。当数据点的数量(即客户端的数量)一定时，时间复杂度与数据维度成正比。因此，相比于基于整个模型的梯度的亲和力传播聚类，本发明具有更低的时间复杂度，因为模型分类器的维度小于整个模型，特别是当模型是一个深度神经网络时。此外，相比于公开整个模型的梯度信息所带来的隐私泄露问题，本发明仅需每个客户端公开其本地模型分类器的梯度信息，进而能够缓解隐私泄露问题。更重要的是，由于在联邦学习数据异构性的场景里，模型中更深的层在不同的客户端之间显示出更强的异构性，基于客户端本地模型分类器的梯度信息进行聚类可以更精确地识别出具有相似数据分布的客户端。

在步骤S4中，通过加权平均算法计算每个客户端集合的聚合模型，所述聚合的过程为服务端根据客户端的数据量，对同属于一个客户端集合的客户端的模型参数进行加权平均聚合，得到每个客户端集合的聚合模型，公式为：

在步骤S4中，服务端通过加权平均算法更新所述新的全局模型，更新过程为服务端根据每个客户端集合的总数据量，对当前|C|个客户端集合的聚合模型进行加权平均聚合，公式为：

其中|D|为所有集合的数据量总和。

在步骤S6中，所述预设的停止条件为准确率阈值或收敛阈值。

具体地，如图2-8所示，本实施例的场景为利用Fashion-MNIST数据集所构造的联邦学习高度异构性场景，该场景中起初有40个客户端，在第100轮系统训练时，有5个新的客户端加入模型训练。客户端id为0～44。Fashion-MNIST是一个灰度图像数据集，涵盖了服装、衬衫、包等10个类别的70,000张不同的商品正面图像。将这70,000张图像随机分配到40个客户端中，作为客户端的本地数据集，每个客户端的的数据集大小为[400,6000]，且只有十个标签中的两个。本实施例的场景中共有五种不同的数据分布情况，其中id的差的绝对值为5的客户端具有相似的数据分布。客户端本地数据集中的75％用于训练，其余25％用于测试。

在步骤S1中，服务端初始化全局模型，模型结构如图2所示，其中softmax和ReLu为激活函数，FC为全连接层，具体地，FC1为特征提取器，FC2为分类器。完成初始化后，服务端将全局模型发送给每个客户端。

在步骤S2中，客户端将所接收到的模型作为本地初始化模型，通过“双层优化”获得本地个性化模型，优化次数为5。本地训练轮数为20，每次训练的数据批量大小为20，学习率为0.03，λ为9。完成训练后，客户端将模型参数和模型的分类器梯度发送回服务端；

最后测试该本地个性化模型在本地测试数据集上的准确率，并将模型参数和模型的分类器梯度发送回服务端，所有参与训练的客户端的平均测试准确率曲线和训练损失曲线如图3和图4所示，新加入的客户端的测试准确率曲线和训练损失曲线如图7和图8所示；

若当前为第一轮训练，由于全局模型还未更新，其模型分类器梯度是未知的，因此第一轮训练直接用客户端模型分类器梯度作为其数据分布的表征；后续训练中，服务端以当前全局模型的分类器梯度为基准，计算其与每个客户端的模型的分类器梯度的余弦相似度，作为客户端本地数据分布的表征。随后，服务端基于这些表征数据，通过亲和度传播算法，将具有相似数据分布的客户端聚到同一个集合中，聚合结果如图5、图6所示。

实施例三

本发明的工作过程为：

综上，本发明实施例提供一种面向数据异构性的个性化联邦学习方法及存储介质，其仅需每个客户端公开其本地个性化模型的模型分类器梯度信息，能够缓解隐私泄露的问题，同时基于模型分类器梯度信息进行聚类可以更精确地识别出具有相似数据分布的客户端，降低计算代价，通过具有比全局模型更有价值的聚合模型构造客户端的本地优化目标，可以使客户端获得具有更好的泛化性能和具有收敛性的个性化模型。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种面向数据异构性的个性化联邦学习方法，其特征在于，包括：

2.根据权利要求2所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S2中，所述本地训练要构造客户端的本地目标函数，所述本地目标函数为：

其中，L_i为客户端的损失函数，θ_i为客户端的本地模型，ω_cj为接收到的来自服务端的模型，在第一轮训练时，ω_cj为全局模型，从第二轮训练开始为聚合模型，正则化参数λ∈[0,∞]。

为解决上述本地目标函数，本地优化目标为：

其中，|D_i|为客户端的本地数据量，为客户端集合中所有客户端的数据量的总和，所述本地优化目标包括外层的目标和内层的目标，即所述双层优化，所述外层的目标是通过多个客户端的知识获得_cj，所述内层的目标是获得客户端的个性化模型，为解决所述本地优化目标的内层目标计算本地个性化模型，所述个性化模型为：

3.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S2中，所述本地更新的公式为：

4.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S2中，所述的本地个性化模型采用梯度下降的方式计算估计值，公式为：

5.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S3中，所述聚类采用亲和力传播算法。

6.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S4中，服务端以全局模型的分类器梯度为基准，计算其与每个客户端的模型的分类器梯度的余弦相似度，公式为：

7.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S4中，通过加权平均算法计算每个客户端集合的聚合模型，所述聚合的过程为服务端根据客户端的数据量，对同属于一个客户端集合的客户端的模型参数进行加权平均聚合，得到每个客户端集合的聚合模型，公式为：

8.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S4中，服务端通过加权平均算法更新所述新的全局模型，更新过程为服务端根据每个客户端集合的总数据量，对当前|C|个客户端集合的聚合模型进行加权平均聚合，公式为：

其中|D|为所有集合的数据量总和。

9.根据权利要求1所述的一种面向数据异构性的个性化联邦学习方法，其特征在于，在步骤S6中，所述预设的停止条件为准确率阈值或收敛阈值。

10.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～9任意一项所述的一种面向数据异构性的个性化联邦学习方法。