CN115169575A

CN115169575A - 个性化联邦学习方法、电子设备及计算机可读存储介质

Info

Publication number: CN115169575A
Application number: CN202210719425.2A
Authority: CN
Inventors: 陈永红; 谢翀; 兰鹏; 罗伟杰; 陈柯树; 赵豫陕
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-11

Abstract

本发明公开了一种个性化联邦学习方法、电子设备及计算机可读存储介质，本发明通过将本地数据模型结构拆分成两个部分：第一部分是表征层，这一部分会发送给服务器端进行参数聚合，学习出一个泛化性很强的共享表征层；第二部分是个性化层，这一部分主要学习每个客户端本地的数据特征。第一部分保证了数据模型的泛化性，在有新的客户端加入时可基于已有的共享表征，结合本地数据进行微调就能取得不错的效果，训练代价较小；第二部分保证了客户端的个性化，会让模型更多的拟合本地的数据特征，在本地取得更好的效果。两个部分的组合仅有第一部分参与到联邦训练中，每轮迭代传输的参数量大大减少，提高了通信效率。

Description

个性化联邦学习方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机软件领域，尤其涉及的是一种个性化联邦学习方法、电子设备及计算机可读存储介质。

背景技术

在联邦学习任务中，现有的方法大多是：将各个本地的客户端(client)用本地数据训练各自模型，并将训练得到的参数/梯度发送给服务器端(server端)，服务器端接收各个客户端的参数/梯度，并进行平均后再回发给各个客户端，各个客户端接收参数/梯度后对本地模型进行更新，为下一轮更新做准备。这样的方法解决可以联合各方训练一个统一的模型，但是忽略了各客户端的差异性，统一的模型无法解决各客户端的个性化需求，即无法解决非独立同分布(non-IID)下各客户端的个性化需求。主要体现在以下几点：

1.每个客户端的数据分布差异较大，统一的模型会偏向于数据较多的样本类别，无法保证在每个客户端上取得理想的效果；

2.参数聚合时，客户端需要将所有的参数或梯度发送给服务器端，数据量较大，影响了联邦通信效率；

3.对于新加入的客户端，已训练好的模型泛化能力有限，要想让其也获得比较好的效果，只能重新进行联邦训练，代价较大。

因此，现有技术存在缺陷，需要改进。

发明内容

本发明所要解决的技术问题是：提供一种样本复杂度降低，数据模型的拓展能力更强，通信效率高，在满足个性化需求的同时数据模型的泛化能力也得到了一定的保证的高效的个性化联邦学习方法、电子设备及计算机可读存储介质。

本发明的技术方案如下：本发明提供一种个性化联邦学习方法，包括如下步骤：

将本地数据模型结构拆分为用于发送给服务器端进行参数聚合的表征层和用于各个客户端分别学习本地数据的个性化层；

基于本地数据模型结构的表征层和个性化层进行各个客户端的本地学习；

将学习后的表征层发送给服务器端进行参数聚合，完成联邦训练，得到共享表征层；

采用共享表征层和学习后的个性化层对客户端进行更新迭代。

进一步地，所述基于本地数据模型结构的表征层和个性化层进行各个客户端的本地学习包括：

将数据模型结构中的表征层数据通过矩阵方式映射至多维子空间中；

采用个性化层的参数进行矩阵转置操作，从而得到输入至该本地数据模型结构的样本数据所对应的真实标签。

进一步地，所述基于本地数据模型结构的表征层和个性化层进行各个客户端的本地学习还包括各个客户端对本地数据模型结构进行优化的步骤。

进一步地，所述对本地数据模型结构进行优化的步骤包括：

采用一组参数减去真实标签得到预测误差值，并将多个预测误差值进行求和，从而得到优化目标值；

由输入的数据运算得到预测标签，求出真实标签与预测标签之间的偏差，对该偏差求期望值形成一损失函数，运算该损失函数可以得到一损失值，并将多个损失值进行求和，从而得到全局优化目标值。

进一步地，所述对客户端进行更新迭代为从多个客户端中采样出部分或全部客户端用于完成一轮优化，且迭代优化的轮数大于或等于1。

进一步地，当所述迭代优化的轮数大于1时，所述对客户端进行更新迭代包括以下步骤：

客户端采用共享表征层对本地表征层进行初始化，并采用梯度下降算法求解完成多轮通信后表征层的参数；

采用上一轮通信最后一轮迭代后的个性化层的参数进行个性化层初始化，并采用梯度下降算法求解完成多轮通信后个性化层的参数，并将该个性化层的参数发送给服务器端。

进一步地，所述客户端在完成一批次迭代优化后，对该批次迭代优化中每一轮迭代优化所得到的真实标签与预测标签之间的差值进行求和，得到总差值，并对该总差值求期望值，得到一损失值，算出损失值在最小值时的变量值，以该变量值作为完成一批次更新迭代后个性化层的参数，所述批次的轮数根据实际需求提前设定。

进一步地，所述服务器端接收各个客户端的表征层的参数后，采用FedAvg算法进行参数聚合，并将聚合后的参数发送给各个客户端，用于给各个客户端完成各自表征层的参数更新。

本发明还提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述计算机程序时，实现上述的一种高效的个性化联邦学习方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的一种高效的个性化联邦学习方法的步骤。

本发明的有益效果为：

本发明通过将本地数据模型结构拆分成两个部分：第一部分是表征层，这一部分会发送给服务器端进行参数聚合，学习出一个泛化性很强的共享表征层；第二部分是个性化层，这一部分主要学习每个客户端本地的数据特征。第一部分保证了数据模型的泛化性，在有新的客户端加入时可基于已有的共享表征层，结合本地数据进行微调(fine-tune)就能取得不错的效果，训练代价较小；第二部分保证了客户端的个性化，会让模型更多的拟合本地的数据特征，在本地取得更好的效果。两个部分的组合仅有第一部分参与到联邦训练中，每轮迭代传输的参数量大大减少，提高了通信效率；本发明还具有以下优点：样本复杂度降低；模型的拓展能力更强，尤其是针对新加入的客户端能以较低代价学习到较好的参数；通信效率提升，需要传输的参数量大幅减少；性能提升，在满足个性化需求的同时模型的泛化能力也得到了一定的保证。

附图说明

图1为本发明一种个性化联邦学习方法的流程图。

图2为本发明的数据模型结构和其个性化联邦学习的示意图。

图3本发明中对客户端进行更新迭代的流程图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

本实施例提供了一种个性化联邦学习方法，如图1所示，包括如下步骤：

将本地数据模型结构拆分为用于发送给服务器端进行参数聚合的表征层和用于各个客户端分别学习本地数据的个性化层，如图2所示；

将学习后的表征层发送给服务器端进行参数聚合，完成联邦训练，得到一个泛化性很强的共享表征层；

采用共享表征层和各自学习后的个性化层对各个客户端进行更新迭代并且，可以使用已有的模型的共享表征层和新客户端的本地数据特征对新客户端进行微调。

本发明通过将数据模型结构拆分成两个部分：第一部分是模型的表征层，这一部分会发送给服务器端进行参数聚合，学习出一个泛化性很强的共享表征层；第二部分是模型的个性化层，这一部分主要学习每个客户端本地的数据特征。第一部分保证了数据模型的泛化性，在有新的客户端加入时可基于已有的共享表征层，结合本地数据进行微调(fine-tune)就能取得不错的效果，训练代价较小；第二部分保证了客户端的个性化，会让模型更多的拟合本地的数据特征，在本地取得更好的效果。两个部分的组合仅有第一部分参与到联邦训练中，每轮迭代传输的参数量大大减少，提高了通信效率。

具体的，本发明提供的个性化联邦学习方法主要由两个部分组成：第一部分是客户端的本地训练，第二个部分是服务器端的参数聚合与广播。客户端的本地训练包括客户端的整体学习和客户端的表征层和个性化层的更新。

以下将详细介绍客户端的整体学习过程。

将本地数据模型结构中的表征层数据通过矩阵方式映射至多维子空间中；采用个性化层的参数进行矩阵转置操作，从而得到输入至该本地数据模型结构的样本数据所对应的真实标签，以用于后续的目标优化。在本实施例中，本地数据模型结构原始的输入数据为d维向量，表征层

通过矩阵B∈R^d*k将数据映射到k维子空间中(R为实数空间)，客户端i的本地个性化层为h_i，该个性化层的参数表示为w_i∈R^k。在理想的本地数据模型结构中输入样本数据x_i，则相应的真实标签(label)y_i可表示为：

其中，B^*和

是要通过优化尽可能接近的真实标签，T为矩阵的转置操作。

各个客户端还利用预测误差值对本地数据模型结构进行优化。具体的优化步骤包括：

采用一组参数减去真实标签得到预测误差值，并将多个预测误差值进行求和，从而得到优化目标值。具体的，客户端i在数据集D_i上的预测误差值为：

则对多个预测误差值进行求和就可以得出我们的优化目标为：

其中，参数(B，W)为找到尽可能的接近真实标签

的参数组，n为客户端的数量，W表示客户端个性化层参数，w_i，...，w_n表示第i到第n个客户端的个性化层的参数。

由输入的数据运算得到预测标签，求出真实标签与预测标签之间的偏差，对该偏差求期望值形成一损失函数，由上面的描述可得，

客户端i的损失函数如下：

其中，D_i表示对i个客户端的本地数据集，y_i为其真实标签，x_i表示输入数据，

表示输入x_i后得到的预测标签。

运算上述的损失函数可以得到一损失值，并将多个损失值进行求和，从而得到全局优化目标值。具体的，该全局优化目标值为：

客户端的表征层和个性化层的更新过程如下。

从多个客户端中采样出部分或全部客户端用于完成一轮优化，且迭代优化的轮数大于或等于1。即在每一次迭代时，从总量为n的客户端中采样出r*n个客户端用于本轮的优化，其中r∈(0，1]。客户端在本地更新时，会进行T轮迭代。

参考图3，当迭代优化的轮数大于1时，对客户端进行更新迭代包括以下步骤：针对表征层更新，客户端采用共享表征层对本地表征层进行初始化，并采用梯度下降算法求解完成多轮通信后表征层的参数。针对个性化层的更新，采用上一轮通信最后一轮迭代后的个性化层的参数进行个性化层初始化，并采用梯度下降算法求解完成多轮通信后个性化层的参数。

在本实施例中，首先，客户端本地表征层

使用全局共享表征层

初始化，本地个性化层参数

用该客户端上一轮通信最后一轮迭代后的参数初始化；即：

其中，

表示第i个客户端的个性化层的参数h_i在t-1轮通信时本地迭代第T次的参数。

其次，在客户端本地进行T轮迭代，每一轮迭代先优化个性化层，再优化表征层，第s次更新方式如下：

其中，s∈[1，T]；GRD(*)表示梯度下降算法，α代表步长，

表示第i个客户端个性化层参数h_i在t轮通信时本地迭代第S次和第T次的参数。在各客户端更新完本地参数时，将

发送给服务器端。

接着，客户端在完成一批次(batch)迭代优化后，对该批次迭代优化中每一轮迭代优化所得到的真实标签与预测标签之间的差值进行求和，得到总差值，并对该总差值求期望值，得到一损失值，算出损失值在最小值时的变量值，以该变量值作为完成一批次更新迭代后个性化层的参数，所述批次的轮数根据实际需求提前设定。

具体的，客户端i在第t轮通信对于一个批次的数据

的损失值(loss)为：

其中，

是强凸函数，

表示第j个batch数据的真实标签，

表示该batch的预测结果。

客户端在本地更新时会以较快的速度收敛，

(即第t+1轮的个性化层的参数)可通过以下公式快速求得：

服务器端的参数聚合与广播

服务器端接收来自各个客户端的参数，使用FedAvg算法对表征层进行参数聚合，聚合方式如下：

聚合后的参数发送给各个客户端，各个客户端根据接收到的参数更新各自的表征层的参数，以用于下一轮的更新。

如此，通过上述流程的设计，本发明有以下几个优点：

(1)样本复杂度降低。对于没有联邦学习的单一客户端，其样本复杂度是θ(d)，在本发明中其复杂度为θ(log(rn)+d/rn)，本发明的复杂度远小于θ(d)，其中r为每一轮采样的客户端比例。

(2)模型的拓展能力更强。对于没有参与联邦训练过程的新客户端，在初始时便能获得一个很好的表征层参数，在此基础上适应其个性化任务的代价大大降低。

(3)提高通信效率。在参数聚合时，只有表征层参与服务器端的聚合，极大的降低了参数传输量，提高了通信效率，让模型更快收敛。

本发明还提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述计算机程序时，实现上述的一种高效的个性化联邦学习方法的步骤。同时还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的一种高效的个性化联邦学习方法的步骤。两者实现个性化联邦学习方法时皆通过将数据模型结构拆分成两个部分：第一部分是表征层，这一部分会发送给服务器端进行参数聚合，学习出一个泛化性很强的共享表征层；第二部分是个性化层，这一部分主要学习每个客户端本地的数据特征。第一部分保证了数据模型的泛化性，在有新的客户端加入时可基于已有的共享表征，结合本地数据进行微调就能取得不错的效果，训练代价较小；第二部分保证了客户端的个性化，会让模型更多的拟合本地的数据特征，在本地取得更好的效果。两个部分的组合仅有第一部分参与到联邦训练中，每轮迭代传输的参数量大大减少，提高了通信效率。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个性化联邦学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的个性化联邦学习方法，其特征在于，所述基于本地数据模型结构的表征层和个性化层进行各个客户端的本地学习包括：

将本地数据模型结构中的表征层数据通过矩阵方式映射至多维子空间中；

3.根据权利要求2所述的个性化联邦学习方法，其特征在于，所述基于本地数据模型结构的表征层和个性化层进行各个客户端的本地学习还包括各个客户端对本地数据模型结构进行优化的步骤。

4.根据权利要求3所述的个性化联邦学习方法，其特征在于，所述对本地数据模型结构进行优化的步骤包括：

5.根据权利要求1所述的个性化联邦学习方法，其特征在于，所述对客户端进行更新迭代为从多个客户端中采样出部分或全部客户端用于完成一轮优化，且迭代优化的轮数大于或等于1。

6.根据权利要求5所述的个性化联邦学习方法，其特征在于，当所述迭代优化的轮数大于1时，所述对客户端进行更新迭代包括以下步骤：

7.根据权利要求6所述的个性化联邦学习方法，其特征在于，所述客户端在完成一批次迭代优化后，对该批次迭代优化中每一轮迭代优化所得到的真实标签与预测标签之间的差值进行求和，得到总差值，并对该总差值求期望值，得到一损失值，算出损失值在最小值时的变量值，以该变量值作为完成一批次更新迭代后个性化层的参数，所述批次的轮数根据实际需求提前设定。

8.根据权利要求1所述的个性化联邦学习方法，其特征在于，所述服务器端接收各个客户端的表征层的参数后，采用FedAvg算法进行参数聚合，并将聚合后的参数发送给各个客户端，用于给各个客户端完成各自表征层的参数更新。

9.一种电子设备，其特征在于，包括处理器和存储有计算机程序的存储器，所述处理器执行所述计算机程序时，实现权利要求1-8任一项所述的一种高效的个性化联邦学习方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的一种高效的个性化联邦学习方法的步骤。