CN114065951A

CN114065951A - 基于non-IID数据的半监督联邦学习方法

Info

Publication number: CN114065951A
Application number: CN202111361762.0A
Authority: CN
Inventors: 伍一; 张哲�; 马士尧; 刘桢谋; 张泷玲
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-18

Abstract

基于non‑IID数据的半监督联邦学习方法，解决了现有联邦学习缺乏标记数据的问题，属于联邦学习应用技术领域。本发明包括：步骤1、服务器随机从全部客户端中选择设定比例F的客户端，发送全局模型ω_t给选择的客户端；步骤2、服务器在标记的数据集D_s上使用本地优化器来训练监督模型σ_t，获得监督模型σ_t+1；步骤3、第k个客户端使用本地无标签数据集来训练接收到的全局模型ω_t，并获得无监督模型

发送给服务器；步骤4、服务器聚合客户端上传的

得到第t+1轮的全局无监督模型ψ_t+1；步骤5、服务器将ψ_t+1、σ_t+1和ω_t聚合得到新的全局模型ω_t+1：ω_t+1＝αψ_t+1+βσ_t+1+γω_t；t＝t+1，重复步骤1至步骤5，直到全局模型ω_t+1收敛。

Description

基于non-IID数据的半监督联邦学习方法

技术领域

本发明涉及一种基于non-IID数据的半监督联邦学习方法，属于联邦学习应用技术领域。

背景技术

联邦学习是一种分布式机器学习范式，它允许多个边缘设备(或客户端)协作训练一个共享的全局模型。然而，目前的主流工作是基于一个不切实际的假设：本地客户端的训练数据都有真实标签的。此外，在大多数情况下，为给定的联邦学习任务组合一个适当标记的数据集是一个耗时、昂贵且复杂的工作。因此，在缺乏标记数据的真实场景下，训练高质量的全局模型具有挑战性。

半监督学习可以使用少量的标记数据和大量的未标记数据来训练AI模型，从而减少了模型对标记数据的依赖性。面对上述挑战，学术界的研究员们提出了一个半监督联邦学习系统，可以有效地将半监督学习集成到联邦学习技术中。其次，客户端之间数据的非独立同分布(non-IID)一直是联邦学习中一个关键和具有挑战性的问题。原因是在客户端之间的数据分布、特征和标签数量上存在太多的差异，不利于全局模型的收敛。目前，许多工作已经有效地缓解了non-IID问题，如利用局部批归一化来缓解平均聚合局部模型之前的特征转移。及通过在局部目标函数中引入一个额外的L2正则化项来限制局部模型更新的大小，进而限制局部模型和全局模型之间的距离。但是，诸如这样的方法为服务器或客户端增加了额外的计算和通信开销。

发明内容

针对现有联邦学习缺乏标记数据的问题，本发明提供一种基于non-IID数据的半监督联邦学习方法。

本发明的一种基于non-IID数据的半监督联邦学习方法，所述方法包括：

步骤1、服务器随机从全部客户端中选择设定比例F的客户端，发送全局模型ω_t给选择的客户端；

步骤2、服务器在标记的数据集D_s上使用本地优化器来训练监督模型σ_t，获得监督模型σ_t+1；

步骤3、第k个客户端使用本地无标签数据集来训练接收到的全局模型ω_t，并获得无监督模型

发送给服务器；

步骤4、服务器聚合客户端上传的无监督模型

得到全局无监督模型ψ_t+1：

其中，

是第k个客户端在第t+1次培训轮次中的无监督模型，

是第k个客户端的权重，

K为客户端的总数，

是第k个客户端被训练到第t+1轮累计的次数，S_t+1表示服务器在t+1轮中选择的客户端集；

步骤5、服务器将第t+1轮的全局无监督模型ψ_t+1，监督模型σ_t+1和上一轮的全局模型ω_t聚合得到新的全局模型ω_t+1：

其中α，β和γ分别是全局无监督模型、监督模型和上一轮的全局模型ω_t对应的权重，并且(α,β,γ)∈{α+β+γ＝1^α,β,γ…0}；

t＝t+1，重复步骤1至步骤5，直到全局模型ω_t+1收敛。

本发明的

步骤3中，第k个客户端使用的本地无标签数据集包括c类数据，通过调整Dirichlet分布函数的参数μ₁,..,μ_c来生成不同non-IID水平的数据分布；

假设

是从狄利克雷分布函数中随机抽取的一组c个实数值，即Θ～Dir(μ₁,...,μ_c)，狄利克雷分布函数为：

其中，Γ(·)表示Gamma函数，对于第k个客户端第i类数据占客户端所有数据的比例，作如下定义：

这里，i＝1,2,L c；

根据获取的c个

设置第k个客户端使用的本地无标签数据集中c类数据的比例。

本发明的步骤2中，服务器在标记的数据集D_s上使用本地优化器来训练监督模型σ_t的方法为：设定目标函数：

其中，λ_s是超参数，x和y来自标签数据集D_s，而

表示在第t轮训练中标签样本在监督模型σ_t上的输出，σ表示监督模型参数，R^d表示d维的实数矩阵。

本发明的步骤3中，

设定目标函数：

其中

表示无监督模型

的输入到输出的映射函数，λ_L1表示惩罚项系数，λ₁，λ₂是控制损失项之间比率的超参数，

是第k个客户端在第t轮的无监督模型，u来自本地无标签数据集D_k，π₁(·)是移位数据增强的扰动，π₂(·)是翻转数据增强的扰动，

是表示伪标签；

其中Max(·)是一个可以输出未标记数据属于某个类的最大概率的函数，1(·)表示将数值更改为1的单热函数，A表示数据增强的次数，τ表示阈值。

本发明的有益效果，本发明为了解决缺乏标记数据的问题，提出了基于non-IID数据的半监督联邦学习方法，该方法对监督模型(在标记数据上学习)、无监督模型(在未标记数据上学习)和全局模型进行不相交学习的参数分解策略。特别地，该算法以细粒度的方式分析了全局模型在迭代之间的隐式效应。为了解决联邦学习中的non-IID问题，本发明提出了一种新的聚合规则，联邦频率(FedFreq)，该规则通过记录客户端的训练频率来动态调整相应的局部模型的权重，以缓解non-IID问题。此外，本发明引入了狄克雷分布函数来模拟不同的non-IID水平场景。

附图说明

图1为本发明的原理示意图；

图2为argmax方法的原理示意图；

图3为不同参数的Dirichlet数据分布的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施方式将在标记数据集上训练的监督模型定义为σ，在无标签数据集上训练的无监督模型定义为ψ，将聚合的全局模型定义为ω。具体来说，本实施方式设计一种参数分解策略，分别将三个权重α，β和γ分配给无监督模型ψ，监督模型σ和上一轮的全局模型ω。本实施方式的方法可以以细粒度的方式捕获全局模型的每次迭代之间的隐式关系。本实施方式的基于non-IID数据的半监督联邦学习方法包括：

步骤1，初始化：服务器随机从全部客户端中选择设定比例F的客户端，初始化的全局模型ω0。请注意，全局模型ω0也保留在服务器端。0＜F＜1；

与联邦学习不同，在本实施方式的半监督联邦学习系统中，服务器不仅聚合客户端上传的模型，而且还在标签数据集D_s上训练监督模型σ_t(σ_t←ω_t)。因此，服务器在标记的数据集D_s上使用本地优化器来训练监督模型σ_t。目标函数的最小化定义如下：

其中λ_s是超参数，x和y来自标签数据集D_s，而

表示在第t轮训练中标签样本在监督模型σ_t上的输出。σ表示监督模型参数，R^d表示d维的实数矩阵。

发送给服务器；

第k个客户端使用本地无标签的数据来训练接收到的全局模型

然后获得无监督的模型

因此，本实施方式定义以下目标函数：

其中，其中

表示无监督模型

是第k个客户端在第t轮的无监督模型，u来自本地无标签数据集，π₁(·)是移位数据增强的扰动，即π₁是移位数据增强，π₂是翻转数据增强，π₂(·)是翻转数据增强的扰动，

是表示伪标签；而

是通过使用本实施方式提出的argmax方法获得的伪标签。Argmax方法的定义如下：

其中Max(·)是一个可以输出未标记数据属于某个类的最大概率的函数，1(·)是一个可以将数值更改为1的单热函数，A表示数据增强的次数，而u来自无标签的数据集Dk。本实施方式还设置对超过阈值τ＝0.80的无标签样本打上伪标签。

步骤4、服务器聚合客户端上传的无监督模型

得到全局无监督模型ψ_t+1：

服务器使用FedFreq聚合算法来聚合客户端上传的无监督模型，得到全局的无监督模型，即

其中

是第k个客户端在第t+1次培训轮次中的无监督模型，

是第k个客户端的权重。

本实施方式提出了设计的FedFreq聚合算法，该算法可以根据客户端的训练频率动态调整相应的局部模型的权重，以缓解non-IID问题。本实施方式观察到，全局模型的参数分布将偏向于经常参与联邦训练的客户，这显然对全局模型的稳健性不友好。因此，本实施方式的见解是降低具有高训练频率的客户对全局模型的影响，以提高模型的鲁棒性。FedFreq聚合算法的形式表达式如下：

然后，对于客户端，FedFreq聚合规则表示如下：

其中，

是第k个客户端在第t+1次培训轮次中的无监督模型，

是第k个客户端的权重，

K为客户端的总数，

ω_t+1＝αψ_t+1+βσ_t+1+γω_t

其中α，β和γ分别是全局无监督模型、监督模型和上一轮的全局模型ω_t对应的权重，并且(α,β,γ)∈{α+β+γ＝1∧α,β,γ…0}；

t＝t+1，重复步骤1至步骤5，直到全局模型ω_t+1收敛。

本实施方式基于non-IID数据的半监督联邦学习方法的算法流程：

输入：客户端集合K，服务器每轮的训练批次B_server，服务器每轮的训练次数E_server，客户端每轮的训练批次B_client，客户端每轮的训练次数E_client，学习率η

输出：收敛的全局模型ω^*

1.服务器执行

2.初始化全局模型ω₀

3.for每一轮t＝0,1,2,...do

4.σ_t←ω_t

5.B_server←(将服务器数据划分为B_server大小的批次)

6.for训练次数e＝1to E_server do

7.σ_t+1＝σ_t-η▽L_s(σ_t,D_s,B_server,E_server)

8.end for

9.S_t←(从K个客户端中随机选择F·K个客户端)

10.for每一个被选择的客户端k∈S_t同步do

11.

12.ψ_t+1←客户端执行

//FedFreq聚合

13.end for

14.ω_t+1＝αψ_t+1+βσ_t+1+γω_t

15.服务器存储ω_t+1

16.end for

17.客户端执行

18.B_client←(将客户端数据划分为B_client大小的批次)

19.for训练次数e＝1to E_client do

20.

21.end for

22.返回ω^*

传统的半监督联邦学习在训练过程中简单地使用了无监督模型和监督模型的参数分解策略，即ω_t＝ψ_t+σ_t。通过这种方式，学习到的全局模型将偏向于未标记数据(无监督模型)或标记数据(有监督模型)，而不是整体数据。因此，为了避免全局模型的漂移问题，本实施方式的本实施方式的基于non-IID数据的半监督联邦学习方法将前一轮的全局模型添加到模型参数聚合中，即ω_t＝αψ_t+βσ_t+γω_t-1。

本实施方式的基于non-IID数据的半监督联邦学习方法对不同水平的non-IID数据具有鲁棒性。在本实施方式的实验中，本实施方式引入了狄利克雷分布函数来模拟联邦学习中本地客户端的non-IID数据分布。结果表明，在不同水平的non-IID设置下，本实施方式的模型的性能差异不超过1％。

为了更好地评估本实施方式所设计的系统对non-IID数据的鲁棒性，本实施方式引入了Dirchlet分布函数(一个常用的non-IID函数)来调整本地客户端数据的non-IID水平。具体来说，步骤3中，第k个客户端使用的本地无标签数据集包括c类数据，通过调整Dirichlet分布函数的参数μ₁,..,μ_c来生成不同non-IID水平的数据分布；

假设

这里，i＝1,2,L c；

根据获取的c个

狄利克雷分布函数的参数μ越小，每个客户端数据分布的non-IID水平就越高；否则，客户端的数据分布倾向于IID设置。

本实施方式研究了标签在服务器上的场景，并解决了联邦学习中的数据可用性和non-IID问题。为了解决第一个问题，本实施方式设计了一个鲁棒的半监督联邦学习系统，它使用本实施方式的基于non-IID数据的半监督联邦学习方法算法来实现高精度的半监督学习。为了解决non-IID问题，本实施方式提出了一种新的聚合算法FedFreq，该算法在不增加额外计算开销的情况下，有效地实现了全局模型在训练过程中稳定的性能。通过实验验证，本实施方式鲁棒的半监督联邦学习系统的性能明显优于基线。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。