CN115511108A

CN115511108A - 一种基于数据集蒸馏的联邦学习个性化方法

Info

Publication number: CN115511108A
Application number: CN202211182116.2A
Authority: CN
Inventors: 翟锐; 张玉涛; 刘杭; 于俊洋; 王瑛琦; 宋亚林; 刘文明; 苑昆永
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-23
Anticipated expiration: 2042-09-27

Abstract

本发明提供一种基于数据集蒸馏的联邦学习个性化方法。该方法包括：在客户端，利用预设的数据集蒸馏模型对本地数据进行处理生成蒸馏数据

并将蒸馏数据加密后上传至服务器；服务器利用所有的加密蒸馏数据

进行全局模型训练，得到全局模型的初始参数G₀，将

和G₀下发至各客户端；在客户端，根据本地数据的数据分布特征利用

进行数据增强得到新的本地数据，并利用G₀对本地模型进行参数初始化，然后利用新的本地数据对当前本地模型的参数进行更新并上传至服务器；服务器对所有本地模型的参数进行聚合以更新全局模型的参数，并将更新后的全局模型的参数下发至各客户端；重复前述的两个步骤，直至更新后的全局模型满足要求。

Description

一种基于数据集蒸馏的联邦学习个性化方法

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种基于数据集蒸馏的联邦学习个性化方法。

背景技术

在人工智能蓬勃发展的时代背景下，机器学习技术的发展为社会生产带来了翻天覆地的变化，生物认证，智能驾驶，语音助理等一系列技术得到广泛应用。随着技术的不断发展，隐私安全问题也成为人们日渐关注的话题。

联邦学习是一种特殊的分布式机器学习框架，用于解决机器学习实际应用中的数据隐私问题。它可以在不上传原始数据的条件下进行机器学习训练，缓解了数据孤岛问题，同时也有效的保护了用户的隐私安全。然而，联邦学习在实际应用中仍面临诸多严峻挑战，例如用户习惯不同，导致本地数据分布不均衡，在这种情况下全局预测模型的准确率会大大降低。因此，基于非独立同步数据分布、设备异质性、模型异质性等现实问题所来带的挑战，需要对全局模型进行个性化处理，实现个性化的联邦学习。

目前，关于个性化的联邦学习的研究多数是通过用户聚类、模型插值或数据增强来实现的。其中，用户聚类法是指通过聚类算法，将客户端分组，并为每组训练一个模型，这个模型是全局模型和本地模型之间的中间模型，最理想的情况是用户可以利用全局模型中的信息来补偿其有限的局部训练数据，然而将客户端分组需要借助客户端原始的数据特征，有隐私泄露的风险，并且存在泛化性不足的问题。模型插值法也是通过生成中间模型来实现联邦学习个性化，相对于用户聚类法，模型插值法提高了个性化模型的泛化性，但计算成本偏高，影响全局网络的收敛速度。数据增强法的主要目的是构建独立同分布的本地数据集，基于数据增强的个性化联邦学习与其他算法相比拥有更快的收敛速度以及更高的准确率。虽然有大量的算法通过数据增强的方式来改进联邦学习算法，但是仍有如下几个问题：1.使用公共数据集的方法不具有普适性。例如FedShare算法使用公共数据集作为数据增强的数据来源，虽然这种方法可以提高准确度，在实际应用中不能准确匹配客户端的数据类型；2.获取客户端数据分布有可能泄露用户隐私。例如Astraea方法在增强数据前获取了客户端本地数据分布的统计信息，包括每一类数据的数量、平均值以及标准差值。这些统计信息会暴露用户的偏好，存在隐私泄露的风险。3.数据增强的方法增加了系统的通信开销。例如FAug方法，在服务器端训练生成对抗模型(Generative adversarial networks,GAN)，再将训练好的GAN模型下发到客户端。GAN模型的训练与下发增加了系统的计算开销，也降低了整体的通信效率。

发明内容

针对现有的个性化联邦学习方法存在的上述问题，本发明提供一种基于数据集蒸馏的联邦学习个性化方法。

本发明提供的一种基于数据集蒸馏的联邦学习个性化方法，包括：

步骤1：在客户端，利用预设的数据集蒸馏模型对本地数据进行处理生成蒸馏数据

并将所述蒸馏数据加密后上传至服务器；

步骤2：服务器接收到各客户端上传的加密蒸馏数据

后，将所有的加密蒸馏数据记作

利用

进行全局模型训练，得到全局模型的初始参数G₀，将

和G₀下发至各客户端；N表示客户端的数量；

步骤3：在客户端，根据本地数据的数据分布特征利用

进行数据增强得到新的本地数据，并利用G₀对本地模型进行参数初始化；

步骤4：在客户端，利用新的本地数据对当前本地模型的参数进行更新，并将更新后的本地模型的参数上传至服务器；

步骤5：服务器接收到各客户端上传的本地模型的参数后，对所有本地模型的参数进行聚合以更新全局模型的参数，并将更新后的全局模型的参数下发至各客户端；

步骤6：重复步骤4至步骤5，直至更新后的全局模型满足要求。

进一步地，步骤1具体包括：

步骤1.1：将公式(1)设置为优化目标函数，利用公共数据集训练得到数据集蒸馏模型：

其中，

为生成的合成数据集，

为学习率，θ₀为初始化参数，

表示拉普拉斯算子，

表示元学习函数；

步骤1.2：将数据集蒸馏模型下发至各客户端，客户端利用数据集蒸馏模型对本地数据进行处理生成蒸馏数据

并采用差分隐私算法对所述蒸馏数据

记进行加密，得到加密蒸馏数据

进一步地，步骤3具体包括：

步骤3.1：使用狄利克雷分布对本地数据分布进行统计，得到本地数据的数据分布参数α；

步骤3.2：利用

对本地数据进行补充使得本地数据的数据分布参数α不断逼近0.5，将α最接近0.5时的本地数据作为新的本地数据。

进一步地，步骤4具体包括：对于客户端k，对第t轮次的梯度

进行随机梯度下降，得到更新后的梯度

将

上传至服务器。

进一步地，步骤5具体包括：

步骤5.1：按照公式(2)对所有本地模型的梯度进行聚合：

其中，m_k表示第k个客户端所拥有的样本数量，m表示样本总数；

步骤5.2：按照公式(3)进行梯度下降：

w＝w_t-ηΔF_t(w_t) (3)

其中，w表示更新后的梯度，η为本地模型的学习率，ΔF_t表示目标函数在第t次聚合时的变化量；

步骤5.3：服务器在计算出最新梯度w后进行反向传播更新全局模型，之后下发模型参数θ至各客户端。

本发明的有益效果：

(1)本发明通过数据集蒸馏的方法实现数据增强，所有参与训练的客户端将本地数据集通过数据集蒸馏模型进行数据增强得到蒸馏图像数据；如此扩充了系统的样本丰富度，为构建独立同分布的数据集提供了数据支持。

(2)本发明将所有客户端上传的蒸馏图像数据作为公共蒸馏图像数据，并利用其在拥有非独立同分布数据的客户端上构建独立同分布的数据集；客户端构建独立同分布的数据集之后，解决了客户端上数据不均衡的问题，最终提高了模型训练的精度与速度。

(3)本发明使用公共蒸馏图像数据对全局模型进行初步训练，随后将训练后的初始模型参数下发，如此客户端不再使用随机的模型参数，最终提高了系统整体的运行效率。

附图说明

图1为本发明实施例提供的一种基于数据集蒸馏的联邦学习个性化方法的流程示意图；

图2为本发明实施例提供的全局模型和本地模型的初始化示意图；

图3为本发明实施例提供的全局模型和本地模型的训练过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于数据集蒸馏的联邦学习个性化方法，包括以下步骤：

S101：在客户端，利用预设的数据集蒸馏模型对本地数据进行处理生成蒸馏数据

并将所述蒸馏数据加密后上传至服务器；

具体地，本步骤具体包括以下子步骤：

S1011：将公式(1)设置为优化目标函数，利用公共数据集训练得到数据集蒸馏模型：

其中，

为生成的合成数据集，

为学习率，θ₀为初始化参数，

表示拉普拉斯算子，

表示元学习函数；可以理解，用户可以根据需求对元学习函数进行自定义。

S1012：将数据集蒸馏模型下发至各客户端，客户端利用数据集蒸馏模型对本地数据进行处理生成蒸馏数据

并采用差分隐私算法对所述蒸馏数据

记进行加密，得到加密蒸馏数据

S102：服务器接收到各客户端上传的加密蒸馏数据

后，将所有的加密蒸馏数据记作

利用

进行全局模型训练，得到全局模型的初始参数G₀，将

和G₀下发至各客户端；N表示客户端的数量；如图2所示。

具体地，服务器接收到客户端上传的加密蒸馏数据之后，无需解密即可进行全局模型训练，原因在于：本次训练的目的是为了得到一个粗精度的初始模型。采用本地差分隐私在用户侧进行，服务器无法获得真实的隐私信息，其核心思想是随机化算法，即每一个采集的数据都加入了噪声。若采集的数据足够多，那么就可得到相对准确的统计分布。如此，服务器在可获得统计行为的同时，能够避免用户隐私的泄露。

S103：在客户端，根据本地数据的数据分布特征利用

进行数据增强得到新的本地数据，并利用G₀对本地模型进行参数初始化；如图2所示。

具体地，本步骤具体包括以下子步骤：

S1031：使用狄利克雷分布对本地数据分布进行统计，得到本地数据的数据分布参数α；

狄利克雷分布是关于一组d个连续变量x_i∈[0,1]的概率分布，∑_ix_i＝1。令μ＝(μ₁，μ₂，…,μ_d)，参数α＝(α₁，α₂，…,α_d)，其中α_i>0且

那么狄利克雷分布表示为：

S1032：利用

S104：在客户端，利用新的本地数据对当前本地模型的参数进行更新，并将更新后的本地模型的参数上传至服务器；

具体地，客户端在平衡好数据之后进行随机梯度下降，在满足一定的轮次后将本轮梯度上传至服务器进行聚合。其中，对于客户端k，对第t轮次的梯度

进行随机梯度下降，得到更新后的梯度

将

上传至服务器。

对于每一个客户端执行更新操作，公式描述为

S105：服务器接收到各客户端上传的本地模型的参数后，对所有本地模型的参数进行聚合以更新全局模型的参数，并将更新后的全局模型的参数下发至各客户端；

具体地，本步骤具体包括以下子步骤：

S1051：按照公式(2)对所有本地模型的梯度进行聚合：

其中，m_k表示第k个客户端所拥有的样本数量，m表示样本总数量。

S1052：按照公式(3)进行梯度下降：

w＝w_t-ηΔF_t(w_t) (3)

其中，w表示更新后的梯度，η为本地模型的学习率，ΔF_t表示目标函数在第t次聚合时的变化量。

S1053：服务器在计算出最新梯度w后进行反向传播更新全局模型，之后下发模型参数θ至各客户端。

S106：重复步骤S104至步骤S105，直至更新后的全局模型满足要求，如直至全局模型收敛。如图3所示。

本发明通过数据集蒸馏的方法实现数据增强，所有参与训练的客户端将本地数据集通过数据集蒸馏模型进行数据增强得到蒸馏图像数据；如此扩充了系统的样本丰富度，为构建独立同分布的数据集提供了数据支持

本发明将所有客户端上传的蒸馏图像数据作为公共蒸馏图像数据，并利用其在拥有非独立同分布数据的客户端上构建均匀的数据集；客户端构建独立同分布的数据集之后，解决了客户端上数据不均衡的问题，最终提高了模型训练的精度与速度。

本发明使用公共蒸馏图像数据对全局模型进行初步训练，随后将训练后的初始模型参数下发，如此客户端不再使用随机的模型参数，最终提高了系统整体的运行效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。