CN115374479A

CN115374479A - 一种非独立同分布数据场景下的联邦学习隐私保护方法

Info

Publication number: CN115374479A
Application number: CN202211081816.2A
Authority: CN
Inventors: 张轶凡; 张一晋; 马川
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-22

Abstract

本发明属于隐私保护技术领域，具体涉及一种非独立同分布数据场景下的联邦学习隐私保护方法。本发明将联邦学习模型与生成对抗神经网络相结合，解决了联邦学习在非独立同分布场景下训练难收敛的问题，降低联邦学习框架内各终端的通信损耗，可以在联邦各终端算力较低的情况下提高机器利用率和学习效率。本发明所使用的ViTGAN生成对抗网络生成的近似真实数据分布的虚假数据，能够满足本地用户的隐私保证，加快联邦学习的收敛速度和降低训练通信负载，提升联邦学习训练好的全局模型和测试精度，同时解决联邦学习易受到推理攻击的问题。

Description

一种非独立同分布数据场景下的联邦学习隐私保护方法

技术领域

本发明涉及联邦学习隐私保护技术领域，尤其是涉及一种基于非独立同分布数据场景下的联邦学习隐私保护方法。

背景技术

随着大数据、人工智能、云计算等新技术在各行业不断深入应用，全球数据呈现爆发增长、海量聚集的特点，数据的价值愈发凸显。数据作为生产要素的流通交易，面临确权和隐私保护两大关键难题。数据本质上是信息，不具备独享性或专享性，多数人可同时拥有。大数据时代，与个人有关的信息传播边际成本微乎其微，能够迅速传遍整个世界，这种低成本使得数据保护面临特殊困难。目前，公司和组织等越来越多地收集用户的详细信息，一方面，能够通过这些属于不同组织的原始数据抽取出有价值的信息，这些信息能通过机器学习技术来提升产品、服务和福利的质量；另一方面，在分布式场景下会存在潜在的滥用和攻击行为，这对数据隐私和安全带来了极大地挑战。传统从用户端收集数据整合后训练机器学习模型的方式被担忧可能会侵犯隐私。

联邦学习为解决用户间隐私问题而产生，能够在尽量不影响效率的情况下实现隐私保护的联合机器学习。相较于将所有的本地数据发送给中央模型，联邦学习将模型分配给每一个设客户端去协助各设备进行模型的训练。在联邦学习中，服务器负责将所有设备终端中的模型融合成一个全局模型，以及将全局模型下发给所有的终端设备。在模型训练过程中，各终端设备只将本地训练得到的模型更新信息上传至服务器用以进行模型权重的聚合，从而能够实现各终端设备本地数据的隐私保护以及降低系统整体的通信开销。

尽管联邦学习在各设备终端的协作机器学习中有很大的应用价值，但是它极大地受困于各设备终端的数据分布不一致的缺点。当各终端设备收取的数据分布属于独立同分布时，由于各设备终端中的本地模型训练得到的随机梯度是对整体梯度的无偏估计，所以传统的联邦学习能够表现出卓越的性能。但是当系统中各设备收取的数据分布为偏斜的非独立同分布时，各设备终端中的模型在训练中就会向不同的方向收敛优化。由于各设备终端梯度发散的现象，在这种数据分布的情况下，传统联邦学习的精度会剧烈下降。另外，相较于在独立同分布的数据场景下，当各终端设备中的数据属于非独立同分布时，传统的联邦学习需要更多的信息沟通轮数达到全局模型的收敛，这也会给设备贫瘠的网络带宽增加巨大的压力。

因此，需要一种新的联邦学习隐私保护方法来进一步提升隐私保护的效果，从而达到更佳的性能。

发明内容

鉴于上述，本发明的目的在于提供一种非独立同分布数据场景下的联邦学习隐私保护方法，在保障用户数据安全的基础上，进一步提升特定场景下联邦学习系统的实用性和有效性，同时解决联邦学习系统的通信效率及损耗问题。

为实现上述发明目的，实施例提供了一种非独立同分布数据场景下的联邦学习隐私保护方法，包括ViTGAN网络、多个客户端和中心服务器，每个客户端与中心服务器建有通信通道，具体步骤为：

S1：在联邦学习的客户端本地部署ViTGAN，使终端已有的数据和预先分配的一般化数据对ViTGAN的生成器和判别器进行训练；S11：生成器接收噪声数据，产出虚假数据提交给判别器进行判断，根据判别器的输出结果判断是否要对生成器进行进一步训练，若判别器无法识别则对判别器进行强化训练，若能被识别则对生成器进行强化训练；S12：构建并利用Resnet-18网络对ViTGAN生成的图像数据进行分类测试；S13：重复S11、S12直至生成器于判别器达到纳什平衡；S14：利用ViTGAN模拟本地数据，产出近似于本地数据分布的虚假数据备用；S2：联邦学习中心服务器向各参与的客户端分发初始模型和训练要求参数，客户端收到初始模型后开始在本地进行训练；S21：中心服务器将原始本地数据集和ViTGAN生成的虚假数据集按照一定比例混合成目标数据集，再以非独立同分布方式划分多个子集数据集，还分配子数据集至客户端使得每个客户端均拥有一个子数据集；S22：客户端用于基于接收得子数据集，依据当前的分发到的模型参数指导训练当前本地模型，并更新本地模型参数，依据约定的通信方式上传模型参数至中心服务器；S23：中心服务器还用于根据接收的模型参数进行聚合得到聚合模型参数，依据约定的通信方式下传聚合模型参数至各客户端以作为下一轮联邦学习的基础。S3：重复S21-S23不断强化全局模型，并得到对最新全局模型测试的准确度。

本发明与现有技术相比，具有的有益效果至少包括：

本发明将联邦学习与ViTGAN生成对抗网络结合，降低联邦学习框架内各终端的通信损耗，可以在联邦各终端算力较低的情况下提高机器利用率和学习效率。利用ViTGAN生成虚假数据再添加进本地数据集中，有效地防止了易受到推理攻击的问题，满足了本地用户的隐私保证，同时提升了联邦学习训练好的全局模型和隐私保护性能；中心服务器采用非独立同分布方式将目标数据集划分成多个子数据集，使得每个子数据集包含一种或两种数据，并下发每个子数据集到各客户端，使得各客户端拥有的子数据集既包含所有种类数据，又不与其他客户端进行数据通信，形成了适用于联邦学习的场景，保证联邦学习场景下对目标数据集的充分利用，提升目标数据集的利用率和联邦学习的准确性。

附图说明

图1是本发明的系统框架图。

图2是本发明的实施流程图。

图3是现有技术和本发明方法提供的联邦学习模型测试准确率的仿真实验图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明克服了当前联邦学习在非独立同分布数据场景下训练难收敛和通信开销较高，以及本地用户的隐私容易受到推理攻击的问题，提出一种利用生成对抗网络实现在训练前扩充客户端的数据集，将真实数据和虚假数据相混合用以客户端训练，可以在不影响整体训练效果的前提下，满足本地用户的隐私保证，极大地降低训练通信负载，实现联邦学习隐私保护性能的提升。

本发明提供一种非独立同分布数据场景下的联邦学习隐私保护方法，具体如下步骤：S1：在联邦学习的客户端本地部署ViTGAN，使终端已有的数据和预先分配的一般化数据对ViTGAN的生成器和判别器进行训练；S11：输入高斯噪声给生成器，产出虚假数据提交给判别器进行判断，根据判别器的输出结果判断是否要对生成器进行进一步训练，若判别器无法识别则对判别器进行强化训练，若能被识别则对生成器进行强化训练；S12：利用Resnet-18网络对于ViTGAN生成的图像数据进行分类测试；S13：重复S11、S12直至生成器于判别器达到纳什平衡，且测试准确度达到85％；S14：利用ViTGAN模拟本地数据，产出近似于本地数据分布的虚假数据备用；S2：联邦学习中心服务器向各参与的客户端分发初始模型和训练要求参数，客户端收到初始模型后开始进行训练；S21：中心服务器用于将原始本地数据集和ViTGAN生成的虚假数据集按照一定比例混合成目标数据集，再以非独立同分布方式划分多个子集数据集，即使得每个子数据集包含一种或两种类别数据，还用于分配子数据集到客户端使得每个客户端均拥有一个子数据集；S22：客户端用于基于接收的子数据集，依据当前的分发到的模型参数指导训练当前本地模型，并更新本地模型参数，再上传模型参数至中心服务器；S23：中心服务器根据接收的模型参数进行聚合得到聚合模型参数，再下传聚合模型参数至各客户端以作为下一轮联邦学习的基础。S3：重复S21-S23不断强化全局模型，并得到对最新全局模型测试的准确度。

本发明解决了当前联邦学习中本地用户的隐私容易受到推理攻击的问题，提出了一种利用生成对抗网络生成样本的隐私性，既能够高度拟合原始本地数据分布，又降低了受到推理攻击后泄露真实数据的风险，同时也降低联邦学习框架内各终端的通信损耗，提高了学习和通信效率，加快了联邦学习的收敛速度，大大提升了联邦学习的性能。

图1是本发明的系统框架图，其中涉及到如下主要实体及其功能如下：联邦学习客户端为联邦学习的各参与方的抽象对象，该对象内包括数据处理模块、模型训练模块，集成了在框架内需要客户端在本地训练和数据处理的功能，同时需要于中心服务器进行数据交互。数据处理模块负责产生目标数据，即真实数据和虚假数据的混合，为模型训练模块提供本轮的训练数据，其内部有本地数据集和ViTGAN组成，本地数据集作为主要数据源，ViTGAN负责通过本地数据集生成虚假数据，实现扩展数据和保护本地数据集的功能，数据处理模块通过整合两类数据实现目标数据，确保本地数据集的安全性和目标数据的有效性。模型性训练模块负责模型训练工作，利用本轮的目标数据对已有模型进行训练，同时每一轮训练开始前从服务器加载最新的全局模型确保训练的有效性。中心服务器负责整个框架的调度工作，包括联邦参数聚合，模型聚合，分配初始模型和训练要求等。

图2为本发明所述的一种非独立同分布数据场景下的联邦学习隐私保护方法的整体实施流程图，包括如下具体步骤：S1：中心服务器于各终端对联邦学习的环节进行初始化，在建立连接后，确认所使用的模型、网络架构和实验超参数等训练要求，同时分发所使用基础数据模型保证一致性。S2：客户端本地部署ViTGAN生成对抗网络，通过本地数据集的数据对ViTGAN进行训练，直至它的生成器和判别器间的关系达到纳什平衡，再利用其生成一定量的虚假数据备用。S3：数据分配器根据一定量配比将本地数据集和生成的虚假数据进行整合，组成目标数据作为本轮的训练数据，在前期适当减少虚假数据的比例。S4：利用本轮的目标数据对最新获取的全局模型进行训练，保存训练结果和参数的变化量。S5：对上传的参数进行联邦聚合，聚合过程使用加权平均聚合，避免浪费算力。S6：聚合后将更新的全局模型分发至各客户端，各客户端更新本地模型，同时将模型应用到生产环境中，若预设的联邦学习轮数已满或服务器发起停止请求则联邦学习结束，否则重复S3-S6。

本发明所述方法关注于各终端设备所处环境为样本属于非独立同分布的场景，作为一次具体的实施例，过程如下：S1：选取CIFAR-10为本发明实验数据集，全集共有训练集50000张图片，测试集10000张图片，均包含10个类别，如猫、狗、青蛙等。S2：利用ViTGAN网络在CIFAR-10数据集上进行训练，直至在Resnet-18网络上分类测试达到85％及以上，再利用其生成一定量的虚假数据备用。S4：为模拟各设备所处的非独立同分布场景，本发明将数据集重新划分，把初始数据集和生成的虚假数据集按照一定比例混合成目标数据集，将目标训练集平均分为10份并分配给10个本地客户端，其中每一设备均只包含5000张图片，并从属于同一类别：例如设备1只包含5000张为狗的图片，设备2只包含5000张为鹿的图片等；或者每个设备最多有两个类别的数据，例如设备1包含2500张为狗的图片和2500张为猫的图片，设备2包含2500张为飞机的图片和2500张为汽车的图片等。S5：设定联邦学习共训练5000轮，ViTGAN训练为500轮，在联邦学习的每一轮中，中心服务器将全局模型下发给参加训练的所有设备，各设备得到最新的全局模型后，各自进行本地训练，设备终端中训练完毕后，将模型更新的模型参数上传至中心服务器，用以进行全局模型的模型参数聚合直至训练结束。S6：在每一轮参数聚合后，使用前述测试集的10000张图片对当前全局模型进行模型性能评估测试并保存测试结果，在每个不同混合比例的目标数据下得到最终的模型准确度并记录。S8：作为实验效果对比，使用传统基于GAN的联邦学习算法，预处理操作相同，在每一轮中同样选取全部10个本地设备参与训练进行模型参数聚合，将每次实验的模型测试准确度保存并记录。

图3是现有技术和本发明方法提供的非独立同分布数据场景下联邦学习隐私保护方法的模型测试准确率仿真实验图，反映了现有技术和本发明方法模型测试准确率随目标数据中本地数据占比变化的曲线。从图中可以看出本发明方法的模型测试准确率率优于现有技术。

以上应用了具体个例对本发明的原理和实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种非独立同分布数据场景下的联邦学习隐私保护方法，其特性在于使用ViTGAN生成对抗网络生成近似于真实数据分布的虚假数据，满足本地用户隐私保证的同时提升联邦学习的性能，具体步骤为：

S1：在联邦学习的客户端本地部署ViTGAN，使终端已有的数据和预先分配的一般化数据对ViTGAN的生成器和判别器进行训练；

S11：输入高斯噪声给生成器，产出虚假数据提交给判别器进行判断，根据判别器的输出结果判断是否要对生成器进行进一步训练，若判别器无法识别则对判别器进行强化训练，若能被识别则对生成器进行强化训练；

S12：利用构建Resnet-18网络对于ViTGAN生成的图像数据进行分类测试；

S13：重复S11、S12直至生成器于判别器达到纳什平衡，且测试准确度达到85％；

S14：利用ViTGAN模拟本地数据，产出近似于本地数据分布的虚假数据备用。

2.联邦学习中心服务器向各参与的客户端分发初始模型和训练要求参数，客户端收到初始模型后开始进行训练；

S21：中心服务器用于将原始本地数据集和ViTGAN生成的虚假数据集按照一定比例混合成目标数据集，再以非独立同分布方式划分多个子集数据集使得每个子数据集包含一种或两种类别数据，还用于分配子数据集到客户端使得每个客户端均拥有一个子数据集；

S22：客户端用于基于接收得子数据集，依据当前的分发到的模型参数指导训练当前本地模型，并更新本地模型参数，依据约定的通信方式上传模型参数至中心服务器；

S23：中心服务器还用于根据接收的模型参数进行聚合得到聚合模型参数，依据约定的通信方式下传聚合模型参数至各客户端以作为下一轮联邦学习的基础。

3.重复S21-S23不断强化全局模型，并得到对最新全局模型测试的准确度。