CN115481431A - 基于双重扰动的联邦学习对抗推理攻击隐私保护方法 - Google Patents

基于双重扰动的联邦学习对抗推理攻击隐私保护方法 Download PDF

Info

Publication number
CN115481431A
CN115481431A CN202211052864.9A CN202211052864A CN115481431A CN 115481431 A CN115481431 A CN 115481431A CN 202211052864 A CN202211052864 A CN 202211052864A CN 115481431 A CN115481431 A CN 115481431A
Authority
CN
China
Prior art keywords
data
training
client
pseudo
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211052864.9A
Other languages
English (en)
Inventor
陈思光
蒋永琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211052864.9A priority Critical patent/CN115481431A/zh
Publication of CN115481431A publication Critical patent/CN115481431A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了基于双重扰动的联邦学习对抗推理攻击隐私保护方法,包括生成对抗网络设置分类特征提取器,并为条件生成对抗网络的设置与训练;使用训练好的条件生成生成伪数据,并将真实数据与伪数据按一定比例混合构造参与联邦学习训练的伪训练数据;通过中央服务器随机初始化全局模型参数,并通过通信链路向参与训练的客户端发送当前通信轮次的全局模型参数,客户端在私有数据集上训练本地模型;模型训练过程中设计一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动;然后更新模型参数;更新所有来自客户端的模型,通过中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数。安全性有保障,并且几乎不会降低模型的性能。

Description

基于双重扰动的联邦学习对抗推理攻击隐私保护方法
技术领域
本发明涉及联邦学习框架下隐私保护技术领域,特别是基于双重扰动的联邦学习对抗推理攻击隐私保护方法。
背景技术
近年来,机器学习受益于终端用户设备的巨大增长以及在这些设备上收集的数据量的急剧膨胀。基于机器学习的智能系统已经应用到日常生活的许多方面,如智能疾病诊断服务、智能教育系统等。然而,机器学习需要在基于云的服务器上收集分布式用户的数据,以便进行集中计算。在现实场景中,由于数据隐私规则和条例的限制,很难将这些数据收集在一起。联邦学习为这一挑战提供了技术解决方案。在联邦学习模型中,终端设备不需要将本地敏感数据上传到中央服务器;相反,它只需要在本地训练模型,并将本地更新的数据上传到服务器进行聚合即可。
尽管联邦学习可以在一定程度上提供隐私保护,但相关研究工作表明,共享模型更新或梯度使得联邦学习容易遭受推理攻击,如成员推理攻击和重构攻击。重构攻击的目的是利用模型更新或梯度来尽可能准确地恢复客户端的原始训练数据。为了防御重构攻击,研究学者提出了许多方案,这些方案可以大致分为三类。第一类是基于传统加密技术的方案,存在准确性不高、计算复杂度高、时间开销大等问题。第二类防御方案通过扰动在联邦学习模型上计算出来的信息,这些方案的防御思想主要是对模型参数或梯度进行了无差别的扰动,保护了隐私的同时也造成了不可忽略的准确性损失。还有一些文献,通过直接扰动特征表示或将神经网络分为私有和公共模型,仅共享公共模型提取的特征表示来使得攻击者重构数据的质量严重下降。这一类方案只保护了联邦学习模型计算出来的信息,并没有为客户所持有的敏感数据提供有效的隐私保护。第三类方法通过扭曲或者替换客户的训练数据来保护隐私,这类防御措施往往会导致显著的性能下降,因为数据的分类特征分布被破坏。此外,这类方案只保护了客户的数据,对联邦学习模型的计算信息没有采取任何隐私保护措施。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有的基于双重扰动的联邦学习对抗推理攻击隐私保护方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于如何增强联邦学习场景下的安全性,提高客户端抵抗外部推理攻击的能力,为实现安全的数据隐私环境提供了有力支撑。
为解决上述技术问题,本发明提供如下技术方案:基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其包括,由客户端为条件生成对抗网络设置分类特征提取器,并为条件生成对抗网络的生成器设计模糊函数,客户端在本地数据集上使用两阶段对抗训练机制训练条件生成对抗网络;
使用训练好的条件生成对抗网络为本地数据集中的每一个数据生成伪数据,并将真实数据与伪数据按一定比例混合构造参与联邦学习训练的伪训练数据;
通过中央服务器随机初始化全局模型参数,并通过通信链路向参与训练的客户端发送当前通信轮次的全局模型参数,客户端在私有数据集上训练本地模型;
模型训练过程中设计一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动;
根据被扰动的梯度和当前模型参数每个参与的客户端执行随机梯度下降算法更新模型参数;
更新所有来自客户端的模型,通过中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述条件生成对抗网络的设置与训练过程包括,
为生成器的目标设置一个模糊项μ(Vr(G(z|yi))-Ve)2,其中,μ是模糊项的系数,z是噪声,yi是标签,连同Vr来计算生成器G生成的伪图片G(z|yi)的方差,预设期望方差Ve
先训练生成器,固定鉴别器D,只更新生成器G;
从先验分布Pz(z)中随机选取一批噪声z,将其输入到生成器G构造伪样本G(z|yi);
将在ImageNet数据集上预训练好的神经网络第一个卷积层作为分类特征提取器F,提取真实数据和伪数据的分类特征。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述伪训练数据的生成过程包括,
客户端i所持有的数据集Di中的每一个数据xi,将其标签yi和随机噪声z输入到训练好的条件生成网络的生成器中,生成一个与xi具有相同标签的伪数据xi′;
将xi和xi′按一定的比例λ混合构造伪训练数据xi″,通过如下公式表示:
xi″=λxi+(1-λ)xi
客户端i(i∈{1,2,...,K})得到一个由伪训练数据xi″构成的伪训练数据集Di″。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的优选方案,其中:协同训练开始时,中央服务器通过通信链路向参与训练的客户端发送当前全局模型参数θt
从中央服务器接收全局模型θ后,客户端在自己的数据集D″上利用分类损失函数训练本地模型M,通过如下公式表示:
Figure BDA0003824011310000031
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动应遵循两个原则,包括攻击者推理出的数据和训练数据之间的差异尽可能大;攻击者推理出的数据特征表示和真实数据特征表示相似。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述全连接层梯度的扰动的过程包括,
给出真实数据特征表示f与推理出的数据特征f′表示相似度的定义:f′的部分元素值为零,其他元素的值等于f对应位置元素的值;f和f′之间的相似度可以用0元素的数量来衡量,α为0元素个数的阈值;均方误差被用来作为模型的真实输入数据x″和重建的输入数据
Figure BDA0003824011310000033
之间相似性的度量。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述客户端模型更新过程包括,
计算得到被扰动的全连接层梯度
Figure BDA0003824011310000032
每个参与的客户端根据被扰动的梯度、当前模型参数、学习率η执行梯度下降算法更新模型参数,公式如下所示:
Figure BDA0003824011310000041
Figure BDA0003824011310000042
其中,θ表示全局模型。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述模型聚合过程包括,
本地模型更新完成后,客户端将本地模型更新
Figure BDA0003824011310000043
通过通信链路发送到中央服务器;
当收到所有来自客户端的模型更新后,中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数θt+1,具体如下所示:
Figure BDA0003824011310000044
服务器将新的全局模型参数θt+1发送给客户端进行下一轮训练。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述条件生成对抗网络的设置与训练过程还包括,
将每个伪样本的分类特征F(G(z|yi))输入鉴别器D,得到输出:
log(1-D(F(G(z|yi)))
Figure BDA0003824011310000045
再训练鉴别器,在此阶段,固定生成器G,只更新鉴别器D,将真实数据的分类特征F(xi)和假样本的分类特征F(G(z|yi))分别输入鉴别器对真假样本进行鉴别,得到两个输出:logD(F(xi)|yi)和log(1-D(F(G(z|yi)):
Figure BDA0003824011310000046
交替训练生成器与鉴别器直至条件生成对抗网络模型收敛。
作为本发明所述基于双重扰动的联邦学习对抗推理攻击隐私保护方法的一种优选方案,其中:所述全连接层梯度的扰动的过程还包括,
根据梯度扰动方法遵循的两个原则,构建了如下的目标函数:
Figure BDA0003824011310000051
其中,特征f∈Rl表示的每个元素fii∈{0,1,......,l-1}分别计算式子
Figure BDA0003824011310000052
当推理特征表示的元素值fi′=0时,
Figure BDA0003824011310000053
的值越小,输入数据x″和推理数据
Figure BDA0003824011310000054
之间的均方差就越大;
用集合J来记录集合
Figure BDA0003824011310000055
的前α小的元素值索引i,并且构造一个所有元素的值为1的向量掩码mask∈Rl,通过迭代J中的元素j,令maskj=0得到用于构造扰动矩阵的剪枝掩码mask;
初始化的扰动矩阵H∈Rl×b所有元素值均为1,矩阵H的β个列向量被向量掩码mask替换以构造扰动矩阵H;
将全连接层梯度
Figure BDA0003824011310000056
与扰动矩阵H执行哈达玛乘积,计算和扰动梯度的过程如下所示:
Figure BDA0003824011310000057
Figure BDA0003824011310000058
Figure BDA0003824011310000059
本发明有益效果为(1)通过设计生成伪训练数据的方法,引入了一个特征提取器来帮助生成器学习真实数据的分类特征分布,并在生成器的目标函数中添加了一个函数来模糊生成的图像,将生成的图像与真实图像按一定比例混合构造伪训练图像参与联邦训练,有效保障了客户端本地数据的安全性,提高了客户端抵抗外部推理攻击的能力;(2)针对联邦学习训练过程中客户端上传的梯度,设计了扰动全连接层的梯度的算法,扰动了梯度中包含的最有利于攻击者重构训练数据的信息,使得攻击者利用扰动后的梯度重构的数据与真实数据的差异较大,提供了有力的隐私保护,并且攻击者推理出的数据特征表示与真实的数据特征表示是相似的,维持了联邦学习的性能;(3)传统的联邦学习机制在客户端与服务器之间的通信链路上容易受到一系列安全威胁的影响,本发明在客户端本地数据以及模型计算信息上都采取了隐私保护措施,能够有效抵抗推理攻击的入侵,提供了强有力的隐私保护,并且几乎不会降低模型的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1是本发明所述的基于双重扰动的联邦学习隐私保护系统模型;
图2是本发明所述的构造伪训练数据方法在MNIST数据集上的防御效果图;
图3是本发明所述的构造伪训练数据方法消融实验对比图;
图4是本发明所述的在MNIST数据集的防御效果图
图5是本发明所述的在CIFAR10数据集上的防御效果图;
图6是本发明所述方法相较于DP-Laplace、GC方案在CIFAR10数据集的防御效果对比图。
图7是本发明所述方法相较于DP-Laplace、GC方案在MNIST数据集上的准确性对比图。
图8是本发明所述方案相较于DP-Laplace、GC方案在MNIST数据集上的损失对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1和图2,为本发明第一个实施例,该实施例提供了基于双重扰动的联邦学习对抗推理攻击隐私保护方法,包括:
S1:由客户端为条件生成对抗网络设置分类特征提取器并为条件生成对抗网络的生成器设计模糊函数,客户端在本地数据集上使用两阶段对抗训练机制训练条件生成对抗网络;
条件生成对抗网络的设置与训练,步骤如下:
为生成器的目标设置一个模糊项μ(Vr(G(z|yi))-Ve)2,μ是模糊项的系数,连同Vr来计算生成器G生成的伪图片G(z|yi)的方差,预设期望方差Ve
先训练生成器,在这个阶段,固定鉴别器D,只更新生成器G。从先验分布Pz(z)中随机选取一批噪声z,将其输入到生成器G构造伪样本G(z|yi)。在ImageNet数据集上预训练好的神经网络第一个卷积层作为分类特征提取器F,用于提取真实数据和伪数据的分类特征。接着将每个伪样本的分类特征F(G(z|yi))输入鉴别器D,得到输出log(1-D(F(G(z|yi))):
Figure BDA0003824011310000071
再训练鉴别器,在此阶段,固定生成器G,只更新鉴别器D,将真实数据的分类特征F(xi)和假样本的分类特征F(G(z|yi))分别输入鉴别器对真假样本进行鉴别,得到两个输出:logD(F(xi)|yi)和log(1-D(F(G(z|yi)):
Figure BDA0003824011310000072
交替训练生成器与鉴别器直至条件生成对抗网络模型收敛。
S2:客户端使用训练好的条件生成对抗网络为本地数据集中的每一个数据生成伪数据,并将真实数据与伪数据按一定比例混合构造参与联邦学习训练的伪训练数据。
伪训练数据的生成,包括如下步骤:
客户端i所持有的数据集Di中的每一个数据xi,将其标签yi和随机噪声z输入到训练好的条件生成网络的生成器中,生成一个与xi具有相同标签的伪数据xi′;
将xi和xi′按一定的比例λ混合构造伪训练数据xi″;
xi″=λxi+(1-λ)xi
客户端i(i∈{1,2,...,K})得到一个由伪训练数据xi″构成的伪训练数据集Di″。
S3:中央服务器随机初始化全局模型参数并通过通信链路向参与训练的客户端发送当前全局模型参数,从中央服务器接收全局模型后,客户端在自己的数据集上训练本地模型。
客户端与服务器的交互,包括如下步骤:
协同训练开始时,中央服务器通过通信链路向参与训练的客户端发送当前全局模型参数θt
从中央服务器接收全局模型θ后,客户端在自己的数据集D″上利用分类损失函数l训练本地模型M:
Figure BDA0003824011310000081
S4:模型训练过程中设计了一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动,目标函数使得梯度的扰动遵循两个原则:1)为了保护隐私,攻击者推理出的数据和训练数据之间的差异尽可能大;2)攻击者推理出的数据特征表示和真实数据特征表示应该是相似的,以保持FL性能。
全连接层梯度的扰动,包括如下步骤:
给出真实数据特征表示f与推理出的数据特征表示f′相似度的定义:f′的部分元素值为零,其他元素的值等于f对应位置元素的值。因此,f和f′之间的相似度可以用0元素的数量来衡量,α为0元素个数的阈值。均方误差被用来作为模型的真实输入数据x″和重建的输入数据
Figure BDA0003824011310000082
之间相似性的度量。
根据梯度扰动方法遵循的两个原则,构建了如下的目标函数:
Figure BDA0003824011310000083
特征表示f∈Rl的每个元素fi(i∈{0,1,......,l-1})分别计算式子
Figure BDA0003824011310000084
当推理特征表示的元素值fi′=0时,
Figure BDA0003824011310000085
的值越小,输入数据x″和推理数据
Figure BDA0003824011310000086
之间的均方差就越大;
用集合J来记录集合
Figure BDA0003824011310000091
的前α小的元素值索引i,并且构造一个所有元素的值为1的向量掩码mask∈Rl,通过迭代J中的元素j,令maskj=0得到用于构造扰动矩阵的剪枝掩码mask;
初始化的扰动矩阵H∈Rl×b所有元素值均为1。接着,矩阵H的β个列向量被向量掩码mask替换以构造扰动矩阵H;
将全连接层梯度
Figure BDA0003824011310000092
与扰动矩阵H执行哈达玛乘积,计算和扰动梯度的过程如下所示:
Figure BDA0003824011310000093
Figure BDA0003824011310000094
Figure BDA0003824011310000095
S5:每个参与的客户端根据被扰动的梯度和当前模型参数执行随机梯度下降算法更新模型参数;
客户端模型更新,包括如下步骤:
计算得到被扰动的全连接层梯度
Figure BDA0003824011310000096
每个参与的客户端根据被扰动的梯度、当前模型参数、学习率η执行梯度下降算法更新模型参数,公式如下所示:
Figure BDA0003824011310000097
Figure BDA0003824011310000098
S6:接收到所有来自客户端的模型更新后,中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数。
模型聚合,包括如下步骤:
本地模型更新完成后,客户端将本地模型更新
Figure BDA0003824011310000099
通过通信链路发送到中央服务器;
当收到所有来自客户端的模型更新后,中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数θt+1,具体如下所示:
Figure BDA00038240113100000910
服务器将新的全局模型参数θt+1发送给客户端进行下一轮训练。
综上,如图1所示,包括中央服务器和多个分布式客户端等实体,首先假设有K个客户端,客户端i持有数据集{D1,D2,...,DK}。由客户端为条件生成对抗网络设置分类特征提取器F并为条件生成对抗网络的生成器设计模糊函数,客户端在本地数据集上使用两阶段对抗训练机制训练条件生成对抗网络。客户端i所持有的数据集Di中的每一个数据xi,将其标签yi和随机噪声z输入到训练好的条件生成网络的生成器中,生成一个与xi具有相同标签的伪数据xi′,接着将xi和xi′按一定的比例λ混合构造伪训练xi″,客户端i(i∈{1,2,...,K})得到一个由伪训练数据xi″构成的伪训练数据集Di″。协同训练开始时,中央服务器通过通信链路向参与训练的客户端发送当前全局模型参数θt,从中央服务器接收全局模型后,客户端在自己的数据集D″上利用分类损失函数l训练本地模型M。在训练过程中,设计了一个目标函数来构造扰动矩阵H∈Rl×b对全连接层的梯度
Figure BDA0003824011310000101
进行扰动,目标函数使得梯度的扰动遵循两个原则:1)为了保护隐私,攻击者推理出的数据和训练数据之间的差异尽可能大;2)攻击者推理出的数据特征表示和真实数据特征表示应该是相似的,以保持FL性能。被扰动的梯度
Figure BDA0003824011310000102
继续参与模型训练。每个参与的客户端根据被扰动的梯度和当前模型参数执行梯度下降算法更新模型参数,本地模型更新完成后,客户端将本地模型更新
Figure BDA0003824011310000103
通过通信链路发送到中央服务器。当收到所有来自客户端的模型更新后,中央服务器根据样本量的权重n/N进行聚合,得到下一轮的全局模型参数θt+1,服务器将新的全局模型参数θt+1发送给客户端进行下一轮训练。
实施例2
参照图1~图8,为本发明第二个实施例,在前一个实施例的基础上,本实施例中的联邦学习隐私保护框架基于拓展的条件生成对抗网络和数据扰动技术,为客户端的敏感数据的实现隐私保护提供了支撑;
本实施例中的客户端本地模型更新基于随机梯度下降算法,简单有效的加快了参数更新速度,服务器聚合机制采用FedAvg算法有效保障不同客户端的样本量的贡献并且在一定程度上有效地降低了传统机器学习源数据聚合带来的许多隐私风险。
本实施例中对客户端私有的数据本身以及包含数据隐私的梯度信息都采取了隐私保护措施,可以有效的抵抗通信链路上恶意发起的推理攻击,提供了强有力的隐私保护;
基于上述本发明设计的基于双重扰动的联邦学习对抗推理攻击隐私保护方法在实际过程中的应用,如图2、图3所示,本发明设计的伪训练数据生成方法的三个关键步骤:模糊生成的图像,使用特征提取器帮助生成图像学习真实图像的分类特征分布,以及混合真实图像和伪图像的消融实验证明了伪训练数据生成方法可以为客户端敏感数据提供视觉上的保护并且联邦学习分类精度的下降可以忽略不计。结合图4~图8可知,本发明设计的双重扰动方法相较于其他三种方案普通联邦学习FL、基于拉普拉斯噪声分布的差分隐私(Differential Privacy based on Laplace,DP-Laplace)、梯度压缩(GradientCompression,GC),本方法下攻击者重构的均方误差MSE更大,即重构数据与原始敏感数据的差距更大,隐私保护的效果更好,同时保证隐私保护的情况下,本发明提的方法与DP-Laplace、GC方法相比具备优越的准确性。这主要是因为本发明中为了维持联邦学习的性能,本方法在梯度扰动的过程中仅仅扰动了全连接层中最有利于攻击者重构原始数据的信息,而且DP-Laplace和GC方法是对模型参数或梯度进行了无差别的扰动或者添加噪声。同样地,本发明设计方法的损失同样要比DP-Laplace和GC方法小。总结可知,本发明设计方法更适用于实际的联邦学习场景。

Claims (10)

1.基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:包括,
由客户端为条件生成对抗网络设置分类特征提取器,并为条件生成对抗网络的生成器设计模糊函数,客户端在本地数据集上使用两阶段对抗训练机制训练条件生成对抗网络;
使用训练好的条件生成对抗网络为本地数据集中的每一个数据生成伪数据,并将真实数据与伪数据按一定比例混合构造参与联邦学习训练的伪训练数据;
通过中央服务器随机初始化全局模型参数,并通过通信链路向参与训练的客户端发送当前通信轮次的全局模型参数,客户端在私有数据集上训练本地模型;
模型训练过程中设计一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动;
根据被扰动的梯度和当前模型参数每个参与的客户端执行随机梯度下降算法更新模型参数;
更新所有来自客户端的模型,通过中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数。
2.如权利要求1所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述条件生成对抗网络的设置与训练过程包括,
为生成器的目标设置一个模糊项μ(Vr(G(z|yi))-Ve)2,其中,μ是模糊项的系数,z是噪声,yi是标签,连同Vr来计算生成器G生成的伪图片G(z|yi)的方差,预设期望方差Ve
先训练生成器,固定鉴别器D,只更新生成器G;
从先验分布Pz(z)中随机选取一批噪声z,将其输入到生成器G构造伪样本G(z|yi);
将在ImageNet数据集上预训练好的神经网络第一个卷积层作为分类特征提取器F,提取真实数据和伪数据的分类特征。
3.如权利要求2所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述伪训练数据的生成过程包括,
客户端i所持有的数据集Di中的每一个数据xi,将其标签yi和随机噪声z输′入到训练好的条件生成网络的生成器中,生成一个与xi具有相同标签的伪数据xi
将xi和xi′按一定的比例λ混合构造伪训练数据xi″,通过如下公式表示:
xi″=λxi+(1-λ)xi
客户端i(i∈{1,2,...,K})得到一个由伪训练数据xi″构成的伪训练数据集Di″。
4.如权利要求3所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:
协同训练开始时,中央服务器通过通信链路向参与训练的客户端发送当前全局模型参数θt
从中央服务器接收全局模型θ后,客户端在自己的数据集D″上利用分类损失函数训练本地模型M,通过如下公式表示:
Figure FDA0003824011300000021
5.如权利要求4所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述一个目标函数来构造扰动矩阵对全连接层的梯度进行扰动应遵循两个原则,包括攻击者推理出的数据和训练数据之间的差异尽可能大;攻击者推理出的数据特征表示和真实数据特征表示相似。
6.如权利要求5所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述全连接层梯度的扰动的过程包括,
给出真实数据特征表示f与推理出的数据特征f′表示相似度的定义:f′的部分元素值为零,其他元素的值等于f对应位置元素的值;f和f′之间的相似度可以用0元素的数量来衡量,α为0元素个数的阈值;均方误差被用来作为模型的真实输入数据x″和重建的输入数据
Figure FDA0003824011300000025
之间相似性的度量。
7.如权利要求6所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述客户端模型更新过程包括,
计算得到被扰动的全连接层梯度
Figure FDA0003824011300000022
每个参与的客户端根据被扰动的梯度、当前模型参数、学习率η执行梯度下降算法更新模型参数,公式如下所示:
Figure FDA0003824011300000023
其中,θ表示全局模型。
8.如权利要求7所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述模型聚合过程包括,
本地模型更新完成后,客户端将本地模型更新
Figure FDA0003824011300000024
通过通信链路发送到中央服务器;
当收到所有来自客户端的模型更新后,中央服务器根据样本量的权重进行聚合,得到下一轮的全局模型参数θt+1,具体如下所示:
Figure FDA0003824011300000031
服务器将新的全局模型参数θt+1发送给客户端进行下一轮训练。
9.如权利要求8所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述条件生成对抗网络的设置与训练过程还包括,
将每个伪样本的分类特征F(G(z|yi))输入鉴别器D,得到输出:
log(1-D(F(G(z|yi)))
Figure FDA0003824011300000032
再训练鉴别器,在此阶段,固定生成器G,只更新鉴别器D,将真实数据的分类特征F(xi)和假样本的分类特征F(G(z|yi))分别输入鉴别器对真假样本进行鉴别,得到两个输出:logD(F(xi)|yi)和log(1-D(F(G(z|yi)):
Figure FDA0003824011300000033
交替训练生成器与鉴别器直至条件生成对抗网络模型收敛。
10.如权利要求9所述的基于双重扰动的联邦学习对抗推理攻击隐私保护方法,其特征在于:所述全连接层梯度的扰动的过程还包括,
根据梯度扰动方法遵循的两个原则,构建了如下的目标函数:
Figure FDA0003824011300000034
其中,特征f∈Rl表示的每个元素fii∈{0,1,......,l-1}分别计算式子
Figure FDA0003824011300000035
当推理特征表示的元素值fi′=0时,
Figure FDA0003824011300000036
的值越小,输入数据x″和推理数据
Figure FDA0003824011300000037
之间的均方差就越大;
用集合J来记录集合
Figure FDA0003824011300000038
的前α小的元素值索引i,并且构造一个所有元素的值为1的向量掩码mask∈Rl,通过迭代J中的元素j,令maskj=0得到用于构造扰动矩阵的剪枝掩码mask;
初始化的扰动矩阵H∈Rl×b所有元素值均为1,矩阵H的β个列向量被向量掩码mask替换以构造扰动矩阵H;
将全连接层梯度
Figure FDA0003824011300000041
与扰动矩阵H执行哈达玛乘积,计算和扰动梯度的过程如下所示:
Figure FDA0003824011300000042
Figure FDA0003824011300000043
Figure FDA0003824011300000044
CN202211052864.9A 2022-08-31 2022-08-31 基于双重扰动的联邦学习对抗推理攻击隐私保护方法 Pending CN115481431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211052864.9A CN115481431A (zh) 2022-08-31 2022-08-31 基于双重扰动的联邦学习对抗推理攻击隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211052864.9A CN115481431A (zh) 2022-08-31 2022-08-31 基于双重扰动的联邦学习对抗推理攻击隐私保护方法

Publications (1)

Publication Number Publication Date
CN115481431A true CN115481431A (zh) 2022-12-16

Family

ID=84420820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211052864.9A Pending CN115481431A (zh) 2022-08-31 2022-08-31 基于双重扰动的联邦学习对抗推理攻击隐私保护方法

Country Status (1)

Country Link
CN (1) CN115481431A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090014A (zh) * 2023-04-07 2023-05-09 中国科学院数学与系统科学研究院 一种面向智能电网的差分隐私分布式随机优化方法及系统
CN117150566A (zh) * 2023-10-31 2023-12-01 清华大学 面向协作学习的鲁棒训练方法及装置
CN117454181A (zh) * 2023-11-16 2024-01-26 国网山东省电力公司枣庄供电公司 基于级联生成对抗网络的局部放电数据生成方法
CN117973506A (zh) * 2024-03-28 2024-05-03 山东科技大学 基于多视图协同训练和激励机制的个性化联邦学习框架

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090014A (zh) * 2023-04-07 2023-05-09 中国科学院数学与系统科学研究院 一种面向智能电网的差分隐私分布式随机优化方法及系统
CN116090014B (zh) * 2023-04-07 2023-10-10 中国科学院数学与系统科学研究院 一种面向智能电网的差分隐私分布式随机优化方法及系统
CN117150566A (zh) * 2023-10-31 2023-12-01 清华大学 面向协作学习的鲁棒训练方法及装置
CN117150566B (zh) * 2023-10-31 2024-01-23 清华大学 面向协作学习的鲁棒训练方法及装置
CN117454181A (zh) * 2023-11-16 2024-01-26 国网山东省电力公司枣庄供电公司 基于级联生成对抗网络的局部放电数据生成方法
CN117973506A (zh) * 2024-03-28 2024-05-03 山东科技大学 基于多视图协同训练和激励机制的个性化联邦学习框架
CN117973506B (zh) * 2024-03-28 2024-06-04 山东科技大学 基于多视图协同训练和激励机制的个性化联邦学习框架

Similar Documents

Publication Publication Date Title
CN115481431A (zh) 基于双重扰动的联邦学习对抗推理攻击隐私保护方法
Luo et al. Feature inference attack on model predictions in vertical federated learning
Li et al. Auditing privacy defenses in federated learning via generative gradient leakage
CN113420232B (zh) 一种面向隐私保护的图神经网络联邦推荐方法
CN114417427B (zh) 一种面向深度学习的数据敏感属性脱敏系统及方法
CN115563650A (zh) 基于联邦学习实现医疗数据的隐私保护系统
Geng et al. Improved gradient inversion attacks and defenses in federated learning
CN114548428B (zh) 基于实例重构的联邦学习模型智能攻击检测方法及装置
Hsu et al. A high-capacity QRD-based blind color image watermarking algorithm incorporated with AI technologies
CN115329885A (zh) 一种基于隐私保护的个性化联邦学习方法和装置
CN115660050A (zh) 一种高效隐私保护的鲁棒联邦学习方法
CN113378160A (zh) 一种基于生成式对抗网络的图神经网络模型防御方法及装置
CN114513337B (zh) 一种基于邮件数据的隐私保护链接预测方法及系统
CN114362948B (zh) 一种联邦衍生特征逻辑回归建模方法
Yuan et al. Collaborative deep learning for medical image analysis with differential privacy
Zhang et al. Preserving data privacy in federated learning through large gradient pruning
CN112560059A (zh) 一种基于神经通路特征提取的垂直联邦下模型窃取防御方法
Xu et al. CGIR: Conditional generative instance reconstruction attacks against federated learning
Yang et al. Model optimization method based on vertical federated learning
Ranbaduge et al. Differentially private vertical federated learning
Xu et al. FLPM: A property modification scheme for data protection in federated learning
CN114639174A (zh) 联邦协作下的隐私型深度伪造检测方法
Wei et al. Client-side gradient inversion against federated learning from poisoning
CN114862416B (zh) 一种联邦学习环境下的跨平台信用评价方法
CN116091891A (zh) 图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination