CN113642664B - 一种基于联邦学习的隐私保护图像分类方法 - Google Patents

一种基于联邦学习的隐私保护图像分类方法 Download PDF

Info

Publication number
CN113642664B
CN113642664B CN202110975055.4A CN202110975055A CN113642664B CN 113642664 B CN113642664 B CN 113642664B CN 202110975055 A CN202110975055 A CN 202110975055A CN 113642664 B CN113642664 B CN 113642664B
Authority
CN
China
Prior art keywords
client
neural network
local
sample
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110975055.4A
Other languages
English (en)
Other versions
CN113642664A (zh
Inventor
杜磊
许艳
仲红
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110975055.4A priority Critical patent/CN113642664B/zh
Publication of CN113642664A publication Critical patent/CN113642664A/zh
Application granted granted Critical
Publication of CN113642664B publication Critical patent/CN113642664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于联邦学习的隐私保护图像分类方法,其步骤包括:1服务器获取公共数据并预处理;2服务器初始化并通过洗牌器下发数据至各客户端;3客户端训练本地神经网络;4洗牌器随机子采样客户端;5子采样客户端预测公共数据,扰动并加密后发送给洗牌器;6洗牌器伪造并随机排列预测后发送匿名预测给服务器;7服务器聚合匿名预测并训练全局神经网络;8服务器将训练好的全局神经网络下发至各客户端;9客户端利用训练好的全局神经网络进行图像分类。本发明利用差分隐私和联邦学习,实现了隐私保护的协作式图像分类。

Description

一种基于联邦学习的隐私保护图像分类方法
技术领域
本发明涉及异常检测领域,具体地说是一种基于联邦学习的隐私保护图像分类方法。
背景技术
图像分类,是指一个输入图像,输出对该图像内容分类的描述的问题,是计算机视觉的核心。随着技术的迅速发展,图像分类被广泛应用于不同的领域,包括安全监控、人脸识别、医学图像疾病诊断等。目前,图像分类的实现主要基于深度学习方法,一个高精度的深度学习模型的训练依赖于大量高质量的有标记数据。而如今图像分类的数据特点表现为:无标记的数据远多于有标记的数据,大量有标记的数据分布于离散的客户端中且难以被整合。因此,传统的深度学习方法难以适用于现有环境。
作为一种新的分布式深度学习范式,联邦学习(FL)的出现有望打破因数据离散分布而难以使用的问题。通过上传客户端本地训练的深度学习模型的参数,联邦学习使服务器能够在无需整合客户端本地数据的情况下训练一个高精度的深度学习模型,从而将离散分布的数据利用起来。然而,现有的基于联邦学习的图像分类方法难以有效利用大量存在的无标记数据;且客户端的本地数据存在隐私泄露的风险。因此,如何在图像分类问题中有效的利用无标记数据与离散分布的有标记数据仍然需要探索,尤其是在保护隐私的情况下。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于联邦学习的隐私保护图像分类方法,以期能通过标记数据来有效利用无标记的数据,并利用差分隐私技术保护客户端免受隐私泄露的威胁,以实现有效利用无标记数据的图像分类,从而能在提高图像分类精度的同时,保护客户端数据隐私。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于联邦学习的隐私保护图像分类方法的特点是应用于由服务器、洗牌器和N个客户端所组成的网络中,并按如下步骤进行:
步骤1.所述服务器获取无标记的公共数据并进行归一化预处理,得到预处理后的公共数据集记为DP={x1,x2,...,xk,...,xK},xk表示第k个公共样本,k=1,2,...,K,K为公共样本的总数;
步骤2.所述服务器初始化并通过洗牌器下发数据至各客户端:
步骤2.1.所述服务器生成公钥pk和私钥sk;
步骤2.2.所述服务器构造全局神经网络MG
步骤2.3.所述服务器将公钥pk、全局神经网络MG和公共数据集DP发送给所述洗牌器;
步骤3.所述客户端训练本地神经网络:
步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理,得到预处理后的本地数据集记为Di={(xi,1,yi,1),(xi,2,yi,2),...,(xi,j,yi,j),...,(xi,J,yi,J)},xi,j和yi,j分别表示第i个客户端的第j个本地样本和对应的标记,i=1,2,...,N,N为客户端总数,j=1,2,…,J,J为本地样本总数;
步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络MGi的预测结果与本地样本标记之间的交叉熵损失并作为训练所述本地神经网络的监督损失,再使用随机梯度下降优化方法以学习率/>来更新所述本地神经网络的权值,并在监督损失值趋于稳定时完成对所述本地神经网络MGi的训练;
式(1)中,为符号函数,表示第i个客户端的第j个本地样本的类别,若/>表示第j个本地样本的类别属于类别c,若/>表示第j个本地样本的类别不属于类别c;/>表示第i个客户端的本地的全局神经网络MGi预测第j个本地样本属于类别c的概率;c∈[1,m],m为类别数;
步骤4.所述洗牌器对客户端进行随机子采样,得到S个子采样后的客户端用于预测第k个公共样本xk
步骤5.任意第s个子采样客户端预测公共样本xk后,扰动并加密后发送给洗牌器,s=1,2,…,S:
步骤5.1.第s个子采样客户端利用训练后的本地神经网络MGs计算公共数据集DP中各个公共样本的预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)};其中,fs(xk)表示第s个子采样客户端计算的第k个公共样本xk的预测值;
步骤5.2.第s个子采样客户端将预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)}进行one-hot编码,得到编码预测值{ys,1,ys,2,...,ys,k,...,ys,K},其中,ys,k表示第k个公共样本xk的预测值fs(xk)的one-hot编码,且yi,k∈{0,1}m
步骤5.3.第s个子采样客户端根据式(2)计算扰动后的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K},其中,y′s,k表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k扰动后的预测值;
式(2)中,Pr表示概率;Perturb(·)表示扰动函数;ys,k[b]和y′s,k[b]分别表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k的第b位和扰动后的预测值y′s,k的第b位,b∈[1,m];ε表示客户端分配给每个编码预测值的隐私预算;
步骤5.4.第s个子采样客户端使用公钥pk将扰动后的预测值y′s,k加密后发送给所述洗牌器;
步骤6.所述洗牌器伪造并随机排列预测后,将匿名预测发送给服务器:
步骤6.1.对于第k个公共样本xk,所述洗牌器伪造虚假预测值并利用公钥pk加密,其中,/>表示所述洗牌器对第k个公共样本xk伪造的第h个虚假预测值,且/>且/> 表示第h个虚假预测值的第b位,且满足二项分布,h=1,2,...,H,H为虚假预测总数;
步骤6.2.对于第k个公共样本xk,所述洗牌器删除所有对应的第s个子采样客户端的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K}的身份信息后,再与虚假预测值进行合并,对合并后的信息进行随机排列,并得到匿名预测值并发送给服务器,其中,/>表示第k个公共样本xk的第a个匿名预测值,a=1,2,...,A,A为匿名预测总数,A=S+H;
步骤7.所述服务器聚合匿名预测值并训练全局模型:
步骤7.1.所述服务器利用私钥sk解密对应的匿名预测值后,根据式(3)对解密后的预测值进行聚合,得到第k个公共样本xk单一的全局预测/>并作为第k个公共样本xk的聚合标记,从而得到聚合标记后的公共数据集
式(3)中,argmax(·)表示寻找具有最大值的参数;
步骤7.2.所述服务器根据式(4)计算全局神经网络MG的预测结果与公共样本的聚合标记之间的交叉熵损失并作为训练所述全局神经网络MG的监督损失,使用随机梯度下降优化方法以学习率/>来更新所述全局神经网络MG的权值,并在监督损失值趋于稳定时完成对所述全局神经网络MG的训练;
式(4)中,为符号函数,表示公共数据DP中第k个样本xk的类别,若/>表示第k个样本xk的类别属于c类,若/>表示第k个样本xk的类别不属于c类;pkc表示全局神经网络MG预测的第k个公共样本xk属于类别c的概率;
步骤8.所述服务器将训练好的全局神经网络MG下发至各客户端,第i个客户端利用训练好的全局神经网络MG进行图像分类。
与现有技术相比,本发明的有益效果在于:
1、本发明通过在联邦学习的过程中使用服务器聚合客户端上传的本地神经网络对无标记公共数据的预测值实现了对无标记公共数据的标记,并利用标记后的公共数据训练全局神经网络,从而有效的利用了无标记的公共数据,最终提高了图像分类的精度。
2、本发明将差分隐私的洗牌模型与联邦学习相结合,保护了客户端在面对不可信服务器时的数据隐私,并通过客户端子采样和伪造消息增强了隐私保护的效果,使所提出方法在保证图像分类精度的同时实现了强隐私保护。
3、本发明将差分隐私中的编码扰动方法应用于本地神经网络对无标记公共数据的预测值,在保护了客户端数据隐私的同时,编码后的预测有效简化了后续的加、解密操作及扰动操作的复杂度,降低了客户端与服务器的通信开销,提高了分类效率。
附图说明
图1是本发明的流程示意图。
具体实施方式
本实施例中,参见图1,一种基于联邦学习的隐私保护图像分类方法,是应用于由服务器、洗牌器和N个客户端所组成的网络中,并按如下步骤进行:
步骤1.服务器获取无标记的公共数据并进行归一化预处理,得到预处理后的公共数据集记为DP={x1,x2,...,xk,...,xK},xk表示第k个公共样本,k=1,2,...,K,K为公共样本的总数;本实施例采用MNIST和Fashion-MMNIST数据集训练和评估模型,MNIST和Fashion-MMNIST数据集分别由70000个共10个类别的灰度图片组成,每个类别包含6000张训练示例和1000个测试示例;本实施例分别从两个数据集的60000个训练示例中随机选择10000张作为无标记公共数据,剩余50000张作为客户端的本地数据;
步骤2.服务器初始化并通过洗牌器下发数据至各客户端:
步骤2.1.服务器生成公钥pk和私钥sk;
步骤2.2.服务器构造全局神经网络MG;本实施例采用包含ReLU单元、soft-max函数和交叉熵损失的卷积神经网络(CNN)作为全局神经网络的MG结构,具体由2层卷积核大小为5*5、步长为1的卷积层,2层最大池化层,2层神经元分别为120和84的隐藏层组成,但不局限于此结构神经网络,可根据情况适当调节网络中的层数及神经元个数;
步骤2.3.服务器将公钥pk、全局神经网络MG和公共数据集DP发送给洗牌器;
步骤3.客户端训练本地神经网络:
步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理,得到预处理后的本地数据集记为Di={(xi,1,yi,1),(xi,2,yi,2),...,(xi,j,yi,j),...,(xi,J,yi,J)},xi,j和yi,j分别表示第i个客户端的第j个本地样本和对应的标记,i=1,2,...,N,N为客户端总数,本实施例中N取10000;j=1,2,...,J,J为本地样本总数;本实施例中J取2000;本实施例将50000张客户端本地数据按照类别划分为100个大小为500的子集,每个子集仅包含一个类别的训练示例,第i个客户端随机获取4个子集共2000个训练样本作为本地数据集Di
步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络MGi的预测结果与本地样本标记之间的交叉熵损失并作为训练本地神经网络的监督损失,再使用随机梯度下降优化方法以学习率/>来更新本地神经网络的权值,本实施例中,学习率/>取1e-3,并在监督损失值趋于稳定时完成对本地神经网络MGi的训练;
式(1)中,为符号函数,表示第i个客户端的第j个本地样本的类别,若/>表示第j个本地样本的类别属于类别c,若/>表示第j个本地样本的类别不属于类别c;/>表示第i个客户端的本地的全局神经网络MGi预测第j个本地样本属于类别c的概率;c∈[1,m],m为类别数;本实施例中,m取10;
步骤4.洗牌器对客户端进行随机子采样,得到S个子采样后的客户端用于预测第k个公共样本xk;本实施例中S,取1000;
步骤5.任意第s个子采样客户端预测公共样本xk后,扰动并加密后发送给洗牌器,s=1,2,...,S:
步骤5.1.第s个子采样客户端利用训练后的本地神经网络MGs计算公共数据集DP中各个公共样本的预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)};其中,fs(xk)表示第s个子采样客户端计算的第k个公共样本xk的预测值;
步骤5.2.第s个子采样客户端将预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)}进行one-hot编码,得到编码预测值{ys,1,ys,2,...,ys,k,...,ys,K},其中,ys,k表示第k个公共样本xk的预测值fs(xk)的one-hot编码,且yi,k∈{0,1}m
步骤5.3.第s个子采样客户端根据式(2)计算扰动后的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K},其中,y′s,k表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k扰动后的预测值;
式(2)中,Pr表示概率;Perturb(·)表示扰动函数;ys,k[b]和y′s,k[b]分别表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k的第b位和扰动后的预测值y′s,k的第b位,b∈[1,m];ε表示客户端分配给每个编码预测值的隐私预算;本实施例中,ε分别取{0.72,1.07,1.48,1.77,1.98,2.15,2.29,2.42,2.52,2.61},对应隐私保护水平{0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1};
步骤5.4.第s个子采样客户端使用公钥pk将扰动后的预测值y′s,k加密后发送给洗牌器;以避免扰动后的预测值y′s,k受到洗牌器监听,导致隐私泄露;
步骤6.洗牌器伪造并随机排列预测后,将匿名预测发送给服务器:
步骤6.1.对于第k个公共样本xk,洗牌器伪造虚假预测值并利用公钥pk加密,其中,/>表示洗牌器对第k个公共样本xk伪造的第h个虚假预测值,且且/> 表示第h个虚假预测值的第b位,且满足二项分布,h=1,2,...,H,H为虚假预测总数;本实施例中,H取1000,
步骤6.2.对于第k个公共样本xk,洗牌器删除所有对应的第s个子采样客户端的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K}的身份信息后,再与虚假预测值进行合并,对合并后的信息进行随机排列,并得到匿名预测值并发送给服务器,其中,/>表示第k个公共样本xk的第a个匿名预测值,a=1,2,...,A,A为匿名预测总数,A=S+H;洗牌器通过删除本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K}的身份特征和随机排列合并后的预测值以实现预测值的匿名化,使服务器无法将第k个公共样本xk的第a个匿名预测值/>与上传该预测值的具体客户端联系起来。
步骤7.服务器聚合匿名预测值并训练全局模型:
步骤7.1.服务器利用私钥sk解密对应的匿名预测值后,根据式(3)对解密后的预测值进行聚合,得到第k个公共样本xk单一的全局预测并作为第k个公共样本xk的聚合标记,从而得到聚合标记后的公共数据集
式(3)中,argmax(·)表示寻找具有最大值的参数;
步骤7.2.服务器根据式(4)计算全局神经网络MG的预测结果与公共样本的聚合标记之间的交叉熵损失并作为训练全局神经网络MG的监督损失,使用随机梯度下降优化方法以学习率/>来更新全局神经网络MG的权值,本实施例中,学习率/>取1e-3,并在监督损失值趋于稳定时完成对全局神经网络MG的训练;
式(4)中,为符号函数,表示公共数据DP中第k个样本xk的类别,若/>表示第k个样本xk的类别属于c类,若/>表示第k个样本xk的类别不属于c类;pkc表示全局神经网络MG预测的第k个公共样本xk属于类别c的概率;
步骤8.服务器将训练好的全局神经网络MG下发至各客户端,第i个客户端利用训练好的全局神经网络MG进行图像分类。
实施例:
为了验证本发明方法的有效性,本实施例中选用了常用的MNIST和Fashion-MNIST数据集,并采用全局模型的测试精度作为定量评价标准。
本实施例中,选用三种方法和本发明方法进行效果对比,所选方法分别是LDP、CDP和Shuffle,均为基于交换模型预测的联邦学习方法,分别采用差分隐私的本地模型、展策人模型和洗牌模型实现隐私保护;根据实验结果可得出结果如表1和表2所示:
表1不同隐私保护水平下本发明方法与选用的四种对比方法在MNIST数据集上的实验结果
Model 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
Ours 0.749 0.86 0.927 0.954 0.963 0.967 0.972 0.971 0.971 0.97
LDP 0.114 0.112 0.107 0.112 0.124 0.115 0.135 0.131 0.131 0.138
CDP 0.327 0.55 0.701 0.757 0.804 0.859 0.907 0.93 0.948 0.96
Shuffle 0.25 0.409 0.543 0.606 0.655 0.665 0.709 0.743 0.742 0.755
表2不同隐私保护水平下本发明方法与选用的四种对比方法在Fashion-MNIST数据集上的实验结果
Model 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10
Ours 0.656 0.753 0.791 0.821 0.827 0.835 0.831 0.842 0.842 0.845
LDP 0.119 0.12 0.123 0.121 0.135 0.138 0.139 0.143 0.144 0.139
CDP 0.292 0.489 0.581 0.671 0.71 0.746 0.77 0.783 0.804 0.82
Shuffle 0.239 0.364 0.494 0.535 0.578 0.631 0.649 0.657 0.677 0.691
实验结果显示在相同隐私保护水平下,本发明方法与其它三种方法相比效果都要更好,从而证明了本发明提出方法的可行性。

Claims (1)

1.一种基于联邦学习的隐私保护图像分类方法,其特征是应用于由服务器、洗牌器和N个客户端所组成的网络中,并按如下步骤进行:
步骤1.所述服务器获取无标记的公共数据并进行归一化预处理,得到预处理后的公共数据集记为DP={x1,x2,...,xk,...,xK},xk表示第k个公共样本,k=1,2,...,K,K为公共样本的总数;
步骤2.所述服务器初始化并通过洗牌器下发数据至各客户端:
步骤2.1.所述服务器生成公钥pk和私钥sk;
步骤2.2.所述服务器构造全局神经网络MG
步骤2.3.所述服务器将公钥pk、全局神经网络MG和公共数据集DP发送给所述洗牌器;
步骤3.所述客户端训练本地神经网络:
步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理,得到预处理后的本地数据集记为Di={(xi,1,yi,1),(xi,2,yi,2),...,(xi,j,yi,j),...,(xi,J,yi,J)},xi,j和yi,j分别表示第i个客户端的第j个本地样本和对应的标记,i=1,2,...,N,N为客户端总数,j=1,2,...,J,J为本地样本总数;
步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络MGi的预测结果与本地样本标记之间的交叉熵损失并作为训练所述本地神经网络的监督损失,再使用随机梯度下降优化方法以学习率lri L来更新所述本地神经网络的权值,并在监督损失值趋于稳定时完成对所述本地神经网络MGi的训练;
式(1)中,为符号函数,表示第i个客户端的第j个本地样本的类别,若/>表示第j个本地样本的类别属于类别c,若/>表示第j个本地样本的类别不属于类别c;/>表示第i个客户端的本地的全局神经网络MGi预测第j个本地样本属于类别c的概率;c∈[1,m],m为类别数;
步骤4.所述洗牌器对客户端进行随机子采样,得到S个子采样后的客户端用于预测第k个公共样本xk
步骤5.任意第s个子采样客户端预测公共样本xk后,扰动并加密后发送给洗牌器,s=1,2,...,S:
步骤5.1.第s个子采样客户端利用训练后的本地神经网络MGs计算公共数据集DP中各个公共样本的预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)};其中,fs(xk)表示第s个子采样客户端计算的第k个公共样本xk的预测值;
步骤5.2.第s个子采样客户端将预测值{fs(x1),fs(x2),...,fs(xk),...,fs(xK)}进行one-hot编码,得到编码预测值{ys,1,ys,2,...,ys,k,...,ys,K},其中,ys,k表示第k个公共样本xk的预测值fs(xk)的one-hot编码,且yi,k∈{0,1}m
步骤5.3.第s个子采样客户端根据式(2)计算扰动后的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K},其中,y′s,k表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k扰动后的预测值;
式(2)中,Pr表示概率;Perturb(·)表示扰动函数;ys,k[b]和y′s,k[b]分别表示第s个子采样客户端的第k个公共样本xk的编码预测值ys,k的第b位和扰动后的预测值y′s,k的第b位,b∈[1,m];ε表示客户端分配给每个编码预测值的隐私预算;
步骤5.4.第s个子采样客户端使用公钥pk将扰动后的预测值y′s,k加密后发送给所述洗牌器;
步骤6.所述洗牌器伪造并随机排列预测后,将匿名预测发送给服务器:
步骤6.1.对于第k个公共样本xk,所述洗牌器伪造虚假预测值并利用公钥pk加密,其中,/>表示所述洗牌器对第k个公共样本xk伪造的第h个虚假预测值,且/>且/>表示第h个虚假预测值的第b位,且满足二项分布,h=1,2,...,H,H为虚假预测总数;
步骤6.2.对于第k个公共样本xk,所述洗牌器删除所有对应的第s个子采样客户端的本地预测值{y′s,1,y′s,2,...,y′s,k,...,y′s,K}的身份信息后,再与虚假预测值进行合并,对合并后的信息进行随机排列,并得到匿名预测值并发送给服务器,其中,/>表示第k个公共样本xk的第a个匿名预测值,a=1,2,...,A,A为匿名预测总数,A=S+H;
步骤7.所述服务器聚合匿名预测值并训练全局模型:
步骤7.1.所述服务器利用私钥sk解密对应的匿名预测值后,根据式(3)对解密后的预测值进行聚合,得到第k个公共样本xk单一的全局预测/>并作为第k个公共样本xk的聚合标记,从而得到聚合标记后的公共数据集/>
式(3)中,argmax(·)表示寻找具有最大值的参数;
步骤7.2.所述服务器根据式(4)计算全局神经网络MG的预测结果与公共样本的聚合标记之间的交叉熵损失并作为训练所述全局神经网络MG的监督损失,使用随机梯度下降优化方法以学习率/>来更新所述全局神经网络MG的权值,并在监督损失值趋于稳定时完成对所述全局神经网络MG的训练;
式(4)中,为符号函数,表示公共数据DP中第k个样本xk的类别,若/>表示第k个样本xk的类别属于c类,若/>表示第k个样本xk的类别不属于c类;pkc表示全局神经网络MG预测的第k个公共样本xk属于类别c的概率;
步骤8.所述服务器将训练好的全局神经网络MG下发至各客户端,第i个客户端利用训练好的全局神经网络MG进行图像分类。
CN202110975055.4A 2021-08-24 2021-08-24 一种基于联邦学习的隐私保护图像分类方法 Active CN113642664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110975055.4A CN113642664B (zh) 2021-08-24 2021-08-24 一种基于联邦学习的隐私保护图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110975055.4A CN113642664B (zh) 2021-08-24 2021-08-24 一种基于联邦学习的隐私保护图像分类方法

Publications (2)

Publication Number Publication Date
CN113642664A CN113642664A (zh) 2021-11-12
CN113642664B true CN113642664B (zh) 2024-02-20

Family

ID=78423587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110975055.4A Active CN113642664B (zh) 2021-08-24 2021-08-24 一种基于联邦学习的隐私保护图像分类方法

Country Status (1)

Country Link
CN (1) CN113642664B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912605A (zh) * 2022-04-02 2022-08-16 西安电子科技大学 基于自适应分割联邦学习的模型训练方法和人脸识别方法
CN114817954A (zh) * 2022-04-15 2022-07-29 网银在线(北京)科技有限公司 图像的处理方法、系统和装置
CN115766137A (zh) * 2022-11-03 2023-03-07 广州优刻谷科技有限公司 基于安全洗牌的联邦学习方法及系统
CN116524557B (zh) * 2023-02-10 2024-06-14 中国科学院自动化研究所 基于联邦学习的人脸伪造检测模型优化方法、装置及系统
CN117424765B (zh) * 2023-12-19 2024-03-22 天津医康互联科技有限公司 分布式独热编码方法、装置、电子设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959302A (zh) * 2011-06-01 2014-07-30 安全第一公司 用于安全分布式存储的系统与方法
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及系统
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
WO2021004551A1 (zh) * 2019-09-26 2021-01-14 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
KR20210082004A (ko) * 2019-12-24 2021-07-02 서울대학교산학협력단 신경망 모델을 이용한 정보 보호 방법 및 데이터처리장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103959302A (zh) * 2011-06-01 2014-07-30 安全第一公司 用于安全分布式存储的系统与方法
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
CN110572253A (zh) * 2019-09-16 2019-12-13 济南大学 一种联邦学习训练数据隐私性增强方法及系统
WO2021004551A1 (zh) * 2019-09-26 2021-01-14 深圳前海微众银行股份有限公司 纵向联邦学习系统优化方法、装置、设备及可读存储介质
KR20210082004A (ko) * 2019-12-24 2021-07-02 서울대학교산학협력단 신경망 모델을 이용한 정보 보호 방법 및 데이터처리장치
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
差分隐私保护下的Adam优化算法研究;李敏;李红娇;陈杰;;计算机应用与软件(第06期);全文 *
联邦学习安全与隐私保护研究综述;周俊;方国英;吴楠;;西华大学学报(自然科学版)(第04期);全文 *
面向深度学习的差分隐私保护方法;芈小龙;隋景鹏;;舰船电子工程(第09期);全文 *
面向物联网搜索的数据隐私保护研究综述;王佳慧;刘川意;方滨兴;;通信学报(第09期);全文 *

Also Published As

Publication number Publication date
CN113642664A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113642664B (zh) 一种基于联邦学习的隐私保护图像分类方法
Aulck et al. Predicting student dropout in higher education
Li et al. How to prove your model belongs to you: A blind-watermark based framework to protect intellectual property of DNN
Liu et al. Visual listening in: Extracting brand image portrayed on social media
Damjanovic-Behrendt A digital twin-based privacy enhancement mechanism for the automotive industry
CN107704877B (zh) 一种基于深度学习的图像隐私感知方法
Rehman et al. A novel chaos-based privacy-preserving deep learning model for cancer diagnosis
Nguyen et al. Autogan-based dimension reduction for privacy preservation
US20220067181A1 (en) Methods and systems for secure data analysis and machine learning
CN111680672B (zh) 人脸活体检测方法、系统、装置、计算机设备和存储介质
CN110490128A (zh) 一种基于加密神经网络的手写识别方法
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
Ren et al. St-siamesenet: Spatio-temporal siamese networks for human mobility signature identification
CN103366182B (zh) 基于全监督非负矩阵分解的人脸识别方法
Smolyak et al. Coupled igmm-gans with applications to anomaly detection in human mobility data
CN112101403A (zh) 基于联邦少样本网络模型的分类方法、系统及电子设备
CN114821179A (zh) 一种基于联邦模型蒸馏的混合隐私保护图像分类方法
CN111726472B (zh) 一种基于加密算法的图像抗干扰方法
CN115952280A (zh) 基于多模型联邦集成的用户画像方法
CN115827974A (zh) 基于时空信息表示的下一兴趣点推荐系统
ApurvaSree et al. Churn prediction in telecom using classification algorithms
Li et al. Balancing privacy protection and interpretability in federated learning
CN113869384A (zh) 基于领域自适应的隐私保护图像分类方法
Meehan et al. Location trace privacy under conditional priors
Papayiannis et al. On clustering uncertain and structured data with Wasserstein barycenters and a geodesic criterion for the number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant