CN113642664B

CN113642664B - 一种基于联邦学习的隐私保护图像分类方法

Info

Publication number: CN113642664B
Application number: CN202110975055.4A
Authority: CN
Inventors: 杜磊; 许艳; 仲红; 刘辉
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2024-02-20
Anticipated expiration: 2041-08-24
Also published as: CN113642664A

Abstract

本发明公开了一种基于联邦学习的隐私保护图像分类方法，其步骤包括：1服务器获取公共数据并预处理；2服务器初始化并通过洗牌器下发数据至各客户端；3客户端训练本地神经网络；4洗牌器随机子采样客户端；5子采样客户端预测公共数据，扰动并加密后发送给洗牌器；6洗牌器伪造并随机排列预测后发送匿名预测给服务器；7服务器聚合匿名预测并训练全局神经网络；8服务器将训练好的全局神经网络下发至各客户端；9客户端利用训练好的全局神经网络进行图像分类。本发明利用差分隐私和联邦学习，实现了隐私保护的协作式图像分类。

Description

一种基于联邦学习的隐私保护图像分类方法

技术领域

本发明涉及异常检测领域，具体地说是一种基于联邦学习的隐私保护图像分类方法。

背景技术

图像分类，是指一个输入图像，输出对该图像内容分类的描述的问题，是计算机视觉的核心。随着技术的迅速发展，图像分类被广泛应用于不同的领域，包括安全监控、人脸识别、医学图像疾病诊断等。目前，图像分类的实现主要基于深度学习方法，一个高精度的深度学习模型的训练依赖于大量高质量的有标记数据。而如今图像分类的数据特点表现为：无标记的数据远多于有标记的数据，大量有标记的数据分布于离散的客户端中且难以被整合。因此，传统的深度学习方法难以适用于现有环境。

作为一种新的分布式深度学习范式，联邦学习(FL)的出现有望打破因数据离散分布而难以使用的问题。通过上传客户端本地训练的深度学习模型的参数，联邦学习使服务器能够在无需整合客户端本地数据的情况下训练一个高精度的深度学习模型，从而将离散分布的数据利用起来。然而，现有的基于联邦学习的图像分类方法难以有效利用大量存在的无标记数据；且客户端的本地数据存在隐私泄露的风险。因此，如何在图像分类问题中有效的利用无标记数据与离散分布的有标记数据仍然需要探索，尤其是在保护隐私的情况下。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于联邦学习的隐私保护图像分类方法，以期能通过标记数据来有效利用无标记的数据，并利用差分隐私技术保护客户端免受隐私泄露的威胁，以实现有效利用无标记数据的图像分类，从而能在提高图像分类精度的同时，保护客户端数据隐私。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于联邦学习的隐私保护图像分类方法的特点是应用于由服务器、洗牌器和N个客户端所组成的网络中，并按如下步骤进行：

步骤1.所述服务器获取无标记的公共数据并进行归一化预处理，得到预处理后的公共数据集记为D_P＝{x₁,x₂,...,x_k,...,x_K}，x_k表示第k个公共样本，k＝1,2,...,K，K为公共样本的总数；

步骤2.所述服务器初始化并通过洗牌器下发数据至各客户端：

步骤2.1.所述服务器生成公钥pk和私钥sk；

步骤2.2.所述服务器构造全局神经网络M_G；

步骤2.3.所述服务器将公钥pk、全局神经网络M_G和公共数据集D_P发送给所述洗牌器；

步骤3.所述客户端训练本地神经网络：

步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理，得到预处理后的本地数据集记为D_i＝{(x_i,1,y_i,1),(x_i,2,y_i,2),...,(x_i,j,y_i,j),...,(x_i,J,y_i,J)}，x_i,j和y_i,j分别表示第i个客户端的第j个本地样本和对应的标记，i＝1,2,...,N，N为客户端总数，j＝1,2,…,J，J为本地样本总数；

步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络M_Gi的预测结果与本地样本标记之间的交叉熵损失并作为训练所述本地神经网络的监督损失，再使用随机梯度下降优化方法以学习率/>来更新所述本地神经网络的权值，并在监督损失值趋于稳定时完成对所述本地神经网络M_Gi的训练；

式(1)中，为符号函数，表示第i个客户端的第j个本地样本的类别，若/>表示第j个本地样本的类别属于类别c，若/>表示第j个本地样本的类别不属于类别c；/>表示第i个客户端的本地的全局神经网络M_Gi预测第j个本地样本属于类别c的概率；c∈[1,m]，m为类别数；

步骤4.所述洗牌器对客户端进行随机子采样，得到S个子采样后的客户端用于预测第k个公共样本x_k；

步骤5.任意第s个子采样客户端预测公共样本x_k后，扰动并加密后发送给洗牌器，s＝1,2,…,S：

步骤5.1.第s个子采样客户端利用训练后的本地神经网络M_Gs计算公共数据集D_P中各个公共样本的预测值{f_s(x₁),f_s(x₂),...,f_s(x_k),...,f_s(x_K)}；其中，f_s(x_k)表示第s个子采样客户端计算的第k个公共样本x_k的预测值；

步骤5.2.第s个子采样客户端将预测值{f_s(x₁),f_s(x₂),...,f_s(x_k),...,f_s(x_K)}进行one-hot编码，得到编码预测值{y_s,1,y_s,2,...,y_s,k,...,y_s,K}，其中，y_s,k表示第k个公共样本x_k的预测值f_s(x_k)的one-hot编码，且y_i,k∈{0,1}^m；

步骤5.3.第s个子采样客户端根据式(2)计算扰动后的本地预测值{y′_s,1,y′_s,2,...,y′_s,k,...,y′_s,K}，其中，y′_s,k表示第s个子采样客户端的第k个公共样本x_k的编码预测值y_s,k扰动后的预测值；

式(2)中，Pr表示概率；Perturb(·)表示扰动函数；y_s,k[b]和y′_s,k[b]分别表示第s个子采样客户端的第k个公共样本x_k的编码预测值y_s,k的第b位和扰动后的预测值y′_s,k的第b位，b∈[1,m]；ε表示客户端分配给每个编码预测值的隐私预算；

步骤5.4.第s个子采样客户端使用公钥pk将扰动后的预测值y′_s,k加密后发送给所述洗牌器；

步骤6.所述洗牌器伪造并随机排列预测后，将匿名预测发送给服务器：

步骤6.1.对于第k个公共样本x_k，所述洗牌器伪造虚假预测值并利用公钥pk加密，其中，/>表示所述洗牌器对第k个公共样本x_k伪造的第h个虚假预测值，且/>且/> 表示第h个虚假预测值的第b位，且满足二项分布，h＝1,2,...,H，H为虚假预测总数；

步骤6.2.对于第k个公共样本x_k，所述洗牌器删除所有对应的第s个子采样客户端的本地预测值{y′_s,1,y′_s,2,...,y′_s,k,...,y′_s,K}的身份信息后，再与虚假预测值进行合并，对合并后的信息进行随机排列，并得到匿名预测值并发送给服务器，其中，/>表示第k个公共样本x_k的第a个匿名预测值，a＝1,2,...,A，A为匿名预测总数，A＝S+H；

步骤7.所述服务器聚合匿名预测值并训练全局模型：

步骤7.1.所述服务器利用私钥sk解密对应的匿名预测值后，根据式(3)对解密后的预测值进行聚合，得到第k个公共样本x_k单一的全局预测/>并作为第k个公共样本x_k的聚合标记，从而得到聚合标记后的公共数据集

式(3)中，argmax(·)表示寻找具有最大值的参数；

步骤7.2.所述服务器根据式(4)计算全局神经网络M_G的预测结果与公共样本的聚合标记之间的交叉熵损失并作为训练所述全局神经网络M_G的监督损失，使用随机梯度下降优化方法以学习率/>来更新所述全局神经网络M_G的权值，并在监督损失值趋于稳定时完成对所述全局神经网络M_G的训练；

式(4)中，为符号函数，表示公共数据D_P中第k个样本x_k的类别，若/>表示第k个样本x_k的类别属于c类，若/>表示第k个样本x_k的类别不属于c类；p_kc表示全局神经网络M_G预测的第k个公共样本x_k属于类别c的概率；

步骤8.所述服务器将训练好的全局神经网络M_G下发至各客户端，第i个客户端利用训练好的全局神经网络M_G进行图像分类。

与现有技术相比，本发明的有益效果在于：

1、本发明通过在联邦学习的过程中使用服务器聚合客户端上传的本地神经网络对无标记公共数据的预测值实现了对无标记公共数据的标记，并利用标记后的公共数据训练全局神经网络，从而有效的利用了无标记的公共数据，最终提高了图像分类的精度。

2、本发明将差分隐私的洗牌模型与联邦学习相结合，保护了客户端在面对不可信服务器时的数据隐私，并通过客户端子采样和伪造消息增强了隐私保护的效果，使所提出方法在保证图像分类精度的同时实现了强隐私保护。

3、本发明将差分隐私中的编码扰动方法应用于本地神经网络对无标记公共数据的预测值，在保护了客户端数据隐私的同时，编码后的预测有效简化了后续的加、解密操作及扰动操作的复杂度，降低了客户端与服务器的通信开销，提高了分类效率。

附图说明

图1是本发明的流程示意图。

具体实施方式

本实施例中，参见图1，一种基于联邦学习的隐私保护图像分类方法，是应用于由服务器、洗牌器和N个客户端所组成的网络中，并按如下步骤进行：

步骤1.服务器获取无标记的公共数据并进行归一化预处理，得到预处理后的公共数据集记为D_P＝{x₁,x₂,...,x_k,...,x_K}，x_k表示第k个公共样本，k＝1,2,...,K，K为公共样本的总数；本实施例采用MNIST和Fashion-MMNIST数据集训练和评估模型，MNIST和Fashion-MMNIST数据集分别由70000个共10个类别的灰度图片组成，每个类别包含6000张训练示例和1000个测试示例；本实施例分别从两个数据集的60000个训练示例中随机选择10000张作为无标记公共数据，剩余50000张作为客户端的本地数据；

步骤2.服务器初始化并通过洗牌器下发数据至各客户端：

步骤2.1.服务器生成公钥pk和私钥sk；

步骤2.2.服务器构造全局神经网络M_G；本实施例采用包含ReLU单元、soft-max函数和交叉熵损失的卷积神经网络(CNN)作为全局神经网络的M_G结构，具体由2层卷积核大小为5*5、步长为1的卷积层，2层最大池化层，2层神经元分别为120和84的隐藏层组成，但不局限于此结构神经网络，可根据情况适当调节网络中的层数及神经元个数；

步骤2.3.服务器将公钥pk、全局神经网络M_G和公共数据集D_P发送给洗牌器；

步骤3.客户端训练本地神经网络：

步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理，得到预处理后的本地数据集记为D_i＝{(x_i,1,y_i,1),(x_i,2,y_i,2),...,(x_i,j,y_i,j),...,(x_i,J,y_i,J)}，x_i,j和y_i,j分别表示第i个客户端的第j个本地样本和对应的标记，i＝1,2,...,N，N为客户端总数，本实施例中N取10000；j＝1,2,...,J，J为本地样本总数；本实施例中J取2000；本实施例将50000张客户端本地数据按照类别划分为100个大小为500的子集，每个子集仅包含一个类别的训练示例，第i个客户端随机获取4个子集共2000个训练样本作为本地数据集D_i；

步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络M_Gi的预测结果与本地样本标记之间的交叉熵损失并作为训练本地神经网络的监督损失，再使用随机梯度下降优化方法以学习率/>来更新本地神经网络的权值，本实施例中，学习率/>取1e-3，并在监督损失值趋于稳定时完成对本地神经网络M_Gi的训练；

式(1)中，为符号函数，表示第i个客户端的第j个本地样本的类别，若/>表示第j个本地样本的类别属于类别c，若/>表示第j个本地样本的类别不属于类别c；/>表示第i个客户端的本地的全局神经网络M_Gi预测第j个本地样本属于类别c的概率；c∈[1,m]，m为类别数；本实施例中，m取10；

步骤4.洗牌器对客户端进行随机子采样，得到S个子采样后的客户端用于预测第k个公共样本x_k；本实施例中S，取1000；

步骤5.任意第s个子采样客户端预测公共样本x_k后，扰动并加密后发送给洗牌器，s＝1,2,...,S：

式(2)中，Pr表示概率；Perturb(·)表示扰动函数；y_s,k[b]和y′_s,k[b]分别表示第s个子采样客户端的第k个公共样本x_k的编码预测值y_s,k的第b位和扰动后的预测值y′_s,k的第b位，b∈[1,m]；ε表示客户端分配给每个编码预测值的隐私预算；本实施例中，ε分别取{0.72,1.07,1.48,1.77,1.98,2.15,2.29,2.42,2.52,2.61}，对应隐私保护水平{0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.1}；

步骤5.4.第s个子采样客户端使用公钥pk将扰动后的预测值y′_s,k加密后发送给洗牌器；以避免扰动后的预测值y′_s,k受到洗牌器监听，导致隐私泄露；

步骤6.洗牌器伪造并随机排列预测后，将匿名预测发送给服务器：

步骤6.1.对于第k个公共样本x_k，洗牌器伪造虚假预测值并利用公钥pk加密，其中，/>表示洗牌器对第k个公共样本x_k伪造的第h个虚假预测值，且且/> 表示第h个虚假预测值的第b位，且满足二项分布，h＝1,2,...,H，H为虚假预测总数；本实施例中，H取1000，

步骤6.2.对于第k个公共样本x_k，洗牌器删除所有对应的第s个子采样客户端的本地预测值{y′_s,1,y′_s,2,...,y′_s,k,...,y′_s,K}的身份信息后，再与虚假预测值进行合并，对合并后的信息进行随机排列，并得到匿名预测值并发送给服务器，其中，/>表示第k个公共样本x_k的第a个匿名预测值，a＝1,2,...,A，A为匿名预测总数，A＝S+H；洗牌器通过删除本地预测值{y′_s,1,y′_s,2,...,y′_s,k,...,y′_s,K}的身份特征和随机排列合并后的预测值以实现预测值的匿名化，使服务器无法将第k个公共样本x_k的第a个匿名预测值/>与上传该预测值的具体客户端联系起来。

步骤7.服务器聚合匿名预测值并训练全局模型：

步骤7.1.服务器利用私钥sk解密对应的匿名预测值后，根据式(3)对解密后的预测值进行聚合，得到第k个公共样本x_k单一的全局预测并作为第k个公共样本x_k的聚合标记，从而得到聚合标记后的公共数据集

式(3)中，argmax(·)表示寻找具有最大值的参数；

步骤7.2.服务器根据式(4)计算全局神经网络M_G的预测结果与公共样本的聚合标记之间的交叉熵损失并作为训练全局神经网络M_G的监督损失，使用随机梯度下降优化方法以学习率/>来更新全局神经网络M_G的权值，本实施例中，学习率/>取1e-3，并在监督损失值趋于稳定时完成对全局神经网络M_G的训练；

步骤8.服务器将训练好的全局神经网络M_G下发至各客户端，第i个客户端利用训练好的全局神经网络M_G进行图像分类。

实施例：

为了验证本发明方法的有效性，本实施例中选用了常用的MNIST和Fashion-MNIST数据集，并采用全局模型的测试精度作为定量评价标准。

本实施例中，选用三种方法和本发明方法进行效果对比，所选方法分别是LDP、CDP和Shuffle，均为基于交换模型预测的联邦学习方法，分别采用差分隐私的本地模型、展策人模型和洗牌模型实现隐私保护；根据实验结果可得出结果如表1和表2所示：

表1不同隐私保护水平下本发明方法与选用的四种对比方法在MNIST数据集上的实验结果

Model	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09	0.10
											Ours	0.749	0.86	0.927	0.954	0.963	0.967	0.972	0.971	0.971	0.97
LDP	0.114	0.112	0.107	0.112	0.124	0.115	0.135	0.131	0.131	0.138
											CDP	0.327	0.55	0.701	0.757	0.804	0.859	0.907	0.93	0.948	0.96
Shuffle	0.25	0.409	0.543	0.606	0.655	0.665	0.709	0.743	0.742	0.755

表2不同隐私保护水平下本发明方法与选用的四种对比方法在Fashion-MNIST数据集上的实验结果

Model	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09	0.10
											Ours	0.656	0.753	0.791	0.821	0.827	0.835	0.831	0.842	0.842	0.845
LDP	0.119	0.12	0.123	0.121	0.135	0.138	0.139	0.143	0.144	0.139
											CDP	0.292	0.489	0.581	0.671	0.71	0.746	0.77	0.783	0.804	0.82
Shuffle	0.239	0.364	0.494	0.535	0.578	0.631	0.649	0.657	0.677	0.691

实验结果显示在相同隐私保护水平下，本发明方法与其它三种方法相比效果都要更好,从而证明了本发明提出方法的可行性。

Claims

1.一种基于联邦学习的隐私保护图像分类方法，其特征是应用于由服务器、洗牌器和N个客户端所组成的网络中，并按如下步骤进行：

步骤2.1.所述服务器生成公钥pk和私钥sk；

步骤2.2.所述服务器构造全局神经网络M_G；

步骤3.所述客户端训练本地神经网络：

步骤3.1.第i个客户端获取本地真实数据并进行归一化预处理，得到预处理后的本地数据集记为D_i＝{(x_i,1,y_i,1),(x_i,2,y_i,2),...,(x_i,j,y_i,j),...,(x_i,J,y_i,J)}，x_i,j和y_i,j分别表示第i个客户端的第j个本地样本和对应的标记，i＝1,2,...,N，N为客户端总数，j＝1,2,...,J，J为本地样本总数；

步骤3.2.第i个客户端根据式(1)计算本地的全局神经网络M_Gi的预测结果与本地样本标记之间的交叉熵损失并作为训练所述本地神经网络的监督损失，再使用随机梯度下降优化方法以学习率lr_i ^L来更新所述本地神经网络的权值，并在监督损失值趋于稳定时完成对所述本地神经网络M_Gi的训练；

步骤6.1.对于第k个公共样本x_k，所述洗牌器伪造虚假预测值并利用公钥pk加密，其中，/>表示所述洗牌器对第k个公共样本x_k伪造的第h个虚假预测值，且/>且/>表示第h个虚假预测值的第b位，且满足二项分布，h＝1,2,...,H，H为虚假预测总数；

步骤7.所述服务器聚合匿名预测值并训练全局模型：

步骤7.1.所述服务器利用私钥sk解密对应的匿名预测值后，根据式(3)对解密后的预测值进行聚合，得到第k个公共样本x_k单一的全局预测/>并作为第k个公共样本x_k的聚合标记，从而得到聚合标记后的公共数据集/>

式(3)中，argmax(·)表示寻找具有最大值的参数；