CN111814190B

CN111814190B - 一种基于差分隐私的分布式深度学习优化的隐私保护方法

Info

Publication number: CN111814190B
Application number: CN202010847845.XA
Authority: CN
Inventors: 陈志立; 胡春莲; 张顺; 仲红
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-12-23
Anticipated expiration: 2040-08-21
Also published as: CN111814190A

Abstract

本发明公开了一种基于差分隐私的分布式深度学习优化的隐私保护方法，是应用于服务器端与本地参与者端构成的分布式网络中，其步骤包括：S1、初始化阶段；S2、参与者本地训练参数上传阶段；S3、服务器接收参数筛选阶段。本发明能解决当前分布式深度学习过程中的隐私保护问题，考虑存在恶意参与者的情况下，防止恶意的参与者窃取其他参与者的隐私信息，并防止恶意参与者降低训练模型的精度，同时利用选择性上传参数的方法减少通信开销。

Description

一种基于差分隐私的分布式深度学习优化的隐私保护方法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于差分隐私的分布式深度学习优化的隐私保护方法。

背景技术

近年来深度学习得到了广泛应用，例如图像理解，语音识别，癌症分析等，其性能大大优于传统的机器学习方法。深度学习需要收集大量的用户数据，这些数据通常由用户个人设备上的传感器生成。然而，从隐私的角度来看，用户的个人高度敏感数据，如照片和录音，由收集这些数据的公司无限期保存，用户既不能删除它，也不能限制它的用途。此外，许多数据所有者因隐私和保密问题而无法共享数据，因此无法从大规模深度学习中获益。

文献[Privacy-Preserving Deep Learning,2105]提出了一种分布式深度学习差分隐私保护框架DSSGD，允许用户在没有直接的数据共享和集中存储数据的情况下，利用所有参与者的本地数据来协作构建一个深度学习模型。但该方案将随机噪声加入到参与者训练的参数中，在学习过程中，每一个单独的参数所消耗的隐私预算都相对较高。文献[Adaptive Laplace Mechanism:Differential Privacy Preservation in DeepLearning,2017]，利用FM机制，将目标函数展开成多项式的形式，并对多项式系数加噪，使得噪声不会随着训练的次数而累加。文献[Collaborative Deep Learning for MedicalImage Analysis with Differential Privacy,2019]，对参与者上传的参数加入aGM高斯机制的噪声，可以获得较小的高斯噪声标准差，同时保留隐私成本和附加项。但上述方法都没有考虑到存在恶意参与者的情况，恶意的参与者可能会利用质量较差的训练数据，去扰乱共同训练的模型，并企图窃取其他参与者的隐私信息。

发明内容

本发明为克服现有技术的不足之处，提供一种基于差分隐私的分布式深度学习优化的隐私保护方法，以期能解决当前分布式深度学习过程中的隐私保护问题，考虑存在恶意参与者的情况下，防止恶意的参与者窃取其他参与者的隐私信息，并防止恶意参与者降低训练模型的精度，同时利用选择性上传参数的方法减少通信开销。

本发明为解决技术问题采用如下方案：

本发明一种基于差分隐私的分布式深度学习优化的隐私保护方法的特点是应用于服务器端与参与者端构成的分布式网络中，且所述参与者端包含有若干个恶意参与者的N个本地参与者U＝{u₁,u₂,...,u_i,...,u_N}，其中，u_i表示第i个本地参与者，i∈[1,N]；所述隐私保护方法包括以下步骤：

步骤S1、初始化阶段：

设迭代的总轮数为Q，当前迭代的轮数为q，初始化q＝1；

定义第q轮训练中本地参与者从服务器下载的全局参数为

初始化第q轮训练中服务器的全局参数

设置本地参与者用SGD算法训练的批量大小为|L|，将第i个本地参与者u_i的本地数据划分成n个子数据集{D_i1,D_i2,...,D_ij,...,D_in}，其中，D_ij表示第i个本地参与者u_i的第j个子数据集；

假设本地参与者u_i的第j个子数据集D_ij中含有|L|个训练样本{t_ij1,t_ij2,...,t_ijl,...,t_ij|L|}，t_ijl表示第i个本地参与者u_i的第j个子数集的第l个训练样本；假设第l个训练样本t_ijl有d+1个属性，将前d个输入属性矩阵记为[x_ijl]，将第d+1个结果属性记为y_ijl，则t_ijl＝([x_ijl],y_ijl)；

假设第i个本地参与者u_i与其他参与者共同训练S个参数{w₁,w₂,...,w_s,...,w_S}，w_s表示第s个参数；将第i个本地参与者u_i完成第q轮训练后得到的所有参数记为

其中，

表示第i个本地参与者u_i完成第q轮训练后得到的第s个参数；

定义本地参与者u_i在第q轮训练中在本地数据集上进行迭代的总次数为P；

当前迭代次数为p；

步骤S2、参与者本地训练参数上传阶段：

步骤S2.1、在第q轮训练中，第i个本地参与者u_i从所述服务器上下载全局参数

作为第q轮训练中本地参与者u_i的参数

并初始化p＝1；

步骤S2.2、在第q轮训练中，第i个本地参与者u_i在本地数据集上进行第p次迭代时，从n个子数据集中随机第p次抽取一个子数据集

进行训练；则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为

式(1)中，

表示第i个本地参与者u_i在第q轮训练中在本地进行的第p次迭代获得的参数，[x_ijl]^T表子数据集

中的第l个样本的前d个输入属性矩阵[x_ijl]的转置；

步骤S2.3、利用式(2)对所述损失函数

变形，得到变形后的损失函数

式(2)中，g_m()表示参数

的第m个多项式函数；f_m()表示变形后的损失函数

的第m个多项式项；

步骤S2.4、令参数

的第1个多项式函数

令参数

的第2个多项式函数

令变形后的损失函数

的第1个多项式项f₁(α)＝log(1+exp(α))，令变形后的损失函数

的第2个多项式项为f₂(α)＝α；α表示参数

的多项式函数；从而利用式(3)得到损失函数的多项式形式

步骤S2.5、利用式(4)得到损失函数

的泰勒展开式形式

式(4)中，z_m表示第m个实数；k表示多项式的阶数，

表示函数

的第m个多项式函数中，自变量为第m个实数z_m时的k阶导数值；

步骤S2.6、截掉所述泰勒展开式

中所有多项式阶数k大于2的项，从而保留k＝0,1,2的项；

步骤S2.7、令z_m＝0，利用式(5)得到最终用于在第j个子数据集

上训练的多项式目标函数

步骤S2.8、利用高斯分布的噪声对式(5)中的多项式系数进行加噪，从而得到加噪后的多项式目标函数

步骤S2.9、p+1赋值给p后，判断p＞P是否成立，若成立，则表示第i个参与者u_i在本地数据集上完成P次迭代后，获得第q轮训练的参数

否则，返回步骤2.2；

步骤S2.10、计算参数

的平均值

并将参数

中大于

的S′个参数

上传给服务器；

步骤S3、服务器接收参数进行筛选阶段：

步骤S3.1、服务器设定一个本地参与者上传参数的上界C，即在第q轮训练中，当有C个本地参与者上传自己的参数后，服务器就拒绝再接收其他参与者上传的参数；

步骤S3.2、服务器上存有一个验证样本数为R的验证数据集D_V＝{v₁,v₂,...,v_r,...,v_R}用来验证第i个本地参与者u_i上传的参数

的效用，其中，v_r表示验证数据集D_V中的第r个验证样本；将第r个验证样本中的结果属性记为y_r；

用全局参数

作为本地参与者未上传的S-S′个参数，利用式(6)计算第i个本地参与者u_i在第q轮训练中上传的参数

的效用分数

式(6)中，

表示使用验证数据集D_V上的第r个验证样本v_r来验证第i个本地参与者u_i在第q轮训练中上传的参数

时，获得的预测值；

步骤S3.3、对第q轮训练中C个效用分数进行排序；

步骤S3.4、对效用分数排在前θ位的θ个本地参与者的参数求平均值

步骤S3.5、将平均值

作为第q+1轮训练中的全局参数，即

步骤S3.6、将q+1赋值给q，并判断q＞Q是否成立，若成立，则表示第i个参与者u_i在本地数据集上获得训练好的参数

否则返回步骤2顺序执行。

与现有技术相比，本发明的有益效果在于：

1、本发明使用本地参与者上传部分训练参数给服务器的方法，减少了隐私信息的泄露，并且选择性上传部分参数减少了通信开销。

2、本发利用泰勒展开式将目标函数转换成多项式的形式，并在多项式目标函数的系数中加入满足差分隐私的噪声，使得用加噪的目标函数训练得到的参数值是满足差分隐私的。从而达到保护训练数据隐私的目的。并且对目标函数加噪，相较于对参数加噪，提升了训练的精确度。

3、本发明利用一个验证数据集对参与者上传的参数值进行效用评分，并丢弃效用分数较低的参与者的参数，从而降低了恶意参与者上传的参数对训练结果的影响。

4、本发明中对目标函数加噪时使用aGM高斯机制，使得训练过程中的参数不会泄露用户的隐私信息。

附图说明

图1为本发明应用场景示意图；

图2为本发明隐私保护方法的实施步骤流程图。

具体实施方式

本实施例中，一种基于差分隐私的分布式深度学习优化的隐私保护方法，是应用于如图1所示的服务器端与参与者端构成的分布式网络中，且参与者端包含有若干个恶意参与者的N个本地参与者U＝{u₁,u₂,...,u_i,...,u_N}，其中，u_i表示第i个本地参与者，i∈[1,N]；

考虑一个图像识别系统，每个本地参与者都存有一部分待识别的图像，利用图像识别系统，可以根据输入的图像数据，来判断图像中的实体是什么。比如输入的是一个猫的图片，系统可以输出这个图片中的实体是猫的概率。假设有4个用户作为本地参与者，如图1所示，他们共同训练一个能够识别猫图像的系统，识别结果的结果为一个概率，表示输入图像中的实体是猫的概率，概率越大，表示图像中的实体是猫的可能性越大；其中一个用户为恶意的本地参与者，他持有的图片数据质量比较低，不利于模型的训练，恶意参与者的加入会影响模型的训练精度；这4个本地参与者不直接交换图像数据，而是独立的训练，并将训练得到的参数上传给服务器，服务器进行筛选后，本地参与者再从服务器下载最新的参数继续训练。

如图2所示，隐私保护方法包括以下步骤：

步骤S1、初始化阶段：

设迭代的总轮数为Q，当前迭代的轮数为q，初始化q＝1；

定义第q轮训练中本地参与者从服务器下载的全局参数为

假设本地参与者u_i的第j个子数据集D_ij中含有|L|个训练样本{t_ij1,t_ij2,...,t_ijl,...,t_ij|L|}，t_ijl表示第i个本地参与者u_i的第j个子数集的第l个训练样本；假设第l个训练样本t_ijl有d+1个属性，将前d个输入属性矩阵记为[x_ijl]，本实施例中前d个输入属性为每个用来训练的图像包含的d个像素点；将第d+1个结果属性记为y_ijl，则t_ijl＝([x_ijl],y_ijl)；本实施例中y_ijl∈range(0,1)表示训练样本图像中的实体是不是猫，第i个本地参与者u_i的第j个子数集的第l个训练样本是一只猫的图像时，y_ijl＝1，如果不是一只猫的图像，则y_ijl＝0。

其中，

表示第i个本地参与者u_i完成第q轮训练后得到的第s个参数；

初始化第q轮训练中服务器的全局参数

本实施例中将W₀设为一个所有值都为1的1*S矩阵，S即将个参数都初始化为1。

当前迭代次数为p；

步骤S2、参与者本地训练参数上传阶段：

步骤S2.1、在第q轮训练中，第i个本地参与者u_i从服务器上下载全局参数

作为第q轮训练中本地参与者u_i的参数

并初始化p＝1；

式(1)中，

中的第l个样本的前d个输入属性矩阵[x_ijl]的转置；

步骤S2.3、利用式(2)对损失函数

变形，得到变形后的损失函数

式(2)中，g_m()表示参数

的第m个多项式函数；f_m()表示变形后的损失函数

的第m个多项式项；

步骤S2.4、令参数

的第1个多项式函数

令参数

的第2个多项式函数

令变形后的损失函数

的第1个多项式项f₁(α)＝log(1+exp(α))，令变形后的损失函数

的第2个多项式项为f₂(α)＝α；α表示参数

的多项式函数；从而利用式(3)得到损失函数的多项式形式

步骤S2.5、利用式(4)得到损失函数

的泰勒展开式形式

式(4)中，z_m表示第m个实数；k表示多项式的阶数，

表示函数

步骤S2.6、截掉泰勒展开式

中所有多项式阶数k大于2的项，从而保留k＝0,1,2的项；

步骤S2.7、令z_m＝0，利用式(5)得到最终用于在第j个子数据集

上训练的多项式目标函数

步骤S2.8、利用(6)式对(5)式中的多项式系数加入满足高斯分布的噪声，得到加噪后的多项式目标函数

式(6)中，

表示均值为0，方差为

的高斯分布；f表示要加噪的函数；S_f表示函数f的敏感度；

否则，返回步骤2.2；

步骤S2.10、计算参数

的平均值

并将参数

中大于

的S′个参数

上传给服务器；

步骤S3、服务器接收参数进行筛选阶段：

用全局参数

作为本地参与者未上传的S-S′个参数，利用式(7)计算第i个本地参与者u_i在第q轮训练中上传的参数

的效用分数

式(7)中，

时，获得的预测值；

步骤S3.3、对第q轮训练中C个效用分数进行排序；

步骤S3.5、将平均值

作为第q+1轮训练中的全局参数，即

否则返回步骤2顺序执行。

综上所述，本发明方法解决了当前分布式深度学习过程中存在的隐私保护问题，考虑存在恶意参与者的情况下，防止恶意的参与者窃取其他参与者的隐私信息，并减少了恶意参与者对训练结果的精确度的影响。

Claims

1.一种基于差分隐私的分布式深度学习优化的隐私保护方法，其特征是应用于服务器端与参与者端构成的分布式网络中，且所述参与者端包含有若干个恶意参与者的N个本地参与者U＝{u₁,u₂,...,u_i,...,u_N}，其中，u_i表示第i个本地参与者，i∈[1,N]；所述隐私保护方法包括以下步骤：

步骤S1、初始化阶段：

设迭代的总轮数为Q，当前迭代的轮数为q，初始化q＝1；

定义第q轮训练中本地参与者从服务器下载的全局参数为

初始化第q轮训练中服务器的全局参数

本地参与者u_i的第j个子数据集D_ij中含有|L|个训练样本{t_ij1,t_ij2,...,t_ijl,...,t_ij|L|}，t_ijl表示第i个本地参与者u_i的第j个子数集的第l个训练样本；第l个训练样本t_ijl有d+1个属性，将前d个输入属性矩阵记为[x_ijl]，将第d+1个结果属性记为y_ijl，则t_ijl＝([x_ijl],y_ijl)；

第i个本地参与者u_i与其他参与者共同训练S个参数{w₁,w₂,...,w_s,...,w_S}，w_s表示第s个参数；将第i个本地参与者u_i完成第q轮训练后得到的所有参数记为