CN111814190B - 一种基于差分隐私的分布式深度学习优化的隐私保护方法 - Google Patents

一种基于差分隐私的分布式深度学习优化的隐私保护方法 Download PDF

Info

Publication number
CN111814190B
CN111814190B CN202010847845.XA CN202010847845A CN111814190B CN 111814190 B CN111814190 B CN 111814190B CN 202010847845 A CN202010847845 A CN 202010847845A CN 111814190 B CN111814190 B CN 111814190B
Authority
CN
China
Prior art keywords
training
parameters
local
participant
round
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010847845.XA
Other languages
English (en)
Other versions
CN111814190A (zh
Inventor
陈志立
胡春莲
张顺
仲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202010847845.XA priority Critical patent/CN111814190B/zh
Publication of CN111814190A publication Critical patent/CN111814190A/zh
Application granted granted Critical
Publication of CN111814190B publication Critical patent/CN111814190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于差分隐私的分布式深度学习优化的隐私保护方法,是应用于服务器端与本地参与者端构成的分布式网络中,其步骤包括:S1、初始化阶段;S2、参与者本地训练参数上传阶段;S3、服务器接收参数筛选阶段。本发明能解决当前分布式深度学习过程中的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并防止恶意参与者降低训练模型的精度,同时利用选择性上传参数的方法减少通信开销。

Description

一种基于差分隐私的分布式深度学习优化的隐私保护方法
技术领域
本发明属于信息检索技术领域,具体涉及一种基于差分隐私的分布式深度学习优化的隐私保护方法。
背景技术
近年来深度学习得到了广泛应用,例如图像理解,语音识别,癌症分析等,其性能大大优于传统的机器学习方法。深度学习需要收集大量的用户数据,这些数据通常由用户个人设备上的传感器生成。然而,从隐私的角度来看,用户的个人高度敏感数据,如照片和录音,由收集这些数据的公司无限期保存,用户既不能删除它,也不能限制它的用途。此外,许多数据所有者因隐私和保密问题而无法共享数据,因此无法从大规模深度学习中获益。
文献[Privacy-Preserving Deep Learning,2105]提出了一种分布式深度学习差分隐私保护框架DSSGD,允许用户在没有直接的数据共享和集中存储数据的情况下,利用所有参与者的本地数据来协作构建一个深度学习模型。但该方案将随机噪声加入到参与者训练的参数中,在学习过程中,每一个单独的参数所消耗的隐私预算都相对较高。文献[Adaptive Laplace Mechanism:Differential Privacy Preservation in DeepLearning,2017],利用FM机制,将目标函数展开成多项式的形式,并对多项式系数加噪,使得噪声不会随着训练的次数而累加。文献[Collaborative Deep Learning for MedicalImage Analysis with Differential Privacy,2019],对参与者上传的参数加入aGM高斯机制的噪声,可以获得较小的高斯噪声标准差,同时保留隐私成本和附加项。但上述方法都没有考虑到存在恶意参与者的情况,恶意的参与者可能会利用质量较差的训练数据,去扰乱共同训练的模型,并企图窃取其他参与者的隐私信息。
发明内容
本发明为克服现有技术的不足之处,提供一种基于差分隐私的分布式深度学习优化的隐私保护方法,以期能解决当前分布式深度学习过程中的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并防止恶意参与者降低训练模型的精度,同时利用选择性上传参数的方法减少通信开销。
本发明为解决技术问题采用如下方案:
本发明一种基于差分隐私的分布式深度学习优化的隐私保护方法的特点是应用于服务器端与参与者端构成的分布式网络中,且所述参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];所述隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
定义第q轮训练中本地参与者从服务器下载的全局参数为
Figure BDA0002643694660000021
初始化第q轮训练中服务器的全局参数
Figure BDA0002643694660000022
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
假设本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;假设第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);
假设第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为
Figure BDA0002643694660000023
其中,
Figure BDA0002643694660000024
表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.1、在第q轮训练中,第i个本地参与者ui从所述服务器上下载全局参数
Figure BDA0002643694660000025
作为第q轮训练中本地参与者ui的参数
Figure BDA0002643694660000026
并初始化p=1;
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集
Figure BDA0002643694660000027
进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
Figure BDA0002643694660000028
Figure BDA0002643694660000029
式(1)中,
Figure BDA0002643694660000031
表示第i个本地参与者ui在第q轮训练中在本地进行的第p次迭代获得的参数,[xijl]T表子数据集
Figure BDA0002643694660000032
中的第l个样本的前d个输入属性矩阵[xijl]的转置;
步骤S2.3、利用式(2)对所述损失函数
Figure BDA0002643694660000033
变形,得到变形后的损失函数
Figure BDA0002643694660000034
Figure BDA0002643694660000035
式(2)中,gm()表示参数
Figure BDA0002643694660000036
的第m个多项式函数;fm()表示变形后的损失函数
Figure BDA0002643694660000037
的第m个多项式项;
步骤S2.4、令参数
Figure BDA0002643694660000038
的第1个多项式函数
Figure BDA0002643694660000039
令参数
Figure BDA00026436946600000310
的第2个多项式函数
Figure BDA00026436946600000311
令变形后的损失函数
Figure BDA00026436946600000312
的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数
Figure BDA00026436946600000313
的第2个多项式项为f2(α)=α;α表示参数
Figure BDA00026436946600000314
的多项式函数;从而利用式(3)得到损失函数的多项式形式
Figure BDA00026436946600000315
Figure BDA00026436946600000316
步骤S2.5、利用式(4)得到损失函数
Figure BDA00026436946600000317
的泰勒展开式形式
Figure BDA00026436946600000318
Figure BDA00026436946600000319
式(4)中,zm表示第m个实数;k表示多项式的阶数,
Figure BDA00026436946600000320
表示函数
Figure BDA00026436946600000321
的第m个多项式函数中,自变量为第m个实数zm时的k阶导数值;
步骤S2.6、截掉所述泰勒展开式
Figure BDA00026436946600000322
中所有多项式阶数k大于2的项,从而保留k=0,1,2的项;
步骤S2.7、令zm=0,利用式(5)得到最终用于在第j个子数据集
Figure BDA00026436946600000323
上训练的多项式目标函数
Figure BDA00026436946600000324
Figure BDA0002643694660000041
步骤S2.8、利用高斯分布的噪声对式(5)中的多项式系数进行加噪,从而得到加噪后的多项式目标函数
Figure BDA0002643694660000042
步骤S2.9、p+1赋值给p后,判断p>P是否成立,若成立,则表示第i个参与者ui在本地数据集上完成P次迭代后,获得第q轮训练的参数
Figure BDA0002643694660000043
否则,返回步骤2.2;
步骤S2.10、计算参数
Figure BDA0002643694660000044
的平均值
Figure BDA0002643694660000045
并将参数
Figure BDA0002643694660000046
中大于
Figure BDA0002643694660000047
的S′个参数
Figure BDA0002643694660000048
上传给服务器;
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数
Figure BDA0002643694660000049
的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr
用全局参数
Figure BDA00026436946600000410
作为本地参与者未上传的S-S′个参数,利用式(6)计算第i个本地参与者ui在第q轮训练中上传的参数
Figure BDA00026436946600000411
的效用分数
Figure BDA00026436946600000412
Figure BDA00026436946600000413
式(6)中,
Figure BDA00026436946600000414
表示使用验证数据集DV上的第r个验证样本vr来验证第i个本地参与者ui在第q轮训练中上传的参数
Figure BDA00026436946600000415
时,获得的预测值;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
步骤S3.4、对效用分数排在前θ位的θ个本地参与者的参数求平均值
Figure BDA00026436946600000416
步骤S3.5、将平均值
Figure BDA00026436946600000417
作为第q+1轮训练中的全局参数,即
Figure BDA00026436946600000418
步骤S3.6、将q+1赋值给q,并判断q>Q是否成立,若成立,则表示第i个参与者ui在本地数据集上获得训练好的参数
Figure BDA0002643694660000051
否则返回步骤2顺序执行。
与现有技术相比,本发明的有益效果在于:
1、本发明使用本地参与者上传部分训练参数给服务器的方法,减少了隐私信息的泄露,并且选择性上传部分参数减少了通信开销。
2、本发利用泰勒展开式将目标函数转换成多项式的形式,并在多项式目标函数的系数中加入满足差分隐私的噪声,使得用加噪的目标函数训练得到的参数值是满足差分隐私的。从而达到保护训练数据隐私的目的。并且对目标函数加噪,相较于对参数加噪,提升了训练的精确度。
3、本发明利用一个验证数据集对参与者上传的参数值进行效用评分,并丢弃效用分数较低的参与者的参数,从而降低了恶意参与者上传的参数对训练结果的影响。
4、本发明中对目标函数加噪时使用aGM高斯机制,使得训练过程中的参数不会泄露用户的隐私信息。
附图说明
图1为本发明应用场景示意图;
图2为本发明隐私保护方法的实施步骤流程图。
具体实施方式
本实施例中,一种基于差分隐私的分布式深度学习优化的隐私保护方法,是应用于如图1所示的服务器端与参与者端构成的分布式网络中,且参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];
考虑一个图像识别系统,每个本地参与者都存有一部分待识别的图像,利用图像识别系统,可以根据输入的图像数据,来判断图像中的实体是什么。比如输入的是一个猫的图片,系统可以输出这个图片中的实体是猫的概率。假设有4个用户作为本地参与者,如图1所示,他们共同训练一个能够识别猫图像的系统,识别结果的结果为一个概率,表示输入图像中的实体是猫的概率,概率越大,表示图像中的实体是猫的可能性越大;其中一个用户为恶意的本地参与者,他持有的图片数据质量比较低,不利于模型的训练,恶意参与者的加入会影响模型的训练精度;这4个本地参与者不直接交换图像数据,而是独立的训练,并将训练得到的参数上传给服务器,服务器进行筛选后,本地参与者再从服务器下载最新的参数继续训练。
如图2所示,隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
定义第q轮训练中本地参与者从服务器下载的全局参数为
Figure BDA0002643694660000061
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
假设本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;假设第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],本实施例中前d个输入属性为每个用来训练的图像包含的d个像素点;将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);本实施例中yijl∈range(0,1)表示训练样本图像中的实体是不是猫,第i个本地参与者ui的第j个子数集的第l个训练样本是一只猫的图像时,yijl=1,如果不是一只猫的图像,则yijl=0。
假设第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为
Figure BDA0002643694660000062
其中,
Figure BDA0002643694660000063
表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
初始化第q轮训练中服务器的全局参数
Figure BDA0002643694660000064
本实施例中将W0设为一个所有值都为1的1*S矩阵,S即将个参数都初始化为1。
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.1、在第q轮训练中,第i个本地参与者ui从服务器上下载全局参数
Figure BDA0002643694660000065
作为第q轮训练中本地参与者ui的参数
Figure BDA0002643694660000066
并初始化p=1;
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集
Figure BDA0002643694660000071
进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
Figure BDA0002643694660000072
Figure BDA0002643694660000073
式(1)中,
Figure BDA0002643694660000074
表示第i个本地参与者ui在第q轮训练中在本地进行的第p次迭代获得的参数,[xijl]T表子数据集
Figure BDA0002643694660000075
中的第l个样本的前d个输入属性矩阵[xijl]的转置;
步骤S2.3、利用式(2)对损失函数
Figure BDA0002643694660000076
变形,得到变形后的损失函数
Figure BDA0002643694660000077
Figure BDA0002643694660000078
式(2)中,gm()表示参数
Figure BDA0002643694660000079
的第m个多项式函数;fm()表示变形后的损失函数
Figure BDA00026436946600000710
的第m个多项式项;
步骤S2.4、令参数
Figure BDA00026436946600000711
的第1个多项式函数
Figure BDA00026436946600000712
令参数
Figure BDA00026436946600000713
的第2个多项式函数
Figure BDA00026436946600000714
令变形后的损失函数
Figure BDA00026436946600000715
的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数
Figure BDA00026436946600000716
的第2个多项式项为f2(α)=α;α表示参数
Figure BDA00026436946600000717
的多项式函数;从而利用式(3)得到损失函数的多项式形式
Figure BDA00026436946600000718
Figure BDA00026436946600000719
步骤S2.5、利用式(4)得到损失函数
Figure BDA00026436946600000720
的泰勒展开式形式
Figure BDA00026436946600000721
Figure BDA00026436946600000722
式(4)中,zm表示第m个实数;k表示多项式的阶数,
Figure BDA00026436946600000723
表示函数
Figure BDA00026436946600000724
的第m个多项式函数中,自变量为第m个实数zm时的k阶导数值;
步骤S2.6、截掉泰勒展开式
Figure BDA0002643694660000081
中所有多项式阶数k大于2的项,从而保留k=0,1,2的项;
步骤S2.7、令zm=0,利用式(5)得到最终用于在第j个子数据集
Figure BDA0002643694660000082
上训练的多项式目标函数
Figure BDA0002643694660000083
Figure BDA0002643694660000084
步骤S2.8、利用(6)式对(5)式中的多项式系数加入满足高斯分布的噪声,得到加噪后的多项式目标函数
Figure BDA0002643694660000085
Figure BDA0002643694660000086
式(6)中,
Figure BDA0002643694660000087
表示均值为0,方差为
Figure BDA0002643694660000088
的高斯分布;f表示要加噪的函数;Sf表示函数f的敏感度;
步骤S2.9、p+1赋值给p后,判断p>P是否成立,若成立,则表示第i个参与者ui在本地数据集上完成P次迭代后,获得第q轮训练的参数
Figure BDA0002643694660000089
否则,返回步骤2.2;
步骤S2.10、计算参数
Figure BDA00026436946600000810
的平均值
Figure BDA00026436946600000811
并将参数
Figure BDA00026436946600000812
中大于
Figure BDA00026436946600000813
的S′个参数
Figure BDA00026436946600000814
上传给服务器;
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数
Figure BDA00026436946600000815
的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr
用全局参数
Figure BDA00026436946600000816
作为本地参与者未上传的S-S′个参数,利用式(7)计算第i个本地参与者ui在第q轮训练中上传的参数
Figure BDA00026436946600000817
的效用分数
Figure BDA00026436946600000818
Figure BDA0002643694660000091
式(7)中,
Figure BDA0002643694660000092
表示使用验证数据集DV上的第r个验证样本vr来验证第i个本地参与者ui在第q轮训练中上传的参数
Figure BDA0002643694660000093
时,获得的预测值;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
步骤S3.4、对效用分数排在前θ位的θ个本地参与者的参数求平均值
Figure BDA0002643694660000094
步骤S3.5、将平均值
Figure BDA0002643694660000095
作为第q+1轮训练中的全局参数,即
Figure BDA0002643694660000096
步骤S3.6、将q+1赋值给q,并判断q>Q是否成立,若成立,则表示第i个参与者ui在本地数据集上获得训练好的参数
Figure BDA0002643694660000097
否则返回步骤2顺序执行。
综上所述,本发明方法解决了当前分布式深度学习过程中存在的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并减少了恶意参与者对训练结果的精确度的影响。

Claims (1)

1.一种基于差分隐私的分布式深度学习优化的隐私保护方法,其特征是应用于服务器端与参与者端构成的分布式网络中,且所述参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];所述隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
定义第q轮训练中本地参与者从服务器下载的全局参数为
Figure FDA0003780922100000011
初始化第q轮训练中服务器的全局参数
Figure FDA0003780922100000012
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);
第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为
Figure FDA0003780922100000013
其中,
Figure FDA0003780922100000014
表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.1、在第q轮训练中,第i个本地参与者ui从所述服务器上下载全局参数
Figure FDA0003780922100000015
作为第q轮训练中本地参与者ui的参数Wi q;并初始化p=1;
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集
Figure FDA0003780922100000021
进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
Figure FDA0003780922100000022
Figure FDA0003780922100000023
式(1)中,Wi qp表示第i个本地参与者ui在第q轮训练中在本地进行的第p次迭代获得的参数,[xijl]T表子数据集
Figure FDA0003780922100000024
中的第l个样本的前d个输入属性矩阵[xijl]的转置;
步骤S2.3、利用式(2)对所述损失函数
Figure FDA0003780922100000025
变形,得到变形后的损失函数
Figure FDA0003780922100000026
Figure FDA0003780922100000027
式(2)中,gm()表示参数Wi qp的第m个多项式函数;fm()表示变形后的损失函数
Figure FDA0003780922100000028
的第m个多项式项;
步骤S2.4、令参数Wi qp的第1个多项式函数g1(tijl,Wi qp)=[xijl]TWi qp,令参数Wi qp的第2个多项式函数g2(tijl,Wi qp)=yijl[xijl]TWi qp,令变形后的损失函数
Figure FDA0003780922100000029
的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数
Figure FDA00037809221000000210
的第2个多项式项为f2(α)=α;α表示参数Wi qp的多项式函数;从而利用式(3)得到损失函数的多项式形式
Figure FDA00037809221000000211
Figure FDA00037809221000000212
步骤S2.5、利用式(4)得到损失函数
Figure FDA00037809221000000213
的泰勒展开式形式
Figure FDA00037809221000000214
Figure FDA00037809221000000215
式(4)中,zm表示第m个实数;k表示多项式的阶数,
Figure FDA00037809221000000216
表示函数
Figure FDA00037809221000000217
的第m个多项式函数中,自变量为第m个实数zm时的k阶导数值;
步骤S2.6、截掉所述泰勒展开式
Figure FDA0003780922100000031
中所有多项式阶数k大于2的项,从而保留k=0,1,2的项;
步骤S2.7、令zm=0,利用式(5)得到最终用于在第j个子数据集
Figure FDA0003780922100000032
上训练的多项式目标函数
Figure FDA0003780922100000033
Figure FDA0003780922100000034
步骤S2.8、利用高斯分布的噪声对式(5)中的多项式系数进行加噪,从而得到加噪后的多项式目标函数
Figure FDA0003780922100000035
步骤S2.9、p+1赋值给p后,判断p>P是否成立,若成立,则表示第i个参与者ui在本地数据集上完成P次迭代后,获得第q轮训练的参数Wi q′;否则,返回步骤2.2;
步骤S2.10、计算参数Wi q′的平均值
Figure FDA0003780922100000036
并将参数Wi q′中大于
Figure FDA0003780922100000037
的S′个参数[Wi q″]上传给服务器;
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数[Wi q″]的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr
用全局参数
Figure FDA0003780922100000038
作为本地参与者未上传的S-S′个参数,利用式(6)计算第i个本地参与者ui在第q轮训练中上传的参数[Wi q″]的效用分数
Figure FDA0003780922100000039
Figure FDA00037809221000000310
式(6)中,
Figure FDA00037809221000000311
表示使用验证数据集DV上的第r个验证样本vr来验证第i个本地参与者ui在第q轮训练中上传的参数[Wi q″]时,获得的预测值;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
步骤S3.4、对效用分数排在前θ位的θ个本地参与者的参数求平均值
Figure FDA0003780922100000041
步骤S3.5、将平均值
Figure FDA0003780922100000042
作为第q+1轮训练中的全局参数,即
Figure FDA0003780922100000043
步骤S3.6、将q+1赋值给q,并判断q>Q是否成立,若成立,则表示第i个参与者ui在本地数据集上获得训练好的参数Wi Q′;否则返回步骤2顺序执行。
CN202010847845.XA 2020-08-21 2020-08-21 一种基于差分隐私的分布式深度学习优化的隐私保护方法 Active CN111814190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010847845.XA CN111814190B (zh) 2020-08-21 2020-08-21 一种基于差分隐私的分布式深度学习优化的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010847845.XA CN111814190B (zh) 2020-08-21 2020-08-21 一种基于差分隐私的分布式深度学习优化的隐私保护方法

Publications (2)

Publication Number Publication Date
CN111814190A CN111814190A (zh) 2020-10-23
CN111814190B true CN111814190B (zh) 2022-12-23

Family

ID=72859539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010847845.XA Active CN111814190B (zh) 2020-08-21 2020-08-21 一种基于差分隐私的分布式深度学习优化的隐私保护方法

Country Status (1)

Country Link
CN (1) CN111814190B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642715B (zh) * 2021-08-31 2024-07-12 南京昊凛科技有限公司 自适应分配动态隐私预算的差分隐私保护深度学习算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及系统
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475350B2 (en) * 2018-01-22 2022-10-18 Google Llc Training user-level differentially private machine-learned models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN110719158A (zh) * 2019-09-11 2020-01-21 南京航空航天大学 基于联合学习的边缘计算隐私保护系统及保护方法
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Collaborative Deep Learning for Medical Image Analysis with Differential Privacy;Danni Yuan等;《2019 IEEE Global Communications Conference (GLOBECOM)》;20200227;1-6 *
联邦学习安全与隐私保护研究综述;周俊等;《西华大学学报(自然科学版)》;20200710(第04期);9-17 *

Also Published As

Publication number Publication date
CN111814190A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
US11935298B2 (en) System and method for predicting formation in sports
CN107680077A (zh) 一种基于多阶梯度特征的无参考图像质量评价方法
US11508120B2 (en) Methods and apparatus to generate a three-dimensional (3D) model for 3D scene reconstruction
CN108197652A (zh) 用于生成信息的方法和装置
CN110264407B (zh) 图像超分辨模型训练及重建方法、装置、设备及存储介质
CN111161314B (zh) 目标对象的位置区域确定方法、装置、电子设备及存储介质
CN116935447B (zh) 基于自适应师生结构的无监督域行人重识别方法及系统
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN111724370B (zh) 基于不确定性和概率的多任务图像质量评估方法及系统
CN114283307B (zh) 一种基于重采样策略的网络训练方法
CN115840900A (zh) 一种基于自适应聚类分层的个性化联邦学习方法及系统
CN111126262A (zh) 基于图神经网络的视频精彩片段检测方法及装置
CN110930996A (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
CN111814190B (zh) 一种基于差分隐私的分布式深度学习优化的隐私保护方法
CN111640099A (zh) 一种确定图像质量的方法、装置、电子设备及存储介质
CN114897884A (zh) 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法
CN118211268A (zh) 基于扩散模型的异构联邦学习隐私保护方法及系统
CN113592008A (zh) 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质
CN111861038A (zh) 一种基于机器学习算法的高考分数预测方法及系统
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
WO2020093817A1 (zh) 一种核身方法及装置
CN112183946A (zh) 多媒体内容评估方法、装置及其训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant