CN111814190A - 一种基于差分隐私的分布式深度学习优化的隐私保护方法 - Google Patents
一种基于差分隐私的分布式深度学习优化的隐私保护方法 Download PDFInfo
- Publication number
- CN111814190A CN111814190A CN202010847845.XA CN202010847845A CN111814190A CN 111814190 A CN111814190 A CN 111814190A CN 202010847845 A CN202010847845 A CN 202010847845A CN 111814190 A CN111814190 A CN 111814190A
- Authority
- CN
- China
- Prior art keywords
- training
- local
- parameters
- round
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000005457 optimization Methods 0.000 title claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012216 screening Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 52
- 238000012795 verification Methods 0.000 claims description 16
- 238000010200 validation analysis Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 239000011541 reaction mixture Substances 0.000 claims 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 3
- 241000282326 Felis catus Species 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于差分隐私的分布式深度学习优化的隐私保护方法,是应用于服务器端与本地参与者端构成的分布式网络中,其步骤包括:S1、初始化阶段;S2、参与者本地训练参数上传阶段;S3、服务器接收参数筛选阶段。本发明能解决当前分布式深度学习过程中的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并防止恶意参与者降低训练模型的精度,同时利用选择性上传参数的方法减少通信开销。
Description
技术领域
本发明属于信息检索技术领域,具体涉及一种基于差分隐私的分布式深度学习优化的隐私保护方法。
背景技术
近年来深度学习得到了广泛应用,例如图像理解,语音识别,癌症分析等,其性能大大优于传统的机器学习方法。深度学习需要收集大量的用户数据,这些数据通常由用户个人设备上的传感器生成。然而,从隐私的角度来看,用户的个人高度敏感数据,如照片和录音,由收集这些数据的公司无限期保存,用户既不能删除它,也不能限制它的用途。此外,许多数据所有者因隐私和保密问题而无法共享数据,因此无法从大规模深度学习中获益。
文献[Privacy-Preserving Deep Learning,2105]提出了一种分布式深度学习差分隐私保护框架DSSGD,允许用户在没有直接的数据共享和集中存储数据的情况下,利用所有参与者的本地数据来协作构建一个深度学习模型。但该方案将随机噪声加入到参与者训练的参数中,在学习过程中,每一个单独的参数所消耗的隐私预算都相对较高。文献[Adaptive Laplace Mechanism:Differential Privacy Preservation in DeepLearning,2017],利用FM机制,将目标函数展开成多项式的形式,并对多项式系数加噪,使得噪声不会随着训练的次数而累加。文献[Collaborative Deep Learning for MedicalImage Analysis with Differential Privacy,2019],对参与者上传的参数加入aGM高斯机制的噪声,可以获得较小的高斯噪声标准差,同时保留隐私成本和附加项。但上述方法都没有考虑到存在恶意参与者的情况,恶意的参与者可能会利用质量较差的训练数据,去扰乱共同训练的模型,并企图窃取其他参与者的隐私信息。
发明内容
本发明为克服现有技术的不足之处,提供一种基于差分隐私的分布式深度学习优化的隐私保护方法,以期能解决当前分布式深度学习过程中的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并防止恶意参与者降低训练模型的精度,同时利用选择性上传参数的方法减少通信开销。
本发明为解决技术问题采用如下方案:
本发明一种基于差分隐私的分布式深度学习优化的隐私保护方法的特点是应用于服务器端与参与者端构成的分布式网络中,且所述参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];所述隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
假设本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;假设第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);
假设第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为其中,表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
步骤S2.4、令参数的第1个多项式函数令参数的第2个多项式函数令变形后的损失函数的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数的第2个多项式项为f2(α)=α;α表示参数的多项式函数;从而利用式(3)得到损失函数的多项式形式
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
与现有技术相比,本发明的有益效果在于:
1、本发明使用本地参与者上传部分训练参数给服务器的方法,减少了隐私信息的泄露,并且选择性上传部分参数减少了通信开销。
2、本发利用泰勒展开式将目标函数转换成多项式的形式,并在多项式目标函数的系数中加入满足差分隐私的噪声,使得用加噪的目标函数训练得到的参数值是满足差分隐私的。从而达到保护训练数据隐私的目的。并且对目标函数加噪,相较于对参数加噪,提升了训练的精确度。
3、本发明利用一个验证数据集对参与者上传的参数值进行效用评分,并丢弃效用分数较低的参与者的参数,从而降低了恶意参与者上传的参数对训练结果的影响。
4、本发明中对目标函数加噪时使用aGM高斯机制,使得训练过程中的参数不会泄露用户的隐私信息。
附图说明
图1为本发明应用场景示意图;
图2为本发明隐私保护方法的实施步骤流程图。
具体实施方式
本实施例中,一种基于差分隐私的分布式深度学习优化的隐私保护方法,是应用于如图1所示的服务器端与参与者端构成的分布式网络中,且参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];
考虑一个图像识别系统,每个本地参与者都存有一部分待识别的图像,利用图像识别系统,可以根据输入的图像数据,来判断图像中的实体是什么。比如输入的是一个猫的图片,系统可以输出这个图片中的实体是猫的概率。假设有4个用户作为本地参与者,如图1所示,他们共同训练一个能够识别猫图像的系统,识别结果的结果为一个概率,表示输入图像中的实体是猫的概率,概率越大,表示图像中的实体是猫的可能性越大;其中一个用户为恶意的本地参与者,他持有的图片数据质量比较低,不利于模型的训练,恶意参与者的加入会影响模型的训练精度;这4个本地参与者不直接交换图像数据,而是独立的训练,并将训练得到的参数上传给服务器,服务器进行筛选后,本地参与者再从服务器下载最新的参数继续训练。
如图2所示,隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
假设本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;假设第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],本实施例中前d个输入属性为每个用来训练的图像包含的d个像素点;将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);本实施例中yijl∈range(0,1)表示训练样本图像中的实体是不是猫,第i个本地参与者ui的第j个子数集的第l个训练样本是一只猫的图像时,yijl=1,如果不是一只猫的图像,则yijl=0。
假设第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为其中,表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
步骤S2.4、令参数的第1个多项式函数令参数的第2个多项式函数令变形后的损失函数的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数的第2个多项式项为f2(α)=α;α表示参数的多项式函数;从而利用式(3)得到损失函数的多项式形式
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
综上所述,本发明方法解决了当前分布式深度学习过程中存在的隐私保护问题,考虑存在恶意参与者的情况下,防止恶意的参与者窃取其他参与者的隐私信息,并减少了恶意参与者对训练结果的精确度的影响。
Claims (1)
1.一种基于差分隐私的分布式深度学习优化的隐私保护方法,其特征是应用于服务器端与参与者端构成的分布式网络中,且所述参与者端包含有若干个恶意参与者的N个本地参与者U={u1,u2,...,ui,...,uN},其中,ui表示第i个本地参与者,i∈[1,N];所述隐私保护方法包括以下步骤:
步骤S1、初始化阶段:
设迭代的总轮数为Q,当前迭代的轮数为q,初始化q=1;
设置本地参与者用SGD算法训练的批量大小为|L|,将第i个本地参与者ui的本地数据划分成n个子数据集{Di1,Di2,...,Dij,...,Din},其中,Dij表示第i个本地参与者ui的第j个子数据集;
假设本地参与者ui的第j个子数据集Dij中含有|L|个训练样本{tij1,tij2,...,tijl,...,tij|L|},tijl表示第i个本地参与者ui的第j个子数集的第l个训练样本;假设第l个训练样本tijl有d+1个属性,将前d个输入属性矩阵记为[xijl],将第d+1个结果属性记为yijl,则tijl=([xijl],yijl);
假设第i个本地参与者ui与其他参与者共同训练S个参数{w1,w2,...,ws,...,wS},ws表示第s个参数;将第i个本地参与者ui完成第q轮训练后得到的所有参数记为其中,表示第i个本地参与者ui完成第q轮训练后得到的第s个参数;
定义本地参与者ui在第q轮训练中在本地数据集上进行迭代的总次数为P;
当前迭代次数为p;
步骤S2、参与者本地训练参数上传阶段:
步骤S2.2、在第q轮训练中,第i个本地参与者ui在本地数据集上进行第p次迭代时,从n个子数据集中随机第p次抽取一个子数据集进行训练;则利用式(1)得到在第q轮训练中第p次迭代时逻辑回归的损失函数表示为
步骤S2.4、令参数Wi qp的第1个多项式函数g1(tijl,Wi qp)=[xijl]TWi qp,令参数Wi qp的第2个多项式函数g2(tijl,Wi qp)=yijl[xijl]TWi qp,令变形后的损失函数的第1个多项式项f1(α)=log(1+exp(α)),令变形后的损失函数的第2个多项式项为f2(α)=α;α表示参数Wi qp的多项式函数;从而利用式(3)得到损失函数的多项式形式
步骤S2.9、p+1赋值给p后,判断p>P是否成立,若成立,则表示第i个参与者ui在本地数据集上完成P次迭代后,获得第q轮训练的参数Wi q′;否则,返回步骤2.2;
步骤S3、服务器接收参数进行筛选阶段:
步骤S3.1、服务器设定一个本地参与者上传参数的上界C,即在第q轮训练中,当有C个本地参与者上传自己的参数后,服务器就拒绝再接收其他参与者上传的参数;
步骤S3.2、服务器上存有一个验证样本数为R的验证数据集DV={v1,v2,...,vr,...,vR}用来验证第i个本地参与者ui上传的参数[Wi q″]的效用,其中,vr表示验证数据集DV中的第r个验证样本;将第r个验证样本中的结果属性记为yr;
步骤S3.3、对第q轮训练中C个效用分数进行排序;
步骤S3.6、将q+1赋值给q,并判断q>Q是否成立,若成立,则表示第i个参与者ui在本地数据集上获得训练好的参数Wi Q′;否则返回步骤2顺序执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847845.XA CN111814190B (zh) | 2020-08-21 | 2020-08-21 | 一种基于差分隐私的分布式深度学习优化的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847845.XA CN111814190B (zh) | 2020-08-21 | 2020-08-21 | 一种基于差分隐私的分布式深度学习优化的隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814190A true CN111814190A (zh) | 2020-10-23 |
CN111814190B CN111814190B (zh) | 2022-12-23 |
Family
ID=72859539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847845.XA Active CN111814190B (zh) | 2020-08-21 | 2020-08-21 | 一种基于差分隐私的分布式深度学习优化的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814190B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642715A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 自适应分配动态隐私预算的差分隐私保护深度学习算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN110647765A (zh) * | 2019-09-19 | 2020-01-03 | 济南大学 | 协同学习框架下基于知识迁移的隐私保护方法及系统 |
CN110719158A (zh) * | 2019-09-11 | 2020-01-21 | 南京航空航天大学 | 基于联合学习的边缘计算隐私保护系统及保护方法 |
-
2020
- 2020-08-21 CN CN202010847845.XA patent/CN111814190B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227980A1 (en) * | 2018-01-22 | 2019-07-25 | Google Llc | Training User-Level Differentially Private Machine-Learned Models |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN110719158A (zh) * | 2019-09-11 | 2020-01-21 | 南京航空航天大学 | 基于联合学习的边缘计算隐私保护系统及保护方法 |
CN110647765A (zh) * | 2019-09-19 | 2020-01-03 | 济南大学 | 协同学习框架下基于知识迁移的隐私保护方法及系统 |
Non-Patent Citations (2)
Title |
---|
DANNI YUAN等: "Collaborative Deep Learning for Medical Image Analysis with Differential Privacy", 《2019 IEEE GLOBAL COMMUNICATIONS CONFERENCE (GLOBECOM)》 * |
周俊等: "联邦学习安全与隐私保护研究综述", 《西华大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642715A (zh) * | 2021-08-31 | 2021-11-12 | 西安理工大学 | 自适应分配动态隐私预算的差分隐私保护深度学习算法 |
Also Published As
Publication number | Publication date |
---|---|
CN111814190B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596902B (zh) | 基于选通卷积神经网络的多任务全参考图像质量评价方法 | |
CN107506822B (zh) | 一种基于空间融合池化的深度神经网络方法 | |
CN110020682A (zh) | 一种基于小样本学习的注意力机制关系对比网络模型方法 | |
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
CN110414670A (zh) | 一种基于全卷积神经网络的图像拼接篡改定位方法 | |
WO2019196210A1 (zh) | 数据分析方法、计算机可读存储介质、终端设备及装置 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN115081532B (zh) | 基于记忆重放和差分隐私的联邦持续学习训练方法 | |
CN114612715B (zh) | 基于本地差分隐私的边缘联邦图像分类方法 | |
CN110706181A (zh) | 一种基于多尺度膨胀卷积残差网络的图像去噪方法及系统 | |
CN110264407B (zh) | 图像超分辨模型训练及重建方法、装置、设备及存储介质 | |
CN109740734B (zh) | 一种利用优化神经元空间排布的卷积神经网络的图像分类方法 | |
CN112905894B (zh) | 一种基于增强图学习的协同过滤推荐方法 | |
CN114943345B (zh) | 基于主动学习和模型压缩的联邦学习全局模型训练方法 | |
CN112418059B (zh) | 一种情绪识别的方法、装置、计算机设备及存储介质 | |
CN113902131B (zh) | 抵抗联邦学习中歧视传播的节点模型的更新方法 | |
CN110689039A (zh) | 一种基于四通道卷积神经网络的树干纹理识别方法 | |
CN116957106A (zh) | 一种基于动态注意力机制的联邦学习模型训练方法 | |
CN112163609A (zh) | 一种基于深度学习的图像块相似度计算方法 | |
CN111079691A (zh) | 一种基于双流网络的剪枝方法 | |
CN115952532A (zh) | 一种基于联盟链联邦学习的隐私保护方法 | |
CN116168011A (zh) | 基于多粒度网络的无参考图像质量评价方法 | |
CN118211268A (zh) | 基于扩散模型的异构联邦学习隐私保护方法及系统 | |
CN112884045A (zh) | 基于多视角的随机删边嵌入模型的分类方法 | |
CN116543210A (zh) | 一种基于联邦学习与注意力机制的医学图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |