CN112487482B - 自适应切割阈值的深度学习差分隐私保护方法 - Google Patents
自适应切割阈值的深度学习差分隐私保护方法 Download PDFInfo
- Publication number
- CN112487482B CN112487482B CN202011461760.4A CN202011461760A CN112487482B CN 112487482 B CN112487482 B CN 112487482B CN 202011461760 A CN202011461760 A CN 202011461760A CN 112487482 B CN112487482 B CN 112487482B
- Authority
- CN
- China
- Prior art keywords
- iteration
- model
- cluster
- privacy protection
- differential privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种自适应切割阈值的深度学习差分隐私保护方法,在K‑means框架下的自适应切割值差分隐私保护方法,结合聚类机制对梯度进行了筛选并量化,对每个簇内的梯度设置了特定的切割边界来限制加入的高斯噪声量,从而实现加快了模型的收敛速度,并缓解了总体的隐私预算过高的问题。
Description
技术领域
本发明涉及深度学习和隐私保护技术领域,具体涉及一种自适应切割阈值的深度学习差分隐私保护方法。
背景技术
在过去的十年中,深度学习技术在各种机器学习/数据挖掘任务中取得了显著的成功,例如生物医疗预测、语音识别和大规模的情感分析等。深度学习取得如此成功的原因是拥有大量数据用于训练模型,然而这些第三方机构所提供的众包数据包含很多敏感信息,如果恶意的攻击者获取这些数据并以此获利,那么可能会给用户带来严重的隐私和安全问题。例如,已证实基于卷积神经网络(CNN)的疾病识别分类器可以通过反复查询输出概率来恢复训练数据集中的个人隐私信息。现有的隐私问题可能会阻碍用户共享他们的数据,从而阻碍深度学习本身的未来发展。
为了解决这类攻击所带来的隐私问题,一些基于差分隐私的方法被提出。一种是直接对原始数据部署差分隐私,但是这种方法可能会使得训练模型的精度严重下降,原因是为了保证不同的隐私界限,添加的噪声可能过多,从而使得模型的精度下降。另一种方式是向梯度中添加噪声,由于这种方法在每次迭代过程中,给梯度增加了相同分布且相同量的噪声,导致原始梯度的大失真,因此无法完全避免精度下降的问题;此外,这种方法隐私成本是每次梯度计算累积的,而每次迭代的隐私消耗很高,这不仅造成总体隐私预算过高,而且使得收敛速度很慢。
发明内容
本发明所要解决的是现有深度学习隐私保护方法在做分类预测任务时,每次迭代引入噪声过多而引起的模型精度下降的问题,提供一种自适应切割阈值的深度学习差分隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
自适应切割阈值的深度学习差分隐私保护方法,包括步骤如下:
步骤1、利用给定的样本数据集对基于卷积神经网络的差分隐私保护模型进行训练,得到训练好的差分隐私保护模型;
步骤1.1、令迭代次数t=1,并随机初始化基于卷积神经网络的差分隐私保护模型的第1次迭代的模型优化参数θ1;
步骤1.2、从样本数据集的N个样本中随机采样n个样本构成第t次迭代的训练样本集Lt;
步骤1.3、将第t次迭代的训练样本集Lt的n个样本分别送入到当前基于卷积神经网络的差分隐私保护模型中,得到n个样本的模型预测值;并基于每个样本的模型预测值和真实值计算每个样本的模型损失函数;
步骤1.4、利用每个样本的模型损失函数对第t次迭代的模型优化参数θt求偏导,得到n个第t次迭代的中间模型梯度;
步骤1.5、利用K-means算法将n个中间模型梯度聚类为K个簇;
步骤1.6、为每个簇分配不同的切割边界Ck和方差δk;
步骤1.9、令t=t+1,并计算第t次迭代的隐私预算εt和第t次迭代的模型优化参数θt;其中:
εt=ε-tΔε
步骤1.10、判断第t次迭代的隐私预算εt是否消化完毕即是否小于设定的隐私预算阈值:
如果是:则将第t次迭代的模型优化参数θt作为基于卷积神经网络的差分隐私保护模型的最终参数,由此得到训练好的差分隐私保护模型;
否则,则转至步骤1.2;
步骤2、将需要保护的数据输入到步骤1所训练好的差分隐私保护模型中,得到差分隐私保护后的数据;
上述N>>n,N为样本数据集的样本个数,n为第t次迭代的训练样本集的样本个数;j=1,2,…,m,m为簇k内第t次迭代的中间模型梯度的个数;k=1,2,…,K,K为簇的个数;ε为全局隐私预算,Δε为隐私预算的递减步长;η为学习率,θt-1为第t-1次迭代的模型优化参数,为所有簇的第t-1次迭代的加噪中间模型梯度的平均值。
上述步骤1.6中,簇k的切割边界Ck为:
或
式中,为簇k内第j个第t次迭代的中间模型梯度,为簇k内所有第t次迭代的中间模型梯度的平均值,为簇k内所有第t次迭代的中间模型梯度的方差值;m为簇k内第t次迭代的中间模型梯度的个数;k=1,2,…,K,K为簇的个数。
上述步骤1.6中,簇k的方差δk为:
δk=σ2Ck 2I
式中,σ为高斯噪声的噪声规格,Ck为簇k的切割边界,I为高斯噪声的均值,k=1,2,…,K,K为簇的个数。
与现有技术相比,本发明在K-means框架下的自适应切割值差分隐私保护方法,结合聚类机制对梯度进行了筛选并量化,对每个簇内的梯度设置了不同的切割边界对其进行切割,同时对不同簇设定不同的高斯噪声对其进行加噪,从而加快了模型的收敛速度,并缓解了总体的隐私预算过高而引起的模型精度下降的问题。
附图说明
图1为自适应切割阈值的深度学习差分隐私保护方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
参见图1,自适应切割阈值的深度学习差分隐私保护方法,包括步骤如下:
步骤1、利用给定的样本数据集对基于卷积神经网络的差分隐私保护模型进行训练,得到训练好的差分隐私保护模型。
步骤1.1、令迭代次数t=1,并随机初始化基于卷积神经网络的差分隐私保护模型的第1次迭代的模型优化参数θ1。
本发明所采用的差分隐私保护模型以卷积神经网络为框架,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈型的神经网络,其在大型图像处理方面有出色的表现,目前已经被大范围使用到图像分类、定位等领域中。相比于其他神经网络结构,卷积神经网络需要的参数相对较少,使的其能够广泛应用。在本实施例中,所选用的卷积神经网络为经典的LeNet-5的卷积神经网络,其包含两个卷积和池化层和三个全连接层。
步骤1.2、以L/N的采样率从样本数据集的N个样本中随机采样n个样本构成第t次迭代的训练样本集Lt。其中N>>n,N为样本数据集的样本个数,n为第t次迭代的训练样本集的样本个数。
步骤1.3、将第t次迭代的训练样本集Lt的n个样本xi分别送入到当前基于卷积神经网络的差分隐私保护模型中,得到n个样本xi的模型预测值f(xi,θt)。并基于每个样本的模型预测值f(xi,θt)和对应的每个样本的真实值yi计算每个样本xi的模型损失函数L(yi,f(xi,θt))。
在卷积神经网络的训练过程中,损失函数是用来估量模型的预测值f(xi,θ)与真实值yi的不一致程度,它是一个非负实值函数,通常使用L(yi,f(xi,θ))来表示,其中θ为模型优化参数,我们的目标就是找到最优的θ使得损失函数的值最小。
步骤1.6、为每个簇分配不同的切割边界Ck和方差δk。
由于每个簇中的梯度的大小近似相同,所以我们对同一簇内的梯度设置相同的切割边界,但各簇间的切割边界则不相同。在本发明中,基于簇内k的第t次迭代的中间模型梯度计算簇k的切割边界Ck,簇k的切割边界Ck可以采用线性切割边界,也可以采用指数切割边界,也可以是采用其他计算方法所得到的切割边界,只要保证每个簇的切割边界不同即可。
所述线性切割边界为:
所述指数切割边界为:
式中,为簇k内第j个第t次迭代的中间模型梯度,为簇k内所有第t次迭代的中间模型梯度的平均值,为簇k内所有第t次迭代的中间模型梯度的方差值。j=1,2,…,m,m为簇k内第t次迭代的中间模型梯度的个数。k=1,2,…,K,K为簇的个数。
在本发明中,方差δk可以与切割边界Ck有关,也可以与切割边界Ck无关,其只要保证每个簇所加的高斯噪声不同即可。在本实施例中,基于簇k的切割边界Ck确定簇k的方差δk,δk=σ2Ck 2I;其中σ为高斯噪声的噪声规格,Ck为簇k的切割边界,I为高斯噪声的均值;
步骤1.9、令t=t+1,并计算第t次迭代的隐私预算εt和第t次迭代的模型优化参数θt。其中:
εt=ε-tΔε
步骤1.10、判断第t次迭代的隐私预算εt是否消化完毕即是否小于设定的隐私预算阈值:
如果是:则将第t次迭代的模型优化参数θt作为基于卷积神经网络的差分隐私保护模型的最终参数,由此得到训练好的差分隐私保护模型。
否则,则转至步骤1.2。
步骤2、将需要保护的数据输入到步骤1所训练好的差分隐私保护模型中,得到差分隐私保护后的数据。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (3)
1.自适应切割阈值的深度学习差分隐私保护方法,其特征是,包括步骤如下:
步骤1、利用给定的样本数据集对基于卷积神经网络的差分隐私保护模型进行训练,得到训练好的差分隐私保护模型;
步骤1.1、令迭代次数t=1,并随机初始化基于卷积神经网络的差分隐私保护模型的第1次迭代的模型优化参数θ1;
步骤1.2、从样本数据集的N个样本中随机采样n个样本构成第t次迭代的训练样本集Lt;
步骤1.3、将第t次迭代的训练样本集Lt的n个样本分别送入到当前基于卷积神经网络的差分隐私保护模型中,得到n个样本的模型预测值;并基于每个样本的模型预测值和真实值计算每个样本的模型损失函数;
步骤1.4、利用每个样本的模型损失函数对第t次迭代的模型优化参数θt求偏导,得到n个第t次迭代的中间模型梯度;
步骤1.5、利用K-means算法将n个中间模型梯度聚类为K个簇;
步骤1.6、为每个簇分配不同的切割边界Ck和方差δk;
步骤1.9、令t=t+1,并计算第t次迭代的隐私预算εt和第t次迭代的模型优化参数θt;其中:
εt=ε-tΔε
步骤1.10、判断第t次迭代的隐私预算εt是否消化完毕即是否小于设定的隐私预算阈值:
如果是:则将第t次迭代的模型优化参数θt作为基于卷积神经网络的差分隐私保护模型的最终参数,由此得到训练好的差分隐私保护模型;
否则,则转至步骤1.2;
步骤2、将需要保护的数据输入到步骤1所训练好的差分隐私保护模型中,得到差分隐私保护后的数据;
3.根据权利要求1或2所述自适应切割阈值的深度学习差分隐私保护方法,其特征是,步骤1.6中,簇k的方差δk为:
δk=σ2Ck 2I
式中,σ为高斯噪声的噪声规格,Ck为簇k的切割边界,I为高斯噪声的均值,k=1,2,…,K,K为簇的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461760.4A CN112487482B (zh) | 2020-12-11 | 2020-12-11 | 自适应切割阈值的深度学习差分隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461760.4A CN112487482B (zh) | 2020-12-11 | 2020-12-11 | 自适应切割阈值的深度学习差分隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487482A CN112487482A (zh) | 2021-03-12 |
CN112487482B true CN112487482B (zh) | 2022-04-08 |
Family
ID=74917462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011461760.4A Active CN112487482B (zh) | 2020-12-11 | 2020-12-11 | 自适应切割阈值的深度学习差分隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487482B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468592B (zh) * | 2021-06-15 | 2022-05-17 | 武汉理工大学 | 一种基于深度学习的差分隐私保护方法及装置 |
CN113516199B (zh) * | 2021-07-30 | 2022-07-15 | 山西清众科技股份有限公司 | 一种基于差分隐私的图像数据生成方法 |
CN113869384B (zh) * | 2021-09-17 | 2024-05-10 | 大连理工大学 | 基于领域自适应的隐私保护图像分类方法 |
CN114170338A (zh) * | 2021-11-25 | 2022-03-11 | 北京航空航天大学 | 一种差分隐私保护下基于自适应梯度裁剪的图像生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443063A (zh) * | 2019-06-26 | 2019-11-12 | 电子科技大学 | 自适性保护隐私的联邦深度学习的方法 |
WO2019219846A1 (en) * | 2018-05-17 | 2019-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for distributed learning of neural networks and/or transmission of parameterization updates therefor |
CN111091193A (zh) * | 2019-10-31 | 2020-05-01 | 武汉大学 | 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法 |
CN111199202A (zh) * | 2019-12-30 | 2020-05-26 | 南京师范大学 | 基于循环注意力网络的人体动作识别方法及识别装置 |
CN111242196A (zh) * | 2020-01-06 | 2020-06-05 | 广西师范大学 | 可解释性深度学习的差分隐私保护方法 |
CN111339091A (zh) * | 2020-02-23 | 2020-06-26 | 兰州理工大学 | 基于非均匀四叉树的位置大数据差分隐私划分发布方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
-
2020
- 2020-12-11 CN CN202011461760.4A patent/CN112487482B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019219846A1 (en) * | 2018-05-17 | 2019-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepts for distributed learning of neural networks and/or transmission of parameterization updates therefor |
CN110443063A (zh) * | 2019-06-26 | 2019-11-12 | 电子科技大学 | 自适性保护隐私的联邦深度学习的方法 |
CN111091193A (zh) * | 2019-10-31 | 2020-05-01 | 武汉大学 | 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法 |
CN111199202A (zh) * | 2019-12-30 | 2020-05-26 | 南京师范大学 | 基于循环注意力网络的人体动作识别方法及识别装置 |
CN111242196A (zh) * | 2020-01-06 | 2020-06-05 | 广西师范大学 | 可解释性深度学习的差分隐私保护方法 |
CN111339091A (zh) * | 2020-02-23 | 2020-06-26 | 兰州理工大学 | 基于非均匀四叉树的位置大数据差分隐私划分发布方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
Non-Patent Citations (7)
Title |
---|
Pixel-Value-Ordering based Reversible Information Hiding Scheme with Self-Adaptive Threshold Strategy;Tzu-Chuen Lu 等;《Information Technology and Its Applications》;20181217;第10卷(第12期);1-27 * |
WiAct:A Passive WIFI-Based Human Activity Recognition System;Huan Yan 等;《IEEE Sensors Journal》;20200101;第20卷(第1期);296-305 * |
大数据环境下差分隐私保护技术及应用;付钰 等;《通信学报》;20191025;第40卷(第10期);157-168 * |
差分隐私GAN梯度裁剪阈值的自适应选取方法;郭鹏 等;《网络与信息安全学报》;20180515;第4卷(第5期);10-20 * |
差分隐私的数据流关键模式挖掘方法;王金艳 等;《软件学报》;20190315;第30卷(第3期);648-666 * |
移动社交网络环境下的位置隐私保护研究;张照胜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180515(第05期);I138-29 * |
面向LBSN的隐私保护方法研究;赵洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190315(第03期);I138-70 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487482A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487482B (zh) | 自适应切割阈值的深度学习差分隐私保护方法 | |
Adolphs et al. | Local saddle point optimization: A curvature exploitation approach | |
Lei et al. | GCN-GAN: A non-linear temporal link prediction model for weighted dynamic networks | |
Roth et al. | Stabilizing training of generative adversarial networks through regularization | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN110832533B (zh) | 用于生成用户偏好内容的对抗式方法和系统 | |
Prakash et al. | IoT device friendly and communication-efficient federated learning via joint model pruning and quantization | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN111737743A (zh) | 一种深度学习差分隐私保护方法 | |
WO2009006265A2 (en) | Source segmentation using q-clustering | |
CN113642717A (zh) | 一种基于差分隐私的卷积神经网络训练方法 | |
Fischer | Training restricted boltzmann machines | |
CN117296061A (zh) | 具有改进准确度和减少的计算资源消耗的扩散模型 | |
CN111178527A (zh) | 一种渐进式的对抗训练方法及装置 | |
CN114207626A (zh) | 用于学习迁移学习的框架 | |
CN111353534B (zh) | 一种基于自适应分数阶梯度的图数据类别预测方法 | |
CN114330598A (zh) | 基于模糊c均值聚类算法的多源异构数据融合方法及系统 | |
CN116629323A (zh) | 扩散模型的优化方法、图像生成方法、电子设备及介质 | |
Singh et al. | Kernel width adaptation in information theoretic cost functions | |
Cui et al. | Robust randomized autoencoder and correntropy criterion-based one-class classification | |
CN115905855A (zh) | 一种改进的元学习算法MG-Reptile | |
CN108446718B (zh) | 一种动态深度置信网络分析方法 | |
CN114819196B (zh) | 基于噪音蒸馏的联邦学习系统及方法 | |
CN109359677B (zh) | 一种耐噪在线多分类核学习算法 | |
Zhang et al. | Manifold adversarial learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |