CN113516199B - 一种基于差分隐私的图像数据生成方法 - Google Patents
一种基于差分隐私的图像数据生成方法 Download PDFInfo
- Publication number
- CN113516199B CN113516199B CN202110872920.2A CN202110872920A CN113516199B CN 113516199 B CN113516199 B CN 113516199B CN 202110872920 A CN202110872920 A CN 202110872920A CN 113516199 B CN113516199 B CN 113516199B
- Authority
- CN
- China
- Prior art keywords
- data
- privacy
- generator
- clusters
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于保障机器学习安全的技术领域,具体是一种基于差分隐私的图像数据生成方法。S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求;S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类;S3~使用R´enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失;S4~每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止,最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。
Description
技术领域
本发明属于保障机器学习安全的技术领域,具体是一种基于差分隐私的图像数据生成方法。
背景技术
目前运用差分隐私来保障机器学习主要有三大类,分别是数据集在进入机器学习模型训练之前运用差分隐私进行数据预处理,差分隐私保障数据集在机器学习过程中的安全和差分隐私保障数据集在机器学习训练之后的安全。虽然后两种方法能一定程度上抵御第三方的攻击,但是在某一些场合下机器学习模型本身就是一个不被信任的个体。如果我们不做任何预处理,直接将整个数据输送到机器模型中,那么机器学习模型就可能获取到数据集中的一些隐私数据,从而造成用户的隐私泄露。这对数据所有者来说并不是一个特别友好的事情,而通过差分隐私进行数据预处理则可以很好地避免隐私数据被机器学习模型给窃取。由D. Su等人提出差分隐私k-means算法(D. Su, J. Cao, N. Li, E. Bertino,and H. Jin. Differentially private k-means clustering. In ACM CODASPY,2016.),他们把数据集分成了k个聚类,再进行特征剪裁和加入噪声以此来保障隐私。但是这种只能运用于低维特征的数据集并且在添加噪声的过程中依赖于数据的L2范式。由Martin Arjovsky等人提出的Wasserstein GAN(WGAN)(Martin Arjovsky,SoumithChintala, and L´eon Bottou1.Wasserstein GAN, 2017),通过删除判别器最后一层的sigmoid函数,不再对生成器和判别器取损失函数以及每次更新判别器的参数之后把他们的绝对值截断到不超过一个固定的常数。但是整个过程中机器模型没有执行安全措施,在生成图像的过程中也就没有足够的隐私保障。由M. Abadi等人提出的MomentAccount的(MA)(M. Abadi, A. Chu, I. Goodfellow, H. B. McMahan, I. Mironov,K. Talwar,and L. Zhang. Deep learning with differential privacy. In ACM CCS, 2016)通过追踪每个时刻的尾部边界来计算隐私损失,可以及时有效的避免泄漏的隐私超过隐私预算,但是MA在复杂问题追踪隐私损失时并没有表现得那么优异。
发明内容
本发明为了提高在生成数据过程中的隐私性以及合成后的数据在机器学习中的可用性,提供一种基于差分隐私的图像数据生成方法。
本发明采取以下技术方案:一种基于差分隐私的图像数据生成方法,包括以下步骤。
S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求,用卷积神经网络的提取数据的特征,卷积核本身是多个不同的滤波器,它可以网络随机初始化之后再通过梯度下降算法来进行更新,根据指定的标签来不断修正卷积核的参数。卷积核与图像进行点乘,能提取到图像的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,相似度矩阵计算公式为:,其中,a和Ks,是预先设定的参数,表示的Ks个最近的邻居。将这些与相邻的聚类按照相似度从大到小进行排序,与相似度最大的一个会和融合成一个新的聚类。根据它们的时间状态,我们会给他们的标签y上打上一个时间戳t。我们训练卷积神经网络是在一个递归型框架中,这就可以使用上一轮的聚类标签结合在一起来预测当前的聚类标签, 不断地执行聚类,直到我们获得所需的聚类数量。
S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类,首先我们会初始化判别器参数和生成器参数。然后我们通过随机噪声产生一串随机数,生成器根据这一串随机数生成一组新的数据,并希望以此“欺骗”判别器。在训练判别器时,我们会固定生成器的参数,我们从真实数据中抽取样本和从上一轮生成器所生成的样本进行拼接成一个新的数据,代表均匀分布;接着我们在判别器中计算梯度,进行梯度裁剪,λ表示梯度惩罚项的系数,C表示梯度剪裁的边界;为了保证数据在深度学习模型中的隐私性,我们在梯度加入差分隐私中的高斯噪声,M表示随机算法,d表示一个小的数据集,σ表示噪声尺度,I是超参数;用RDP Account来更新这一次的隐私会计;更新判别参数,表示Adam超参数,m表示一个训练批量的大小。在循环更新k次的判别器参数后,我们会传递一个向量给生成器,再次随机生成一组向量继续训练生成器,更新生成器参数 。
S3~使用R´enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失,表示当前的隐私预算,和α表示概率,和表示一个小批量数据集,表示一个完整的数据集,表示选取函数;差分隐私的强组合性可以为我们保证每一次的迭代的隐私损失都是可叠加的,只要最后的隐私损失之和不超过我们开始设定好的。
S4~每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止,最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。
与现有技术相比,本发明具有以下有益效果:
1. 本发明引入了层次聚类方法,通过表征学习提高了对图像特征提取的精确度从而使数据集得到更好地划分。层次聚类是一种应对图像处理特别有效的手段,它是一种以过聚类开始的聚类方式,即使卷积神经网络一开始没有学习到好的表征,他仍然是可依靠;随着更好的表征不断地被学习到,这种过聚类也就会慢慢地消失。并且层次聚类可以处理大规模的图像数据集,从而可以保证聚类后的每一个聚类都有充足的样本,有着足够的样本生成对抗网络就可以生成更加准确的数据。
2. 本发明是把原始数据划分成多个聚类,每个聚类包含的都是相似的样本,相较于直接把整个数据集当成人工神经网络的输入数据,每个聚类单独训练可以生成更加准确的样本。如果不划分多个聚类而直接训练一个完整的数据,人工神经网络需要训练更多轮的次数,同时在训练过程中也需要加入更大的噪声来保证隐私,但是这显然会降低生成数据的准确度,我们把原始数据划分成多个聚类,单独训练每个聚类不仅可以减少训练次数,并且在保证有着相同的隐私安全的前提下,梯度中所加入的噪声尺度也可以大幅度减小,这可以显著提升数据生成的准确度。
3.本发明通过引入R´enyi Differential PrivacyAccountant追踪隐私损失,这会比MomentAccount可以更准确地计算隐私损失,更紧密地保障了隐私损失不会超过隐私预算,提高了数据的可用性。
附图说明
图1为本发明的卷积神经聚类网络;
图2为本发明的差分隐私生成对抗网络;
图3为本发明的整体流程图。
具体实施方式
结合附图通过具体实施样例说明本方法,但不构成对本发明的限制。
本实施例提供一个采用本发明方法的保障机器学习安全。
在本实施例中,一个包含隐私数据的图像数据集D。我们使用层次聚类,这是一种自下而上的合并型聚类方式,即初始阶段将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类。用卷积神经网络的提取数据的特征,卷积核本身是多个不同的滤波器,它可以网络随机初始化之后再通过梯度下降算法来进行更新,根据指定的标签来不断修正卷积核的参数。卷积核与图像进行点乘,能提取到图像的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,相似度矩阵计算公式为:,其中,a和Ks,是预先设定的参数,表示的Ks个最近的邻居。将这些与相邻的聚类按照相似度从大到小进行排序,与相似度最大的一个会和融合成一个新的聚类。根据它们的时间状态,我们会给他们的标签y上打上一个时间戳t。为了提高聚类的准确度,我们通过卷积神经网络获取表征,然后与上一轮的聚类标签结合在一起来预测当前的聚类标签,之后计算损失函数,利 用梯度反传,更新网络参数。其中表示用卷积神经网络从数据集中提取深度表征,表示将X与上一轮聚类标签结合在一起产生当前聚类标签的过程。
每个团簇在会被单独训练在生成对抗网络中来产生新的图像数据集。首先我们会初始化判别器参数和生成器参数。然后我们通过随机噪声产生一串随机数,生成器根据这一串随机数生成一组新的数据,并希望以此“欺骗”判别器。在训练判别器时,我们会固定生成器的参数,我们从真实数据中抽取样本和从上一轮生成器所生成的样本进行拼接成一个新的数据,代表均匀分布;接着我们在判别器中计算梯度,进行梯度裁剪,λ表示梯度惩罚项的系数,C表示梯度剪裁的边界;为了保证数据在深度学习模型中的隐私性,我们在梯度加入差分隐私中的高斯噪声,M表示随机算法,d表示一个小的数据集,σ表示噪声尺度,I是超参数;用RDP Account来更新这一次的隐私会计;更新判别参数,表示Adam超参数,m表示一个训练批量的大小。在循环更新k次的判别器参数后,我们会传递一个向量给生成器,再次随机生成一组向量继续训练生成器,更新生成器参数使其最小化。
我们每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止。最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。
Claims (4)
1.一种基于差分隐私的图像数据生成方法,其特征在于:包括以下步骤,
S1~通过层次聚类方法,用卷积神经网络的提取数据的特征,将每一个样本点都视为一个单独的类别,之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类,不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求;
S2~使用基于差分隐私的生成对抗网络训练得到的每一个聚类,首先初始化判别器参数θd和生成器参数θg;然后通过随机噪声产生一串随机数,生成器根据这一串随机数生成一组新的数据;在训练判别器时,固定生成器的参数,从真实数据中抽取样本和从上一轮生成器所生成的样本 进行拼接成一个新的数据,代表均匀分布;在判别器迭代中的梯度中加入高斯噪声保障数据安全性,判别器在经过多次循环训练之后,返回给生成器一组向量,生成器利用这一组向量调整自己的参数再次生成数据,如此多次循环,直到产生所需求的数据;
S3~使用R´enyi Differential PrivacyAccountant追踪生成对抗网络每次迭代中的隐私损失,表示当前的隐私预算,和表示概率,和表示一个小批量数据集,表示一个完整的数据集,表示选取函数;
S4~每一次随机地抽取一个聚类进行数据生成,直到所有的聚类都被抽取完则停止,最后将每个聚类通过人工神经网络得到的数据进行合成,就得到了满足一般深度学习模型的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110872920.2A CN113516199B (zh) | 2021-07-30 | 2021-07-30 | 一种基于差分隐私的图像数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110872920.2A CN113516199B (zh) | 2021-07-30 | 2021-07-30 | 一种基于差分隐私的图像数据生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113516199A CN113516199A (zh) | 2021-10-19 |
CN113516199B true CN113516199B (zh) | 2022-07-15 |
Family
ID=78068143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110872920.2A Active CN113516199B (zh) | 2021-07-30 | 2021-07-30 | 一种基于差分隐私的图像数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516199B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114785559A (zh) * | 2022-03-29 | 2022-07-22 | 南京理工大学 | 一种抵御成员推理攻击的差分隐私联邦学习方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN112417507A (zh) * | 2020-12-02 | 2021-02-26 | 桂林电子科技大学 | 一种基于隐私保护的大型图的节点三角形计数的发布方法 |
CN112487482A (zh) * | 2020-12-11 | 2021-03-12 | 广西师范大学 | 自适应切割阈值的深度学习差分隐私保护方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262773A1 (en) * | 2016-03-11 | 2017-09-14 | Deutsche Telekom Ag | Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data |
CN112256874B (zh) * | 2020-10-21 | 2023-08-08 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
-
2021
- 2021-07-30 CN CN202110872920.2A patent/CN113516199B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN112417507A (zh) * | 2020-12-02 | 2021-02-26 | 桂林电子科技大学 | 一种基于隐私保护的大型图的节点三角形计数的发布方法 |
CN112487482A (zh) * | 2020-12-11 | 2021-03-12 | 广西师范大学 | 自适应切割阈值的深度学习差分隐私保护方法 |
Non-Patent Citations (2)
Title |
---|
Qian Wang等."Deep Domain Adaptation With Differential Privacy".《IEEE Transactions on Information Forensics and Security》.2020,第15卷 * |
梁霄."医疗数据分析中隐私保护方法研究".《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑》.2021, * |
Also Published As
Publication number | Publication date |
---|---|
CN113516199A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948663B (zh) | 一种基于模型抽取的步长自适应的对抗攻击方法 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110490128A (zh) | 一种基于加密神经网络的手写识别方法 | |
Zhao et al. | A malware detection method of code texture visualization based on an improved faster RCNN combining transfer learning | |
CN112927266B (zh) | 基于不确定性引导训练的弱监督时域动作定位方法及系统 | |
Nagisetty et al. | xai-gan: Enhancing generative adversarial networks via explainable ai systems | |
CN111259264B (zh) | 一种基于生成对抗网络的时序评分预测方法 | |
CN113516199B (zh) | 一种基于差分隐私的图像数据生成方法 | |
Carta et al. | Ex-model: Continual learning from a stream of trained models | |
Xian et al. | Understanding backdoor attacks through the adaptability hypothesis | |
Ke et al. | Group-wise dynamic dropout based on latent semantic variations | |
CN114638356A (zh) | 一种静态权重引导的深度神经网络后门检测方法及系统 | |
WO2022106146A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
Stock et al. | Lessons learned: How (not) to defend against property inference attacks | |
Liu et al. | Ml-stealer: Stealing prediction functionality of machine learning models with mere black-box access | |
CN114067155A (zh) | 基于元学习的图像分类方法、装置、产品及存储介质 | |
Zhou et al. | Optimizing one-pixel black-box adversarial attacks | |
Lin et al. | Mitigating both covariate and conditional shift for domain generalization | |
Yang et al. | Intermediate-Layer Transferable Adversarial Attack With DNN Attention | |
Capitani et al. | ClusterFix: A Cluster-Based Debiasing Approach without Protected-Group Supervision | |
CN109117859A (zh) | 用于计算机视觉的多标签聚类方法 | |
Min et al. | Adversarial attack? don't panic | |
Liu et al. | Adversarial examples generated from sample subspace | |
Jiang et al. | Unsupervised Adversarial Perturbation Eliminating via Disentangled Representations | |
Abdukhamidov et al. | Single-Class Target-Specific Attack against Interpretable Deep Learning Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |