CN113516199B

CN113516199B - 一种基于差分隐私的图像数据生成方法

Info

Publication number: CN113516199B
Application number: CN202110872920.2A
Authority: CN
Inventors: 王庆生; 董于杰; 高志煕; 杨顺; 陈永乐; 邱鹏飞; 安俊杰; 范军俊; 王庆伟; 张云仙
Original assignee: Shanxi Qingzhong Technology Co ltd
Current assignee: Shanxi Qingzhong Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2022-07-15
Anticipated expiration: 2041-07-30
Also published as: CN113516199A

Abstract

本发明属于保障机器学习安全的技术领域，具体是一种基于差分隐私的图像数据生成方法。S1～通过层次聚类方法，用卷积神经网络的提取数据的特征，将每一个样本点都视为一个单独的类别，之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类，不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求；S2～使用基于差分隐私的生成对抗网络训练得到的每一个聚类；S3～使用R´enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失；S4～每一次随机地抽取一个聚类进行数据生成，直到所有的聚类都被抽取完则停止，最后将每个聚类通过人工神经网络得到的数据进行合成，就得到了满足一般深度学习模型的数据集。

Description

一种基于差分隐私的图像数据生成方法

技术领域

本发明属于保障机器学习安全的技术领域，具体是一种基于差分隐私的图像数据生成方法。

背景技术

目前运用差分隐私来保障机器学习主要有三大类，分别是数据集在进入机器学习模型训练之前运用差分隐私进行数据预处理，差分隐私保障数据集在机器学习过程中的安全和差分隐私保障数据集在机器学习训练之后的安全。虽然后两种方法能一定程度上抵御第三方的攻击，但是在某一些场合下机器学习模型本身就是一个不被信任的个体。如果我们不做任何预处理，直接将整个数据输送到机器模型中，那么机器学习模型就可能获取到数据集中的一些隐私数据，从而造成用户的隐私泄露。这对数据所有者来说并不是一个特别友好的事情，而通过差分隐私进行数据预处理则可以很好地避免隐私数据被机器学习模型给窃取。由D. Su等人提出差分隐私k-means算法（D. Su, J. Cao, N. Li, E. Bertino,and H. Jin. Differentially private k-means clustering. In ACM CODASPY,2016.），他们把数据集分成了k个聚类，再进行特征剪裁和加入噪声以此来保障隐私。但是这种只能运用于低维特征的数据集并且在添加噪声的过程中依赖于数据的L₂范式。由Martin Arjovsky等人提出的Wasserstein GAN(WGAN)（Martin Arjovsky,SoumithChintala, and L´eon Bottou1.Wasserstein GAN, 2017），通过删除判别器最后一层的sigmoid函数，不再对生成器和判别器取损失函数以及每次更新判别器的参数之后把他们的绝对值截断到不超过一个固定的常数。但是整个过程中机器模型没有执行安全措施，在生成图像的过程中也就没有足够的隐私保障。由M. Abadi等人提出的MomentAccount的（MA）（M. Abadi, A. Chu, I. Goodfellow, H. B. McMahan, I. Mironov,K. Talwar,and L. Zhang. Deep learning with differential privacy. In ACM CCS, 2016）通过追踪每个时刻的尾部边界来计算隐私损失，可以及时有效的避免泄漏的隐私超过隐私预算，但是MA在复杂问题追踪隐私损失时并没有表现得那么优异。

发明内容

本发明为了提高在生成数据过程中的隐私性以及合成后的数据在机器学习中的可用性，提供一种基于差分隐私的图像数据生成方法。

本发明采取以下技术方案：一种基于差分隐私的图像数据生成方法，包括以下步骤。

S1～通过层次聚类方法，用卷积神经网络的提取数据的特征，将每一个样本点都视为一个单独的类别，之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类，不断地进行簇的合并直到最终得到将图像划分成多个聚类的要求，用卷积神经网络的提取数据的特征，卷积核本身是多个不同的滤波器，它可以网络随机初始化之后再通过梯度下降算法来进行更新，根据指定的标签来不断修正卷积核的参数。卷积核与图像进行点乘，能提取到图像的特征

，将每一个样本点都视为一个单独的类别

，之后依次计算样本点之间的相似度，相似度矩阵计算公式为：

，其中

，a和Ks，是预先设定的参数，

表示

的Ks个最近的邻居。将这些与

相邻的聚类按照相似度从大到小进行排序，与

相似度最大的一个会和

融合成一个新的聚类。根据它们的时间状态，我们会给他们的标签y上打上一个时间戳t。我们训练卷积神经网络是在一个递归型框架中，这就可以使用上一轮的聚类标签

结合在一起来预测当前的聚类标签

, 不断地执行聚类，直到我们获得所需的聚类数量。

S2～使用基于差分隐私的生成对抗网络训练得到的每一个聚类，首先我们会初始化判别器参数

和生成器参数

。然后我们通过随机噪声产生一串随机数，生成器根据这一串随机数生成一组新的数据，并希望以此“欺骗”判别器。在训练判别器时，我们会固定生成器的参数，我们从真实数据中抽取样本

和从上一轮生成器所生成的样本

进行拼接成一个新的数据

，

代表均匀分布；接着我们在判别器中计算梯度

，进行梯度裁剪

，λ表示梯度惩罚项的系数，C表示梯度剪裁的边界；为了保证数据在深度学习模型中的隐私性，我们在梯度加入差分隐私中的高斯噪声

，M表示随机算法，d表示一个小的数据集，σ表示噪声尺度，I是超参数；用RDP Account来更新这一次的隐私会计；更新判别参数

，

表示Adam超参数，m表示一个训练批量的大小。在循环更新k次的判别器参数后，我们会传递一个向量给生成器，再次随机生成一组向量继续训练生成器，更新生成器参数

。

S3～使用R´enyi Differential Privacy Accountant追踪生成对抗网络每次迭代中的隐私损失

，

表示当前的隐私预算，

和α表示概率，

和

表示一个小批量数据集，

表示一个完整的数据集,

表示选取函数；差分隐私的强组合性可以为我们保证每一次的迭代的隐私损失都是可叠加的，只要最后的隐私损失之和不超过我们开始设定好的

。

S4～每一次随机地抽取一个聚类进行数据生成，直到所有的聚类都被抽取完则停止，最后将每个聚类通过人工神经网络得到的数据进行合成，就得到了满足一般深度学习模型的数据集。

与现有技术相比，本发明具有以下有益效果：

1. 本发明引入了层次聚类方法，通过表征学习提高了对图像特征提取的精确度从而使数据集得到更好地划分。层次聚类是一种应对图像处理特别有效的手段，它是一种以过聚类开始的聚类方式，即使卷积神经网络一开始没有学习到好的表征，他仍然是可依靠；随着更好的表征不断地被学习到，这种过聚类也就会慢慢地消失。并且层次聚类可以处理大规模的图像数据集，从而可以保证聚类后的每一个聚类都有充足的样本，有着足够的样本生成对抗网络就可以生成更加准确的数据。

2. 本发明是把原始数据划分成多个聚类，每个聚类包含的都是相似的样本，相较于直接把整个数据集当成人工神经网络的输入数据，每个聚类单独训练可以生成更加准确的样本。如果不划分多个聚类而直接训练一个完整的数据，人工神经网络需要训练更多轮的次数，同时在训练过程中也需要加入更大的噪声来保证隐私，但是这显然会降低生成数据的准确度，我们把原始数据划分成多个聚类，单独训练每个聚类不仅可以减少训练次数，并且在保证有着相同的隐私安全的前提下，梯度中所加入的噪声尺度也可以大幅度减小，这可以显著提升数据生成的准确度。

3.本发明通过引入R´enyi Differential PrivacyAccountant追踪隐私损失，这会比MomentAccount可以更准确地计算隐私损失，更紧密地保障了隐私损失不会超过隐私预算，提高了数据的可用性。

附图说明

图1为本发明的卷积神经聚类网络；

图2为本发明的差分隐私生成对抗网络；

图3为本发明的整体流程图。

具体实施方式

结合附图通过具体实施样例说明本方法，但不构成对本发明的限制。

本实施例提供一个采用本发明方法的保障机器学习安全。

在本实施例中，一个包含隐私数据的图像数据集D。我们使用层次聚类，这是一种自下而上的合并型聚类方式，即初始阶段将每一个样本点都视为一个单独的类别，之后依次计算样本点之间的相似度,将相似度接近的样本聚合成一类。用卷积神经网络的提取数据的特征，卷积核本身是多个不同的滤波器，它可以网络随机初始化之后再通过梯度下降算法来进行更新，根据指定的标签来不断修正卷积核的参数。卷积核与图像进行点乘，能提取到图像的特征

，将每一个样本点都视为一个单独的类别

,其中

，a和Ks，是预先设定的参数，

表示

的Ks个最近的邻居。将这些与

相邻的聚类按照相似度从大到小进行排序，与

相似度最大的一个会和

融合成一个新的聚类。根据它们的时间状态，我们会给他们的标签y上打上一个时间戳t。为了提高聚类的准确度，我们通过卷积神经网络获取表征

，然后与上一轮的聚类标签

结合在一起来预测当前的聚类标签

，之后计算损失函数，利用梯度反传，更新网络参数。其中

表示用卷积神经网络从数据集中提取深度表征，

表示将X与上一轮聚类标签结合在一起产生当前聚类标签的过程。

每个团簇在会被单独训练在生成对抗网络中来产生新的图像数据集。首先我们会初始化判别器参数

和生成器参数

和从上一轮生成器所生成的样本

进行拼接成一个新的数据

，

代表均匀分布；接着我们在判别器中计算梯度

，进行梯度裁剪

,M表示随机算法，d表示一个小的数据集，σ表示噪声尺度，I是超参数；用RDP Account来更新这一次的隐私会计；更新判别参数

，

使其最小化。

在训练之后，我们会更新生成器参数

并计算之前所有的隐私损失，如果隐私损失超出了我们的隐私预算，则结束全部的模型训练。

我们每一次随机地抽取一个聚类进行数据生成，直到所有的聚类都被抽取完则停止。最后将每个聚类通过人工神经网络得到的数据进行合成，就得到了满足一般深度学习模型的数据集。