CN114492596A

CN114492596A - 基于变分自编码器的成员推理攻击抵御方法

Info

Publication number: CN114492596A
Application number: CN202210001700.7A
Authority: CN
Inventors: 朱笑岩; 吴涛; 张琳杰; 郑超; 冯鹏斌; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-05-13
Anticipated expiration: 2042-01-04
Also published as: CN114492596B

Abstract

本发明公开了一种基于变分自编码器的成员推理攻击抵御方法，主要解决现有成员推理攻击抵御方法无法同时满足可用性和隐私性的问题。其方案是：划分训练和非训练数据；分别构建卷积神经网络、变分自编码器和推理攻击网络模型；用非训练数据集训练卷积神经网络和推理攻击网络模型；对变分自编码器和训练好的推理攻击网络模型进行对抗训练；利用训练后的变分自编码器生成新生数据集；用新生数据集训练出防御卷积神经网络；使用新生数据集和训练数据同时测试防御卷积神经网络和训练好的推理攻击网络模型，输出添加防御后的预测分类结果和预测攻击结果。本发明提高了预测精度，降低了成员推理攻击的成功概率，可用于防止机器学习模型的训练数据被泄露。

Description

基于变分自编码器的成员推理攻击抵御方法

技术领域

本发明属于机器学习安全领域，具体涉及一种成员推理攻击抵御方法，可用于防止机器学习模型的训练数据被泄露。

背景技术

随着机器学习技术的迅速发展，机器学习模型的性能也越来越好，越来越多的机器学习模型被用来服务人类，给人们带来了极大的便利，这得益于训练数据的数量和质量的提升。但是机器学习模型训练所需要的数据往往包含着人们的隐私信息，比如病历、财务信息等。而成员推理攻击作为一种有效窃取机器学习模型训练数据的方法，一直以来都受到广泛的关注，并且在各个领域都得到了实现，比如图像识别、目标检测、定位系统等等。因为机器学习模型对于训练数据和非训练数据的输出结果是有较大差异的，所以成员推理攻击就是通过构建一个攻击模型，它能够识别数据在机器学习模型中差异，并以此来区分输入的数据是否属于训练数据。因此，如何抵御成员推理攻击成为了机器学习领域中的一个热门话题，也是非常重要的一个研究方向。

针对成员推理攻击，目前已经有人提出了不少的抵御方法，但现有的成员推理抵御方法难以在保留机器学习模型性能的同时，降低机器学习模型训练数据被成功窃取的概率，无法同时保证模型的可用性和数据的隐私性。比如使用top-k方法可以限制机器学习模型输出的预测分类数量，降低预测精度，降低机器学习模型对于训练数据的拟合程度，从而降低攻击成功的概率。这种方法虽然能够抵御成员推理攻击，但是也极大地牺牲了机器学习模型的性能；又比如差分隐私技术，在机器学习模型的训练中添加噪声来模糊训练数据或者模型参数，也能降低成员推理攻击的性能，但是同样对机器学习模型的性能有着极大的影响。

浙江工业大学在专利申请号为CN202110654137.9的专利申请文献中提出“面向成员推理攻击的基于参数共享的深度模型隐私保护方法和装置”。其实施步骤是：第一步，构建用于根据图像样本进行目标识别的目标模型，并利用图像样本优化目标模型的网络参数；第二步，针对目标模型的每层网络参数进行聚类处理，并将属于同一类的网络参数用所属的类簇的网络参数平均值替换后，再优化网络参数，得到参数共享的目标模型；第三步，构建与目标模型结构相同的阴影模型，并利用训练图像样本优化阴影模型的网络参数；第四步，构建用于判别图像样本是否为目标模型成员样本的攻击模型，利用新图像样本优化攻击模型的模型参数；第五步，利用参数共享的增强目标模型获得输入测试图像的预测置信度，并将预测置信度输入至参数优化的攻击模型，经计算获得攻击模型的预测结果。该方法虽然通过参数共享达到了保护数据隐私性的目的，但是不考虑目标模型的性能是否受到影响，不能保证目标模型的可用性。

Nasr在2018年的会议ACM SIGSAC Conference on Computer andCommunications Security中发表的文献“Machine learning with membership privacyusing adversarial regularization”提出使用正则化对抗训练技术来抵御成员推理攻击的方法，通过设计一种对抗训练算法，让机器学习模型与攻击模型进行博弈训练。在训练过程中，不断提高机器学习模型的性能，同时也在不断增强攻击模型的攻击性能。这种方法能够保证机器学习模型的性能，同时也能够有效抵御成员推理攻击。但是这种方法只适用于大数据量的情况下，当数据量下降后，该方法的抵御性能也会受到很大的影响。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于变分自编码器的成员推理攻击抵御方法，以保留机器学习模型的高预测精度的性能，同时降低成员推理攻击的成功概率，保护模型训练数据的隐私性，提高抵御性能。

为实现上述目的，本发明的技术方案包括如下：

(1)划分数据集：随机将现有的FASHION-MNIST数据集平均划分为训练集D和非训练集D’，并分别从中获取子集D1，D1’；

(2)构建一个依次由卷积层、池化层、隐藏层、全连接层组成的卷积神经网络，初始化网络的各项参数，设置损失函数为交叉熵函数；

(3)构建由均值编码器、方差编码器和译码器组成的变分自编码器，设置其损失函数为重构损失函数；

(4)构建依次由6层全连接层组成的推理攻击网络模型，初始化该网络模型的各项参数，设定攻击损失函数为：

其中，h*和h'为推理攻击网络模型的输出结果，分别表示推理出训练数据的成功概率和失败概率；

(5)选用非训练数据集D’，对卷积神经网络和推理攻击网络模型同时进行训练：

(5a)将非训练数据集D’中的非训练数据样本输入到卷积神经网络，并将其输出结果和非训练数据样本对应的标签作为推理攻击网络模型的输入，得到推理攻击网络模型的输出结果；

(5b)根据推理攻击网络模型的输出结果，采用小批量梯度下降算法对卷积神经网络和推理攻击网络模型的参数进行更新，直到它们的损失函数都收敛，得到训练好的卷积神经网络和推理攻击网络模型；

(6)对变分自编码器和推理攻击网络模型进行对抗训练：

6a)设定对抗损失函数为：

Loss＝min{L+λ*[max(maxGain+1,0)]}

其中，maxGain为变分自编码器的重构损失函数，maxGain为影响因子，maxGain为本次训练中推理攻击模型的最大输出值；

6b)从训练集的子集D1中获取训练子数据x1输入到变分自编码器中，得到新生成的数据x*，并将x*输入到训练后的卷积神经网络中，得到训练预测向量V*；

6c)从非训练子集D1’中获取非训练子数据x1’，输入到训练好的卷积神经网络中，得到卷积神经网络对输入数据的非训练预测向量V’；

6d)将6b)和6c)的结果V*和V’分别输入到训练好的推理攻击模型中，分别得到攻击模型对于x*和x1’的判定结果向量h*和h’；

6e)根据判定结果向量h*和h’，选用梯度下降算法对训练好的推理攻击模型和变分自编码器的模型参数进行更新；

6f)重复以上6b)-6e)，直到对抗损失函数基本稳定，模型收敛，得到训练好的变分自编码器；

(7)将训练集D中的数据输入训练好的变分自编码器中，得到新生数据集D*，该新生数据集D*的标签与训练集D的标签保持一致，将新生数据集D*分批次输入到训练前的卷积神经网络中，选用批量梯度下降算法对该网络进行训练，直到网络的损失函数收敛，得到训练好的防御卷积神经网络；

(8)将新生数据集D*的数据作为训练好的防御卷积神经网络的输入，输出添加防御后的预测分类结果；

(9)将防御卷积神经网络的输出和新生数据集D*中数据对应的标签输入到训练好的推理攻击模型，输出添加防御后的预测攻击结果。

本发明与现有技术相比，具有如下效果：

第一：本发明由于采用对抗训练算法，加强了成员推理攻击模型的攻击性能，使得变分自编码器在面对最强攻击模型时也能生成抵御成员推理攻击的新数据样本，降低了攻击模型对训练数据攻击成功的概率，且保留了目标机器学习模型的高预测精度。与现有技术相比，该方法能够同时保证目标机器学习模型的性能和保护模型训练数据的隐私。

第二：本发明由于利用新数据来训练要发布的目标模型，即使再强的攻击模型也无法通过攻击目标模型来获取原始训练数据，进一步加强对训练数据的保护。

第三：使用变分自编码器来生成高质量的新数据，避免了利用生成对抗网络的崩溃问题和难以保持纳什均衡的问题，降低了模型训练的难度以及复杂性。

附图说明

图1为本发明的实现的总流程图；

图2为本发明中构建的变分自编码器模型图；

图3为本发明中进行对抗训练的子流程图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实施例的实施包括如下步骤：

步骤1，划分数据集。

1.1)随机将现有的FASHION-MNIST数据集平均划分为训练集D和非训练集D’,数据样本量分别为30000和30000；

1.2)分别从训练集D和非训练集D’中随机抽取一半的数据，即15000训练子集D1和15000个非训练子集D1’。

步骤2，构建卷积神经网络，并初始化网络的各项参数。

2.1)设置4个卷积层，其中：

第一个卷积层中的卷积核个数为32，大小为5*5，

第二个卷积层中的卷积核个数为64，大小为5*5，

第三个个卷积层和第四个卷积层中的卷积核个数均为128，大小均为3*3、

2.2)设置尺寸为2*2的池化层；

2.3)设置3个全连接层，其中，第一全连接层尺寸为d*1024，第二全连接层的尺寸为1024*512，第三全连接层的尺寸为512*n，d为最后一层卷积层的输出向量大小，n为网络最后输出向量大小；

2.4)将卷积层、池化层、全连接层依次级联，构成卷积神经网络，即卷积神经网络的结构为：

第一个卷积层→第二个卷积层→第三个卷积层→第四个卷积层→池化层→第一全连接层→第二全连接层→第三全连接层；

2.5)激活函数选用Relu函数；

f(x)＝max(0,x)；

2.6)设置卷积神经网络的损失函数为如下交叉熵函数：

其中，m为样本数量，y_i为卷积神经网络的期望输出值，y′_i为卷积神经网络的实际输出值；

2.7)选用高斯初始化方式对卷积神经网络的参数进行初始化，即从均值为0，方差为1的高斯分布中采样，作为初始权值。

步骤3，构建变分自编码器，并初始化网络参数。

参照图2,本步骤的具体实现如下：

3.1)建立由第一、第二两个全连接层依次连接组成均值编码器，其中第一全连接层的尺寸为d*256，第二全连接层的尺寸为256*2，d为输入数据的维度大小；

3.2)建立由第三、第四两个全连接层依次连接组成的方差编码器，其中第三全连接层的尺寸为d*512，第四全连接层的尺寸为512*2；

3.3)建立由第五、第六两个全连接层依次连接组成的译码器，其中第五全连接层尺寸为2*256，第六全连接层的尺寸为256*d；

3.4)将均值编码器、方差编码器分别与译码器相连，即将第二全连接层、第四全连接层的输出端均连接到第五全连接层的输入端，组成变分自编码器。其中，数据样本x为编码器的输入，均值μ和方差δ²为编码器的输出，噪声ε和μ与δ²共同构成译码器输入z＝μ+ε*δ，最终输出新生成的数据x*；

3.5)设置变分自编码器的损失函数为重构损失函数，表示为：：

L＝E[logp(X|Z)]-KL[N(μ,δ²)||N(0,1)]

其中，X为输入数据，μ和δ²分别为编码器输出的均值和方差，ε为添加的噪声，Z为译码器输入，Z＝μ+ε*δ，式中第一项表示在译码器输入为Z的条件下生成X的概率，第二项表示根据编码器输出的结果构成的正态分布与标准正态分布的相似程度；

3.6)选用高斯初始化方式对变分自编码器的参数进行初始化，即从均值为0，方差为1的高斯分布中采样，作为初始权值。

步骤4，构建推理攻击网络模型，初始化该网络模型的各项参数。

4.1)设置6层尺寸不同全连接层，其中，第1全连接层尺寸为d*1024，第2全连接层的尺寸为1024*512，第3全连接层的尺寸为512*128，第4全连接层尺寸为128*256，第5全连接层的尺寸为256*64，第6全连接层的尺寸为64*1，d为输入数据的维度大小；

4.2)将4.1)设的6层全连接层依次级联，组成结构为：第1全连接层→第2全连接层→第3全连接层→第4全连接层→第5全连接层→第六全连接层的推理攻击网络模型；

4.3)设定推理攻击网络模型的攻击损失函数为：

4.4)选用高斯初始化方式对推理攻击网络模型的参数进行初始化，即从均值为0，方差为1的高斯分布中采样，作为初始权值。

步骤5，选用非训练数据集D’，对卷积神经网络和推理攻击网络模型同时进行训练。

5.1)将非训练数据集D’中的非训练数据样本输入到卷积神经网络，并将其输出结果和该非训练数据样本对应的标签作为推理攻击网络模型的输入，得到推理攻击网络模型的输出结果；

5.2)根据推理攻击网络模型的输出结果，采用小批量梯度下降算法对卷积神经网络和推理攻击网络模型的参数进行更新：

5.2.1)设置学习率α，训练次数N，每次迭代训练时输入批次的数据样本量m；

5.2.2)将推理攻击网络模型的输出结果代入攻击损失函数中，得到损失误差Gain_i；

5.2.3)求损失误差E_i的梯度，并按如下公式同时对卷积神经网络和推理攻击网络模型的参数进行更新：

其中，Gain_i为第i次训练的损失误差，w_Gain为更新前的网络参数，w_Gain'为更新后的网络参；

5.2.4)重复执行5.2.2)-5.2.3)的操作，直到损失误差稳定不变或者训练次数达到N次，训练结束，得到训练好的卷积神经网络和推理攻击网络模型。

步骤6，对变分自编码器和推理攻击网络模型进行对抗训练。

参照图3，本步骤的具体实现如下：

6.1)设定对抗损失函数为：

Loss＝min{L+λ*[max(maxGain+1,0)]}

6.2)从训练集的子集D1中获取训练子数据x1输入到变分自编码器中，得到新生成的数据x*，并将x*输入到训练后的卷积神经网络中，得到训练预测向量V*；

6.3)从非训练子集D1’中获取非训练子数据x1’，输入到训练好的卷积神经网络中，得到卷积神经网络对输入数据的非训练预测向量V’；

6.4)将6.2)和6.3)的结果V*和V’分别输入到训练好的推理攻击模型中，分别得到攻击模型对于x*和x1’的判定结果向量h*和h’；

6.5)根据判定结果向量h*和h’，选用梯度下降算法对训练好的推理攻击模型和变分自编码器的模型参数进行更新：

6.5.1)设置学习率α，训练次数为N，每次迭代训练时输入批次的数据样本量m；

6.5.2)将判定结果向量h*和h’代入对抗损失函数中，得到损失误差Loss_i；

6.5.3)求损失误差Loss_i的梯度，并同时对推理攻击模型和变分自编码器的参数进行更新。参数更新公式如下：

其中，Loss_i为第i次训练的损失误差，w_Loss为更新前的网络参数，w_Loss'为更新后的网络参数。

6.5.4)重复执行6.5.2)-6.5.3)的操作，直到训练次数达到N次；

6.6)重复以上6.2)-6.5)，直到对抗损失函数基本稳定，模型收敛，得到训练好的变分自编码器。

步骤7，对单个卷积神经网络进行训练，获得防御卷积神经网络。

7.1)将训练集D中的数据输入训练好的变分自编码器中，得到新生数据集D*，该新生数据集D*的标签与训练集D的标签保持一致；

7.2)将新生数据集D*分批次输入到训练前的卷积神经网络中，选用批量梯度下降算法对该网络进行训练：

7.2.1)设置学习率α，训练次数N，每次迭代训练时输入批次的数据样本量m；

7.2.2)依次向卷积神经网络输入m个新生数据集D*中的数据样本，得到输出结果；

7.2.3)将7.2.2)的输出结果代入交叉熵函数中，得到损失误差loss_i；

7.2.4)求损失误差E_i的梯度，并对网络参数进行更新，得到更新后的网络参数w_loss'：

其中，loss_i为第i次训练的损失误差，w_loss为更新前的网络参数；

7.2.5)重复执行7.2.2)-7.2.1)的操作，直到损失误差稳定不变或者训练次数达到N次，得到训练好的防御卷积神经网络。

步骤8，将新生数据集D*的数据作为训练好的防御卷积神经网络的输入，输出添加防御后的预测分类结果。

步骤9，将防御卷积神经网络的输出和新生数据集D*中数据对应的标签输入到训练好的推理攻击模型，输出添加防御后的预测攻击结果。

本发明的效果可通过以下仿真实验进一步说明。

1.仿真实验条件：

仿真实验运行环境是：处理器为Interl(R)Core(TM)i5-5200 CPU@2.20GHz，内存为4.00GB，硬盘为457G，操作系统为Windows 10，编程环境为Python 3.8，编程软件为PyCharm Edition 2020.1.2x64。

仿真采用的数据集分别FASHION-MNIST数据集、CIFAR-10数据集、CIFAR-100数据集。

2.仿真内容及其结果分析：

仿真内容：在上述用仿真实验条件下用分别用本发明和现有的成员推理攻击抵御方法中性能良好的Min-Max方法对三种数据集进行抵御前后的图片分类，对比这两种方法的分类精度和攻击精度，结果如表1：

表1本发明与现有Min-Max方法的分类准确率和攻击精度

分类精度表示添加抵御方法前后目标模型的分类性能，即方法的可用性，分类精度越高，可用性越强。分类精度的计算公式均为：

其中，T_c表示分类结果和数据样本标签一致的样本数量，F_c表示分类结果和数据样本标签不一致的样本数量。

攻击精度表示添加抵御方法前后目标模型抵御攻击的性能，即方法的隐私性，攻击精度越接近0.5，隐私性越强。攻击精度的计算公式均为：

其中，T_a表示分类结果和数据样本标签一致的样本数量，F_a表示分类结果和数据样本标签不一致的样本数量。

如果添加抵御方法前后，分类精度下降得少，说明该方案能够保留机器学习模型的高预测精度的性能；如果添加抵御方法前后，攻击精度接近50％，说明该方案成功抵御了成员推理攻击，成功保护了训练数据的隐私性。

由表1的结果可以看出，本发明方法仅仅牺牲了4％～6％的分类精度，就能够使得攻击精度大大下降且接近50％，证明了本发明方法成功保留了机器学习模型的高预测精度的性能，同时降低成员推理攻击的成功概率，保护模型训练数据的隐私性。

Claims

1.一种基于变分自编码器的成员推理攻击抵御方法，其特征在于，包括：

(6)对变分自编码器和推理攻击网络模型进行对抗训练：

6a)设定对抗损失函数为：

Loss＝min{L+λ*[max(maxGain+1,0)]}

2.根据权利要求1所述的方法，其特征在于，(2)中对卷积神经网络的各项参数初始化如下：

卷积层数量设置为4，各个卷积层中卷积核的个数和大小分别设置为32和5*5、64和5*5、128和3*3、128和3*3；

激活函数选用Relu函数；

池化层的尺寸设置为2*2；

全连接层数量设置为3，尺寸设置为d*1024，1024*512，512*n，其中d为最后一层卷积层的输出向量大小，n为网络最后输出向量大小；

损失函数为如下交叉熵函数：

其中，m为样本数量，y_i为网络的期望输出值，y_i'为网络的实际输出值。

3.根据权利要求1所述的方法，其特征在于，(3)中组成变分自编码器的均值编码器、方差编码器和译码器三者均由2层全连接层组成，其重构损失函数表示如下：

L＝E[logp(X|Z)]-KL[N(μ,δ²)||N(0,1)]

其中，X为输入数据，μ为均值编码器的输出，δ²为方差编码器的输出，Z为译码器输入，Z＝μ+ε*δ，ε为添加噪声；式中第一项表示在译码器输入为Z的条件下生成X的概率，第二项表示根据编码器输出的结果构成的正态分布与标准正态分布的相似程度。

4.根据权利要求1所述的方法，其特征在于，(5b)根据推理攻击模型的输出结果，采用小批量梯度下降算法对卷积神经网络和推理攻击模型的网络模型参数进行更新，实现如下：

(5b1)设置学习率α，训练次数N，每次迭代训练时输入批次的数据样本量m；

(5b2)将推理攻击网络模型的输出结果代入攻击损失函数中，得到损失误差Gain_i；

(5b3)求损失误差E_i的梯度，并按如下公式同时对卷积神经网络和推理攻击网络模型的参数进行更新：

(5b4)重复执行(5b2)-(5b3)的操作，直到损失误差稳定不变或者训练次数达到N次，训练结束。

5.根据权利要求1所述的方法，其特征在于，6e)中根据判定结果向量h*和h’，选用梯度下降算法对训练好的推理攻击网络模型和变分自编码器的模型参数进行更新，实现如下：

6e1)设置学习率α，训练次数N，每次迭代训练时输入批次的数据样本量m；

6e2)将判定结果向量h*和h’代入对抗损失函数中，得到损失误差Loss_i；

6e3)求损失误差Loss_i的梯度，并同时对推理攻击模型和变分自编码器的参数进行更新。参数更新公式如下：

(6d4)重复执行6e2)-6e3)的操作，直到损失误差稳定不变或者训练次数达到N次，训练结束。

6.根据权利要求1所述的方法，其特征在于，(7)中将新生数据集D*分批次输入到训练前的卷积神经网络中，选用批量梯度下降算法对该网络进行训练，实现如下：

(7a)设置学习率α，训练次数N，每次迭代训练时输入批次的数据样本量m；

(7b)依次向卷积神经网络输入m个新生数据集D*中的数据样本，得到输出结果；

(7c)将(7b)的输出结果代入交叉熵函数中，得到损失误差loss_i；

(7d)求损失误差E_i的梯度，并对网络参数进行更新，得到更新后的网络参数w_loss'：

(7e)重复执行(7b)-(7d)的操作，直到损失误差稳定不变或者训练次数达到N次，训练结束。