CN112241554A

CN112241554A - 基于差分隐私指数机制的模型窃取防御方法和装置

Info

Publication number: CN112241554A
Application number: CN202011184690.2A
Authority: CN
Inventors: 陈晋音; 吴长安; 沈诗婧
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-19
Anticipated expiration: 2040-10-30
Also published as: CN112241554B

Abstract

本发明公开了一种基于差分隐私指数机制的模型窃取防御方法和装置，包括：将用户的预测样本输入至通过API调用的目标模型，并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户；根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同；用户利用隐藏置信度分布向量和预测样本对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数，该第一网络参数与目标模型的目标网络参数不同，即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同，实现了对目标模型窃取的防御。能够提高目标模型的信息安全性。

Description

基于差分隐私指数机制的模型窃取防御方法和装置

技术领域

本发明涉及数据安全领域，具体涉及一种基于差分隐私指数机制的模型窃取防御方法和装置。

背景技术

近年来，深度学习模型被广泛应用在各种现实任务中，并取得了良好的效果。随着深度神经网络(DNN)研究成果在机器翻译、图像识别、无人驾驶、自然语言处理、网络图谱分析、电磁空间对抗、生物医疗、金融等领域得到广泛应用。深度学习凭借其强大的特征提取能力，逐步在各个领域替代人类进行自主决策。然而，一旦深度学习模型发生泄露，则将带来重大的人身伤害和财产损失。模型窃取攻击在对抗攻击、逃避检测、API模型窃取等方面都具有强烈的危害性，具体而言：通过窃取目标模型实现黑盒对抗攻击，逃避恶意软件的检测和垃圾邮件过滤，降低API模型查询的费用并向其他用户收取费用。模型的泄露对于AI服务平台和普通用户而言，都会直接或者间接造成巨大经济损失。深度学习模型，尤其是深度神经网络，在实际应用场景中能够大大提高工作效率和用户体验。例如：智能手机的相册管理助手、基于云端网络服务的图像识别APIs以及自动驾驶中的导航和控制等等。这些深度模型从设计到开发，到最终能够投入商业使用，需要投入大量的时间和资金。因此，模型训练使用的数据集的详细信息、精确的模型结构和超参数信息都是具有价值的，在这些模型投入使用时，必须考虑这些信息的保密问题。但是，出于商业获利等各种原因，不得不将深度模型以黑盒的模式部署在各种应用程序中：用户给定输入，深度模型通过API给出输出结果。在这样的输入输出的过程中，恶意用户能够通过特定的攻击算法窃取深度模型的信息，从而损害模型所有者的利益。

与此同时，大量机器学习云端服务(ML-as-a-service)的兴起，使得深度学习模型的信息安全问题变得愈发严峻。机器学习云服务是为了给缺乏训练深度模型条件的用户提供的一种云端训练模型服务，用户上传自己的数据集到云端，云端服务器通过API将训练好的模型供影用户使用，并通用查询次数向用户收取费用。同时，用户也可以将训练好的模型API提供给其他的用户使用并收取费用，通过这样方式减少训练模型产生的费用。这样的运行方式，会大大提高模型信息泄露的风险。恶意用户为了降低查询API的成本，通过询问API构建模型窃取攻击算法，获取模型的信息，完成模型功能的窃取。

发明内容

为了提高深度学习模型的信息安全性，防止深度学习模型在API的输入输出查询过程中，被恶意访问者窃取，本发明提出了一种基于差分隐私指数机制的模型窃取防御方法和装置。

本发明的技术方案为：

第一方面，一种基于差分隐私指数机制的模型窃取防御方法，包括以下步骤：

将用户的预测样本输入至通过API调用的目标模型，并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户；根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同；

用户利用隐藏置信度分布向量和预测样本组成的防御数据集对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数，该第一网络参数与目标模型的目标网络参数不同，即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同，实现了对目标模型窃取的防御。

优选地，隐藏置信度分布向量的获取过程为：

目标模型针对预测样本的原始置信度分布向量表示为：

其中，Z(x,i)表示目标模型针对预测样本x在第i类别的权重大小，也就是预测样本x被归为第i类别的得分情况，C表示目标模型能够实现分类的总类别数，Y(x,i)表示原始置信度分布向量；

在原始置信度分布向量增加差分隐私指数机制，将Z(x,i)类比于差分隐私指数机制中的得分函数，得到的隐藏置信度分布向量表示为：

其中，Y′(x,i)表示隐藏置信度分布向量，ε表示隐私预算，s(Z,|||.||)表示差分隐私指数机制中得分函数的灵敏度，其计算公式为：

其中，X和X′表示至多一条样本数据不同的两个样本数据集，d(X,X′)＝1表示两个数据集的差值为1，i∈I表示来自于输出结果i来自于类别得分集I，||·||表示范数距离。

优选地，得分函数的灵敏度s(Z,|||.||)取值为1，隐私预算ε取值为0.01～0.5。

优选地，训练窃取网络时，以预测样本作为输入，以隐藏置信度分布向量作为样本标签，以交叉熵函数最小为目标，采用adam优化器优化窃取网络的第一网络参数，训练结束后，得到确定的第一网络参数。

优选地，当预测样本为图像样本时，目标模型的网络结构和窃取网络均采用深度神经网络。

本发明中，利用模型窃取防御的衡量指标来衡量目标模型窃取的防御效果；

模型窃取防御的衡量指标Defence_stl定义为：

其中，ACC_test表示目标模型的识别准确率，ACC_stl表示窃取模型的识别准确率，ACC_defence表示防御模型的识别准确率；

其中，所述窃取模型的构建过程为：由原始置信度分布向量和预测样本组成的窃取数据集对与目标模型的网络结构相同的窃取网络进行训练确定的第二网络参数，该第二网络参数与目标模型的目标网络参数几乎相同，该第二网络参数与窃取网络组成的窃取模型。

本发明中，利用模型窃取攻击的衡量指标来衡量窃取模型的窃取效果；

模型窃取攻击的衡量指标Attack_stl定义为：

第二方面，一种基于差分隐私指数机制的模型窃取防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于差分隐私指数机制的模型窃取防御方法。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的基于差分隐私指数机制的模型窃取防御方法和装置，通过在目标模型的输出层的softmax函数中引入差分隐私的指数保护机制，针对目标模型窃取攻击需要获得目标模型输出置信度分布，在softmax层中添加差分隐私扰动项，在不改变目标模型输出类标的前提下，最大程度模糊深度模型的输出置信度分布，大大降低目标模型窃取攻击的水平。在不同的数据集上，均能够达到95％以上的防御成功率，表明本发明提出的基于差分隐私指数机制的模型窃取防御方法和装置的模型窃取防御效果良好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于差分隐私指数机制的模型窃取防御方法流程图；

图2是实施例提供的模型窃取过程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

目标模型在API的输入输出查询过程中，目标模型会被恶意访问者窃取。本实施例中，目标模型的构建过程为；

选择MNIST数据集、CIFAR-10数据集和Caltech-256数据集进行目标模型的构建和防御模型的防御效果的验证。其中，MNIST数据集的训练集共十类，每类6000张样本，训练集十类，每类1000张样本；CIFAR-10数据集的训练集共十类，每类5000张样本，训练集十类，每类1000张样本；Caltech-256数据集共256类，每类样本的数量80～400张样本不等，从每类中随机抽取30％的图片作为测试集，其余图片作为训练集。

不同的数据集，都使用同样的网络结构进行训练，为了提高训练的效率，采用ImageNet预训练的ResNet-34模型结构，训练设置统一的超参数：采用随机梯度下降(SGD)、adam优化器、学习率为0.2、epoch数为200、批次大小为64。训练结束后将保存模型为checkpoint文件，作为模型窃取攻击的目标模型，统计目标模型在测试集上的准确率，记为ACC_test。

如图2所示，目标模型被窃取的具体过程包括：

从ImageNet数据集中随机抽取80000张样本，分别输入到训练好的目标模型中，使用随机选择函数random.choice函数从ImageNet数据集中抽取样本，输入目标模型后得到输出的原始置信度分布向量，将该原始置信度分布向量和对应的输入图片保存作为用于训练窃取网络的窃取数据集，记作SET_Stl。

为了提高目标模型窃取的效果，窃取模型的窃取网络选择与目标模型的网络结构一样的ResNet-34。采用窃取数据集作为训练样本集，使用交叉熵(categorical_crossentropy)损失函数作为窃取网络训练优化的损失函数，使用adam优化器进行优化，交叉熵损失函数的计算公式如下：

其中Loss_stl(x)为窃取网络的损失函数，N为输入的样本数量，y为目标模型的输出，y’为窃取网络的输出。训练完成后，确定窃取网络的第二网络参数，该与目标模型的目标网络参数几乎相同，窃取网络与确定的第二网络参数组成窃取模型，使用上述测试集分别测试窃取模型的测试准确率，记作ACC_stl。

本实施例中，利用模型窃取攻击的衡量指标来衡量窃取模型的窃取效果；

模型窃取攻击的衡量指标Attack_stl定义为：

该衡量指标Attack_stl衡量的是窃取目标模型的效果和程度，在本发明的实验中，MNIST数据集和CIFAR-10数据集的窃取指标Attack_stl均在90％以上，在Caltech-256数据集上窃取指标Attack_stl为84％。

为了防止目标模型在API的输入输出查询过程中，目标模型被恶意访问者窃取。本发明提出了一种基于差分隐私指数机制的模型窃取防御方法，如图1所示，该基于差分隐私指数机制的模型窃取防御方法包括以下步骤：

首先，将用户的预测样本输入至通过API调用的目标模型，并对目标模型针对预测样本的原始置信度分布向量添加差分隐私指数机制后作为隐藏置信度分布向量反馈给用户；根据隐藏置信度分布向量得到的预测类标与根据原始置信度分布向量得到的预测类标相同。

然后，用户利用隐藏置信度分布向量和预测样本组成的防御数据集对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数，该第一网络参数与目标模型的目标网络参数不同，即由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同，实现了对目标模型窃取的防御。

差分隐私的指数机制是一种ε差分隐私保护方式，用来从一个备选集合中选出一个元素。假定备选集合为A，存在一个得分函数H，输入是数据集D，可能的输出是a(a∈A)，其输出是实数。对于给定的数据集D，指数机制会选择得分函数为H(D,a)的元素a(a∈A)。

定义得分函数的灵敏度s(H,|||.||)为：

其中，D和D′分别为表示至多一条样本数据不同的两个样本数据集；

指数机制的定义为：

给定一个数据集D和一组可能输出结果A，如果一个随机机制选择的结果符合以下概率性质，那么该指数机制是ε差分隐私保护：

P(a∈A is selected)∝e^{εH(D,a)/2s(H,||.||)} (4)

其中，∝是正比符号，ε是隐私预算，ε>0，ε越小表示隐私保护效果越好，H(D，a)表示输入为D，输出为a时的得分函数，s(H,||.||)表示得分函数H的灵敏度。

在目标模型训练过程中，经过最后的全连接层后会输出一个特征向量Z(x,i)，其中，i＝1,2,....C,C是模型训练的样本类别总数。特征向量Z(x,i)表示的是输入样本x在第i类的权重大小，也就是输入样本x被归为第i类的得分情况。为了将输出向量Z(x,i)转化为概率P(P∈[0,1])，将输出向量Z(x,i)输入到softmax层，经过softmax层后，将输出向量Z(x,i)映射到[0,1]的概率区间，得到一个包含各类得分归一化后的概率向量Y(x,i)，i＝1,2,....C,C是样本类别总数，向量Y(x,i)表示输入的样本x被分类成第i类时的概率，概率值最大的一类即为模型分类结果，通常称该概率向量为置信度分布向量，公式如下：

在softmax层加入差分隐私保护的指数机制，即在原始置信度分布向量增加差分隐私指数机制，将Z(x,i)类比于差分隐私指数机制中的得分函数，即Z(x,i)→H(D,a)，得到的隐藏置信度分布向量表示为：

经过试验探究发现，得分函数的灵敏度s(Z,|||.||)趋近于1，因此可以取值为1，隐私预算ε取值可以为0.01、0.1和0.5。

获的隐藏置信度分布向量与对应的输入样本组成防御数据集，记作SET_defence，利用该防御数据集SET_defence对与目标模型的网络结构相同的窃取网络进行训练以确定第一网络参数，在训练窃取网络时，以预测样本作为输入，以隐藏置信度分布向量作为样本标签，以交叉熵函数最小为目标，采用adam优化器优化窃取网络的第一网络参数，训练结束后，得到确定的第一网络参数。该第一网络参数与窃取网络组成防御模型，采用上述测试集分别测试防御模型的测试准确率，记作ACC_defence。

由于第一网络参数与目标模型的目标网络参数不同，因此，由第一网络参数与窃取网络组成的防御模型与由网络结构和目标网络参数组成的目标模型不同，即用户利用隐藏置信度分布向量和预测样本组成的防御数据集对窃取网络进行训练时，得不到目标模型，即实现了对目标模型窃取的防御。

本实施例中，利用模型窃取防御的衡量指标来衡量目标模型窃取的防御效果；

模型窃取防御的衡量指标Defence_stl定义为：

衡量指标Defence_stl衡量了本发明的防御效果，直观来讲，衡量的是在本发明的防御下，模型窃取攻击的下降程度。在不同的隐私预算ε下，各个数据集的平均衡量指标Defence_stl在95％以上。

实施例还提供了一种基于差分隐私指数机制的模型窃取防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于差分隐私指数机制的模型窃取防御方法。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于差分隐私指数机制的模型窃取防御方法步骤。

本实施例提供的基于差分隐私指数机制的模型窃取防御方法和装置，过把差分隐私保护中的指数机制引入模型预测阶段的softmax层，在不影响模型类别判断的前提下，模糊模型输出的置信度分布，从而降低模型窃取攻击能力。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于差分隐私指数机制的模型窃取防御方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，隐藏置信度分布向量的获取过程为：

目标模型针对预测样本的原始置信度分布向量表示为：

3.如权利要求2所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，得分函数的灵敏度s(Z,|||.||)取值为1，隐私预算ε取值为0.01～0.5。

4.如权利要求2或3所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，训练窃取网络时，以预测样本作为输入，以隐藏置信度分布向量作为样本标签，以交叉熵函数最小为目标，采用adam优化器优化窃取网络的第一网络参数，训练结束后，得到确定的第一网络参数。

5.如权利要求2或3所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，当预测样本为图像样本时，目标模型的网络结构和窃取网络均采用深度神经网络。

6.如权利要求2或3所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，利用模型窃取防御的衡量指标来衡量目标模型窃取的防御效果；

模型窃取防御的衡量指标Defence_stl定义为：

所述窃取模型的构建过程为：由原始置信度分布向量和预测样本组成的窃取数据集对与目标模型的网络结构相同的窃取网络进行训练确定的第二网络参数，该第二网络参数与目标模型的目标网络参数几乎相同，该第二网络参数与窃取网络组成的窃取模型。

7.如权利要求6所述的基于差分隐私指数机制的模型窃取防御方法，其特征在于，利用模型窃取攻击的衡量指标来衡量窃取模型的窃取效果；

模型窃取攻击的衡量指标Attack_stl定义为：

8.一种基于差分隐私指数机制的模型窃取防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～7任一项所述的基于差分隐私指数机制的模型窃取防御方法。