CN113297574B

CN113297574B - 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法

Info

Publication number: CN113297574B
Application number: CN202110653241.6A
Authority: CN
Inventors: 陈晋音; 吴长安; 王雪柯
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-08-02
Anticipated expiration: 2041-06-11
Also published as: CN113297574A

Abstract

本发明公开了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，通过在模型输出中，对激活函数进行自适应变化，使用强化学习的奖励机制不断调整自适应策略，降低攻击者从模型输出中获取的信息量，隐藏模型输出的置信度信息中的敏感信息，达到对于模型窃取攻击的防御目的。本发明的方法，在不同的数据集上和模型上，均能达到良好的防御效果。

Description

基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法

技术领域

本发明属于人工智能安全领域，尤其是涉及一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法。

背景技术

近年来，深度学习成为热门学科，深度学习和人工智能技术被广泛应用于各项行业。但是与此同时，深度学习的数据和模型安全也受到各种威胁。其中，深度神经网络(DNNs)模型容易受到模型窃取攻击，这种攻击能够在攻击者对训练数据不了解的情况下，通过使用黑盒查询访问的方法来复制目标模型的功能。模型窃取攻击通过使用合成数据集或代理数据集的来查询目标模型，同时保存查询结果以构建一个带标记的转移数据集。攻击者可以使用这个带标记的转移数据集来训练复制模型，从而达到与目标模型相当的分类精度。

深度学习模型的训练需要一定数量的数据集以及计算机算力的支持，数据集的标记和整合以及硬件设施都需要投入大量的资金，因此，深度学习模型具有经济和社会价值。深度学习模型一旦被恶意攻击者窃取，会对模型所有者造成巨大的损失。

除此以外，随着机器学习云端服务(ML-as-a-service)的兴起，越来越多的商用模型被投入使用，模型所有者使用API将深度学习模型作为一种服务型商品出售，依据API的查询次数向用户进行收费。但是在查询的过程中，恶意用户能够通过特定的攻击算法窃取深度模型的信息，从而复制API内部的模型功能，损害模型所有者的利益。

为了提高深度模型的安全性，针对恶意攻击者通过查询API的方式窃取模型的问题，亟需设计一种深度神经网络模型的窃取防御方法，降低攻击者从模型输出中获取的信息量，达到对于模型窃取攻击的防御目的。

发明内容

本发明提供了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，可以防止模型在API的输入输出查询过程中，被恶意访问者窃取。

一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，包括以下步骤

(1)构建目标模型，所述目标模型的全连接层连接有softmax激活函数的变形形式，softmax激活函数中添加有自适应变换项系数ε；

(2)获取用于训练目标模型的图像数据集，分成训练集和测试集后对目标模型进行训练；

(3)获取与图形数据集对应的代理数据集，输入目标模型后得到添加自适应变换项系数的置信度向量，将对应的输入图片和置信度向量保存，作为窃取模型的训练集，记作SET_defence；

(4)构建窃取模型并利用窃取模型的训练集SET_defence进行训练，所述窃取模型的模型结构与目标模型一致；每一轮训练后使用步骤(2)中的测试集测试窃取模型的测试准确率，记作ACC_defence；

(5)以ACC_defence作为强化学习的优化目标，对目标模型和窃取模型进行迭代训练，每一轮训练的ACC_defence记为当前的优化状态ACC_defence-t，下一轮的ACC_defence记为ACC_defence-t+1，当ACC_defence-t+1小于ACC_defence-t，奖励R_t加一，反之奖励R_t减一；同时对当前的自适应变化项系数ε_t进行自适应变换系数随机操作a_t；

(6)训练完成后，得到具有窃取防御功能的目标模型，并进行图像分类的应用。

进一步地，步骤(1)中，所述的目标模型包括但不限于Alexnet模型、VGG19模型、ResNet-34模型。

进一步地，步骤(1)中，所述softmax激活函数的变形形式具体为：

式中，ε为自适应变换项系数，利用强化学习的奖励机制，实现自适应优化变换；Z(x,i)为全连接层后输出的特征向量，表示的是输入的样本x在第i类的权重大小，i＝1,2,....C,C是模型训练的样本类别总数。

进一步地，步骤(4)中，使用交叉熵损失函数作为窃取模型训练优化的损失函数，使用adam优化器进行优化，交叉熵损失函数的计算公式如下：

其中Loss_stl(x)为窃取模型的损失函数，N为输入的样本数量，y为目标模型的输出，y’为窃取模型的输出；

进一步地，步骤(5)中，设定ACC_defence的阈值为0.05，当ACC_defence小于0.05时，结束训练。

进一步地，步骤(5)中，对当前的自适应变化项系数ε_t进行自适应变换系数随机操作a_t的公式为：

其中，ε_t+1表示更新后的自适应变化项系数。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过在模型的输出层的激活函数中添加自适应变化策略，针对模型窃取攻击需要获得模型输出分布，在不改变模型输出类标的前提下，最大程度模糊深度模型的输出分布，大大降低模型窃取攻击的水平，为了增强防御性能，当攻击者获取一定量的防御信息时也能保证本发明具有良好的防御性能。

2、本发明引入强化学习的奖励机制，对自适应变化策略不断调整，使得攻击者无法获取确切的防御信息。

3、本发明在不同的数据集上和模型上，均能达到良好的防御效果。

附图说明

图1为本发明方法的流程示意图；

图2为本发明实施例中窃取模型攻击的示意图；

图3为本发明实施例中基于强化学习奖励机制的激活函数自适应变化模型防御的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1～3所示，一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，步骤如下：

1)构建模型窃取攻击的目标模型

1.1)数据集预处理：

本发明中，使用图像数据集进行防御效果的验证，具体的数据集包括：MNIST数据集、Fashion-MNIST数据集、CIFAR-10数据集和Caltech-256数据集。

每个数据集包括训练集和测试集，其中MNIST数据集的训练集共十类，每类6000张样本，训练集十类，每类1000张样本；Fashion-MNIST数据集的训练集共十类，每类6000张样本，训练集十类，每类1000张样本；CIFAR-10数据集的训练集共十类，每类5000张样本，训练集十类，每类1000张样本；Caltech-256数据集共256类，每类样本的数量80～400张样本不等，从每类中随机抽取30％的图片作为测试集，其余图片作为训练集。

1.2)训练目标模型

对于MNIST数据集、Fashion-MNIST数据集，使用Alexnet模型结构进行训练；对于CIFAR-10数据集，使用VGG19模型结构进行训练；对于Caltech-256数据集，使用ImageNet预训练的ResNet-34模型结构，训练设置统一的超参数：采用随机梯度下降(SGD)、adam优化器、学习率为0.2、epoch数为200、批次大小为32。训练结束后将保存模型，作为模型窃取攻击的目标模型，统计每个数据集在测试集上的准确率，记为ACC_test。

2)进行模型窃取攻击

2.1)构建模型窃取数据集(防御前)

本发明中使用的模型窃取攻击为Knockoff，使用的转移数据集是代理数据集，具体的代理数据集为：MNIST和Fashion-MNIST数据集使用的代理数据集是KMNIST，CIFAR-10数据集的代理数据集是CIFAR-100数据集，Caltech-256数据集的代理数据集是ImageNet数据集，分别将数据输入模型后得到输出的置信度向量，将对应的输入图片和置信度向量保存，作为窃取模型的训练集，记作SET_Stl。

2.2)训练窃取模型

为了提高模型窃取的效果，窃取模型的模型结构选择与目标模型一致。使用2.1)中的窃取数据集作为训练样本，迭代训练次数为iter_num，训练的epoch数为epoch_num，使用交叉熵(categorical_crossentropy)损失函数作为窃取模型训练优化的损失函数，使用adam优化器进行优化，交叉熵损失函数的计算公式如下：

其中，Loss_stl(x)为窃取模型的损失函数，N为输入的样本数量，y为目标模型的输出，y’为窃取模型的输出。训练完成后，使用1.2)中同样的测试集分别测试窃取模型的测试准确率，记作ACC_stl

3)激活函数自适应变换

3.1)激活函数变换

在深度模型的训练过程中，经过最后的全连接层后会输出一个特征向量Z(x,i)，其中，i＝1,2,....C,C是模型训练的样本类别总数。输出的向量Z(x,i)表示的是输入的样本x在第i类的权重大小，也就是样本x被归为第i类的得分情况。为了将输出向量转化为概率P(P∈[0,1])，将向量Z(x,i)输入到softmax层，通过softmax层的激活函数，将向量Z(x,i)映射到[0,1]的概率区间，得到一个包含各类得分归一化后的概率向量Y(x,i)，i＝1,2,....C,C是样本类别总数，向量Y(x,i)表示输入的样本x被分类成第i类时的概率，概率值最大的一类即为模型分类结果，通常称该向量为置信度，公式如下：

为了减少输出置信度中的敏感信息，对softmax激活函数进行变换，在激活函数中添加自适应变换项系数，得到以下softmax函数的变形形式：

其中的ε为自适应变换项系数，利用强化学习的奖励机制，实现自适应优化变换。

3.2)强化学习的奖励机制

为了提高模型窃取防御的效果，针对攻击者对于防御策略具有先验知识的问题，利用强化学习的奖励机制，更新激活函数的自适应变化项系数。在深度学习模型训练过程保存当前的自适应变化项系数ε_t、自适应变换系数随机操作a_t(action)、奖励R_t(Reward)以及更新后的自适应变化项系数ε_t+1。

4)模型窃取攻击的防御

4.1)构建模型窃取数据集(防御后)

重复2.1)的步骤，分别输入样本到目标模型中，输入模型后得到输出的置信度向量，此时的输出为添加自适应变换项系数的置信度向量，将对应的输入图片和置信度向量保存，作为窃取模型的训练集，记作SET_defence。

4.2)训练窃取模型

重复2.2)步骤，使用4.1)中的窃取数据集(防御后)作为训练样本，训练完成后，使用1.2)中同样的测试集分别测试窃取模型的测试准确率，记作ACC_defence。ACC_defence作为模型窃取防御的衡量指标，ACC_defence越低，说明防御效果越好。

4.3)自适应变化项系数更新

ACC_defence作为强化学习的优化目标，设定ACC_defence的阈值为0.05。每一轮训练的ACC_defence记为当前的优化状态ACC_defence-t，下一轮的ACC_defence记为ACC_defence-t+1，当ACC_defence-t+1小于ACC_defence-t，奖励R_t加一，反之奖励R_t减一。同时对ε_t进行自适应变换系数随机操作a_t(action)：

5)防御指标及效果

模型窃取攻击效果指标：

这个公式衡量的是模型窃取目标模型的效果和程度，本实验使用的攻击方法为Knockoff，其中MNIST数据集、Fashion-MNIST数据集和CIFAR-10数据集的Attack_stl均在80％以上，在Caltech-256数据集上Attack_stl为84％。

模型窃取防御效果指标：

这个公式通过模型窃取成功率的下降程度来表征防御的效果。

本发明的主要内容是针对目前出现的模型窃取攻击，提出了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，通过激活函数的自适应变换，在不影响模型类别判断的前提下，模糊模型输出的置信度分布，从而降低模型窃取攻击能力。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，其特征在于，包括以下步骤：

(3)获取与图像数据集对应的代理数据集，输入目标模型后得到添加自适应变换项系数的置信度向量，将对应的输入图片和置信度向量保存，作为窃取模型的训练集，记作SET_defence；

(5)以ACC_defence作为强化学习的优化目标，对目标模型和窃取模型进行迭代训练，每一轮训练的ACC_defence记为当前的优化状态ACC_defence-t，下一轮的ACC_defence记为ACC_defence-t+1，当ACC_defence-t+1小于ACC_defence-t，奖励R_t加一，反之奖励R_t减一；同时对当前的自适应变化项系数ε_t进行自适应变换系数随机操作a_t，公式为：

其中，ε_t+1表示更新后的自适应变化项系数；

2.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，其特征在于，步骤(1)中，所述的目标模型包括Alexnet模型、VGG19模型、ResNet-34模型。

3.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，其特征在于，步骤(1)中，所述softmax激活函数的变形形式具体为：

4.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，其特征在于，步骤(4)中，使用交叉熵损失函数作为窃取模型训练优化的损失函数，使用adam优化器进行优化，交叉熵损失函数的计算公式如下：

其中Loss_stl(x)为窃取模型的损失函数，N为输入的样本数量，y为目标模型的输出，y’为窃取模型的输出。

5.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法，其特征在于，步骤(5)中，设定ACC_defence的阈值为0.05，当ACC_defence小于0.05时，结束训练。