CN111027060B

CN111027060B - 基于知识蒸馏的神经网络黑盒攻击型防御方法

Info

Publication number: CN111027060B
Application number: CN201911300484.0A
Authority: CN
Inventors: 崔炜煜; 王文一; 李晓锐; 陈建文
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-04-29
Anticipated expiration: 2039-12-17
Also published as: CN111027060A

Abstract

本发明公开了一种基于知识蒸馏的神经网络黑盒攻击型防御方法，其包括选取多个子网络构建教师网络，对所有子网络softmax层的输入向量进行软化，之后重新加载子网络的模型参数训练得到新的子网络；获取每个子网络的预测标签，并将所有预测标签平均或加权平均后做为软标签；将ImageNet数据集输入学生网络，采用软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练，得到替代模型；采用白盒攻击算法攻击替代模型生成对抗样本序列，并采用对抗样本序列对黑盒模型进行攻击，选取对抗样本序列中攻击成功的对抗样本；将攻击成功的对抗样本加入黑盒模型的训练集中，并采用更新后的训练集进行对抗训练，生成具备防御攻击的黑盒模型。

Description

基于知识蒸馏的神经网络黑盒攻击型防御方法

技术领域

本发明涉及神经网络的防御方法，具体涉及一种基于知识蒸馏的神经网络黑盒攻击型防御方法。

背景技术

现有比较常见的黑盒攻击分为基于迁移性的训练替代模型攻击方式以及基于决策的多次查询估计梯度攻击方式。二者在生成接近黑盒模型的替代模型后和估计接近黑盒模型的梯度后，利用主流的白盒攻击方法来进行攻击。

前者在训练替代模型时多数需要得知被攻击模型的训练数据集，以及输入输出等除模型内部参数以外的众多信息，而这些信息特别是训练数据集在实际应用中是很难得知的，或者是被限制获取数量的，所以通过以上方式生成替代模型的方法在很多情况下是有所限制的。

后者通过对对抗模型多次进行查询输入输出并且估计梯度，当查询次数足够多时估计得到的梯度将接近对抗模型的真实梯度以获得决策边界。但是该方法的问题是多次查询导致计算复杂度高，同时在限制查询次数的黑盒模型中无法得到进展，从而严重影响了黑盒攻击的效率。

发明内容

针对现有技术中的上述不足，本发明提供的基于知识蒸馏的神经网络黑盒攻击型防御方法解决了传统方法的多次查询带来的计算复杂度较高的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于知识蒸馏的神经网络黑盒攻击型防御方法，其包括：

选取多个图像分类网络作为的子网络构建教师网络，对所有子网络softmax层的输入向量进行软化，之后重新加载子网络的模型参数训练得到新的子网络；

获取教师网络中每个子网络的预测标签，并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签；

将ImageNet数据集输入学生网络，采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练，得到针对黑盒模型的替代模型，特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本；

采用白盒攻击算法攻击替代模型生成对抗样本序列，并采用对抗样本序列对黑盒模型进行攻击，选取对抗样本序列中攻击成功的对抗样本；

将攻击成功的对抗样本加入黑盒模型的训练集中，并采用更新后的训练集进行对抗训练，生成具备防御攻击的黑盒模型。

本发明的有益效果为：本方法在多数情况下无需获取黑盒模型的数据集和查询申请，便可以对黑盒模型进行攻击，在少数边缘分类任务中，可以限制性获取黑盒模型数据集以及查询次数，仍然可以保证攻击成功。

在进行攻击和防御过程中，采用知识蒸馏的方式优化了替代模型生成过程，解决了使用传统方法的多次查询带来的计算复杂度较高的问题；知识蒸馏的方式可以使用来生成替代模型的学生网络充分利用教师网络所拥有的知识信息量，减少普通训练方式丢失类别之间差异性的缺陷。

通过生成对抗样本序列的方式解决了在对抗训练中对抗样本质量差并且强度低的问题，使得对抗训练更加鲁棒，即防御性更好。

附图说明

图1为基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

知识蒸馏是一种基于神经网络的信息提取方式，同时也是一种有效的网络压缩方式，通过集成或者大规模训练的方式生成一个教师网络，然后将该教师网络的输出标签进行软化，从而增加不同类别之间的信息量，使得对于不同模型分类任务的兼容性更强。

当面临实际问题的时候，教师网络会指导训练学生网络生成相应模型来解决实际的分类或识别问题，该学生网络可以有效地将教师网络中优秀的分类能力和预测能力继承下来，并且减少了教师网络的冗余性和复杂度，同时又提高了学生网络的性能。

参考图1，图1示出了基于知识蒸馏的神经网络黑盒攻击型防御方法的流程图；如图1所示，该方法包括步骤101至步骤105。

在步骤101中，选取多个图像分类网络作为的子网络构建教师网络，对所有子网络softmax层的输入向量进行软化，之后重新加载子网络的模型参数训练得到新的子网络。

教师网络采用集成的方式将多个模型的预测结果结合到一起，能够降低整体的方差，集成多个模型使得最终的预测结果添加了偏差，而该偏差又会与神经网络的方差相抵消，使得模型的预测对训练数据的细节、训练方案的选择以及单次训练的偶然性不太敏感。

实施时，本方案优选对子网络softmax层的输入向量进行软化的计算公式为：

其中，T为温度系数；z_i和z_j均为输入向量；exp(.)为指数运算；i为当前输入向量的标号；j为所有输入向量的总数；q_i为软化后预测标签。

本方案通过在神经网络的softmax层的输入向量进行软化，可以使得类别之间的相关性被放大，使得最终输出的软化标签可以用来指导和监督学生网络的训练。

在步骤102中，获取教师网络中每个子网络的预测标签，并将所有预测标签平均后或者加权平均后做为教师网络输出的软标签；

其中，图像分类网络和学生网络均是以残差模块为基础的ResNet网络；多个图像分类网络为ResNet18，ResNet34，ResNet50，ResNet101，ResNet152；学生网络为ResNet8网络。

多个图像分类网络采用上述ResNet网络后，具有相同的训练集、相似输入输出，只是在随机参数初始化、网络参数结构和网络损失函数输入值有微小差别，从而达到容易集成教师网络的目的。

在采用多个子网络集成教师网络时，所有子网络给予相同的数据集进行训练，这样可以使所有子网络的输出通道一致，以保证最终得到相同维度的预测软标签。

将所有预测软标签进行加权平均的公式为：

其中n为子网络的数量，

b_i为第i个子网络的权重，O_i为第i个子网络的输出。

在步骤103中，将ImageNet数据集输入学生网络，采用教师网络的软标签、数据集硬标签及黑盒模型特殊标签指导学生网络训练，得到针对黑盒模型的替代模型，特殊标签为黑盒模型分类任务中与常规数据集分类不同的样本。

其中，三种类型的标签分别代表图片的不同标注信息，硬标签代表图片的固有属性，软标签代表图片类别与相近类别之前的相关性，特殊标签代表图片在黑盒模型中的特殊样本的标签。三种类型的标签具体地为：

硬标签，即普通数据集中的标签，对输入数据有着明确的标定，非0即1，如[0,1,…,0]，其中1代表对应数据样本的标签在标签列表中的位置。

软标签，来源于教师网络，对输入数据之间的相关性有着相当信息量的解释，在保证正确样本置信度最高的情况下，也对相关性较大样本进行标定。如[0.1,0.7,…,0.1]，其中0.7表示该样本在标签列表中第二个位置的置信度，最大置信度通常就是样本的真实分类，而0.1表示该样本在标签列表第二个位置的可能置信度，即在有目标攻击中最有可能攻击成功的目标类别。

特殊标签，该类标签取决于黑盒模型的限制条件，在可获取少量标签的限制性黑盒模型中，使用此类标签将利于学生网络生成的替代模型无限逼近黑盒模型，因为此类标签通常等同于硬标签，如[0,1,…,0]；但是在个别样本不等同于硬标签时，如[1,0,…,0]，此类标签具有绝对优先级，即将用特殊标签取代硬标签，同时不添加软标签。

在本发明的一个实施例中，指导学生网络训练过程中，选取三个损失函数，并对三个损失函数加权归一化后作为学生网络的损失函数；三个损失函数分别为：

其中，y_h为数据集中样本的硬标签；

为数据集中样本的预测硬标签；y_s为数据中样本的软标签，

为数据集中样本的预测软标签；y_sp为数据集中样本的特殊标签，

为数据集中样本的预测特殊标签；

所述替代模型的损失函数为：

L＝(1-a-b)×L_s+a×L_h+b×L_sp

当y_h＝y_sp时，b＝0，L＝(1-a)×L_s+a×L_h；

当y_h≠y_sp时，a＝0，b＝1，L＝L_sp；

其中，a和b为加权系数；L_h、L_s、L_sp和L均为损失函数输出值。

本方案选用少数从黑盒模型分类任务中与常规数据集分类不同的样本作为特殊标签对学生网络的训练进行指导，可以使得学生网络更加接近被攻击模型(黑盒模型)。

在步骤104中，采用白盒攻击算法攻击替代模型生成对抗样本序列，并采用对抗样本序列对黑盒模型进行攻击，选取对抗样本序列中攻击成功的对抗样本。

在本发明的一个实施例中，白盒攻击算法为FGSM算法，采用白盒攻击算法攻击替代模型生成对抗样本序列进一步包括：

对于无目标攻击时，向损失函数最大化的方向进行梯度上升，每次梯度上升时对输入图片的像素值加入扰动，梯度每上升设定次数生成一个对抗样本；

采用同一输入图像生成的所有对抗样本构成无目标攻击的对抗样本序列；

对于有目标攻击时，向损失函数最小化的方向进行梯度下降，每次梯度下降时对输入图片的像素值加入扰动，梯度每下降设定次数生成一个对抗样本；

采用同一输入图像生成的所有对抗样本构成有目标攻击的对抗样本序列。

有目标攻击和无目标攻击时，生成扰动后的对抗样本的公式均为：

其中，ω为权重向量；ω^T为权重向量的转置；x为原始图像；

为扰动后图片；ε为扰动权重上限；sign(.)为符号函数；

为梯度算子；η为加入的扰动；J(.)为损失函数。

本方案在对抗样本生成时，并非针对一张图片只生成一张对抗样本，而是选择一幅输入图片向着决策边界的正交方向生成多个对抗样本，组成对抗样本序列，来覆盖被攻击模型(黑盒模型)决策边界可能存在的区域，以达到高性能的黑盒攻击。

实施时，本方案优选采用对抗样本序列对黑盒模型进行攻击包括：

采用每一对抗样本序列中所有对抗样本逐次攻击黑盒模型；

无目标攻击模式下，若盒模型预测结果不是原始数据标签，则表示攻击成功；有目标攻击模式下，若黑盒模型预测结果是指定目标的预测结果，则表示攻击成功。

在步骤105中，将攻击成功的对抗样本加入黑盒模型的训练集中，并采用更新后的训练集进行对抗训练，生成具备防御攻击的黑盒模型。

本方案将攻击成功的对抗样本加入到黑盒模型的对抗训练中，使得黑盒模型能够对此类对抗样本有很好的辨别能力，从而使得黑盒模型更加鲁棒，足以防御更多其他近似类型的对抗样本。

Claims

1.基于知识蒸馏的神经网络黑盒攻击型防御方法，其特征在于，包括：

将攻击成功的对抗样本加入黑盒模型的训练集中，并采用更新后的训练集进行对抗训练，生成具备防御攻击的黑盒模型；对子网络softmax层的输入向量进行软化的计算公式为：

其中，T为温度系数；z_i和z_j均为输入向量；exp(.)为指数运算；i为当前输入向量的标号；j为所有输入向量的总数；q_i为软化后预测标签；

多个图像分类网络为ResNet18，ResNet34，ResNet50，ResNet101，ResNet152；学生网络为ResNet8网络，教师网络的所有子网络给予相同的数据集进行训练；

白盒攻击算法为FGSM算法，采用白盒攻击算法攻击替代模型生成对抗样本序列进一步包括：

采用同一输入图像生成的所有对抗样本构成有目标攻击的对抗样本序列；

采用对抗样本序列对黑盒模型进行攻击包括：

采用每一对抗样本序列中所有对抗样本逐次攻击黑盒模型；

无目标攻击模式下，若黑盒模型预测结果不是原始数据标签，则表示攻击成功；有目标攻击模式下，若黑盒模型预测结果是指定目标的预测结果，则表示攻击成功。

2.根据权利要求1所述的基于知识蒸馏的神经网络黑盒攻击型防御方法，其特征在于，指导学生网络训练过程中，选取三个损失函数，并对三个损失函数加权归一化后作为学生网络的损失函数；三个损失函数分别为：