CN113627543B

CN113627543B - 一种对抗攻击检测方法

Info

Publication number: CN113627543B
Application number: CN202110931933.2A
Authority: CN
Inventors: 徐思涵; 麦隽韵; 王志煜; 李君龙; 李梅; 蔡祥睿
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-08-22
Anticipated expiration: 2041-08-13
Also published as: CN113627543A

Abstract

本发明公开了一种对抗攻击检测方法，包括以下步骤：步骤S1，通过多种对抗攻击算法生成对于目标深度神经网络的对抗样本，并与自然输入样本混合作为输入样本；步骤S2，将输入样本输入到目标深度神经网络中提取全局特征和隐含层特征；步骤S3，将输入样本的全局特征和隐含层特征进行特征融合，得到输入样本的最终特征表示；步骤S4，使用输入样本的最终特征表示训练分类器，得到对抗样本检测模型；步骤S5，利用步骤4得到的对抗样本检测模型检测输入数据中是否含有对抗样本。本发明可以为被攻击目标系统的不同隐藏层动态分配不同的权重，不仅能发现单攻击模式下的对抗样本，而且能够不受混合攻击模式影响地检测出每种攻击方法所产生的对抗样本。

Description

一种对抗攻击检测方法

技术领域

本发明属于对抗攻击、人工智能技术应用、人工智能系统安全领域，具体涉及一种对抗攻击检测方法。

背景技术

深度学习作为一种实现机器学习的技术，具有强大的特征抽取与表示能力、数据拟合能力和复杂问题的解决能力，被广泛应用于图片分类、语音识别、目标检测、机器翻译、推荐系统等各个领域，给人们的生活带来了巨大的便利。但是，深度学习本身存在的一些安全问题，限制了其在安全关键任务上的应用，尤其是深度学习模型面对对抗样本具有极高的脆弱性。在普通样本中故意添加人眼不可识别的微小扰动，就可能导致模型决策机制的改变，从而诱导深度学习模型产生误判。为了扩大深度学习技术在各个领域，尤其是安全关键任务上的应用，现在迫切需要防御对抗样本攻击的有效方法。

为了防御对抗攻击，很多研究者对数据样本进行预处理以希望去除或降低对抗样本中微小扰动对模型的影响。Guo、Liao等人对样本进行随机化、降噪等预处理；Guo等人随机将样本中的像素替换为其领域的任意像素，并用小波去噪技术让图片更接近自然图片；Liao等人提出方差最小化和图像缝合的技术；Athalye等人利用U-net去噪网络学习对抗性扰动，对原图像进行去噪。有部分研究者认为训练数据的完备性有利于降低对抗样本对模型决策的影响。Goodfellow等人提出对抗训练方式，将对抗样本和普通样本一起训练，通过批量归一化的方式将对抗训练扩展到大型模型和数据集上；Hinton等人提出集成对抗训练，在多个外部预训练的相似模型上生成对抗样本，并加入到训练过程中；Metzen等人提出层叠对抗训练，在对抗训练所得模型上再次生成对抗样本，用来扩充训练集。针对特定的对抗攻击方法。如基于梯度的对抗攻击方法，Tramer等人提出梯度遮掩的方法，使攻击者找不到生成对抗样本的扰动方向；Papernot等人提出蒸馏防御方法，通过生成更平滑的模型，降低模型对扰动的敏感性。但由于很难建立对抗样本生成的理论模型，因此上述研究方法很难从理论上论证模型能供主动防御所有对抗攻击。

于是，近年来，越来越多的研究者致力于在模型运行时通过区分普通样本和对抗样本，对模型输入进行被动对抗检测。Li等人以深度神经网络隐藏层特征训练得到能够检测对抗样本的二分类器；Zheng等人利用隐藏层特征训练了层叠分类器判断对抗样本和普通样本是否来自于相同分布；Meng等人对深度神经网络输出层建模，采用高斯混合模型分析并分类对抗样本和普通样本；Lee等人以目标深度神经网络最后一层输出为特征，训练编码-解码模型来检测对抗样本。

上述方法取得了不错的效果，但大多数研究没有考虑到不同攻击方法、不同原始样本输入在目标深度神经网络中的敏感层可能不一样，各个隐藏层对发现不同的对抗样本的贡献不同，因此上述研究方法在面临不同对抗样本攻击的环境下抵御效果存在差异，在多种攻击方法混合的情况下表现不佳。

发明内容

本发明的目的在于克服现有技术的不足，提供一种对抗攻击检测方法，通过该方法能够检测出干扰深度学习模型做出正确决策的对抗样本，提升深度学习模型应用的安全性。

本发明是通过以下技术方案实现的：

一种对抗攻击检测方法，包括以下步骤：

步骤S1，通过多种对抗攻击算法生成对于目标深度神经网络的对抗样本，并与自然输入样本混合作为输入样本；

步骤S2，将输入样本输入到目标深度神经网络中提取全局特征和隐含层特征；

步骤S3，将输入样本的全局特征和隐含层特征进行特征融合，得到输入样本的最终特征表示；

步骤S4，使用输入样本的最终特征表示训练分类器，得到对抗样本检测模型；

步骤S5，利用步骤4得到的对抗样本检测模型检测输入数据中是否含有对抗样本。

在上述技术方案中，所述步骤S1包括：

步骤S11，将拟攻击的目标深度神经网络的输入数据集分成训练集和测试集，使用训练集训练好目标深度神经网络预测测试集样本，去除预测错误的样本，剩下的记为自然输入样本；

步骤S12，将多种攻击方法在不同参数下分别应用到训练、验证、测试三个集合中的自然输入样本以生成对抗样本，将对抗样本输入到目标深度神经网络中进行分类，丢弃目标深度神经网络可以正确分类的对抗样本，剩余的样本标记为输入样本。

在上述技术方案中，在步骤S1中，为保证对于每种对抗攻击方法在每种参数下的自然输入样本和对抗样本分布均为1:1，在训练、验证、测试集合中通过随机选择的方法丢弃部分自然输入样本。

在上述技术方案中，在步骤S1中，所述多种对抗攻击算法采用IBM对抗鲁棒性工具箱中的PGD、FGSM、BIM、DeepFool、C&W这5种白盒攻击方法。

在上述技术方案中，所述步骤S2包括：

步骤S21，拟攻击的目标深度神经网络为目标系统M，给定一个输入样本I，采用多个预训练模型得到输入样本I的全局特征表示；

步骤S22，分别为目标系统M的隐含层构建卷积神经网络模型学习并表示隐含层特征，包括c1个卷积层，c2个池化层。

在上述技术方案中，所述步骤S3中，应用多头注意力模型融合输入样本的全局特征和隐藏层特征，将全局特征视作查询Q，将各隐含层特征视为关键字K和值V，采用多头注意力模型进行特征融合。

在上述技术方案中，所述步骤S4中，将每个训练输入样本的最终融合特征向量与该样本所对应的自然样本或对抗样本标签输入到全连接神经网络分类器中，训练一个检测对抗样本的二分类模型。

在上述技术方案中，所述步骤S5中，先将被检测的输入数据按照步骤2和3的处理方法得到其最终特征表示，再输入到对抗样本检测模型中，得到分类结果。

本发明的优点和有益效果为：

本发明通过将样本在神经网络中间层的输出作为特征，并根据输入的样本为每一层的特征赋予不同的权重，以检测模型输入种包含的对抗攻击样本。所述方法的提出是考虑到对于深度神经网络模型，不同的对抗攻击方法、不同的输入对于目标层的敏感度是不同的。实验证明，相较于以往以单个中间层的结果作为输入的算法，本发明方法结果更加稳定，降低了由于输入特征选取带来的不确定性，在多种攻击算法混合下，本发明方法将所有攻击方法放在一起训练，将网络中的异质数据进行动态分析，不仅解决了数据的稀疏性问题，也很大程度上保留了数据之间的语义关系，使模型可以更具普遍性地检测出攻击对抗样本。综上，所述方明方法能够有效地应用在单攻击和混合攻击环境下的对抗样本检测中。

附图说明

图1是本发明的对抗攻击检测方法的流程图。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

参见附图1，一种对抗攻击检测方法，包括以下步骤：

步骤S1，对拟攻击的目标深度神经网络的输入数据集进行预处理，得到输入样本。

其中，所述对输入数据集进行预处理包括以下步骤：

步骤S11，将输入数据集分成训练集和测试集，使用训练集训练好目标系统预测测试集样本，去除预测错误的样本，剩下的记为自然输入样本。

在本实施例中，所述对抗样本拟攻击的目标系统为ResNet-18模型，ResNet-18由r₁个卷积层，r₂个平均池化层(AveragePooling)，r₃个全连接层组成，r₁、r₂、r₃分别为17、1、1，其中第一个卷积层的卷积核大小为7×7，剩下的16个卷积层分为四层，每一层有2个基本残差块组成，每个残差块有2个卷积层，每个卷积层的卷积核大小为3×3。平均池化层的窗口大小为3×3，步长为2。输入数据集采用手写数字数据集，数据集中的每张图片的大小均为32×32×3。使用经过训练后的目标系统预测测试集，并删除分类模型预测错误的样本，将剩余的样本记为自然输入样本。

步骤S12，使用5种经典的白盒对抗攻击方法，即IBM对抗鲁棒性工具箱中的PGD、FGSM、BIM、DeepFool、C&W这5种经典的白盒攻击方法，在多组参数下生成对抗样本。

在本实施例中，PGD、FGSM、BIM均基于L1范数，对于这三种算法，设置最大失真参数为[α₁,α₂,α₃,α₄,α₅]，最大迭代次数设为β。其中，α₁、α₂、α₃、α₄、α₅分别为0.005、0.01、0.03、0.06、0.1，β为100。DeepFool和C&W算法基于L2范数，设置其最大失真参数为[γ₁,γ₂,γ₃]，其中，γ₁、γ₂、γ₃分别为0.1、0.2、0.3。

将上述五种攻击方法在不同参数下分别应用到训练、验证、测试三个集合中的自然输入图片以生成对抗样本。将对抗样本输入到目标系统中进行分类，丢弃目标系统可以正确分类的对抗样本，剩余的样本标记为对抗用的输入样本。

步骤S13，为保证对于每种对抗攻击方法在每种参数下的自然输入和对抗输入分布均为1:1，在训练、验证、测试集合中通过随机选择的方法丢弃部分自然输入。

步骤S2，将输入样本输入到目标深度神经网络中提取全局特征和隐含层特征。

进一步地，所述步骤S2包括以下步骤：

步骤S21，给定输入样本输入到预训练模型中，得到一个向量表示该输入样本的全局特征。本发明采用K个预训练模型，来得到原始输入样本I的向量表示：

g_k＝f_k(I),k＝1,2,...,K

其中，f_k表示第k个预训练模型，为该预训练模型得到的全局向量表示。因此，给定输入I，通过K个预训练模型进行全局特征提取后，我们可以得到全局特征为G＝(g₁,g₂,...,g_K)。

在本实例中使用Inception V3、Alexnet、Vgg-16、ResNet-101四个不同的预训练模型提取图像全局特征G。

步骤S22，为目标系统的每一层特征单独构建神经网络模型，进一步学习特征的表示。各层特征的模型结构相同，但独立训练。所述特征表示的神经网络模型采用卷积神经网络模型，网络结构包括c₁个卷积层，c₂个池化层，其中p₁个池化层为平均池化层，p₂个池化层为空间金字塔池化层。在本实施例中，c₁、c₂、p₁、p₂分别为4、3、2、1，第一层和第三层卷积层的卷积核设置为3×3，步长设置为1，使用LeakyRelu作为激活函数，第一层和第三层卷积层后都是平均池化层(AveragePooling)，卷积核均为2×2，第二层池化层的步长为2，第四层池化层的步长为1，第五层和第六层是卷积层，卷积核设置为2×2，步长设置为1，使用LeakyRelu作为激活函数，最后一层池化层为空间金字塔池化层SPP，核维度取[1，2，4]，目的是将不同维度的特征转换为维度相同的向量表示。

在本实施例中，拟攻击的目标深度神经网络模型是ResNet-18模型，需要提取四层隐藏层特征，抽取第一层和第二层特征时的模型结构为主体结构。抽取目标系统第三层的特征时，模型结构去掉第二个池化层；抽取目标系统的第四层特征时，模型结构去掉第一个、第二个池化层和最后两个卷积层。

步骤S3，将输入样本的全局特征和隐含层特征输入到多头注意力机制模型中，进行特征融合，得到输入样本的最终特征表示。

在本实施例中，应用伸缩点积注意力模型，该模型在许多任务上取得了很好的效果，同时运算效率也较高。其形式化定义如下：

给定一组查询Q∈R^m×d，其中m表示查询的数量，d表示每个查询的维度，注意力机制模型可以计算查询Q和关键字K∈R^s×d(s表示关键字数量，每个关键字的维度也是d)的相关性，作为与这些查询相关的值V的权重，得到最终的输出。每个查询在各个关键字上的注意力使用Softmax函数进行归一化。本发明方法采用多头注意力机制可以使模型注意到不同子空间的信息，提升模型效果，将使用不同预训练模型的全局特征信息进行综合。

具体地，模型将全局特征G视作查询Q，将各隐含层特征H视为关键字K和值V，采用t-头注意力机制模型进行特征融合，即：

O＝MultiHead(G,H)＝Concat(Head₁,...Head_t)W_o

where Head_i＝Attention(GW_g,HW_h,HW_h)

其中W_o，W_g和W_h都是待训练的参数，将全局特征G和隐含层特征H转化成维度d相同的向量。本发明实例维度d设置为50，目标系统为ResNet-18，采用t＝4的多头注意力模型进行特征融合。

步骤S4，使用输入样本的最终特征表示训练分类器，得到分类模型，作为对抗样本检测的检测模型。

经过上述步骤得到的融合了样本全局特征和目标系统隐含层特征的向量表示O，作为分类器的输入。分类器使用全连接神经网络，即z＝WO+b，其中W和b是线性层需要训练的权重和偏差，全连接神经网络设置的神经元数目为u。

在本实施例中，网络神经元数目u为100，优化目标函数使用交叉熵损失函数，使用Adam算法优化整个模型。

步骤S5，利用得到的对抗样本检测模型检测输入数据中是否含有对抗样本。即，先将被检测的输入数据按照步骤2和3的处理方法得到其最终特征表示，再输入到对抗样本检测模型中，得到分类结果。

在本实施例中，所使用的攻击目标系统为ResNet-18。通过实验评估和模型对比，所述对抗样本检测方法在5种对抗攻击方法几乎所有参数下的单一对抗攻击，检测性能都达到甚至超过了目前最新进的使用最优输入层的检测的模型的性能。在多种对抗方法混合攻击下，本发明方法的识别准确率均高于对照模型在最优输入层的结果。可见本发明方法的有效性。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种对抗攻击检测方法，其特征在于，包括以下步骤：

步骤S1，通过多种对抗攻击算法生成对于目标深度神经网络的对抗样本，并与自然输入样本混合作为输入样本；步骤S1包括：

步骤S12，将多种攻击方法在不同参数下分别应用到训练、验证、测试三个集合中的自然输入样本以生成对抗样本；所述多种对抗攻击算法采用IBM对抗鲁棒性工具箱中的PGD、FGSM、BIM、DeepFool、C&W这5种白盒攻击方法；为保证对于每种对抗攻击方法在每种参数下的自然输入样本和对抗样本分布均为1:1，在训练、验证、测试集合中通过随机选择的方法丢弃部分自然输入样本；将对抗样本输入到目标深度神经网络中进行分类，丢弃目标深度神经网络可以正确分类的对抗样本，剩余的样本标记为输入样本；

步骤S2，将输入样本输入到目标深度神经网络中提取全局特征和隐含层特征；所述步骤S2包括：

步骤S22，分别为目标系统M的隐含层构建卷积神经网络模型学习并表示隐含层特征，包括c1个卷积层，c2个池化层；

步骤S3，将输入样本的全局特征和隐含层特征进行特征融合，得到输入样本的最终特征表示；步骤S3中，应用多头注意力模型融合输入样本的全局特征和隐藏层特征，将全局特征视作查询Q，将各隐含层特征视为关键字K和值V，采用多头注意力模型进行特征融合；

步骤S4，使用输入样本的最终特征表示训练分类器，得到对抗样本检测模型；所述步骤S4中，将每个训练输入样本的最终融合特征向量与该样本所对应的自然样本或对抗样本标签输入到全连接神经网络分类器中，训练一个检测对抗样本的二分类模型；

步骤S5，利用步骤4得到的对抗样本检测模型检测输入数据中是否含有对抗样本；所述步骤S5中，先将被检测的输入数据按照步骤2至步骤3的处理方法得到其最终特征表示，再输入到对抗样本检测模型中，得到分类结果。

2.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被执行时实现如权利要求1所述的方法的步骤。