CN113378985A

CN113378985A - 一种基于逐层相关性传播的对抗样本检测方法和装置

Info

Publication number: CN113378985A
Application number: CN202110761503.0A
Authority: CN
Inventors: 陈晋音; 吴长安
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-10

Abstract

本发明公开了一种基于逐层相关性传播的对抗样本检测方法和装置，包括：获取图像样本，利用图像样本训练深度学习模型；将良性图像样本输入至训练好的深度学习模型，并计算每个良性图像样本的相关性分数，其中，良性图像样本的相关性分数由像素点的相关性分数计算得到，像素点的相关性分数依据神经元的相关性，反向逐层传递计算得到；统计多数良性图像样本的相关性分数分布确定对抗样本的判别依据；将待测图像样本输入至训练好的深度学习模型，计算待测图像样本的相关性分数，依据判别依据检测待测图像样本是否为对抗样本。以实现对各类深度学习模型的各类对抗样本的快速准确检测。

Description

一种基于逐层相关性传播的对抗样本检测方法和装置

技术领域

本发明属于数据安全领域，具体涉及一种基于逐层相关性传播的对抗样本检测方法和装置。

背景技术

深度神经网络(DNN)在各种科学领域应用广泛且发挥了显著的作用，从自然语言处理和计算机视觉到智能医疗和智能运输。DNN表现出卓越的精度，但研究已经表明它们特别容易受到对抗性样本的影响：通过精心制作的输入扰动，导致机器学习算法出现错误分类，而输入的扰动是肉眼难以察觉的。

在许多安全关键的场景中，已经看到了DNN的广泛应用。但是，由于最新的深度学习系统存在各种漏洞，当应用于实际应用时，这些漏洞可能导致严重的后果。对抗样本的出现对深度学习的安全使用带来了极大的挑战，尤其是在自动驾驶、刷脸支付等对于安全敏感的领域，对抗样本的存在为其技术本身和落地应用带来了更多不确定性。对抗样本现在已经成为了深度学习在安全领域的热点问题，对抗样本的生成方式、特点、检测以及更正方法都是目前的研究重点。

目前针对对抗样本的研究主要可以分为攻击和防御两个角度。攻击，即对抗样本的生成，根据在生成对抗样本时所需的知识，将对抗样本的生成方式分为白盒攻击(white-box attack)和黑盒攻击(black-box attack)，其区别在于攻击者在生成对抗样本时能否得到模型的内部参数。而防御方法又可以分为对抗样本检测、对抗样本的还原和提高模型的鲁棒性，对抗样本另一个十分重要的特点在于它的迁移性：针对某一个模型生成的对抗样本对很多其它模型同样具有攻击性。目前针对对抗样本的攻击，已经提出了许多防御方法，其中对抗训练是提高神经网络的鲁棒性的最有效方法。然而，无论模型多么健壮，当出现新的对抗攻击时，深度模型依然会被欺骗。因此，需要提出灵活有效的对抗样本检测方法。

对于对抗样本的检测，目前现有的对抗样本检测方法大多是基于样本的检测，需要事先准备大量的对抗样本，通过对抗样本的特征生成对抗样本检测器。缺乏从对抗样本对于模型的异常激活模式的检测，而且当防御者对攻击的策略未知时，无法抵御攻击。

发明内容

针对上述问题，本发明提出了一种基于逐层相关性传播的对抗样本检测方法和装置，以实现对各类深度学习模型的各类对抗样本的快速准确检测。

第一方面，实施例提供的一种基于逐层相关性传播的对抗样本检测方法，包括以下步骤：

获取图像样本，利用图像样本训练深度学习模型；

将良性图像样本输入至训练好的深度学习模型，并计算每个良性图像样本的相关性分数，其中，良性图像样本的相关性分数由像素点的相关性分数计算得到，像素点的相关性分数依据神经元的相关性，反向逐层传递计算得到；

统计多数良性图像样本的相关性分数分布确定对抗样本的判别依据；

将待测图像样本输入至训练好的深度学习模型，计算待测图像样本的相关性分数，依据判别依据检测待测图像样本是否为对抗样本。

优选地，所述良性图像样本的相关性分数f(x)为：

其中，

是第p个像素点的相关性分数，

表示像素点对预测结果有影响，反之无影响。

优选地，所述像素点的相关性分数依据神经元的相关性，反向逐层传递计算得到包括：

第l层神经元i的相关性表示为：第l+1层中所有的神经元的相关性分解后再进行求和，具体公式如下：

其中，

表示若第l层神经元i对第l+1层神经元j做出贡献，那么第第l层神经元i应该占第l+1层神经元j的相关性

的大份额，即神经元i收集对后一层所连接的神经元j的贡献，

的计算公式如下：

其中，z_ij表示第l层神经元i对第l+1层神经元j的加权激活，z_j为第l层所有神经元对第l+1层神经元j的加权激活，ε表示一个常量系数，sign()是一个符号函数。

优选地，所述统计多数良性图像样本的相关性分数分布确定对抗样本的判别依据包括：

统计多数良性图像样本的相关性分数所形成的阈值范围，将该范围作为判别依据。

优选地，当待测图像样本的相关性分数超过多数良性图像样本的相关性分数所形成的阈值范围，则认为待测图像样本为对抗样本。

优选地，利用来自于MNIST数据集的图像样本训练Lenet模型；

利用来自于CIFAR10数据集的图像样本训练VGG16模型；

利用来自于ImageNet数据集的图像样本训练ResNet-34模型。

优选地，采用交叉熵函数作为损失函数来训练深度学习模型。

第二方面，实施例提供了一种基于逐层相关性传播的对抗样本检测装置，包括存储器，处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于逐层相关性传播的对抗样本检测方法。

上述实施例提供的技术方案，具有的有益效果至少包括：通过对于模型内部的逐层激活传递状态分析，根据模型内部存在的规律性传递联系，达到对对抗样本进行检测和甄别，保护深度学习模型的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于逐层相关性传播的对抗样本检测方法的流程图；

图2是实施例提供的逐层相关性传播示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

面对对抗样本对深度学习模型的安全威胁和现有对抗样本检测方法缺乏内部机理解释和计代价大等问题。为了提高深度模型的安全性，防止对抗样本对深度模型进行干扰和威胁，实施例提供了一种基于逐层相关性传播的对抗样本检测方法，通过对于模型内部的逐层神经元激活传递状态分析，根据模型内部存在的规律性传递联系，达到对对抗样本进行检测和甄别，保护深度学习模型的目的。

图1是实施例提供的基于逐层相关性传播的对抗样本检测方法的流程图。如图1所示，实施例提供的基于逐层相关性传播的对抗样本检测方法，包括以下步骤：

步骤1，获取图像样本并进行预处理。

实施例中，使用图像数据集进行性能验证，包括小型数据集MNIST数据集和CIFAR-10数据集，大型数据集选用ImageNet数据集。数据集的具体介绍：MNIST数据集的训练集共十类，每类6000张样本，训练集十类，每类1000张样本，每张样本的像素为28×28，每张样本都是单通道。CIFAR-10数据集的训练集共十类，每类5000张样本，训练集十类，每类1000张样本，每张样本的像素为32×32，每张样本都是三通道。ImageNet数据集共1000类，每类包含1000张样本，每张样本的像素为224×224，每张样本都是三通道。从每类中随机抽取30％的图片作为测试集，其余图片作为训练集。对数据的类别进行onehot编码，获取对应的类别标签序列，便于训练和测试。

步骤2，利用图像样本训练深度学习模型。

针对不同的图像数据集使用不同的模型结构进行训练，其中MNIST数据集使用Lenet模型，CIFAR10数据集使用VGG16模型，ImageNet数据集使用预训练的ResNet-34模型，训练设置统一的超参数：采用随机梯度下降(SGD)、adam优化器、学习率为0.2、epoch数为num_epoch、批次大小为num_batch。

训练中使用交叉熵作为损失函数：

其中，y_i是类别i的真实标签，p_i是softmax函数计算出来的类别i的概率值；k是类别数，N是样本总数。其状态Softmax的计算公式为：

其中，分子是要计算的类别i的预测输出的指数，分母是所有类别预测输出的指数和，训练结束后保存模型参数。

步骤3，将良性图像样本输入至训练好的深度学习模型，并计算每个良性图像样本的相关性分数。

实施例中，良性图像样本的相关性分数由像素点的相关性分数计算得到，像素点的相关性分数依据神经元的相关性，反向逐层传递计算得到。

针对多层神经元组成的深度学习模型，神经网络中每层的神经元为：

其中，x_j表示神经元j的输出，g表示神经元j的激活函数，w_ij是神经元i到j的连接权重，b表示连接偏差。

实施例中，良性图像样本的相关性分数f(x)为：

其中，

是第p个像素点的相关性分数，

表示像素点对预测结果有影响，反之无影响，该相关性分数f(x)作为输入样本的预测值。

如图2所示，关于神经元的相关性逐层传递，对于已知的第l+1层神经元j的相关性

可将该相关性

分解到第l层的所有神经元上，具体公式如下：

第l层神经元i的相关性可以表示为：第l+1层中所有的神经元的相关性分解后再进行求和，具体公式如下：

其中，

表示的含义是，若第l层某个神经元i对第l+1层神经元的一个神经元j做出来主要贡献，那么第l层神经元i应该占第l+1层神经元j的相关性

的较大份额，即神经元i收集它对后一层所连接的神经元j的贡献。

的计算公式如下：

其中，z_ij表示为第l层神经元i对第l+1层神经元j的加权激活，z_j为第l层所有神经元对第l+1层神经元j的加权激活。ε表示一个常量系数，sign()是一个符号函数。

步骤4，将对抗样本输入至训练好的深度学习模型，并计算对抗样本的相关性分数。

对不同的数据集和对应的模型，使用多种方法进行攻击，生成对应的对抗样本S_adv，具体的攻击方法包括：

FGSM：使用损失函数J(Θ,x,y)对输入特征向量进行对抗攻击，对抗样本的生成表示为：

其中，ε是一个调节系数，sign()是一个符号函数，θ是模型参数，x表示模型输入的样本，y表示样本x的输出类标，当

的值大于0时取1，等于0时取0，小于0时取-1，

表示求x的梯度，J(.)表示训练模型的损失函数。

MI-FGSM:一种加速梯度下降算法的方法，它在迭代过程中沿损失函数的梯度方向积累速度向量，利用动量的思想来生成对抗样本，并获得很好的效果。从良性样本x生成非目标对抗样本x^*，在满足L_∞范数界的情况下，基于梯度的方法通过求解约束优化问题来寻求对抗样本，生成公式如下：

其中，ε是对抗性扰动的大小，将动量集成到迭代的MI-FGSM中，使得稳定更新方向，避免陷入局部极大值。

CW：CW攻击是基于优化的对抗攻击技术，通过近似解决以下优化问题完成攻击：

其中，L是一个损失函数，用于测量预测值与真实值之间的距离，常数λ用于平衡两个损失比例。

针对不同的数据集合模型，将生成的对抗样本依次保存。

步骤5，利用统计多数良性图像样本的相关性分数分布确定的对抗样本判别依据进行对抗样本的检测。

实施例中，统计大量良性样本的逐层相关性分数，并计算良性样本的相关性分数分布作为对抗样本的判别依据。当未知样本的逐层相关性分数不满足统计的良性样本表征的范围，则判定为攻击样本。

具体地，统计多数良性图像样本的相关性分数所形成的阈值范围，将该范围作为判别依据。当待测图像样本的相关性分数超过多数良性图像样本的相关性分数所形成的阈值范围，则认为待测图像样本为对抗样本。

为了评估上述方法对抗样本的检测效果，实施例利用对抗样本检测率ADR、对抗样本误检率NR以及对抗样本漏检率OR来评估检测效果。

实施例还提供了一种基于逐层相关性传播的对抗样本检测装置，包括存储器，处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于逐层相关性传播的对抗样本检测方法，包括以下步骤：

步骤1，获取图像样本并进行预处理。

步骤2，利用图像样本训练深度学习模型。

上述实施例提供的基于逐层相关性传播的对抗样本检测和装置，通过对于模型内部的逐层激活传递状态分析，根据模型内部存在的规律性传递联系，达到对对抗样本进行检测和甄别，保护深度学习模型的目的。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于逐层相关性传播的对抗样本检测方法，其特征在于，包括以下步骤：

获取图像样本，利用图像样本训练深度学习模型；

2.如权利要求1所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，所述良性图像样本的相关性分数f(x)为：

其中，

是第p个像素点的相关性分数，

表示像素点对预测结果有影响，反之无影响。

3.如权利要求1或2所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，所述像素点的相关性分数依据神经元的相关性，反向逐层传递计算得到包括：

其中，

的计算公式如下：

4.如权利要求1所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，所述统计多数良性图像样本的相关性分数分布确定对抗样本的判别依据包括：

5.如权利要求4所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，当待测图像样本的相关性分数超过多数良性图像样本的相关性分数所形成的阈值范围，则认为待测图像样本为对抗样本。

6.如权利要求1所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，利用来自于MNIST数据集的图像样本训练Lenet模型；

利用来自于CIFAR10数据集的图像样本训练VGG16模型；

利用来自于ImageNet数据集的图像样本训练ResNet-34模型。

7.如权利要求1所述的基于逐层相关性传播的对抗样本检测方法，其特征在于，采用交叉熵函数作为损失函数来训练深度学习模型。

8.一种基于逐层相关性传播的对抗样本检测装置，包括存储器，处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7任一项所述的基于逐层相关性传播的对抗样本检测方法。