CN112882382B

CN112882382B - 一种评价分类深度神经网络鲁棒性的几何方法

Info

Publication number: CN112882382B
Application number: CN202110029509.9A
Authority: CN
Inventors: 杨鑫; 王洋; 朴海音; 何林远; 孙阳
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2022-03-29
Anticipated expiration: 2041-01-11
Also published as: CN112882382A

Abstract

本发明属于计算机视觉领域中的对抗鲁棒领域，提供一种评价分类深度神经网络鲁棒性的几何方法，步骤如下：步骤1、选择深度神经网络分类模型；步骤2、选择攻击算法；步骤3、构建ACTS算法；步骤4、形成整个ACTS评价算法框架并输出结果。本发明解决了由于对抗样本的存在所导致的分类鲁棒性评价困难问题。本发明提出了一种从几何角度去评价分类鲁棒性的方法ACTS，通过不同实验设置证明了ACTS的有效性，并通过对比实验证明了ACTS输出结果的精确性和高效性。对比实验中ACTS在所有不同实验设置中指标Overlap均获得了最佳性能，并且在平均用时的效率上领先CLEVER几个量级，具有很大的优势。

Description

一种评价分类深度神经网络鲁棒性的几何方法

技术领域

本发明属于计算机视觉领域中的对抗鲁棒(adversarial robustness)领域，尤其涉及基于图像分类的对抗攻击技术，针对每一张分类图片和特定的攻击算法，给出一个量化后的分数结果。

背景技术

图像分类任务主要是帮助计算机理解真实环境中包含物体的类别，根据用户定义的分类目标，确定环境中该目标的类别信息，这是计算机视觉中最基础的一个任务，也是几乎所有的基准模型都会进行比较的任务。随着基于深度神经网络的机器学习模型在不同的领域取得巨大的成功，在一些大型的公开数据集上，计算机的图像分类水准已经超过了人类。

然而，近期有研究发现一种被特意设计的样本，简称对抗样本(Adversarialexamples)，可以很轻松地让以深度神经网络为代表的机器学习分类算法产生误判，但是人类不会对这类物体误识别，甚至不会认为这类物体被修改过。这就给现实生活中部署这类算法带来了潜在的危机。因此，有许多算法被提出用于生成和防御对抗样本。同时，也有研究人员在尝试从理论的角度分析对抗样本存在的原因，并且进一步理解深度神经网络的鲁棒性。当前，主要还是依靠一些特定的攻击算法在整个数据集上得到的分类准确率来评价一个深度神经网络的鲁棒性。然而，这种方法不是一个有效、可推广的图像鲁棒性度量方法。例如，给出两张图像，如果它们都没有被攻击算法攻击成功，那么它们就会被认为对攻击具有同样的鲁棒性。显然，其中一张可能更鲁棒，这种方法不能反映事实。最近，Weng等人提出了一个基于利普希兹约束的对抗样本下边界的度量方法，称为CLEVER(CrossLipschitz Extreme Value for nEtwork Robustness)。CLEVER是首个可以被应用到大型深度神经网络模型的鲁棒性评估指标,比如针对ImageNet的分类模型。但是该方法使用极值理论来估计利普希兹常数时，需要一个可处理的样本数量，这导致了昂贵的计算代价，从而难以应用到真实场景中。

因此本发明基于对现有大型深度神经网络鲁棒性度量方法CLEVER的调查与分析，针对深度神经网络分类器输出流形的几何特性，提出了一种新的度量方法ACTS(Adversarial Converging Time Score)。

发明内容

本发明的目的是在给定单张RGB图像和特定的攻击算法下，通过ACTS方法给出一个量化后的分数结果以度量其鲁棒性。本发明所述方法适用于不同攻击算法和分类神经网络。

本发明的技术方案为：

一种评价分类深度神经网络鲁棒性的几何方法，步骤如下：

步骤1选择深度神经网络分类模型

选择InceptionV3、ResNet50和VGG16模型，作为深度神经网络分类模型；

首先选择PyTorch提供的三种最先进的在ImageNet上预训练好的模型，即InceptionV3、ResNet50和VGG16模型。选择这三种模型的原因是它们的体系结构有很大的不同。InceptionV3有一个独特的Inception模块。ResNet50有残差块和跳跃连接，而VGG16是一种非常有效的前馈神经网络。

步骤2选择攻击算法

选取FGSM、BIM和PGD作为攻击算法；

在步骤1构建的深度神经网络模型上施加不同的攻击算法。本方法选取三种当前最先进的白盒攻击算法FGSM、BIM、PGD。这三种攻击算法都是基于梯度信息的攻击算法，攻击强度依次增强，FGSM为单步攻击算法，BIM和PGD是多步攻击算法。相关方法均使用其公开的代码或带有建议参数的设置，设置的都是无目标攻击。

步骤3构建ACTS算法

在步骤1选择的三种深度神经网络分类模型下，定义的超曲面都是非线性系统。因此，超曲面上不同点周围的局部区域具有不同的曲率，这导致不同的输入对相同的附加攻击扰动δx具有不同的灵敏度。攻击扰动的信息则可以通过步骤2选择的攻击算法得到。在这种洞察力的启发下，本发明提出了一种新的对抗性收敛时间评分(ACTS)作为一种特定于实例的对抗鲁棒性度量方法。提出ACTS的关键是将灵敏度映射到到达收敛曲线(即决策边界)所需的时间，其中决策边界为干净样本被转化为对抗样本的分类边界。

基于此，输入RGB图片的鲁棒性可以通过到达收敛点的攻击扰动的大小来反映。对于本发明所选择的分类器而言，收敛点实际上就是一个决策边界，但这在高维空间中是非常难估计的。因此，本发明通过损失域的角度来看收敛点，从这个角度看，输入RGB图片的鲁棒性可以通过干净样本转化为对抗样本在损失域所花时间的大小来衡量。

本发明提出ACTS算法用来估计这个时间，它的定义如下：

其中j和t分别代表非原始类别和原始类别，本发明在非原始类别的选取上只考虑除原始类别以外的前20个类别，y_j和y_t分别代表各自类别在损失域上的距离。而s_j和s_t分别代表图片分类的类别在损失域中的移动速度，他们都被攻击扰动δx所驱动。在理想的情况下，s_t-s_j的值应该总是正的。然而，在下列情况下，s_t-s_j的值可能是一个负值：1)s_t减小，s_j增加；2)s_t和s_j都减小，但s_t下降得更快；3)s_t和s_j都增加，但s_j增加得更快。如果上述任何一种情况发生在输入上，这意味着不可能提供成功的攻击，因此特定输入的ACTS被设定为最高分C，其函数表示如公式(1)中的f(x)所示。本说明中C被设置成了100。由于ACTS表示用速度s_t-s_j覆盖距离y_j-y_t的时间，所以具有较小ACTS的输入更容易受到对抗性攻击，反之亦然。本发明提出的ACTS的关键是估计移动速度。然而，输出超曲面上的局部邻域是非线性的，直接估计移动速度是非常具有挑战性的。为此，本发明提出了一种基于DJM(DataJacobian Matrix)的算法来估计所需的移动速度，它考虑了输出超曲面的非线性性质。

给定输入x，输出D的数据雅克比矩阵(DJM)的函数表示如公式(2)：

在超曲面m_j上，DJM_j(x)定义了接近x点的点D的最佳线性近似。因此，D的输入域中的一个小的变化δx可以线性的映射到超曲面m_j上的变化。基于此，它的函数表示如公式(3)：

D(x+δx)＝D(x)+DJM(x)×δx+δe, (3)

其中δe∈R^K是近似误差。本质上，DJM(x)与在训练过程中通过深度神经网络反向传播的梯度非常相似。唯一的区别是DJM(x)相对于输入x而不是网络参数的差异。

基于公式(3)，在输入x和攻击扰动δx下，将原始点y_j移到超曲面m_j上的点y′_j的距离可被函数表示如公式(4)：

y′_j＝D_j(x)+DJM_j(x)×δx, (4)

对于单步攻击算法，δx可以被看作一个向量。这个向量的方向是固定的，只有向量的长度因成功的攻击而变化。基于此，移动速度s_j估计的函数表示如公式(5)：

值得提及的是，线性估计的精度随着δx的增加而降低。

对于多步攻击算法，每个步骤δx的向量都会在方向和长度上发生改变。与单步攻击相比，不同的方向显示了更多的局部邻域曲率，它增加了发现最佳移动速度的概率，以减少干净样本转换为对抗样本的时间。然而，多步攻击会增加估计移动速度的难过。为了解决这一问题，本发明提出了一个在所有方向上的平均移动速度s_j，它的函数表示如公式(6)：

其中N为多步攻击中使用的总步骤，δx_q为第q步中添加的攻击扰动。

步骤4形成整个ACTS评价算法框架并输出结果

在步骤1和步骤2的基础上，根据步骤3的构建算法，形成整个评价算法框架ACTS。根据每一张待分类的输入图片，通过ACTS算法框架，给出一个量化后的分数结果作为输出。

本发明的有益效果：

(1)鲁棒性评价结果与效率

本发明解决了由于对抗样本的存在所导致的分类鲁棒性评价困难问题。本发明提出了一种从几何角度去评价分类鲁棒性的方法ACTS，通过不同实验设置证明了ACTS的有效性，并通过对比实验证明了ACTS输出结果的精确性和高效性。对比实验中ACTS在所有不同实验设置中指标Overlap均获得了最佳性能，并且在平均用时的效率上领先CLEVER几个量级，具有很大的优势。

(2)适用性更广泛

本发明适用于不同的分类网络(InceptionV3、ResNet50和VGG16等)和攻击算法(FGSM、BIM和PGD等)，实验结果也证明了ACTS在不同设置下的有效性和适用性。

附图说明

图1为本发明在3D超曲面上的观察示例。

图2为本发明ACTS算法的二维几何意义分析。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为本发明在3D超曲面上举的例子，不同的初始点在相同的对抗扰动δx作用下，在超曲面上的变化大小有很大的不同。正是在这种洞察力的启发下，本发明提出了一种新的对抗性收敛时间评分(ACTS)作为一种特定于实例的对抗鲁棒性度量。

图2是ACTS算法在二维平面的直观展示。输入的鲁棒性可以通过到达收敛点所需的对抗扰动δx的大小来反映。然而收敛点实际上是一个决策边界，尤其在高维空间中，这是非常难估计的。因此，本发明从损失域的角度来看收敛点。从这个角度看，输入的鲁棒性就可以通过速度s_t-s_j覆盖距离y_j-y_t的时间来反映。

本发明使用ILSVRC2012数据集的验证集做测试，该验证集包含50000张不同类别的图像，一共1000个类别，每种类别包含50张图像。在预训练分类模型的选取上，本发明选取了InceptionV3、ResNet50和VGG16模型。所有模型相关参数的设置上都是按照默认最优设置。在攻击算法的选取上，本发明分别选取了单步攻击算法FGSM和多步攻击算法BIM、PGD。

在选定分类网络和攻击算法的基础上，ACTS算法主要包含两个子任务，即距离y_j-y_t的计算估计和速度s_t-s_j的计算估计。本发明使用DJM_j(x)作为在输入x加上对抗扰动δx后在超曲面m_j上的最佳线性近似。因此可以得到距离y_j-y_t的计算估计。根据对抗攻击算法得到δx向量的单位方向向量，从而去估计移动速度s_t-s_j。最后根据距离y_j-y_t和速度s_t-s_j去计算速度s_t-s_j覆盖距离y_j-y_t的时间作为ACTS的输出结果来评价分类鲁棒性。随机梯度下降被用于优化整个网络，其动量值为0.9，权重衰减为1e-4。学习率设置为1e-2。使用了NVIDIATesla V100显卡测试网络。本发明在具体实施时选取的对比方法是CLEVER，CLEVER方法是通过极值理论去估计分类网络的最小下界当做鲁棒性分数结果，为了进行公平的比较，CLEVER方法使用其公开的代码或带有建议参数的设置，并且均使用相同的预训练网络和攻击算法，在相同的测试集上进行测试。从最终的实验结果来看，本发明ACTS方法在所有不同实验设置中指标Overlap均获得了最佳性能。Overlap指标的百分比越小说明该方法的性能越好，具体实验结果如下表1所示：

表1

Claims

1.一种评价分类深度神经网络鲁棒性的几何方法，其特征在于，步骤如下：

步骤1 选择深度神经网络分类模型

步骤2 选择攻击算法

选取FGSM、BIM和PGD作为攻击算法；

步骤3 构建ACTS算法

在步骤1选择的三种深度神经网络分类模型下，定义的超曲面都是非线性系统；因此，超曲面上不同点周围的局部区域具有不同的曲率，导致不同的输入对相同的附加攻击扰动δx具有不同的灵敏度；攻击扰动的信息通过步骤2选择的攻击算法得到；本方法作为一种对抗鲁棒性度量方法；ACTS的关键是将灵敏度映射到到达收敛曲线即决策边界所需的时间，其中决策边界为干净样本被转化为对抗样本的分类边界；

基于此，输入RGB图片的鲁棒性通过到达收敛点的攻击扰动的大小来反映；对于本方法所选择的分类器，收敛点实际上就是一个决策边界；因此，通过损失域的角度来看收敛点，从这个角度看，输入RGB图片的鲁棒性通过干净样本转化为对抗样本在损失域所花时间的大小来衡量；

ACTS算法用来估计这个时间，定义如下：

其中，j和t分别代表非原始类别和原始类别，在非原始类别的选取上只考虑除原始类别以外的前20个类别，y_j和y_t分别代表各自类别在损失域上的距离；s_j和s_t分别代表图片分类的类别在损失域中的移动速度，被攻击扰动δx所驱动；在理想的情况下，s_t-s_j的值总是正的；然而，在下列情况下，s_t-s_j的值是一个负值：1)s_t减小，s_j增加；2)s_t和s_j都减小，但s_t下降得更快；3)s_t和s_j都增加，但s_j增加得更快；如果上述任何一种情况发生在输入上，这意味着不可能提供成功的攻击，因此特定输入的ACTS被设定为最高分C，其函数表示如公式(1)中的f(x)所示；C被设置为100；

由于ACTS表示用速度s_t-s_j覆盖距离y_j-y_t的时间，所以具有较小ACTS的输入更容易受到对抗性攻击，反之亦然；然而，输出超曲面上的局部邻域是非线性的；为此，提出一种基于DJM的算法来估计所需的移动速度，考虑了输出超曲面的非线性性质；给定输入x，输出D的数据雅克比矩阵的函数表示如公式(2)：

在超曲面m_j上，DJM_j(x)定义了接近x点的点D的最佳线性近似；因此，D的输入域中的一个小的变化δx可线性的映射到超曲面m_j上的变化；基于此，它的函数表示如公式(3)：

D(x+δx)＝D(x)+DJM(x)×δx+δe (3)

其中，δe∈R^K是近似误差；

基于公式(3)，在输入x和攻击扰动δx下，将原始点y_j移到超曲面m_j上的点y′_j的距离被函数表示如公式(4)：

y′_j＝D_j(x)+DJM_j(x)×δx (4)

对于单步攻击算法，δx被看作一个向量，这个向量的方向是固定的，只有向量的长度因成功的攻击而变化；基于此，移动速度s_j估计的函数表示如公式(5)：

线性估计的精度随着δx的增加而降低；

对于多步攻击算法，每个步骤δx的向量都会在方向和长度上发生改变；与单步攻击相比，不同的方向显示了更多的局部邻域曲率，增加了发现最佳移动速度的概率，以减少干净样本转换为对抗样本的时间；然而，多步攻击会增加估计移动速度的难度；为了解决这一问题，提出一个在所有方向上的平均移动速度s_j，它的函数表示如公式(6)：

其中N为多步攻击中使用的总步骤，δx_q为第q步中添加的攻击扰动；

步骤4形成整个ACTS评价算法框架并输出结果

在步骤1和步骤2的基础上，根据步骤3的构建算法，形成整个评价算法框架ACTS；根据每一张待分类的输入图片，通过ACTS算法框架，给出一个量化后的分数结果作为输出。