CN114332569A

CN114332569A - 基于注意力机制的低扰动对抗攻击方法

Info

Publication number: CN114332569A
Application number: CN202210261232.7A
Authority: CN
Inventors: 练智超; 黄庆福; 李千目
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-04-12
Anticipated expiration: 2042-03-17
Also published as: CN114332569B

Abstract

本发明公开一种基于注意力机制的低扰动对抗攻击方法，属于人工智能安全领域。包括获得输入样本的梯度矩阵；选择对抗样本的重要区域进行更新；将对抗样本的扰动分组，逐组减半降低扰动；通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本。本发明利用注意力机制的特点，来提取模型的感兴趣的特征区域，在对注意力区域进行攻击的同时，减少非注意力区域的冗余噪声，即保证了对抗样本的攻击有效性，又增强了对抗样本扰动的不可见性，提高对抗样本的图像质量。

Description

基于注意力机制的低扰动对抗攻击方法

技术领域

本发明属于人工智能安全技术领域，具体涉及一种基于注意力机制的低扰动对抗攻击方法。

背景技术

随着人工智能的发展，深度神经网络在计算机视觉方面得到了越来越广泛的应用。但是，近期的研究表明，深度神经网络很容易受到带有微小扰动的对抗样本的攻击从而产生误分类，这为其带来了许多安全隐患，特别是在自动驾驶，无人机等安全领域上的应用。近年来，人们针对对抗样本的生成进行了越来越广泛的研究，旨在发现模型的不足，提高模型的鲁棒性。

对抗攻击可分为白盒攻击和黑盒攻击。其中，白盒攻击需要已知攻击模型的内部结构信息，不太符合实际的应用场景。黑盒攻击要求攻击者在模型内部结构未知的情况下对其进行攻击，具体可分为查询攻击和迁移性攻击。在查询攻击中，需要利用模型的输出结果来估计模型的决策边界和梯度信息，进而生成对抗样本。而迁移性攻击则利用了白盒模型生成的对抗样本的可转移性。但是这些迁移性攻击未考虑到攻击时产生的噪声冗余问题，即在迭代攻击的过程中均在全局上进行一定步长的扰动。因此，需要结合冗余噪声和攻击效果，设计出低扰动的对抗样本生成方法。

发明内容

本发明解决的技术问题：提供一种对注意力区域进行攻击的同时，减少非注意力区域的冗余噪声，攻击有效性高且增强对抗样本扰动的不可见性的基于注意力机制的低扰动对抗攻击方法。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种基于注意力机制的低扰动对抗攻击方法，其特征在于，包括：首先，获得输入样本的梯度矩阵；选择对抗样本的重要区域进行对抗样本的更新；将对抗样本的扰动分组，逐组减半降低扰动；通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本。

进一步地，获得输入样本的梯度矩阵的方法为：在对抗攻击的过程中，将原始样本输入攻击网络，并利用损失函数得到反向传播后的梯度值矩阵:

并利用基于动量的更新方法优化梯度更新方向:

其中，u为动量因子，J为模型使用的损失函数，

为第t轮迭代产生的对抗样本，y表示原始图片的真实标签，

表示第t轮迭代产生的动量。

进一步地，选择对抗样本的重要区域进行更新的方法如下：

步骤2.1：选择梯度的绝对值大小作为区域重要性的判定依据，将其进行排序，找到梯度绝对值最小的n个像素点的索引位置为

；

其中，L(.)表示获取值的对应索引的损失函数；

步骤2.2：基于索引位置，获得对应的掩码矩阵

；

其中，i,j,k表示每个像素点在矩阵中的索引位置；

步骤2.3：在每轮对抗样本的更新过程中，只选择重要的像素点根据梯度方向进行更新，根据梯度矩阵的符号和掩码矩阵的符号来更新对抗样本

式中，

为扰动的更新步长，

为获取梯度矩阵符号的函数。

进一步地，将对抗样本的扰动分组，逐组减半降低扰动，具体方式如下：

首先根据扰动noise的大小，从大到小进行排序，并进行分组，接着对每组的扰动进行降扰，具体为noise _i =noise _i /2；然后，利用查询机制对降扰后的对抗样本进行验证，即F (x+noise)，若失去攻击效果，则取消该分组的降扰操作；否则，保留具有攻击效果的对抗样本的降扰操作。

进一步地，通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本，具体方式如下：

步骤4.1：首先根据grad-CAM注意力提取方法获得攻击模型的注意力特征图att _i,j,k；

步骤4.2：根据特征图的数值分布特点，根据转换因子

，获得二进制类型的注意力掩码矩阵：

步骤4.3：根据步骤4.2中的获得的注意力掩码矩阵，选择非注意力区域，更为精确地进行降低扰动的操作；在非注意力区域中根据扰动的大小进行排序和分组，接着对每组的扰动进行减半降扰操作，并利用查询机制对降扰后的对抗样本进行验证。若失去攻击效果，则取消该分组的降扰操作；否则，保留具有攻击效果的对抗样本的降扰操作。

有益效果：与现有技术相比，本发明具有以下优点：

（1）本发明提出了基于注意力机制的攻击方法，相比于其他可迁移性对抗样本生成方法，在保证攻击效果的同时，具有更低的噪声冗余。

（2）在对抗样本生成时，根据梯度大小对于图片攻击效果的影响，融合梯度掩码，减少了可迁移攻击产生的冗余噪声。

（3）在对抗样本生成后利用分组降扰的方法对扰动进行初步的压缩。接着，提取注意力特征图，细化攻击区域。融合了注意力机制和查询机制来平衡攻击效果和冗余噪声，进一步减少对抗样本的扰动。

附图说明

图1是基于注意力机制的低扰动对抗攻击方法结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的基于注意力机制的低扰动对抗攻击方法，首先获得输入样本的梯度矩阵；选择对抗样本的重要区域进行对抗样本的更新；将对抗样本的扰动分组，逐组减半降低扰动；通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本。具体包括如下步骤1-步骤4共四大步骤：

步骤1：获得输入样本的梯度矩阵，具体方式如下：

在对抗攻击的过程中，将原始样本输入攻击网络，并利用损失函数得到反向传播后的梯度值矩阵:

并利用基于动量的更新方法优化梯度更新方向:

其中，u为动量因子，J为模型使用的损失函数，

为第t轮迭代产生的对抗样本，y表示原始图片的真实标签，

表示第t轮迭代产生的动量。

步骤2：选择对抗样本的重要区域进行更新，具体方式如下：

步骤2.1：选择梯度的绝对值大小作为区域重要性的判定依据，将其进行排序，找到梯度绝对值最小的n个像素点的索引位置为：

步骤2.2：基于索引位置，获得对应的掩码矩阵：

其中L(.)表示获取值的对应索引的损失函数；

式中，

为扰动的更新步长，

为获取梯度矩阵符号的函数。

步骤3：将对抗样本的扰动分组，逐组减半降低扰动，具体方式如下：

首先根据扰动noise的大小，从大到小进行排序，并进行分组，接着对每组的扰动进行降扰，具体为noise _i =noise _i /2，其中i为组号；然后，利用查询机制对降扰后的对抗样本进行验证，即F(x+noise)，其中x为原始样本，F为黑盒模型模拟的查询函数；若失去攻击效果，则取消该分组的降扰操作；否则，保留具有攻击效果的对抗样本的降扰操作。

步骤4：通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本，具体方式如下：

步骤4.2：根据特征图的数值分布特点，根据转换因子

，获得二进制类型的注意力掩码矩阵：

通过以下实验验证本发明的方法有效性和效率：

评估指标为对抗样本的

范数值（扰动大小）和对黑盒模型的成功攻击率。

成功攻击率——为对黑盒模型的攻击效果。

范数——为对抗样本与原始样本之间扰动量的大小。

首先选择数据集，本发明选择了ImageNet-compatible数据集，其中包含了ImageNet数据集中1000张不同种类的图像，并被应用于NIPS 2017对抗竞赛中。接着本发明选择VGG-16为白盒模型，Inception V3，Inception- ResNet152 V2 (Res-152)和DenseNet161 (Dense-161) 为黑盒攻击模型。对比方法为原始的基于动量的MI-FGSM攻击方法。

表1 本发明在不同黑盒模型下的成功攻击率

表2 本发明在不同黑盒模型下的

范数

表1和表2的结果表示，本发明的方法可以保证成功攻击率下降不超过2%的前提下，大幅降低针对不同黑盒模型进行攻击时的对抗扰动的

范数的大小，进一步提升了对抗样本扰动的不可见性。

总体而言，本发明提出了基于注意力机制的攻击方法。在对抗样本生成时，融合梯度掩码，较少可迁移攻击产生的冗余扰动。在对抗样本生成后利用注意力特征图，细化攻击区域进一步减少了对抗样本的扰动。本发明融合了注意力机制和查询机制，来平衡攻击效果和冗余扰动。相比于其他可迁移性对抗样本生成方法，在保证攻击效果的同时，具有更低的扰动量。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的低扰动对抗攻击方法，其特征在于，包括：首先，获得输入样本的梯度矩阵；选择对抗样本的重要区域进行对抗样本的更新；将对抗样本的扰动分组，逐组减半降低扰动；通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本；其中，获得输入样本的梯度矩阵的方法为：在对抗攻击的过程中，将原始样本输入攻击网络，并利用损失函数得到反向传播后的梯度值矩阵：

并利用基于动量的更新方法优化梯度更新方向:

其中，u为动量因子，J为模型使用的损失函数，

为第t轮迭代产生的对抗样本，y表示原始图片的真实标签，

表示第t轮迭代产生的动量。

2.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法，其特征在于：选择对抗样本的重要区域进行更新的方法如下：

；

其中，L(.)表示获取值的对应索引的损失函数；

步骤2.2：基于索引位置，获得对应的掩码矩阵

；

其中，i,j,k表示每个像素点在矩阵中的索引位置；

式中，

为扰动的更新步长，

为获取梯度矩阵符号的函数。

3.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法，其特征在于：将对抗样本的扰动分组，逐组减半降低扰动，具体方式如下：

首先根据扰动noise的大小，从大到小进行排序，并进行分组，接着对每组的扰动进行降扰，具体为noise _i =noise _i /2，其中i为组号；然后，利用查询机制对降扰后的对抗样本进行验证，即F(x+noise _i )，其中x为原始样本，F为黑盒模型模拟的查询函数；若失去攻击效果，则取消该分组的降扰操作；否则，保留具有攻击效果的对抗样本的降扰操作。

4.根据权利要求1所述的基于注意力机制的低扰动对抗攻击方法，其特征在于：通过注意力机制，选择模型的非注意力区域进一步降低扰动，得到最终的对抗样本，具体方式如下：

步骤4.2：根据特征图的数值分布特点，根据转换因子

，获得二进制类型的注意力掩码矩阵：

步骤4.3：根据步骤4.2中的获得的注意力掩码矩阵，选择非注意力区域，更为精确地进行降低扰动的操作；在非注意力区域中根据扰动的大小进行排序和分组，接着对每组的扰动进行减半降扰操作，并利用查询机制对降扰后的对抗样本进行验证；

若失去攻击效果，则取消该分组的降扰操作；否则，保留具有攻击效果的对抗样本的降扰操作。