CN116361965A

CN116361965A - 基于注意力引导的自适应动量偏差对抗攻击方法

Info

Publication number: CN116361965A
Application number: CN202310124957.6A
Authority: CN
Inventors: 张小亚; 姚雯; 姜廷松; 周炜恩; 李超
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-06-30

Abstract

本发明公开了一种基于注意力引导的自适应动量偏差对抗攻击方法，包括：根据目标模型，选取代理模型，获取输入图像；构建输入图像的邻域，确定输入图像梯度和邻域中每个图像的梯度；计算邻域中图像的平均梯度，根据平均梯度和输入图像梯度计算动量偏差和输入图像动量；获取输入图像的热力图，对热力图中所有像素点的像素值进行降序排序，确定关键像素点；将输入图像动量输入符号函数，获取攻击方向，在攻击方向上添加预设干扰值，获得干扰矩阵，根据干扰矩阵对输入图像中的关键像素点添加干扰；对输入图像中的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本。本发明能够降低生成对抗样本所需的计算资源，并提高对抗样本的泛化性。

Description

基于注意力引导的自适应动量偏差对抗攻击方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于注意力引导的自适应动量偏差对抗攻击方法。

背景技术

以深度学习为代表的人工智能技术深刻地改变着人类的生产和生活方式，并成功地应用在自然语言处理、语音识别、自动驾驶、目标检测、医学图像处理等各个领域。然而，深度神经网络很容易受到攻击，从而做出错误的判断，这给深度学习在国防安全、公共安全等安全敏感领域的应用蒙上了阴影，因此为开发更加鲁棒可靠的深度学习系统，就需要探究造成深度学习安全隐患的各种因素。

目前深度学习中最主要的安全隐患来自于对抗样本，对抗样本是指一种在干净样本中添加由攻击者特定设计的噪声的样本，例如以图像分类为例，对抗样本通过在原始图像上添加一些难以察觉的扰动获得。从人眼角度观察，对抗样本与其所对应的原始样本之间基本无任何差别，但对抗样本可以使一个训练好的深度神经网络做出错误的推断，其中，对抗样本致使深度神经网络预测错误结果的过程被定义为对抗攻击。因此，有必要对深度神经网络的对抗攻击进行深入研究。

在现实世界中，对抗攻击可能被利用并导致严重的安全问题，例如自动驾驶汽车的深度学习系统受到对抗攻击时，将会导致深度学习系统对交通标志牌的错误判断，从而造成严重的交通事故。当然，对抗攻击也具有正面作用，例如在军事对抗领域，通过生成对抗样本对敌对方的深度学习系统进行攻击，能够致使敌对方的深度学习系统对目标产生错误判断。此外，通过对训练完成的深度神经网络进行对抗攻击测试，也能够对深度神经网络的性能、稳定性和鲁棒性进行检测，进而基于检测结果对深度神经网络进行进一步的更新改进。

在实际应用中，若已知要攻击的深度神经网络的结构及参数时，可以根据深度神经网络的信息有针对性地生成对抗样本以进行对抗攻击。然而，在一些情况下，深度神经网络的内部信息是无法获知的，针对无法获知深度神经网络的内部信息的情况，目前采用黑盒对抗攻击方法进行对抗攻击。

现有的黑盒对抗攻击方法主要包括基于迁移的对抗攻击方法和基于查询的对抗攻击方法。其中，基于迁移的对抗攻击方法通过选择一个本地模型作为被攻击目标模型的代理模型，然后针对本地模型生成对抗样本，而后利用生成的对抗样本攻击目标模型。基于查询的对抗攻击方法通过向输入图像添加一个轻微的扰动，观察目标模型的输出变化，然而通过一系列的查询，粗略估计目标模型的梯度，在获得模型梯度后，通过使用梯度上升技术来实现对目标模型的攻击。

然而，由于不同深度神经网络模型间存在结构差异，采用基于迁移的对抗攻击方法时，生成的对抗样本在不同深度神经网络模型之间的迁移性较差，相应的攻击效果较差。采用基于查询的对抗攻击方法时，需要对深度神经网络进行大量的查询，所需消耗的计算时间和计算资源较多，成本较高。

发明内容

为解决上述现有技术中存在的部分或全部技术问题，本发明提供一种基于注意力引导的自适应动量偏差对抗攻击方法。

本发明的技术方案如下：

提供了一种基于注意力引导的自适应动量偏差对抗攻击方法，包括：

根据待攻击的目标模型，选取一个本地模型作为代理模型，根据代理模型，获取对应的输入图像；

构建输入图像对应的邻域，并确定输入图像梯度和邻域中每个图像的梯度；

计算邻域中图像的平均梯度，根据平均梯度和输入图像梯度计算动量偏差，根据动量偏差和输入图像梯度计算输入图像动量；

获取输入图像的热力图，对热力图中所有像素点的像素值进行降序排序，选取位于前序的预设数量的像素点作为关键像素点；

将输入图像动量输入符号函数，获取攻击方向，在攻击方向上添加预设干扰值，获得干扰矩阵，根据干扰矩阵对输入图像中的关键像素点添加干扰；

对输入图像中的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本。

在一些可能的实现方式中，采用以下方式构建输入图像对应的邻域：

在输入图像上添加一个随机噪声，生成一个输入图像对应的邻域。

在一些可能的实现方式中，所述动量偏差等于邻域中图像的平均梯度与输入图像梯度的差值。

在一些可能的实现方式中，根据动量偏差和输入图像梯度计算输入图像动量，包括：

对当前得到的动量偏差和预设历史动量偏差进行线性加权处理，得到线性加权结果；

根据动量偏差的线性加权结果和输入图像梯度，计算确定输入图像动量。

在一些可能的实现方式中，利用以下公式对当前得到的动量偏差和预设历史动量偏差进行线性加权处理：

v_t＝ω₁v_F+ω₂v_H

其中，v_t表示动量偏差的线性加权结果，ω₁表示v_F对应的权重，v_F表示当前得到的动量偏差，ω₂表示v_H对应的权重，v_H表示预设历史动量偏差。

在一些可能的实现方式中，利用以下公式计算确定输入图像动量：

其中，g_F表示输入图像动量，g_H表示预设历史输入图像动量，μ表示g_H对应的权重，

表示输入图像梯度。

在一些可能的实现方式中，利用注意力机制对输入图像进行处理，获取输入图像的热力图。

在一些可能的实现方式中，对输入图像中的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本，进一步包括：

针对输入图像中的每个关键像素点，分别生成一个对应的随机数，若随机数大于预设阈值，对随机数对应的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本。

在一些可能的实现方式中，所述方法还包括：

利用对抗样本对代理模型进行对抗攻击，并判断是否攻击成功，若否，将当前得到的动量偏差作为预设历史动量偏差，将当前得到的输入图像动量作为预设历史输入图像动量，重新构建输入图像对应的邻域以重新生成对抗样本，直至攻击成功。

本发明技术方案的主要优点如下：

本发明的基于注意力引导的自适应动量偏差对抗攻击方法通过在选取本地模型作为目标模型的代理模型的基础上，利用注意力机制和自适应动量机制来生成相应的对抗样本，既能够降低所需的计算时间和计算资源，又能够提高生成的对抗样本的泛化性，提高对抗样本在不同深度神经网络模型之间的迁移性能，进而提高对抗样本对目标模型的攻击效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一实施例的基于注意力引导的自适应动量偏差对抗攻击方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明实施例提供的技术方案。

参考图1，本发明一实施例提供了一种基于注意力引导的自适应动量偏差对抗攻击方法，该方法包括以下步骤S1-S6：

步骤S1，根据待攻击的目标模型，选取一个本地模型作为代理模型，根据代理模型，获取对应的输入图像。

本发明一实施例中，根据待攻击的目标模型在实际使用时的输入及其作用，选取一个与目标模型具有相近输入及作用的本地模型作为代理模型。

进一步地，根据选取的代理模型，获取多个对应的输入图像。

例如，以目标模型为用于进行车辆分类的目标分类网络为例，代理模型例如为VGG网络模型。

其中，根据选取的代理模型，可以从目前已有的图像数据中获取输入图像。

步骤S2，构建输入图像对应的邻域，并确定输入图像梯度和邻域中每个图像的梯度。

本发明一实施例中，采用以下方式构建输入图像对应的邻域：

其中，随机噪声可以采用服从正态分布且数值范围为0-1的随机数。

本发明一实施例中，可以根据实际需求生成多个邻域。

进一步地，本发明一实施例中，通过对图像进行求导来获取图像梯度。

步骤S3，计算邻域中图像的平均梯度，根据平均梯度和输入图像梯度计算动量偏差，根据动量偏差和输入图像梯度计算输入图像动量。

本发明一实施例中，以邻域中所有图像的梯度的算术平均值作为平均梯度，以平均梯度与输入图像梯度的差值作为动量偏差。

进一步地，本发明一实施例中，根据动量偏差和输入图像梯度计算输入图像动量包括以下步骤S31-S32：

步骤S31，对当前得到的动量偏差和预设历史动量偏差进行线性加权处理，得到线性加权结果。

本发明一实施例中，线性加权处理可以表示为：

v_t＝ω₁v_F+ω₂v_H

其中，权重参数ω₁和ω₂可以根据实际情况进行设置。

步骤S32，根据动量偏差的线性加权结果和输入图像梯度，计算确定输入图像动量。

本发明一实施例中，根据动量偏差的线性加权结果和输入图像梯度，利用以下方式计算确定输入图像动量：

表示输入图像梯度。

其中，权重参数μ可以根据实际情况进行设置。

步骤S4，获取输入图像的热力图，对热力图中所有像素点的像素值进行降序排序，选取位于前序的预设数量的像素点作为关键像素点。

本发明一实施例中，利用注意力机制对输入图像进行处理，获取输入图像的热力图。

具体地，对于如何利用注意力机制对输入图像进行处理，获取输入图像的热力图，可以参照现有技术文献：J.Yosinski，J.Clune，A.Nguyen，T.Fuchs，H.Lipson，Understanding neural networks through deep visualization，arXiv preprintarXiv：1506.06579(2015)。

进一步地，本发明一实施例中，可以选取前45～55％的像素点作为关键像素点，例如选取前50％的像素点作为关键像素点。

本发明一实施例中，通过利用注意力机制确定并提取输入图像中的关键像素点，且在后续处理时仅对关键像素点进行处理，能够有效地消除冗余的像素点，避免需要对输入图像的所有像素点进行处理，减少所需的图像处理时间和处理资源。

步骤S5，将输入图像动量输入符号函数，获取攻击方向，在攻击方向上添加预设干扰值，获得干扰矩阵，根据干扰矩阵对输入图像中的关键像素点添加干扰。

本发明一实施例中，符号函数采用Sgn函数。

步骤S6，对输入图像中的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本。

具体地，本发明一实施例中，针对输入图像中的每个关键像素点，分别生成一个对应的随机数，若随机数大于预设阈值，对随机数对应的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本。

本发明一实施例中，随机数服从正态分布，预设阈值根据实际情况进行设置。

本发明一实施例中，对关键像素点的位置上进行概率稀疏包括：

将关键像素点的位置上的数值平均分配给其周边的其他像素点。

进一步地，本发明一实施例中，该基于注意力引导的自适应动量偏差对抗攻击方法还包括：

步骤S7，利用对抗样本对代理模型进行对抗攻击，并判断是否攻击成功，若否，将当前得到的动量偏差作为预设历史动量偏差，将当前得到的输入图像动量作为预设历史输入图像动量，重新执行步骤S2-S7，直至攻击成功。

本发明一实施例中，在循环迭代过程中，初始的预设历史动量偏差可以设置为0，初始的预设历史输入图像动量可以设置为0。

本发明一实施例提供的基于注意力引导的自适应动量偏差对抗攻击方法通过在选取本地模型作为目标模型的代理模型的基础上，利用注意力机制和自适应动量机制来生成相应的对抗样本，既能够降低所需的计算时间和计算资源，又能够提高生成的对抗样本的泛化性，提高对抗样本在不同深度神经网络模型之间的迁移性能，进而提高对抗样本对目标模型的攻击效果。

以下结合具体示例对本发明一实施例提供的基于注意力引导的自适应动量偏差对抗攻击方法的有益效果进行说明：

该示例中，以现有的VGG-19网络模型作为待攻击的目标模型，选择现有的VGG-16网络模型作为代理模型，同时，从现有的ImageNet数据中随机选取500张图像作为输入图像。而后，根据选取的输入图像，利用本发明一实施例提供的基于注意力引导的自适应动量偏差对抗攻击方法生成对应的对抗样本，并利用对抗样本分别对VGG-19网络模型和VGG-16网络模型进行攻击。在最终得到的攻击结果中，针对代理模型VGG-16网络模型的攻击成功率为99.4％，针对目标模型VGG-19网络模型的攻击成功率为90.2％。

可见，根据本发明一实施例提供的基于注意力引导的自适应动量偏差对抗攻击方法生成的对抗样本具有较好的攻击效果。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，采用以下方式构建输入图像对应的邻域：

3.根据权利要求1所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，所述动量偏差等于邻域中图像的平均梯度与输入图像梯度的差值。

4.根据权利要求3所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，根据动量偏差和输入图像梯度计算输入图像动量，包括：

5.根据权利要求4所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，利用以下公式对当前得到的动量偏差和预设历史动量偏差进行线性加权处理：

v_t＝ω₁v_F+ω₂v_H

6.根据权利要求5所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，利用以下公式计算确定输入图像动量：

表示输入图像梯度。

7.根据权利要求4所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，利用注意力机制对输入图像进行处理，获取输入图像的热力图。

8.根据权利要求4所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，对输入图像中的关键像素点的位置上进行概率稀疏，得到输入图像对应的对抗样本，进一步包括：

9.根据权利要求4所述的基于注意力引导的自适应动量偏差对抗攻击方法，其特征在于，所述方法还包括：