CN116664978A

CN116664978A - 一种面向人工智能安全的物理灯光后门攻击的训练方法

Info

Publication number: CN116664978A
Application number: CN202310652261.0A
Authority: CN
Inventors: 韩嵩; 伊进; 洪海波; 任思琪; 赵帅; 吴明晖; 纪守领; 周璐; 余水
Original assignee: Zhejiang University ZJU; Zhejiang Gongshang University; Zhejiang University City College ZUCC
Current assignee: Zhejiang University ZJU; Zhejiang Gongshang University; Zhejiang University City College ZUCC
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-29

Abstract

本发明属于人工智能安全领域，并公开了一种面向人工智能安全的物理灯光后门攻击的训练方法，包括：对目标对象进行灯光后门攻击，根据灯光颜色在目标对象上产生对应的灯光触发器，基于灯光触发器生成后门图像数据；获取干净图像数据，基于后门图像数据和所述干净图像数据分别构建训练集；干净图像数据为未产生灯光触发器的原始图像；构建后门模型，所述后门模型为深度学习模型，基于所述训练集对所述后门模型进行训练，得到训练后的后门模型；构建测试集，基于所述测试集对所述训练后的后门模型进行评估，得到灯光后门攻击的攻击成功率数据和干净准确率数据。本发明所述技术方案拥有较高攻击成功率的同时实现了更加隐蔽的物理后门攻击。

Description

一种面向人工智能安全的物理灯光后门攻击的训练方法

技术领域

本发明属于人工智能安全领域，特别是涉及一种面向人工智能安全的物理灯光后门攻击的训练方法。

背景技术

深度神经网络已经在人脸识别、自动驾驶、自然语言处理等领域得到了广泛应用。然而，深度神经网络是脆弱的，它很容易受到敌手攻击。其中，最为著名的攻击是对抗样本。对抗样本对图像添加难以察觉的扰动来欺骗深度神经网络，使图像被错误分类。

后门攻击是深度神经网络的另一种威胁。与对抗样本不同，后门攻击更多的关注于模型的训练阶段，它旨在中毒一小部分训练样本并在训练模型时实现攻击。攻击者将训练好的后门模型在网上共享，当用户下载后门模型并使用时可能会造成安全隐患。

以图像分类为例，后门攻击通过中毒训练集来发起。攻击者对部分干净训练集添加精心制作的触发器，这些添加触发器的图像称为后门图像。此外，将后门训练集的标签设置为目标标签，然后把干净训练集和中毒训练集混合来训练模型。这样训练后的模型在对干净测试集的预测时表现正常，但会对后门测试集做出错误的分类。后门攻击根据目标标签是否和后门图像的原始内容一致分为中毒标签后门攻击和干净标签后门攻击。

数字后门攻击，目前，对后门攻击的研究大多集中于数字后门攻击，即使用数字修改的方法对图像添加触发器，后门触发器可以是一小块补丁或者是像素点，也可以是图像的混合等。

物理后门攻击，物理后门攻击利用现实世界真实存在的对象作为触发器而非数字生成，这使得图像看起来更加自然。例如：物理触发器可能是墨镜或头巾，或者是交通标志上黏贴的贴纸。

当前物理后门攻击存在的问题：

(1)在一些情况下，攻击者很难直接访问目标对象实现触发器的部署，例如，高杆上的交通标志；

(2)直接在目标对象上黏贴贴纸是不自然的，这很容易引起怀疑。

发明内容

本发明的目的是提供一种面向人工智能安全的物理灯光后门攻击的训练方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种面向人工智能安全的物理灯光后门攻击的训练方法，包括：

对目标对象进行灯光后门攻击，根据灯光颜色在目标对象上产生对应的灯光触发器，基于所述灯光触发器生成后门图像数据；

获取干净图像数据，基于所述后门图像数据和所述干净图像数据分别构建训练集；所述干净图像数据为未产生灯光触发器的原始图像；

构建后门模型，其中，所述后门模型为深度学习模型，基于所述训练集对所述后门模型进行训练，得到训练后的后门模型；

构建测试集，基于所述测试集对所述训练后的后门模型进行评估，得到灯光后门攻击的攻击成功率数据和干净准确率数据。

可选的，所述灯光触发器包括蓝、绿、红三种颜色。

可选的，生成所述后门图像数据的过程包括：

在目标对象上产生灯光触发器后，通过摄像机对生成所述灯光触发器的目标对象进行拍摄，得到所述后门图像数据。

可选的，所述干净图像数据为未经过灯光后门攻击的CTSRD交通标志数据集。

可选的，构建所述训练集的过程包括：

将所述后门图像数据作为后门训练集X_b，并将所述后门训练集X_b中的所有图像标记为目标标签，将所述干净图像数据作为干净训练集X_c，对所述干净训练集X_c和后门训练集X_b进行结合分析，得到所述训练集X_p；

其中，获取所述训练集X_p的计算公式为：

X_p＝X_b∪X_c。

可选的，所述训练后的后门模型f_θ为：

f_θ(x)＝y，f_θ(T_p)＝y′

T_p(x_i,t_p,m_i)＝(1-m_i)·x_i+m_i·t_p

其中，T_p是后门图像，t_p是后门触发器，x_i为干净图像，m_i为触发器在图像中的占比，m_i∈[0,1]，x为干净图像，y为干净标签，y^′为后门标签。

可选的，所述测试集为经过变亮、变暗和加噪处理后的图像。

可选的，所述对所述训练后的后门模型进行评估的过程包括：

基于所述测试集对所述训练后的后门模型进行评估，通过计算干净测试集X_c的分类准确率得到干净准确率数据；通过计算错误分类为所述目标标签的后门测试集X_b占所有后门测试集X_b的比率，得到攻击成功率数据。

本发明的技术效果为：

本发明提供的一种面向人工智能安全的物理灯光后门攻击的训练方法通过对目标对象进行灯光后门攻击，进一步在目标对象上生成灯光触发器，基于所述灯光触发器获取后门图像数据；获取干净图像数据，基于所述后门图像数据和所述干净图像数据构建训练集；构建后门模型，其中，所述后门模型为深度学习模型，基于所述训练集对所述后门模型进行训练，得到训练后的后门模型；构建测试集，基于所述测试集对所述训练后的后门模型进行评估，得到灯光后门攻击的攻击成功率数据和干净准确率数据。

本发明提供的灯光后门攻击方法解决了当前物理后门攻击存在的问题：无需直接访问目标对象实现触发器的部署。此外，攻击者可以在需要时主动发起攻击，这使得本发明的方法在发起后门攻击时更具有灵活性和隐蔽性。本发明在拥有较高攻击成功率的同时实现了更加隐蔽的物理后门攻击。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的图像分类实验的总体流程图；

图2为本发明实施例中的灯光后门攻击与现有的后门攻击隐蔽性的比较；

图3为本发明实施例中的部分后门图像的示例和在复杂环境下的Grad-CAM实验；

图4为本发明实施例中的评估其他交通标志测试类的实验结果；

图5为本发明实施例中的抵御数据增强防御的实验结果；

图6为本发明实施例中的抵御Grad-CAM防御的实验结果的流程图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法。在与任何并入的文献冲突时，以本说明书的内容为准。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请说明书和实施例仅是示例性的。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

如图1-图6所示，本实施例中提供了一种面向人工智能安全的物理灯光后门攻击的训练方法，包括：

使用手电筒在交通标志上产生灯光触发器，灯光触发器包括蓝、绿、红三种不同的颜色。

使用摄像机进行拍摄并获取后门训练集X_b，并将后门训练集X_b中的所有图像标记为目标标签。

构建训练集X_p，它包括后门训练集X_b与干净训练集X_c，即：

X_p＝X_b∪X_c，

后门图像可以定义为：

T_p(x_i,t_p,m_i)＝(1-m_i)·x_i+m_i·t_p，

其中，T_p是后门图像，t_p是后门触发器，x_i为干净图像，m_i用来表示触发器在图像中的占比，m_i∈[0,1]。

使用训练集X_p训练后门模型f_θ。一个训练成功的后门模型应该对干净图像的正确分类，但对后门图像错误分类。即：

f_θ(x)＝y，f_θ(T_p)＝y^′

其中，x为干净图像，y为干净标签，T_p为后门图像，y^′为后门标签。

使用测试集评估灯光后门攻击的攻击成功率和干净准确率。

所述测试集由经过变亮、变暗和加噪处理后的图像(后门图像以及干净图像)集合构成；

攻击者具备的能力，假设攻击者可以完全控制训练集，并使用中毒标签的方式实施攻击。此外，攻击者只知道模型的体系结构，但无法控制模型的内部权重和参数。

攻击者的目标，攻击者的目标有两个：1)后门模型对干净图像分类正确。2)模型对带有后门图像分类错误。

本实施例的整体流程图如图1所示，它包括以下3个阶段：产生后门图像，后门模型训练，后门模型评估。

阶段1，产生后门图像。使用手电筒在交通标志上产生灯光触发器，灯光触发器包括蓝、绿、红这三种不同的颜色，然后使用摄像机进行拍摄并获取图像，这些图像为中毒图像，将所有后门图像设置为目标标签。

阶段2，后门模型训练。将部分后门训练集与干净训练集混合放入模型中训练。同时为了验证后门模型对干净数据准确率的影响，使用干净训练集(无后门)和同样的训练设置训练了一个干净模型用以比较。

阶段3，后门模型评估。评估训练后的模型效果。评估分为两个部分：1)评估模型对于干净测试集的分类准确率。2)评估后门的攻击效果，通过计算错误分类为目标标签的后门的测试集占所有后门测试集的比率。

数据集与模型结构

本实施例使用的干净数据集为CTSRD交通标志数据集。考虑到一些图像较少的类以及低分辨率图像对实验结果的影响，本实施例选择了图像数量最多的20类，同时删除了数据集中分辨率高度或宽度小于100的图像。所有图像的大小都调整为224×224×3。本实施例使用的图像分类模型结构为ResNet-18、ResNet-34和ResNet-50。

实验设置

在本实施例的图像分类实验中，后门攻击的类别为禁止汽车通行交通标志。本实施例使用SGD优化器，动量设置为0.9，初始学习率设置为0.01，epoch设置为90，每隔30个epoch学习率下降10倍。中毒率α设为0.02。

实验结果

攻击有效性实验结果：

考虑到现实世界中环境是复杂的，本实验对测试集进行了额外的处理(变亮、变暗和添加高斯噪声)。这是为了模拟真实世界中环境的明亮度变化以及拍摄时可能引入的噪声。后门攻击有效性的评估标准是攻击成功率(ASR)和干净数据准确率(CDA)。实验结果如表1所示：

表1

攻击隐蔽性实验结果：

本实施例在图2中比较了后门攻击的隐蔽性。可以看出，带有数字触发器的图像看起来很可疑。相比之下，物理后门攻击更隐蔽。在本实施例应用场景的假设中，攻击者可以在需要时主动发起攻击，这意味着交通标志在很长的一段时间内都保持干净，相比于在部署后始终黏贴在交通标志上的贴纸触发器，这更加优秀。此外，本实施例的方法在发起攻击时隐蔽性相比于贴纸触发器也更好，这可能会被认为是路边灯光不小心投射在交通标志上。

Grad-CAM实验结果：

Grad-CAM通过热图将DNN的预测过程可视化，这有助于在推理阶段观察模型的焦点区域。如图3所示，利用Grad-CAM可视化展示了部分本实施例后门图像的示例，可以发现，后门模型忽略了后门图像的原始任务，而专注于后门触发器。

评估其他测试类实验结果：

本实施例使用之前训练的后门模型额外评估了“禁止左转交通标志”和“禁止鸣笛交通标志”的后门图像。

本实施例在图4中使用Grad-CAM可视化显示了三类后门图像在后门模型和干净模型中的焦点区域。可以看出，后门模型主要关注灯光触发器，这意味着后门模型成功地对三类后门图像发起了攻击，而干净模型仍然专注于图像的原始任务。这意味着训练后的后门模型在攻击其他类别的后门图像时也是有效的。

后门防御实验结果：

抵御数据增强：本实施例验证了数据增强是否能够抵御灯光后门攻击，通过将后门图像旋转30°并随机裁剪(将图像高度或宽度裁剪30个像素，并将图像重塑为224×224×3)。在图5中显示了数据增强后对后门图像的攻击效果，可以看到灯光后门攻击不受数据增强的影响。后门图像仍然被错误分类，这是因为灯光触发主要集中在目标物体上，并且不是静态触发模式。因此，灯光触发器几乎不会被旋转和随机裁剪破坏。这意味着灯光后门攻击可以抵抗数据增强。

抵御Grad-CAM：利用Grad-CAM生成热力图可以来捕捉后门图像中的触发器。虽然在之前的Grad-CAM实验中表明这种方法可以捕捉到一些灯光后门图像，然而这可以通过增加灯光触发器的面积来规避，如图6所示，当灯光触发器几乎覆盖了整个交通标志时，在干净模型和后门模型中的后门图像的注意力都主要集中于交通标志之上，两者之间的差异较小，后门图像在后门模型中的热力图的焦点区域仅仅是略微变大，这不足以有效的捕捉后门。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向人工智能安全的物理灯光后门攻击的训练方法，其特征在于，包括：

2.根据权利要求1所述的物理灯光后门攻击方法，其特征在于，

所述灯光触发器包括蓝、绿、红三种颜色。

3.根据权利要求1所述的物理灯光后门攻击方法，其特征在于，

生成所述后门图像数据的过程包括：

4.根据权利要求1所述的物理灯光后门攻击方法，其特征在于，

所述干净图像数据为未经过灯光后门攻击的CTSRD交通标志数据集。

5.根据权利要求4所述的物理灯光后门攻击方法，其特征在于，

构建所述训练集的过程包括：

其中，获取所述训练集X_p的计算公式为：

X_p＝X_b∪X_c。

6.根据权利要求5所述的物理灯光后门攻击方法，其特征在于，

所述训练后的后门模型f_θ为：

f_θ(x)＝y，f_θ(T_p)＝y′

T_p(x_i,t_p,m_i)＝(1-m_i)·x_i+m_i·t_p

其中，T_p是后门图像，t_p是后门触发器，x_i为干净图像，m_i为触发器在图像中的占比，m_i∈[0,1]，x为干净图像，y为干净标签，y′为后门标签。

7.根据权利要求6所述的物理灯光后门攻击方法，其特征在于，

所述测试集为经过变亮、变暗和加噪处理后的图像。

8.根据权利要求7所述的物理灯光后门攻击方法，其特征在于，

所述对所述训练后的后门模型进行评估的过程包括：