CN117035034A

CN117035034A - 一种可视化和可解释性检测免疫的深度学习后门攻击方法

Info

Publication number: CN117035034A
Application number: CN202310770508.9A
Authority: CN
Inventors: 姜涛; 陈陆瑶; 齐佩汉; 苗银宾; 李兴华; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-11-10

Abstract

本案涉及一种可视化和可解释性检测免疫的深度学习后门攻击方法，属于信息安全技术领域，用于解决后门样本无法逃避触发器可视化和可解释性检测的问题。所述方法步骤包括：将训练好的编码器和训练好的解释器集成，得到毒化样本生成模型；基于良性样本，利用毒化样本生成模型，生成与所述良性样本具有相似解释的毒化样本；将训练好的深度神经网络模型作为后门模型，当把毒化样本输入后门模型时，后门模型能够按攻击指定的目标类别输出分类且不被解释器归因图检测出，从而实现成功后门攻击。

Description

一种可视化和可解释性检测免疫的深度学习后门攻击方法

技术领域

本发明涉及信息安全技术领域，尤其涉及一种可视化和可解释性检测免疫的深度学习后门攻击方法。

背景技术

深度学习在当前众多领域中得到重要应用，但随着其脆弱性和不可靠性不断被揭示，针对深度神经网络模型的攻击接连涌现，后门攻击就是其中新兴的一种攻击范式。该攻击通常是向目标模型的训练数据中混入一些包含后门触发模式的毒化样本，利用混合后的数据对模型进行训练，经过训练的目标模型即被植入了后门。通常来说，被植入后门的模型对于正常数据仍然可以正确地输出分类结果；但当攻击者向目标模型输入带有触发器的样本时，则会激活模型中的后门，使模型输出攻击者指定的目标类别。后门攻击具有较强的隐蔽性，用户在使用时难以察觉，因此在真实应用场景中具有极大的安全隐患。

目前大多数基础的后门攻击都通过添加非常明显的触发器来制作毒化样本，而这样制作的毒化数据根本无法抵抗人眼对触发器的可视化检测。虽然已有部分后门攻击方案实现了触发器隐藏并保证了较好的攻击效果，但这些方案都没有将模型的可解释性考虑进攻击的具体过程中，大多数方案都只是在实验评估中使用可视化解释工具证明生成的后门样本的鲁棒性。实际上，这些后门样本的可解释性归因图和良性样本的归因图仍然存在细微或较大差别，通过可解释性视觉检查或使用L_P距离依旧可以将二者区分开来，从而过滤毒化样本，使后门攻击失效。

发明内容

本案旨在解决后门样本无法逃避触发器可视化和可解释性检测的问题，提供一种更强大的可视化和可解释性检测免疫的深度学习后门攻击方法，该方法被记作AVDBA。本方案利用数字图像隐写技术，生成一种触发器不可视化的毒化样本，使得无法用肉眼直接从该毒化样本上观察到触发器的存在；同时在后门攻击过程中引入解释器，在编码器的基础上实现解释器的深度学习，以获得与良性样本具有极其相似解释的毒化样本，从而避免可解释性的视觉检查。

为实现上述技术目的，本案的具体技术方案如下。

第一方面，本案提出一种可视化和可解释性检测免疫的深度学习后门攻击方法，所述方法包括下述步骤：

将训练好的编码器和训练好的解释器集成，得到毒化样本生成模型；

基于良性样本，利用毒化样本生成模型，生成与所述良性样本具有相似解释的毒化样本；

将训练好的深度神经网络模型作为后门模型，当把毒化样本输入后门模型时，后门模型能够按攻击指定的目标类别输出分类且不被解释器归因图检测出。

在上述技术方案中，编码器的一种训练实施步骤包括：

编码器采用图像隐写技术，将第一隐写消息编码到良性样本，获得第一毒化样本，并基于所述良性样本和所述第一毒化样本，计算感知差异L_Image；

解码器从第一毒化样本中恢复第一隐写消息得到第二隐写消息，并基于所述第一隐写消息和第二隐写消息，计算消息重构损失L_Message；

利用所述感知差异L_Image和所述消息重构损失L_Message，计算总损失L：

L＝λ₁L_Image+λ₂L_Massage，λ₁、λ₂为权重系数；

直至总损失满足结束训练条件，获得训练好的编码器，其能够实现将包含隐写消息的附加噪声作为触发器添加到良性样本中。

在上述技术方案中，消息重构损失为采用交叉熵计算解码恢复的隐写消息和编码写入的隐写消息之间的距离。

在上述技术方案中，感知差异为LPIPS(Learned Perceptual Image PatchSimilarity)感知损失、L₂残差正则化以及critic损失的加权和。

在上述技术方案中，解释器在训练时，使用训练好的编码器输出的第一毒化样本作为第二毒化样本x_AVDBA的初始值，生成使下述优化函数取得最小值的第二毒化样本x_AVDBA，该样本作为后门模型的输入毒化样本：

s.t.Δ(x_AVDBA，x_SSBA)≤ε

式中：h_be是良性样本x_be的类激活图，ε为设定的阈值，H为解释器，F为预训练好的分类器，l_cla为分类损失，Δ(x_AVDBA，x_SSBA)为x_AVDBA、x_SSBA的l_∞-范数，y_t为攻击指定的目标类别，l_int为解释器损失，。一种解释器损失的计算实施方式中，l_int采用下述方式计算：

在上述技术方案中，使用制作好的毒化样本与良性样本进行混合，用于对深度神经网络模型进行训练，当深度神经网络模型使下式取得最小值时，得到后门模型：

其中：F_θ为后门模型，θ表示后门模型相关参数，y为良性样本对应的原始分类标签，x_bd为毒化样本，y_t为攻击者指定的目标类别，λ是用来平衡两部分损失的参数，l为交叉熵损失函数。

在上述技术方案的一种实施方式中，编码器的一种实现方式为采用U-Net神经网络，解码器的一种实现方式为采用以空间变换网络(Spatial Transformer Network，STN)为基础的神经网络。

第二方面，本案提出一种可视化和可解释性检测免疫的深度学习后门攻击装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现上述任一所述方法。

第三方面，本案根据上述方法实现了一种可视化和可解释性检测免疫的深度学习后门攻击系统，所述系统包括下述模块：

毒化样本生成模型：被配置集成训练好的编码器和训练好的解释器；

生成模块：基于良性样本，利用毒化样本生成模型，生成与所述良性样本具有相似解释的毒化样本；

后门植入模块：被配置为将训练好的深度神经网络模型作为后门模型，当把毒化样本输入后门模型时，后门模型能够按攻击指定的目标类别输出分类且不被解释器归因图检测出。

与现有技术相比，本案具有下述有益技术效果：

(1)在后门攻击的过程中引入解释器，并将训练好的解释器与训练好的编码器集成进行深度学习，以获得触发器不可视化的且与良性样本具有极其相似解释的毒化样本，从而实现可视化和可解释性免疫。

(2)编码器利用数字图像隐写技术，实现将包含隐写消息的附加噪声作为触发器添加到良性样本中，生成一种触发器不可视化的毒化样本，使得无法用肉眼直接从该毒化样本上观察到触发器的存在。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1、一种实施可视化和可解释性检测免疫的深度学习后门攻击方法的流程示意图；

图2、一种实施编码器和解码器的训练过程示意图；

图3、一种实施技术方案框架的具体结构；

图4、一种实施方式中使用不同后门攻击在GTSRB数据集上制作的毒化样本及对应触发器的可视化示意图；

图5、一种实施方式中在ResNet18模型上结合CAM解释器的良性和后门样本(SSBA，AVDBA)的归因图示意图；

图6、一种实施方式中在ResNet18模型上结合CAM解释器的BadNets、Blend以及SIG后门样本的归因图示意图；

图7、一种实施方式中良性样本与后门样本(SSBA，AVDBA)归因图分别在4个数据集及ResNet18、DenseNet169模型上的平均L₁距离示意图；

图8、一种实施方式中良性样本与后门样本(SSBA，AVDBA)归因图分别在4个数据集及ResNet18、DenseNet169模型上的平均L₂距离示意图。

具体实施方式

近年来，针对后门攻击的方案接连涌现，如简单后门攻击、干净标签攻击、反向工程等。简单后门攻击描述了后门攻击的基本步骤，并通过在良性图片上添加指定形状的触发器来制作中毒数据集，可通过在简单后门攻击的基础上将触发器与原图片以一定比例混合来制作毒化样本做进一步改进。干净标签攻击无需更改后门样本的标签，而使用目标类别的部分图像制作后门样本，使模型同时学习到目标类别的原始数据特征和触发器特征。反向工程后门攻击生成能最大程度激活模型中与目标类别相关的神经元的触发器，随后通过逆向工程得到训练集，再使用毒化训练集重新训练模型以植入后门。

但上述攻击方案的触发器都较为明显，无法避免人眼对触发器的可视化检测，在实际应用过程中极易被发现。虽然已有部分后门攻击方案实现了触发器隐藏并保证了较好的攻击效果，但这些方案都没有将模型的可解释性考虑进攻击的具体过程中，大多数方案都只是在实验评估中使用可视化解释工具证明生成的后门样本的鲁棒性。从这些后门样本的可解释性归因图和良性样本的归因图仍然存在细微或较大差别，通过可解释性视觉检查或使用L_P距离依旧可以将二者区分开来，从而过滤毒化样本，使后门攻击失效。

基于此，为解决后门样本无法逃避触发器可视化和可解释性检测的问题，本案提出一种更强大的可视化和可解释性检测免疫的深度学习后门攻击方法，将本案提出的方法记作AVDBA，所述方法将训练好的编码器和训练好的解释器集成，得到毒化样本生成模型。其中，编码器利用数字图像隐写技术，生成触发器不可视化的毒化样本，使得人们从肉眼上无法直接观察到触发器的存在；解释器在编码器的基础上进一步深度学习，在确保触发器不可视化的基础上，生成与良性样本解释极其相似的毒化样本，从而避免可解释性检查。

下面将结合附图，对本案技术方案如何实施进行清楚、完整地描述，显然，所描述的实施方式仅仅是本案的一部分实施方式，而不是全部的实施方式。基于本案中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下文中涉及的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

参见图1，在一种实施方式中，将技术方案的实现分为3个主要阶段，分别是：后门攻击阶段、训练阶段以及推理检测阶段。

后门攻击阶段的主要任务是制作后门样本，本案将训练好的编码器和训练好的解释器集成，得到毒化样本生成模型。将良性样本输入毒化样本生成模型，可获得可视化和可解释性检测免疫的毒化样本。第二个阶段是训练阶段，也是在深度神经网络模型中植入后门的阶段，该阶段和大多后门攻击方案的操作相同，使用制作好的毒化样本与良性样本进行混合并且训练，得到后门模型。第三个阶段是模型的推理与检测阶段，良性样本在后门模型上可以输出原始的类别，而毒化样本x_SSBA以及x_AVDBA虽然都会激活后门模型中的后门，输出攻击指定的目标类别，但是在归因图检测部分，毒化样本x_SSBA在解释上与良性样本相差较大，无法逃避归因图的视觉检测，而毒化样本x_AVDBA在归因图上可以与良性样本做到如出一辙。

接下来，将阐述AVDBA后门攻击方案各阶段的主要实现方法，并介绍在制作后门样本过程中结合解释器训练以及使用图像隐写技术来实现触发器不可视化的具体过程。

(一)后门攻击阶段

1、制作后门样本的一般过程

后门攻击希望在输入的样本数据包含触发器时，植入模型当中的隐藏后门会被触发器激活，从而实现将后门样本分类为攻击者指定的目标类别，即：

F_θ(x+t)＝y_t≠F_θ(x)

其中，F是后门分类模型，θ表示相关模型参数，x是良性的干净样本图像且x∈X＝{0，…，255}^C×W×H，C是通道数、W是图像的宽、H是图像的高，0255为图像像素点的取值范围，y_t是攻击者指定的目标类别，t是触发器，x+t为制作的普通后门样本，将普通后门样本记作x_bd。

需要注意的是，后门攻击不同于投毒攻击，投毒攻击在实现攻击的同时，对良性样本的分类准确率会大幅度降低，但后门攻击在良性样本上仍可以正确分类，即：

其中：y是干净样本的原始分类，y∈Y＝{1，…，N}，N为原始分类总数。

后门攻击通过增加和修改原始训练数据集来创建新的后门训练数据集。通过向随机选择的正常良性样本中添加触发器并将其与标签目标标签y_t关联来生成新实例。这种添加操作将良性图像x_be转变为新的后门图像x_bd，即：

其中，λ是超参数，它指定触发器覆盖原始图像的程度；当λ较大时，触发器覆盖原始图像的程度较高，模型更容易学习到触发器的特征，但与此同时触发器也会变得更加明显。表示张量积。

后门攻击的核心是生成后门训练集D′＝D_p∪D_c，其中D表示包含m个良性样本的训练集，则：

D_p＝{(x_bd，y_t)|x_bd＝(1-λ)x+λt，(x，y)∈D\D_C} (2)

此外，D_p和D中样本数量的比表示投毒率γ，γ越低植入模型的后门越隐蔽，但植入后门的过程相应也会越困难。

2、毒化样本生成模型

2.1、利用编码器实现触发器的不可视化

本案的后门样本首先要实现AVDBA攻击的触发器隐藏，即：基于良性样本x_be、隐写消息，获得触发器不可视化的第一毒化样本x_SSBA。

在实施时，首先构造基于U-Net结构的编码器和以空间变换网络(SpatialTransformer Network，STN)为基础的解码器。

编码器在训练过程中，结合解码器在数据集上同时进行训练，见图2。一种训练实施步骤包括：

L＝λ₁L_Image+λ₂L_Message (3)

式中：λ₁、λ₂为权重系数，用于控制两部分损失的权重。训练过程是以最小化总损失为目标，当训练结束，获得训练好的编码器，能够实现将包含隐写消息的附加噪声作为触发器添加到良性样本中。附加噪声示例为第一毒化样本x_SSBA与生成该第一毒化样本的良性样本x_be的残差。

L_Image示例性的一种计算方式是，令其等于LPIPS(Learned Perceptual ImagePatch Similarity)感知损失、L2残差正则化以及critic损失的加权和。

L_Message示例性的一种计算方式是，采用交叉熵损失计算计算解码恢复的隐写消息和编码写入的隐写消息之间的距离。

2.2、结合解释器制作AVDBA毒化样本

深度学习领域的解释器，是用于解释分类器F如何对给定的输入x进行分类，从而揭示x与F(x)之间的因果关系，即它解释了输入对于分类的重要性，这种重要性通过归因图呈现出来。在归因图中，解释器H生成归因图h＝H(x；F)，其第i个元素h[i]量化了x的第i个特征x[i]相对于F(x)的重要程度。

虽然当前触发器特定于不同样本的方案(Sample-Specific Backdoor Attack，SSBA)制作的毒化样本，能够实现触发器的不可视化，但这样的毒化样本仍可通过解释器生成的归因图，将其与良性样本区分出来。这是由于加入了作为噪声的触发器，噪声在一定程度上改变了后门模型的决策边界，影响了样本特征对分类的重要程度，从而改变了后门样本在类激活映射解释器(Class Activation Mapping，CAM)上的解释，使其与原始的良性样本的类激活图产生肉眼可见的差异。

为了逃避可解释性检测，本案在设计制作毒化样本过程中引入解释器，基于良性样本x_be、触发器不可视化的第一毒化样本x_SSBA，以获得与良性样本x_be具有相似解释的第二毒化样本x_AVDBA。

一种具体实现过程为：在计算之初，用第一毒化样本x_SSBA初始化第二毒化样本x_AVDBA，再通过使下述优化函数取得最小值，获得第二毒化样本x_AVDBA，该样本作为后门模型的输入毒化样本：

式中：h_be是良性样本x_be的类激活图，ε为设定的阈值，H为解释器，F为预训练好的分类器，l_cla为分类损失，Δ(x_AVDBA，x_SSBA)为x_AVDBA、x_SSBA的l_∞-范数，y_t为攻击者指定的目标类别，l_int为解释器损失。一种实施方式中，采用下述方式计算l_int：

所述解释器为事后解释器，可实现在不修改模型结构或参数得情况下，获得类激活图，具有操作友好便捷且使模型具有较好性能的优点。示例性的事后解释器包括类激活映射解释器CAM、Gradient Saliency解释器、MASK解释器等。

所述预训练好的分类器，使用良性样本进行训练得到。一种实施方式中，使用Resnet18神经网络模型作为分类器模型。当第二毒化样本x_AVDBA输入该模型时，通过控制其全连接层的输出，使得第二毒化样本x_AVDBA对应的目标类别为攻击者指定的目标类别y_t。

至此，实现了在训练好的编码器上解释器的训练，生成的毒化样本x_AVDBA与其对应的良性样本在解释器的类激活图上尽可能相似。

将训练好的编码器和训练好的解释器集成，可直接实现在输入一个良性样本时，输出一个可视化且可解释性检测免疫的毒化样本x_AVDBA。如图1的归因图检测部分所示，生成的毒化样本可以绕过人眼对触发器和归因图可解释性的双重视觉检查。

(二)训练阶段

在深度神经网络模型中植入后门的阶段，该阶段和大多后门攻击的操作相同，使用制作好的毒化样本与良性样本进行混合，将混合后的样本用于对深度神经网络模型进行训练，得到后门模型。

不同在于，本案的毒化样本是在编码器基础上引入解释器制作的，将解释器加入到后门攻击的具体过程中，使得后门攻击方案可以有效抵御解释器的可解释性视觉检查，使解释器无法有效地区分出良性样本和后门样本。而且本案的后门模型不仅在干净图像上具有较高的分类准确率，还可以将任何含有触发器不可视化的毒化样本分类到攻击指定目标标签y_t。本方案旨在通过实现双重优化目标，将后门植入到深度神经网络模型当中：

其中，θ表示后门模型相关参数，y为良性样本对应的原始分类标签，λ是用来平衡两部分损失的参数。后门训练过程如图1(b)所示。

图3展示了本方案攻击框架的基本流程，该框架的上半部分是制作后门样本的原始流程，即只通过编码器将触发器与良性样本结合，生成后门样本。该后门样本在训练好的后门模型上可以分类为攻击者指定的目标类别，但是该样本在解释器上的解释与良性样本相差较大，极易被检测出来；图3中下半部分是本框架的核心，即通过在制作后门样本的阶段加入解释器联合编码器生成后门样本，制作出来的后门样本不但可以实现原始的后门攻击效果，而且与良性样本的解释几乎完全一样，可以有效地避免可解释性视觉检测。图3中黄色、红色和绿色的线条分别表示良性样本、普通后门样本以及本框架制作的后门样本的结果。

其中，x表示良性样本，和/>分别为使用普通后门攻击和本攻击框架制作出来的后门样本，y_t为攻击者指定的目标类别，Δ为触发器，M_E、M_I和M_C分别表示编码器、解释器和分类器模型。

(三)模型的推理与检测阶段

良性样本在后门模型上可以输出原始的类别，而毒化样本x_SSBA和毒化样本x_AVDBA虽然都会激活模型中的后门，输出目标类别。但是在归因图检测部分，触发器隐写的毒化样本x_SSBA在解释上与良性样本相差较大，无法逃避归因图的视觉检测；而利用本方案编码器结合解释器制作的毒化样本x_AVDBA，在归因图上可以与良性样本做到如出一辙。

(四)与现有技术比较

本部分从攻击有效性、攻击隐身性上以及归因图相似性检查三个方面，将本发明AVDBA后门攻击方案与现有后门效果较好的技术进行对比，证明本方案的有效性和鲁棒性；同时还在不同的网络结构和数据集应用场景下进行部署，以证明本方案的灵活性和普适性。

1、实验设置

(1)数据集

本实验使用4个不同的标准数据集对AVDBA攻击进行测试。对于手写数字场景，使用MNIST数据集；对于交通标志的识别，使用GTSRB；CIFAR-10和ImageNet则被用于物体识别场景，数据集的具体细节如表1所示。在本实验过程中，训练数据与测试数据没有重叠，并且所有数据在进入模型前均重新调整大小为(224×224×3)。由于对空间和资源的考虑，对于ImageNet数据集，本实验随机取样一个包括200个类别的子集，其中训练集100000个图像，每个类别500张；测试集每个类别50张(共10000个图像)。对于GTSRB，本实验使用原始的训练集按8：2划分为新的训练集和测试集。此外，其他数据集均使用原始的公开数据集版本。

表1

数据集	类别数量	图像大小	训练/测试样本数量
				MNIST	10	28×28	60000/10000
CIFAR-10	10	32×32	50000/10000
				GTSRB	43	15×15-250×250	31368/7841
ImageNet	200	224×224	100000/10000

(2)模型

对于分类器，本实验使用当下流行的网络结构AlexNet、ResNet18和DenseNet169进行方案的设计与部署。在以下实验中，主要使用ResNet18作为默认网络结构以在4个不同的数据集上展示结果。

对于输出归因图的解释器模型，在此实验中采用类激活映射解释器作为示例。

(3)基线攻击对比方案的选择

本实验将AVDBA攻击与典型的后门攻击方案BadNets、将触发器与原图片进行混合的Blend方案、基于干净标签的SIG以及触发器特定于不同样本的方案SSBA在多个数据集和网络模型上进行对比。此外，本实验还提供了只使用良性数据集在模型上进行训练的结果，作为模型原始性能的参照。

(4)攻击设置

在AVDBA攻击方案中，对于所有数据集，毒化比γ最大都设置为10％，并且在所有数据集上攻击者的目标标签都设置为数据集的第一个类别(即，y_t＝0)。在模型的训练过程，本实验使用SGD优化器对受害者模型进行50轮训练，初始学习率设置为0.001，并且在25轮和35轮，学习率会减少0.1倍，分别为0.0001和0.00001。此外，动量设置为0.9；权重衰减设置为1×10^-4；训练和测试批量大小分别设置为128，32。

(5)评估指标

本实验使用Accuracy(ACC)和Attack Success Rate(ASR)来评估后门攻击的有效性。其中，ACC是模型在干净数据集上的分类准确度，用来表示后门对原始分类任务的影响；ASR是被正确分类为攻击者目标标签的后门样本数与总后门样本数之间的比率，用来表示植入的后门性能的好坏。

对于隐身性评估，本实验使用3个经典的指标来衡量良性样本和AVDBA后门样本间的差距：峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)、学习感知图像块相似度(Learned Perceptual Image Patch Similarity，LPIPS)、结构相似性(StructuralSimilarity，SSIM)。

此外，对于归因图相似性检测，本实验还使用L₁平均距离和L₂平均距离对良性样本和后门样本的归因图差距进行了定量比较。

2、实验结果

(1)攻击有效性

在评估AVDBA攻击的有效性方面，本实验将AVDBA与四种典型的后门攻击进行了比较：BadNets，Blend，SIG和SSBA，并且还在干净数据集上进行标准训练作为参照。在所有攻击中，攻击者的目标攻击标签y_t均为0，毒化比γ＝10％。表2分别给出了在4个标准数据集上针对不同网络结构的多种后门攻击ACC和ASR的比较。其中，“原始性能”表示原始模型在干净数据集上进行训练；后门样本的毒化比都默认为10％。在相同数据集中，针对相同类别的模型进行对比，最好的结果加粗表示，并列的最佳结果用下划线表示。从表2中可以看出，本案提出的AVDBA攻击通过仅注入10％后门样本就可以成功毒害训练模型，获得较高的ACC和ASR，并取得与其他攻击方案相当、甚至更好的攻击效果。

表2

表2(续)

具体来说，在MNIST中，BadNets、Blend和SIG都分别在ResNet18、AlexNet和DenseNet169上取得了最好的ACC，但本方案也能实现和他们相似的ACC。并且在该数据集上实施后门攻击最容易，所有方案的ASR均能达到100％。接下来，在CIFAR10和GTSRB上的结果相似，本方案在三种网络模型上都表现出色，并获得相同或非常接近的ASR分数以达到最佳结果。在ImageNet中，本方案在所有网络模型上均取得了最好的ACC，并且也取得了与其他攻击方案相当的ASR。与同样基于隐写技术实现的SSBA方案相比，本方案在AlexNet上的ASR显著高于SSBA的ASR，高了12.84％。此外，在四个不同的数据集上，本方案与用干净样本训练的原始方案相比ACC并未降低很多，最坏的情况下也只降低了3.68％，甚至本方案的ACC在某些模型和数据集上还有所提高(例如在MNIST的AlexNet和ResNet18上)。尽管本方案的ACC和ASR并不能总是显著超过其他攻击，但在受害者模型上成功实施后门攻击是完全足够的。上述结果都证明本方案使用基于隐写技术制作不可视化的复杂触发器且在攻击过程中加入解释器进行调整，对模型学习触发器特征的能力并未降低。

(2)攻击隐身性

接下来，本实验将AVDBA攻击与许多流行的后门攻击方法的隐身性进行比较。首先，图4展示了在GTSRB数据集上通过不同后门攻击方案制作的后门样本及其触发器的可视化示例，图4的第一行为毒化样本，第二行为对应样本的触发器。通过观察可发现，由于触发器嵌入策略简单，因此由BadNets、Blend和SIG方案制作的毒化样本可以非常容易地与良性图像区分开。相比之下，SSBA和本方案生成的后门样本在人类视觉检查中看起来更接近良性样本，更好的对触发器进行了隐蔽。此外，与BadNets中右下角明显的像素块触发模式和Blend中混合的Hello Kity触发模式相比，本方案生成的触发器和对应数据集的场景更加相关，合理性和隐蔽性都优于二者。

为了分析不同后门攻击方案制作的毒化图像和原始良性样本之间的相似性，本实验还进行了隐身性的定量比较，进一步在4个标准数据集上测量了PSNR、SSIM和LPIPS指标的值，如表3所示。PSNR是针对误差敏感的图像质量评价指标，它基于对应像素点间的误差；SSIM用来衡量两张图片的相似程度或图片的失真程度；LPIPS也称为感知损失，更符合人类的感知情况。具体来说，当PSNR和SSIM的分数越大时，毒化样本的隐身性越好；对于LPIPS指标，分数越低，毒化样本与良性样本的相似性越高，隐身性越好。

表3

根据表3中的结果，除了SIG方案在CIFAR10和GTSRB数据集上的LPIPS指标，在其他不同数据集的所有指标下，本方案都明显优于Blend和SIG：针对PSNR，AVDBA方案比二者最大高出12.526，对于SSIM，本方案比二者最大高出0.393；与BadNets相比，虽然本方案的LPIPS指标效果低于BadNets，但在PSNR指标上AVDBA基本都优于BadNets(除了ImageNet数据集)，并且AVDBA攻击也能取得与BadNets相似的SSIM；与SSBA相比，本方案稍微弱于SSBA，尤其是在LPIPS指标上，但本方案在其他指标上也取得了较为理想的结果。尽管本方案没有达到最佳的隐身性能，但依然取得了与当前流行后门攻击方案相当的结果，并且通过AVDBA制作的后门样本在人类视觉检查中无法直接观察到触发器的存在。此外，虽然BadNets攻击看似在多个评估指标方面都取得了最佳的隐身性，但其生成的毒化样本中触发器非常明显，极易容易被视觉检查捕获。

(3)归因图相似性检查

接下来，将评估AVDBA攻击制作的后门样本与良性样本归因图的相似性。具体来说，本实验从可视化归因图的方面定性地比较了本方案的后门样本和良性样本的解释；并且又使用L_P距离定量地分析两者之间的归因图差距。

在可视化分析方面，本实验比较了AVDBA方案与其他基线后门攻击方案的归因图。由于SSBA方案同样能够实现触发器隐藏，而BadNets、Blend和SIG方案制作的后门样本从攻击隐身性上就能将他们区分出来，因此本部分重点对比分析本方案与SSBA方案的解释相似性检查，如图5所示。图5展示了一组在4个不同数据集上CAM解释器对良性样本、SSBA以及本方案的归因图可视化结果。可以观察到，本方案在所有数据集上的解释与对应良性样本的解释没有区别，且样本的解释也是正确合理的；相比之下，SSBA的解释无法通过归因图相似性检查，人眼可以轻松识出其与良性样本的不同，且该方案后门样本的解释不合理。此外，图6也简单给出了BadNets、Blend以及SIG在4个数据集上的归因图，可以发现他们的解释热力与良性样本的相似性也较低。

在L_P定量评估方面，本实验主要使用L₁平均距离和L₂平均距离，通过将样本的归因图作为矩阵，对AVDBA后门样本与对应良性样本的归因图差距进行分析。为了避免图片大小对L_P距离产生的影响，本实验将所有距离除以总像素数来将其标准化为[0，1]。同样，本部分也主要将本方案与SSBA方案进行对比。

图7和图8分别显示了AVDBA攻击与SSBA攻击针对ResNet18和DenseNet169模型在4个不同数据集上的L₁、L₂平均距离。经过分析可知，(1)和SSBA相比，本方案制作的后门样本与良性样本的解释更加相似，其L_P距离显著低于SSBA。在所有情况下，AVDBA的L₁距离都没有超过0.05，且SSBA的平均L₁距离至少是AVDBA的4.04倍，最多达到AVDBA的10.41倍。(2)不同后门攻击方案的L_P度量因不同数据集而异。例如，对于AVDBA攻击，针对ResNet18模型在MNIST数据集上的平均L_P距离最大，而在ImageNet数据集上最小；然而SSBA则与AVDBA的结果正好相反。(3)本方案的有效性对不同的深度神经网络模型较不敏感。AVDBA攻击无论在ResNet18和DenseNet169上，他们都实现了相似的L₁度量和L₂度量。但SSBA方案对于不同的深度神经网络模型就较为敏感。此外，AVDBA在不同模型和数据集上的L₁和L₂度量的具体结果见表4。

因此，无论是从可视化分析还是L_p定量评估方面，本方案都显著优于同样实现了触发器隐写的SSBA方案，凸显了本发明将解释器引入后门攻击具体过程中的优势。

表4

综上所述，本公开技术方案与现有攻击效果较好的技术相比，在攻击有效性上，本方案通过仅注入10％后门样本就可以成功毒害训练模型，获得较高的ACC和ASR，并取得与其他攻击方案相当、甚至更好的攻击效果；在攻击隐身性上，虽然本方案没有达到最佳的隐身性能，但依然取得了与当前流行后门攻击方案相当的结果，并且通过AVDBA制作的后门样本在人类视觉检查中无法直接观察到触发器的存在；在归因图相似性检查方面，本方案显著优于同样实现了触发器隐写的SSBA方案，凸显了本方案在后门攻击过程中引入解释器训练的优势。

在另一实施方式中，根据上述方法实施过程，将其实施为一种可视化和可解释性检测免疫的深度学习后门攻击系统，所述系统包括下述模块：

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开方法或系统可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

需要说明的是在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等，指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

Claims

1.一种可视化和可解释性检测免疫的深度学习后门攻击方法，其特征在于，所述方法包括下述步骤：

2.根据权利要求1所述的方法，其特征在于，编码器的训练步骤包括：

L＝λ₁L_Image+λ₂L_Message，λ₁、λ₂为权重系数；

3.根据权利要求2所述的方法，其特征在于，消息重构损失为采用交叉熵计算解码恢复的隐写消息和编码写入的隐写消息之间的距离。

4.根据权利要求2所述的方法，其特征在于，感知差异为LPIPS(Learned PerceptualImage Patch Similarity)感知损失、L₂残差正则化以及critic损失的加权和。

5.根据权利要求1所述的方法，其特征在于，解释器在训练时，使用训练好的编码器输出的第一毒化样本作为第二毒化样本x_AVDBA的初始值，生成使下述优化函数取得最小值的第二毒化样本x_AVDBA，该样本作为后门模型的输入毒化样本：

s.t.Δ(x_AVDBA，x_SSBA)≤ε

式中：h_be是良性样本x_be的类激活图，ε为设定的阈值，H为解释器，F为预训练好的分类器，为分类损失，Δ(x_AVDBA，x_SSBA)为x_AVDBA、x_SSBA的/>范数，y_t为攻击指定的目标类别，为解释器损失。

6.根据权利要求5所述的方法，其特征在于，采用下述方式计算：

7.根据权利要求1所述的方法，其特征在于：

将制作好的毒化样本与良性样本进行混合，对深度神经网络模型进行训练，当深度神经网络模型使下式取得最小值时，得到后门模型：

其中：F_θ为后门模型，θ表示后门模型相关参数，y为良性样本对应的原始分类标签，x_bd为毒化样本，y_t为攻击者指定的目标类别，λ是用来平衡两部分损失的参数，为交叉熵损失函数。

8.根据权利要求1所述的方法，其特征在于，编码器采用U-Net神经网络，解码器采用以空间变换网络(Spatial Transformer Network，STN)为基础的神经网络。

9.一种基于后门模型生成重建触发器的装置，其特征在于：包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1-8中任一项权利要求所述的生成重建触发器的方法。

10.一种可视化和可解释性检测免疫的深度学习后门攻击系统，其特征在于，所述系统包括下述模块：