CN113222120A

CN113222120A - 基于离散傅立叶变换的神经网络后门注入方法

Info

Publication number: CN113222120A
Application number: CN202110599745.4A
Authority: CN
Inventors: 王亚杰; 刘欣睿; 谭毓安; 张全新; 李元章
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113222120B

Abstract

本发明涉及一种基于离散傅立叶变换的神经网络后门注入方法，属于深度学习安全技术领域。该方法首先将训练数据集分为干净数据集D_clean和投毒数据集D_poisoned；然后对D_poisoned中每一个(图像，标签)对中的图像通过DFT变换到频域空间，在频域图像上添加预设的频域后门触发器，再通过IDFT变换转换回空域生成恶意图像，同时修改该恶意图像的标签为攻击者指定的目标，以生成后门数据集D_poisoned；将D_poisoned与D_clean混合对原始图像分类器进行重训练后生成对应的后门模型。对比现有技术，通过在频域图像上添加后门触发器，使得重训练的后门模型在保证干净样本准确率以及攻击成功率的前提下，大幅度提高了后门图像的隐蔽性，从而实现隐蔽型神经网络后门注入。

Description

基于离散傅立叶变换的神经网络后门注入方法

技术领域

本发明涉及一种基于离散傅立叶变换的神经网络后门注入方法，属于深度学习安全技术领域。

背景技术

随着人工智能时代的到来，神经网络已经成为人工智能领域的主流技术。目前，神经网络已经被广泛应用于如人脸识别、语音识别、游戏、自动驾驶等领域。例如，PayPal用户使用基于深度学习的面部识别系统进行支付。然而，最近的研究表明，深度学习模型容易受到各种攻击。针对深度神经网络的攻击可以分为三类：对抗样本、投毒攻击和后门注入。在输入数据中加入一些扰动，对抗样本可以在不影响深度神经网络的情况下，造成深度神经网络的误分类。但是，这种攻击只会生成针对单一输入的扰动。投毒攻击是一种在训练阶段通过注入恶意训练数据来降低模型的准确性的方法。然而，这种方法只是降低了模型的准确性，攻击者无法选择他们想要的特定数据来导致错误分类，此外，用户在正常情况下也不会部署准确率较低的模型，这就给实践带来了局限性。为了克服这些问题，有学者提出了后门注入。

后门注入使攻击者能够在模型中植入后门，并在测试阶段使用特定的后门触发器执行恶意攻击。被植入后门的深度神经网络可以正确地对良性样本进行分类，但会将任何带有特定后门触发器的输入错误地分类为攻击者选择的目标。后门可以无限期地保持隐藏，直到被具有特定后门触发器的样本激活，这具有巨大的隐蔽性。因此，它会给许多重要的应用带来严重的安全风险。

虽然后门注入已经被证明可以成功地使得神经网络误分类，但目前后门注入的一个主要限制是后门触发器通常是人类感知可见的。当系统管理人员手动检查这些数据集时，会发现可疑的投毒数据集。Chen等人首先讨论了提高后门触发器隐蔽性的重要性。他们设计了一种将后门触发器与良性输入融合的方法，之后，有一系列研究致力于后门注入中的隐蔽性。然而，与良性样本相比，后门的输入仍然是明显的，这使得现有的后门触发器在实践中的可行性较低。因此，提高后门触发器的隐蔽性已成为神经网络后门注入的研究热点。如何在不影响攻击成功率和干净样本准确率的前提下，实现较小的扰动，是创建隐形后门的挑战。

研究隐蔽性后门攻击方法帮助人们了解这种攻击潜在的威胁并通过攻击寻找模型的脆弱点，因此不考虑安全问题直接部署深度学习模型是不可取的，本发明的工作可以促进学界针对隐蔽后门攻击防御方法的进一步研究，激发研究深度神经网络中检测后门的需求以使人工智能模型更加鲁棒。

发明内容

本发明的目的在于提高现有神经网络后门注入隐蔽性，提出了一种基于离散傅立叶变换的神经网络后门注入技术。离散傅立叶变换主要用于将空域图像转换到图像频域，图像的频率是表征图像中灰度变化剧烈程度的指标，是灰度在平面空间上的梯度，对图像而言，图像的边缘部分是突变部分，变化较快，因此反应在频域上是高频分量，图像中的噪声大部分情况是高频部分，图像平缓变化部分为低频分量，图像的傅立叶变换提供了另一个角度来观察图像，可以将图像从灰度分布转换到频率分布来观察图像的特征，从实现角度来说，可以通过离散傅立叶变换公式将图像从空域转换到频域，通过傅立叶逆变换公式将图像从频域转换到空域。

为了通过离散傅立叶变换实现隐蔽性后门植入，本发明通过在图像频域上添加后门触发器的方式，在保证空域上扰动不被察觉前提下，改变图像的频域分布，使得神经网络捕获到频域上的细微改动，从而让神经网络达到错分的目的。

本发明的目的是通过以下技术内容实现的。

一种基于离散傅立叶变换的神经网络后门注入方法，包括以下内容：

S1：从神经网络训练数据集中取出一部分作为后门数据集的原始数据集D_poisoned，剩余一部分作为干净数据集D_clean；

S2：取出所述D_poisoned中的每一个(图像，标签)对，在频域空间对所述图像投毒，具体过程为：使用基于离散傅立叶变换(DFT)的方法将所述图像变换到频域空间，在频域图像上添加预设的频域后门触发器，然后使用逆离散傅立叶变换(IDFT)的方法将图像转换回空域生成恶意图像，同时修改该恶意图像的标签为攻击者指定的目标，以生成后门数据集；

作为优选，使用参数α控制所述后门触发器的隐蔽性。

作为优选，所述图像投毒过程为：

(1)将RGB图像直接使用DFT方法转换成RGB频域图像；

(2)在RGB频域图像的R、G、B三通道上分别添加所述后门触发器；

(3)对(2)得到的图像使用IDFT方法转换回空域生成恶意图像。

作为优选，所述图像投毒过程为：

(1)对(图像，标签)对(x_i，y_i)，使用f_original表示原始RGB图像x_i，使用所述DFT将原始RGB图像转换到频域图像F_original＝DET(f_original)，所述DFT公式如下：

其中，F(u，v)表示在坐标(u，v)处的图像频域表示，f(p，q)表示在坐标(p，q)下的图像空域表示，DET(·)表示对空域图像进行离散傅立叶变换转换到频域表示，H表示空域图像的高度，W表示空域图像的宽度，i为虚数单位；

(2)在所述F_original上添加3维后门触发器F_trigger生成频域后门图像F_poisoned，使用α控制触发器隐蔽性，公式表示如下：

F_poisoned：＝F_original+α*F_trigger；

(3)对所述F_poisoned使用IDFT转换到空域生成空域后门图像f_poisoned＝IDFT(F_poisoned)，所述IDFT公式如下：

(4)将所述f_poisoned中每一个像素点的值裁剪后进行f_poisoned：＝f_poisoned/255.0运算，以实现归一化至[0,1]，输入归一化的目的是为了使神经网络中某些激活函数的梯度不至于过小，从而加快收敛。

作为优选，所述图像投毒过程为：

(1)将RGB图像转换成灰度图像，然后使用DFT方法转换成灰度频域图像；

(2)在所述灰度频域图像上添加所述后门触发器；

(3)对(2)得到的图像使用IDFT方法转换回空域生成灰度空间恶意图像；

(4)将所述灰度空间恶意图像转换为RGB恶意图像。

作为优选，所述图像投毒过程为：

(1)对(图像，标签)对(x_i，y_i)，使用f_original表示原始RGB图像x_i，将所述f_original转换为二维灰度图像

(2)使用所述DFT将所述

转换到频域生成灰度频域图像

频域表示为

所述DFT公式如下：

其中，F(u，v)表示在坐标(u，v)处的图像频域表示，f(p，q)表示在坐标(p，q)下的图像空域表示，DFT(·)表示对空域图像进行离散傅立叶变换转换到频域表示，H表示空域图像的高度，W表示空域图像的宽度，i为虚数单位；

(3)在所述

上添加2维后门触发器

成灰度频域后门图像

使用α控制触发器隐蔽性，公式表示如下：

(4)对所述

使用IDFT转换到空域生成空域灰度后门图像

所述IDFT公式如下：

(5)将所述

转换为RGB后门图像f_poisoned，转换过程为：将原始RGB图像f_original中的R通道和G通道保持不变赋值给f_poisoned中的R通道和G通道，f_poisoned中的B通道使用公式：

进行转换；

(6)将所述f_poisoned中每一个像素点的值裁剪后进行f_poisoned：＝f_poisoned/255.0运算，以实现归一化至[0,1]，输入归一化的目的是为了使神经网络中某些激活函数的梯度不至于过小，从而加快收敛。

S3：将所述后门数据集与所述干净数据集混合对原始图像分类器进行重训练，通过损失函数衡量预测标签和目标标签之间的距离，并通过反向传播不断更新模型参数，以生成对应的后门模型。

作为优选，所述裁剪为：将高于所述x_i像素值范围[min，max]的像素点的值设为max，低于所述x_i像素值范围[min，max]的像素点的值设为min，其中min和max分别表示所述x_i所有像素点中的最大和最小像素值。

有益效果：

对比现有技术，本发明具有以下效果：通过在频域图像上添加后门触发器，使得重训练的后门模型在保证干净样本准确率以及攻击成功率的前提下，大幅度提高了后门图像的隐蔽性，从而实现隐蔽型神经网络后门注入。

附图说明

图1为本发明实施实例的频域添加后门触发器的框架示意图；

图2为本发明实施实例中两种频域添加触发器的方法示意图；

图3为本发明实施实例中两种频域添加触发器方法分别在CIFAR-10和ImageNet数据集的扰动添加示意图；

图4为本发明实施实例中的两种频域添加触发器方法性能及隐蔽性对比示意图；

图5为本发明实施实例中的两种频域添加触发器方法分别在CIFAR-10和ImageNet数据集的隐蔽性和攻击性能关系折线示意图；

图6为本发明实施实例中的两种频域添加触发器方法和经典方法以及Hiddentrigger方法扰动图对比示意图；

图7为本发明实施实例中的两种频域添加触发器方法和经典方法以及Hiddentrigger方法的攻击效果与隐蔽性对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例当中的技术方案进行清楚、完整地描述，需要说明的是，本说明书所附图中示意的公式等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何公式的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

实施例1

基于离散傅立叶变换的神经网络后门注入方法，通过在图像频域添加后门触发器以提高后门触发器的隐蔽性，从而实现隐蔽型神经网络后门注入，包括选取后门数据集，使用离散傅立叶变换将图像转换到频域，在图像频域添加后门触发器，使用逆离散傅立叶变换将后门频域图像转换回空域生成恶意图像，标签置换，投毒攻击，方法中对干净图像投毒的整体架构见图1，其中，Spatial Domain表示图像空域，Frequency Domain表示图像频域，攻击者将Original Image(原始图像)通过DFT(离散傅立叶变换)将空域图像转换到频域图像，接着在频域图像上添加Frequency trigger(频域触发器)生成频域有毒图像，最后通过IDFT(离散傅立叶逆变换)将频域有毒图像转换到空域生成空域有毒图像，使用α控制频域触发器的可见程度。

下面以在ImageNet数据集上应用本发明方法为例对本发明方法进行说明，具体包括以下内容：

S1：从ImageNet训练数据集中取出10％作为后门数据集，剩余90％作为干净数据集；

S2：对后门数据集进行投毒，如图2所示，方式有2种，可以任选一种：

方式1：取出步骤1中后门数据集中的每一个(图像，标签)对，对每一张RGB图像首先转换成灰度图像(RGB to Gray)，然后使用DFT方法将灰度图像变换到灰度频域空间(Frequency Domain)，生成灰度频域图像(Gray Level)，在该灰度频域图像上添加指定的频域后门触发器，此处后门触发器为2维，具体触发器样式如图1中Frequency Trigger(频域触发器)所示，当然，此处只是示例而已，还可以使用其它样式，具体形式由使用者自行定义；接着使用IDFT方法将图像转换回空域生成灰度空间恶意图像，然后将灰度图像转换为RGB恶意图像(Gray to RGB)，具体方式参见图2(b)，所生成的空域触发器扰动见图2(b)Trigger B，同时修改该RGB恶意图像的标签为攻击者指定的目标，以生成后门数据集，该方法生成的后门数据集我们称为

具体的，将将灰度图像

转换为RGB恶意图像的转换过程为：将其原始RGB图像f_original中的R通道和G通道保持不变赋值给恶意图像f_poisoned中的R通道和G通道，f_poisoned中的B通道使用公式：

进行转换；

方式2：取出步骤1中后门数据集中的每一个(图像，标签)对，对每一张RGB图像使用DFT方法变换到频域(Frequency Domain)生成频域图像(RGB Level)，频域图像分成RGB三个通道，分别在三个通道上添加频域触发器(触发器大小为H*W*3，H是图像高度，W是图像宽度)，接着使用IDFT方法将频域后门图像转换回空域生成恶意图像，具体过程参见图2(a)，所生成的空域触发器扰动见图2(a)Trigger A，同时修改该RGB恶意图像的标签为攻击者指定的目标，以生成后门数据集，该方法生成的后门数据集我们称为

进一步的，上述两种方式中都使用α控制触发器隐蔽性。

可选的，将上述生成的恶意图像进行裁剪，如将低于0的像素点值设为0，高于255的像素点值设为255，即将所有像素点值调整到[0,255.0]范围。

进一步的，为了提高隐蔽性，不让恶意图像超出原始图像的边界，对恶意图像裁剪为：将高于原始图像像素值范围[min，max]的像素点的值设为max，低于原始图像像素值范围[min，max]的像素点的值设为min，其中min和max分别表示原始图像所有像素点中的最大和最小值。

当然，本领域技术人员知道，频域添加触发器的方法不限于上述2种，上述2种只是申请人提出的优选方式而已，并且，通过参数α来控制频域触发器的可见程度也是频域添加触发器的优选方式。

S3：将S2的后门数据集与干净数据集混合对原始图像分类器Resnet-18—Model_ori进行重训练，通过交叉熵损失函数衡量预测标签和目标标签之间的距离，并通过反向传播不断更新模型参数，以生成Model_ori对应的后门模型Model_B。

试验结果

从ImageNet测试数据集选取任意多张图像，将多张图像依次分别输入到后门模型Model_B和原始模型Model_ori中，后门模型预测结果和原始模型预测结果始终相同。从ImageNet测试数据集中任意多张图像，使用S2中的方法在图像频域添加触发器，生成的恶意图像输入到后门模型Model_B中，所有输出均为攻击者指定的目标。

上述输出结果表明：对于未添加后门触发器的原始图像，后门可以无限期保持隐藏，直到攻击者使用频域添加触发器方法才会触发后门行为。

频域触发方法B在ImageNet上的攻击效果可以参见图5(d)。

图3展示了在CIFAR-10(第1行和第2行)和Imagenet(第3行和第4行)基于DFT方法生成的Trigger(触发器)，Original Image(原始图像)以及使用不同α值的毒样图像，其中，第1，3行展示图2中方法(a)生成的触发器，第2，4行展示了图2中方法(b)生成的触发器。

图4展示了在Imagenet上图2两种方法的攻击效果表，Trigger A和Trigger B分别表示两种方法，Bestα表示在保证一定ASR(攻击成功率)和CSA(干净样本准确率)情况下的最小α值，ASR表示攻击成功率，CSA表示干净样本准确率，l₂和LPIPS是两个评判原始图像和毒样图像之间距离的指标，指标值越小，表示毒样图像在原始图像上改动越少，隐蔽性更好。

图5显示了图2中两种方法分别在CIFAR-10和Imagenet上攻击性能和α值之间的关系，其中Clean Sample Accuracy表示干净样本准确率，Attack Success Rate表示攻击成功率。

图6展示了四种不同方法生成的毒样(第1行)和对应的触发器(第2行)，第1列Classical Trigger表示经典块状后门触发器方法，第2列Hidden Trigger表示使用优化方法得到一种隐蔽触发器方法，第3列(Trigger A)和第4列(Trigger B)表示图2中的两种基于离散傅立叶变换在频域添加触发器的方法。

图7展示了四种不同方法生成的毒样隐蔽性对比，使用两种隐蔽性对比指标分别为l₂和LPIPS，第1列Classical Trigger表示经典块状后门触发器方法，第2列HiddenTrigger表示使用优化方法得到一种隐蔽触发器方法，第3列(Trigger Aα＝0.5)和第4列(Trigger Bα＝1)表示图2中的两种基于离散傅立叶变换在频域添加触发器的方法。

上述图3-7表明，相比于现有技术，本发明后门注入方法隐蔽性高，注入效果好，攻击成功率高，使用参数α使得触发器隐蔽性可根据实际应用情况动态可调，灵活性好。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于离散傅立叶变换的神经网络后门注入方法，其特征在于，包括以下内容：

S1：从神经网络训练数据集中取出一部分作为后门数据集的原始数据集D_poisoned，剩余一部分作为干净数据集；

S2：取出所述D_poisoned中的每一个(图像，标签)对，在频域空间对所述图像投毒，具体过程为：使用基于离散傅立叶变换DFT的方法将所述图像变换到频域空间，在频域图像上添加预设的频域后门触发器，然后使用逆离散傅立叶变换IDFT的方法将图像转换回空域生成恶意图像，同时修改该恶意图像的标签为攻击者指定的目标，以生成后门数据集；

2.根据权利要求1所述的方法，其特征在于，使用参数α控制所述后门触发器的隐蔽性。

3.根据权利要求2所述的方法，其特征在于，所述图像投毒过程为：

(1)将RGB图像直接使用DFT方法转换成RGB频域图像；

(3)对(2)得到的图像使用IDFT方法转换回空域生成恶意图像。

4.根据权利要求3所述的方法，其特征在于，所述图像投毒过程为：

(1)对(图像，标签)对(x_i，y_i)，使用f_original表示原始RGB图像x_i，使用所述DFT将原始RGB图像转换到频域图像F_original＝DFT(f_original)，所述DFT公式如下：