CN117876805A

CN117876805A - 基于图像隐写的神经网络后门攻击方法

Info

Publication number: CN117876805A
Application number: CN202310164346.4A
Authority: CN
Inventors: 程杰标; 吴文娟; 邹远炳; 苏婷
Original assignee: Smart City Communication Group Co ltd
Current assignee: Smart City Communication Group Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2024-04-12

Abstract

本发明公开了一种基于图像隐写的神经网络后门攻击方法，属于深度学习安全技术领域。该方法包括以下步骤：生成后门触发器内容二进制流；选定待植入触发器植入通道；基于后门植入算法生成后门样本；后门样本由源类别标签修改目标类别标签；根据注入率随机选择训练集样本，构建后门数据集；构成混合数据集，对原始图像分类器进行重训练，植入后门。本发明通过实现基于隐写的后门植入，在保证重训练后门模型干净样本准确率与攻击成功率的同时，使得后门样本隐蔽性明显增强，实现了隐蔽的神经网络后门注入。

Description

基于图像隐写的神经网络后门攻击方法

技术领域

本发明属于深度学习安全技术领域，特别涉及一种基于图像隐写的神经网络后门攻击方法。

背景技术

近年来，深度学习的应用大幅增加。深度神经网络已被证明在许多领域优于传统的机器学习技术，在图像处理、语音识别和自动驾驶等诸多领域得到了广泛的应用。但是对于个人使用者来说，训练深度神经网络模型需要大量的算力和漫长的训练时间。为了满足日益增长的模型需求，机器学习即服务(Machine Learning as a Service,MLaaS)成为了一种流行的趋势。客户可以指定其所需的任务、模型结构并将其数据上传到服务平台，就可获得由服务平台训练的神经网络模型。由此用户可以节省高昂的专用硬件成本和时间成本。

然而，近期的研究表明神经网络模型容易受到后门攻击。攻击者可以使用添加了触发器的后门样本训练模型，从而导致模型面对干净样本时表现良好、面对后门样本时做出攻击者所预期的错误分类。恶意的MLaaS可以通过向客户提供植入后门模型隐蔽的发起后门攻击。例如，某公司需要部署面部识别解决方案实现访问控制系统；该公司可能会通过寻求外部MLaaS构建面部识别模型。在这种情况下，如果MLaaS提供商是恶意的，希望在未经授权的情况下访问公司资源。则MLaas可以在模型中植入后门，在判断公司员工的日常场景中正确识别人脸。但是，当该后门模型获取到特定输入时，例如佩戴黑帽子或黄色眼镜的人，模型会将其判断为指定的、具有访问权限的人。进而可以有效且隐蔽的绕过公司的安全机制。

当前工作证明了后门攻击的有效性，即可以通过诱导错误的标签预测成功地诱骗模型，但当前攻击的一个主要限制是，在进行肉眼检查时，触发器往往标签为一种可疑的模式(如矩形像素块)，这可能会引起使用者的怀疑。

这给后门攻击的实用性带来了一个问题，因为用户观察到可疑输入，例如带有触发器模式的图像，可能会认为存在潜在后门，进而对相关后门样本进行过滤，导致后门无法成功植入。因此，攻击者如何设计“不可见”后门触发器是一个巨大的研究挑战，因为任何可疑的可见触发器都可能产生警报，甚至提示用户终止与MLaaS提供商的服务。

发明内容

基于此，因此本发明的首要目地是提供一种基于图像隐写的神经网络后门攻击方法，该方法基于图像隐写注入人眼不可见的触发器，实现了一种兼顾有效性和隐蔽性的神经网络后门攻击。

本发明的另一个目地在于提供一种基于图像隐写的神经网络后门攻击方法，该方法保证后门模型与良性模型具有相近的干净样本准确率，同时后门样本对于人类视觉不可见。

为实现上述目的，本发明的技术方案为：

一种基于图像隐写的神经网络后门攻击方法，基于LSB隐写算法构建并植入人眼不可见的后门触发器，包括以下步骤：

S1：生成后门触发器内容二进制流content(trigger)；

S2：选定待生成触发器的植入通道及颜色值value(trigger)；

S3：选定待植入触发器植入通道channel(trigger)

S4：基于后门植入算法

G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本；

S5：后门样本由源类别标签修改目标类别标签；

S6：根据注入率α随机选择训练集样本，构建后门数据集D_bk；

S7：构成混合数据集D_mix，对原始图像分类器进行重训练，植入后门。

进一步，S1步骤中：生成后门触发器内容二进制流content(trigger)；

已有的后门攻击往往直接将触发模式叠加到图像上，触发器可能被检测到。本发明通过在图像样本最低有效位插入后门触发器内容content(trigger)实现后门样本的构建。

为了产生导致样本颜色变化最小化的触发嵌入，需要构建后门触发器内容二进制流content(trigger)。首先选定文本字符串str(例如“AppleApple…ple”)。然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串。

content(trigger)＝Bin(ASCII(str))

S2：选定待植入触发器二进制位数长度pattern(trigger)；

在确定触发器trigger的内容属性content(trigger)后，需要确定待植入二进制流位数长度进行截取。

随着触发器大小的增加(二进制位数长度增加)，触发器的不可见性降低了；当触发器大小增加(二进制位数长度增加)时，DNN更容易识别触发器的比特级特征。单调递增代表后门攻击成功率的提高。此外，模型学习该后门特征的训练轮数随着触发器大小的增加而急剧减少。

更进一步，对于触发器大小，选取兼顾有效性和隐蔽性的二进制位数长度：

pattern(trigger)＝300

S3：选定待植入触发器植入通道channel(trigger)；

在任选RGB中的某一通道注入二进制流触发器：

channel(trigger)＝(1，0，0)

S4：基于后门植入算法；

G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本；

在确定植入后门触发器内容二进制流content(trigger)、二进制位数长度pattern(trigger)和植入通道channel(trigger)后，对选中样本进行后门植入：

x_bk＝G(img,content(trigger),pattern(trigger),channel(trigger))

S5：后门样本由源类别标签修改目标类别标签；

在基于图像隐写添加触发器之后，需要对后门样本的标签进行修改，将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(x_bk,y_target)。

根据步骤S1-S5可以完成单个后门样本x_bk的生成。因此还需要构建由后门样本组成的后门数据集D_bk(即带触发器的训练样本集合)，D代表原始训练集，D_mix代表最终使用的插入后门样本的训练数据集，注入率α表示后门数据集D_bk样本数占原始训练集D样本总数的比例，后门数据集D_bk的生成过程为：

D_bk＝RandomSelect(α,N,D)

RandomSelect(.)函数为随机选择函数，注入率α取值范围为[0,1]，N为原始训练集D的样本总数，从而通过在原始训练集中随机选取样本并植入触发器，构建后门数据集D_bk。

S7：构成混合数据集D_mix，对原始图像分类器进行重训练，植入后门：

D_mix＝D_clean+D_bk

本发明所提出的基于图像隐写的神经网络后门攻击方法可对任意神经网络模型发起攻击。

本发明有益效果如下：

(1)保证后门模型达到接近100％的攻击成功率；

(2)保证后门模型与良性模型具有相近的干净样本准确率；

(3)保证了后门样本对于人类视觉不可见。

因此，本发明通过实现基于隐写的后门植入，在保证重训练后门模型干净样本准确率与攻击成功率的同时，使得后门样本隐蔽性明显增强，实现了隐蔽的神经网络后门注入。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施的流程图。

图2为触发器二进制位数长度与视觉不可见性、后门攻击成功率的相对关系示意图。

图3为本实施例在MNIST数据集的后门样本示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在神经网络攻击方法中，可以分为黑盒攻击与白盒攻击。其中模型参数对于攻击者不可见的被称为黑盒攻击；被攻击模型的模型参数可以被攻击者获取的被称为白盒攻击。

本发明中设定攻击者为MLaaS提供商，因此具有模型访问能力，即本发明属于一种白盒攻击。

在神经网络攻击方法中，可以分为有目标攻击和无目标攻击。其中有目标攻击是指恶意样本被模型定向误分类为某一特定类别；无目标攻击是指仅仅导致恶意样本被模型错误分类，而没有指定的目标类别。

本发明中构建一种基于图像隐写的神经网络后门攻击方法，生成后门样本将被后门模型分类为攻击者预期的目标类别，因此属于一种有目标攻击。

触发器是实现后门攻击的关键，通过添加触发器可以构建后门样本或激活后门行为。

在本发明中，通过图像隐写的方式，隐蔽的植入后门触发器，在人眼不可见的同时，保证其可以成功触发模型后门行为。

干净样本是指未被添加后门触发器的原始图像样本。后门样本是指通过添加后门触发器，构建后门样本用来在训练阶段训练后门模型、在推理阶段激活后门导致源类别样本被错误分类为目标类别样本。

本发明采用图像隐写算法植入触发器构建后门样本。

后门模型是指在训练阶段通过干净样本及后门样本共同训练的模型。在推理阶段，对于干净样本，后门模型与干净模型具有近似的分类性能；对于后门样本，后门模型会将后门样本分类为攻击者指定的目标类别。

如在本发明中，后门模型对于“停止标志”干净样本做出预测判断为“停止标志”，而将通过图像隐写植入触发器的“停止标志”分类为“加速标志”。

源类别表示后门样本的真实类别。目标类别表示攻击者所选中的、希望后门模型对后门样本做出预测结果的类别。

在本发明中，“停止标志”后门样本的源类别就是“停止标志”，目标类别可以任意选择，如“加速标志”。

隐写术是一种隐蔽通信技术，在观察者无法察觉的情况下将信息隐藏到数字媒体(如数字图像)中。在隐写术中，最常用的LSB算法将秘密信息嵌入到图像的最低有效位(LSB)替换。具体来说，替换给定像素中的某些信息不会导致颜色空间中的可见变化，但这个过程改变了图像中像素值的数学分布，尽管人类视觉无法察觉，但DNN在检测此类隐写术被证明是有效的。换言之，LSB隐写算法嵌入秘密信息对DNN是可检测的，而对人类是不可检测的。

因此，本发明利用这一特点，基于LSB隐写算法构建并植入人眼不可见的后门触发器。

如图1所示，根据本发明基于图像隐写的神经网络后门攻击方法，包括以下几个步骤：

S1：生成后门触发器内容二进制流content(trigger)；

已有的后门攻击往往直接将触发模式叠加到图像上，触发器可能被检测到。本发明实施例中，通过在图像样本最低有效位插入后门触发器内容content(trigger)实现后门样本的构建。

为了产生导致样本颜色变化最小化的触发嵌入，需要构建后门触发器内容二进制流content(trigger)。首先选定文本字符串str(例如“AppleApple…ple”)。然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串。其中ASCII码是由美国国家标准学会(American National Standard Institute,ANSI)制定的，是一种标准的单字节字符编码方案，在计算机中，所有的数据在存储和运算时都要使用二进制数表示，ASCII码用于统一规定了基于文本的数据用哪些二进制数来表示。

content(trigger)＝Bin(ASCII(str))

S2：选定待植入触发器二进制位数长度pattern(trigger)；

如图2所示为触发器二进制位数长度与视觉不可见性、后门攻击成功率的相对关系示意图。

如图2蓝线(图中单调递减的线条)所示，随着触发器大小的增加(二进制位数长度增加)，触发器的不可见性降低了。如图2橙线(图中单调递增的线条)所示，当触发器大小增加(二进制位数长度增加)时，DNN更容易识别触发器的比特级特征。图2中橙线的单调递增即代表后门攻击成功率的提高。此外，模型学习该后门特征的训练轮数随着触发器大小的增加而急剧减少。当触发器大小(二进制位数长度)为200时，模型收敛所需的训练轮数为300，而对于触发器大小(二进制位数长度)为600时，模型收敛所需的训练轮数仅为11。这表明，对于较大的触发器，通过隐写术将后门注入DNN模型更容易，但同时也具有较低的隐蔽性。因此，本发明折中选取兼顾有效性和隐蔽性的二进制位数长度：

pattern(trigger)＝300

S3：选定待植入触发器植入通道channel(trigger)；

与触发器大小类似，植入过多通道会导致触发器隐蔽性下降。且本发明实施例通过在RGB任意通道植入后门触发器可以实现有效的后门攻击。因此，可以在任选RGB中的某一通道，如在R通道注入二进制流触发器：

channel(trigger)＝(1，0，0)

S4：基于后门植入算法

G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本；

在确定植入后门触发器内容二进制流content(trigger)、二进制位数长度pattern(trigger)和植入通道channel(trigger)后，可对选中样本进行后门植入：

x_bk＝G(img,content(trigger),pattern(trigger),channel(trigger))

如图3是本实施例在MNIST数据集的后门样本示例。

S5：后门样本由源类别标签修改目标类别标签；

在基于图像隐写添加触发器之后，需要对后门样本的标签进行修改。假设原始图片x的源类别标签为y，靶向攻击目标标签为y_target，则需要将嵌入触发器的后门训练样本x_bk所对应的标签更改为y_target。由此将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(x_bk,y_target)。

根据步骤S1-S5可以完成单个后门样本x_bk的生成。因此还需要构建由后门样本组成的后门数据集D_bk(即带触发器的训练样本集合)。D代表原始训练集。D_mix代表最终使用的插入后门样本的训练数据集。注入率α表示后门数据集D_bk样本数占原始训练集D样本总数的比例。后门数据集D_bk的生成过程为：

D_bk＝RandomSelect(α,N,D)

RandomSelect(.)函数为随机选择函数，注入率α取值范围为[0,1]，N为原始训练集D的样本总数，从而通过在原始训练集中随机选取样本并植入触发器，构建后门数据集D_bk。本发明实施例设置α为0.1。

D_mix＝D_clean+D_bk

本发明所提出的基于图像隐写的神经网络后门攻击方法可对任意神经网络模型发起攻击。本发明实施例基于ResNet-18模型进行实验。

为了评估本发明所提出方法的有效性，使用如下两个指标：

(1)攻击成功率(Attack Success Rate，ASR)，其表示带有触发器的后门样本成功触发后门模型的比例，其中D_test代表测试数据集，是训练的后门模型：

干净样本准确率(Clean Sample Accuracy，CSA)，其表示后门模型对干净样本的分类准确率：

一个后门模型的有效性与攻击成功率ASR正相关，干净样本准确率CSA负相关。

此外为了衡量基于隐写的后门样本隐蔽性，本发明实施例使用结构相似性(Structural Similiarity，SSIM)，结构相似性SSIM越高代表越隐蔽。

其中x和y分别代表插入触发器前后的后门样本，μ_x是x的平均值，μ_y是y的平均值，是x的方差，/>是y的方差，σ_xy是x和y的协方差，c₁和c₂是用来维持稳定的常数。

在MNIST数据集上，本发明实施例的平均攻击成功率ASR达到96.9％；平均CSA达到98.9％，与干净模型CSA平均差距为0.3％。插入触发器前后SSIM达到99.99％。

在CIFAR-10数据集上，本发明实施例的平均攻击成功率ASR达到93.5％；平均CSA达到96.8％，与干净模型CSA平均差距为0.5％。插入触发器前后SSIM达到99.99％。

结果表明，本发明提出基于边框式触发器的神经网络后门攻击方法，在攻击的有效性和隐蔽性均取得良好的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像隐写的神经网络后门攻击方法，其特征在于基于LSB隐写算法构建并植入人眼不可见的后门触发器，包括以下步骤：

S1：生成后门触发器内容二进制流content(trigger)；

S2：选定待生成触发器的植入通道及颜色值value(trigger)；

S3：选定待植入触发器植入通道channel(trigger)

S4：基于后门植入算法

G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本；

S5：后门样本由源类别标签修改目标类别标签；

2.如权利要求1所述的基于图像隐写的神经网络后门攻击方法，其特征在于S1步骤中：生成后门触发器内容二进制流content(trigger)；

首先选定文本字符串str，然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串，

content(trigger)＝Bin(ASCII(str))。

3.如权利要求2所述的基于图像隐写的神经网络后门攻击方法，其特征在于S2步骤中：选定待植入触发器二进制位数长度pattern(trigger)；

4.如权利要求3所述的基于图像隐写的神经网络后门攻击方法，其特征在于S2步骤中：对于触发器大小，选取兼顾有效性和隐蔽性的二进制位数长度：

pattern(trigger)＝300。

5.如权利要求3所述的基于图像隐写的神经网络后门攻击方法，其特征在于S3步骤中：选定待植入触发器植入通道channel(trigger)；

在任选RGB中的某一通道注入二进制流触发器：

channel(trigger)＝(1，0，0)。

6.如权利要求5所述的基于图像隐写的神经网络后门攻击方法，其特征在于S4步骤中：基于后门植入算法G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本；

x_bk＝G(img,content(trigger),pattern(trigger),channel(trigger))。

7.如权利要求6所述的基于图像隐写的神经网络后门攻击方法，其特征在于S5步骤中：后门样本由源类别标签修改目标类别标签；

在基于图像隐写添加触发器之后，将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(x_bk,y_target)。

8.如权利要求7所述的基于图像隐写的神经网络后门攻击方法，其特征在于S1步骤中：S6：根据注入率α随机选择训练集样本，构建后门数据集D_bk；

根据步骤S1-S5完成单个后门样本x_bk的生成后，还需要构建由后门样本组成的后门数据集D_bk(即带触发器的训练样本集合)，D代表原始训练集，D_mix代表最终使用的插入后门样本的训练数据集，注入率α表示后门数据集D_bk样本数占原始训练集D样本总数的比例，后门数据集D_bk的生成过程为：

D_bk＝RandomSelect(α,N,D)

9.如权利要求8所述的基于图像隐写的神经网络后门攻击方法，其特征在于S7步骤中：构成混合数据集D_mix，对原始图像分类器进行重训练，植入后门：

D_mix＝D_clean+D_bk。