CN117876805A - 基于图像隐写的神经网络后门攻击方法 - Google Patents

基于图像隐写的神经网络后门攻击方法 Download PDF

Info

Publication number
CN117876805A
CN117876805A CN202310164346.4A CN202310164346A CN117876805A CN 117876805 A CN117876805 A CN 117876805A CN 202310164346 A CN202310164346 A CN 202310164346A CN 117876805 A CN117876805 A CN 117876805A
Authority
CN
China
Prior art keywords
trigger
back door
sample
neural network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310164346.4A
Other languages
English (en)
Inventor
程杰标
吴文娟
邹远炳
苏婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart City Communication Group Co ltd
Original Assignee
Smart City Communication Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart City Communication Group Co ltd filed Critical Smart City Communication Group Co ltd
Priority to CN202310164346.4A priority Critical patent/CN117876805A/zh
Publication of CN117876805A publication Critical patent/CN117876805A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像隐写的神经网络后门攻击方法,属于深度学习安全技术领域。该方法包括以下步骤:生成后门触发器内容二进制流;选定待植入触发器植入通道;基于后门植入算法生成后门样本;后门样本由源类别标签修改目标类别标签;根据注入率随机选择训练集样本,构建后门数据集;构成混合数据集,对原始图像分类器进行重训练,植入后门。本发明通过实现基于隐写的后门植入,在保证重训练后门模型干净样本准确率与攻击成功率的同时,使得后门样本隐蔽性明显增强,实现了隐蔽的神经网络后门注入。

Description

基于图像隐写的神经网络后门攻击方法
技术领域
本发明属于深度学习安全技术领域,特别涉及一种基于图像隐写的神经网络后门攻击方法。
背景技术
近年来,深度学习的应用大幅增加。深度神经网络已被证明在许多领域优于传统的机器学习技术,在图像处理、语音识别和自动驾驶等诸多领域得到了广泛的应用。但是对于个人使用者来说,训练深度神经网络模型需要大量的算力和漫长的训练时间。为了满足日益增长的模型需求,机器学习即服务(Machine Learning as a Service,MLaaS)成为了一种流行的趋势。客户可以指定其所需的任务、模型结构并将其数据上传到服务平台,就可获得由服务平台训练的神经网络模型。由此用户可以节省高昂的专用硬件成本和时间成本。
然而,近期的研究表明神经网络模型容易受到后门攻击。攻击者可以使用添加了触发器的后门样本训练模型,从而导致模型面对干净样本时表现良好、面对后门样本时做出攻击者所预期的错误分类。恶意的MLaaS可以通过向客户提供植入后门模型隐蔽的发起后门攻击。例如,某公司需要部署面部识别解决方案实现访问控制系统;该公司可能会通过寻求外部MLaaS构建面部识别模型。在这种情况下,如果MLaaS提供商是恶意的,希望在未经授权的情况下访问公司资源。则MLaas可以在模型中植入后门,在判断公司员工的日常场景中正确识别人脸。但是,当该后门模型获取到特定输入时,例如佩戴黑帽子或黄色眼镜的人,模型会将其判断为指定的、具有访问权限的人。进而可以有效且隐蔽的绕过公司的安全机制。
当前工作证明了后门攻击的有效性,即可以通过诱导错误的标签预测成功地诱骗模型,但当前攻击的一个主要限制是,在进行肉眼检查时,触发器往往标签为一种可疑的模式(如矩形像素块),这可能会引起使用者的怀疑。
这给后门攻击的实用性带来了一个问题,因为用户观察到可疑输入,例如带有触发器模式的图像,可能会认为存在潜在后门,进而对相关后门样本进行过滤,导致后门无法成功植入。因此,攻击者如何设计“不可见”后门触发器是一个巨大的研究挑战,因为任何可疑的可见触发器都可能产生警报,甚至提示用户终止与MLaaS提供商的服务。
发明内容
基于此,因此本发明的首要目地是提供一种基于图像隐写的神经网络后门攻击方法,该方法基于图像隐写注入人眼不可见的触发器,实现了一种兼顾有效性和隐蔽性的神经网络后门攻击。
本发明的另一个目地在于提供一种基于图像隐写的神经网络后门攻击方法,该方法保证后门模型与良性模型具有相近的干净样本准确率,同时后门样本对于人类视觉不可见。
为实现上述目的,本发明的技术方案为:
一种基于图像隐写的神经网络后门攻击方法,基于LSB隐写算法构建并植入人眼不可见的后门触发器,包括以下步骤:
S1:生成后门触发器内容二进制流content(trigger);
S2:选定待生成触发器的植入通道及颜色值value(trigger);
S3:选定待植入触发器植入通道channel(trigger)
S4:基于后门植入算法
G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本;
S5:后门样本由源类别标签修改目标类别标签;
S6:根据注入率α随机选择训练集样本,构建后门数据集Dbk
S7:构成混合数据集Dmix,对原始图像分类器进行重训练,植入后门。
进一步,S1步骤中:生成后门触发器内容二进制流content(trigger);
已有的后门攻击往往直接将触发模式叠加到图像上,触发器可能被检测到。本发明通过在图像样本最低有效位插入后门触发器内容content(trigger)实现后门样本的构建。
为了产生导致样本颜色变化最小化的触发嵌入,需要构建后门触发器内容二进制流content(trigger)。首先选定文本字符串str(例如“AppleApple…ple”)。然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串。
content(trigger)=Bin(ASCII(str))
S2:选定待植入触发器二进制位数长度pattern(trigger);
在确定触发器trigger的内容属性content(trigger)后,需要确定待植入二进制流位数长度进行截取。
随着触发器大小的增加(二进制位数长度增加),触发器的不可见性降低了;当触发器大小增加(二进制位数长度增加)时,DNN更容易识别触发器的比特级特征。单调递增代表后门攻击成功率的提高。此外,模型学习该后门特征的训练轮数随着触发器大小的增加而急剧减少。
更进一步,对于触发器大小,选取兼顾有效性和隐蔽性的二进制位数长度:
pattern(trigger)=300
S3:选定待植入触发器植入通道channel(trigger);
在任选RGB中的某一通道注入二进制流触发器:
channel(trigger)=(1,0,0)
S4:基于后门植入算法;
G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本;
在确定植入后门触发器内容二进制流content(trigger)、二进制位数长度pattern(trigger)和植入通道channel(trigger)后,对选中样本进行后门植入:
xbk=G(img,content(trigger),pattern(trigger),channel(trigger))
S5:后门样本由源类别标签修改目标类别标签;
在基于图像隐写添加触发器之后,需要对后门样本的标签进行修改,将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(xbk,ytarget)。
S6:根据注入率α随机选择训练集样本,构建后门数据集Dbk
根据步骤S1-S5可以完成单个后门样本xbk的生成。因此还需要构建由后门样本组成的后门数据集Dbk(即带触发器的训练样本集合),D代表原始训练集,Dmix代表最终使用的插入后门样本的训练数据集,注入率α表示后门数据集Dbk样本数占原始训练集D样本总数的比例,后门数据集Dbk的生成过程为:
Dbk=RandomSelect(α,N,D)
RandomSelect(.)函数为随机选择函数,注入率α取值范围为[0,1],N为原始训练集D的样本总数,从而通过在原始训练集中随机选取样本并植入触发器,构建后门数据集Dbk
S7:构成混合数据集Dmix,对原始图像分类器进行重训练,植入后门:
Dmix=Dclean+Dbk
本发明所提出的基于图像隐写的神经网络后门攻击方法可对任意神经网络模型发起攻击。
本发明有益效果如下:
(1)保证后门模型达到接近100%的攻击成功率;
(2)保证后门模型与良性模型具有相近的干净样本准确率;
(3)保证了后门样本对于人类视觉不可见。
因此,本发明通过实现基于隐写的后门植入,在保证重训练后门模型干净样本准确率与攻击成功率的同时,使得后门样本隐蔽性明显增强,实现了隐蔽的神经网络后门注入。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施的流程图。
图2为触发器二进制位数长度与视觉不可见性、后门攻击成功率的相对关系示意图。
图3为本实施例在MNIST数据集的后门样本示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在神经网络攻击方法中,可以分为黑盒攻击与白盒攻击。其中模型参数对于攻击者不可见的被称为黑盒攻击;被攻击模型的模型参数可以被攻击者获取的被称为白盒攻击。
本发明中设定攻击者为MLaaS提供商,因此具有模型访问能力,即本发明属于一种白盒攻击。
在神经网络攻击方法中,可以分为有目标攻击和无目标攻击。其中有目标攻击是指恶意样本被模型定向误分类为某一特定类别;无目标攻击是指仅仅导致恶意样本被模型错误分类,而没有指定的目标类别。
本发明中构建一种基于图像隐写的神经网络后门攻击方法,生成后门样本将被后门模型分类为攻击者预期的目标类别,因此属于一种有目标攻击。
触发器是实现后门攻击的关键,通过添加触发器可以构建后门样本或激活后门行为。
在本发明中,通过图像隐写的方式,隐蔽的植入后门触发器,在人眼不可见的同时,保证其可以成功触发模型后门行为。
干净样本是指未被添加后门触发器的原始图像样本。后门样本是指通过添加后门触发器,构建后门样本用来在训练阶段训练后门模型、在推理阶段激活后门导致源类别样本被错误分类为目标类别样本。
本发明采用图像隐写算法植入触发器构建后门样本。
后门模型是指在训练阶段通过干净样本及后门样本共同训练的模型。在推理阶段,对于干净样本,后门模型与干净模型具有近似的分类性能;对于后门样本,后门模型会将后门样本分类为攻击者指定的目标类别。
如在本发明中,后门模型对于“停止标志”干净样本做出预测判断为“停止标志”,而将通过图像隐写植入触发器的“停止标志”分类为“加速标志”。
源类别表示后门样本的真实类别。目标类别表示攻击者所选中的、希望后门模型对后门样本做出预测结果的类别。
在本发明中,“停止标志”后门样本的源类别就是“停止标志”,目标类别可以任意选择,如“加速标志”。
隐写术是一种隐蔽通信技术,在观察者无法察觉的情况下将信息隐藏到数字媒体(如数字图像)中。在隐写术中,最常用的LSB算法将秘密信息嵌入到图像的最低有效位(LSB)替换。具体来说,替换给定像素中的某些信息不会导致颜色空间中的可见变化,但这个过程改变了图像中像素值的数学分布,尽管人类视觉无法察觉,但DNN在检测此类隐写术被证明是有效的。换言之,LSB隐写算法嵌入秘密信息对DNN是可检测的,而对人类是不可检测的。
因此,本发明利用这一特点,基于LSB隐写算法构建并植入人眼不可见的后门触发器。
如图1所示,根据本发明基于图像隐写的神经网络后门攻击方法,包括以下几个步骤:
S1:生成后门触发器内容二进制流content(trigger);
已有的后门攻击往往直接将触发模式叠加到图像上,触发器可能被检测到。本发明实施例中,通过在图像样本最低有效位插入后门触发器内容content(trigger)实现后门样本的构建。
为了产生导致样本颜色变化最小化的触发嵌入,需要构建后门触发器内容二进制流content(trigger)。首先选定文本字符串str(例如“AppleApple…ple”)。然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串。其中ASCII码是由美国国家标准学会(American National Standard Institute,ANSI)制定的,是一种标准的单字节字符编码方案,在计算机中,所有的数据在存储和运算时都要使用二进制数表示,ASCII码用于统一规定了基于文本的数据用哪些二进制数来表示。
content(trigger)=Bin(ASCII(str))
S2:选定待植入触发器二进制位数长度pattern(trigger);
在确定触发器trigger的内容属性content(trigger)后,需要确定待植入二进制流位数长度进行截取。
如图2所示为触发器二进制位数长度与视觉不可见性、后门攻击成功率的相对关系示意图。
如图2蓝线(图中单调递减的线条)所示,随着触发器大小的增加(二进制位数长度增加),触发器的不可见性降低了。如图2橙线(图中单调递增的线条)所示,当触发器大小增加(二进制位数长度增加)时,DNN更容易识别触发器的比特级特征。图2中橙线的单调递增即代表后门攻击成功率的提高。此外,模型学习该后门特征的训练轮数随着触发器大小的增加而急剧减少。当触发器大小(二进制位数长度)为200时,模型收敛所需的训练轮数为300,而对于触发器大小(二进制位数长度)为600时,模型收敛所需的训练轮数仅为11。这表明,对于较大的触发器,通过隐写术将后门注入DNN模型更容易,但同时也具有较低的隐蔽性。因此,本发明折中选取兼顾有效性和隐蔽性的二进制位数长度:
pattern(trigger)=300
S3:选定待植入触发器植入通道channel(trigger);
与触发器大小类似,植入过多通道会导致触发器隐蔽性下降。且本发明实施例通过在RGB任意通道植入后门触发器可以实现有效的后门攻击。因此,可以在任选RGB中的某一通道,如在R通道注入二进制流触发器:
channel(trigger)=(1,0,0)
S4:基于后门植入算法
G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本;
在确定植入后门触发器内容二进制流content(trigger)、二进制位数长度pattern(trigger)和植入通道channel(trigger)后,可对选中样本进行后门植入:
xbk=G(img,content(trigger),pattern(trigger),channel(trigger))
如图3是本实施例在MNIST数据集的后门样本示例。
S5:后门样本由源类别标签修改目标类别标签;
在基于图像隐写添加触发器之后,需要对后门样本的标签进行修改。假设原始图片x的源类别标签为y,靶向攻击目标标签为ytarget,则需要将嵌入触发器的后门训练样本xbk所对应的标签更改为ytarget。由此将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(xbk,ytarget)。
S6:根据注入率α随机选择训练集样本,构建后门数据集Dbk
根据步骤S1-S5可以完成单个后门样本xbk的生成。因此还需要构建由后门样本组成的后门数据集Dbk(即带触发器的训练样本集合)。D代表原始训练集。Dmix代表最终使用的插入后门样本的训练数据集。注入率α表示后门数据集Dbk样本数占原始训练集D样本总数的比例。后门数据集Dbk的生成过程为:
Dbk=RandomSelect(α,N,D)
RandomSelect(.)函数为随机选择函数,注入率α取值范围为[0,1],N为原始训练集D的样本总数,从而通过在原始训练集中随机选取样本并植入触发器,构建后门数据集Dbk。本发明实施例设置α为0.1。
S7:构成混合数据集Dmix,对原始图像分类器进行重训练,植入后门:
Dmix=Dclean+Dbk
本发明所提出的基于图像隐写的神经网络后门攻击方法可对任意神经网络模型发起攻击。本发明实施例基于ResNet-18模型进行实验。
为了评估本发明所提出方法的有效性,使用如下两个指标:
(1)攻击成功率(Attack Success Rate,ASR),其表示带有触发器的后门样本成功触发后门模型的比例,其中Dtest代表测试数据集,是训练的后门模型:
干净样本准确率(Clean Sample Accuracy,CSA),其表示后门模型对干净样本的分类准确率:
一个后门模型的有效性与攻击成功率ASR正相关,干净样本准确率CSA负相关。
此外为了衡量基于隐写的后门样本隐蔽性,本发明实施例使用结构相似性(Structural Similiarity,SSIM),结构相似性SSIM越高代表越隐蔽。
其中x和y分别代表插入触发器前后的后门样本,μx是x的平均值,μy是y的平均值,是x的方差,/>是y的方差,σxy是x和y的协方差,c1和c2是用来维持稳定的常数。
在MNIST数据集上,本发明实施例的平均攻击成功率ASR达到96.9%;平均CSA达到98.9%,与干净模型CSA平均差距为0.3%。插入触发器前后SSIM达到99.99%。
在CIFAR-10数据集上,本发明实施例的平均攻击成功率ASR达到93.5%;平均CSA达到96.8%,与干净模型CSA平均差距为0.5%。插入触发器前后SSIM达到99.99%。
结果表明,本发明提出基于边框式触发器的神经网络后门攻击方法,在攻击的有效性和隐蔽性均取得良好的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于图像隐写的神经网络后门攻击方法,其特征在于基于LSB隐写算法构建并植入人眼不可见的后门触发器,包括以下步骤:
S1:生成后门触发器内容二进制流content(trigger);
S2:选定待生成触发器的植入通道及颜色值value(trigger);
S3:选定待植入触发器植入通道channel(trigger)
S4:基于后门植入算法
G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本;
S5:后门样本由源类别标签修改目标类别标签;
S6:根据注入率α随机选择训练集样本,构建后门数据集Dbk
S7:构成混合数据集Dmix,对原始图像分类器进行重训练,植入后门。
2.如权利要求1所述的基于图像隐写的神经网络后门攻击方法,其特征在于S1步骤中:生成后门触发器内容二进制流content(trigger);
首先选定文本字符串str,然后将文本字符串的每一个字符逐位ASCII码转换为8位二进制字符串,
content(trigger)=Bin(ASCII(str))。
3.如权利要求2所述的基于图像隐写的神经网络后门攻击方法,其特征在于S2步骤中:选定待植入触发器二进制位数长度pattern(trigger);
在确定触发器trigger的内容属性content(trigger)后,需要确定待植入二进制流位数长度进行截取。
4.如权利要求3所述的基于图像隐写的神经网络后门攻击方法,其特征在于S2步骤中:对于触发器大小,选取兼顾有效性和隐蔽性的二进制位数长度:
pattern(trigger)=300。
5.如权利要求3所述的基于图像隐写的神经网络后门攻击方法,其特征在于S3步骤中:选定待植入触发器植入通道channel(trigger);
在任选RGB中的某一通道注入二进制流触发器:
channel(trigger)=(1,0,0)。
6.如权利要求5所述的基于图像隐写的神经网络后门攻击方法,其特征在于S4步骤中:基于后门植入算法G(img,content(trigger),pattern(trigger),channel(trigger))生成后门样本;
在确定植入后门触发器内容二进制流content(trigger)、二进制位数长度pattern(trigger)和植入通道channel(trigger)后,对选中样本进行后门植入:
xbk=G(img,content(trigger),pattern(trigger),channel(trigger))。
7.如权利要求6所述的基于图像隐写的神经网络后门攻击方法,其特征在于S5步骤中:后门样本由源类别标签修改目标类别标签;
在基于图像隐写添加触发器之后,将原始的干净样本-标签对(x,y)修改为攻击者指定的后门样本-目标标签对(xbk,ytarget)。
8.如权利要求7所述的基于图像隐写的神经网络后门攻击方法,其特征在于S1步骤中:S6:根据注入率α随机选择训练集样本,构建后门数据集Dbk
根据步骤S1-S5完成单个后门样本xbk的生成后,还需要构建由后门样本组成的后门数据集Dbk(即带触发器的训练样本集合),D代表原始训练集,Dmix代表最终使用的插入后门样本的训练数据集,注入率α表示后门数据集Dbk样本数占原始训练集D样本总数的比例,后门数据集Dbk的生成过程为:
Dbk=RandomSelect(α,N,D)
RandomSelect(.)函数为随机选择函数,注入率α取值范围为[0,1],N为原始训练集D的样本总数,从而通过在原始训练集中随机选取样本并植入触发器,构建后门数据集Dbk
9.如权利要求8所述的基于图像隐写的神经网络后门攻击方法,其特征在于S7步骤中:构成混合数据集Dmix,对原始图像分类器进行重训练,植入后门:
Dmix=Dclean+Dbk
CN202310164346.4A 2023-02-24 2023-02-24 基于图像隐写的神经网络后门攻击方法 Pending CN117876805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310164346.4A CN117876805A (zh) 2023-02-24 2023-02-24 基于图像隐写的神经网络后门攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310164346.4A CN117876805A (zh) 2023-02-24 2023-02-24 基于图像隐写的神经网络后门攻击方法

Publications (1)

Publication Number Publication Date
CN117876805A true CN117876805A (zh) 2024-04-12

Family

ID=90587121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310164346.4A Pending CN117876805A (zh) 2023-02-24 2023-02-24 基于图像隐写的神经网络后门攻击方法

Country Status (1)

Country Link
CN (1) CN117876805A (zh)

Similar Documents

Publication Publication Date Title
Liu et al. Recent advances of image steganography with generative adversarial networks
Li et al. Invisible backdoor attacks on deep neural networks via steganography and regularization
CN101201939B (zh) 图片验证码生成方法和图片验证码生成系统
Fındık et al. A color image watermarking scheme based on artificial immune recognition system
Majeed et al. Novel approach for high secure and high rate data hidden in the image using image texture analysis
Barni et al. Iris deidentification with high visual realism for privacy protection on websites and social networks
CN113269308B (zh) 基于通用对抗触发器的干净标签神经网络后门植入方法
CN112200075B (zh) 一种基于异常检测的人脸防伪方法
Liu et al. GreedyFool: Multi-factor imperceptibility and its application to designing a black-box adversarial attack
CN116071797B (zh) 一种基于自编码器的稀疏人脸比对对抗样本生成方法
CN113034332A (zh) 不可见水印图像、后门攻击模型构建、分类方法及系统
CN117876805A (zh) 基于图像隐写的神经网络后门攻击方法
CN116527278A (zh) 一种基于生成式隐写网络和图像双隐写的区块链隐蔽通信方法
Murugavalli et al. Ceaseless steganographic approaches in machine learning
CN109413298A (zh) 一种自适应秘密信息多基表示的信息隐藏方法
CN115546003A (zh) 基于对抗训练网络的后门水印图像数据集生成方法
CN113723560A (zh) 一种面向ar应用的基于生成对抗网络的对抗样本生成方法
Yang et al. Data leakage attack via backdoor misclassification triggers of deep learning models
CN116802696A (zh) 数字样本图像的复制防止
CN117436077B (zh) 一种基于图像隐写的联邦学习后门攻击方法
CN113255909A (zh) 基于通用对抗触发器的干净标签神经网络后门植入系统
Kumar et al. Encoder-Decoder Architecture for Image Steganography using Skip Connections.
Zhang et al. Backdoor Attack through Machine Unlearning
CN116975797B (zh) 一种针对ocr提取攻击的文本内容保护方法
Sultan et al. Generative adversarial network based steganography with different color spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination