CN117436077B - 一种基于图像隐写的联邦学习后门攻击方法 - Google Patents
一种基于图像隐写的联邦学习后门攻击方法 Download PDFInfo
- Publication number
- CN117436077B CN117436077B CN202311574913.XA CN202311574913A CN117436077B CN 117436077 B CN117436077 B CN 117436077B CN 202311574913 A CN202311574913 A CN 202311574913A CN 117436077 B CN117436077 B CN 117436077B
- Authority
- CN
- China
- Prior art keywords
- model
- back door
- image
- trigger
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000013138 pruning Methods 0.000 claims abstract description 11
- 238000004519 manufacturing process Methods 0.000 claims abstract description 8
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 18
- 231100000572 poisoning Toxicity 0.000 claims description 14
- 230000000607 poisoning effect Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000007123 defense Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000002513 implantation Methods 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Virology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能技术领域,是一种基于图像隐写的联邦学习后门攻击方法,包括:(1)使用图像隐写的方法计算多重损失并制作隐蔽的触发器,使加入触发器的后门图像与良性样本距离较小、肉眼难以察觉;(2)在中心服务器构建联邦学习的骨干网络;(3)将模型分发给客户机,将客户机相联合进行联邦学习;(4)利用特征值将特征点进行筛选,在小的梯度上更新、减少被清洗的概率、延长后门存在时间;(5)将筛选出的特征点随机剪枝20%,借助稀疏更新增强后门泛化性;(6)使用所剩的特征点作为模型的更新训练模型并最后在联邦学习设置下获得包含后门的模型。本发明具有更高的攻击成功率,更长的后门持续时间,更出色的隐蔽性和鲁棒性。
Description
技术领域
本发明属于人工智能技术领域、信息安全领域,具体涉及人工智能图像分类领域中联邦学习计算范式下的对图像分类任务的后门攻击领域,更具体的是一种图像分类领域中基于图像隐写的联邦学习后门攻击方法。
背景技术
人工神经网络快速发展,并在现实生活中广泛应用,例如使用人工智能技术进行图像分类。但神经网络想要达到最优的效果,需要大量的训练数据。由于训练的数据涉及到敏感的隐私问题而导致持有大量数据的公司、机构无法合法的共享这些数据来推动模型的训练,使大量的数据孤岛产生。因此为了解决数据孤岛的问题,联邦学习应运而生。联邦学习提供了一种安全的人工智能算法,通过使不同客户的数据所产生的结果在互联网中流通,从而保证客户的图像资源可以不暴露本身的情况下安全的进行协作,共同训练一个效果良好的模型。联邦学习在训练过测试使用了神经网络,因此也具有神经网络存在的后门安全漏洞。参与者通过使用精心制作的包含触发器的数据进行后门的注入,使模型在后门激活的情况下输出特定的类而非正确的结果。在广泛的联邦学习后门攻击中,通常使用明显的图案作为触发器,且后门的效果会随着联邦学习的训练进程而被消除。因此,如何提供一种隐蔽的联邦学习后门攻击方法并使其难以随着模型的训练进程而被消除是本领域技术人员急需解决的问题。
联邦学习受到深度学习中一些攻击的影响,比如A.N.Bhagoji等人在《AnalyzingFederated Learning through an Adversarial Lens》提出的对抗攻击、V.Tolpegin等人在《Data Poisoning Attacks Against Federated Learning Systems》提出的数据投毒攻击,也因为其特性衍生出了一些新的攻击方式,例如C.Xie等人在《DBA:DistributedBackdoor Attacks against Federated Learning》提出的分布式的后门攻击。
现有的大部分联邦学习中的后门攻击都是基于一个明显的、固定的、与被注入数据无关的触发器,导致在模型不断地训练中容易被良性的梯度所覆盖。例如T.Gu等人在《BadNets:Identifying Vulnerabilities in the Machine Learning Model SupplyChain》中,使用了美国停车标志数据库,并在其中选取了一张图片注入后门,依次使用的触发器为,黄色方块贴纸,炸弹贴纸,花朵贴纸。同时,联邦学习的后门攻击中,后门所产生的影响会随着训练时间的增加而减弱,导致后门攻击会随着时间的增加而失效。
现有的后门防御方法有如在样本中加入噪声模糊输入的差分隐私方法、Y.Gao等人在《STRIP:a defence against trojan attacks on deep neural networks》提出的STRIP方法、R.R.Selvaraju等人在《Grad-CAM:Visual Explanations From Deep Networksvia Gradient-Based Localization》提出的Grad-Cam方法、和感知哈希方法。
申请号2023107052684的中国专利申请公开了一种《基于重参数化隐写触发器的标签一致型后门攻击方法》,该方法包括生成毒化图像,构建具有毒化图像的训练集,再用训练集指导模型进行训练,完成后门触发器与目标标签的映射,得到被损害的模型,被损害的模型对干净图像分类正确,而将毒化图像的目标标签转化为预设标签输出,实现后门攻击的同时还能够保证后门触发器的较强隐蔽性。
申请号202310238338X的中国专利申请公开了《一种基于目标特征增强生成网络的神经网络后门攻击方法》,该方法针对现有基于生成网络的后门攻击对于要攻击的神经网络模型信息利用不足的问题,提出将目标类样本在要攻击的神经网络模型中的特征均值引入生成网络的解码器,引导训练,减小后门触发器的噪声并提升触发器对输入样本的自适应性。还提出使用一种三阶段的后门模型生成策略,通过依次执行神经网络模型预训练、后门触发器生成网络优化、后门模型中毒训练三个阶段,实现完整的后门攻击过程,进一步完善触发器生成网络的训练与后门信息的注入。相较于现有后门攻击方法具有出色的综合性能。
申请号2022115392819的中国专利申请公开了《一种基于空间变换的后门攻击方法、装置和介质》,该方法包括:从原始数据集中随机选择部分图像样本进行设定参数的空间变换,且将该部分图像样本的标签更改为目标标签,并对该原始数据集中剩余良性图像样本在保持标签不变的情况下进行随机参数的空间变换,从而将所述原始数据集处理为中毒数据集;使用所述中毒数据集进行深度学习分类模型的标准训练,构建被植入隐藏后门的受害模型;其中,所述受害模型在进行分类预测时,其隐藏后门能被待分类数据集中经过所述设定参数的空间变换的样本激活,使得待分类数据集中经过所述设定参数的空间变换的样本被错误地预测为目标标签,而其余样本能被正确地预测为真实标签。
以上三个专利都属于人工智能系统的后门攻击方法,其中,《基于重参数化隐写触发器的标签一致型后门攻击方法》在普通的DNN网络中将样本重参数化后与信息拼接制作触发器。《一种基于目标特征增强生成网络的神经网络后门攻击方法》是将特征均值引入生成网络的解码器,引导训练,减小后门触发器的噪声并提升触发器对输入样本的自适应性。《一种基于空间变换的后门攻击方法、装置和介质》是随机选择部分图像样本进行设定参数的空间变换,从而将所述原始数据集处理为中毒数据集。使用所述中毒数据集进行深度学习分类模型的标准训练,构建被植入隐藏后门的受害模型。使得待分类数据集中经过所述设定参数的空间变换的样本被错误地预测为目标标签,而其余样本能被正确地预测为真实标签。
而本发明人设计的是不同于上述三个专利的攻击方法,经检索,未有相同的专利文献。
发明内容
本发明的目的在于在图像分类领域中提供一种基于图像隐写的联邦学习后门攻击方法,该方法针对图像分类领域中的联邦学习架构,使用图像隐写方法制作的全尺寸图像触发器,多重损失联合计算获得较好的隐蔽性;同时在联邦学习模型更新的过程中,使用特征筛选和稀疏更新相结合的方法。本发明可以有效减少后门被清洗的概率、延长后门存在的时间,并增强后门的泛化性,从而提高攻击的成功率。
本发明的技术方案是:
一种图像分类领域中基于图像隐写的联邦学习后门攻击方法,首先,通过图像隐写的方法来制作隐式触发器,该触发器的尺寸与输入的图片相同;其次,在模型更新时使用特征筛选方法,将包含攻击的梯度更新在数值最小的更新的梯度上,使触发器仅采取影响较小的部分,将较大的影响剪枝;最后使用稀疏更新再将所剩的较小的梯度值随机剪枝20%,从而将触发器的影响进行缩减,并随机进行更新;即包括如下步骤:
步骤1、制作攻击图像分类模型所需的触发器;
步骤2、构建图像分类联邦学习网络模型,通过中心服务器将3000个使用ResNet模型的客户机联合构成总体模型;
步骤3、利用特征筛选方法对模型后门触发器对模型的影响进行筛选;
步骤4、利用稀疏更新方法将触发器的影响随机剪枝20%;
步骤5、更新联邦学习模型,将后门植入模型,最终获得包含后门的模型。
进一步地,步骤6、将上述方法与BadNets和DBA方法进行比较,并使用STRIP、感知哈希、Grad-Cam和差分隐私四种后门防御方法进行鲁棒性测试。
更具体的步骤为:
步骤1、建立U-Net编码器和空间变换网络解码器,这对编解码器通过两个主要的损失值和两个辅助的损失值来组成的损失函数进行训练;在制作触发器时,首先将提供一段密文S,和一张需要写入密文的图片Porg,然后使用编码器将图片编码并输出一个三通道的RGB残差图像作为触发器,然后将使用解码器将触发器进行解码,从而获得一张写入了密文的图片Pen和一串通过解密获得的密文串Sdecode;根据这些内容,使用两个损失,一是加密前的原图和加密后图片之间的损失Ⅰ;二是解密前的原字符串和从图片中解密出的字符串之间的交叉熵损失Ⅱ;为了更好制作一个肉眼难以察觉的隐式触发器,在最后的损失中还加入了学习感知图像块相似度损失,用于感知两张图像的差距,并且加入判别器对后门图像的判断所产生的结果向量的均值作为最后一个损失;将以上的四个损失组成最后的损失Ⅲ:
Lossimage=Pen-Porg#Ⅰ
Losssecret=CrossEntropyLoss(S,Sdecode)#Ⅱ
通过这些损失函数的共同计算,得到一个性能较好的U-Net编码器;通过这个编码器,将每个图片根据一个固定的密文产生一张残差图像,以此作为最终的触发器。
步骤2、选择一个中心服务器,在中心服务器上初始化ResNet参数;选用3000个客户机,在每个客户机中创建ResNet模型;随后中心服务器下发模型的参数给所有客户机;训练时,每一轮由中心服务器选取客户机中的10个,且包含一个敌手,敌手会从后门数据集中抽取攻击数据进行训练,设定batchsize为64,在抽取样本时,使用了狄利克雷分布,通过调整狄利克雷分布的参数将样本划分为符合狄利克雷分布的样本;在训练中,设置良性学习率为0.001并以每轮以0.0005的大小进行衰减,在攻击的轮次中设置后门样本学习率为0.02并且每轮以0.005的大小进行衰减。
步骤3、在模型训练的过程中,敌手所存在的客户机将会上传包含触发器的后门数据所产生的梯度;在每个梯度中,筛选出值最大的前5%的梯度值Ⅳ、Ⅴ,并将他们置零,然后上传,从而阻止这些梯度的被中心服务器所学习。
步骤4、在中心服务器获取到所有客户端的梯度更新时,随机将20%的梯度剪枝Ⅵ,仅使用剩余的80%进行模型的更新。
步骤5、联邦学习中心服务器收到良性客户机的梯度更新和敌手所在的客户机的梯度更新,将所有的梯度根据平均梯度聚合算法进行聚合,获得最终的梯度更新;使用最终的梯度更新模型后,向所有客户机下发最新的模型;经过多轮训练最终获得包含后门的模型。
步骤6、将上述方法与BadNets和DBA方法进行比较,每个方法都使用图像分类数据集CIFAR-10、CIFAR-100和Fashion-MNIST进行对比,比较后门植入的成功率,观察后门下降的趋势,比较后门存活的时间;同时,使用STRIP、感知哈希、Grad-Cam和差分隐私四种后门防御方法对本发明的方法进行鲁棒性测试,与BadNets和DBA方法比较,比较模型的鲁棒性。
本发明具有以下特点:
1、本发明提出了一种在图像分类领域应用的联邦学习后门攻击方法的改进。引入了四个损失值的联合计算,以得出最终损失,从而训练出一个高性能的编码器。该编码器能够生成与输入图像尺寸一致的隐蔽触发器,以增强后门攻击的隐蔽性。
2、本发明涉及一种针对联邦学习框架的策略,该策略通过对包含后门触发器的样本产生的梯度进行筛选,并只用较小的梯度值进行模型更新。此方法使得后门攻击在联邦学习环境中的清除过程变得更加缓慢,从而延长了后门攻击在图像分类模型中的存活时间。
3、本发明还提出了一种图像分类领域的联邦学习模型优化方法。在模型聚合过程中,随机对20%的梯度进行剪枝,仅使用剩余的80%进行模型更新。这种方法提升了后门攻击的准确率和泛化性。
附图说明
为了更加明确清楚的说明本发明实施例中的技术方案,下面将对实施例中出现的附图作简要的介绍。下面的附图仅是本发明的实施例中的附图。
图1是本发明的业务流程图;
图2是本实施例的编码器训练流程图;
图3是本实施例的联邦学习训练流程图;
图4是本实施例的编码器训练的结构图;
图5是本实施例的联邦学习框架的结构图;
图6是本实施例与其他方法的后门攻击成功率比较图;
图7是本实施例在使用特征筛选和稀疏更新前后的成功率比较图;
图8是本实施例与其他方法的良性样本准确率比较图;
图9是本实施例与其他方法在差分隐私防御方法下后门攻击成功率比较图;
图10是本实施例与其他方法在差分隐私防御方法下良性样本准确率比较图;
图11是本实施例和其他方法在STRIP防御方法下后门攻击样本与良性样本分布比较图;
图12是本实施例和其他方法在Grad-Cam防御方法下后门攻击样本与良性样本梯度热力值比较图;
图13是本实施例和其他方法在感知哈希防御方法下后门攻击样本与良性样本感知哈希值比较图。
具体实施方式
下面通过附图和实施例对本发明作进一步描述。
一种图像分类领域中基于图像隐写的联邦学习后门攻击方法,首先,通过图像隐写的方法来制作隐式触发器,该触发器的尺寸与输入的图片相同。其次,在模型更新时使用特征筛选方法,将包含攻击的梯度更新在数值最小的更新的梯度上,使触发器仅采取影响较小的部分,将较大的影响剪枝。最后使用稀疏更新再将所剩的较小的梯度值随机剪枝20%,从而将触发器的影响进行缩减,并随机进行更新。具体包括如下步骤:
步骤1、制作攻击图像分类模型所需的触发器;
步骤2、构建图像分类联邦学习网络模型,通过中心服务器将3000个使用ResNet模型的客户机联合构成总体模型;
步骤3、利用特征筛选方法对模型后门触发器对模型的影响进行筛选;
步骤4、利用稀疏更新方法将触发器的影响随机剪枝20%;
步骤5、更新联邦学习模型,将后门植入模型,最终获得包含后门的模型;
步骤6、将本发明方法与BadNets和DBA方法进行比较,并使用STRIP、感知哈希、Grad-Cam和差分隐私四种后门防御方法进行鲁棒性测试。
具体的步骤为:
在实施例中,步骤1包括:建立U-Net编码器和空间变换网络解码器。这对编解码器通过两个主要的损失值和两个辅助的损失值来组成的损失函数进行训练;在制作触发器时,我们首先将提供一段密文S,和一张需要写入密文的图片Porg,然后使用编码器将图片编码并输出一个三通道的RGB残差图像作为触发器,然后将使用解码器将触发器进行解码,这样我们就获得了一张写入了密文的图片Pen和一串通过解密获得的密文串Sdecode;根据这些内容,使用两个损失,一是加密前的原图和加密后图片之间的损失Ⅰ;二是解密前的原字符串和从图片中解密出的字符串之间的交叉熵损失Ⅱ;为了更好制作一个肉眼难以察觉的隐式触发器,在最后的损失中还加入了学习感知图像块相似度损失,用于感知两张图像的差距,并且加入判别器对后门图像的判断所产生的结果向量的均值作为最后一个损失;将以上的四个损失组成最后的损失Ⅲ。
Lossimage=Pen-Porg#Ⅰ
Losssecret=CrossEntropyLoss(S,Sdecode)#Ⅱ
通过这些损失函数的共同计算,得到一个性能较好的U-Net编码器;通过这个编码器,将每个图片根据一个固定的密文产生一张残差图像,以此作为最终的触发器。
在实施例中,步骤2包括:选择一个中心服务器,在中心服务器上初始化ResNet参数;选用3000个客户机,在每个客户机中创建ResNet模型;随后中心服务器下发模型的参数给所有客户机;训练时,每一轮由中心服务器选取客户机中的10个,且包含一个敌手,敌手会从后门数据集中抽取攻击数据进行训练,我们设定的batchsize为64,在抽取样本时,使用了狄利克雷分布,通过调整狄利克雷分布的参数将样本划分为符合狄利克雷分布的样本;在训练中,设置良性学习率为0.001并以每轮以0.0005的大小进行衰减,在攻击的轮次中设置后门样本学习率为0.02并且每轮以0.005的大小进行衰减。
在实施例中,步骤3包括:在模型训练的过程中,敌手所存在的客户机将会上传包含触发器的后门数据所产生的梯度;在每个梯度中,筛选出值最大的前5%的梯度值Ⅳ、Ⅴ,并将他们置零,然后上传,从而阻止这些梯度的被中心服务器所学习。
在实施例中,步骤4包括:在中心服务器获取到所有客户端的梯度更新时,随机将20%的梯度剪枝Ⅵ,仅使用剩余的80%进行模型的更新。
在实施例中,步骤5包括:联邦学习中心服务器收到良性客户机的梯度更新和敌手所在的客户机的梯度更新,将所有的梯度根据平均梯度聚合算法进行聚合,获得最终的梯度更新;使用最终的梯度更新模型后,向所有客户机下发最新的模型;经过多轮训练最终获得包含后门的模型。
在实施例中,步骤6包括:将上述方法与BadNets和DBA方法进行比较,每个方法都使用图像分类数据集CIFAR-10、CIFAR-100和Fashion-MNIST进行对比,比较后门植入的成功率,观察后门下降的趋势,比较后门存活的时间;同时,使用STRIP、感知哈希、Grad-Cam和差分隐私四种后门防御方法对本发明的方法进行鲁棒性测试,与BadNets和DBA方法比较,比较模型的鲁棒性。
参见图1-5,本发明提出了一种图像分类领域中基于图像隐写的联邦学习后门攻击方法,在具体的实施例中,模型命名为SAB,该模型通过多个损失值联合计算得出一个最难以被肉眼察觉并且效果最好的触发器并应用在联邦学习中,这是一种大小与图像大小相当的触发器,并且会被植入在模型更新的梯度较小的95%中,大大提升了后门的存活率,使后门能更快的植入并存活更长的时间。
参见图6,本实施例分别在Cifar10(左图)、Cifar100(中图)、Fashion-MNIST(右图)三个图像分类数据集上对比了本发明的方法、基于BadNets的方法和基于DBA的特定作用于联邦学习的后门植入方法,本发明的方法在本实施例中的后门成功率和持续时间上都好于两种基线方法,在停止攻击后,本实施例中的后门成功率并不会快速的下降,能在一段时间内保持高成功率,尽管在一段时间后会下降,但整体的攻击成功率在下降后后门测试成功率依然比基线方法高,且下降的趋势较基线方法相比更加平缓,意味着能存活更长的时间。
参见图7,在本实施例的实验测试中,如果仅将有毒的更新应用在较小的95%的梯度中时,模型的持续时间将会有所提升,也就是更难被良性的更新所覆盖,并且当使用稀疏更新将20%的梯度置为0时,模型的后门成功率会被进一步的提升,具体的在图像分类数据集Cifar10(左图)和Cifar100(右图)上得到了验证。
参见图8,为了检验本发明的方法对模型对良性样本分类性能的影响,分别在实施例中对比了本发明的方法、BadNets和DBA在Cifar10(左图)、Cifar100(中图)、Fashion-MNIST(右图)上攻击前后的模型对良性样本分类的准确率,并绘制了准确率曲线以展示准确率变化的程度。
参见图9、图10,由于差分隐私作为一种简单易用的防御手段,经常被应用在联邦学习中,因此本发明的具体实施例也对在差分隐私情况下的后门成功率(图9)和模型主任务准确率(图10)进行了对比,本发明方法相较于基线更能减缓差分隐私对后门的影响,主要体现在下降的速度较基线更平缓,但由于差分隐私的特性,主任务的性能也会受到影响。
参见图11,对比所有模型情况下,本实施例的样本加入随机强扰动后,模型会产生一组预测的结果,用这组结果的信息熵值来制作直方图直观的展现他们的分布情况,以此来证明本发明的方法可以抵御STRIP攻击,因为本发明的方法的信息熵值的分布与良性样本分布类似,因此难以通过设定一个阈值来筛选出包含本发明攻击方法的图片,而BadNets和DBA方法可以通过设定一个阈值来筛选。本发明方法的后门和干净图片的熵的分布相似,但BadNets的后门和干净图片的熵的分布不相似。我们在图11罗列了Cifar10(左图)、Cifar100(中图)、Fashion-MNIST(右图)三个图像分类数据集下对应攻击的模型下本发明的方法的攻击所制作的中毒数据集和良性数据集之间的分布直方图的对比图,即在植入了本发明后门的模型中对比本发明的方法的数据集和良性数据集。
参见图12,Grad-Cam可以通过模型预测的时得出的梯度来判断模型的注意力热图,由于一些后门植入方法在图片中加入的触发器位置、大小、形状、值都是固定的,因此在植入了后门后,模型检测到后门时,会把注意力集中在触发器的位置,而当防御者发现模型在预测一批图片时,会将注意力集中于图片上的某一块固定区域,则容易推断出模型中被植入了后门且图片中包含固定的触发器。图12中分别展示了具体实施例模型在植入了本发明方法、BadNets和DBA时对后门样本的注意力集中处,本发明的方法对模型的注意力影响最小,因此更难以通过Grad-Cam进行判断。而BadNets和DBA方法植入的后门,都会被Grad-Cam聚焦在触发器位置,因此更容易被发现。
参见图13,感知哈希代表了两张图片的距离,且感知哈希的方法更贴近于人眼的判断,因此本发明选用感知哈希的方法分别计算本发明的方法、BadNets、DBA与良性样本的距离,并用小提琴图展示了感知哈希值的分布规律,根据感知哈希值的分布图13易发现,本发明的方法在复杂像素的数据集上,有更好的效果,距离也更短。
综上,本发明基于图像隐写方法生成肉眼难以察觉的触发器,在模型更新的过程中将后门隐藏与较小的更新中,并随机将后门进行20%的剪枝,使后门的隐蔽性和鲁棒性大大提升,并且可以部署在任何的联邦学习模型上。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (4)
1.一种基于图像隐写的联邦学习后门攻击方法,用于人工智能中联邦学习计算范式下的对图像分类任务的后门攻击领域,其特征在于,包括如下步骤:
步骤1、制作攻击图像分类模型所需的触发器;
步骤2、构建图像分类联邦学习网络模型,通过中心服务器将3000个使用ResNet模型的客户机联合构成总体模型;
步骤3、利用特征筛选方法对模型后门触发器对模型的影响进行筛选;
步骤4、利用稀疏更新方法将触发器的影响随机剪枝20%;
步骤5、更新联邦学习模型,将后门植入模型,最终获得包含后门的模型;
所述步骤1具体为,建立U-Net编码器和空间变换网络解码器,这对编解码器通过两个主要的损失值和两个辅助的损失值来组成的损失函数进行训练;在制作触发器时,首先将提供一段密文S,和一张需要写入密文的图片Porg,然后使用编码器将图片编码并输出一个三通道的RGB残差图像作为触发器,然后将使用解码器将触发器进行解码,从而获得了一张写入了密文的图片Pen和一串通过解密获得的密文串Sdecode;根据这些内容,使用两个损失,一是加密前的原图和加密后图片之间的损失I;二是解密前的原字符串和从图片中解密出的字符串之间的交叉熵损失II;为了更好制作一个肉眼难以察觉的隐式触发器,在最后的损失中还加入了学习感知图像块相似度损失,用于感知两张图像的差距,并且加入判别器对后门图像的判断所产生的结果向量的均值作为最后一个损失;将以上的四个损失组成最后的损失III:
Lossimage=Pen-Porg#I;
Losssecret=CrossEntropyLoss(S,Sdecode)#II;
通过这些损失函数的共同计算,得到一个性能较好的U-Net编码器,通过这个编码器,将每个图片根据一个固定的密文产生一张残差图像,以此作为最终的触发器;
所述步骤3具体为,在模型训练的过程中,敌手所存在的客户机将会上传包含触发器的后门数据所产生的梯度;在每个梯度中,筛选出值最大的前5%的梯度值IV、V,并将它们置零,然后上传,从而阻止这些梯度的被中心服务器所学习
其中,LLPIPS是学习感知图像块相似度损失;Dfake是判别器对后门图像的判断所产生的结果向量的均值;
其中w1、w2、w3、w4为四个损失的权重值;
其中为第i张中毒图片的梯度,l为batchsize的大小,θ是当前模型的参数,L()是损失函数,/>是中毒数据集,ηp为中毒图片在训练时模型的学习率,top5%()是取值最大的5%,Value()是取梯度值。
2.如权利要求1所述的一种基于图像隐写的联邦学习后门攻击方法,其特征在于:所述步骤2具体为,选择一个中心服务器,在中心服务器上初始化ResNet参数;选用3000个客户机,在每个客户机中创建ResNet模型;随后中心服务器下发模型的参数给所有客户机;训练时,每一轮由中心服务器选取客户机中的10个,且包含一个敌手,敌手会从后门数据集中抽取攻击数据进行训练,设定batchsize为64,在抽取样本时,使用狄利克雷分布,通过调整狄利克雷分布的参数将样本划分为符合狄利克雷分布的样本;在训练中,设置良性学习率为0.001并以每轮以0.0005的大小进行衰减,在攻击的轮次中设置后门样本学习率为0.02并且每轮以0.005的大小进行衰减。
3.如权利要求1所述的一种基于图像隐写的联邦学习后门攻击方法,其特征在于:所述步骤4具体为,在中心服务器获取到所有客户端的梯度更新时,随机将20%的梯度剪枝VI,仅使用剩余的80%进行模型的更新;
其中,G(x)为加密后图片x的特征,G(x0)为原图x0的特征;
其中,random80%()是随机选取20%的参数置零,保留剩下的80%,Gi是当前的全局模型,是要更新的模型参数的第k层的值。
4.如权利要求1所述的一种基于图像隐写的联邦学习后门攻击方法,其特征在于:所述步骤5具体为,联邦学习中心服务器收到良性客户机的梯度更新和敌手所在的客户机的梯度更新,将所有的梯度根据平均梯度聚合算法进行聚合,获得最终的梯度更新;使用最终的梯度更新模型后,向所有客户机下发最新的模型;经过多轮训练最终获得包含后门的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311574913.XA CN117436077B (zh) | 2023-11-23 | 2023-11-23 | 一种基于图像隐写的联邦学习后门攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311574913.XA CN117436077B (zh) | 2023-11-23 | 2023-11-23 | 一种基于图像隐写的联邦学习后门攻击方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436077A CN117436077A (zh) | 2024-01-23 |
CN117436077B true CN117436077B (zh) | 2024-05-24 |
Family
ID=89548087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311574913.XA Active CN117436077B (zh) | 2023-11-23 | 2023-11-23 | 一种基于图像隐写的联邦学习后门攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436077B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118366010B (zh) * | 2024-06-18 | 2024-09-20 | 浙江大学 | 一种面向分割学习的模型后门攻击脆弱性分析方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943634A (zh) * | 2022-06-15 | 2022-08-26 | 衡阳师范学院 | 一种图像隐写分析方法、模型和系统 |
CN116187432A (zh) * | 2023-02-23 | 2023-05-30 | 上海交通大学 | 基于生成对抗网络的non-IID联邦学习模型后门鲁棒性评估方法 |
US11783037B1 (en) * | 2022-10-27 | 2023-10-10 | Quanzhou equipment manufacturing research institute | Defense method of deep learning model aiming at adversarial attacks |
CN117035034A (zh) * | 2023-06-27 | 2023-11-10 | 西安电子科技大学 | 一种可视化和可解释性检测免疫的深度学习后门攻击方法 |
-
2023
- 2023-11-23 CN CN202311574913.XA patent/CN117436077B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943634A (zh) * | 2022-06-15 | 2022-08-26 | 衡阳师范学院 | 一种图像隐写分析方法、模型和系统 |
US11783037B1 (en) * | 2022-10-27 | 2023-10-10 | Quanzhou equipment manufacturing research institute | Defense method of deep learning model aiming at adversarial attacks |
CN116187432A (zh) * | 2023-02-23 | 2023-05-30 | 上海交通大学 | 基于生成对抗网络的non-IID联邦学习模型后门鲁棒性评估方法 |
CN117035034A (zh) * | 2023-06-27 | 2023-11-10 | 西安电子科技大学 | 一种可视化和可解释性检测免疫的深度学习后门攻击方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117436077A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salem et al. | Dynamic backdoor attacks against machine learning models | |
CN109639710B (zh) | 一种基于对抗训练的网络攻击防御方法 | |
CN109961145B (zh) | 一种针对图像识别模型分类边界敏感的对抗样本生成方法 | |
CN110941855B (zh) | 一种AIoT场景下的神经网络模型窃取防御方法 | |
CN117436077B (zh) | 一种基于图像隐写的联邦学习后门攻击方法 | |
CN115147682B (zh) | 一种具有迁移性的隐蔽白盒对抗样本生成方法及装置 | |
CN111144274A (zh) | 一种面向yolo检测器的社交图片隐私保护方法和装置 | |
Chen et al. | Adversarial attacks and defenses in image classification: A practical perspective | |
Chen et al. | Patch selection denoiser: An effective approach defending against one-pixel attacks | |
Zanddizari et al. | Generating black-box adversarial examples in sparse domain | |
Juuti et al. | Making targeted black-box evasion attacks effective and efficient | |
CN116071797B (zh) | 一种基于自编码器的稀疏人脸比对对抗样本生成方法 | |
CN114638356B (zh) | 一种静态权重引导的深度神经网络后门检测方法及系统 | |
CN115620100A (zh) | 一种基于主动学习的神经网络黑盒攻击方法 | |
CN115632843A (zh) | 基于目标检测的后门攻击防御模型的生成方法 | |
Liang et al. | RETRACTED ARTICLE: Soft multimedia anomaly detection based on neural network and optimization driven support vector machine | |
Zhu et al. | Rethinking Transferable Adversarial Attacks With Double Adversarial Neuron Attribution | |
Yang et al. | Data leakage attack via backdoor misclassification triggers of deep learning models | |
CN114299327A (zh) | 一种基于内容特征的对抗补丁伪装生成方法 | |
Kumar et al. | Revamping Federated Learning Security from a Defender's Perspective: A Unified Defense with Homomorphic Encrypted Data Space | |
Zhang et al. | A Review of Adversarial Attacks in Computer Vision | |
Xu et al. | Drhnet: a deep residual network based on heterogeneous kernel for steganalysis | |
Wang | Enhanced forest microexpression recognition based on optical flow direction histogram and deep multiview network | |
Liang et al. | Object Detectors in the Open Environment: Challenges, Solutions, and Outlook | |
Huang | Designing adversarial signals against three deep learning and non-deep learning methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |