CN113269308B - 基于通用对抗触发器的干净标签神经网络后门植入方法 - Google Patents
基于通用对抗触发器的干净标签神经网络后门植入方法 Download PDFInfo
- Publication number
- CN113269308B CN113269308B CN202110599916.3A CN202110599916A CN113269308B CN 113269308 B CN113269308 B CN 113269308B CN 202110599916 A CN202110599916 A CN 202110599916A CN 113269308 B CN113269308 B CN 113269308B
- Authority
- CN
- China
- Prior art keywords
- trigger
- model
- label
- image
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000002513 implantation Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 241000700605 Viruses Species 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims 1
- 239000007924 injection Substances 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 11
- 230000008485 antagonism Effects 0.000 abstract description 4
- 230000001737 promoting effect Effects 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 abstract description 3
- 239000000654 additive Substances 0.000 abstract description 2
- 230000000996 additive effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 9
- 239000007943 implant Substances 0.000 description 8
- 239000002574 poison Substances 0.000 description 8
- 231100000614 poison Toxicity 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 4
- 231100000331 toxic Toxicity 0.000 description 4
- 230000002588 toxic effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 231100000572 poisoning Toxicity 0.000 description 2
- 230000000607 poisoning effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于通用对抗触发器的干净标签神经网络后门植入方法,属于深度学习安全领域。本发明针对受害者模型,利用生成器生成通用对抗样本(Universal Adversarial Perturbations);随后将通用对抗样本作为通用对抗触发器,添加在受害者模型的部分训练集中,促进受害者模型在训练时学习触发器模式,从而完成干净标签条件下的神经网络模型中的后门植入。对比现有技术,本发明在干净标签条件下,利用生成器G生成触发器,具有对抗性,相较于传统后门触发器,可以促进后门模型学习触发器样式,提高攻击成功率;使用了生成器模型,针对具体干净模型,生成全局可用的、融合对抗样本功能的触发器,减小复杂度;在保证高的干净图像准确率条件下,达到高成功攻击率。
Description
技术领域
本发明涉及一种基于通用对抗触发器的干净标签神经网络后门植入攻击方法,属于深度学习安全技术领域。
背景技术
目前,深度学习技术在图像分类、语音识别、目标检测、自动驾驶、自然语言处理等许多关键领域中都表现出超出人类水平的强大力量。
然而,这种强大的力量主要是基于庞大的神经元、模型的权重以及大量的训练数据和计算资源而获得的。其成本是巨大的,不是每个人或小公司都能负担得起的,所以想使用DNNs的人可能倾向于通过第三方使用该服务,或者使用公共资源,如预先培训的模型和数据集,为他们的特定任务重新训练模型。
后门植入攻击是在这种情况下的一种具有重大危害的潜在威胁。在这种情况下,攻击者在模型中注入一个隐藏的后门,然后在推理阶段,模型将在干净的测试数据集上正常运行。但是,当攻击者激活隐藏的后门时,模型会表现出恶意行为,将预测结果更改为攻击者预期的目标类标签。
向神经网络模型中植入后门主要是依靠向模型重训练数据进行投毒,模型在学习正常功能的同时,这些有毒数据可以将后门功能植入模型中。传统的投毒数据集的构建方法包含两个主要方面:第一,将拿到的<图像-标签>数据对中的标签更改为攻击者所预设的靶向目标;第二,将数据对中的图像添加上人为设计的触发器。当在这些图像-标签对上训练时,模型将学习触发器和改变的标签之间的关联。虽然Gu、Liu、Yao等人的工作证明了这种方法在后门植入上的有效性,但是此类方法在隐蔽性上存在一个明显的缺陷:更改后的数据,图像和标签在人类观察上是存在明显地不一致的。这种不一致会导致人类审查数据时将其剔除,从而导致后门植入攻击的失败。
为了更好的提升攻击的隐蔽性,后门植入攻击中出现了一种更加具有挑战性的方法:其为“干净标签”条件下的后门植入攻击。干净标签后门植入攻击指的是,在进行数据投毒时,不改变<图像-标签>数据对中的标签,仅仅在图像上进行处理。这样做在最大可能上将保留投毒数据的一致性,进而增加隐蔽性。
干净标签的后门植入攻击存在一个问题:如何使得模型去专注学习触发器样式,继而建立触发器和靶向类标签之间的关系,从而产生后门功能。本发明提出了一种基于通用对抗触发器的干净标签后门植入攻击,利用通用对抗样本触发器,驱使模型在干净标签条件下,去学习模型触发器的样式,从而达到高效攻击的效果。
研究隐蔽性后门攻击方法能够帮助人们了解这种攻击潜在的威胁并通过攻击寻找模型的脆弱点,因此不考虑安全问题直接部署深度学习模型是不可取的,本发明的工作可以促进学界针对隐蔽后门攻击防御方法的进一步研究,激发研究深度神经网络中检测后门的需求以使人工智能模型更加鲁棒。
发明内容
本发明的目的在于在“干净标签”限制下,提供一种基于通用对抗触发器的神经网络后门植入攻击方法。现有的后门植入攻击存在投毒数据中的<图像-标签>数据对不一致的问题,以及利用对抗样本促进模型学习触发器模式时,对抗样本需要单独生成,数量多,耗时久的问题。本方法创新性地提出了基于通用对抗样本的干净标签下的后门植入攻击:针对受害者模型,利用生成器生成通用对抗样本(Universal AdversarialPerturbations);随后将通用对抗样本作为通用对抗触发器,添加在受害者模型的部分训练集中,促进受害者模型在训练时学习触发器模式,从而完成干净标签条件下的神经网络模型中的后门植入。
为了实现本发明的上述目的,本发明提供了一种基于通用对抗触发器的干净标签神经网络后门植入攻击方法,包括以下内容:
一、基于通用对抗触发器生成器(以下称为生成器)G生成通用对抗触发器Δ;
作为优选,所述G通过如下过程获得:
1.1:确定所述G的模型结构以及获取要进行后门植入的干净模型f;
1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ;
作为优选,所述G通过如下过程训练:
1.2.1:设置所述G的l∞范数限制,使用所述G生成一个初始的所述Δ;所述l∞范数限制表示所述G生成的触发器的最大像素值不超过预设的l∞值;该限制越小,生成通用对抗触发器Δ越隐蔽。
1.2.2:随机从所述f的训练数据集合中选择正常图像(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;
1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),其为包含X个预测结果以及对应概率的向量,X为不低于2的自然数;定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
1.2.4:使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,设置损失函数 表示对恶意图像x′输出最高概率标签φmax(f(x′))趋向于正常图像x输出最低概率标签φmin(f(x));
1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练,得到经训练的所述G。
1.3:使用训练好的所述G,生成并输出所述Δ,且其满足基于l∞范数的最大修改限制。
此时,大部分添加了所述Δ的图片将会对干净模型f造成欺骗,影响其正常预测,这是我们所预期的;
二、神经网络后门植入过程:利用所述Δ,向正常数据进行触发器添加、向重训练数据集进行数据投毒,利用模型重训练过程向干净模型f植入后门,从而生成后门模型fb。
作为优选,所述fb通过以下过程获得:
2.2:对所述xi进行处理:添加所述Δ得到恶意图像x′i;
作为优选,所述x′i通过直接添加法获得:对所述Δ和所述xi作加得到所述x′i。
作为优选,所述x′i通过融合添加法获得:对所述Δ和所述xi采用透明率α进行相加,表示为xi′=(1-α)xi+αΔ。
作为优选,在将所述xi′混合到所述数据集中前,对所述x′i作裁剪Clamp操作。
作为优选,所述Clamp操作通过下述内容实现:对超出所述xi像素范围的值进行修正,对所述x′i中超出所述xi像素范围的像素点的值设为max(xi),max(xi)表示所述xi所有像素中的最大值;对所述x′i中小于所述xi像素范围的像素点的值设为min(xi),min(xi)表示所述xi所有像素中的最小值。
2.4:使用所述D′对所述f进行模型的重训练,得到后门模型fb。
作为优选,对所述f进行重训练时使用的所述α与攻击所述fb时使用的所述α分别设置,以达到更好的后门嵌入以及攻击效果。
有益效果
与现有技术相比,本发明具有以下特点:
1.本发明在干净标签条件下,利用生成器G生成触发器,具有对抗性,相较于传统手工生成的后门触发器,可以促进后门模型学习触发器样式,从而可以提高攻击成功率。
2.本发明利用生成器G生成的触发器具有通用性。在干净标签条件下,传统方法通常使用额外的对抗样本促进模型学习触发器,进而植入后门,且该额外使用的对抗样本需要对每张图片进行生成,耗时且复杂。本发明使用生成器模型,针对具体干净模型,生成全局可用的、融合对抗样本功能的触发器,减小复杂度。
3.本发明提供了两种投毒数据的生成方式,设计采用了触发器直接添加方法以及触发器融合添加方法,融合添加方式可以动态调整后门植入攻击不同阶段中触发器的透明率,满足不同阶段对隐蔽性和攻击效果的需求。
4.本发明可以在保证高的干净图像准确率条件下,达到高成功攻击率。
附图说明
图1是本发明方法实施实例(c)(d)和传统方法(a)(b)的对比。
图2是本发明实施实例中触发器的设计思路:触发器带有对抗扰动性质,可以将添加了触发器的图像偏移出当前决策边界。
图3是本发明实施实例中的攻击总体框架图。
图4是本发明实施实例中的不同l∞限制下生成的通用对抗触发器,使用直接添加方式生成的投毒数据图。
图5是本发明实施实例中的不同l∞限制下生成的通用对抗触发器,使用融合添加方式,在不同透明率α下生成的投毒数据图。
图6是本发明实施实例中,使用触发器直接添加方式下,不同l∞限制生成的通用对抗触发器(UAT1,2,3)的原始对抗效果(FR)、攻击成功率(ASR)和干净图像准确率(CIA)的表。BM、CT是没有植入后门的模型和使用传统触发器的对照实验。
图7是本发明实施实例中,使用触发器融合添加方式下,l∞=20下生成的触发器(UAT1,2,3),在训练阶段和应用阶段使用不同的透明率α、β的后门植入攻击的攻击成功率(ASR)和干净标签准确率(CIA)的表。BM、CT1,2是没有植入后门的模型和使用传统触发器的对照实验。
图8是本发明实施实例中,在训练阶段(纵)和应用阶段(横)下使用不同透明率α产生的攻击成功率的热力图。
具体实施方式
为了便于本领域普通技术人员的理解和实施本发明,下面结合附图及实施例对本发明做进一步说明和详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本实施例详细阐述了本发明在干净标签条件下,基于通用对抗触发器的后门植入攻击方法的工作流程。
图1(a)(b)所示为传统后门植入攻击,攻击者需要向投毒数据做两方面更改:在添加了触发器的同时需要更改标签为靶向类标签;图1(c)(d)所示为干净标签条件下的后门植入攻击,其只做了一方面的更改:即只添加触发器而不更改标签;图1(c)(d)分别示出了本发明提出的两种数据投毒方法:向投毒数据添加通用对抗触发器Δ。本发明相较于图1(a)中方法更加隐蔽,相较于图1(b)中方法后门攻击更加有效。具体内容和效果对比将在本实施例后续内容中详细介绍。
本发明利用生成器模型G针对目标图像分类器f,在不同的l∞限制下生成通用对抗触发器Δ;利用所述Δ,使用直接添加方式、融合添加方式,在模型重训练阶段采用不同的透明率α进行恶意数据x′的生成、混合数据D′的生成;最后利用所述D′对所述f进行重训练,完成后门植入,实现后门植入攻击。本方法的整体架构图请见图3,具体包括以下内容:
1:本发明为了促进在干净标签条件下模型对触发器的学习,采用图3(A)部分所示的生成器G来生成带有对抗性质的通用对抗触发器Δ。所述Δ的设计思路是:触发器Δ可以将添加其的图像a′偏移出当前决策边界,这样的图像a′将促进所述f对所述Δ特征的学习。如图2(左)所示,我们的目标是找到一个合适的Δ(例如Δ2),其可以将原图像a改变为a2′,从而偏移到决策边界(虚线)外。
具体的,生成器G为训练好的通用触发器生成器模型,可以通过以下过程获得:
1.1:确定用于生成所述Δ的生成器G模型结构以及获取要进行后门植入的干净模型f。
对于不同的应用场景可以选择不同的生成器G模型结构以及干净模型f。本实施实例中,所述G采用的是深度残差网络ResNet,所述f的具体结是深度残差网络ResNet18。
1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ。
通过对生成器G模型结构的训练,使其学习到能够对所述f产生决策影响的触发器特征,进而通过触发器的添加对其进行后门植入。
本例中,通过以下内容对生成器G模型进行训练:
1.2.1:设置所述G的l∞范数限制,使用所述G生成一个初始的所述Δ;所述l∞范数限制表示所述G生成的触发器的最大像素值不超过预设的l∞值;该限制越小,用其生成的通用对抗触发器Δ越隐蔽。具体的,在本实施实例中设置l∞分别为10、15、20;
1.2.2:随机从所述f的训练数据集合中选择正常图像(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;具体的,在本实施实例中选取的数据集为ImageNet数据集的子集,其中包含10类数据。
1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),其为包含10个预测结果以及对应概率的向量;定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
1.2.4:我们的目标是所述G生成的所述Δ能够影响所述f对所述x′的判断,偏离其原始的决策边界。具体来说,本方法使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,我们希望通用对抗触发器Δ可以影响干净模型f的判断,对恶意图像x′输出的最高概率标签φmax(f(x′))趋向于正常图像x输出的最低概率标签φmin(f(x)),损失函数表示为其中为交叉熵损失函数,用于衡量两个结果之间的差距;
1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练。在停止训练后即得到经训练的所述G;在本实例中,训练轮数Epoch数为10,迭代次数Iteration为50,预设的阈值为0.001。
1.3:使用训练好的所述G生成l∞限制分别为10、15、20下的所述Δ。此时生成的所述Δ具有一定的对抗性,所述f对添加了所述Δ的所述x′的预测结果将偏移出原始决策边界。这有助于针对f开展干净标签下的后门攻击植入,因为在干净标签条件下,投毒数据x′的标签是不改变的,如果所述x′还处于原决策边界内,所述f会认为此数据点特征已被基本学习,从而不再会去建立关于所述Δ与标签的联系。基于此概念,当我们生成的所述Δ具有对抗性,能使得所述x′偏移出决策边界,所述f将会试图去学习此点特征,这能促进所述f去建立关于所述Δ和标签的联系。
2:使用不同l∞=10、15、20限制下生成的所述Δ进行投毒数据的生成,随后利用生成的数据,利用模型重训练过程向正常模型f植入后门,从而生成后门模型fb。
具体的,后门模型可以通过以下内容生成:
2.1:设定数据集中第t个图像标签类为攻击靶向类,从所述f的训练数据集中选择对应所述t的图像-标签对i表示数据集中第t类的第i个图像。在本实施实例中,如图3(B)所示,我们选择ImageNet数据集子集中第7类数据“gas pump”作为靶向类数据。
2.2:对所述xi进行处理:添加所述Δ得到恶意图像x′i。
在不同的应用场景中,可以采用不同的添加方式。本例提供二种方法作为参考:直接添加法和融合添加法。
直接添加法:将所述Δ与所述xi直接相加。如图4所示,第一列中图片(a)为原始图像x,(b)为添加了传统触发器的恶意图像x′,(c)-(e)为添加了所述G在l∞=10、15、20限制下生成的所述Δ的恶意图像x′。
融合添加法:对所述Δ和所述xi采用透明率α进行相加。如图5所示,(a)中图片分别为不同触发器,其中包括传统触发器和l∞=10、15、20限制下生成的所述Δ,(b)为原始图像x,(c)-(e)为融合率为0.3、0.4、0.5下的添加了不同触发器的恶意图像x′。不同的透明率影响着后门植入攻击的效果,也影响着投毒数据的隐蔽性,融合添加法可以在后门植入训练过程以及后门攻击应用过程中使用不同的透明率,从而满足不同阶段的着重点。例如,在投毒训练过程,可以保持较低的透明率α从而增强投毒的隐蔽性;而在攻击应用阶段,可以增加透明率α从而提高攻击成功率。
2.3:完成恶意数据的生成后,我们对恶意数据和其他类的正常数据进行混合,混合过程可以用以下公式表示:对于本例,由于前面选择ImageNet数据集所有10个类中的第7类作为靶向目标类,因此,此处t为7,n为10,代表经上述2.1和2.2生成的恶意数据,其为我们预先设定的靶向类图像“gas pump”中的数据修改获得的,代表了数据集中余下的其他类的数据,这部分数据我们不做任何修改,最后获得混合数据D′。
2.4:使用所述D′对所述f进行模型的重训练,得到后门模型fb。如图2(右)所示,所述后门模型fb学习到a2′特征,决策边界更新(外侧)。
本领域技术人员知道,上述l∞设为不同值仅是为了观测触发器的隐蔽效果,本发明的实际应用过程中,只需要选定一个l∞值限定即可,或者从多个测试l∞值中选定一个合适的值;但需保证训练过程和攻击过程使用相同的l∞值。
接下来对后门模型fb开展实验测试本发明方法的效果。
首先我们进行术语说明:
如图6、图7所示,在实验中,Exp代表实验组名称;l∞为所述Δ的无穷范数限制;FR(Fooling Rate,欺骗率)为所述Δ添加于图像之后改变其干净模型f原本预测的类别的比例;ASR(Attack Success Rate,攻击成功率)为带有所述Δ的恶意图像x′能够使所述fb输出靶向类t结果的比例;CIA(Clean Image Accuracy,干净图片准确率)为所述fb在不带有所述Δ的正常图像x上所预测的准确度,用于衡量所述fb在植入后门后对原始功能的保留程度。在融合添加实验中,α,β分别代表训练过程和攻击过程采用的透明率。
对直接添加方式、融合添加方式两种方法进行实验:
1、对触发器直接添加方式下的后门攻击进行测试,实验结果如图6所示:BM(Benign Model,正常模型组)为对照组,我们测试干净模型f的ASR和CIA;CT(CommonTrigger,普通触发器组)为使用如图4(b)中所示传统触发器进行的实验组,我们测试这样的触发器的FR,以及基于此触发器的所述fb的ASR和CIA;UAT1,2,3(Universal AdversarialTrigger,通用对抗触发器组)为使用不同l∞下的所述Δ进行的实验组,我们测试了所述Δ的FR,以及基于所述Δ的所述fb的ASR和CIA;可以看到,直接添加方式下的攻击在l∞=20下达到95.67%的ASR和96.99%的CIA,相较于不植入后门的模型(BM),CIA下降1.4%。
2、对触发器融合添加方式下的后门攻击进行测试,在具体实现中,本方法使用的图像融合方式为图像处理库PIL中的Blend方法。实验结果如图7所示:BM(Benign Model,正常模型组)为对照组,我们测试正常模型f的ASR和CIA;CT1,2(Common Trigger,普通触发器组)为使用如图4(b)中所示传统触发器,在投毒阶段、攻击阶段分别采用不同透明率α,β的实验组,我们测试了这样的触发器的FR,以及基于此触发器的所述fb的ASR;UAT1,2,3(Universal Adversarial Trigger,通用对抗触发器组)为使用l∞=20下的所述Δ,在投毒阶段、攻击阶段分别采用不同透明率α,β的实验组,我们测试了所述Δ的FR,以及基于所述Δ的所述fb的ASR和CIA;可以看到,融合添加方式下的攻击,在l∞=20,训练阶段透明率采用α=0.3,应用阶段透明率采用β=0.5下,可以达到98.65%的ASR和97.71%的CIA,相较于不植入后门的模型(BM),CIA下降0.68%;即本发明可以在牺牲小于0.68%的原始模型精度的条件下,达到98.65%的攻击成功率。
3、最后,对l∞=20下的触发器,在融合添加方法下的训练阶段、攻击阶段使用的不同的触发器透明率α和β组合进行最优搜索和选择。如图8所示,我们对使用融合方式的后门植入攻击在训练阶段(纵)和攻击阶段(横)下,对触发器采用不同的透明率α。热力图显示了在不同组合下的攻击效果,颜色越深,数值越接近1代表其攻击成功率越高,可以看到,α≥0.15,β≥0.4后的组合都能取得不错的ASR。
应当理解的是,以上所述针对本发明较佳实施例的描述较为详细,并不能因此认为本发明的保护范围仅局限于上述实施例和附图所公开的内容,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (8)
1.一种基于通用对抗触发器的干净标签神经网络后门植入攻击方法,其特征在于:包括:
S1、基于通用对抗触发器生成器G生成通用对抗触发器Δ;
S2、利用所述Δ,向正常数据进行触发器添加、向重训练数据集进行数据投毒,利用模型重训练过程向干净模型f植入后门,从而生成后门模型fb;
所述G通过如下过程获得:
S1.1:确定所述G的模型结构以及获取要进行后门植入的干净模型f;
S1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ;
S1.3:使用训练好的所述G,生成并输出所述Δ,且其满足基于l∞范数的最大修改限制;
所述G通过如下过程训练:
S1.2.1:设置所述G的l∞范数限制,使用所述G生成一个初始的所述Δ;所述l∞范数限制表示所述G生成的触发器的最大像素值不超过预设的l∞值;该限制越小,生成通用对抗触发器Δ越隐蔽;
S1.2.2:随机从所述f的训练数据集合中选择正常图像(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;添加方式为对应像素的添加;
S1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),其为包含X个预测结果以及对应概率的向量,X为不低于2的自然数;定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
S1.2.4:使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,设置损失函数 表示对恶意图像x′输出最高概率标签φmax(f(x′))趋向于正常图像x输出最低概率标签φmin(f(x));
S1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练,得到经训练的所述G。
3.根据权利要求2所述的方法,其特征在于:所述x′i通过直接添加法获得:对所述Δ和所述xi作加得到所述x′i。
4.根据权利要求2所述的方法,其特征在于:所述x′i通过融合添加法获得:对所述Δ和所述xi采用透明率α进行相加,表示为xi′=(1-α)xi+αΔ。
5.根据权利要求2所述的方法,其特征在于:在将所述xi′混合到所述数据集中前,对所述x′i作裁剪Clamp操作。
6.根据权利要求5所述的方法,其特征在于:所述Clamp操作通过下述内容实现:对超出所述xi像素范围的值进行修正,对所述x′i中超出所述xi像素范围的像素点的值设为max(xi),max(xi)表示所述xi所有像素中的最大值;对所述x′i中小于所述xi像素范围的像素点的值设为min(xi),min(xi)表示所述xi所有像素中的最小值。
7.根据权利要求4所述的方法,其特征在于:对所述f进行重训练时使用的所述α与攻击所述fb时使用的所述α分别设置。
8.根据权利要求7所述的方法,其特征在于:所述l∞=20,重训练时所述α=0.3,攻击时所述α=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599916.3A CN113269308B (zh) | 2021-05-31 | 2021-05-31 | 基于通用对抗触发器的干净标签神经网络后门植入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599916.3A CN113269308B (zh) | 2021-05-31 | 2021-05-31 | 基于通用对抗触发器的干净标签神经网络后门植入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269308A CN113269308A (zh) | 2021-08-17 |
CN113269308B true CN113269308B (zh) | 2022-11-18 |
Family
ID=77233646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599916.3A Active CN113269308B (zh) | 2021-05-31 | 2021-05-31 | 基于通用对抗触发器的干净标签神经网络后门植入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269308B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003511B (zh) * | 2021-12-24 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 针对模型解释工具的评测方法和装置 |
CN114638356B (zh) * | 2022-02-25 | 2024-06-28 | 武汉大学 | 一种静态权重引导的深度神经网络后门检测方法及系统 |
CN115018069B (zh) * | 2022-05-30 | 2024-09-13 | 武汉大学日照信息技术研究院 | 多类型映射的神经网络后门风险评估方法、系统及设备 |
CN115935378B (zh) * | 2023-03-10 | 2023-10-10 | 中国人民解放军国防科技大学 | 一种基于条件生成式网络的图像融合模型安全性检测方法 |
CN118313416B (zh) * | 2024-06-11 | 2024-09-06 | 中国人民解放军国防科技大学 | 一种对抗样本攻击与后门攻击协同对抗的攻击方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596336A (zh) * | 2018-04-24 | 2018-09-28 | 清华大学 | 针对神经网络的软硬件联合攻击方法及装置 |
CN111340241A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、系统及装置 |
CN111914256A (zh) * | 2020-07-17 | 2020-11-10 | 华中科技大学 | 一种机器学习训练数据受投毒攻击的防御方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
CN112182576A (zh) * | 2020-10-14 | 2021-01-05 | 桂林电子科技大学 | 一种基于深度学习中特征碰撞的投毒攻击方法 |
CN112269992A (zh) * | 2020-06-01 | 2021-01-26 | 中国科学院信息工程研究所 | 基于人工智能处理器的实时恶意样本检测方法及电子装置 |
-
2021
- 2021-05-31 CN CN202110599916.3A patent/CN113269308B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596336A (zh) * | 2018-04-24 | 2018-09-28 | 清华大学 | 针对神经网络的软硬件联合攻击方法及装置 |
CN111340241A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、系统及装置 |
CN112269992A (zh) * | 2020-06-01 | 2021-01-26 | 中国科学院信息工程研究所 | 基于人工智能处理器的实时恶意样本检测方法及电子装置 |
CN111914256A (zh) * | 2020-07-17 | 2020-11-10 | 华中科技大学 | 一种机器学习训练数据受投毒攻击的防御方法 |
CN112182576A (zh) * | 2020-10-14 | 2021-01-05 | 桂林电子科技大学 | 一种基于深度学习中特征碰撞的投毒攻击方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
Clean-Label Backdoor Attacks on Video Recognition Models;Shihao Zhao等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20201231;14431-14440 * |
Also Published As
Publication number | Publication date |
---|---|
CN113269308A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269308B (zh) | 基于通用对抗触发器的干净标签神经网络后门植入方法 | |
US11494637B2 (en) | Layer-wise distillation for protecting pre-trained neural network models | |
CN111310802B (zh) | 一种基于生成对抗网络的对抗攻击防御训练方法 | |
CN113255909B (zh) | 基于通用对抗触发器的干净标签神经网络后门植入系统 | |
Chen et al. | LinkBreaker: Breaking the backdoor-trigger link in DNNs via neurons consistency check | |
Chen et al. | Patch selection denoiser: An effective approach defending against one-pixel attacks | |
CN115393675A (zh) | 深度学习模型的对抗鲁棒性测评方法及相关装置 | |
Huang et al. | Personalization as a shortcut for few-shot backdoor attack against text-to-image diffusion models | |
CN116644433A (zh) | 一种用于纵向联邦学习的数据隐私与模型安全测试方法 | |
CN112861759B (zh) | 一种对抗样本生成方法及装置 | |
CN112084936B (zh) | 一种人脸图像预处理方法、装置、设备及存储介质 | |
CN116978096A (zh) | 一种基于生成对抗网络的人脸对抗攻击方法 | |
Seng et al. | Tearing Apart NOTEARS: Controlling the Graph Prediction via Variance Manipulation | |
CN116595511A (zh) | 基于动态异构冗余构造内生安全人工智能系统的方法及装置 | |
CN116484274A (zh) | 一种针对神经网络算法投毒攻击的鲁棒训练方法 | |
CN115861695A (zh) | 一种基于空间变换的后门攻击方法、装置和介质 | |
CN114021136A (zh) | 针对人工智能模型的后门攻击防御系统 | |
CN115147647A (zh) | 一种基于有损图像压缩的深度学习模型后门构造方法 | |
CN117649546A (zh) | 一种生成对抗样本的方法及其系统、存储介质 | |
Yang et al. | Data leakage attack via backdoor misclassification triggers of deep learning models | |
Sadiq et al. | Argumentation Frameworks-A Brief Review. | |
CN116244690A (zh) | 一种适应样本的双阶增强干净标签神经网络后门植入方法 | |
CN117874750A (zh) | 基于边框式触发器的神经网络后门攻击方法 | |
CN118264569A (zh) | 一种基于语义扰动的联邦半监督学习模型的后门脆弱性分析方法、电子设备及存储介质 | |
Rafiei et al. | Privacy Challenges in Meta-Learning: An Investigation on Model-Agnostic Meta-Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |