CN116244690A - 一种适应样本的双阶增强干净标签神经网络后门植入方法 - Google Patents

一种适应样本的双阶增强干净标签神经网络后门植入方法 Download PDF

Info

Publication number
CN116244690A
CN116244690A CN202211243670.7A CN202211243670A CN116244690A CN 116244690 A CN116244690 A CN 116244690A CN 202211243670 A CN202211243670 A CN 202211243670A CN 116244690 A CN116244690 A CN 116244690A
Authority
CN
China
Prior art keywords
trigger
back door
image
clean
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211243670.7A
Other languages
English (en)
Inventor
李元章
武上博
罗楠
王亚杰
谭毓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211243670.7A priority Critical patent/CN116244690A/zh
Publication of CN116244690A publication Critical patent/CN116244690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种适应样本的双阶增强干净标签神经网络后门植入方法,属于深度学习安全技术领域,本发明主要包括以下内容:步骤1:设计用于促进干净标签条件下后门攻击的针对具体图像自适应生成的两阶段触发器Δ;步骤2:设计和训练用于生成步骤1中所述触发器的触发器生成器G;步骤3:使用触发器生成器G开展干净标签后门攻击中后门植入的过程;步骤4:使用触发器生成器G开展干净标签后门攻击中后门激活的过程。本方法具有两点显著效果:(1)高效性:我们的触发器可以根据这两个阶段的不同任务促进后门植入和后门激活;(2)隐蔽性:我们的触发器是从每个图像中生成的。

Description

一种适应样本的双阶增强干净标签神经网络后门植入方法
技术领域
本发明涉及一种适应样本的双阶增强干净标签神经网络后门植入方法,属于深度学习安全技术领域。
背景技术
深度神经网络(DNNs)在人类可能无法很好完成的关键任务中显示了它的强大力量,如图像分类、语音识别、物体检测、自动驾驶、自然语言处理等。
但是,深度神经网络的力量主要是基于巨量的训练数据以及计算资源而获得的。由于从头训练深度神经网络的成本巨大,个人或小公司可能会倾向于使用第三方的服务或使用公共资源,如预训练的模型和数据集,为他们的特定任务重新训练模型。
后门植入攻击是在这种情况下产生的一种重大安全威胁:攻击者在模型训练期间向其中植入一个隐藏的后门;在推理阶段,模型将在干净的测试数据集上正常运行。但是,当攻击者激活隐藏的后门时,模型会表现出恶意行为,其将输出攻击者所设定的输出结果。
在模型中植入隐藏的后门主要是通过在向训练数据投毒。当模型在这些中毒的图像上训练时,后门功能将被编码到受害者模型的权重中。现有的投毒攻击方法包括两类:第一类是改变标签类型的攻击,在这种类型的攻击中,对手会在向投毒图像添加触发器后,用目标标签替换投毒图像的正确标签。投毒的图像可以是任何类别的图像。第二种是清洁标签型攻击,在这种类型的攻击中,对手会保留投毒图像的正确图像-标签对,而不是改变标签。而被毒害的图像是从目标类中选择的。
虽然改变标签类型的后门攻击可以实现隐蔽的触发器,但错误标签的投毒图像对于审查者来说是直接可以移除的,这会导致后门攻击的失败。本发明针对的是更隐蔽的后门攻击:清洁标签设置下的后门攻击。然而,一些问题仍然存在:首先,通过清洁标签的投毒数据集植入后门是比较困难的。实验证明,以前的清洁标签后门攻击在高分辨率数据集下可能失败。其次,他们的触发器并不隐蔽,其往往是固定的方形图案。在这种情况下,这些触发器对于人类审查者来说仍然很容易去除,因为它们在图像上看起来非常突兀。我们的实验也表明,在LPIPS、PSNR和l等评估指标下,这些触发器并不隐蔽。
为了解决这些问题,我们从有效性和隐蔽性出发,考虑我们的触发器生成方法。对于有效性问题,我们考虑后门植入和激活阶段的不同任务。在后门植入阶段,我们认为在预训练的受害者模型中植入后门的关键是:其可以充分学习到投毒的数据的触发器特征。一旦受害者模型充分学习了投毒图像,它将建立起触发器和目标标签之间的联系。例如,先前的清洁标签型后门攻击使用对抗性扰动来抹去投毒图像的原始特征,以促进受害者模型学习触发器的特征。在后门植入阶段,以前的触发器只有在后门植入时才有效。我们考虑建立更强大的触发器,在后门植入前后都能有效。我们后来的实验证明这种类型的触发器是有效的。对于隐蔽性问题,我们建立了从每个图像生成的触发器,而不是固定触发器。它们比固定触发器更隐蔽。
为了实现特定图像的触发器,从而提高后门植入和激活阶段的有效性和隐蔽性,我们利用U-Net自动编码器从每个图像生成触发器。我们为自动编码器提出了一个包含目标图像损失(旨在增强后门植入)和非目标图像(旨在增强后门激活)以及感知损失(旨在增强隐蔽性)的损失函数。在获得预训练的触发器生成器后,我们利用它在后门植入阶段建立中毒图像,并在后门激活阶段建立恶意输入来操纵后门模型。
研究更加隐蔽的干净标签后门攻击方法能够促进学界、工业界更加关注这种攻击潜在的威胁,并通过攻击寻找模型的脆弱点。本发明的工作可以促进学界针对隐蔽后门攻击防御方法的进一步研究,激发研究深度神经网络中检测后门的需求以使人工智能模型更加鲁棒。
发明内容
本发明的目的在于:在干净标签条件下,开展一种高效和隐蔽的后门植入攻击方法。现有的干净标签后门攻击存在一些问题:首先,在干净标签条件下使用传统触发器来进行投毒会是低效甚至无效的;其次,传统的触发器是不隐蔽的,固定的触发器仍可被人类审查者感知。本发明为了解决这些问题,提出了一种适应样本的双阶增强干净标签神经网络后门植入方法,在训练阶段和攻击阶段提出了三种针对具体任务的损失函数,以加强干净标签设置下的后门攻击。本方法具有两点显著效果:(1)高效性:我们的触发器可以根据这两个阶段的不同任务促进后门植入和后门激活;(2)隐蔽性:我们的触发器是从每个图像中生成的。它们是特定于图像的,而不是固定的触发器。广泛的实验表明,我们的方法可以实现非常高的攻击成功率(98.98%),并在许多评估指标下实现高隐蔽性、低投毒率(5%),并且可以抵抗防御方法。
为了实现本发明的上述目的,本发明提供了一种适应样本的双阶增强干净标签神经网络后门植入方法,包括以下内容:
步骤1:设计用于促进干净标签条件下后门攻击的针对具体图像自适应生成的两阶段触发器Δ;
具体设计过程如下:
步骤1.1:根据植入过程中促进后门模型学习触发器特征的需求,我们设计本发明中的触发器Δ可以达成以下效果:f(Θ,x′t)≠yt,x′t=xt+Δ,其中xt为靶向类图像;x′t为修改靶向类图像获得的投毒图像;yt指代靶向标签(此时该标签即为该图像对应的正确标签);我们希望干净模型对xt的预测结果产生偏离,即:f(Θ,x′t)≠yt
步骤1.2:根据攻击过程中加强触发器攻击效果需求,我们设计本发明中的触发器Δ可以达成以下效果:fb(Θ,x′nt)=yt,x′nt=xnt+Δ,其中xnt为非靶向类图像;x′nt为修改非靶向类图像获得的投毒图像;yt指代靶向标签;我们希望后门模型对x′nt的预测结果趋于靶向标签,即:fb(Θ,x′nt)=yt
步骤2:设计和训练用于生成步骤1中所述触发器的触发器生成器G;
所述G通过以下过程获得:
步骤2.1:选定触发器生成器G的结构为U-Net结构的自动编码器;
步骤2.2:为了获得具有步骤1.1、1.2中所述效果的触发器,我们设计了三个损失函数来约束和训练触发器生成器G:
进一步地,三个损失函数分别为:
步骤2.2.1:靶向类损失
Figure BDA0003884434380000041
其中m为靶向类图像的个数,/>
Figure BDA0003884434380000042
为交叉熵函数,x′(t,i)为第i个添加了靶向类触发器Δt的投毒图像,yllc为模型f(Θ,xt)预测靶向类图像xt出来的最低可能性类。此外,我们限制Δt在无穷范数l下的约束应小于ε。
步骤2.2.2:非靶向类损失
Figure BDA0003884434380000043
其中n为非靶向类图像的个数,
Figure BDA0003884434380000044
为交叉熵函数,x′(nt,i)为第i个添加了非靶向类触发器Δnt的投毒图像,yt指代靶向类标签。此外,我们限制Δnt在无穷范数l下的约束应小于ε。
步骤2.2.3:视觉损失
Figure BDA0003884434380000045
其中r=m+n,其为更改的图像的总数,该损失对所有原始图像xi和修改后的图像x′i计算LPIPS损失。此外,我们限制Δ在无穷范数l下的约束应小于ε。
步骤2.3:最后,我们通过超参数(α,β,γ)将三个损失函数组合成总损失函数用于训练触发器生成器G,总损失函数为:
Figure BDA0003884434380000046
参数设置为(α=1.β=1.γ=10),在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0002,betas=(0.5,0.999)。
步骤3:神经网络后门植入过程:使用触发器生成器G,针对一部分训练数据集生成对应的干净标签投毒数据;随后将投毒数据与干净数据混合后,训练干净模型f,从而生成后门模型fb
生成后门模型fb具体通过以下过程获得:
步骤3.1:在干净数据集D中选择一部分靶向类图片,使用上述G进行投毒数据的生成,生成后与其余干净数据集合混合,获得混合数据集D’;
步骤3.2:使用混合数据集D’重训练干净模型f,从而生成后门模型fb。该过程中使用的投毒比率最低设置为1%,在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0001,betas=(0.5,0.999)。
步骤4:使用触发器生成器G,在开展攻击时,针对图像x生成带有触发器的恶意图像x′,随后将x′输入后门模型fb中,获得预期输出。
有益效果
1.本发明提出了一种新型的触发器生成方法,可以生成特定于图像的两阶段加强触发器。该新型的触发器采用了U-Net自动编码器架构和精心设计的损失来训练不同图像的触发器生成器。
2.本发明中的触发器具有高隐蔽性:触发器生成器G可以针对具体图像生成自适应的、具体的、唯一的触发器,相较于现有技术中的固定触发器更加隐蔽,在PSNR、LPIPS、l等评估指标下,本发明都具有优势。
3.本发明中的触发器具有高效性:本发明中的触发器在后门攻击的植入阶段和激活阶段都能非常有效的促进攻击,实验证明我们的触发器可以在非常小的投毒比率(5%)下,达到非常高的攻击成功率(98.98%)。
4.本发明对原始模型的功能的影响非常小,在植入后门之后,原始准确率下降小于0.5%。
附图说明
图1是本发明方法实施实例和先前的CLBA(现有技术Clean Label BackdoorAttack)方法的对比,其中包括了投毒阶段的(a)投毒图像、(b)触发器和后门激活阶段的(c)恶意输入图像、(d)触发器。
图2是本发明实施实例中训练触发器生成器G的损失函数的构成示意图。总损失包括了靶向类损失、非靶向类损失和视觉损失。
图3是本发明实施实例中的攻击框架图,其中(A)部分为投毒以及后门植入过程;(B-1)为后门模型对干净图像的正常预测过程;(B-2)为带有触发器的恶意图像激活后门模型的过程。
图4是本发明实施实例生成的投毒图像和触发器与干净图像、CLBA方法(现有技术Clean Labe Backdoor Attack)、GRTBA方法(用于对比的全局随机噪声触发器后门攻击)的对比图。
图5是本发明实施实例中根据不同l生成的两个攻击方法在隐蔽性(PSNR、LPIPS、l)和攻击效果(ASR)、原始模型准确度以及下降情况(BA、Drop of BA)上与其他方法(干净模型、CLBA、GRTBA)的对比。
图6是本发明实施实例中不同l生成的触发器方法在干净模型、以及投毒植入后的后门模型上的欺骗率(FR)以及攻击成功率(ASR)的对比。
图7是本发明实施实例中使用STRIP方法检测本后门攻击的示意图,(a)为l=25的情况,(b)为l=15的情况。
具体实施方式
为了便于本领域技术人员的理解和实施本发明,下面结合附图及实施例对本发明做进一步说明和详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
实施例
本实施例详细阐述了本发明针对具体图像生成两阶段触发器的干净标签神经网络后门植入方法的工作流程。
如图1所示,本发明方法实施实例中的触发器和先前的CLBA(先前提出CleanLabel Backdoor Attack)方法中的触发器有较为明显区别,CLBA触发器为固定的右下角的一块,且在植入阶段需要添加额外的扰动;而本发明中的触发器是依据图像输入生成的,其更加隐蔽且高效。如图5所示,我们的实验详细的证明了本发明和CLBA以及其他攻击方法在隐蔽性、高效性上的优势,本发明能在取得高有效性的同时达到高隐蔽性。
本发明包含四个主要步骤,其分别为:(1)针对具体图像生成的两阶段触发器Δ的设计(2)设计和训练用于生成S1中所述触发器的触发器生成器G(3)使用触发器生成器G开展干净标签后门攻击中后门植入的过程(4)使用触发器生成器G开展干净标签后门攻击中后门激活的过程。如图2所示,为本发明中触发器生成器G所使用的损失函数设计示意图,本发明针对不同任务设计了三种不同的损失函数,其中包括为了促进模型学习触发器特征的靶向类损失、为了促进在激活阶段触发器高效性的非靶向类损失和为了促进触发器隐蔽性的视觉损失。此外,本发明中的攻击框架图如图3所示,其中包括了后门植入阶段、后门激活阶段等示意图。
详细过程如下所示:
步骤1:本发明首先对触发器进行了设计,设计的目在于找到一种触发器,可以(1)促进植入阶段中后门模型学习投毒图像中触发器特征、(2)加强激活阶段中后门模型中攻击效果。
具体的,此触发器为针对具体图像生成的两阶段触发器Δ,其可以达到在后门植入和激活两个阶段促进后门攻击的效果,两个预期效果如下所示:
步骤1.1:本发明中的触发器Δ可以达成以下预期效果:f(Θ,x′t)≠yt,x′t=xt+Δ,其中xt为靶向类图像;x′t为修改靶向类图像获得的投毒图像;yt指代靶向标签(此时该标签即为该图像对应的正确标签);我们希望干净模型对xt的预测结果产生偏离,即:f(Θ,x′t)≠yt
步骤1.2:本发明中的触发器Δ可以达成以下预期效果:fb(Θ,x′nt)=yt,x′nt=xnt+Δ,其中xnt为非靶向类图像;x′nt为修改非靶向类图像获得的投毒图像;yt指代靶向标签;我们希望后门模型对x′nt的预测结果趋于靶向标签,即:fb(Θ,x′nt)=yt
步骤2:设计和训练用于生成上述两阶段触发器的触发器生成器G。
详细过程如下所示:
步骤2.1:确定触发器生成器G的结构为U-Net结构的自编码器(AutoEncoder);
步骤2.2:确定参与触发器生成器G训练过程中所使用到的干净模型结构为深度残差网络ResNet18;
步骤2.3:如图2所示,训练触发器生成器G的总损失函数由三部分构成,其分别为:
步骤2.3.1:靶向类损失
Figure BDA0003884434380000081
其中m为靶向类图像的个数,/>
Figure BDA0003884434380000086
为交叉熵函数,x′(t,i)为第i个添加了靶向类触发器Δt的投毒图像,yllc为模型f(Θ,xt)预测靶向类图像xt出来的最低可能性类。此外,我们限制Δt在无穷范数l下的约束应小于ε。
步骤2.3.2:非靶向类损失
Figure BDA0003884434380000082
其中n为非靶向类图像的个数,
Figure BDA0003884434380000083
为交叉熵函数,x′(nt,i)为第i个添加了非靶向类触发器Δnt的投毒图像,yt为攻击者所设定的靶向类标签。此外,我们限制Δnt在无穷范数l下的约束应小于ε。
步骤2.3.3:视觉损失
Figure BDA0003884434380000084
其中r=m+n,其为更改的图像的总数,该损失对所有原始图像xi和修改后的图像x′i计算LPIPS损失。此外,我们限制Δ在无穷范数l下的约束应小于ε。
步骤2.4:最后,通过超参数(α,β,γ)将三个损失函数组合成总损失函数用于训练触发器生成器G,总损失函数为:
Figure BDA0003884434380000085
具体的,本实施例中设置(α=1.β=1.γ=10),在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0002,betas=(0.5,0.999)。
步骤2.5:具体的,在本实施实例中,我们设定训练迭代轮数Epoch为15轮,每轮中迭代次数Iteration为50;所采用的数据集为ImageNette数据集,其中包含10类数据;我们确定靶向类为第7类:油泵。
步骤2.6:为了保证触发器生成器G在训练过程中靶向类损失和非靶向类损失收敛尽可能同步,以达到最佳效果。我们设置训练中所使用的靶向类图片和非靶向类图片的数量比为1:1。具体的,我们选定了靶向类图片931张,其余9类非靶向类图片的总和为927(每类随机选定103张)。
步骤2.7:开始训练并获得触发器生成器G。具体的,训练服务器使用的操作系统为Ubuntu 16.04 LTS,显卡为拥有64GB显存的NVIDIA GeForce RTXTMTITAN GPUs。
步骤3:使用触发器生成器G开展干净标签后门攻击中后门植入的过程,该过程如图3(A)所示。
详细过程如下所示:
步骤3.1:从Pytorch模型库中选定干净的预训练分类器模型f,其模型结构为深度残差网络ResNet18。
步骤3.2:从靶向类数据(第七类)数据中选择一部分,使用步骤2中所训练获得的触发器生成器G对其生成相应的触发器和投毒图像。具体的,本实施例中所选用的投毒比率(投毒图像/数据集总数量)为5%。
步骤3.3:将投毒数据与干净样本数据进行混合,获得混合数据。
步骤3.4:使用混合数据对分类器模型f进行重训练。具体的,使用的损失函数为交叉熵函数,在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0001,betas=(0.5,0.999)。
步骤3.5:训练并获得后门模型fb。具体的,训练服务器使用的操作系统为Ubuntu16.04 LTS,显卡为拥有64GB显存的NVIDIA GeForce RTXTMTITAN GPUs。
步骤4:使用触发器生成器G开展干净标签后门攻击中后门激活的过程,该过程如图3(B-2)所示,此外,后门模型对不含有触发器的输入的预测过程如图3(B-1)所示。
详细过程如下所示:
步骤4.1:将攻击者使用的图像,输入步骤2中所训练获得的触发器生成器G,获得带有与输入图像相关的触发器的恶意输入图像。
步骤4.2:将恶意触发器输入步骤3中获得的后门模型fb,模型将会输出攻击者所预期的结果。具体的,在本实施例中,靶向类标签为“油泵”。
接下来对后门模型fb开展实验测试本发明方法的效果。
触发器和恶意图像的隐蔽性示意图如图4所示,其中包含本发明实例生成、CLBA方法(现有技术Clean Labe Backdoor Attack)、GRTBA方法(用于对比的全局随机噪声触发器后门攻击)的投毒图像和触发器与干净图像对比图。具体的,在本测试中,本发明图像的l=30/255、CLBA图像的l=242/255、GRTBA图像的l=40/255。通过对比,本发明的触发器隐蔽性更具有优势,其更加的隐蔽。
使用衡量指标测试攻击效果和隐蔽性的结果如图5所示。我们对不同的实验(包含干净模型、CLBA、GRTBA、本发明)进行了隐蔽性测试(包含PSNR、LPIPS、l等衡量指标)、攻击成功率(ASR)、正常准确率的测试(BA)以及正常准确率的影响(Drop of BA)的测试。隐蔽性指标是在后门植入阶段进行评估的,而ASR、BA、Drop of BA是在后门激活阶段进行评估的。在数据结果中,标粗体的数据为最优结果,标下划线的数据为次优结果。可以看到,本发明-1例子(l=25/255)中,可以取得三种隐蔽性指标最优、BA以及Drop of BA最优、ASR次优的结果。而本发明-2例子(l=30/255)中,可以取得三种隐蔽性指标次优、BA以及Drop of BA次优、ASR最优的结果。
此外,我们研究了不同l对FR和ASR的影响。我们在干净模型和后门模型上进行测试,以证明我们的触发器的效果。
我们设定l=[10/255,15/255,20/255,25/255,30/255],如图6所示,我们的触发器可以在向模型植入后门之前就达到一定加强攻击的效果(FR最高为0.7808,ASR最高为0.4565)。在向干净模型植入后门之后,我们则可以在后门模型上实现更高的FR和ASR(FR最高为0.8756,ASR最高为0.9898)。此外,随着l的增长,FR和ASR也逐渐增长,但隐蔽性和攻击效果之间有一个权衡。更高的ASR意味着需要更高的l的触发器。但是本发明可以找到一个非常有效的中间点,具体的,本发明可以在l=15/255时达到ASR=0.8547,ASR的下降仅为0.1351。
如图7所示,我们使用STRIP防御方法对本发明进行测试。
STRIP防御方法将各种干净的图像叠加到可疑的图像上,然后检查预测结果。如果可疑图像带有触发器,预测结果将是不变的;如果没有触发器,由于随机性,预测结果将有很大的变化。方法使用STRIP使用熵来衡量这个过程。
图7显示了不带有触发器的干净图像和带有触发器的恶意图像的熵值分布。我们的攻击对STRIP有抵抗力。带有触发器的图像的熵分布与清洁图像相似。(a)为在触发器限制l=25/255的情况下,我们的攻击可以实现ASR=0.9549,干净图像和恶意图像的熵中值是0.6359和0.8199。(b)为在较小的l=15/255下的攻击,在这种情况下,我们的攻击ASR=0.8547,干净图像和恶意图像的熵中值分别为0.5961和0.7347。
应当理解的是,以上所述针对本发明较佳实施例的描述较为详细,并不能因此认为本发明的保护范围仅局限于上述实施例和附图所公开的内容,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (2)

1.一种适应样本的双阶增强干净标签神经网络后门植入方法,其特征在于:具体包括以下内容:
步骤1:设计用于促进干净标签条件下后门攻击的针对具体图像自适应生成的两阶段触发器Δ;
具体设计过程如下:
步骤1.1:根据植入过程中促进后门模型学习触发器特征的需求,设计触发器′Δ可以达成以下效果:f(Θ,x′t)≠yt,x′t=xt+Δ,其中xt为靶向类图像;x′t为修改靶向类图像获得的投毒图像;yt指代靶向标签,此时该靶向标签即为该图像对应的正确标签;干净模型对xt的预测结果产生偏离,即:f(Θ,x′t)≠yt
步骤1.2:根据攻击过程中加强触发器攻击效果需求,设计触发器Δ可以达成以下效果:fb(Θ,x′nt)=yt,x′nt=xnt+Δ,其中xnt为非靶向类图像;x′nt为修改非靶向类图像获得的投毒图像;yt指代靶向标签;后门模型对x′nt的预测结果趋于靶向标签,即:fb(Θ,x′nt)=yt
步骤2:设计和训练用于生成步骤1中所述触发器的触发器生成器G;
所述G通过以下过程获得:
步骤2.1:选定触发器生成器G的结构为U-Net结构的自动编码器;
步骤2.2:为了获得具有步骤1.1、1.2中所述效果的触发器,设计了三个损失函数来约束和训练触发器生成器G;
其中,三个损失函数分别为:
步骤2.2.1:靶向类损失
Figure FDA0003884434370000011
其中m为靶向类图像的个数,/>
Figure FDA0003884434370000012
为交叉熵函数,x′(t,i)为第i个添加了靶向类触发器Δt的投毒图像,yllc为模型f(Θ,xt)预测靶向类图像xt出来的最低可能性类,限制Δt在无穷范数l下的约束应小于ε;
步骤2.2.2:非靶向类损失
Figure FDA0003884434370000013
其中n为非靶向类图像的个数,/>
Figure FDA0003884434370000014
为交叉熵函数,x′(nt,i)为第i个添加了非靶向类触发器Δ#t的投毒图像,yt指代靶向类标签,限制Δ#t在无穷范数l下的约束应小于ε;
步骤2.2.3:视觉损失
Figure FDA0003884434370000021
其中r=m+n,其为更改的图像的总数,该损失对所有原始图像xi和修改后的图像x′i计算LPIPS损失,限制Δ在无穷范数l下的约束应小于ε;
步骤2.3:最后,通过超参数(α,β,γ)将三个损失函数组合成总损失函数用于训练触发器生成器G,总损失函数为:
Figure FDA0003884434370000022
参数设置为(α=1.β=1.γ=10),在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0002,betas=(0.5,0.999);
步骤3:神经网络后门植入过程:使用触发器生成器G,针对一部分训练数据集生成对应的干净标签投毒数据,随后将投毒数据与干净数据混合后,训练干净模型f,从而生成后门模型fb
步骤4:使用触发器生成器G,在开展攻击时,针对图像x生成带有触发器的恶意图像x′,随后将x′输入后门模型fb中,获得预期输出。
2.根据权利要求1所述的一种适应样本的双阶增强干净标签神经网络后门植入方法,其特征在于:步骤3中生成后门模型fb具体通过以下过程获得:
步骤3.1:在干净数据集D中选择一部分靶向类图片,使用上述G进行投毒数据的生成,生成后与其余干净数据集合混合,获得混合数据集D’;
步骤3.2:使用混合数据集D’重训练干净模型f,从而生成后门模型fb,该过程中使用的投毒比率最低设置为1%,在训练过程中使用Adam优化器对权重进行更新,Adam优化器中使用到的学习率设置为0.0001,betas=(0.5,0.999)。
CN202211243670.7A 2022-10-11 2022-10-11 一种适应样本的双阶增强干净标签神经网络后门植入方法 Pending CN116244690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243670.7A CN116244690A (zh) 2022-10-11 2022-10-11 一种适应样本的双阶增强干净标签神经网络后门植入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243670.7A CN116244690A (zh) 2022-10-11 2022-10-11 一种适应样本的双阶增强干净标签神经网络后门植入方法

Publications (1)

Publication Number Publication Date
CN116244690A true CN116244690A (zh) 2023-06-09

Family

ID=86624812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243670.7A Pending CN116244690A (zh) 2022-10-11 2022-10-11 一种适应样本的双阶增强干净标签神经网络后门植入方法

Country Status (1)

Country Link
CN (1) CN116244690A (zh)

Similar Documents

Publication Publication Date Title
US11494637B2 (en) Layer-wise distillation for protecting pre-trained neural network models
Lin et al. Composite backdoor attack for deep neural network by mixing existing benign features
DeVries et al. Learning confidence for out-of-distribution detection in neural networks
Wynne Uncertainty and environmental learning: reconceiving science and policy in the preventive paradigm
CN113269308B (zh) 基于通用对抗触发器的干净标签神经网络后门植入方法
Gong et al. Defense-resistant backdoor attacks against deep neural networks in outsourced cloud environment
CN110110318A (zh) 基于循环神经网络的文本隐写检测方法及系统
CN111882476B (zh) 基于深度强化学习的自动学习嵌入代价的图像隐写方法
CN113888368B (zh) 基于图编码面向刑事案件羁押风险评估的特征选择方法
CN115186816B (zh) 一种基于决策捷径搜索的后门检测方法
Mejia et al. Robust or private? adversarial training makes models more vulnerable to privacy attacks
CN113255909B (zh) 基于通用对抗触发器的干净标签神经网络后门植入系统
Osoba et al. Beyond DAGs: modeling causal feedback with fuzzy cognitive maps
Zhao et al. Natural backdoor attacks on deep neural networks via raindrops
Garcia-soto et al. Perd: Perturbation sensitivity-based neural trojan detection framework on nlp applications
CN116244690A (zh) 一种适应样本的双阶增强干净标签神经网络后门植入方法
CN117079053A (zh) 基于梯度平均的人工智能图像识别对抗攻击方法及系统
CN116821897A (zh) 基于重参数化隐写触发器的标签一致型后门攻击方法
CN116192424A (zh) 一种在联邦学习场景下针对全局数据分布进行攻击的方法
Roh Impact of adversarial training on the robustness of deep neural networks
CN113205115B (zh) 基于图像特征分析的抵御神经网络后门攻击方法及系统
Liu et al. Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model
Ciptaningtyas et al. Network traffic anomaly prediction using Artificial Neural Network
Chen et al. DDDM: a Brain-Inspired Framework for Robust Classification
Sadiq et al. Argumentation Frameworks-A Brief Review.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination