CN113255909A - 基于通用对抗触发器的干净标签神经网络后门植入系统 - Google Patents

基于通用对抗触发器的干净标签神经网络后门植入系统 Download PDF

Info

Publication number
CN113255909A
CN113255909A CN202110597734.2A CN202110597734A CN113255909A CN 113255909 A CN113255909 A CN 113255909A CN 202110597734 A CN202110597734 A CN 202110597734A CN 113255909 A CN113255909 A CN 113255909A
Authority
CN
China
Prior art keywords
trigger
model
label
back door
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110597734.2A
Other languages
English (en)
Other versions
CN113255909B (zh
Inventor
张全新
罗楠
王亚杰
谭毓安
李元章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110597734.2A priority Critical patent/CN113255909B/zh
Publication of CN113255909A publication Critical patent/CN113255909A/zh
Application granted granted Critical
Publication of CN113255909B publication Critical patent/CN113255909B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于通用对抗触发器的干净标签神经网络后门植入系统,属于深度学习安全领域。本发明针对受害者模型,利用生成器生成通用对抗样本(Universal Adversarial Perturbations);随后将通用对抗样本作为通用对抗触发器,添加在受害者模型的部分训练集中,促进受害者模型在训练时学习触发器模式,从而完成干净标签条件下的神经网络模型中的后门植入。对比现有技术,本发明在干净标签条件下,利用生成器G生成触发器,具有对抗性,相较于传统后门触发器,可以促进后门模型学习触发器样式,提高攻击成功率;使用了生成器模型,针对具体干净模型,生成全局可用的、融合对抗样本功能的触发器,减小复杂度;在保证高的干净图像准确率条件下,达到高成功攻击率。

Description

基于通用对抗触发器的干净标签神经网络后门植入系统
技术领域
本发明涉及一种基于通用对抗触发器的干净标签神经网络后门植入系统,属于深度学习安全技术领域。
背景技术
目前,深度学习技术在图像分类、语音识别、目标检测、自动驾驶、自然语言处理等许多关键领域中都表现出超出人类水平的强大力量。
然而,这种强大的力量主要是基于庞大的神经元、模型的权重以及大量的训练数据和计算资源而获得的。其成本是巨大的,不是每个人或小公司都能负担得起的,所以想使用DNNs的人可能倾向于通过第三方使用该服务,或者使用公共资源,如预先培训的模型和数据集,为他们的特定任务重新训练模型。
后门植入攻击是在这种情况下的一种具有重大危害的潜在威胁。在这种情况下,攻击者在模型中注入一个隐藏的后门,然后在推理阶段,模型将在干净的测试数据集上正常运行。但是,当攻击者激活隐藏的后门时,模型会表现出恶意行为,将预测结果更改为攻击者预期的目标类标签。
向神经网络模型中植入后门主要是依靠向模型重训练数据进行投毒,模型在学习正常功能的同时,这些有毒数据可以将后门功能植入模型中。传统的投毒数据集的构建方法包含两个主要方面:第一,将拿到的<图像-标签>数据对中的标签更改为攻击者所预设的靶向目标;第二,将数据对中的图像添加上人为设计的触发器。当在这些图像-标签对上训练时,模型将学习触发器和改变的标签之间的关联。虽然Gu、Liu、Yao等人的工作证明了这种方法在后门植入上的有效性,但是此类方法在隐蔽性上存在一个明显的缺陷:更改后的数据,图像和标签在人类观察上是存在明显地不一致的。这种不一致会导致人类审查数据时将其剔除,从而导致后门植入攻击的失败。
为了更好的提升攻击的隐蔽性,后门植入攻击中出现了一种更加具有挑战性的方法:其为“干净标签”条件下的后门植入攻击。干净标签后门植入攻击指的是,在进行数据投毒时,不改变<图像-标签>数据对中的标签,仅仅在图像上进行处理。这样做在最大可能上将保留投毒数据的一致性,进而增加隐蔽性。
干净标签的后门植入攻击存在一个问题:如何使得模型去专注学习触发器样式,继而建立触发器和靶向类标签之间的关系,从而产生后门功能。本发明提出了一种基于通用对抗触发器的干净标签后门植入攻击,利用通用对抗样本触发器,驱使模型在干净标签条件下,去学习模型触发器的样式,从而达到高效攻击的效果。
研究隐蔽性后门攻击方法能够帮助人们了解这种攻击潜在的威胁并通过攻击寻找模型的脆弱点,因此不考虑安全问题直接部署深度学习模型是不可取的,本发明的工作可以促进学界针对隐蔽后门攻击防御方法的进一步研究,激发研究深度神经网络中检测后门的需求以使人工智能模型更加鲁棒。
发明内容
本发明的目的在于在“干净标签”限制下,提供一种基于通用对抗触发器的神经网络后门植入攻击系统。现有的后门植入攻击存在投毒数据中的<图像-标签>数据对不一致的问题,以及利用对抗样本促进模型学习触发器模式时,对抗样本需要单独生成,数量多,耗时久的问题。本发明创新性地提出了基于通用对抗样本的干净标签下的后门植入攻击:针对受害者模型,利用生成器生成通用对抗样本(Universal AdversarialPerturbations);随后将通用对抗样本作为通用对抗触发器,添加在受害者模型的部分训练集中,促进受害者模型在训练时学习触发器模式,从而完成干净标签条件下的神经网络模型中的后门植入。
为了实现本发明的上述目的,本发明提供了一种基于通用对抗触发器的干净标签神经网络后门植入攻击系统,包括通用对抗触发器生成器G和后门模型生成模块;
通用对抗触发器生成器G用于生成通用对抗触发器Δ;
后门模型生成模块用于利用所述Δ,向正常数据进行触发器添加、向重训练数据集进行数据投毒,利用模型重训练过程向干净模型f植入后门,从而生成后门模型fb
作为优选,所述G通过如下过程获得:
1.1:确定所述G的模型结构以及获取要进行后门植入的干净模型f;
1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ;
作为优选,所述G通过如下过程训练:
1.2.1:设置所述G的l范数限制,使用所述G生成一个初始的所述Δ;所述l范数限制表示所述G生成的触发器的最大像素值不超过预设的l值;该限制越小,生成通用对抗触发器Δ越隐蔽。
1.2.2:随机从所述f的训练数据集合中选择正常图像(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;
1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),其为包含X个预测结果以及对应概率的向量,X为不低于2的自然数;定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
1.2.4:使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,设置损失函数
Figure BDA0003091798910000031
表示对恶意图像x′输出最高概率标签φmax(f(x′))趋向于正常图像x输出最低概率标签φmin(f(x));
1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练,得到经训练的所述G。
1.3:使用训练好的所述G,生成并输出所述Δ,且其满足基于l范数的最大修改限制。
此时,大部分添加了所述Δ的图片将会对干净模型f造成欺骗,影响其正常预测,这是我们所预期的。
作为优选,所述fb通过以下过程获得:
2.1:设定数据集中第t个图像标签类为攻击靶向类,从所述f的训练数据集中选择对应所述t的图像-标签对
Figure BDA0003091798910000041
i表示数据集中第t类的第i个图像;
2.2:对所述xi进行处理:添加所述Δ得到恶意图像xi′;
作为优选,所述xi′通过直接添加法获得:对所述Δ和所述xi作加得到所述xi′。
作为优选,所述xi′通过融合添加法获得:对所述Δ和所述xi采用透明率α进行相加,表示为xi′=(1-α)xi+αΔ。
作为优选,在将所述xi′混合到所述数据集中前,对所述xi′作裁剪Clamp操作。
作为优选,所述Clamp操作通过下述内容实现:对超出所述xi像素范围的值进行修正,对所述xi′中超出所述xi像素范围的像素点的值设为max(xi),max(xi)表示所述xi所有像素中的最大值;对所述xi′中小于所述xi像素范围的像素点的值设为min(xi),min(xi)表示所述xi所有像素中的最小值。
2.3:将生成的所述xi′混合到所述数据集中,表示为:
Figure BDA0003091798910000042
Figure BDA0003091798910000043
其中,
Figure BDA0003091798910000044
代表恶意数据,
Figure BDA0003091798910000045
表示所述数据集中余下的其他类的数据,n表示所述数据集的标签类别总数;
2.4:使用所述D′对所述f进行模型的重训练,得到后门模型fb
作为优选,对所述f进行重训练时使用的所述α与攻击所述fb时使用的所述α分别设置,以达到更好的后门嵌入以及攻击效果。
有益效果
与现有技术对比,本发明具有以下特点:
1.本发明在干净标签条件下,利用生成器G生成触发器,具有对抗性,相较于传统手工生成的后门触发器,可以促进后门模型学习触发器样式,从而可以提高攻击成功率。
2.本发明利用生成器G生成的触发器具有通用性。在干净标签条件下,传统方法通常使用额外的对抗样本促进模型学习触发器,进而植入后门,且该额外使用的对抗样本需要对每张图片进行生成,耗时且复杂。本发明使用生成器模型,针对具体干净模型,生成全局可用的、融合对抗样本功能的触发器,减小复杂度。
3.本发明提供了两种投毒数据的生成方式,设计采用了触发器直接添加方法以及触发器融合添加方法,融合添加方式可以动态调整后门植入攻击不同阶段中触发器的透明率,满足不同阶段对隐蔽性和攻击效果的需求。
4.本发明可以在保证高的干净图像准确率条件下,达到高成功攻击率。
附图说明
图1是本发明实施实例(c)(d)和传统方法(a)(b)的对比。
图2是本发明实施实例中触发器的设计思路:触发器带有对抗扰动性质,可以将添加了触发器的图像偏移出当前决策边界。
图3是本发明实施实例中的攻击总体框架图。
图4是本发明实施实例中的不同l限制下生成的通用对抗触发器,使用直接添加方式生成的投毒数据图。
图5是本发明实施实例中的不同l限制下生成的通用对抗触发器,使用融合添加方式,在不同透明率α下生成的投毒数据图。
图6是本发明实施实例中,使用触发器直接添加方式下,不同l限制生成的通用对抗触发器(UAT1,2,3)的原始对抗效果(FR)、攻击成功率(ASR)和干净图像准确率(CIA)的表。BM、CT是没有植入后门的模型和使用传统触发器的对照实验。
图7是本发明实施实例中,使用触发器融合添加方式下,l=20下生成的触发器(UAT1,2,3),在训练阶段和应用阶段使用不同的透明率α、β的后门植入攻击的攻击成功率(ASR)和干净标签准确率(CIA)的表。BM、CT1,2是没有植入后门的模型和使用传统触发器的对照实验。
图8是本发明实施实例中,在训练阶段(纵)和应用阶段(横)下使用不同透明率α产生的攻击成功率的热力图。
具体实施方式
为了便于本领域普通技术人员的理解和实施本发明,下面结合附图及实施例对本发明做进一步说明和详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本实施例详细阐述了本发明在干净标签条件下,基于通用对抗触发器的后门植入攻击内容。
图1(a)(b)所示为传统后门植入攻击,攻击者需要向投毒数据做两方面更改:在添加了触发器的同时需要更改标签为靶向类标签;图1(c)(d)所示为干净标签条件下的后门植入攻击,其只做了一方面的更改:即只添加触发器而不更改标签;图1(c)(d)分别示出了本发明提出的两种数据投毒方法:向投毒数据添加通用对抗触发器Δ。本发明相较于图1(a)中方法更加隐蔽,相较于图1(b)中方法后门攻击更加有效。具体内容和效果对比将在本实施例后续内容中详细介绍。
本发明利用生成器模型G针对目标图像分类器f,在不同的l限制下生成通用对抗触发器Δ;利用所述Δ,使用直接添加方式、融合添加方式,在模型重训练阶段采用不同的透明率α进行恶意数据x′的生成、混合数据D′的生成;最后利用所述D′对所述f进行重训练,完成后门植入,实现后门植入攻击。本发明的整体架构图请见图3,具体包括通用对抗触发器生成器G和后门模型生成模块;其中:
通用对抗触发器生成器G用于生成通用对抗触发器Δ;
后门模型生成模块用于利用所述Δ,向正常数据进行触发器添加、向重训练数据集进行数据投毒,利用模型重训练过程向干净模型f植入后门,从而生成后门模型fb
本发明为了促进在干净标签条件下模型对触发器的学习,采用图3(A)部分所示的生成器G来生成带有对抗性质的通用对抗触发器Δ。所述Δ的设计思路是:触发器Δ可以将添加其的图像a′偏移出当前决策边界,这样的图像a′将促进所述f对所述Δ特征的学习。如图2(左)所示,我们的目标是找到一个合适的Δ(例如Δ2),其可以将原图像a改变为a2′,从而偏移到决策边界(虚线)外。
具体的,生成器G为训练好的通用触发器生成器模型,可以通过以下过程获得:
1.1:确定用于生成所述Δ的生成器G模型结构以及获取要进行后门植入的干净模型f。
对于不同的应用场景可以选择不同的生成器G模型结构以及干净模型f。本实施实例中,所述G采用的是深度残差网络ResNet,所述f的具体结是深度残差网络ResNet18。
1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ。
通过对生成器G模型结构的训练,使其学习到能够对所述f产生决策影响的触发器特征,进而通过触发器的添加对其进行后门植入。
本例中,通过以下内容对生成器G模型进行训练:
1.2.1:设置所述G的l范数限制,使用所述G生成一个初始的所述Δ;所述l范数限制表示所述G生成的触发器的最大像素值不超过预设的l值;该限制越小,用其生成的通用对抗触发器Δ越隐蔽。具体的,在本实施实例中设置l分别为10、15、20;
1.2.2:随机从所述f的训练数据集合中选择正常图像(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;具体的,在本实施实例中选取的数据集为ImageNet数据集的子集,其中包含10类数据。
1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),其为包含10个预测结果以及对应概率的向量;定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
1.2.4:我们的目标是所述G生成的所述Δ能够影响所述f对所述x′的判断,偏离其原始的决策边界。具体来说,本方法使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,我们希望通用对抗触发器Δ可以影响干净模型f的判断,对恶意图像x′输出的最高概率标签φmax(f(x′))趋向于正常图像x输出的最低概率标签φmin(f(x)),损失函数表示为
Figure BDA0003091798910000081
其中
Figure BDA0003091798910000082
为交叉熵损失函数,用于衡量两个结果之间的差距;
1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练。在停止训练后即得到经训练的所述G;在本实例中,训练轮数Epoch数为10,迭代次数Iteration为50,预设的阈值为0.001。
1.3:使用训练好的所述G生成l限制分别为10、15、20下的所述Δ。此时生成的所述Δ具有一定的对抗性,所述f对添加了所述Δ的所述x′的预测结果将偏移出原始决策边界。这有助于针对f开展干净标签下的后门攻击植入,因为在干净标签条件下,投毒数据x′的标签是不改变的,如果所述x′还处于原决策边界内,所述f会认为此数据点特征已被基本学习,从而不再会去建立关于所述Δ与标签的联系。基于此概念,当我们生成的所述Δ具有对抗性,能使得所述x′偏移出决策边界,所述f将会试图去学习此点特征,这能促进所述f去建立关于所述Δ和标签的联系。
2:使用不同l=10、15、20限制下生成的所述Δ进行投毒数据的生成,随后利用生成的数据,利用模型重训练过程向正常模型f植入后门,从而生成后门模型fb
具体的,后门模型fb可以通过以下内容生成:
2.1:设定数据集中第t个图像标签类为攻击靶向类,从所述f的训练数据集中选择对应所述t的图像-标签对
Figure BDA0003091798910000091
i表示数据集中第t类的第i个图像。在本实施实例中,如图3(B)所示,我们选择ImageNet数据集子集中第7类数据“gas pump”作为靶向类数据。
2.2:对所述xi进行处理:添加所述Δ得到恶意图像xi′。
在不同的应用场景中,可以采用不同的添加方式。本例提供二种方法作为参考:直接添加法和融合添加法。
直接添加法:将所述Δ与所述xi直接相加。如图4所示,第一列中图片(a)为原始图像x,(b)为添加了传统触发器的恶意图像x′,(c)-(e)为添加了所述G在l=10、15、20限制下生成的所述Δ的恶意图像x′。
融合添加法:对所述Δ和所述xi采用透明率α进行相加。如图5所示,(a)中图片分别为不同触发器,其中包括传统触发器和l=10、15、20限制下生成的所述Δ,(b)为原始图像x,(c)-(e)为融合率为0.3、0.4、0.5下的添加了不同触发器的恶意图像x′。不同的透明率影响着后门植入攻击的效果,也影响着投毒数据的隐蔽性,融合添加法可以在后门植入训练过程以及后门攻击应用过程中使用不同的透明率,从而满足不同阶段的着重点。例如,在投毒训练过程,可以保持较低的透明率α从而增强投毒的隐蔽性;而在攻击应用阶段,可以增加透明率α从而提高攻击成功率。
2.3:完成恶意数据的生成后,我们对恶意数据和其他类的正常数据进行混合,混合过程可以用以下公式表示:
Figure BDA0003091798910000101
对于本例,由于前面选择ImageNet数据集所有10个类中的第7类作为靶向目标类,因此,此处t为7,n为10,
Figure BDA0003091798910000102
代表经上述2.1和2.2生成的恶意数据,其为我们预先设定的靶向类图像“gas pump”中的数据修改获得的,
Figure BDA0003091798910000103
代表了数据集中余下的其他类的数据,这部分数据我们不做任何修改,最后获得混合数据D′。
2.4:使用所述D′对所述f进行模型的重训练,得到后门模型fb。如图2(右)所示,所述后门模型fb学习到a2′特征,决策边界更新(外侧)。
本领域技术人员知道,上述l设为不同值仅是为了观测触发器的隐蔽效果,本发明的实际应用过程中,只需要选定一个l值限定即可,或者从多个测试l值中选定一个合适的值;但需保证训练过程和攻击过程使用相同的l值。
接下来对后门模型fb开展实验测试本发明的效果。
首先我们进行术语说明:
如图6、图7所示,在实验中,Exp代表实验组名称;l为所述Δ的无穷范数限制;FR(Fooling Rate,欺骗率)为所述Δ添加于图像之后改变其干净模型f原本预测的类别的比例;ASR(Attack Success Rate,攻击成功率)为带有所述Δ的恶意图像x′能够使所述fb输出靶向类t结果的比例;CIA(Clean Image Accuracy,干净图片准确率)为所述fb在不带有所述Δ的正常图像x上所预测的准确度,用于衡量所述fb在植入后门后对原始功能的保留程度。在融合添加实验中,α,β分别代表训练过程和攻击过程采用的透明率。
对直接添加方式、融合添加方式两种方法进行实验:
1、对触发器直接添加方式下的后门攻击进行测试,实验结果如图6所示:BM(Benign Model,正常模型组)为对照组,我们测试干净模型f的ASR和CIA;CT(CommonTrigger,普通触发器组)为使用如图4(b)中所示传统触发器进行的实验组,我们测试这样的触发器的FR,以及基于此触发器的所述fb的ASR和CIA;UAT1,2,3(Universal AdversarialTrigger,通用对抗触发器组)为使用不同l下的所述Δ进行的实验组,我们测试了所述Δ的FR,以及基于所述Δ的所述fb的ASR和CIA;可以看到,直接添加方式下的攻击在l=20下达到95.67%的ASR和96.99%的CIA,相较于不植入后门的模型(BM),CIA下降1.4%。
2、对触发器融合添加方式下的后门攻击进行测试,在具体实现中,本方法使用的图像融合方式为图像处理库PIL中的Blend方法。实验结果如图7所示:BM(Benign Model,正常模型组)为对照组,我们测试正常模型f的ASR和CIA;CT1,2(Common Trigger,普通触发器组)为使用如图4(b)中所示传统触发器,在投毒阶段、攻击阶段分别采用不同透明率α,β的实验组,我们测试了这样的触发器的FR,以及基于此触发器的所述fb的ASR;UAT1,2,3(Universal Adversarial Trigger,通用对抗触发器组)为使用l=20下的所述Δ,在投毒阶段、攻击阶段分别采用不同透明率α,β的实验组,我们测试了所述Δ的FR,以及基于所述Δ的所述fb的ASR和CIA;可以看到,融合添加方式下的攻击,在l=20,训练阶段透明率采用α=0.3,应用阶段透明率采用β=0.5下,可以达到98.65%的ASR和97.71%的CIA,相较于不植入后门的模型(BM),CIA下降0.68%;即本发明可以在牺牲小于0.68%的原始模型精度的条件下,达到98.65%的攻击成功率。
3、最后,对l=20下的触发器,在融合添加方法下的训练阶段、攻击阶段使用的不同的触发器透明率α和β组合进行最优搜索和选择。如图8所示,我们对使用融合方式的后门植入攻击在训练阶段(纵)和攻击阶段(横)下,对触发器采用不同的透明率α。热力图显示了在不同组合下的攻击效果,颜色越深,数值越接近1代表其攻击成功率越高,可以看到,α≥0.15,β≥0.4后的组合都能取得不错的ASR。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称并不构成对该单元本身的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于通用对抗触发器的干净标签神经网络后门植入攻击系统,其特征在于:包括:通用对抗触发器生成器G和后门模型生成模块;其中:
通用对抗触发器生成器G用于生成通用对抗触发器Δ;
后门模型生成模块用于利用所述Δ,向正常数据进行触发器添加、向重训练数据集进行数据投毒,利用模型重训练过程向干净模型f植入后门,从而生成后门模型fb
2.根据权利要求1所述的系统,其特征在于:所述G通过如下过程获得:
S1.1:确定所述G的模型结构以及获取所述f;
S1.2:训练所述G,使其可以生成促进干净标签条件下后门植入的所述Δ;
S1.3:使用训练好的所述G,生成并输出所述Δ,且其满足基于l∞范数的最大修改限制。
3.根据权利要求2所述的系统,其特征在于:所述G通过如下过程训练:
S1.2.1:设置所述G的l∞范数限制,使用所述G生成一个初始的所述Δ;所述l∞范数限制表示所述G生成的触发器的最大像素值不超过预设的l∞值;
S1.2.2:随机从所述训练数据集中选择样本(x,y),然后将所述Δ添加至未经修改的干净图像x上,得到带有触发器的恶意图像x′;
S1.2.3:所述f对x以及x′的预测结果为f(x)和f(x′),定义操作φ为选择其中具体标签的操作,φmin为选择其中概率最小的标签的操作,φmax为选择其中概率最大的标签的操作;
S1.2.4:使用交叉熵损失函数来衡量模型对正常图像输出标签和恶意图像输出的标签之间的距离,设置损失函数
Figure FDA0003091798900000011
表示对恶意图像x′输出最高概率标签φmax(f(x′))趋向于正常图像x输出最低概率标签φmin(f(x));
S1.2.5:根据所述Loss,使用Adam优化器对所述G权重参数进行更新和优化,直到完成预设的训练轮数Epoch数以及迭代次数Iteration数或者Loss满足预设的阈值后停止对所述G的训练,得到经训练的所述G。
4.根据权利要求1-3任一所述的系统,其特征在于:所述fb通过以下过程获得:
S2.1:设定所述训练数据集中第t个图像标签类为攻击靶向类,从所述训练数据集中选择对应所述t的图像-标签对
Figure FDA0003091798900000021
i表示数据集中第t类的第i个图像;
S2.2:对所述xi进行处理:添加所述Δ得到恶意图像x′i
S2.3:将生成的所述xi′混合到所述数据集中,表示为:
Figure FDA0003091798900000022
Figure FDA0003091798900000023
其中,
Figure FDA0003091798900000024
代表恶意数据,
Figure FDA0003091798900000025
表示所述数据集中余下的其他类的数据,n表示所述数据集的标签类别总数;
S2.4:使用所述D′对所述f进行模型的重训练,得到后门模型fb
5.根据权利要求4所述的系统,其特征在于:所述x′i通过直接添加法获得:对所述Δ和所述xi作加得到所述x′i
6.根据权利要求4所述的系统,其特征在于:所述x′i通过融合添加法获得:对所述Δ和所述xi采用透明率α进行相加,表示为xi′=(1-α)xi+αΔ。
7.根据权利要求4所述的系统,其特征在于:在将所述xi′混合到所述数据集中前,对所述x′i作裁剪Clamp操作。
8.根据权利要求7所述的系统,其特征在于:所述Clamp操作通过下述内容实现:对超出所述xi像素范围的值进行修正,对所述x′i中超出所述xi像素范围的像素点的值设为max(xi),max(xi)表示所述xi所有像素中的最大值;对所述x′i中小于所述xi像素范围的像素点的值设为min(xi),min(xi)表示所述xi所有像素中的最小值。
9.根据权利要求1-3、5-8任一所述的系统,其特征在于:对所述f进行重训练时使用的所述α与攻击所述fb时使用的所述α分别设置。
10.根据权利要求9所述的系统,其特征在于:所述l=20,重训练时所述α=0.3,攻击时所述α=0.5。
CN202110597734.2A 2021-05-31 2021-05-31 基于通用对抗触发器的干净标签神经网络后门植入系统 Expired - Fee Related CN113255909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597734.2A CN113255909B (zh) 2021-05-31 2021-05-31 基于通用对抗触发器的干净标签神经网络后门植入系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597734.2A CN113255909B (zh) 2021-05-31 2021-05-31 基于通用对抗触发器的干净标签神经网络后门植入系统

Publications (2)

Publication Number Publication Date
CN113255909A true CN113255909A (zh) 2021-08-13
CN113255909B CN113255909B (zh) 2022-12-13

Family

ID=77185392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597734.2A Expired - Fee Related CN113255909B (zh) 2021-05-31 2021-05-31 基于通用对抗触发器的干净标签神经网络后门植入系统

Country Status (1)

Country Link
CN (1) CN113255909B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN114021124A (zh) * 2021-11-04 2022-02-08 北京香侬慧语科技有限责任公司 一种自然语言生成及攻击检测方法、介质、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596336A (zh) * 2018-04-24 2018-09-28 清华大学 针对神经网络的软硬件联合攻击方法及装置
CN111340241A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种数据处理方法、系统及装置
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质
CN112182576A (zh) * 2020-10-14 2021-01-05 桂林电子科技大学 一种基于深度学习中特征碰撞的投毒攻击方法
CN112269992A (zh) * 2020-06-01 2021-01-26 中国科学院信息工程研究所 基于人工智能处理器的实时恶意样本检测方法及电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596336A (zh) * 2018-04-24 2018-09-28 清华大学 针对神经网络的软硬件联合攻击方法及装置
CN111340241A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种数据处理方法、系统及装置
CN112269992A (zh) * 2020-06-01 2021-01-26 中国科学院信息工程研究所 基于人工智能处理器的实时恶意样本检测方法及电子装置
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN112182576A (zh) * 2020-10-14 2021-01-05 桂林电子科技大学 一种基于深度学习中特征碰撞的投毒攻击方法
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIHAO ZHAO等: "Clean-Label Backdoor Attacks on Video Recognition Models", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN114021124A (zh) * 2021-11-04 2022-02-08 北京香侬慧语科技有限责任公司 一种自然语言生成及攻击检测方法、介质、装置及设备

Also Published As

Publication number Publication date
CN113255909B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN113269308B (zh) 基于通用对抗触发器的干净标签神经网络后门植入方法
US11494637B2 (en) Layer-wise distillation for protecting pre-trained neural network models
US20230222381A1 (en) System And Method For Machine Learning Model Determination And Malware Identification
CN113255909B (zh) 基于通用对抗触发器的干净标签神经网络后门植入系统
Tran et al. Deep hierarchical reinforcement agents for automated penetration testing
KR20210081769A (ko) 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련
Li et al. Deep learning backdoors
CN109492355B (zh) 一种基于深度学习的软件抗分析方法和系统
Chen et al. LinkBreaker: Breaking the backdoor-trigger link in DNNs via neurons consistency check
CN115393675A (zh) 深度学习模型的对抗鲁棒性测评方法及相关装置
Huang et al. Personalization as a shortcut for few-shot backdoor attack against text-to-image diffusion models
CN112861759B (zh) 一种对抗样本生成方法及装置
CN112084936B (zh) 一种人脸图像预处理方法、装置、设备及存储介质
CN116595511A (zh) 基于动态异构冗余构造内生安全人工智能系统的方法及装置
Seng et al. Tearing Apart NOTEARS: Controlling the Graph Prediction via Variance Manipulation
CN115861695A (zh) 一种基于空间变换的后门攻击方法、装置和介质
CN115203690A (zh) 一种基于异常偏差类神经元的深度学习模型安全加固方法
CN114021136A (zh) 针对人工智能模型的后门攻击防御系统
Chen et al. Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model
CN117649546A (zh) 一种生成对抗样本的方法及其系统、存储介质
CN115098855A (zh) 一种基于自定义后门行为的触发器样本检测方法
Yang et al. Data leakage attack via backdoor misclassification triggers of deep learning models
Sadiq et al. Argumentation Frameworks-A Brief Review.
US20240202335A1 (en) Auditing classifier models with adversarially robust xai committees
CN116415631A (zh) 图像处理方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221213