CN110674938B - 基于协同多任务训练的对抗攻击防御方法 - Google Patents

基于协同多任务训练的对抗攻击防御方法 Download PDF

Info

Publication number
CN110674938B
CN110674938B CN201910774081.3A CN201910774081A CN110674938B CN 110674938 B CN110674938 B CN 110674938B CN 201910774081 A CN201910774081 A CN 201910774081A CN 110674938 B CN110674938 B CN 110674938B
Authority
CN
China
Prior art keywords
output
confidence level
attack
sample
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910774081.3A
Other languages
English (en)
Other versions
CN110674938A (zh
Inventor
陈晋音
陈若曦
郑海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910774081.3A priority Critical patent/CN110674938B/zh
Publication of CN110674938A publication Critical patent/CN110674938A/zh
Application granted granted Critical
Publication of CN110674938B publication Critical patent/CN110674938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于协同多任务训练的对抗攻击防御方法,1)训练五个结构相似的图像分类模型;2)取数据集中第i类图片调用五种无目标攻击生成对抗样本;3)将每一类的5种对抗样本输入对应的模型中,统计得到最难攻击的目标类yrobust;4)双通道结合,对三个置信度层和三者之间的梯度锁定结构进行协同多任务训练,检测并防御对抗样本。该抗攻击防御方法对黑盒和迁移性攻击的防御性能较好,通过双通道和三层置信度层协同多任务训练同时完成检测对抗样本和防御对抗攻击。

Description

基于协同多任务训练的对抗攻击防御方法
技术领域
本发明属于攻击防御领域,具体涉及一种基于协同多任务训练的对抗攻击防御方法。
背景技术
计算机视觉是深度学习实现突出成就的领域。从图像分类到物体目标检测、文字识别,它的成功被广泛证明。
然而,深度模型容易受到对输入的对抗性操作而出现误判断。这些添加在输入中的对抗性扰动非常小,并不能被人眼察觉到,但是已经足以改变模型的判断。在图像分类方面,对抗性攻击有L-bfgs,FGSM(Fast Gradient Sign Method),BIM,C&W,Deepfool,PGD等几种典型方法。同时,对抗样本也具有迁移性,同一输入会被不同结构的模型同时误判断。
在自动驾驶、人脸识别、监控分析等对安全性要求较高的场合,对抗性攻击都可能存在,这对社会和网络的私密性、完整性和可用性造成极大的潜在危害。所以,防御对抗性攻击尤为重要。Goodfellow等人将对抗样本加入训练集,用对抗性训练来加强模型对于攻击的鲁棒性。Dziugaite等人将对抗样本进行压缩,在上采样过程中部分滤除对抗性扰动,使模型重新判断正确。Papernot等人提出了防御蒸馏来修改深度模型的参数,以抵御小规模的对抗性扰动。Prakash等人利用基波变换的像素偏转方法,对对抗样本重新分配像素值并去除噪声,使图片的类标得到恢复。Akhtar等人在原始模型中添加一个经过训练的单一网络,在不调整系数的情况下,使深度模型获得抵御由普遍扰动引起的攻击的能力。
但是,现有技术中至少存在以下缺点和不足:
(1)这些防御措施只能做到对抗样本的防御,而不能判断输入图片是否为对抗样本。
(2)这些方法在面对黑盒攻击时,经常不能取得较好的效果。
(3)对于可迁移的攻击,这些防御方法会遭到破坏。
发明内容
为了克服已有防御方法不能检测图片是否为对抗样本、对黑盒攻击防御效果欠佳的不足,本发明提供一种能同时识别并防御对抗样本且对黑盒攻击有较好防御效果的基于协同多任务训练的对抗攻击防御方法。
本发明解决其技术问题所采用的技术方案是:
一种基于协同多任务训练的对抗攻击防御方法,包括以下步骤:
利用FGSM,IGSM,JSMA,C&W l2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本,将这五种对抗样本分别对应输入至五个图像分类模型中,输出5组预测置信度数列;
对每组预测置信度数列中预测置信度按照降序排序后,将预测置信度对应的图像类标记为一个类标数列;
统计5个类标数列中,图像类标出现次数最小的类标即为最难攻击类标,这样针对每张原始图像会有唯一一个正常类标和唯一一个最难攻击类标,且正常类标和最难攻击类标是一一对应关系;
选择图像分类模型中的任意一个作为预测分类器,将预测分类器的输出并行连接第一置信度层和第二置信度层,第一置信度层和第二置信度层之间连接有第一梯度锁定器,第一置信度层和第二置信度层的输出分别连接第一softmax和第二softmax,形成检测通道;将原始图像和对抗样本作为预测分类器的输入,以原始图像的正确类标和最难攻击类标作为预测分类器的输出,预测输出和真实输出的交叉熵作为损失函数,对检测通道进行训练;
将预测分类器的输出连接第三置信度层,第三置信度层与第二置信度层之间连接有第二梯度锁定器,第三置信度层的输出连接有第三softmax,形成防御通道,将对抗样本作为输入,将对抗样本的正确类标作为输出,以预测输出和真实输出的交叉熵作为损失函数,对防御通道进行训练;
将待检测样本输入至训练好的检测通道中,经比较预测输出与最难攻击类标的对应关系,确定待检测样本为对抗样本;
将对抗样本输入至训练好的防御通道中,经计算输出对抗样本的正确类标,以实现对待检测样本的防御。
本发明中,利用多种攻击方法攻击原始图像获得多种对抗样本,利用对图像分类模型获得对抗样本的置信度,挑选对抗样本置信度对小的那类图像类标作为图像的最难攻击类标,以此构建原始图像的正确类标与最难共计类标的对应关系,该对应关系是后续检测阶段,判断对抗样本的依据。根据该对应关系可以检测待测样本是否为对抗样本。
优选地,所述利用FGSM,IGSM,JSMA,C&W l2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本包括:
对于FGSM,对抗样本
Figure BDA0002174497710000031
为:
Figure BDA0002174497710000032
其中,
Figure BDA0002174497710000033
为第i种原始图像,
Figure BDA0002174497710000034
为原始图像的正确标签,
Figure BDA0002174497710000035
为模型M的预测输出,模型M为CNN模型,L(·)为损失函数Loss,
Figure BDA0002174497710000041
表示对图像x求导,sgn(·)表示符号函数,ε为控制扰动大小的超参数;
对于IGSM,对抗样本
Figure BDA0002174497710000042
为:
Figure BDA0002174497710000043
其中,
Figure BDA0002174497710000044
表示第j次迭代生成的对抗样本,
Figure BDA0002174497710000045
表示第j-1次迭代输入的第i类的原始图像,
Figure BDA0002174497710000046
表示第j-1次迭代生成的对抗样本,clipε(·)表示clip函数,将函数值限定在扰动ε范围内,α表示步长,一般设为1;
对于JSMA,对抗样本
Figure BDA0002174497710000047
为:
根据输入实例计算神经网络输出的前向导数,然后利用对抗性显著性图来决定需要被加入扰动的关键像素点,并对这些关键像素点增加扰动,得到的对抗样本记为
Figure BDA0002174497710000048
对于C&W l2,对抗样本
Figure BDA0002174497710000049
为:
Figure BDA00021744977100000410
其中,ρ为增加扰动,D(·)为带有二范数的距离矩阵,c为权重参数,对抗样本
Figure BDA00021744977100000411
即为
Figure BDA00021744977100000412
对于Deepfool,对抗样本
Figure BDA00021744977100000413
为:
将扰动反复迭代直至图片被误判断,即获得抗样本
Figure BDA00021744977100000414
每次迭代中对图像的修改计算公式为:
Figure BDA00021744977100000415
其中,ri为在图像上增加的扰动,
Figure BDA00021744977100000416
本发明中,通过设置第一梯度锁定器和第二梯度锁定器,能够在训练检测通道时,实现多多任务协同训练,同时学习原始图像和对抗样本的特征,以使训练好的检测通道能够准确识别对抗样本和原始图像。
优选地,所述第一梯度锁定器和第二梯度锁定器为至少两个依次连接的全连接层,第一梯度锁定器的输入为第二置信度层的输出,第一梯度锁定器用于对第二置信度层的输出进行全连接操作,并对全连接操作结果和第一置信度层的输出进行相乘,以实现梯度协同;与第一梯度锁定器相同,第二梯度锁定器的输入为第二置信度层的输出,第二梯度锁定器用于对第三置信度层的输出进行全连接操作,并对全连接操作结果和第二置信度层的输出进行相乘,以实现梯度协同。
本发明中,在训练检测通道时,损失函数为:
Figure BDA0002174497710000051
其中,J(·,·)为交叉熵函数,J(·,·)为反交叉熵函数,
Figure BDA0002174497710000052
为类标为i的原始图像,
Figure BDA0002174497710000053
为原始图像的正确类标,
Figure BDA0002174497710000054
为原始图像的对抗样本,yrobust为原始图像的最难攻击类标,α、β以及γ为权重参数,进一步地,权重参数α=β=0.4,γ=0.2。
在训练防御通道时,损失函数为:
Figure BDA0002174497710000055
其中,J(·,·)为交叉熵函数,
Figure BDA0002174497710000056
为原始图像的正确类标,
Figure BDA0002174497710000057
为原始图像的对抗样本。
本发明的技术构思为:基于协同多任务训练的对抗攻击防御方法,同时完成对对抗样本的防御和对抗攻击的防御,对黑盒和迁移性较强的攻击具有较好的防御效果。首先训练5个结构相似的模型,输入某一类的图片调用五种无目标攻击生成5种对抗样本,利用五个模型统计出该类图片最难被攻击的类标。取一个模型三个不同置信度层和两两之间的梯度锁定装置进行协同多任务训练,第一通道作为检测通道取前两个置信度层,利用正常类标和最难攻击的类标一一对应的原则判断输入图像是否为对抗样本,第二通道作为防御通道使用第三置信度层,得到对抗样本对应的正确类标。
与现有技术相比,本发明具有有益效果为:
由于梯度锁定和协同多任务训练的存在,该方法对黑盒和迁移性攻击的防御性能较好。结合多通道使本发明能完成对对抗样本的检测并输出对抗样本的正确类标。在真实图像数据集上的实验结果表明,该算法具有良好的适用性和准确率,能够有效检测对抗样本,对对抗攻击有良好的防御效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是最难攻击类标yrobust的计算过程示意图;
图2是基于协同多任务训练的对抗攻击防御方法整体框架示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参照图1~图2,一种基于协同多任务训练的对抗攻击防御方法,包括以下步骤:
1)训练5个结构相似的深度模型M1M2……M5作为图像分类模型。
将训练集和测试集图片大小初始化至长宽相同的正方形作为输入。模型结构上,M1~M5为卷积神经网络,在结构上,第一层的卷积大小相同,模型深度和dropout层数量依次增加。学习率都设为0.001,batchsize设为100。模型识别准确率高于95%时停止训练并保存模型。
以MNIST数据集为例,M1至M5的模型结构如表1所示:
表1
Figure BDA0002174497710000071
2)系列对抗样本的生成
步骤2)的具体过程为:
2.1)在数据集中取出第i类的原始图片a张,其对应类标为
Figure BDA0002174497710000081
Figure BDA0002174497710000082
其中M(x)表示模型M对输入x的输出。
2.2)用FGSM,IGSM,JSMA,C&W l2,Deepfool等5种无目标攻击方法生成5种不同的对抗样本
Figure BDA0002174497710000083
攻击算法如下公式:
对于FGSM,对抗样本
Figure BDA0002174497710000084
为:
Figure BDA0002174497710000085
其中,
Figure BDA0002174497710000086
为第i种原始图像,
Figure BDA0002174497710000087
为原始图像的正确标签,
Figure BDA0002174497710000088
为模型M的预测输出,M模型为CNN模型,L(·)为损失函数Loss,
Figure BDA0002174497710000089
表示对图像x求导,sgn(·)表示符号函数,ε为控制扰动大小的超参数,可以为0.1;
对于IGSM,对抗样本
Figure BDA00021744977100000810
为:
Figure BDA00021744977100000811
其中,
Figure BDA00021744977100000812
表示第j次迭代生成的对抗样本,
Figure BDA00021744977100000813
表示第j-1次迭代输入的第i类的原始图像,
Figure BDA00021744977100000814
表示第j-1次迭代生成的对抗样本,clipε(·)表示clip函数,将函数值限定在ε范围内,α表示步长,一般设为1;
对于JSMA,对抗样本
Figure BDA00021744977100000815
为:
根据输入实例计算神经网络输出的前向导数,然后利用对抗性显著性图来决定需要被加入扰动的关键像素点,并对这些关键像素点增加扰动,得到的对抗样本记为
Figure BDA00021744977100000816
对于C&W l2,对抗样本
Figure BDA00021744977100000817
为:
Figure BDA00021744977100000818
其中,ρ为增加扰动,D(·)为带有二范数的距离矩阵,c为权重参数,对抗样本
Figure BDA0002174497710000091
即为
Figure BDA0002174497710000092
c为大于0的常数。
对于Deepfool,对抗样本
Figure BDA0002174497710000093
为:
将扰动反复迭代直至图片被误判断,即获得抗样本
Figure BDA0002174497710000094
每次迭代中对图像的修改计算公式为:
Figure BDA0002174497710000095
其中,ri为在图像上增加的扰动,
Figure BDA0002174497710000096
3)最难攻击类标yrobust的获取,具体流程如图1所示。
步骤3)的具体过程为:
3.1)将每一类的5种对抗样本输入对应的模型M1~M5中,取出每个softmax层的输出置信度数列,将其按照递减顺序排列得到{logitsn}。将logitsn所对应的类标记成一个数列{an},即an=argmax(logitsn)。
3.2)统计5个模型的5个数列{an},按照类标出现的次数多少降序排列。出现次数最少的类标就是最难攻击的目标类yrobust。每一张正常样本输入,都有正确类标
Figure BDA0002174497710000097
和唯一对应的最难攻击类标yrobust
Figure BDA0002174497710000098
和yrobust两个类标也呈一一对应关系。
4)双通道结合,检测并防御对抗样本,过程如图2所示。
4.1)第一通道作为检测通道检测对抗样本
4.1.1)模型M1有两个置信度层Z1和Z2,输入正常样本的训练集,两者同时进行训练,同时也使用对抗样本对模型进行正则化。训练的loss函数为:
Figure BDA0002174497710000101
J(·,·)为交叉熵函数,在训练时,α=β=0.4,γ=0.2。当输入为对抗样本时,
Figure BDA0002174497710000102
是反交叉熵函数,使yrobust的loss函数最大化。
4.1.2)置信度层Z1和Z2之间连接有梯度锁定器G1。梯度锁定器G1包括两个全连接层,使Z1和Z2保持非线性关系。置信度层Z2是梯度锁定器G的输入,梯度锁定器G将置信度层Z1和梯度锁定器G的输出相乘。本发明中使用良性训练数据集对体系结构进行训练,协同学习并通过FGSM的梯度对它进行正则化。训练过程采用步骤4.1.1),即采用损失函数J1进行训练。
4.1.3)将对抗样本和正常样本同时输入给模型M1,取M1的置信度层Z1和Z2。Z1经过softmax后的值用来计算模型输出与
Figure BDA0002174497710000103
之间的loss函数。已知
Figure BDA0002174497710000104
则与
Figure BDA0002174497710000105
对应的yrobust也已知。经过softmax后的Z2值被用来计算模型输出与yrobust之间的loss函数。
当输入为正常样本时,
Figure BDA0002174497710000106
与yrobust将继续保持对应关系。当输入为对抗样本时,
Figure BDA0002174497710000107
保持不变,但是yrobust发生变化,两者之间的对应关系受到破坏。通过判断
Figure BDA0002174497710000108
与yrobust之间的关系,就能检测输入的图片是否为对抗样本。
4.2)第二通道作为防御通道防御对抗性攻击
4.2.1)用
Figure BDA0002174497710000109
Figure BDA00021744977100001010
对M1的第三个置信度层Z3进行训练,训练的loss函数为
Figure BDA00021744977100001011
Z2和Z3之间也有梯度锁定器G2,训练方法如步骤4.1.2)。
4.2.2)当输入图片被检测为对抗样本时,该对抗样本将进入第二通道。由于Z3由对抗样本及其对应的正确类标进行训练,它的输出经过softmax就是对应的正确类标
Figure BDA0002174497710000111
输入对抗样本,输出正确类标,模型完成了对对抗攻击的防御。
应用例
上述对抗攻击防御方法可以应用到恶性图片的防御。即原始图像为恶性图片,对抗样本为对恶性图片增加扰动后形成的对抗样本。
恶性图片是指包含有色情、暴力的色情暴力图片,这些恶性图片在受到上传者的对抗性扰动操作后,不能被分类器识别成恶性图片,在网上得到传播。
应用时,针对恶性图片采用FGSM生成能够成功欺骗分类器的对抗样本,生成过程下:
Figure BDA0002174497710000112
ρ表示扰动大小,ε为控制扰动大小的参数,sign(·)为符号函数。Loss(θ,xi,l)表示模型的损失函数,
Figure BDA0002174497710000113
表示对x求导,θ是模型参数,xi表示输入的图片,l表示结果的类标。
然后,把对抗样本和恶性图片的正常样本按随机比例混合,输入到基于协同多任务训练的对抗攻击防御方法中,经过第一通道,模型能识别出正常样本和对抗样本。识别出的对抗样本经过第二通道后,模型输出他们对应正常样本的类标。这些类标都是恶性类标,对抗样本于是被分类器识别成恶性图片,从而阻止其在网上传播。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于协同多任务训练的对抗攻击防御方法,包括以下步骤:
利用FGSM,IGSM,JSMA,C&Wl2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本,将这五种对抗样本分别对应输入至五个图像分类模型中,输出5组预测置信度数列;
对每组预测置信度数列中预测置信度按照降序排序后,将预测置信度对应的图像类标记为一个类标数列;
统计5个类标数列中,图像类标出现次数最小的类标即为最难攻击类标,这样针对每张原始图像会有唯一一个正常类标和唯一一个最难攻击类标,且正常类标和最难攻击类标是一一对应关系;
选择图像分类模型中的任意一个作为预测分类器,将预测分类器的输出并行连接第一置信度层和第二置信度层,第一置信度层和第二置信度层之间连接有第一梯度锁定器,第一置信度层和第二置信度层的输出分别连接第一softmax和第二softmax,形成检测通道;将原始图像和对抗样本作为预测分类器的输入,以原始图像的正确类标和最难攻击类标作为预测分类器的输出,预测输出和真实输出的交叉熵作为损失函数,对检测通道进行训练;
将预测分类器的输出连接第三置信度层,第三置信度层与第二置信度层之间连接有第二梯度锁定器,第三置信度层的输出连接有第三softmax,形成防御通道,将对抗样本作为输入,将对抗样本的正确类标作为输出,以预测输出和真实输出的交叉熵作为损失函数,对防御通道进行训练;
将待检测样本输入至训练好的检测通道中,经比较预测输出与最难攻击类标的对应关系,确定待检测样本为对抗样本;
将对抗样本输入至训练好的防御通道中,经计算输出对抗样本的正确类标,以实现对待检测样本的防御。
2.如权利要求1所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,所述第一梯度锁定器和第二梯度锁定器为至少两个依次连接的全连接层,第一梯度锁定器的输入为第二置信度层的输出,第一梯度锁定器用于对第二置信度层的输出进行全连接操作,并对全连接操作结果和第一置信度层的输出进行相乘,以实现梯度协同;与第一梯度锁定器相同,第二梯度锁定器的输入为第二置信度层的输出,第二梯度锁定器用于对第三置信度层的输出进行全连接操作,并对全连接操作结果和第二置信度层的输出进行相乘,以实现梯度协同。
3.如权利要求2所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,在训练检测通道时,损失函数为:
Figure FDA0003305874400000021
其中,J(·,·)为交叉熵函数,J’(·,·)为反交叉熵函数,
Figure FDA0003305874400000022
为类标为i的原始图像,
Figure FDA0003305874400000023
为原始图像的正确类标,
Figure FDA0003305874400000024
为原始图像的对抗样本,yrobust为原始图像的最难攻击类标,α、β以及γ为权重参数。
4.如权利要求2所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,在训练防御通道时,损失函数为:
Figure FDA0003305874400000025
其中,J(·,·)为交叉熵函数,
Figure FDA0003305874400000026
为原始图像的正确类标,
Figure FDA0003305874400000027
为原始图像的对抗样本。
5.如权利要求1所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,所述利用FGSM,IGSM,JSMA,C&Wl2,Deepfool五种攻击方法对每类原始图像进行攻击处理,获得针对每类原始图像的五种对抗样本包括:
对于FGSM,对抗样本
Figure FDA0003305874400000031
为:
Figure FDA0003305874400000032
其中,
Figure FDA0003305874400000033
为第i种原始图像,
Figure FDA0003305874400000034
为原始图像的正确标签,
Figure FDA0003305874400000035
为模型M的预测输出,L(·)为损失函数Loss,
Figure FDA0003305874400000036
表示对图像x求导,sgn(·)表示符号函数,ε为控制扰动大小的超参数;
对于IGSM,对抗样本
Figure FDA0003305874400000037
为:
Figure FDA0003305874400000038
其中,
Figure FDA0003305874400000039
表示第j次迭代生成的对抗样本,
Figure FDA00033058744000000310
表示第j-1次迭代输入的第i类的原始图像,
Figure FDA00033058744000000311
表示第j-1次迭代生成的对抗样本,clipε(·)表示clip函数,将函数值限定在扰动ε范围内,α表示步长,设为1;
对于JSMA,对抗样本
Figure FDA00033058744000000312
为:
根据输入实例计算神经网络输出的前向导数,然后利用对抗性显著性图来决定需要被加入扰动的关键像素点,并对这些关键像素点增加扰动,得到的对抗样本记为
Figure FDA00033058744000000313
对于C&Wl2,对抗样本
Figure FDA00033058744000000314
为:
Figure FDA00033058744000000315
其中,ρ为增加扰动,D(·)为带有二范数的距离矩阵,c为权重参数,对抗样本
Figure FDA00033058744000000316
即为
Figure FDA00033058744000000317
对于Deepfool,对抗样本
Figure FDA00033058744000000318
为:
将扰动反复迭代直至图片被误判断,即获得抗样本
Figure FDA0003305874400000041
每次迭代中对图像的修改计算公式为:
Figure FDA0003305874400000042
其中,ri为在图像上增加的扰动,
Figure FDA0003305874400000043
6.如权利要求3所述的基于协同多任务训练的对抗攻击防御方法,其特征在于,权重参数α=β=0.4,γ=0.2。
CN201910774081.3A 2019-08-21 2019-08-21 基于协同多任务训练的对抗攻击防御方法 Active CN110674938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910774081.3A CN110674938B (zh) 2019-08-21 2019-08-21 基于协同多任务训练的对抗攻击防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910774081.3A CN110674938B (zh) 2019-08-21 2019-08-21 基于协同多任务训练的对抗攻击防御方法

Publications (2)

Publication Number Publication Date
CN110674938A CN110674938A (zh) 2020-01-10
CN110674938B true CN110674938B (zh) 2021-12-21

Family

ID=69075452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910774081.3A Active CN110674938B (zh) 2019-08-21 2019-08-21 基于协同多任务训练的对抗攻击防御方法

Country Status (1)

Country Link
CN (1) CN110674938B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401407B (zh) 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN111460426B (zh) * 2020-04-02 2023-06-20 武汉大学 基于对抗演化框架的抗深度学习文本验证码生成系统及方法
CN111627044B (zh) * 2020-04-26 2022-05-03 上海交通大学 基于深度网络的目标追踪攻击与防御方法
CN111625820A (zh) * 2020-05-29 2020-09-04 华东师范大学 一种基于面向AIoT安全的联邦防御方法
CN111783551B (zh) * 2020-06-04 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN111783083B (zh) * 2020-06-19 2023-08-22 浙大城市学院 一种防御算法的推荐方法及装置
CN111881027A (zh) * 2020-07-23 2020-11-03 深圳慕智科技有限公司 一种基于数据防御的深度学习模型优化方法
CN111737691B (zh) * 2020-07-24 2021-02-23 支付宝(杭州)信息技术有限公司 对抗样本的生成方法和装置
CN111914928B (zh) * 2020-07-30 2024-04-09 南京大学 一种为图像分类器进行对抗样本防御的方法
CN112016591A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 一种图像识别模型的训练方法及图像识别方法
CN112052452B (zh) * 2020-08-28 2024-02-20 浙江工业大学 一种基于陷阱结构的图像识别防御方法
CN111738374B (zh) * 2020-08-28 2020-11-24 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN111814916B (zh) * 2020-08-28 2020-12-29 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN112232434B (zh) * 2020-10-29 2024-02-20 浙江工业大学 基于相关性分析的对抗攻击协同防御方法及装置
CN112541404A (zh) * 2020-11-22 2021-03-23 同济大学 一种面向交通信息感知的物理攻击对抗样本生成方法
CN112818783B (zh) * 2021-01-22 2022-08-02 南京邮电大学 一种基于交通标志目标检测器改进的对抗样本生成方法
CN112668557B (zh) * 2021-01-29 2024-06-14 南通大学 一种行人再识别系统中防御图像噪声攻击的方法
CN113178255B (zh) * 2021-05-18 2023-05-26 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113269241B (zh) * 2021-05-18 2022-05-06 中南大学 一种遥感图像对抗样本的软阈值防御方法
CN113283599B (zh) * 2021-06-11 2024-03-19 浙江工业大学 基于神经元激活率的对抗攻击防御方法
CN113869233A (zh) * 2021-09-30 2021-12-31 湖南大学 一种基于上下文特征不一致性的多专家对抗攻击检测方法
CN114743074B (zh) * 2022-06-13 2022-09-09 浙江华是科技股份有限公司 一种基于强弱对抗训练的船舶检测模型训练方法及系统
CN115481719B (zh) * 2022-09-20 2023-09-15 宁波大学 一种防御基于梯度的对抗攻击的方法
CN116523032B (zh) * 2023-03-13 2023-09-29 之江实验室 一种图像文本双端迁移攻击方法、装置和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388795A (zh) * 2018-02-11 2018-08-10 浙江工业大学 一种基于lstm检测器的对抗攻击防御方法
CN108960080A (zh) * 2018-06-14 2018-12-07 浙江工业大学 基于主动防御图像对抗攻击的人脸识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504004B2 (en) * 2016-09-16 2019-12-10 General Dynamics Mission Systems, Inc. Systems and methods for deep model translation generation
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
CN108322349B (zh) * 2018-02-11 2021-04-06 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108537271B (zh) * 2018-04-04 2021-02-05 重庆大学 一种基于卷积去噪自编码机防御对抗样本攻击的方法
CN109460814B (zh) * 2018-09-28 2020-11-03 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
CN109639710B (zh) * 2018-12-29 2021-02-26 浙江工业大学 一种基于对抗训练的网络攻击防御方法
CN109948658B (zh) * 2019-02-25 2021-06-15 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388795A (zh) * 2018-02-11 2018-08-10 浙江工业大学 一种基于lstm检测器的对抗攻击防御方法
CN108960080A (zh) * 2018-06-14 2018-12-07 浙江工业大学 基于主动防御图像对抗攻击的人脸识别方法

Also Published As

Publication number Publication date
CN110674938A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674938B (zh) 基于协同多任务训练的对抗攻击防御方法
Li et al. How to prove your model belongs to you: A blind-watermark based framework to protect intellectual property of DNN
Shen et al. Auror: Defending against poisoning attacks in collaborative deep learning systems
CN113627543A (zh) 一种对抗攻击检测方法
Li et al. Sa-es: Subspace activation evolution strategy for black-box adversarial attacks
Goldberg et al. Explaining and aggregating anomalies to detect insider threats
Tanay et al. Built-in vulnerabilities to imperceptible adversarial perturbations
Hui et al. FoolChecker: A platform to evaluate the robustness of images against adversarial attacks
Yang et al. APE-GAN++: An improved APE-GAN to eliminate adversarial perturbations
CN115438337A (zh) 一种深度学习对抗样本安全性评价方法
CN113378985A (zh) 一种基于逐层相关性传播的对抗样本检测方法和装置
Rezaei et al. Quantifying Overfitting: Evaluating Neural Network Performance through Analysis of Null Space
Alvar et al. Membership privacy protection for image translation models via adversarial knowledge distillation
Lin et al. Towards interpretable ensemble learning for image-based malware detection
Sen et al. Adversarial Attacks on Image Classification Models: Analysis and Defense
Gala et al. Evaluating the effectiveness of attacks and defenses on machine learning through adversarial samples
Huang et al. Focus-Shifting Attack: An Adversarial Attack That Retains Saliency Map Information and Manipulates Model Explanations
Ammar et al. Enhancing Neural Network Resilence against Adversarial Attacks based on FGSM Technique
Bi et al. Hybrid Network Intrusion Detection with Stacked Sparse Contractive Autoencoders and Attention-based Bidirectional LSTM
Gunasekaran Generating and Defending Against Adversarial Examples for Loan Eligibility Prediction
Wasito et al. TIME SERIES CLASSIFICATION FOR FINANCIAL STATEMENT FRAUD DETECTION USING RECURRENT NEURAL NETWORKS BASED APPROACHES
Stevens et al. Manifold learning for adversarial robustness in predictive process monitoring
CN102938042A (zh) 网页篡改检测方法及装置
Ingle et al. Enhancing Model Robustness and Accuracy Against Adversarial Attacks via Adversarial Input Training.
Kupek Evaluating the Security of Neural Networks on a Defense Against Adversarial Examples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant