CN115115905A - 基于生成模型的高可迁移性图像对抗样本生成方法 - Google Patents

基于生成模型的高可迁移性图像对抗样本生成方法 Download PDF

Info

Publication number
CN115115905A
CN115115905A CN202210663143.5A CN202210663143A CN115115905A CN 115115905 A CN115115905 A CN 115115905A CN 202210663143 A CN202210663143 A CN 202210663143A CN 115115905 A CN115115905 A CN 115115905A
Authority
CN
China
Prior art keywords
model
sample
training
image
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210663143.5A
Other languages
English (en)
Other versions
CN115115905B (zh
Inventor
黄鹤
李欢欢
李浩川
曹洪龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210663143.5A priority Critical patent/CN115115905B/zh
Publication of CN115115905A publication Critical patent/CN115115905A/zh
Application granted granted Critical
Publication of CN115115905B publication Critical patent/CN115115905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于生成模型的高可迁移性图像对抗样本生成方法,包括:采集黑盒目标模型训练集的样本图像进行预处理得到训练样本;构建并训练白盒替身模型,构建包括扰动重利用模块PRM和特征增强模块FEM的生成网络模型;使用训练完成的白盒替身模型训练生成网络模型;将目标图像输入训练完成的生成网络模型,训练完成的生成网络模型生成目标图像的对抗样本,将目标图像的对抗样本输入黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。本发明有效利用白盒替身模型的中间层特征,缓解对抗样本对白盒替身模型的过拟合,提高对抗样本的可迁移性和黑盒攻击表现效果,生成对抗样本效率高,且生成的对抗样本可以用于评价神经网络的鲁棒性。

Description

基于生成模型的高可迁移性图像对抗样本生成方法
技术领域
本发明涉及深度学习、图像分类、对抗攻击技术领域,尤其是指一种基于生成模型的高可迁移性图像对抗样本生成方法。
背景技术
随着深度学习技术的不断进步,各种深度神经网络模型已经在图像分类、人脸识别、语音识别等众多不同的领域中展现出接近人类甚至超越人类水平的优越性能。但是,近年来的许多工作表明,深度神经网络模型极易受到对抗样本的攻击。对抗样本(Adversarial examples)是指在数据集中通过故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出,这些被攻击者恶意添加扰动或者噪声的样本用来攻击机器学习模型(包括深度神经网络模型)使其发生错误。在图像分类领域,这些对抗样本是攻击者有意合成的图像,以人类的视觉系统来看这些合成的图像几乎与原始图像完全相同,但会误导深度神经网络模型提供与正确标签偏差极大的预测输出。如图1所示的对抗样本示意图,左图原始样本为一张琵鹭的图片,此时经过训练的深度神经网络Inception-v3可以正确识别该样本,中间图为精心设计的对抗噪声,右图视为将噪声添加在左图上得到的对抗样本,当面对右图的对抗样本时,Inception-v3模型会将其识别为日本猎犬。由此可见,面对精心设计的对抗样本时,深度神经网络的鲁棒性远远低于人类。
在深度学习技术应用越来越广泛的背景下,对抗样本带来了巨大的安全挑战,如自动驾驶、人脸识别支付等应用都面临对抗样本的潜在威胁。因此,深度学习中的对抗样本问题得到了越来越多的关注。对抗样本的出现原因以及生成方法是对抗样本研究的关键问题,但是现在学界对于对抗样本出现的原因还没有一个公认的、合理的解释,所以研究对抗样本的生成方法有重要意义。研究对抗样本的生成方法不仅可以促进对对抗样本的特性以及存在的原因的理解,而且对于对抗攻击的研究可以促进效果更好的对抗样本防御算法的产生,使深度学习算法的应用变得更加安全和完善。对抗样本的存在也表明了深度学习的研究还存在盲点,对对抗样本的研究还可以促进对深度学习模型的理解,也将促进深度神经网络模型鲁棒性的提高。
研究深度神经网络模型的设计、合成对抗样本的行为被称为对抗攻击,被攻击的模型被称为目标模型。依据攻击者可以获得的目标模型的信息,对抗攻击又可以分为白盒攻击与黑盒攻击两类。白盒攻击是指攻击者可以获得目标模型的所有信息,如模型的权重参数、结构、梯度及输出等,并且利用这些信息来设计合成对抗样本。黑盒攻击是指攻击者不能获取目标模型内部的任何信息,只能查询目标模型的输出,利用有限的信息来设计合成对抗样本。在现实情况中,使用者通常不能访问模型的内部信息,所以黑盒攻击更加符合现实情形。因此,设计和实现有效的黑盒攻击是对抗样本的一个研究趋势以及研究难点。
黑盒攻击方法可以分为两类,一类是基于决策查询的方法,另一类是基于对抗样本可迁移性的方法。对抗样本的可迁移性是指针对白盒模型生成的对抗样本,可以用于攻击其他黑盒目标模型。基于对抗样本可迁移性的方法又可以根据具体的实现方式分为以下三类:基于优化的对抗样本生成方法、基于梯度的对抗样本生成方法和基于生成模型的对抗样本生成方法。
1、基于优化的对抗样本生成方法
基于优化的对抗样本生成方法是将对抗样本的生成过程当作受约束的优化问题,可以形式化为下式:
Figure BDA0003691855630000021
其中x表示原始样本,
Figure BDA0003691855630000031
表示对抗样本,t表示真实标签,δ表示对抗扰动,D(.)是一种距离度量函数(如L范数距离、L2范数距离),C(.)代表目标分类模型的输出,该式表示在使目标模型出错的情况下最小化原始样本x与对抗样本
Figure BDA0003691855630000032
之间的距离,从而使对抗样本与原始样本难以分辨。由于这个问题是高度非线性的且难以求解,因此需要对式(1)进行转换后进行求解:
Figure BDA0003691855630000033
其中lossf(.)是一个与模型和样本标签有关的损失函数,可以为交叉熵损失函数或者其他形式的损失函数。转换后的问题可以使用受约束的L-BFGS或者其他优化方法来求解:对于每一个常量c>0,重复优化求解这个最小化问题,每一个c都能找到一个满足问题的可行解,通过执行全局的线性搜索,最终找到满足L2距离最小的对抗样本。
2、基于梯度的对抗样本生成方法
基于梯度的对抗样本生成方法通过求解约束优化问题来生成对抗样本,与基于优化的方法的不同之处在于其定义的优化问题不同:
Figure BDA0003691855630000034
其中J一般是交叉熵损失函数,
Figure BDA0003691855630000035
表示对抗样本,y表示真实标签,ε表示对抗扰动的最大幅度,该式表示在对抗扰动的L范数满足小于ε的条件下最大化对抗样本相对于真实标签的损失函数,从而实现对抗攻击。
在求解该优化问题的过程中,通过更新对抗样本
Figure BDA0003691855630000036
不断最大化对抗样本
Figure BDA0003691855630000037
相对于真实标签y的损失函数,就可以使目标模型对于对抗样本的输出不断偏离原始输出,从而实现对抗攻击。最大化该损失函数可以使用梯度上升的方法,即使用该损失函数相对于样本x的梯度来更新得到对抗样本,如下式:
Figure BDA0003691855630000038
式(4)使用符号函数来获得梯度的方向,使用ε约束扰动的幅度以满足L范数条件。这个方法又称为FGSM(Fast Gradient Sign Method,FGSM),从式(4)中可以看出FGSM只通过一步更新就得到对抗样本,因此不能保证得到最优解。迭代方法I-FGSM(IterativeFast Gradient Sign Method,I-FGSM)通过多次以小的步长α应用FGSM来更新对抗样本,从而更好地逼近全局最优解,如下式:
Figure BDA0003691855630000041
实验结果表明I-FGSM可以有效地提高白盒攻击的性能,但是其黑盒攻击效果很差,这是由于生成的对抗样本对白盒模型过拟合,导致其可迁移性下降,黑盒攻击的效果变差。为此,MI-FGSM(Momentum Iterative Fast Gradient Sign Method,MI-FGSM)方法被提出以提高对抗样本的可迁移性,如下式:
Figure BDA0003691855630000042
其中,μ表示动量的系数,可以看出MI-FGSM方法每次更新都结合上一次迭代的梯度,因此不同迭代之间更新的方向的相似性更高,更新过程更稳定,也更容易脱离局部最小,从而缓解过拟合现象,提高了对抗样本的可迁移性。
3、基于生成模型的对抗样本生成方法
基于生成模型的对抗样本生成方法的框架由如图2所示的生成模型和目标模型组成。该方法的训练流程是:第一步,将原始样本x输入生成模型fθ(.),生成模型生成相应的对抗扰动,然后对扰动进行缩放使其满足L范数的要求,再将扰动与原始样本相叠加,确保叠加后得到的对抗样本所有像素都处于有效范围内后得到最终的对抗样本
Figure BDA0003691855630000043
第二步,将对抗样本
Figure BDA0003691855630000044
输入预训练的目标模型K,利用目标模型的输出计算损失函数;第三步,反向传播得到生成模型的梯度,使用优化算法更新生成模型;第四步,重复以上步骤直至损失函数收敛。这种方法的特点是一旦模型训练完成,就可以在不访问目标模型的前提下高效地生成对抗样本,并且取得比较好的攻击结果。
但是,基于优化的对抗样本生成方法、基于梯度的对抗样本生成方法和基于生成模型的对抗样本生成方法这三种传统方法也存在缺点:1、现有的基于生成模型生成对抗样本的方法仅利用目标模型的输出来计算相关的对抗损失,缺乏对目标模型中间层特征的有效利用;2、这些方法生成的对抗样本可迁移性较低,黑盒攻击表现不好;3、这些方法通常直接丢弃超过L范数阈值的扰动,对其缺乏有效地利用;4、基于优化和基于梯度的对抗样本生成方法计算速度慢,生成对抗样本效率低。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种基于生成模型的高可迁移性图像对抗样本生成方法,可以提高对抗样本的生成效率和对抗样本可迁移性、且生成的对抗样本可以用于评价神经网络的鲁棒性。
为解决上述技术问题,本发明提供了一种基于生成模型的高可迁移性图像对抗样本生成方法,包括以下步骤:
S1:采集黑盒目标模型训练集的样本图像,对所述样本图像进行预处理得到训练样本;
S2:构建白盒替身模型,训练所述白盒替身模型得到训练完成的白盒替身模型,构建包括扰动重利用模块PRM和特征增强模块FEM的生成网络模型;
S3:使用训练完成的白盒替身模型训练所述生成网络模型,得到训练完成的生成网络模型;
S4:将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成所述目标图像的对抗样本,将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。
作为优选的,所述生成网络模型的网络结构包括下采样模块、残差模块和上采样模块,所述生成网络模型由下采样模块、残差模块和上采样模块级联组成,输入图像依次经过下采样模块、残差模块和上采样模块生成对抗扰动。
作为优选的,所述下采样模块包括至少一个卷积层,图像在输入第一个卷积层的卷积核前使用反射的方式填充图像的边缘;
所述残差模块包括至少一个残差块,每个所述残差块包括至少一个卷积层,图像在输入第一个残差块中的第一个卷积层的卷积核前使用反射的方式填充图像的边缘;
所述上采样模块包括至少一个转置卷积层和至少一个卷积层,图像在输入卷积层的卷积核前使用反射的方式填充图像的边缘,卷积层使用的激活函数为tanh激活函数;
所述上采样模块中的转置卷积层和所述上采样模块中的除最后一层外的卷积层、所述下采样模块中的所有卷积层以及所述残差模块中的所有卷积层均使用Conv-BatchNorm-ReLU的单元结构。
作为优选的,所述使用训练完成的白盒替身模型训练所述生成网络模型,得到训练完成的生成网络模型,具体为:
S3-1:将所述训练样本输入所述生成网络模型,所述生成网络模型生成相应的对抗扰动,所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动,将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本;
S3-2:获取训练完成的白盒替身模型的中间层,对所述训练样本进行输入转换得到训练样本的输入转换集合,并将所述输入转换集合输入所述训练完成的白盒替身模型,根据所述中间层的梯度得到聚合梯度
Figure BDA0003691855630000071
S3-3:将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型,从所述中间层中提取出所述对抗样本的特征图fk(x')和训练样本的特征图fk(x),所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000072
对所述fk(x')进行增强得到增强后的特征图Ak(x'),所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000073
对所fk(x)进行增强得到增强后的特征图Ak(x),计算Ak(x')和Ak(x)之间的差异作为损失函数;
S3-4:根据所述损失函数进行反向传播计算生成网络模型的梯度,使用优化算法更新所述生成网络模型;
S3-5:重复S3-1~S3-4直到所述损失函数收敛,保存生成网络模型此时的参数,得到训练完成的生成网络模型。
作为优选的,所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动,具体为:
所述对抗扰动按L范数进行裁剪操作,将裁剪后得到的超过阈值ε的扰动部分作为超出扰动,低于阈值ε的扰动部分作为合法扰动;
使用预设的卷积核作为所述超出扰动的投影核,对所述超出扰动进行卷积操作得到超出扰动的投影,预设的卷积核的权重参数Wp[i,j]为:
Figure BDA0003691855630000074
其中,kw代表卷积核尺寸;
将所述超出扰动的投影与所述合法扰动相加得到所述修正后的对抗扰动。
作为优选的,所述获取训练完成的白盒替身模型的中间层,对所述训练样本进行输入转换得到训练样本的输入转换集合,并将所述输入转换集合输入所述训练完成的白盒替身模型,根据所述中间层的梯度得到聚合梯度
Figure BDA0003691855630000089
具体为:
对所述训练样本以概率pd进行N次随机转换得到输入转换集合;
将所述输入转换集合中的样本依次输入所述训练完成的白盒替身模型,利用梯度反向传播计算训练完成的白盒替身模型的输出对于中间层的梯度
Figure BDA0003691855630000081
Figure BDA0003691855630000082
其中x代表输入图像,f(x)[t]代表模型关于标签t的输出,fk(x)代表针对输入图像x训练完成的白盒替身模型第k层的特征图,
Figure BDA0003691855630000083
的通道数、尺寸大小均与fk(x)相同;
对N次计算得到的梯度
Figure BDA0003691855630000084
进行逐元素相加并求平均值,
Figure BDA0003691855630000085
表示第i次计算得到的梯度,此时的输入图像为xi
Figure BDA0003691855630000086
将所述平均值作为聚合梯度
Figure BDA0003691855630000087
Figure BDA0003691855630000088
作为优选的,所述随机转换为随机掩膜或者添加随机噪声,
所述随机掩膜的表达式为:
Figure BDA0003691855630000091
其中,
Figure BDA0003691855630000092
为遵循Bernouli分布的矩阵,矩阵元素只有0、1两个值,且每个元素有pd(0<pd<1)的概率为0,
Figure BDA0003691855630000093
与输入图像x逐元素相乘得到随机掩膜后的图像
Figure BDA0003691855630000094
所述添加随机噪声的表达式为:
Figure BDA0003691855630000095
r∈U[0,1]n,对输入图像x添加服从均匀分布的随机噪声r后得到添加随机噪声后的图像
Figure BDA0003691855630000096
作为优选的,所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000097
对所述fk(x')进行增强得到增强后的特征图Ak(x'),所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000098
对所fk(x)进行增强得到增强后的特征图Ak(x),具体为:
对所述聚合梯度
Figure BDA0003691855630000099
进行逐通道的全局平均池化得到特征重要性系数向量
Figure BDA00036918556300000910
所述特征重要性系数向量中每个元素代表每个特征图的权重,计算公式为:
Figure BDA00036918556300000911
其中k代表训练完成的白盒替身模型的第k层,c代表第k层的第c个通道,
Figure BDA00036918556300000916
代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度,p代表特征图的宽度,q代表特征图的高度,m代表聚合梯度的第m行,n代表聚合梯度的第n列,
Figure BDA00036918556300000912
代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度的第m行、第n列处的梯度值;
将所述特征重要性系数向量与所述fk(x')逐通道相乘得到增强后的特征图Ak(x'),所述特征重要性系数向量与所述fk(x')逐通道相乘的计算公式为:
Figure BDA00036918556300000913
其中
Figure BDA00036918556300000914
为增强后的fk(x')的第k层的第c个通道的特征图,
Figure BDA00036918556300000915
表示原始fk(x')第k层的第c个通道的特征图,逐通道相乘后完成对fk(x')的特征增强;
将所述特征重要性系数向量与所述fk(x)逐通道相乘得到增强后的特征图Ak(x),所述特征重要性系数向量与所述fk(x)逐通道相乘的计算公式为:
Figure BDA0003691855630000101
其中
Figure BDA0003691855630000102
为增强后的fk(x)第k层的第c个通道的特征图,
Figure BDA0003691855630000103
表示原始fk(x)第k层的第c个通道的特征图,逐通道相乘后完成对fk(x)的特征增强。
作为优选的,所述计算Ak(x')和Ak(x)之间的差异作为损失函数,具体为:
将Ak(x')转换为向量
Figure BDA0003691855630000104
其中S为特征图Ak(x')中元素的总个数,
Figure BDA0003691855630000105
代表特征图Ak(x')中第s个元素值;将Ak(x)转换为向量
Figure BDA0003691855630000106
其中S为特征图Ak(x)中元素的总个数,
Figure BDA0003691855630000107
代表Ak(x)中第s个元素值;计算Vk(x')和Vk(x)之间的余弦相似度作为损失函数,计算公式为:
Figure BDA0003691855630000108
其中|| ||2为欧几里得范数。
作为优选的,所述将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成所述目标图像的对抗样本,具体为:
将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成目标图像的对抗扰动;
目标图像的对抗扰动经过所述扰动重利用模块PRM得到修改后的扰动,将修改后的扰动与所述目标图像逐像素相加和像素裁剪得到目标图像的对抗样本。
本发明的上述技术方案相比现有技术具有以下优点:
在训练生成网络模型时,通过白盒替身模型获取聚合梯度,抑制模型预测时与目标无关的特征,增强模型预测时的关键特征;同时,通过特征增强模块计算模型中间层各个特征图的重要性,进一步增强了白盒替身模型进行预测时的关键特征;有效利用了白盒替身模型的中间层特征,缓解了对抗样本对白盒替身模型的过拟合,提高了对抗样本的可迁移性和黑盒攻击表现效果,并且生成的对抗样本可以用于评价神经网络的鲁棒性。
通过扰动重利用模块有效利用超过L范数阈值的扰动,提高了对抗噪声的聚集性。相较于传统的基于梯度或者优化方法的对抗样本生成方法,本发明具有较强的数据学习能力、更高的生成效率和更高的样本质量,可以在无需目标模型的情况下生成对抗样本,生成对抗样本效率高。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是对抗样本示意图;
图2是基于生成模型的对抗样本生成方法的框架结构图;
图3是本发明的流程图;
图4是本发明中生成网络模型的网络结构示意图;
图5是本发明中生成网络的训练框架;
图6是本发明中扰动重利用模块的结构示意图;
图7是本发明中得到聚合梯度的流程图;
图8是本发明中特征增强模块FEM的结构示意图;
图9是本发明中生成网络模型测试阶段的框架示意图;
图10是本发明实施例中原始样本和本发明生成的对抗样本的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图3流程图所示,本发明公开了一种基于生成模型的高可迁移性图像对抗样本生成方法,包括以下步骤:
S1:采集黑盒目标模型训练集的相关样本图像,对每个样本图像标注标签和分类定义,对所述样本图像进行预处理得到训练样本。
S2:构建白盒替身模型,训练所述白盒替身模型得到训练完成的白盒替身模型,根据实际任务设计白盒模型结构,将所述训练样本作为训练集,将交叉熵函数作为白盒替身模型的损失函数,训练白盒替身模型直到白盒替身模型的损失函收敛,保存保存白盒替身模型此时的权重参数,得到训练完成的白盒替身模型。
构建包括扰动重利用模块PRM(Perturbation Reuse Module,PRM)和特征增强模块FEM(Feature Enhancement Module,FEM)的生成网络模型。如图4所示,所述生成网络模型的网络结构包括下采样模块、残差模块和上采样模块,所述生成网络模型由下采样模块、残差模块和上采样模块级联组成,输入图像依次经过下采样模块、残差模块和上采样模块生成对抗扰动。
所述下采样模块包括至少一个卷积层,图像在输入第一个卷积层的卷积核前使用反射的方式填充图像的边缘;本实施例中,所述下采样模块包括两个卷积层,在下采样模块中,输入图像首先经过一个卷积核大小为7×7的卷积层,而后输出64通道的特征图,在输入图像输入卷积核前使用反射的方式填充图像的边缘,可以使输入输出的尺寸一致并减少图像边缘的人工痕迹;第一个卷积层之后是两个步长为2的3×3卷积核,每经过一个卷积层,特征图的通道数将增大一倍,同时特征图的尺寸缩小一倍,即实现了下采样:经过这两个卷积层,特征图的大小被下采样到原来的1/4,减少了模型计算量的同时增大了有效感受野。
所述残差模块包括至少一个残差块,每个所述残差块包括至少一个卷积层,图像在输入第一个残差块中的第一个卷积层的卷积核前使用反射的方式填充图像的边缘。本实施例中,残差模块包含6个残差块,每个残差块包含两个3×3的卷积层;卷积层的通道数与其输入保持一致,并使用了反射填充,以保证残差块的输入与输出的特征图大小保持一致。残差块的作用是引入了恒等映射,使得优化过程更加容易并且便于生成对抗扰动时更多地利用输入图像中的信息。
所述上采样模块包括至少一个转置卷积层和至少一个卷积层,图像在输入卷积层的卷积核前使用反射的方式填充图像的边缘,卷积层使用的激活函数为tanh激活函数;本实施例中,上采样模块包含两个步长为2、卷积核大小为3×3的转置卷积层,每经过一个转置卷积层,特征图的大小将扩大一倍,同时通道数变为原来的一半,从而实现特征图的上采样;转置卷积层之后是一个7×7的卷积层,该卷积层将特征图映射成为三通道(RGB)的输出,同时使用反射填充保证输入输出尺寸一致,并且使用tanh激活函数保证生成网络的输出在[-1,1]的范围内。
所述上采样模块中的转置卷积层和所述上采样模块中的除最后一层外的卷积层、所述下采样模块中的所有卷积层以及所述残差模块中的所有卷积层均使用Conv-BatchNorm-ReLU的单元结构。
S3:使用训练完成的白盒替身模型训练所述生成网络模型,得到训练完成的生成网络模型;本实施例中构建包括训练生成网络模型和训练白盒替身模型的生成网络的训练框架,生成网络的训练框架如图5所示。
S3-1:将所述训练样本输入所述生成网络模型,所述生成网络模型生成相应的对抗扰动,所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动,将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本。
S3-1-1:将所述训练样本输入所述生成网络模型,所述生成网络模型生成相应的对抗扰动。
S3-1-2:所述对抗扰动通过扰动重利用模块PRM对超过L范数阈值ε的扰动部分进行重新利用,本实施例中ε取值16;扰动重利用模块结构如图6所示:所述对抗扰动按L范数进行裁剪操作,将裁剪后得到的超过阈值ε的扰动部分作为超出扰动,低于阈值ε的扰动部分作为合法扰动。
S3-1-3:使用预设的卷积核作为所述超出扰动的投影核,对所述超出扰动进行卷积操作得到超出扰动的投影,本实施例中的投影核为一个通道为3,尺寸为3×3的卷积核;预设的卷积核的权重参数Wp[i,j]为:
Figure BDA0003691855630000141
Wp代表所述预设的卷积核,其中kw代表卷积核尺寸;根据这个公式,卷积核中心的权重为0,其余部分的权重都相同,这样就可以把超出扰动投影到周围,并且为了保证投影前后输入输出的扰动尺寸保持一致,卷积之前需要对原扰动进行“补零”填充。
S3-1-4:将所述超出扰动的投影与所述合法扰动相加得到所述修正后的对抗扰动。对超过L范数阈值部分采用启发式的投影策略对该部分扰动进行重新利用,经过扰动重利用模块PRM后,超出扰动将被投影到原扰动中超出阈值ε的像素的周围像素,这样就使原扰动幅度大的区域在修正后扰动更加密集,提高对抗扰动的聚集性,进一步提高对抗样本的有效性。
S3-1-5:将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本。
S3-2:获取训练完成的白盒替身模型的中间层(卷积层),如图7所示,对所述训练样本进行输入转换得到训练样本的输入转换集合,并将所述输入转换集合输入所述训练完成的白盒替身模型,根据所述中间层的梯度得到聚合梯度
Figure BDA0003691855630000151
具体为:
S3-2-1:对所述训练样本以概率pd进行N次随机转换得到输入转换集合,所述随机转换为随机掩膜或者添加随机噪声。
所述随机掩膜的表达式为:
Figure BDA0003691855630000152
对图像进行随机掩膜即随机丢弃一些像素,其中,
Figure BDA0003691855630000153
为遵循Bernouli分布的矩阵,矩阵元素只有0、1两个值,且每个元素有pd(0<pd<1)的概率为0,
Figure BDA0003691855630000154
与输入图像x逐元素相乘得到随机掩膜后的图像
Figure BDA0003691855630000155
所述添加随机噪声的表达式为:
Figure BDA0003691855630000156
r∈U[0,1]n,对输入图像x添加服从均匀分布的随机噪声r后得到添加随机噪声后的图像
Figure BDA0003691855630000157
为了保持原始图像的空间结构和纹理,随机噪声r乘以0.001以保证足够小。
在计算训练完成的白盒替身模型中间层各个特征图的重要性时,对输入的样本进行随机像素丢弃、添加随机噪声等转换,计算该样本集合的聚合梯度,从而抑制模型预测时与目标无关的特征,同时进一步增强模型预测时的关键特征,促进生成更高可迁移性的对抗样本。
S3-2-2:将所述输入转换集合中的样本依次输入所述训练完成的白盒替身模型,利用梯度反向传播计算训练完成的白盒替身模型的输出对于中间层的梯度
Figure BDA0003691855630000161
Figure BDA0003691855630000162
其中x代表输入图像,f(x)[t]代表模型关于标签t的输出,fk(x)代表针对输入图像x训练完成的白盒替身模型第k层的特征图,
Figure BDA0003691855630000163
的通道数、尺寸大小均与fk(x)相同。
S3-2-3:对N次计算得到的梯度
Figure BDA0003691855630000164
进行逐元素相加并求平均值,
Figure BDA0003691855630000165
表示第i次计算得到的梯度,此时的输入图像为xi
Figure BDA0003691855630000166
将所述平均值作为聚合梯度
Figure BDA0003691855630000167
Figure BDA0003691855630000168
虽然输入转换集合中的图像在保留输入图像空间结构和纹理信息的情况下损失了一些图像细节,但由于与图像语义相关的区域对这类转换比较鲁棒并且通常包含模型预测时的关键特征,而其他的与图像语义无关的区域(如背景、边缘等)面对这些转换更加脆弱且包含特定于具体模型的特征,因此聚合梯度可以用于突出模型预测时的关键特征,同时减少特定于模型的特征的影响。
S3-3:将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型,从所述中间层中提取出所述对抗样本的特征图fk(x')和训练样本的特征图fk(x),所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000169
对所述fk(x')进行增强得到增强后的特征图Ak(x'),所述特征增强模块FEM使用所述聚合梯度
Figure BDA00036918556300001610
对所fk(x)进行增强得到增强后的特征图Ak(x),计算Ak(x')和Ak(x)之间的差异作为损失函数。
S3-3-1:将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型,从所述中间层中提取出所述对抗样本的特征图fk(x')和训练样本的特征图fk(x)。
所述特征增强模块FEM使用所述聚合梯度
Figure BDA0003691855630000171
对所述fk(x')和fk(x)进行增强,特征增强模块FEM的结构示意图如图8所示,具体为:
S3-3-2:对所述聚合梯度
Figure BDA0003691855630000172
进行逐通道的全局平均池化得到特征重要性系数向量
Figure BDA0003691855630000173
所述特征重要性系数向量中每个元素代表每个特征图的权重,计算公式为:
Figure BDA0003691855630000174
其中k代表训练完成的白盒替身模型的第k层,c代表第k层的第c个通道,gkc代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度,p代表特征图的宽度,q代表特征图的高度,m代表聚合梯度的第m行,n代表聚合梯度的第n列,综合来说,
Figure BDA0003691855630000175
代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度的第m行,第n列处的梯度值。
S3-3-3:将所述特征重要性系数向量与所述fk(x')逐通道相乘得到增强后的特征图Ak(x'),从而对不同通道的特征图赋予不同的权重,所述特征重要性系数向量与所述fk(x')逐通道相乘的计算公式为:
Figure BDA0003691855630000176
其中
Figure BDA0003691855630000177
为增强后的fk(x')的第k层的第c个通道的特征图,
Figure BDA0003691855630000178
表示原始fk(x')第k层的第c个通道的特征图,逐通道相乘后完成对fk(x')的特征增强。
S3-3-4:将所述特征重要性系数向量与所述fk(x)逐通道相乘得到增强后的特征图Ak(x),从而对不同通道的特征图赋予不同的权重,所述特征重要性系数向量与所述fk(x)逐通道相乘的计算公式为:
Figure BDA0003691855630000181
其中
Figure BDA0003691855630000182
为增强后的fk(x)第k层的第c个通道的特征图,
Figure BDA0003691855630000183
表示原始fk(x)第k层的第c个通道的特征图,逐通道相乘后完成对fk(x)的特征增强。
S3-3-5:将Ak(x')转换为向量
Figure BDA0003691855630000184
其中S为Ak(x')特征图中元素的总个数,
Figure BDA0003691855630000185
代表特征图Ak(x')中第s个元素值;将Ak(x)转换为向量
Figure BDA0003691855630000186
其中S为Ak(x)特征图中元素的总个数,
Figure BDA0003691855630000187
代表特征图中Ak(x)中第s个元素值;例如特征图Ak(x)的形状为(3,10,10),其中3为特征图通道数,10、10分别为特征图的宽度和高度,这里的“将Ak(x)转换为向量”的意思是将该特征图转换为300维的向量。S3-3-6:计算Vk(x')和Vk(x)之间的余弦相似度作为损失函数,计算公式为:
Figure BDA0003691855630000188
Vk(x')表示将对抗样本第k层的增强特征图Ak(x')转换为的向量,Vk(x)表示将原始样本第k层的增强特征图Ak(x)转换为的向量,其中|| ||2为欧几里得范数。
通过计算模型中间层各个特征图的重要性和聚合梯度增强白盒替身模型预测时的关键特征,并以原始样本和相应的对抗样本在白盒替身模型的中间层特征的差异作为生成模型训练的损失函数,有效利用白盒替身模型的中间层特征,缓解了对抗样本对白盒替身模型的过拟合现象,使得对抗样本和原始样本在中间层的特征空间有较大的分歧,从而提高了对抗样本的可迁移性。
S3-4:根据S3-3中得到的所述损失函数进行反向传播计算生成网络模型的梯度,使用优化算法更新所述生成网络模型。
S3-5:重复S3-1~S3-4直到所述损失函数收敛,保存生成网络模型此时的参数,得到训练完成的生成网络模型。
S4:将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成所述目标图像的对抗样本,将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。
所述将对抗样本输入黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击是对生成网络模型的测试,生成网络模型测试阶段的框架示意图如图9所示。
S4-1:将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成目标图像的对抗扰动。
S4-2:目标图像的对抗扰动经过所述扰动重利用模块PRM得到修改后的扰动,将修改后的扰动与所述目标图像逐像素相加和像素裁剪得到目标图像的对抗样本。逐像素相加后进行像素裁剪可以保证对抗样本的像素在合法的像素值域中。
S4-3:将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。
本发明在训练生成网络模型时,通过白盒替身模型获取聚合梯度,抑制模型预测时与目标无关的特征,增强模型预测时的关键特征;同时,通过特征增强模块计算模型中间层各个特征图的重要性,进一步增强了白盒替身模型进行预测时的关键特征;有效利用了白盒替身模型的中间层特征,缓解了对抗样本对白盒替身模型的过拟合,提高了对抗样本的可迁移性和黑盒攻击表现效果,并且生成的对抗样本可以用于评价神经网络的鲁棒性。
本发明通过扰动重利用模块利用超过L范数阈值的扰动,采用启发式的投影策略对该部分扰动进行重新利用,提高了对抗噪声的聚集性。相较于传统的基于梯度或者优化方法的对抗样本生成方法,本发明具有较强的数据学习能力、更高的生成效率和更高的样本质量,且一旦生成网络模型训练完成,即可以在无需目标模型的情况下生成对抗样本,生成对抗样本效率高。
为了进一步说明本发明的有益效果,本实施例中使用本发明方法进行仿真实验,生成对抗样本并统计对抗样本对于多个黑盒模型的攻击成功率。仿真实验的硬件配置和软件环境如表1所示:
CPU Intel(R)Core(TM)i9-9900X CPU@3.50GHz
内存 128GB
硬盘 4TB
显卡 GeForce RTX 2080Ti
操作系统 Linux
编程语言 Python 3.6.9
开发平台 Pycharm
依赖关系 Pytorch 1.4.0、numpy 1.19.2、torchvision 0.5.0等
表1硬件配置和软件环境表
样本数据使用CIFAR-10数据集,CIFAR-10是一个用于图像识别任务的小型彩色图像数据集,共包含10个类别的RGB彩色图像,每个图像的尺寸为32×32,每个类别有6000个图像,50000张图像被划分为训练集,10000张为测试集。CIFAR-10数据集为公开数据集,所以无需进行标注和分类。
预处理操作为随机水平翻转、数据集归一化和数据集z-score标准化。随机水平翻转:将图像通过中心轴随机进行左右翻转,是一种数据增强方法,可以起到扩充数据集的作用。数据集归一化:将数据集中所有图像的像素值缩放到[0,1]之间。数据集z-score标准化:数据集图像3通道的均值为mean=[0.485,0.456,0.406],数据集图像3通道的标准差为std=[0.229,0.224,0.255],使用公式
Figure BDA0003691855630000201
对每个图像进行处理,其中x代表原始图像,x'代表处理后的图像。
目标是使用对抗样本来攻击图像分类模型,因此需要训练多个实现图像分类任务的深度神经网络模型来作为白盒替身模型和黑盒目标模型。本实施例中训练了四个不同的卷积神经网络,分别为经典的VGG-19、ResNet-50、DenseNet-121和一个7层CNN的自定义模型,自定义模型的网络结构如表2所示:
层数 类型 输入通道数 输出通道数 激活函数
1 卷积层(3*3卷积核) 1 32 ReLU
2 卷积层(3*3卷积核) 32 32 ReLU
3 卷积层(3*3卷积核) 32 64 最大值池化+ReLU
4 卷积层(3*3卷积核) 64 64 最大值池化+ReLU
5 全连接层 1024 1024 ReLU
6 全连接层 200 200 Dropout+ReLU
7 全连接层 10 10 Softmax
表2自定义模型的网络结构表
训练四个不同的卷积神经网络时使用的损失函数为交叉熵损失函数,使用的优化算法为Adam,学习率为0.01,Adam优化算法的一阶矩估计的指数衰减率为0.9,二阶矩估计的指数衰减率为0.999,模型训练的batch size为128,每个模型训练60个epoch,各个模型在测试集上的准确率,即白盒攻击的结果如表3所示,从表3可以看到在CIFAR-10标准测试集上各个分类模型都能取得较高的准确率。
Figure BDA0003691855630000211
表3各个模型在测试集上的准确率表
本实施例中白盒替身模型选择训练完成的VGG-19模型,黑盒目标模型选择为ResNet-50、DenseNet-121、自定义模型,预先指定VGG-19的卷积层conv3-3作为中间层。训练生成网络模型的具体过程为:
第一步:生成网络模型的训练采用批次训练法,每个批次大小设为128,即每批次样本张量形状为128×3×32×32,由于白盒替身模型识别错误的原始样本对于对抗攻击是没有意义的,因此需要先将整个批次的原始样本输入白盒替身模型中,根据白盒替身模型的输出保留可以正确分类的样本,剔除错误分类的样本。
第二步:经过挑选后,该批次样本数小于等于128。计算该批次样本的聚合梯度,每个样本的聚合梯度的张量形状为1×256×4×4。
第三步:将经过挑选后的样本输入生成网络模型,生成网络模型将输出对应的对抗扰动,其张量形状与生成网络模型的输入相同。对抗扰动经过扰动重利用模块PRM,然后与原始样本相叠加得到最终的对抗样本。
第四步:将原始样本与生成的对抗样本分别输入白盒替身模型,从中提取出每个样本对应的中间层特征,每个样本的中间层特征张量形状为1×256×4×4。利用第二步中计算得到的聚合梯度,通过特征增强模块FEM对原始样本和对抗样本的特征进行增强,并将特征图转换为向量形式,计算增强后的特征向量之间的余弦相似度作为损失函数。
第五步:根据第四步中得到的损失函数进行反向传播计算梯度,使用Adam优化算法对模型权重进行更新,学习率0.0001,Adam优化算法的一阶矩估计的指数衰减率为0.9,二阶矩估计的指数衰减率为0.999。
第六步:重复第一步~第五步,直至生成网络模型收敛,保存此时生成网络模型的权重,得到训练完成的生成网络模型。
将指定的目标图像输入训练完成的生成网络模型,保存生成的对抗样本并输入黑盒目标模型以实现黑盒对抗攻击。将本发明与FGSM、I-FGSM、MI-FGSM的黑盒对抗攻击进行对比,攻击结果如表4所示:
目标模型 VGG-19* ResNet-50 DenseNet-121 自定义模型
FGSM 5.01% 13.55% 12.89% 20.94%
I-FGSM 0.02% 3.96% 2.09% 19.15%
MI-FGSM 0.04% 3.03% 1.75% 10.58%
提出的方法 0.14% 1.24% 1.27% 6.4%
表4本发明与FGSM、I-FGSM、MI-FGSM的黑盒对抗攻击结果对比表表4中的第2-5行是以VGG19为白盒模型,使用FGSM、I-FGSM、MI-FGSM和本发明的方法在CIFAR-10测试集上进行对抗攻击后模型的准确率,表格中第2列表示白盒攻击的结果,3-5列表示黑盒攻击的结果,通过对比可以看出本发明生成的对抗样本集的黑盒攻击成功率是最高的,这表明本发明所述生成模型生成的对抗样本具有更高的可迁移性,同时也表明现有的深度神经网络模型的鲁棒性亟需提高。
表5为使用本发明与FGSM、I-FGSM、MI-FGSM的生成模型生成10000个对抗样本所需的时间对比表。
Figure BDA0003691855630000231
表5使用FGSM、I-FGSM、MI-FGSM与本发明生成对抗样本时间对比表
从表5可以看出,本发明的生成时间远少于其他方法,表明了本发明可以有效提高对抗样本的生成效率。
图10为原始样本和本发明方法生成的对抗样本示意图,图10中第一行为原始样本,图10中第二行为本发明方法生成的对抗样本,从图10可以看出两者之间有较高的相似度且难以用人眼区分,也进一步验证了本发明生成的对抗样本的有效性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于,包括以下步骤:
S1:采集黑盒目标模型训练集的样本图像,对所述样本图像进行预处理得到训练样本;
S2:构建白盒替身模型,训练所述白盒替身模型得到训练完成的白盒替身模型,构建包括扰动重利用模块PRM和特征增强模块FEM的生成网络模型;
S3:使用训练完成的白盒替身模型训练所述生成网络模型,得到训练完成的生成网络模型;
S4:将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成所述目标图像的对抗样本,将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。
2.根据权利要求1所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述生成网络模型的网络结构包括下采样模块、残差模块和上采样模块,所述生成网络模型由下采样模块、残差模块和上采样模块级联组成,输入图像依次经过下采样模块、残差模块和上采样模块生成对抗扰动。
3.根据权利要求2所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:
所述下采样模块包括至少一个卷积层,图像在输入第一个卷积层的卷积核前使用反射的方式填充图像的边缘;
所述残差模块包括至少一个残差块,每个所述残差块包括至少一个卷积层,图像在输入第一个残差块中的第一个卷积层的卷积核前使用反射的方式填充图像的边缘;
所述上采样模块包括至少一个转置卷积层和至少一个卷积层,图像在输入卷积层的卷积核前使用反射的方式填充图像的边缘,卷积层使用的激活函数为tanh激活函数;
所述上采样模块中的转置卷积层和所述上采样模块中的除最后一层外的卷积层、所述下采样模块中的所有卷积层以及所述残差模块中的所有卷积层均使用Conv-BatchNorm-ReLU的单元结构。
4.根据权利要求1所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述使用训练完成的白盒替身模型训练所述生成网络模型,得到训练完成的生成网络模型,具体为:
S3-1:将所述训练样本输入所述生成网络模型,所述生成网络模型生成相应的对抗扰动,所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动,将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本;
S3-2:获取训练完成的白盒替身模型的中间层,对所述训练样本进行输入转换得到训练样本的输入转换集合,并将所述输入转换集合输入所述训练完成的白盒替身模型,根据所述中间层的梯度得到聚合梯度
Figure FDA0003691855620000021
S3-3:将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型,从所述中间层中提取出所述对抗样本的特征图fk(x')和训练样本的特征图fk(x),所述特征增强模块FEM使用所述聚合梯度
Figure FDA0003691855620000023
对所述fk(x')进行增强得到增强后的特征图Ak(x'),所述特征增强模块FEM使用所述聚合梯度
Figure FDA0003691855620000022
对所fk(x)进行增强得到增强后的特征图Ak(x),计算Ak(x')和Ak(x)之间的差异作为损失函数;
S3-4:根据所述损失函数进行反向传播计算生成网络模型的梯度,使用优化算法更新所述生成网络模型;
S3-5:重复S3-1~S3-4直到所述损失函数收敛,保存生成网络模型此时的参数,得到训练完成的生成网络模型。
5.根据权利要求4所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动,具体为:
所述对抗扰动按L范数进行裁剪操作,将裁剪后得到的超过阈值ε的扰动部分作为超出扰动,低于阈值ε的扰动部分作为合法扰动;
使用预设的卷积核作为所述超出扰动的投影核,对所述超出扰动进行卷积操作得到超出扰动的投影,预设的卷积核的权重参数Wp[i,j]为:
Figure FDA0003691855620000031
其中,kw代表卷积核尺寸;
将所述超出扰动的投影与所述合法扰动相加得到所述修正后的对抗扰动。
6.根据权利要求4所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述获取训练完成的白盒替身模型的中间层,对所述训练样本进行输入转换得到训练样本的输入转换集合,并将所述输入转换集合输入所述训练完成的白盒替身模型,根据所述中间层的梯度得到聚合梯度
Figure FDA0003691855620000032
具体为:
对所述训练样本以概率pd进行N次随机转换得到输入转换集合;
将所述输入转换集合中的样本依次输入所述训练完成的白盒替身模型,利用梯度反向传播计算训练完成的白盒替身模型的输出对于中间层的梯度
Figure FDA0003691855620000041
Figure FDA0003691855620000042
其中x代表输入图像,f(x)[t]代表模型关于标签t的输出,fk(x)代表针对输入图像x训练完成的白盒替身模型第k层的特征图,
Figure FDA0003691855620000043
的通道数、尺寸大小均与fk(x)相同;
对N次计算得到的梯度
Figure FDA0003691855620000044
进行逐元素相加并求平均值,
Figure FDA0003691855620000045
表示第i次计算得到的梯度,此时的输入图像为xi
Figure FDA0003691855620000046
将所述平均值作为聚合梯度
Figure FDA0003691855620000047
Figure FDA0003691855620000048
7.根据权利要求6所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述随机转换为随机掩膜或者添加随机噪声,
所述随机掩膜的表达式为:
Figure FDA0003691855620000049
其中,
Figure FDA00036918556200000410
为遵循Bernouli分布的矩阵,矩阵元素只有0、1两个值,且每个元素有pd(0<pd<1)的概率为0,
Figure FDA00036918556200000411
与输入图像x逐元素相乘得到随机掩膜后的图像
Figure FDA00036918556200000412
所述添加随机噪声的表达式为:
Figure FDA00036918556200000413
对输入图像x添加服从均匀分布的随机噪声r后得到添加随机噪声后的图像
Figure FDA00036918556200000414
8.根据权利要求4所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述特征增强模块FEM使用所述聚合梯度
Figure FDA0003691855620000051
对所述fk(x')进行增强得到增强后的特征图Ak(x'),所述特征增强模块FEM使用所述聚合梯度
Figure FDA0003691855620000052
对所fk(x)进行增强得到增强后的特征图Ak(x),具体为:
对所述聚合梯度
Figure FDA0003691855620000053
进行逐通道的全局平均池化得到特征重要性系数向量
Figure FDA0003691855620000054
所述特征重要性系数向量中每个元素代表每个特征图的权重,计算公式为:
Figure FDA0003691855620000055
其中k代表训练完成的白盒替身模型的第k层,c代表第k层的第c个通道,
Figure FDA0003691855620000056
代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度,p代表特征图的宽度,q代表特征图的高度,m代表聚合梯度的第m行,n代表聚合梯度的第n列,
Figure FDA0003691855620000057
代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度的第m行、第n列处的梯度值;
将所述特征重要性系数向量与所述fk(x')逐通道相乘得到增强后的特征图Ak(x'),所述特征重要性系数向量与所述fk(x')逐通道相乘的计算公式为:
Figure FDA0003691855620000058
其中
Figure FDA0003691855620000059
为增强后的fk(x')的第k层的第c个通道的特征图,
Figure FDA00036918556200000510
表示原始fk(x')第k层的第c个通道的特征图,逐通道相乘后完成对fk(x')的特征增强;
将所述特征重要性系数向量与所述fk(x)逐通道相乘得到增强后的特征图Ak(x),所述特征重要性系数向量与所述fk(x)逐通道相乘的计算公式为:
Figure FDA00036918556200000511
其中
Figure FDA0003691855620000061
为增强后的fk(x)第k层的第c个通道的特征图,
Figure FDA0003691855620000062
表示原始fk(x)第k层的第c个通道的特征图,逐通道相乘后完成对fk(x)的特征增强。
9.根据权利要求4所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述计算Ak(x')和Ak(x)之间的差异作为损失函数,具体为:
将Ak(x')转换为向量
Figure FDA0003691855620000063
其中S为特征图Ak(x')中元素的总个数,
Figure FDA0003691855620000064
代表特征图Ak(x')中第s个元素值;将Ak(x)转换为向量
Figure FDA0003691855620000065
其中S为特征图Ak(x)中元素的总个数,
Figure FDA0003691855620000066
代表Ak(x)中第s个元素值;计算Vk(x')和Vk(x)之间的余弦相似度作为损失函数,计算公式为:
Figure FDA0003691855620000067
其中|| ||2为欧几里得范数。
10.根据权利要求1-9任一项所述的基于生成模型的高可迁移性图像对抗样本生成方法,其特征在于:所述将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成所述目标图像的对抗样本,具体为:
将目标图像输入所述训练完成的生成网络模型,所述训练完成的生成网络模型生成目标图像的对抗扰动;
目标图像的对抗扰动经过所述扰动重利用模块PRM得到修改后的扰动,将修改后的扰动与所述目标图像逐像素相加和像素裁剪得到目标图像的对抗样本。
CN202210663143.5A 2022-06-13 2022-06-13 基于生成模型的高可迁移性图像对抗样本生成方法 Active CN115115905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210663143.5A CN115115905B (zh) 2022-06-13 2022-06-13 基于生成模型的高可迁移性图像对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210663143.5A CN115115905B (zh) 2022-06-13 2022-06-13 基于生成模型的高可迁移性图像对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN115115905A true CN115115905A (zh) 2022-09-27
CN115115905B CN115115905B (zh) 2023-06-27

Family

ID=83329020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210663143.5A Active CN115115905B (zh) 2022-06-13 2022-06-13 基于生成模型的高可迁移性图像对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN115115905B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN116523032A (zh) * 2023-03-13 2023-08-01 之江实验室 一种图像文本双端迁移攻击方法、装置和介质
CN116704588A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN117094986A (zh) * 2023-10-13 2023-11-21 中山大学深圳研究院 基于小样本的自适应缺陷检测方法及终端设备
CN117523342A (zh) * 2024-01-04 2024-02-06 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN110084002A (zh) * 2019-04-23 2019-08-02 清华大学 深度神经网络攻击方法、装置、介质和计算设备
US20190251401A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Image composites using a generative adversarial neural network
CN110210617A (zh) * 2019-05-15 2019-09-06 北京邮电大学 一种基于特征增强的对抗样本生成方法及生成装置
CN110348475A (zh) * 2019-05-29 2019-10-18 广东技术师范大学 一种基于空间变换的对抗样本增强方法和模型
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
US20200327415A1 (en) * 2020-06-26 2020-10-15 Intel Corporation Neural network verification based on cognitive trajectories
CN111818101A (zh) * 2020-09-09 2020-10-23 平安国际智慧城市科技股份有限公司 网络安全性的检测方法、装置、计算机设备和存储介质
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112329837A (zh) * 2020-11-02 2021-02-05 北京邮电大学 一种对抗样本检测方法、装置、电子设备及介质
US20210089866A1 (en) * 2019-09-24 2021-03-25 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
CN112561791A (zh) * 2020-12-24 2021-03-26 上海海事大学 一种基于优化AnimeGAN的图像风格迁移
CN112819109A (zh) * 2021-04-19 2021-05-18 中国工程物理研究院计算机应用研究所 针对黑盒对抗样本攻击的视频分类系统安全性增强方法
CN112861759A (zh) * 2021-02-24 2021-05-28 北京瑞莱智慧科技有限公司 一种对抗样本生成方法及装置
CN112884802A (zh) * 2021-02-24 2021-06-01 电子科技大学 一种基于生成的对抗攻击方法
CN112949822A (zh) * 2021-02-02 2021-06-11 中国人民解放军陆军工程大学 一种基于双重注意力机制的低感知性对抗样本构成方法
US20220027462A1 (en) * 2020-01-23 2022-01-27 Fudan University System and Method for Video Backdoor Attack
CN114283341A (zh) * 2022-03-04 2022-04-05 西南石油大学 一种高转移性对抗样本生成方法、系统及终端

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
US20190251401A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Image composites using a generative adversarial neural network
CN110084002A (zh) * 2019-04-23 2019-08-02 清华大学 深度神经网络攻击方法、装置、介质和计算设备
CN110210617A (zh) * 2019-05-15 2019-09-06 北京邮电大学 一种基于特征增强的对抗样本生成方法及生成装置
CN110348475A (zh) * 2019-05-29 2019-10-18 广东技术师范大学 一种基于空间变换的对抗样本增强方法和模型
US20210089866A1 (en) * 2019-09-24 2021-03-25 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
US20220027462A1 (en) * 2020-01-23 2022-01-27 Fudan University System and Method for Video Backdoor Attack
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
US20200327415A1 (en) * 2020-06-26 2020-10-15 Intel Corporation Neural network verification based on cognitive trajectories
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN111818101A (zh) * 2020-09-09 2020-10-23 平安国际智慧城市科技股份有限公司 网络安全性的检测方法、装置、计算机设备和存储介质
CN112329837A (zh) * 2020-11-02 2021-02-05 北京邮电大学 一种对抗样本检测方法、装置、电子设备及介质
CN112561791A (zh) * 2020-12-24 2021-03-26 上海海事大学 一种基于优化AnimeGAN的图像风格迁移
CN112949822A (zh) * 2021-02-02 2021-06-11 中国人民解放军陆军工程大学 一种基于双重注意力机制的低感知性对抗样本构成方法
CN112861759A (zh) * 2021-02-24 2021-05-28 北京瑞莱智慧科技有限公司 一种对抗样本生成方法及装置
CN112884802A (zh) * 2021-02-24 2021-06-01 电子科技大学 一种基于生成的对抗攻击方法
CN112819109A (zh) * 2021-04-19 2021-05-18 中国工程物理研究院计算机应用研究所 针对黑盒对抗样本攻击的视频分类系统安全性增强方法
CN114283341A (zh) * 2022-03-04 2022-04-05 西南石油大学 一种高转移性对抗样本生成方法、系统及终端

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHEN YUNFANG 等: "A Powerful Transferability Adversarial Examples Generation Method Based on Nesterov Momentum Optimization" *
NING HUA等: "Investigating the Working Efficiency of Typical Work in High-Altitude Alpine Metal Mining Areas Based on a SeqGAN-GABP Mixed Algorithm" *
YANPEI LIU 等: "Delving into Transferable Adversarial Examples and Black-box Attacks" *
刘嘉阳: "针对图像分类的对抗样本防御方法研究" *
廖东 等: "基于特征解纠缠表示的无参考图像质量评价" *
闵霏霞: "HTTP异常检测的对抗攻击研究" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN116523032A (zh) * 2023-03-13 2023-08-01 之江实验室 一种图像文本双端迁移攻击方法、装置和介质
CN116523032B (zh) * 2023-03-13 2023-09-29 之江实验室 一种图像文本双端迁移攻击方法、装置和介质
CN116704588A (zh) * 2023-08-03 2023-09-05 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN116704588B (zh) * 2023-08-03 2023-09-29 腾讯科技(深圳)有限公司 面部图像的替换方法、装置、设备及存储介质
CN117094986A (zh) * 2023-10-13 2023-11-21 中山大学深圳研究院 基于小样本的自适应缺陷检测方法及终端设备
CN117094986B (zh) * 2023-10-13 2024-04-05 中山大学深圳研究院 基于小样本的自适应缺陷检测方法及终端设备
CN117523342A (zh) * 2024-01-04 2024-02-06 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质
CN117523342B (zh) * 2024-01-04 2024-04-16 南京信息工程大学 一种高迁移性对抗样本生成方法、设备及介质

Also Published As

Publication number Publication date
CN115115905B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN115115905B (zh) 基于生成模型的高可迁移性图像对抗样本生成方法
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN113822328B (zh) 防御对抗样本攻击的图像分类方法、终端设备及存储介质
Kwon et al. BlindNet backdoor: Attack on deep neural network using blind watermark
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN113837942A (zh) 基于srgan的超分辨率图像生成方法、装置、设备及存储介质
CN112016686A (zh) 一种基于深度学习模型的对抗性训练方法
CN113222998A (zh) 基于自监督低秩网络的半监督图像语义分割方法及装置
CN115222998A (zh) 一种图像分类方法
Li et al. A graphical approach for filter pruning by exploring the similarity relation between feature maps
Zhu et al. LIGAA: Generative adversarial attack method based on low-frequency information
Westbrook et al. Adversarial attacks on machine learning in embedded and iot platforms
CN115063847A (zh) 一种面部图像获取模型的训练方法及装置
CN110796608B (zh) 一种基于在线迭代生成器的对抗防御方法及系统
CN113344814A (zh) 一种基于生成机制的高分辨率对抗样本的合成方法
CN117786682B (zh) 基于增强框架的物理对抗攻击方法、装置、设备及介质
Chai et al. LDN-RC: a lightweight denoising network with residual connection to improve adversarial robustness
Ahmed et al. Localization and detection of copy-move forgeries in post-processed images using U-Net
Zhou et al. Generating adversarial examples by distributed upsampling
Li et al. Learning Defense Transformers for Counterattacking Adversarial Examples
Qu et al. Image shadow removal algorithm guided by progressive attention mechanism
CN118230366A (zh) 一种基于掩码生成的对抗对比学习手掌静脉识别方法
Huang et al. Optimizing Knowledge Distillation via Shallow Texture Knowledge Transfer
Li et al. Generative Adversarial Network Based Image-Scaling Attack and Defense Modeling
CN116188913A (zh) 一种基于元学习的图像稀疏对抗样本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant