CN114078201B - 多目标类别对抗样本生成方法及相关设备 - Google Patents

多目标类别对抗样本生成方法及相关设备 Download PDF

Info

Publication number
CN114078201B
CN114078201B CN202111394404.XA CN202111394404A CN114078201B CN 114078201 B CN114078201 B CN 114078201B CN 202111394404 A CN202111394404 A CN 202111394404A CN 114078201 B CN114078201 B CN 114078201B
Authority
CN
China
Prior art keywords
original image
target
model
sample
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111394404.XA
Other languages
English (en)
Other versions
CN114078201A (zh
Inventor
郭延明
李建
李正
老松杨
李易珊
王翔汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111394404.XA priority Critical patent/CN114078201B/zh
Publication of CN114078201A publication Critical patent/CN114078201A/zh
Application granted granted Critical
Publication of CN114078201B publication Critical patent/CN114078201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种多目标类别对抗样本生成方法及相关设备,所述方法包括:获取原始图像和目标类别,根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量;将所述三维特征图和所述三维特征向量融合解析得到解析特征图;将所述解析特征图解码生成噪声,将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。本申请提供的多目标类别对抗样本生成方法及相关设备,只需要经过一次训练即可快速的生成多目标类别的对抗样本,效率高,实用性强;并且在白盒和黑盒环境下都具有较高的攻击能力,生成的对抗样本具有更好的迁移性能和防御背景下的攻击能力。

Description

多目标类别对抗样本生成方法及相关设备
技术领域
本申请涉及深度学习技术领域,尤其涉及一种多目标类别对抗样本生成MTA(Mutli-Target AdvGAN)方法及相关设备。
背景技术
深度神经网络在很多领域表现出色,但是研究表明深度神经网络很容易受到对抗样本的攻击。目前针对神经网络进行攻击的算法众多,但绝大多数攻击算法的攻击速度较慢。AdvGAN(Generating Adversarial Examples With Adversarial Networks,基于生成对抗网络的对抗样本生成)算法是一种使用网络攻击网络的算法,生成对抗样本的速度极快,但当进行有目标攻击时AdvGAN算法要为每个目标训练一个模型,在攻击时根据攻击目标选择具体的模型实施攻击,攻击效率较低。
发明内容
有鉴于此,本申请的目的在于提出一种多目标类别对抗样本生成方法及相关设备用以解决上述技术问题。
本申请的第一方面,提供了一种多目标类别对抗样本生成方法,包括:获取原始图像和目标类别,根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量;将所述三维特征图和所述三维特征向量融合解析得到解析特征图;将所述解析特征图解码生成噪声,将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
进一步地,所述根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量,包括:对所述原始图像进行卷积处理,得到所述三维特征图;对所述目标类别的标签进行全连接处理得到特征向量,将所述特征向量平铺得到所述三维特征向量;其中,所述三维特征图和所述三维特征向量的形状相同。
进一步地,所述将所述三维特征图和所述三维特征向量融合解析得到解析特征图,包括:将所述三维特征图和所述三维特征向量进行拼接得到新特征图;对所述新特征图进行残差卷积处理得到所述解析特征图。
进一步地,所述将所述解析特征图解码生成噪声,包括:对所述解析特征图进行上采样处理生成与所述原始图像的大小和通道数相同的所述噪声。
进一步地,所述将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本,包括:对所述噪声进行剪裁得到剪裁噪声;将所述剪裁噪声叠加所述原始图像得到初始对抗样本;对所述初始对抗样本进行剪裁得到所述对抗样本。
进一步地,所述多目标类别对抗样本生成方法,还包括:对所述对抗样本和所述原始图像进行鉴别,生成图像置信度。
进一步地,所述多目标类别对抗样本生成方法,还包括:对所述对抗样本进行目标分类,生成所有所述目标类别的回归值并计算损失。
进一步地,所述损失包括对抗损失和扰动损失。
本申请的第二方面,提供了一种多目标类别对抗样本生成装置,包括:特特征提取模块,被配置为获取原始图像和目标类别,根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量;特征融合模块,被配置为将所述三维特征图和所述三维特征向量融合解析得到解析特征图;样本生成模块,被配置为将所述解析特征图解码生成噪声,将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
本申请的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上第一方面所述的方法。
从上面所述可以看出,本申请提供了一种多目标类别对抗样本生成方法及相关设备,通过将图像和目标类别标签编码成相同维度从而融合两者的特征,进而解码出在视觉上与输入图像相似但是在被攻击网络中的分类结果为输入标签的对抗样本,只需要训练这样一个模型,即可快速的生成多目标类别的对抗样本,效率高,实用性强;生成的噪声由于有目标标签的特征信息进行指导,更具有普适性;该方法在白盒和黑盒环境下都具有较高的攻击能力,生成的对抗样本具有更好的迁移性能和防御背景下的攻击能力。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的AdvGAN算法进行有目标攻击时的示意图;
图2为本申请实施例的一种多目标类别对抗样本生成方法的流程示意图;
图3为本申请实施例的MTA模型的结构示意图;
图4为本申请实施例的MTA方法进行有目标攻击时的示意图;
图5为本申请实施例的防御下MTA方法及其他算法的攻击结果示意图;
图6为本申请实施例的一种多目标类别对抗样本生成装置的结构示意图;
图7为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
深度神经网络在目标识别、自然语言处理、图像分割等很多领域的应用上取得显著的成就,但是研究表明深度学习模型很容易受到对抗样本的攻击。图像领域的对抗样本即对输入图像添加一个人眼几乎看不出来的扰动,但是经过扰动的输入可以使神经网络的结果发生巨大的变化。由于神经网络在现实生活中的广泛应用,研究对抗样本对于人工智能安全具有重大意义。
目前针对神经网络进行攻击的算法众多,攻击算法的目的是寻找一个与原图像具有相同形状噪声,使得原图像加上该噪声后输入到被攻击网络中分类的标签与原图像的标签不同,但绝大多数攻击算法的攻击速度较慢。AdvGAN算法是一种使用网络攻击网络的算法,生成对抗样本的速度极快,但当进行有目标攻击时AdvGAN算法要为每个目标训练一个模型,如图1所示,模型1-N是针对目标类别1-N对应训练的模型,在攻击时需要根据攻击目标选择具体的模型实施攻击,攻击效率较低,而且还发现AdvGAN算法在进行黑盒环境下的有目标攻击时,成功率较低。
以下,通过具体的实施例并结合图2-6来详细说明本申请的技术方案。
本申请的一些实施例中提供了一种多目标类别对抗样本生成方法,如图2所示,包括以下步骤:
S1、获取原始图像和目标类别,根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量。
步骤S1包括将原始图像和目标类别输入到预先训练好的MTA模型,在所述MTA模型中对所述原始图像进行卷积处理,得到所述三维特征图;对所述目标类别的标签进行全连接处理得到特征向量,将所述特征向量平铺得到所述三维特征向量;其中,所述三维特征图和所述三维特征向量的形状相同。
如图3所示,为MTA模型的结构示意图,MTA模型包括编码器和嵌入层。将原始图像x输入编辑器,编辑器通过三个卷积层得到三维特征图Fimg∈Rc×w×h,其中,c、w和h分别代表特征图的通道、宽度和高度;将目标类别的one-hot标签输入嵌入层,嵌入层通过全连接将标签映射成特征向量,标签的宽度为1,长度为数据集类别的数目,特征向量的宽度为1,长度为c×w×h,再将所述特征向量resize平铺得到所述三维特征向量Ftarget∈Rc×w×h,如此得到的目标类别特征和原始图像特征的形状相同,为特征融合提供基础。
S2、将所述三维特征图和所述三维特征向量融合解析得到解析特征图。
步骤S2包括:在所述MTA模型中将所述三维特征图和所述三维特征向量进行拼接得到新特征图;对所述新特征图进行残差卷积处理得到所述解析特征图。
如图3所示,MTA模型包括融合层,将所述三维特征图和所述三维特征向量输入融合层,在通道层进行拼接得到新特征图F∈R2c×w×h,再通过四个残差卷积模块对所述新特征图处理得到所述解析特征图r,每一个残差卷积模块中使用大小为3×3,步长为1,填充像素Padding为1的64个卷积核,因此融合层只对特征图进行解析而不改变特征图的大小和通道,为噪声生成提供基础。
S3、将所述解析特征图解码生成噪声,将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
步骤S3包括:在所述MTA模型中对所述解析特征图进行上采样处理生成与所述原始图像的大小和通道数相同的所述噪声;对所述噪声进行剪裁得到剪裁噪声,将所述剪裁噪声叠加所述原始图像得到初始对抗样本,对所述初始对抗样本进行剪裁得到所述对抗样本。
如图3所示,MTA模型包括解码器,将所述解析特征图F输入解码器,通过三个反卷积得到与所述原始图像的大小和通道数相同的所述噪声G(x,t),得到的噪声更具有普适性,其中,x代表原始图像,t代表目标类别;对噪声进行剪裁,目的是为了控制噪声的强度,噪声最大该变量在0.3以内;对初始对抗样本进行剪裁,目的是为了确保像素值在有效范围之内。
编码器、嵌入层、融合层和解码器共同组成一个生成器,能根据原始图像和目标类别生成一个特定的噪声形成对抗样本。对MTA模型进行训练时,所述原始图片为数据集中的训练图像,所述目标类别为从所述数据集的所有类别中随机采样的图像类别,且所述图像类别不等于所述训练图像的真实类别,这保证了生成器生成的对抗样本是指定的目标类别。
该多目标类别对抗样本生成方法,通过将原始图像和目标类别标签编码成相同维度从而融合两者的特征,进而解码出在视觉上与原始图像相似但是在被攻击网络中的分类结果为输入标签的对抗样本。如图4所示,为多目标类别对抗样本生成方法进行有目标攻击时的示意图,通用模型即MTA模型,针对目标类别1-N只需要训练一个模型,即可快速的生成多目标类别的对抗样本,效率高,实用性强;并且该方法生成的噪声由于有目标标签的特征信息进行指导,更具有普适性,使得生成的对抗样本具有更高的攻击成功率,在白盒和黑盒环境下都具有较高的攻击能力,对抗样本也具有更好的迁移性能和防御背景下的攻击能力。
在一些实施例中,所述多目标类别对抗样本生成方法,还包括:
S4、对所述对抗样本和所述原始图像进行鉴别,生成图像置信度。
如图3所示,MTA模型还包括鉴别器,鉴别器以原始图像和对抗样本做为输入,原始图像即真实图像,鉴别器会输出将对抗样本图像判定为真实图像的图像置信度。目的是区分原始图像和对抗样本,通过对抗性训练迫使生成器生成的对抗样本更加逼真足以骗过鉴别器。
训练一个普通的GAN(Generative Adversarial Networks,生成式对抗网络),目标函数如式(1)所示。
Figure BDA0003369447560000061
式中,D(*)代表鉴别器的输出,即鉴别器认为对抗样本是原始图像的概率值,通过最小最大化目标函数确保生成高质量的对抗样本。
S5、对所述对抗样本进行目标分类,生成所有所述目标类别的回归值并计算损失。
如图3所示,MTA模型还包括分类器,分类器即被攻击模型,如果是黑盒环境下的攻击则分类器为代理模型。分类器仅以对抗样本做为输入,对所述对抗样本进行分类,输出对抗样本在所有类别上的回归值并计算损失,目的是约束生成器生成的对抗样本足以骗过分类器。
在一些实施例中,所述损失包括对抗损失Ladv,和扰动损失Lpert
对MTA模型的训练与普通的生成对抗网络不同的是对生成器的约束不仅限于能骗过鉴别器,还要能骗过分类器,分类器对生成器的输出做有效性约束。
有效性约束即生成的对抗样本要在被攻击模型中分类为输入的目标类别。如式(2)所示,损失函数鼓励生成器欺骗目标模型。
Ladv,=Exmaxi≠t{k,max{Z(x+G(x,t))i-Z(x+G(x,t))t}} (2)
式中,Z(*)为被攻击模型的回归值,i是除了目标类别以外的所有类别。MTA与AdvGAN的不同就在于AdvGAN在训练时要固定t,因此要为每个目标类训练一个模型。而MTA模型在训练时t是在所有类别中随机采样且不是等于真实类别的,当对抗样本在目标类别上的回归值比其他类别上最大的回归值大,且超过阈值k的时候,该项损失为0,这保证了生成器生成的对抗样本是指定的目标类别。
为了限制扰动的幅度对对抗扰动进行范数约束,鼓励对抗样本在样本空间接近真实样本。损失函数如式(3)所示,c为0.3。
Lpert=Exmax(0,||G(x,t)||2-c) (3)
用超参数β控制有效性约束和范数约束的权重,生成器的损失Loss为式(4)所示。
Loss=Ladv+β*Lpert (4)
在一些实施例中,使用的数据集包括CIFAR10数据集、MNIST数据集和ImageNet数据集。CIFAR10数据集由50000张训练图像和10000张测试图像组成,每一张图都是长和宽均为32像素的彩色图像,一共包含10个生活中常见的物体类别。MNIST数据集由60000张训练图像和10000张测试图像组成,图像内容均是黑白的手写数字,共有10个类别分别为0到9,图像的长和宽均为28个像素。对于ImageNet数据集,使用了一个包含10个类别的子集,训练集中每个类别有约1000张图像,测试集中每个类别包含约300张图像。
在不同的数据集上生成器的参数设置不同,如表1所示。
表1生成器参数表
Figure BDA0003369447560000071
攻击模型包括MTA模型、AdvGAN模型,对攻击模型进行了训练,在训练时设置批大小为128,使用Adam优化器以0.001的初始学习率训练200个epoch时期,分别在第50和100个epoch后降低学习率为之前的0.1倍。MTA模型和AdvGAN模型都包含超参数,设置β=1。
被攻击模型选取VGG11模型、ResNet18模型、WRN-28模型、LeNet模型、AlexNet模型、C&W模型和VGG16模型,在CIFAR10数据集上训练了常用的VGG11,ResNet18,WRN-28模型。在MNIST数据集上训练了LeNet,AlexNet,C&Wmodel。在ImageNet数据集上,训练了VGG16模型,用于验证MTA方法在高分辨率数据集上的有效性。
在一些实施例中,评估MTA方法的白盒攻击效果,白盒攻击是指攻击者可以完全访问被攻击网络,能得到网络预测的各个类别回归值并且经过反向传播计算梯度。
在MNIST数据集上MTA方法生成的对抗样本攻击了经过预训练的LeNet模型、AlexNet模型和C&W模型,为了与AdvGAN算法做对比分别使用AdvGAN模型为3个被攻击模型训练了10个生成器,除了不使用嵌入层外AdvGAN模型与MTA模型使用相同的网络结构。在进行攻击能力评估时,仅以被攻击模型分类正确的图像做为输入,且攻击目标选择为非正确标签。如果经过生成器添加扰动后的对抗样本在被攻击模型中的分类结果是的指定目标类别则认为此次攻击有效。
以各个被攻击模型在测试集中前100张分类正确的图像做为输入生成900个对抗样本,由于AdvGAN算法每个目标都需要一个模型,因此列出了AdvGAN在每个目标类别上的攻击成功率,最后取平均值和MTA方法对比。攻击结果如表2所示,表格中第二列为模型的分类准确率Acc,虽然AdvGAN每次仅向一个目标攻击,训练的模型更具有针对性,但是由于MTA方法在生成对抗扰动时有目标标签的特征信息进行指导,因此MTA方法仅训练一个模型就可以达到比AdvGAN更优的攻击成功率。并且发现被攻击网络的鲁棒性越高越难被攻击,其中C&W模型的准确率最高,所以无论是使用哪一种攻击方法,在攻击C&W模型时的成功率都比其他两个分类模型低。此外越是鲁棒性的被攻击模型,MTA方法的优越性越明显,例如在攻击AlexNet模型时相对于AdvGAN算法,MTA方法仅提升了0.6%的成功率,但是攻击C&W模型时却提升了3.8%的成功率。
表2MNIST数据集上的白盒攻击成功率表
Figure BDA0003369447560000081
进一步地,使用MTA方法和AdvGAN算法在CIFAR10数据集上攻击了VGG11模型、ResNet18模型和WRN-28模型,攻击成功率如表3所示,MTA方法取得了与AdvGAN算法相似的攻击效果,但是鉴于MTA方法在进行有目标攻击时只需要训练一个模型,而AdvGAN算法需要为每个目标都单独训练模型,所以MTA方法更具有实用性。
表3CIFAR10数据集上的白盒攻击成功率表
Figure BDA0003369447560000082
在一些实施例中,评估MTA方法的黑盒攻击效果,黑盒攻击是指攻击者无法访问模型的参数,仅能通过向模型输入得到模型的预测结果,预测结果是某一个具体的类别。
在进行黑盒攻击时,使用与AdvGAN算法相同的动态蒸馏方法,即在攻击的过程中训练代理模型,要求代理模型不仅要在原数据上的分类结果与被攻击模型保持一致,而且在对抗样本上的分类结果也要与被攻击模型保持一致。在MNIST数据集上分别使用MTA方法和AdvGAN算法攻击了LeNet模型、AlexNet模型、C&W模型,当一个模型被攻击时其余模型轮流做为代理模型,攻击成功率的计算方法与白盒攻击相同。MNIST数据集上的攻击成功率如表4所示,在黑盒环境下MTA方法相对于AdvGAN算法在攻击成功率上的优越性更加明显,例如当以AlexNet模型做为代理模型攻击LeNet模型时,使用MTA方法比AdvGAN算法高出约24%,以LeNet模型做为代理模型攻击C&W模型时高出约22%。虽然AdvGAN算法在黑盒模型上的攻击成功率不高,但是在攻击难度上与MTA方法保持相同。
表4MNIST数据集上的黑盒攻击成功率表
Figure BDA0003369447560000091
进一步地,在CIFAR10数据集上攻击了VGG11模型、ResNet18模型和WRN-28模型。攻击成功率如表5所示,MTA方法始终优于AdvGAN算法,当WRN-28模型做为代理模型时MTA方法较AdvGAN算法提升了约20%。
表5CIFAR10数据集上的黑盒攻击成功率表
Figure BDA0003369447560000092
对于AdvGAN算法,选择不同的被攻击模型和代理模型,会对攻击效果产生非常大的影响。对于MTA方法,选择不同的被攻击模型和代理模型,攻击效果接近,不同模型对MTA方法的影响较小。MTA方法黑盒攻击与白盒攻击一样仍然在视觉效果上保持了与原图像较高的相似度。
在一些实施例中,使用MTA方法生成高分辨率对抗样本攻击了经过预训练的VGG16模型,在测试集上达到了99.33%的攻击成功率,MTA方法在高分辨率数据集上仍然能以很高的攻击成功率完成有目标攻击,并且能够保持与原始图像相似的视觉效果。
在一些实施例中,评估MTA方法生成的对抗样本在不同模型之间的迁移性能。在CIFAR10数据集上与FGSM(Fast Gradient Sign Method,快速梯度符号法)、PGD(ProjectGradient Descent,投影梯度下降)等多目标攻击方法的对抗样本在迁移成功率上做了对比。FGSM算法和PGD算法的攻击强度都设置为0.3,PGD算法的迭代次数为默认的40,步长为0.01。攻击每个模型生成900个对抗样本,然后将对抗样本迁移至其它使用同一个数据集训练的模型,如果攻击仍然能够成功则认为对抗样本迁移性有效。
迁移结果如表6所示,纵轴为生成对抗样本的源模型,横轴为被攻击模型,对角线上的成功率表示各攻击方法的白盒攻击成功率,FGSM算法的攻击成功率相对较低,PGD算法做为目前最强的一阶梯度攻击算法可以达到100%的攻击成功率,而MTA方法以比PGD算法更快的速度在三个模型上分别达到99.3%,99.8%,99.6%的攻击成功率,几乎与PGD算法相同。非对角线上为对抗样本在不同模型之间的迁移攻击成功率,MTA方法与FGSM算法,PGD算法相比在迁移成功率有较大的提升,例如从VGG11模型到WRN-28模型,MTA方法比PGD算法高出约26%,比FGSM算法高出约41%,从WRN-28模型到ResNet18模型,MTA方法比PGD算法高出约37%。
表6对抗样本迁移攻击成功率表
Figure BDA0003369447560000101
在一些实施例中,评估MTA方法生成的对抗样本在防御背景下的攻击能力。防御背景下的攻击是指假设攻击者不知道模型经过防御,所以攻击者仍然攻击原模型,如果此时攻击原模型产生的对抗样本仍然可以攻击防御后的模型则证明该攻击是有效的。使用Adv和Ens两种对抗训练方法测试网络的性能,对抗训练过程中设置损失函数中干净样本与对抗样本比例a等于0.5,学习率为0.001,使用Adam优化器训练100个epoch,保存在测试集上具有最高准确率的模型。
Adv对抗训练,使用原始训练集和对抗样本训练被攻击模型,增强模型的鲁棒性。训练模型时损失的计算方法如式(5)所示,超参数α用来均衡正常样本和对抗样本的重要程度,通常取0.5。通过Adv对抗训练不仅让模型学会了区分原始样本而且还学会了正确的区分对抗样本。
Loss=α·lf(x,ytrue)+(1-α)·lf(xadv,ytrue) (5)
Ens对抗训练,通过聚合在相同训练集上的多个模型上产生的对抗样本加上原始训练集进行对抗训练。模型在训练时计算损失的方法如式(6)所示,其中
Figure BDA0003369447560000111
表示攻击算法攻击第i个模型产生的对抗样本。
Figure BDA0003369447560000112
对CIFAR10数据集上的三个模型在防御背景下使用MTA方法和PGD算法、FGSM算法、DDN算法的攻击成功率,如图5所示,总体而言,使用Ens对抗训练相比于使用Adv对抗训练,模型有着更高的攻击成功率,证明Adv对抗训练方法更能提高模型的对抗鲁棒性。无论采用哪种对抗训练,使用MTA方法时总能保持较高的攻击成功率,MTA方法具有较高的防御鲁棒性。
进一步地,评估MTA方法对预处理防御方法的鲁棒性,使用了包括JPEG(JointPhotographic Experts Group,联合图像专家组)压缩、图像位深度缩减、平均滤波、中值滤波、二值化滤波在内的5种预处理方法处理对抗样本后再次对目标网络实施有目标攻击。如果经预处理后的对抗样本仍然能够误导目标网络输出目标类别,则认为攻击有效。
各种预处理防御方法下,MTA方法与其它方法的有目标攻击成功率如表7所示。虽然预处理的方法较为简单,但是其防御有目标攻击的效果明显。在所有的防御设定下MTA方法的攻击成功率仍然优于其它几个多目标攻击方法。证明MTA方法对预处理的防御仍然具有较高的鲁棒性。
表7预处理防御下各攻击方法的攻击成功率表
Figure BDA0003369447560000121
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种多目标类别对抗样本生成装置。
参考图6,所述多目标类别对抗样本生成装置,包括:
特特征提取模块,被配置为获取原始图像和目标类别,根据所述原始图像生成三维特征图,根据所述目标类别的标签生成三维特征向量;
特征融合模块,被配置为将所述三维特征图和所述三维特征向量融合解析得到解析特征图;
样本生成模块,被配置为将所述解析特征图解码生成噪声,将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的多目标类别对抗样本生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的多目标类别对抗样本生成方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其特征在于处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其特征在于输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其特征在于通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的多目标类别对抗样本生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种多目标类别对抗样本生成方法,其特征在于,包括:
获取原始图像和目标类别,将所述原始图像和所述目标类别输入预先训练好的MTA模型,MTA模型包括编码器、嵌入层、融合层及解码器;
将所述原始图像输入编码器,编码器通过三个卷积层得到三维特征图;
将目标类别的one-hot标签输入嵌入层,嵌入层通过全连接将标签映射成特征向量,然后将所述特征向量平铺得到三维特征向量;
将所述三维特征图和所述三维特征向量输入融合层,在通道层进行拼接得到新特征图,再通过四个残差卷积模块对所述新特征图处理得到解析特征图;
将所述解析特征图输入解码器,通过三个反卷积得到与所述原始图像的大小和通道数相同的噪声;
将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
2.根据权利要求1所述的方法,其特征在于,所述将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本,包括:
对所述噪声进行剪裁得到剪裁噪声;
将所述剪裁噪声叠加所述原始图像得到初始对抗样本;
对所述初始对抗样本进行剪裁得到所述对抗样本。
3.根据权利要求1所述的方法,其特征在于,还包括:对所述对抗样本和所述原始图像进行鉴别,生成图像置信度。
4.根据权利要求1所述的方法,其特征在于,还包括:对所述对抗样本进行目标分类,生成所有所述目标类别的回归值并计算损失。
5.根据权利要求4所述的方法,其特征在于,所述损失包括对抗损失和扰动损失。
6.一种多目标类别对抗样本生成装置,其特征在于,包括:
特征提取模块,被配置为获取原始图像和目标类别,将所述原始图像和所述目标类别输入预先训练好的MTA模型;MTA模型包括编码器、嵌入层、融合层及解码器;
将所述原始图像输入编码器,编码器被配置为通过三个卷积层得到三维特征图;
将目标类别的one-hot标签输入嵌入层,嵌入层被配置为通过全连接将标签映射成特征向量,然后将所述特征向量平铺得到三维特征向量;
将所述三维特征图和所述三维特征向量输入融合层,融合层被配置为在通道层进行拼接得到新特征图,再通过四个残差卷积模块对所述新特征图处理得到解析特征图;
将所述解析特征图输入解码器,解码器被配置为通过三个反卷积得到与所述原始图像的大小和通道数相同的噪声;
样本生成模块,被配置为将所述噪声和所述原始图像叠加得到所述目标类别的对抗样本。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。
CN202111394404.XA 2021-11-23 2021-11-23 多目标类别对抗样本生成方法及相关设备 Active CN114078201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394404.XA CN114078201B (zh) 2021-11-23 2021-11-23 多目标类别对抗样本生成方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394404.XA CN114078201B (zh) 2021-11-23 2021-11-23 多目标类别对抗样本生成方法及相关设备

Publications (2)

Publication Number Publication Date
CN114078201A CN114078201A (zh) 2022-02-22
CN114078201B true CN114078201B (zh) 2023-04-07

Family

ID=80284105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394404.XA Active CN114078201B (zh) 2021-11-23 2021-11-23 多目标类别对抗样本生成方法及相关设备

Country Status (1)

Country Link
CN (1) CN114078201B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679327A (zh) * 2022-04-06 2022-06-28 网络通信与安全紫金山实验室 网络攻击等级确定方法、装置、计算机设备和存储介质
CN115496924A (zh) * 2022-09-29 2022-12-20 北京瑞莱智慧科技有限公司 一种数据处理方法、相关设备及存储介质
CN116402913A (zh) * 2023-03-31 2023-07-07 北京百度网讯科技有限公司 医学影像的生成方法、模型训练方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598805A (zh) * 2020-05-13 2020-08-28 华中科技大学 一种基于vae-gan的对抗样本防御方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
CN112116564B (zh) * 2020-09-03 2023-10-20 深圳大学 抗翻拍检测的对抗样本生成方法、设备及存储介质
CN112132106A (zh) * 2020-10-09 2020-12-25 腾讯科技(北京)有限公司 基于人工智能的图像增广处理方法、装置、设备及存储介质
CN112216273B (zh) * 2020-10-30 2024-04-16 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112801297B (zh) * 2021-01-20 2021-11-16 哈尔滨工业大学 一种基于条件变分自编码器的机器学习模型对抗性样本生成方法
CN112949822B (zh) * 2021-02-02 2023-08-04 中国人民解放军陆军工程大学 一种基于双重注意力机制的低感知性对抗样本构成方法
CN113392906B (zh) * 2021-06-16 2022-04-22 西华大学 基于图像高阶引导编码重组的对抗样本恢复方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598805A (zh) * 2020-05-13 2020-08-28 华中科技大学 一种基于vae-gan的对抗样本防御方法及系统

Also Published As

Publication number Publication date
CN114078201A (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN114078201B (zh) 多目标类别对抗样本生成方法及相关设备
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN109961444B (zh) 图像处理方法、装置及电子设备
Oh et al. Blind deep S3D image quality evaluation via local to global feature aggregation
CN111475797B (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
US20220198790A1 (en) Training method and apparatus of adversarial attack model, generating method and apparatus of adversarial image, electronic device, and storage medium
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
CN109583449A (zh) 字符识别方法及相关产品
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN114331829A (zh) 一种对抗样本生成方法、装置、设备以及可读存储介质
Akhtar et al. Attack to fool and explain deep networks
CN114187483A (zh) 生成对抗样本的方法、检测器的训练方法及相关设备
CN114868124A (zh) 控制方法、信息处理装置以及控制程序
CN114677722A (zh) 一种融合多尺度特征的多监督人脸活体检测方法
CN114612688B (zh) 对抗样本生成方法、模型训练方法、处理方法及电子设备
Chen et al. Sequential gating ensemble network for noise robust multiscale face restoration
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
Chen et al. Patch selection denoiser: An effective approach defending against one-pixel attacks
Phoka et al. Image based phishing detection using transfer learning
CN112818774A (zh) 一种活体检测方法及装置
CN113409407B (zh) 一种基于平均压缩获取低频信息的对抗样本防御方法
Bakır et al. Evaluating the robustness of yolo object detection algorithm in terms of detecting objects in noisy environment
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
Miao et al. Target recognition of SAR images based on complex bidimensional empirical mode decomposition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant