CN114758198A - 一种基于元学习对抗扰动的黑盒攻击方法及系统 - Google Patents

一种基于元学习对抗扰动的黑盒攻击方法及系统 Download PDF

Info

Publication number
CN114758198A
CN114758198A CN202210291566.9A CN202210291566A CN114758198A CN 114758198 A CN114758198 A CN 114758198A CN 202210291566 A CN202210291566 A CN 202210291566A CN 114758198 A CN114758198 A CN 114758198A
Authority
CN
China
Prior art keywords
disturbance
image sample
black box
attack
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210291566.9A
Other languages
English (en)
Inventor
孙健
付俊傑
王钢
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210291566.9A priority Critical patent/CN114758198A/zh
Publication of CN114758198A publication Critical patent/CN114758198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于元学习对抗扰动的黑盒攻击方法及系统,将元学习训练数据集D输入至黑盒模型的替代模型,根据替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*。利用元对抗扰动v*进行黑盒攻击,若黑盒模型对图像样本的分类结果为预先设定的目标标签,则攻击完成;若分类结果不是预先设定的目标标签,则对图像样本进行更新,利用更新后的图像样本继续进行黑盒攻击,直至分类结果为预先设定的目标标签。本发明训练的元对抗扰动为原始图像选择了较好的初始位置,大幅提升了对黑盒模型的查询效率及攻击成功率,对提升神经网络黑盒攻击具有非常重要的意义。

Description

一种基于元学习对抗扰动的黑盒攻击方法及系统
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于元学习对抗扰动的黑盒攻击方法及系统。
背景技术
随着深度学习技术的飞速发展,图像识别领域在研究与应用层面连续取得重大突破,深度卷积神经网络对物体的精准识别能力甚至已经超越了人类的表现。越来越多的深度模型投入应用,如人脸识别、自动驾驶、行人监测等。可以说,深度学习技术为计算机视觉和机器学习带来了革命性的进步,深度神经网络也在方方面面影响着人们的日常生活。
然而,深度神经网络在诸多任务中大放异彩的同时,其自身也暴露出了严重的安全隐患。大量研究表明,深度神经网络很容易受到对抗样本的攻击,从而导致其产生错误的预测结果,这在一些对安全性能要求很高的任务中,是非常致命的。执行攻击的对抗样本是指在原始输入样本上通过添加人类难以分辨的微小扰动,而使神经网络产生错误分类的样本。根据攻击者是否了解深度模型的网络结构及参数,对抗攻击可分为白盒攻击与黑盒攻击。Goodfellow等人在文献(Explaining and harnessing AdversarialExamples.Computer Science,2014.)中提出了一种基于梯度的白盒攻击方法,称为快速梯度符号法(FGSM),该方法通过对判定类别归属程度的损失函数进行梯度下降,得到对抗扰动的调整方向,进而通过一步更新生成对抗样本。之后,在FGSM算法的启发下,大量基于此思想的白盒攻击方法被相继提出。相比于白盒攻击条件,现实生活中大多数场景中的深度模型是不对使用者开放的,因此,研究人员转向研究黑盒条件下的攻击方法。与白盒攻击思想类似,黑盒攻击同样是基于梯度进行的,不同的是,攻击者无法直接获取模型的精确梯度,只能通过零阶优化算法或者替代模型来获得黑盒模型的近似梯度。Pin-Yu Chen等人在文献(ZOO:Zeroth OrderOptimization Based Black-box Attacks to Deep NeuralNetworks without TrainingSubstitute Models.ACM,2017)中提出了一种梯度估计方法,称为零阶优化算法(Zero Order Optimal,ZOO),该方法通过有限差分的方式获取梯度,并使用ADAM优化器迭代更新生成对抗样本。随后,Chun-Chen Tu等人在文献(Autozoom:Autoencoder-based zeroth order optimization method for attackingblack-boxneural networks.CoRR)采用编码解码方法,降低了输入维度,同时采用RGF算法进行梯度估计,提高了查询效率。
上述列举的黑盒算法中,都需要通过对模型进行大量的查询来获得梯度的估计值,而在很多实际应用中,模型通常会限制查询次数。因此,需要设计一种高效的黑盒攻击算法,通过较少的查询次数就能完成攻击任务。为了解决这一问题,需要设计一种有效的对抗扰动初始值,同时这种初始对抗扰动应具有较强的泛化能力并能够通过简单的训练获得。目前为止,还没有一种方法能够有效的生成高泛化能力且易训练的黑盒对抗扰动初始值,大幅提升黑盒攻击性能。
发明内容
有鉴于此,本发明提供了一种基于元学习对抗扰动的黑盒攻击方法,能够提升对黑盒模型的查询效率及攻击成功率。
本发明采用的具体技术方案如下:
一种基于元学习对抗扰动的黑盒攻击方法,包括:
将元学习训练数据集D输入至黑盒模型的替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*
将所述元对抗扰动v*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击,若黑盒模型对所述图像样本的分类结果为预先设定的目标标签,则攻击完成;若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签,则对所述图像样本进行更新,利用更新后的图像样本继续进行黑盒攻击,直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。
进一步地,所述初始化扰动v进行梯度下降更新获得元对抗扰动v*为:
a1、从所述元学习训练数据集D中选取数据集B,将初始化扰动v与数据集B叠加并输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述初始化扰动v进行梯度下降更新,获得适应扰动v';
a2、从所述元学习训练数据集D中选取数据集B',将适应扰动v'和数据集B'叠加并再次输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述适应扰动v'进行梯度下降更新,获得初始元对抗扰动v1
a3、利用所述初始元对抗扰动v1替换所述初始化扰动v,重复a1和a2直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
进一步地,对所述初始元对抗扰动v1进行投影,利用投影之后获得的投影元对抗扰动v2替换所述初始化扰动v。
进一步地,所述对图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure BDA0003560528640000031
b2、采用符号函数对所述梯度估计值
Figure BDA0003560528640000032
进行处理,获得符号函数处理后的梯度估计值
Figure BDA0003560528640000041
b3、根据所述梯度估计值
Figure BDA0003560528640000042
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure BDA0003560528640000043
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
进一步地,在对所述图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对所述图像样本进行更新。
一种基于元学习对抗扰动的黑盒攻击系统,包括扰动训练模块、攻击模块和迭代更新模块;
所述扰动训练模块用于将元学习训练数据集D输入至黑盒模型的替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*
所述攻击模块用于将所述元对抗扰动v*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击,若黑盒模型对所述图像样本的分类结果为预先设定的目标标签,则攻击完成;若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签,则进入迭代更新模块;
所述迭代更新模块用于对图像样本进行更新,并将更新之后的图像样本发送至所述攻击模块继续进行黑盒攻击,直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。
进一步地,在所述扰动训练模块中,所述初始化扰动v进行梯度下降更新获得元对抗扰动v*为:
a1、从所述元学习训练数据集D中选取数据集B,将初始化扰动v与数据集B叠加并输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述初始化扰动v进行梯度下降更新,获得适应扰动v';
a2、从所述元学习训练数据集D中选取数据集B',将适应扰动v'和数据集B'叠加并再次输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述适应扰动v'进行梯度下降更新,获得初始元对抗扰动v1
a3、利用所述初始元对抗扰动v1替换所述初始化扰动v,重复a1和a2直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
进一步地,对所述初始元对抗扰动v1进行投影,利用投影之后获得的投影元对抗扰动v2替换所述初始化扰动v。
进一步地,在所述迭代更新模块中,所述对图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure BDA0003560528640000051
b2、采用快速梯度符号法FGSM对所述梯度估计值
Figure BDA0003560528640000052
进行符号函数处理,获得符号函数处理后的梯度估计值
Figure BDA0003560528640000053
b3、根据所述梯度估计值
Figure BDA0003560528640000054
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure BDA0003560528640000055
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
进一步地,在对所述图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对所述图像样本进行更新。
有益效果:
(1)一种基于元学习对抗扰动的黑盒攻击方法,利用训练的元对抗扰动进行黑盒攻击,为原始的图像样本选择了较好的初始位置,在黑盒条件下,大幅提升了对黑盒模型的查询效率及攻击成功率。同时,生成的元对抗扰动能够在不同的数据集间进行迁移,是一种高泛化能力且易训练的初始对抗扰动,对提升神经网络黑盒攻击具有非常重要的意义。
(2)在元对抗扰动的训练过程中,只需要使用少量训练数据就可以获得高泛化性能的元对抗扰动,很好地解决了于真实场景中数据难以搜集的困难,同时能够提高训练效率。元对抗扰动的训练过程,花费较少的时间及数据成本,就可以获得高质量的初始对抗扰动。
(3)对初始元对抗扰动进行投影,利用投影之后获得的投影元对抗扰动替换原始扰动,可以保证元对抗扰动被限制在允许的范数值内,从而保证叠加对抗扰动后的图像样本不会产生较大的失真。
(4)在黑盒攻击的样本更新过程中,引入动量项可以进一步提高黑盒攻击的效率和准确率,加速攻击并在一定程度上减少对黑盒模型的查询次数。
(5)对当前的图像样本进行投影,利用投影后当前的图像样本对图像样本进行更新,可以防止更新后的图像样本与原始图像样本之间的失真尺度过大,保证了对抗样本图像不易被检测。
(6)一种基于元学习对抗扰动的黑盒攻击方法,为黑盒攻击开辟了新的研究思路,通过元学习的方法,基于对抗样本良好的可迁移性的特性,训练通用对抗扰动,为黑盒攻击选取了较好的初始扰动值。在黑盒攻击环境中,不同的黑盒攻击算法都可以使用本方法训练的元对抗扰动作为初始条件,从而加速攻击。由于本方法训练的元对抗扰动同时具有良好的跨数据集迁移性,同样可以在不同数据集中使用该扰动,以达到加速攻击的目的。
附图说明
图1为本发明的一种基于元学习对抗扰动的黑盒攻击方法的元对抗扰动训练流程图。
图2为本发明的一种基于元学习对抗扰动的黑盒攻击方法的黑盒攻击方法流程图。
图3为本发明的一种基于元学习对抗扰动的黑盒攻击方法的实际攻击运行效果图。
具体实施方式
一种基于元学习对抗扰动的黑盒攻击方法及系统,将元学习训练数据集D输入至黑盒模型的替代模型,根据替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*。利用元对抗扰动v*进行黑盒攻击,若黑盒模型的输出值与攻击目标的目标标签值相等,则攻击完成;若不相等,则对当前待进行目标攻击的图像样本进行更新,利用更新后的图像样本和元对抗扰动v*继续进行黑盒攻击,直至黑盒模型的输出值与攻击目标的目标标签值相等。本发明训练的元对抗扰动为原始图像选择了较好的初始位置,大幅提升了对黑盒模型的查询效率及攻击成功率,对提升神经网络黑盒攻击具有非常重要的意义。
下面结合附图并举实施例,对本发明进行详细描述。
本发明中的黑盒攻击,主要针对黑盒条件下的目标攻击进行,目标攻击要求生成的对抗样本被分类器分类到指定的类别。而对于相对简单的非目标攻击,本发明同样适用,只需在攻击过程中做细微调整即可,因此,下面主要以目标攻击为例。
如图1所示,首先是利用元学习技术生成元对抗扰动,将元学习训练数据集D输入至黑盒模型的替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*。其中,初始化扰动v进行梯度下降更新获得元对抗扰动v*具体包括如下步骤:
a1、从元学习训练数据集D中选取数据集B,根据初始化扰动v和数据集B获得适应扰动v'。
先准备元学习训练数据集D及替代模型M1,M2,...,Mn,随机初始化扰动v∈Rd,设定目标攻击的目标标签值t,并设定训练代数epoch;其中R表示实数域,d为输入的图像样本的维度。
从数据集D中选取小批次数据集B,将扰动v叠加到数据B中,此时的数据集变为B+v,将其分别输入每一个替代模型Mi(i=1,...,n)中,得到每一个模型的输出结果,计算每个替代模型对应的损失函数值L(Mi,B+v,t),这里的损失函数可以选择交叉熵损失函数、边缘损失函数等,本发明中采用交叉熵损失函数。
由于替代模型已知,均为白盒模型,因此可以直接采用梯度反向传播获得损失函数L对扰动v的导数
Figure BDA0003560528640000081
并采用学习率α对扰动v进行梯度下降更新,得到适应扰动v';
Figure BDA0003560528640000082
学习率α是一个超参数,在训练时根据需要进行调整。
a2、从元学习训练数据集D中选取数据集B',根据适应扰动v'和数据集B'获得初始元对抗扰动v1
将适应扰动v'叠加到数据B'中,此时的数据集变为B'+v',同样将其分别输入每一个替代模型Mi(i=1,...,n)中,计算每个替代模型对应的损失函数值L(Mi,B'+v',t),通过梯度反向传播获取损失函数L对适应扰动v'的导数
Figure BDA0003560528640000091
并采用学习率β对初始扰动v进行梯度下降更新,得到元对抗扰动v;
Figure BDA0003560528640000092
这里需要注意的是,先获得的是适应扰动v',而本步骤中更新的参数是初始扰动v,这也是元学习技术的主要特点之一。后续的迭代训练中,不再重新设置初始扰动,而使用上一次更新结果作为当前初始值。
a3、利用初始元对抗扰动v1替换原始扰动v,重复a1和a2直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
在每次迭代中更新对抗扰动后,对其进行投影操作,其表达式如下:
v2=Πε(v*)
其中,Π表示投影操作函数,ε表示对抗扰动允许的范数值,v2表示投影元对抗扰动,v*表示迭代更新后的元对抗扰动,每次的迭代更新后的元对抗扰动和最终的元对抗扰动均用v*表示。投影操作保证对抗扰动被限制在允许的范数值内,从而保证叠加对抗扰动后的图像不会产生较大的失真。
当对初始元对抗扰动v1进行投影后,则利用投影之后获得的投影元对抗扰动v2替换原始扰动v。
在迭代次数没有超过训练代数epoch时,进行迭代,可以使得最终得到具有较强适应能力及攻击性能的通用元对抗扰动,将其保存,以便执行黑盒攻击时随时调用。
上述步骤已经完成了元对抗扰动的训练,此时的元对抗扰动已经具有很强的对抗攻击能力。在执行黑盒攻击过程中,首先对保存好的元对抗扰动v*进行加载,然后导入原始图像x,将训练好的元对抗扰动v*叠加在原始图像上,此时图像变成x'=x+v*已经具有较强的对抗能力,部分图像样本此时已经可以成功进行目标攻击。将叠加元对抗扰动的图像输入黑盒模型fθ,得到黑盒模型的输出fθ(x,y)。若此时黑盒模型输出fθ(x,y)=t,则证明当前图像已经成功实现目标攻击任务,则无需后续步骤,攻击结束;否则,对当前待进行目标攻击的图像样本进行更新,利用更新后的图像样本和所述元对抗扰动v*继续进行黑盒攻击,直至黑盒模型的输出值与攻击目标的目标标签值相等或对黑盒模型查询次数超过预先设定值时,迭代结束。
对当前待进行目标攻击的图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure BDA0003560528640000101
RGF算法的主要操作步骤如下,在d维(d为输入图像维度)单位球面上随机选取q个单位向量,选取平滑系数σ,即可获取黑盒模型梯度的估计值。对黑盒模型进行一次零阶优化梯度估计,需要对模型进行q+1次查询,因此执行越多次数的零阶优化估计梯度,就需要对黑盒模型进行越多次数的查询,查询效率也就越低。通过上述公式,可估计出模型对于输入样本的梯度值,该梯度值将被用于后续攻击。
b2、采用快速梯度符号法FGSM对梯度估计值
Figure BDA0003560528640000102
进行符号函数处理,获得符号函数处理后的梯度估计值
Figure BDA0003560528640000103
通过符号函数对估计梯度值
Figure BDA0003560528640000104
进行处理,符号函数公式如下:
Figure BDA0003560528640000105
通过上式可以看出,梯度值经过符号函数处理后,大于0的部分被统一整合为1,小于0的部分被统一整合为-1,等于0的部分则仍为0。之所以采用这样的操作,一方面的为了加快收敛速度,另一方面则是因为使用零阶优化算法估计的梯度并不是真实的梯度,其梯度值仍不准确,因此,采用符号函数对其进行整合,可以在一定程度上降低梯度估计的不确定性。
b3、根据梯度估计值
Figure BDA0003560528640000111
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure BDA0003560528640000112
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
在对图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对图像样本进行更新。
投影可选择L2范数或L范数等投影方式,保证扰动在预先设定的范围内,从而控制对抗样本与原始图像之间的失真尺度。当黑盒模型对图像x的分类结果成为目标标签t时,攻击成功;当攻击成功或对黑盒模型查询次数超过预先设定值时,迭代结束。
如图3所示,CIFAR10数据集上的图像尺寸为32×32×3,图3(a)为原始输入样本,图3(b)为本发明训练的元对抗扰动,图3(c)为原始图像叠加元对抗扰动后生成的对抗样本,该样本可被深度模型分类为指定目标标签类别中,可成功执行黑盒攻击任务。
根据上述一种基于元学习对抗扰动的黑盒攻击方法,本发明还提供了一种基于元学习对抗扰动的黑盒攻击系统,包括扰动训练模块、攻击模块和迭代更新模块。
扰动训练模块用于根据元学习训练数据集D及n个替代模型M1,M2,...,Mn进行训练获得元对抗扰动v*;其中,n为正整数。
攻击模块用于利用元对抗扰动v*进行黑盒攻击,并黑盒模型的输出值与攻击目标的目标标签值相等,若相等则攻击完成,若不相等则进入迭代更新模块。
迭代更新模块用于对当前待进行目标攻击的图像样本进行更新,并将更新之后的图像样本发送至攻击模块继续进行黑盒攻击,直至黑盒模型的输出值与攻击目标的目标标签值相等。
在扰动训练模块中,元对抗扰动v*的训练过程为:
a1、从元学习训练数据集D中选取数据集B,根据原始扰动v和数据集B获得适应扰动v';
a2、从元学习训练数据集D中选取数据集B',根据适应扰动v'和数据集B'获得初始元对抗扰动v1
a3、利用初始元对抗扰动v1替换原始扰动v,重复a1和a1直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
对初始元对抗扰动v1进行投影,利用投影之后获得的投影元对抗扰动v2替换原始扰动v。
在迭代更新模块中,对当前待进行目标攻击的图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure BDA0003560528640000121
b2、采用快速梯度符号法FGSM对梯度估计值
Figure BDA0003560528640000122
进行符号函数处理,获得符号函数处理后的梯度估计值
Figure BDA0003560528640000123
b3、根据梯度估计值
Figure BDA0003560528640000124
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure BDA0003560528640000125
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
在对图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对图像样本进行更新。
本发明提供了一种元学习对抗扰动的黑盒攻击方法及系统,通过元学习技术,在替代模型中使用少量数据训练元对抗扰动,将训练好的元对抗扰动叠加在原始样本上,之后在黑盒模型中使用RGF算法对其进行零阶优化梯度估计,最后使用FGSM算法对输入样本进行迭代更新并引入动量项加快收敛速度,实现高效黑盒攻击。
以上的具体实施例仅描述了本发明的设计原理,该描述中的部件形状,名称可以不同,不受限制。所以,本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换;而这些修改和替换未脱离本发明创造宗旨和技术方案,均应属于本发明的保护范围。

Claims (10)

1.一种基于元学习对抗扰动的黑盒攻击方法,其特征在于,包括:
将元学习训练数据集D输入至黑盒模型的替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*
将所述元对抗扰动v*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击,若黑盒模型对所述图像样本的分类结果为预先设定的目标标签,则攻击完成;若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签,则对所述图像样本进行更新,利用更新后的图像样本继续进行黑盒攻击,直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。
2.如权利要求1所述的黑盒攻击方法,其特征在于,所述初始化扰动v进行梯度下降更新获得元对抗扰动v*为:
a1、从所述元学习训练数据集D中选取数据集B,将初始化扰动v与数据集B叠加并输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述初始化扰动v进行梯度下降更新,获得适应扰动v';
a2、从所述元学习训练数据集D中选取数据集B',将适应扰动v'和数据集B'叠加并再次输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述适应扰动v'进行梯度下降更新,获得初始元对抗扰动v1
a3、利用所述初始元对抗扰动v1替换所述初始化扰动v,重复a1和a2直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
3.如权利要求2所述的黑盒攻击方法,其特征在于,对所述初始元对抗扰动v1进行投影,利用投影之后获得的投影元对抗扰动v2替换所述初始化扰动v。
4.如权利要求1所述的黑盒攻击方法,其特征在于,所述对图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure FDA0003560528630000021
b2、采用符号函数对所述梯度估计值
Figure FDA0003560528630000022
进行处理,获得符号函数处理后的梯度估计值
Figure FDA0003560528630000023
b3、根据所述梯度估计值
Figure FDA0003560528630000024
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure FDA0003560528630000025
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
5.如权利要求4所述的黑盒攻击方法,其特征在于,在对所述图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对所述图像样本进行更新。
6.一种基于元学习对抗扰动的黑盒攻击系统,其特征在于,包括扰动训练模块、攻击模块和迭代更新模块;
所述扰动训练模块用于将元学习训练数据集D输入至黑盒模型的替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v*
所述攻击模块用于将所述元对抗扰动v*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击,若黑盒模型对所述图像样本的分类结果为预先设定的目标标签,则攻击完成;若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签,则进入迭代更新模块;
所述迭代更新模块用于对图像样本进行更新,并将更新之后的图像样本发送至所述攻击模块继续进行黑盒攻击,直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。
7.如权利要求6所述的黑盒攻击系统,其特征在于,在所述扰动训练模块中,所述初始化扰动v进行梯度下降更新获得元对抗扰动v*为:
a1、从所述元学习训练数据集D中选取数据集B,将初始化扰动v与数据集B叠加并输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述初始化扰动v进行梯度下降更新,获得适应扰动v';
a2、从所述元学习训练数据集D中选取数据集B',将适应扰动v'和数据集B'叠加并再次输入至替代模型,根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数,根据所述损失函数对所述适应扰动v'进行梯度下降更新,获得初始元对抗扰动v1
a3、利用所述初始元对抗扰动v1替换所述初始化扰动v,重复a1和a2直至迭代次数等于预设的训练代数epoch时,结束训练,获得元对抗扰动v*
8.如权利要求7所述的黑盒攻击系统,其特征在于,对所述初始元对抗扰动v1进行投影,利用投影之后获得的投影元对抗扰动v2替换所述初始化扰动v。
9.如权利要求6所述的黑盒攻击系统,其特征在于,在所述迭代更新模块中,所述对图像样本进行更新为:
b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计,获得黑盒模型的梯度估计值
Figure FDA0003560528630000031
b2、采用快速梯度符号法FGSM对所述梯度估计值
Figure FDA0003560528630000032
进行符号函数处理,获得符号函数处理后的梯度估计值
Figure FDA0003560528630000033
b3、根据所述梯度估计值
Figure FDA0003560528630000034
设置学习率lr,同时以当前图像样本与前一次图像样本之差作为动量项,对图像样本进行更新,更新后的图像样本为:
Figure FDA0003560528630000041
其中,xi表示当前的图像样本,xi+1表示更新后的图像样本,xi-1表示前一次图像样本,η表示动量项系数。
10.如权利要求9所述的黑盒攻击系统,其特征在于,在对所述图像样本进行更新之前,对当前的图像样本xi进行投影,利用投影后当前的图像样本对所述图像样本进行更新。
CN202210291566.9A 2022-03-23 2022-03-23 一种基于元学习对抗扰动的黑盒攻击方法及系统 Pending CN114758198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210291566.9A CN114758198A (zh) 2022-03-23 2022-03-23 一种基于元学习对抗扰动的黑盒攻击方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210291566.9A CN114758198A (zh) 2022-03-23 2022-03-23 一种基于元学习对抗扰动的黑盒攻击方法及系统

Publications (1)

Publication Number Publication Date
CN114758198A true CN114758198A (zh) 2022-07-15

Family

ID=82326477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210291566.9A Pending CN114758198A (zh) 2022-03-23 2022-03-23 一种基于元学习对抗扰动的黑盒攻击方法及系统

Country Status (1)

Country Link
CN (1) CN114758198A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271067A (zh) * 2022-08-25 2022-11-01 天津大学 基于特征关系评估的安卓对抗样本攻击方法
CN115292722A (zh) * 2022-10-09 2022-11-04 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115311521A (zh) * 2022-09-13 2022-11-08 中南大学 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN117240624A (zh) * 2023-11-14 2023-12-15 长春大学 一种基于黑盒场景的对抗攻击样本生成及测试方法及装置
CN118485114A (zh) * 2024-07-15 2024-08-13 湖南大学 一种基于元学习的生成式对抗攻击方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291828A (zh) * 2020-03-03 2020-06-16 广州大学 一种基于深度学习的hrrp对抗样本黑盒攻击方法
US10783401B1 (en) * 2020-02-23 2020-09-22 Fudan University Black-box adversarial attacks on videos
US20210089866A1 (en) * 2019-09-24 2021-03-25 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
CN113111963A (zh) * 2021-04-23 2021-07-13 清华大学深圳国际研究生院 一种黑盒攻击行人重识别系统的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089866A1 (en) * 2019-09-24 2021-03-25 Robert Bosch Gmbh Efficient black box adversarial attacks exploiting input data structure
US10783401B1 (en) * 2020-02-23 2020-09-22 Fudan University Black-box adversarial attacks on videos
CN111291828A (zh) * 2020-03-03 2020-06-16 广州大学 一种基于深度学习的hrrp对抗样本黑盒攻击方法
CN113111963A (zh) * 2021-04-23 2021-07-13 清华大学深圳国际研究生院 一种黑盒攻击行人重识别系统的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271067A (zh) * 2022-08-25 2022-11-01 天津大学 基于特征关系评估的安卓对抗样本攻击方法
CN115271067B (zh) * 2022-08-25 2024-02-23 天津大学 基于特征关系评估的安卓对抗样本攻击方法
CN115311521A (zh) * 2022-09-13 2022-11-08 中南大学 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN115311521B (zh) * 2022-09-13 2023-04-28 中南大学 基于强化学习的黑盒视频对抗样本生成方法及评价方法
CN115292722A (zh) * 2022-10-09 2022-11-04 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115292722B (zh) * 2022-10-09 2022-12-27 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN117240624A (zh) * 2023-11-14 2023-12-15 长春大学 一种基于黑盒场景的对抗攻击样本生成及测试方法及装置
CN117240624B (zh) * 2023-11-14 2024-01-23 长春大学 一种基于黑盒场景的对抗攻击样本生成及测试方法及装置
CN118485114A (zh) * 2024-07-15 2024-08-13 湖南大学 一种基于元学习的生成式对抗攻击方法

Similar Documents

Publication Publication Date Title
CN114758198A (zh) 一种基于元学习对抗扰动的黑盒攻击方法及系统
Athalye et al. Synthesizing robust adversarial examples
CN111881935B (zh) 一种基于内容感知gan的对抗样本生成方法
CN111461307A (zh) 一种基于生成对抗网络的通用扰动生成方法
CN109559329B (zh) 一种基于深度去噪自动编码器的粒子滤波跟踪方法
CN110348475B (zh) 一种基于空间变换的对抗样本增强方法和模型
CN114399630B (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN113841157B (zh) 通过使用局部线性度正则化训练更安全的神经网络
CN114066912A (zh) 基于优化算法和不变性的智能对抗样本生成方法及系统
Liu et al. Slowlidar: Increasing the latency of lidar-based detection using adversarial examples
Suzuki et al. Adversarial example generation using evolutionary multi-objective optimization
CN113591975A (zh) 基于Adam算法的对抗样本生成方法及系统
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN114240951B (zh) 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
CN113627543B (zh) 一种对抗攻击检测方法
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
CN112085050A (zh) 基于pid控制器的对抗性攻击与防御方法及系统
Wang et al. Leno: Adversarial robust salient object detection networks with learnable noise
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN113822443A (zh) 一种对抗攻击和生成对抗样本的方法
Wu et al. Black-box attack using adversarial examples: a new method of improving transferability
Xiao et al. Crafting adversarial example with adaptive root mean square gradient on deep neural networks
Li et al. Optimal transport classifier: Defending against adversarial attacks by regularized deep embedding
CN117786682B (zh) 基于增强框架的物理对抗攻击方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination