CN113935396A - 基于流形理论的对抗样本攻击方法及相关装置 - Google Patents

基于流形理论的对抗样本攻击方法及相关装置 Download PDF

Info

Publication number
CN113935396A
CN113935396A CN202111057349.5A CN202111057349A CN113935396A CN 113935396 A CN113935396 A CN 113935396A CN 202111057349 A CN202111057349 A CN 202111057349A CN 113935396 A CN113935396 A CN 113935396A
Authority
CN
China
Prior art keywords
low
sample
confidence
label
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111057349.5A
Other languages
English (en)
Inventor
张春慨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202111057349.5A priority Critical patent/CN113935396A/zh
Publication of CN113935396A publication Critical patent/CN113935396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于流形理论的对抗样本攻击的方法及相关装置,该方法包括:用数据集训练对抗性自动编码器并得到低维向量数据;利用低维向量数据训练低维空间替代模型;将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签并计算梯度信息;通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;根据实际各类别标签置信度以及预期各类别标签置信度判断样本攻击是否成功。本发明能够满足当前对模型的鲁棒性检测的应用需求。

Description

基于流形理论的对抗样本攻击方法及相关装置
技术领域
本申请涉及对抗样本攻击,特别是涉及一种基于流形理论的对抗样本攻击方法、装置及计算机存储介质。
背景技术
深度神经网络(DNN)显著提高了不同应用领域的性能,如图像分类系统、目标检测和语义分割。然而,DNN的脆弱性带来了巨大的安全风险。通过在正常示例(例如,自然图像)上施加人类无法感知的噪声,生成的对抗示例可以成功攻击最先进的网络。这引起了人们对这些高性能网络的可靠性和健壮性的日益关注。随后,众多学者在这一领域进行了广泛的研究,称为对抗性机器学习,探索存在对抗样本的原因,以及设计更强大的攻击或更健壮的网络。
关于对抗样本的存在,有几种解释,如深层网络中的线性、深层网络的高维和流形理论。其中,流形假设是目前最为公认的解释。它假设大多数分类任务的相关数据集(从许多真实世界的数据分布例如自然图像中采样)位于比原始空间低得多的维数的流形附近。由于DNN只在训练过程中学习流形上示例的特征,因此无法准确地对流形外示例进行分类。这表明正常的例子在流形上,而对抗样本在流形外的概率很高。
根据对抗样本的流形理论,它们可以进一步分为两类:常规对抗样本和基于流形理论的对抗样本。前者只考虑如何将示例转移到当前决策边界之外;然而,它并不考虑示例是否仍然是歧义的。因此,生成的对抗样本通常离开数据集的多个区域,称为非多个对抗样本或常规对抗样本。后者位于数据集的多方面区域。存在多个对抗样本的原因是训练模型时的数据集不足,导致模型无法准确学习不同标签之间的分类边界。大多数现有的对抗性攻击方法,如基于梯度的、基于优化的和基于决策的,然而,目前大多数对抗样本攻击方法都是通过修改像素来搜索原始空间中的对抗样本,这可能导致生成的对抗样本脱离流形,并且容易被基于流形理论的对抗性检测器检测到。因此,研究人员试图在低维空间中产生对抗样本;使用对抗性转换网络从低维表示中解码对抗样本;使用预先训练的模型学习低维空间嵌入表示;例如:使用NES算法在当前低维空间向量上生成一批具有正态分布噪声的示例,然后,在预先训练好的模型上,根据上述例子的损失和梯度更新搜索方向首先使用自动编码器将示例投影到低维空间,然后使用自适应随机梯度估计策略生成对抗样本。虽然在低维空间中搜索可以产生比常规对抗实例更接近数据流形的对抗性例子,但它们更多地关注于在低维空间中搜索对抗实例的手段,并且不考虑如何限制流形上的搜索过程。因此,生成的对抗样本只能接近于流形,而不是处在流形上,这导致基于流形理论的对抗样本检测器仍能检测到。此外,由于解码器从低维空间到原始空间的投影是非线性的,因此很难限制对抗样本的扰动大小。
发明内容
本发明针对上述问题,提供了一种基于流形理论的对抗样本攻击的方法、装置及计算机存储介质。
本发明的第一方面,提供了一种能够在基于流形理论的对抗样本攻击,包括:
S1、利用数据集训练对抗性自动编码器,得到低维向量数据;
S2、将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;
S3、将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;
S4、通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;
S5、利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;
根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回S3,直至满足结束条件。
进一步的,所述利用数据集训练对抗性自动编码器,得到低维向量数据具体为:
z=E(x)=σ(w1x+b1).
其中,E(·)表示对抗性自动编码器,ω1表示对抗性自动编码器的权重,b1表示对抗性自动编码器的偏差值,x表示原始空间上的数据集中的样本,z表示样本x在低维空间的低维向量表示,σ表示激活函数。
进一步的,所述根据最大预测概率标签计算原始样本的低维向量数据的梯度信息具体为:计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,所述原始样本真实标签置信度是将原始样本输入目标模型得到的。
进一步的,所述通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本具体过程为:
Figure BDA0003255096290000031
Figure BDA0003255096290000032
Figure BDA0003255096290000033
其中,
Figure BDA0003255096290000034
表示对抗样本的初始值,
Figure BDA0003255096290000035
为第t次迭代后低维空间替代模型的梯度,
Figure BDA0003255096290000036
为使用对抗性自动编码器对梯度信息进行从低维空间到原始空间的解码,E表示对抗性自动编码器,S表示替代模型,
Figure BDA0003255096290000037
表示原始样本在替代模型中的梯度,Clip表示一个用于限制扰动在固定的∈范围内的函数。
进一步的,所述利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度具体方法是:将各类别标签置信度中置信度最高的类别作为预期最大概率标签,将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中,得到预期各类别标签置信度。
本发明的第二方面,提供了一种基于流形理论的对抗样本攻击装置,所述装置包括:
对抗性自动编码器模块,用于利用数据集训练对抗性自动编码器,得到低维向量数据;
低维空间替代模型训练模块,用于将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;
梯度信息获取模块,用于将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;
对抗样本生成模块,用于通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;
对抗样本攻击判别模块,用于利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回梯度信息获取模块,直至满足结束条件。
进一步的,梯度信息获取模块中根据最大预测概率标签计算原始样本的低维向量数据的梯度信息具体为:计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,所述原始样本真实标签置信度是将原始样本输入目标模型得到的。
进一步的,对抗样本攻击判别模块中所述利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度具体方法是:将各类别标签置信度中置信度最高的类别作为预期最大概率标签,将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中,得到预期各类别标签置信度。
本发明的第三方面,提供了一种基于流形理论的对抗样本攻击装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上述方法。
本发明的第四方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行上述方法。
本发明提供的一种基于流形理论的对抗样本攻击方法、装置及计算机存储介质,根据数据集训练对抗性自动编码器(AAE)获取数据集的低维向量数据,并基于低维向量数据训练低维空间上的替代模型,将样本数据集输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算低维数据流形的梯度信息;为了克服在低维空间时生成对抗样本的困难,提出了梯度解码策略(GDS)和置信度重排序策略(CRS),梯度解码策略将低维空间替代模型上生成的梯度信息直接解码到原始空间上生成对应的对抗性扰动,再将原始空间上的对抗性扰动直接叠加在原始样本上生成对应的对抗样本;置信度重排序策略将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中。最终达到的有益效果:与已有的对抗样本攻击方法相比,本发明提供的一种基于流形理论的对抗样本攻击、装置及计算机存储介质能更加高效地生成流形空间的对抗样本,并且生成的对抗样本具有较少的扰动大小能够很好地满足当下模型鲁棒性检测的应用需求,具有很大的实用价值。
附图说明
图1是本发明实施例的基于流形理论的对抗样本攻击方法流程图;
图2是本发明实施例的基于流形理论的对抗样本攻击装置结构示意图;
图3是本发明实施例中的计算机设备的架构;
图4是本发明实施例中对小规模模型攻击的攻击成功率和扰动大小结果图;
图5是本发明实施例中对大规模模型攻击的攻击成功率和扰动大小结果图;
具体实施方式
为进一步对本发明的技术方案作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的步骤。
本发明中原始空间是指样本所在的高维空间,维度是1*28*28,因此原始空间大小即为1*28*28,经过对抗性自动编码器(AAE)压缩之后将样本从原始空间压缩到低维空间,比如压缩为10维的空间。流形空间是指在原始空间维度上数据集所占的高维空间中的部分空间,经过对抗性自动编码器(AAE)压缩之后这部分空间就会映射到低维空间。
本发明实施例针对一种基于流形理论的对抗样本攻击、装置及计算机存储介质。如图1为本发明实施例的基于流形理论的对抗样本攻击方法流程图;
S1、利用数据集训练对抗性自动编码器,得到低维向量数据;
训练对抗性自动编码器(AAE)获取输入数据集的低维向量数据,包括两个部分:编码器和解码器,编码器用于将输入数据集压缩到低维空间,得到低维向量数据,解码器用于将低维空间向量数据解码回原始空间,并且解码出的数据与输入数据的误差尽可能小。编码器对数据样本的压缩过程可以表示为:
z=E(x)=σ(w1x+b1).
其中,E(·)表示对抗性自动编码器,ω1表示对抗性自动编码器的权重,b1表示对抗性自动编码器的偏差值,x表示原始空间上的数据集中的样本,z表示样本x在低维空间的低维向量表示,即低维向量数据,σ表示激活函数。
解码器对低维向量数据的映射过程可以表示为:
x′=D(z)=σ(w2z+b2).
其中,D(·)表示AAE解码器,x'表示将低维空间中的低维向量表示解码回原始空间的重构样本,ω2表示AAE解码器的权重,b2表示AAE解码器的偏差值。
在具体实施例中,对抗性自动编码器的训练过程可以表示为:
Figure BDA0003255096290000051
其中,x表示原始空间上的数据集中的样本,x'表示将低维空间中的低维向量表示解码回原始空间的重构样本,m表示AAE自动编码器每轮训练过程中输入的样本数量,ω1表示AAE自动编码器权重,b表示AAE自动编码器的偏差值。
S2、将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;
具体实施过程为:使用对抗性自编码器输出的低维向量数据作为替代模型的输入,在低维空间中训练替代模型。由于该替代模型的训练输入来自代表数据流形的低维空间,因此它可以在训练过程之后对数据流形进行建模,用于指导低维空间中对抗性样本的搜索方向,并确保这些对抗性样本位于流形上。在训练过程中,低维空间替代模型的关键是使输出结果尽可能地逼近目标模型即被攻击模型的输出结果。低维空间替代模型的损失函数分为三个部分,第一部分计算替代模型输出的各类别分类置信度与目标模型的各类别分类置信度的交叉熵,即置信度损失;第二部分计算替代模型输出的最大预测概率标签与目标模型最终输出的最大概率预测标签是否一致,即标签损失;第三部分计算判别器的置信度分数;三个部分的损失函数表示如下:
Figure BDA0003255096290000061
其中Dis是判别器,S是替代模型,θs为替代模型的权重参数,z表示样本x在低维空间的低维向量表示,y表示数据集在替代模型中的输出标签结果,ρx表示样本在低维空间中空间分布,S(z)是低维空间替代模型的参数权重,S(θs,z,y)的损失可进一步分为标签损失和置信度损失:
L(S)=αLlabel+βLtarget
Figure BDA0003255096290000062
Figure BDA0003255096290000063
其中,L(·)表示损失函数,Llabel为标签损失,Ltarget为置信度损失,T(·)是目标模型,E(·)是AAE的编码器模型,α表示用于控制标签损失权重的超参数、β表示用于控制置信度损失权重的超参数,c是标签尺寸,y表示数据集在替代模型中的输出标签结果,即标签的onehot表示,S(E(x))是替代模型输出。
S3、将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;
具体实施过程中,将原始样本输入低维空间替代模型中得到最大预测概率标签,计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,原始样本真实标签置信度是将原始样本输入目标模型得到的。计算梯度信息时需要根据攻击是非目标攻击还是目标攻击选择合适的目标标签计算损失,如果执行的是非目标攻击,则用于计算损失函数的标签选择为除了真实标签外的任意标签,如果执行的目标攻击,则用于计算损失函数的标签选择为需要攻击者希望目标模型最终分类成的标签。实际的计算过程如下所示:
gs,o,t(x):x∈X→x′,f(x)=o&&f(x′)=t
s.t||x′-x||<∈
其中,gS,o,t(·)表示攻击者的攻击过程,o表示样本的真实标签类别,t表示希望目标模型被欺骗成的标签类别,f(·)表示目标模型的分类结果,∈表示在样本上添加的扰动系数。
S4、通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;
具体实施过程中,对抗性扰动是指添加在原始样本上的扰动噪声,将对抗性扰动添加在原始样本上之后的样本叫对抗样本,
具体过程如下所示:
Figure BDA0003255096290000071
Figure BDA0003255096290000072
Figure BDA0003255096290000073
其中,
Figure BDA0003255096290000074
表示对抗样本的初始值,
Figure BDA0003255096290000075
为第t次迭代后低维空间替代模型的梯度,
Figure BDA0003255096290000076
为使用对抗性自动编码器对梯度信息进行从低维空间到原始空间的解码,E表示对抗性自动编码器,S表示替代模型,
Figure BDA0003255096290000077
表示原始样本在替代模型中的梯度,Clip表示一个用于限制扰动在固定的∈范围内的函数。
S5、利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;
根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回S3,直至满足结束条件,具体满足结束循环的条件具体为:实际最大概率标签与真实标签不相同,并且预期各类别标签置信度与实际各类别标签置信度的损失值小于设置的阈值。计算损失值采用最小平方误差,即L2范数损失函数,为了确保攻击成功率,实施例中将损失值阈值设置为0.3,实施过程中也可以大于0小于0.3,阈值越小,攻击成功率越大。
具体实施过程中,每个数据集中的数据都可以分类到固定数量标签中的某个标签上,其他标签就是除了样本最大概率标签以外的其他所有标签。利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,具体实施例为一个数据集有四个类别,其中一个样本的各类别置信度为[0.1,0.1,0.1,0.7],最后输出出来的结果就是最后一个类别,那么生成对抗样本的过程就是将正确类别对应的置信度降低,也就是降低0.6,这个策略是把降低的部分平均分配到其他标签,比如下降了0.3,那么这里的0.3就平均到其他三个标签上,也就是[0.2,0.2,0.2,0.3],得到的就是预期各类别标签置信度结果。
在选择目标攻击类别时,由于低维空间中数据的结构在某种程度上反映了原始空间的结构,因此,使用在原始空间中相距很远的不同类别标记的示例更有可能在低维空间中不相邻。因此,如果目标标签与流形空间中的原始样本标签相距甚远,则必须添加相对较大的扰动,以将生成的对抗样本保留在数据流形上,这可能会影响对抗样本的扰动大小。因此,将流形空间中最接近真实类别的类别被设置为目标类别。具体而言,除了真实类别以外的最大分类置信度相对应的类别作为流形空间中最接近真实类别的类别。选择目标分类置信的过程如下所示
Figure BDA0003255096290000081
其中,rγ(y,o,t)表示置信度重排序策略,yk表示第k个标签的置信度分数,c表示样本数据集中的标签类别个数,o表示样本的真实标签类别,t表示希望目标模型被欺骗成的标签类别,0<γ<1是一个附加参数,用于指定对抗性样本与真实样本的相似性。当γ较大时,生成的对抗样本的失真较小,但攻击成功率较低。
以下,参照图1来描述根据本公开实施例的与图2所示的方法对应的装置,一种基于流形理论的对抗样本攻击装置,所述装置100包括:对抗性自动编码器模块101,用于利用数据集训练对抗性自动编码器,得到低维向量数据;低维空间替代模型训练模块102,用于将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;梯度信息获取模块103,用于将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;对抗样本生成模块104,用于通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;对抗样本攻击判别模块105,用于利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回梯度信息获取模块,直至满足结束条件。除了这5个模块以外,装置100还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
梯度信息获取模块103中根据最大预测概率标签计算原始样本的低维向量数据的梯度信息具体为:计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,所述原始样本真实标签置信度是将原始样本输入目标模型得到的。
对抗样本攻击判别模块104中所述利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度具体方法是:将各类别标签置信度中置信度最高的类别作为预期最大概率标签,将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中,得到预期各类别标签置信度。
一种基于流形理论的对抗样本攻击装置100的具体工作过程参照上述一种基于流形理论的对抗样本攻击方法的描述,不再赘述。
此外,本发明实施例的装置也可以借助于图3所示的计算设备的架构来实现。图3示出了该计算设备的架构。如图3所示,计算机系统201、系统总线203、一个或多个CPU204、输入/输出组件202、存储器205等。存储器205可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。图3所示的架构只是示例性的,在实现不同的设备时,根据实际需要调整图3中的一个或多个组件。
本发明实施例也可以被实现为计算机可读存储介质。根据实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本发明实施例的方法。
本发明实施例针对以上所述基于流形理论的对抗样本攻击方法实施例、装置实施例及计算机存储介质实施例,以上三种实施例的结果与当前最优的对抗样本攻击方法Trans-GRAD、AutoZoom、Dast上在攻击成功率和扰动大小两方面的性能进行比对,实施例在两个真实数据集MNIST、CIFAR-10上进行。本发明实施例攻击算法在四个数据集上的攻击成功率和扰动大小分别如图4和图5所示。
由图4,在其他对抗攻击方法的相同攻击设置下,本发明方法的攻击成功率优于基于替代或生成模型的几种攻击方法。虽然扰动略大于其他方法,但这个是因为我们的方法产生的扰动是流形上的,这意味着我们方法生成的扰动与原始示例具有相似的分布,而不是像其他方法一样在原始样本上任意添加的扰动。在原始示例中添加流形扰动后,生成的对抗性示例仍然可以位于数据集的流形区域中。由图5,所提出的方法可以在具有不同体系结构的模型上获得较好攻击结果。
综合上述各实施例提供的基于流形理论的对抗样本攻击的方法、装置及计算机存储介质,能更加高效地生成流形上的对抗样本,并且可以生成的对抗样本具有较高的攻击成功率和较小的扰动大小,能够很好地满足当下检测模型防御鲁棒性的应用需求,具有很大的实用价值。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于流形理论的对抗样本攻击方法,其特征在于,所述方法包括:
S1、利用数据集训练对抗性自动编码器,得到低维向量数据;
S2、将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;
S3、将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;
S4、通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;
S5、利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;
根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回S3,直至满足结束条件。
2.根据权利要求1所述的方法,其特征在于,所述利用数据集训练对抗性自动编码器,得到低维向量数据具体为:
z=E(x)=σ(w1x+b1).
其中,E(·)表示对抗性自动编码器,ω1表示对抗性自动编码器的权重,b1表示对抗性自动编码器的偏差值,x表示原始空间上的数据集中的样本,z表示样本x在低维空间的低维向量表示,σ表示激活函数。
3.根据权利要求1所述的方法,其特征在于,所述根据最大预测概率标签计算原始样本的低维向量数据的梯度信息具体为:计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,所述原始样本真实标签置信度是将原始样本输入目标模型得到的。
4.根据权利要求1所述的方法,其特征在于,所述通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本具体过程为:
Figure FDA0003255096280000011
Figure FDA0003255096280000012
Figure FDA0003255096280000013
其中,
Figure FDA0003255096280000021
表示对抗样本的初始值,
Figure FDA0003255096280000022
为第t次迭代后低维空间替代模型的梯度,
Figure FDA0003255096280000023
为使用对抗性自动编码器对梯度信息进行从低维空间到原始空间的解码,E表示对抗性自动编码器,S表示替代模型,
Figure FDA0003255096280000024
表示原始样本在替代模型中的梯度,Clip表示一个用于限制扰动在固定的∈范围内的函数。
5.根据权利要求1所述的方法,其特征在于,所述利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度具体方法是:将各类别标签置信度中置信度最高的类别作为预期最大概率标签,将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中,得到预期各类别标签置信度。
6.一种基于流形理论的对抗样本攻击装置,其特征在于,所述装置包括:
对抗性自动编码器模块,用于利用数据集训练对抗性自动编码器,得到低维向量数据;
低维空间替代模型训练模块,用于将低维向量数据作为输入,以低维空间替代模型的输出结果与目标模型的输出结果相同为目的训练低维空间替代模型;
梯度信息获取模块,用于将原始样本的低维向量数据输入训练好的低维空间替代模型,得到最大预测概率标签,根据最大预测概率标签计算原始样本的低维向量数据的梯度信息;
对抗样本生成模块,用于通过梯度解码策略将梯度信息解码到原始空间上生成对抗样本;
对抗样本攻击判别模块,用于利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度,将对抗样本输入目标模型,得到实际各类别标签置信度;根据实际各类别标签置信度得到实际最大概率标签,若实际最大概率标签与真实标签相同,或预期各类别标签置信度与实际各类别标签置信度的损失值大于设置的阈值,将对抗样本作为原始样本并返回梯度信息获取模块,直至满足结束条件。
7.根据权利要求6所述的装置,其特征在于,梯度信息获取模块中根据最大预测概率标签计算原始样本的低维向量数据的梯度信息具体为:计算最大预测概率标签置信度与原始样本真实标签置信度的损失值,根据损失值反向传导计算出梯度信息,所述原始样本真实标签置信度是将原始样本输入目标模型得到的。
8.根据权利要求6所述的装置,其特征在于,对抗样本攻击判别模块中所述利用置信度重排序策略对低维空间替代模型输出的各类别标签置信度进行处理,得到预期各类别标签置信度具体方法是:将各类别标签置信度中置信度最高的类别作为预期最大概率标签,将预期最大概率标签置信度与其他标签置信度的差值平均分配到其他标签置信度中,得到预期各类别标签置信度。
9.一种用于基于流形理论的对抗样本攻击的装置,其特征在于,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-5中任一项所述的方法。
CN202111057349.5A 2021-09-09 2021-09-09 基于流形理论的对抗样本攻击方法及相关装置 Pending CN113935396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111057349.5A CN113935396A (zh) 2021-09-09 2021-09-09 基于流形理论的对抗样本攻击方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111057349.5A CN113935396A (zh) 2021-09-09 2021-09-09 基于流形理论的对抗样本攻击方法及相关装置

Publications (1)

Publication Number Publication Date
CN113935396A true CN113935396A (zh) 2022-01-14

Family

ID=79275515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111057349.5A Pending CN113935396A (zh) 2021-09-09 2021-09-09 基于流形理论的对抗样本攻击方法及相关装置

Country Status (1)

Country Link
CN (1) CN113935396A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743074A (zh) * 2022-06-13 2022-07-12 浙江华是科技股份有限公司 一种基于强弱对抗训练的船舶检测模型训练方法及系统
CN115510440A (zh) * 2022-09-21 2022-12-23 中国工程物理研究院计算机应用研究所 一种基于nes算法的黑盒模型反演攻击方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743074A (zh) * 2022-06-13 2022-07-12 浙江华是科技股份有限公司 一种基于强弱对抗训练的船舶检测模型训练方法及系统
CN114743074B (zh) * 2022-06-13 2022-09-09 浙江华是科技股份有限公司 一种基于强弱对抗训练的船舶检测模型训练方法及系统
CN115510440A (zh) * 2022-09-21 2022-12-23 中国工程物理研究院计算机应用研究所 一种基于nes算法的黑盒模型反演攻击方法及系统
CN115510440B (zh) * 2022-09-21 2023-09-08 中国工程物理研究院计算机应用研究所 一种基于nes算法的黑盒模型反演攻击方法及系统

Similar Documents

Publication Publication Date Title
CN111461307B (zh) 一种基于生成对抗网络的通用扰动生成方法
CN110941794B (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN110334806A (zh) 一种基于生成式对抗网络的对抗样本生成方法
CN112364915A (zh) 一种不可察觉的对抗补丁生成方法及应用
CN114066912A (zh) 基于优化算法和不变性的智能对抗样本生成方法及系统
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN110728297B (zh) 一种基于gan的低代价对抗性网络攻击样本生成方法
CN113627543B (zh) 一种对抗攻击检测方法
CN115860112B (zh) 基于模型反演方法的对抗样本防御方法和设备
CN112215292A (zh) 一种基于迁移性的图像对抗样本生成装置及方法
CN111860364A (zh) 人脸识别模型的训练方法、装置、电子设备和存储介质
CN113837942A (zh) 基于srgan的超分辨率图像生成方法、装置、设备及存储介质
Che et al. SMGEA: A new ensemble adversarial attack powered by long-term gradient memories
Feng et al. Digital watermark perturbation for adversarial examples to fool deep neural networks
CN115048983A (zh) 数据流形拓扑感知的人工智能系统对抗样本防御方法
CN113221388A (zh) 一种视觉感知扰动约束的黑盒深度模型对抗样本生成方法
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
CN117011508A (zh) 一种基于视觉变换和特征鲁棒的对抗训练方法
Ishii et al. Training deep neural networks with adversarially augmented features for small-scale training datasets
CN113159317B (zh) 一种基于动态残差侵蚀的对抗样本生成方法
US7474997B2 (en) Construction and selection of a finite mixture model for use in clustering and vector quantization
CN113191380B (zh) 一种基于多视角特征的图像取证方法及系统
CN113507466A (zh) 基于注意力机制,知识蒸馏防御后门攻击的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination