CN113704758B - 一种黑盒攻击对抗样本生成方法及系统 - Google Patents

一种黑盒攻击对抗样本生成方法及系统 Download PDF

Info

Publication number
CN113704758B
CN113704758B CN202110867054.8A CN202110867054A CN113704758B CN 113704758 B CN113704758 B CN 113704758B CN 202110867054 A CN202110867054 A CN 202110867054A CN 113704758 B CN113704758 B CN 113704758B
Authority
CN
China
Prior art keywords
solution
candidate
candidate solution
value
fitness value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110867054.8A
Other languages
English (en)
Other versions
CN113704758A (zh
Inventor
孙钦东
林凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110867054.8A priority Critical patent/CN113704758B/zh
Publication of CN113704758A publication Critical patent/CN113704758A/zh
Application granted granted Critical
Publication of CN113704758B publication Critical patent/CN113704758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种黑盒攻击对抗样本生成方法及系统,在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解,根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解,采用自适应最优引导局部寻优策略,本发明不需要攻击者了解模型的具体细节信息,并且无需要利用梯度信息或训练替代模型,就可以成功生成对抗样本,对图像分类模型进行规避攻击的情境,适用于目标攻击和非目标攻击,能够以高效率、低成本生成对抗样本,实现测试深度学习模型的可信性。

Description

一种黑盒攻击对抗样本生成方法及系统
技术领域
本发明属于机器学习安全领域,具体涉及一种黑盒攻击对抗样本生成方法及系统。
背景技术
深度学习的快速发展为复杂问题求解提供了新的方法,已被证实能够成功应用于图像检测、语音识别、同声翻译、无人驾驶、医疗等众多复杂问题上。与传统方法相比较而言,在海量数据上其准确率与性能均更优,取得了令人瞩目的成果。然而深度学习计算复杂度高、内存消耗严重也限制了众多研究成果的实际应用,并且要将科研产出成功应用于实际,其安全性也是研究人员与系统使用者不得不考虑的问题。虽然深度学习在众多领域取得了颠覆性的优势,然而对抗样本的出现揭示了深度学习模型的脆弱性,且对抗样本不仅存在于攻击者恶意制作下,也存在于真实的物理世界中,这对于深度学习模型的部署及实际应用提出了挑战,尤其是对安全性要求较高的实际应用场景下。比如,在无人驾驶应用中使用深度学习进行路标识别时,攻击者可通过对拍摄的路标图像进行对抗攻击,致使模型给出错误的预测,从而导致无人驾驶决策系统做出错误判断,在很大程度上增加了安全事故发生的概率。因此,机器学习系统的安全性问题不容忽视。
在深度学习模型训练正确的情况下,攻击者在预测正确的原始测试样本中恶意加入人体感知系统不可感知的微小扰动,致使模型对加入微小扰动后的合成样本给出错误的预测结果。这种与原始样本视觉差异极难察觉但预测值不同的合成样本即对抗样本。所谓“对抗”,是指对机器学习系统的攻击。
对抗样本在计算机视觉、图像领域具有极大的研究空间。现有图像对抗样本生成方法众多,可将其分为不同类别。依据攻击者对目标模型的了解程度,可将其分为白盒攻击与黑盒攻击。白盒攻击是指攻击者了解模型结构、参数、目标函数等所有细节信息,而黑盒攻击情境下,攻击者仅能访问模型输入与输出。依据攻击者在生成对抗样本是是否指定对抗样本的分类输出类别,可将对抗样本生成算法分类为两大类:目标攻击和非目标攻击。非目标攻击是指只要对抗样本的分类输出类别与原始样本不同即可。而目标攻击是在算法运行之前指定对抗样本的分类输出类别。深度神经网络的高维线性是对抗样本生成的原因,并且对抗样本通常具有迁移性,即被一个模型错误分类的对抗样本也经常被另外一个模型错误分类,因此,需要进一步的针对对抗样本改善深度网络模型,提高深度学习模型的可信性;而目前已有通用对抗扰动,是指扰动的计算与原始测试图像无关,仅与模型有关,只要是该分类模型可以识别的图像,叠加上通用对抗扰动,有很大的概率都被该分类模型错误分类,通用对抗扰动通常在模型间也具有迁移性。
常用的白盒对抗样本生成方法需要攻击者了解模型的所有细节信息,然而在真实场景下,白盒攻击的严格前提很难满足,且现有的训练替代模型与采用梯度评估生成对抗样本方案均需要较多的查询与较大的时间复杂度,无法形成有效的对抗样本对深度学习模型进行测试验证。
发明内容
本发明的目的在于提供一种黑盒攻击对抗样本生成方法及系统,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种黑盒攻击对抗样本生成方法,包括以下步骤:
S1,在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解;
S2,根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解;
S3,根据更新后的最优解获取对应候选解的选择概率,根据选择概率值Prob选择满足rand(0,1)<Probi的候选解进一步探索,采用自适应最优引导局部寻优策略;
S4,检查当前所有候选解的评估次数trial,如果某候选解对应的trial值大于设定的阈值时,通过初始化生成新的候选解替换当前候选解;对步骤S2到步骤S4迭代执行,直到生成对抗样本或者查询数量达到最大查询数量,完成对抗样本的生成。
进一步的,随机扰动由均匀分布生成,每一个元素均处于[-a×δmax,a×δmax]区间内,每一个候选解遵循公式
Figure BDA0003187665390000031
Figure BDA0003187665390000032
进行初始化,共生成EN个候选解集合S,在目标攻击中计算
Figure BDA0003187665390000033
非目标攻击下计算
Figure BDA0003187665390000034
为适应度值。同一个候选解每查询一次,其评估次数trial加1,选择适应度值最小的候选解作为当前最优解。
进一步的,将候选解集合S划分为S1和S2两部分,划分方法为:
Figure BDA0003187665390000035
其中,BF为当前最优解对应的适应度值,confori为原始测试图像X在模型f上的输出类别c的置信度。
进一步的,对S1中的每一个候选解采用人工蜂群算法的搜索方式生成新的候选解,搜索公式为
Figure BDA0003187665390000041
进一步的,对S2中的每一个候选解集采用最优解引导探索可行解,具体搜索策略为
Figure BDA0003187665390000042
进一步的,在生成下一代候选解后,计算每一个的候选解适应度值,并比较候选解
Figure BDA0003187665390000043
Figure BDA0003187665390000044
的适应度值,依据贪婪选择确定最终下一代的候选解,若
Figure BDA0003187665390000045
被抛弃,设置新候选解评估次数trial为1,否则其对应trial加1,并更新当前最优解。
进一步的,根据更新后的最优解获取对应候选解的选择概率,选择概率公式为:
Figure BDA0003187665390000046
式中,
Figure BDA0003187665390000047
是t+1代中食物源i的适应度值,
Figure BDA0003187665390000048
是第i个解的概率。
进一步的,采用自适应最优引导局部寻优策略,更新每一个候选解中以概率rate随机选择的
Figure BDA0003187665390000049
个元素的值,rate计算公式如下,
Figure BDA00031876653900000410
式中,ME为设置的最大查询数量,evalCount表示当下所用的查询数量。
进一步的,设Points为选择的元素集合,采用最优解引导策略为Points计算更新值探索新蜜源,计算更新值的适应度并进行贪婪选择。
一种黑盒攻击对抗样本生成系统,包括初始化候选模块,优化模块,选择模块和生成模块;
初始化候选模块用于在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解;
优化模块用于根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解;
选择模块用于根据更新后的最优解获取对应候选解的选择概率,根据选择概率值Prob选择满足rand(0,1)<Probi的候选解进一步探索,采用自适应最优引导局部寻优策略;
生成模块用于检查当前所有候选解的评估次数,如果某候选解对应的评估次数trial大于设定的阈值时,通过初始化生成新的候选解替换当前候选解,直到生成对抗样本或者查询数量达到最大查询数量,完成对抗样本的生成并输出。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种黑盒攻击对抗样本生成方法,用过在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解,根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解,根据更新后的最优解获取对应候选解的选择概率,采用自适应最优引导局部寻优策略,本发明在执行过程中只需要访问模型输入和输出,不需要攻击者了解模型的具体细节信息,并且无需要利用梯度信息或训练替代模型,就可以成功生成对抗样本,对图像分类模型进行规避攻击的情境,适用于目标攻击和非目标攻击,能够以高效率、低成本生成对抗样本,实现测试深度学习模型的可信性。
进一步的,本发明将对抗样本转化为优化问题,采用人工蜂群算法求解,不依赖于攻击者对模型的了解,也不需要任何梯度信息,在对抗样本生成过程中仅需要利用模型的输出信息,因此具有梯度无关的特性,并且与模型网络结构无关,能够适用于多种结构、模型大小不同的图像分类器,关键技术在于能够高效生成对抗样本,成功执行规避攻击。
附图说明
图1是本发明方法与ZOO、C&W、AdversarialPSO算法在MNIST数据集上的攻击成功率、平均查询次数、平均L2范数与平均消耗时间的实验对比结果;
图2是本发明方法与ZOO、C&W、AdversarialPSO算法在CIFAR-10数据集上的攻击成功率、平均查询次数、平均L2范数与平均消耗时间的实验对比结果;
图3是本发明方法中不同食物源数量对实验结果的影响分析,实验是在MNIST和CIFAR-10数据集下执行非目标攻击;
图4是本发明方法中幅度限制因子对实验结果的影响分析,实验是在MNIST和CIFAR-10数据集下执行非目标攻击;
图5是本发明方法在MNIST和CIFAR-10数据集下执行目标攻击不同类别对所使用的平均查询数量。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明一种黑盒攻击对抗样本生成方法,使用人工蜂群算法不断迭代求得最优解,完成对抗样本的制作,具体包括以下步骤:
S1,初始化候选解:在原始测试图像X上添加相同维度的随机扰动,随机扰动由均匀分布生成,每一个元素均处于[-a×δmax,a×δmax]区间内,每一个候选解遵循公式
Figure BDA0003187665390000071
进行初始化,共生成EN个候选解集合S,在目标攻击中计算
Figure BDA0003187665390000072
非目标攻击下计算
Figure BDA0003187665390000073
为适应度值。同一个候选解每查询一次,其评估次数trial加1,选择适应度值最小的候选解作为当前最优解;
S2,雇佣蜂探索新蜜源:依据当前最优解的适应度值与原始图像X的正确类别置信度值的比值,将候选解集合S划分为S1和S2两部分,分别采用不同的策略产生新的候选解;具体划分方法为:
Figure BDA0003187665390000074
其中,BF为当前最优解对应的适应度值,confori为原始测试图像X在模型f上的输出类别c的置信度。S1中的每一个候选解采用人工蜂群算法的搜索方式生成新的候选解,搜索公式为
Figure BDA0003187665390000075
S2中的每一个候选解集采用最优解引导探索可行解,具体搜索策略为
Figure BDA0003187665390000076
Figure BDA0003187665390000077
在生成下一代候选解后,计算每一个的候选解适应度值,并比较候选解
Figure BDA0003187665390000078
Figure BDA0003187665390000079
的适应度值,依据贪婪选择确定最终下一代的候选解,若
Figure BDA00031876653900000710
被抛弃,设置新候选解评估次数trial为1,否则其对应trial加1,并更新当前最优解。
S3,选择概率计算:雇佣蜂分享食物位置信息给跟随蜂,跟随蜂根据概率对食物源进行选择性开采,即根据更新后的最优解获取对应候选解的选择概率,选择概率公式为:
Figure BDA00031876653900000711
式中,
Figure BDA00031876653900000712
是t+1代中食物源i的适应度值,
Figure BDA00031876653900000713
是第i个解的概率;
S4,跟随蜂探索新蜜源:依据选择概率值Prob选择满足rand(0,1)<Probi的候选解进一步探索,采用自适应最优引导局部寻优策略,更新每一个候选解中以概率rate随机选择的
Figure BDA0003187665390000081
个元素的值,rate计算公式如下,
Figure BDA0003187665390000082
式中,ME为设置的最大查询数量,evalCount表示当下所用的查询数量。设Points为选择的元素集合,采用最优解引导策略为Points计算更新值探索新蜜源,计算更新值的适应度并进行贪婪选择。
S5,侦查蜂的转化:检查当前所有候选解的评估次数,如果某候选解对应的评估次数trial大于设定的阈值limitTrial时,通过初始化生成新的候选解替换当前候选解;对步骤S2到步骤S4迭代执行,直到生成对抗样本或者查询数量达到最大查询数量,完成对抗样本的生成。
本发明一种黑盒攻击对抗样本生成方法,解决了白盒攻击情境下需要攻击者对模型细节信息全面了解的问题和前提条件,并且不需要任何梯度计算,能够在保证成功攻击率的前提下,高效生成对抗样本,并且该黑盒攻击算法仅需要访问模型的输入与输出对,因此算法对深度学习模型类型、结构、大小等并不敏感,能够广泛适用。
设图像分类模型f为在训练数据集Train上训练所得到的分类模型,Test为与Train具有相同分布的测试数据集,图像分类模型f输入维度为d,输出维度及图像分类模型类别为m。假设在理想情况下,将原始测试集Test中每一张测试图像X输入到图像分类模型f中,将会输出O={o1,o2,…,om},其中oi是属于类别i的置信度,且
Figure BDA0003187665390000083
其中argmax(O),即输出向量O中的最大概率值索引为该张图像的预测类别。
现有测试图像X,真实类别为c,图像分类模型f对其预测正确。设存在微小扰动e(X),其维度与输入图像X相同。针对X,生成的对抗样本为Xadv=X+e(X)。非目标攻击的目标是对抗样本Xadv的输出类别与原始样本不同,即f(Xadv)≠c。目标攻击是在算法运行之前指定对抗样本的最终输出类别t,即f(Xadv)=t。在非目标攻击中,适应度函数为原始图像预测为类别c的置信度
Figure BDA0003187665390000091
在目标攻击中,适应度函数定义为
Figure BDA0003187665390000092
其中
Figure BDA0003187665390000093
是当前候选解的预设的目标类别的置信度值。本发明将对抗样本生成转化为优化问题,使用人工蜂群算法求解,设置参数蜜源数量SN、雇佣蜂与跟随峰的数量均为
Figure BDA0003187665390000094
幅度限制因子α、最大修改幅度δmax以及迭代次数,为每一个候选解设置trial=0,用于记录对于候选解的评估次数。
图像分类模型f:图像分类模型f作为目标模型,其输入为图像,输出维度为D,用于计算适应度函数,评估候选解的质量。
测试图像X:测试图像X的真实类别为c,测试图像为对抗算法的输入。在目标攻击下,生成预测类别为t的对抗样本;在非目标攻击下,生成预测类别不为c的对抗样本。
设定蜜源数量SN、幅度限制因子a、最大修改幅度δmax以及最大查询次数,在非目标攻击中,适应度函数为原始图像预测为类别c的置信度
Figure BDA0003187665390000095
在目标攻击中,适应度函数定义为
Figure BDA0003187665390000096
其中
Figure BDA0003187665390000097
是模型f对候选解预测的目标类别t的置信度值。
实施例:设现有图像分类模型f,其输入的上下界为-0.5和0.5,模型输出类别为10,测试图像I,图像大小为32×32×3,其真实类别与模型f的预测类别均为3,假设目标攻击下对抗样本的预测类别为5,最大修改幅度与幅度限制因子分别为0.05和0.5。
首先,利用原始图像I叠加32×32×3维度的均匀分布随机向量e(I)生成20个第一代候选解集合
Figure BDA0003187665390000101
e(I)中的每一个元素均落在[-0.5×0.05,0.5×0.05]区间内,对候选解执行clip操作(将候选解中每一个元素限制在模型输入的上下界[-0.5,0.5],大于0.5的元素赋值为0.5,小于-0.5的元素赋值为-0.5),之后将20个候选解输入到模型f,为其计算适应度值,选择适应度值最小的候选解作为最优解。其次,雇佣蜂依据当前最优解的适应度值,自适应划分候选解集合,将20个候选解集合
Figure BDA0003187665390000102
划分为两个子集
Figure BDA0003187665390000103
Figure BDA0003187665390000104
Figure BDA0003187665390000105
Figure BDA0003187665390000106
分别采用人工蜂群算法原始搜索策略和最优引导搜索策略寻找下一代候选解
Figure BDA0003187665390000107
对候选解执行clip操作后,输入到模型f计算其适应度值。通过贪婪选择在当前候选解和其生成的下一代候选解中保留适应度值更小的候选解,并更新最优解。然后,跟随峰共享雇佣蜂信息,在
Figure BDA0003187665390000108
上做进一步搜索,根据当前使用的查询次数与最大查询次数,自适应选则每一个候选解中的部分元素进行更新,生成下一代候选解
Figure BDA0003187665390000109
Figure BDA00031876653900001010
执行clip操作后,输入到模型f计算其适应度值。同样采用贪婪选择在当前候选解和其生成的下一代候选解中保留适应度值更小的候选解,并更新最优解。若某一个候选解的查询次数达到限制次数,则抛弃当前候选解,使用初始化方法生成新的候选解,避免陷入局部最优。雇佣蜂与跟随峰协同迭代搜索最优解,直到搜索到对抗样本Iadv或达到终止条件为止。
从上述过程可以看出,本发明方法在生成对抗样本的过程中,只有在计算适应度函数时使用到了模型f,并且仅需获得模型输出即可,不需要梯度等其他信息,仅利用输入-输出即可生成对抗样本,与现有黑盒攻击相比,避免了估算梯度和训练替代模型的步骤,有效提高了对抗样本的生成成本,降低了生成对抗样本的平均查询次数。因此,本发明方法更适应于真实物理世界中图像分类网络的规避攻击。
此外,本发明方法相较于其他黑盒攻击算法具有较高的攻击成功率和较低的对抗样本生成平均查询次数,包括以下两方面:
1)本发明方法使用优化方法生成对抗样本,不需要评估梯度和训练目标模型的替代模型,杜绝了梯度评估不准确、替代模型与目标模型的差异对所生成对抗样本的攻击成功率的影响,并且改进了原始人工蜂群算法的搜索策略,为目标攻击和非目标攻击制定不同的适应度函数评估候选解的质量,提高了所生成对抗样本的攻击成功率。
2)本发明方法不需要评估梯度和训练替代模型,消除了额外的查询,在很大程度上降低了生成对抗样本所需的查询数量,提高了对抗样本的生成效率,并降低了时间消耗。
图1和图2分别是在MNIST和CIFAR-10数据集上采用本发明方法执行的非目标攻击和目标攻击下,与ZOO、C&W、AdversarialPSO和SWISS在所生成对抗样本的攻击成功率、平均L2范数、平均生成时间(以分钟为单位)的数量柱状图比较,以及平均查询次数的折线图对比结果;从图1和图2可以看出,本发明方法的非目标攻击和目标攻击的平均查询次数与ZOO和C&W相比均降低了数倍,与AdversarialPSO相比,在目标攻击下生成的对抗样本的攻击成功率有所提升,并且在对抗样本的生成时间效率上更具优势。
图3和图4分别是蜜源数量和幅度限制因子的不同取值对生成的对抗样本的平均查询次数和平均L2范数的影响。从图3可以看出,随着蜜源数量的增加,所用到的平均查询次数逐渐减少,然而当蜜源数量增加到一定数值,平均查询次数又缓慢增加。从图4可以看出初始候选解的L2范数大小与最终生成的对抗样本L2大小成正比,与攻击成功所用查询次数成反比。图5是目标攻击中不同源-目标类别对的目标攻击所使用的平均查询数量统计结果。从图中可以看出,MNIST数据集较CIFAR-10而言,攻击成功所使用的平均查询数量更多,并且两者的热力图均具有轻微的对称性,此现象在CIFAR-10数据集上更为明显。
本发明算法考虑到白盒攻击和现有黑盒攻击生成对抗样本存在的问题,将黑盒情境下,图像对抗样本生成转化为有约束的优化问题,给出了一种基于人工蜂群算法的黑盒攻击对抗样本生成方法,初始化候选解,在此基础上雇佣蜂、跟随峰和侦查蜂不断迭代,协同搜索,分别采用不同的搜索策略,依据当前最优解的质量自适应搜索更优的候选解。本发明方法打破了白盒攻击对攻击者知识的依赖,以及现有黑盒攻击生成对抗样本涉及到梯度评估和替代模型的训练,而导致查询次数和时间成本过高的问题,能够以高成功率和高效率生成对抗样本。同时本发明方法在实施过程中不依赖模型的具体细节信息,能够适应不同结构、不同大小的图像分类模型作为攻击者的目标模型。

Claims (10)

1.一种黑盒攻击对抗样本生成方法,其特征在于,包括以下步骤:
S1,在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解;
S2,根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解;
S3,根据更新后的最优解获取对应候选解的选择概率,根据选择概率值Prob选择满足rand(0,1)<Probi的候选解进一步探索,采用自适应最优引导局部寻优策略;
S4,检查当前所有候选解的评估次数trial,如果某候选解对应的trial值大于设定的阈值时,通过初始化生成新的候选解替换当前候选解;对步骤S2到步骤S4迭代执行,直到生成对抗样本或者查询数量达到最大查询数量,完成对抗样本的生成。
2.根据权利要求1所述的一种黑盒攻击对抗样本生成方法,其特征在于,随机扰动由均匀分布生成,每一个元素均处于[-a×δmax,a×δmax]区间内,每一个候选解遵循公式
Figure FDA0003187665380000011
进行初始化,共生成En个候选解集合S,在目标攻击中计算
Figure FDA0003187665380000012
非目标攻击下计算
Figure FDA0003187665380000013
为适应度值,同一个候选解每查询一次,其评估次数trial加1,选择适应度值最小的候选解作为当前最优解。
3.根据权利要求1所述的一种黑盒攻击对抗样本生成方法,其特征在于,将候选解集合S划分为S1和S2两部分,划分方法为:
Figure FDA0003187665380000014
其中,BF为当前最优解对应的适应度值,confori为原始测试图像X在模型f上的输出类别c的置信度。
4.根据权利要求3所述的一种黑盒攻击对抗样本生成方法,其特征在于,对S1中的每一个候选解采用人工蜂群算法的搜索方式生成新的候选解,搜索公式为
Figure FDA0003187665380000021
5.根据权利要求3所述的一种黑盒攻击对抗样本生成方法,其特征在于,对S2中的每一个候选解集采用最优解引导探索可行解,具体搜索策略为
Figure FDA0003187665380000022
6.根据权利要求3所述的一种黑盒攻击对抗样本生成方法,其特征在于,在生成下一代候选解后,计算每一个的候选解适应度值,并比较候选解
Figure FDA0003187665380000028
Figure FDA0003187665380000029
的适应度值,依据贪婪选择确定最终下一代的候选解,若
Figure FDA00031876653800000210
被抛弃,设置新候选解评估次数trial为1,否则其对应trial加1,并更新当前最优解。
7.根据权利要求1所述的一种黑盒攻击对抗样本生成方法,其特征在于,根据更新后的最优解获取对应候选解的选择概率,选择概率公式为:
Figure FDA0003187665380000023
式中,
Figure FDA0003187665380000024
是t+1代中食物源i的适应度值,
Figure FDA0003187665380000025
是第i个解的概率。
8.根据权利要求1所述的一种黑盒攻击对抗样本生成方法,其特征在于,采用自适应最优引导局部寻优策略,更新每一个候选解中以概率rate随机选择的
Figure FDA0003187665380000026
个元素的值,rate计算公式如下,
Figure FDA0003187665380000027
式中,ME为设置的最大查询数量,evalCount表示当下所用的查询数量。
9.根据权利要求8所述的一种黑盒攻击对抗样本生成方法,其特征在于,设Points为选择的元素集合,采用最优解引导策略为Points计算更新值探索新蜜源,计算更新值的适应度并进行贪婪选择。
10.一种黑盒攻击对抗样本生成系统,其特征在于,包括初始化候选模块,优化模块,选择模块和生成模块;
初始化候选模块用于在原始测试图像上添加相同维度的随机扰动生成多个候选解集合并计算每个候选解的适应度值,选择适应度值最小的候选解作为当前最优解;
优化模块用于根据当前最优解的适应度值与原始图像的正确类别置信度值的比值将候选解集合划分为两部分,对每一部分分别进行候选解计算,依据贪婪选择确定最终下一代的候选解并更新当前最优解;
选择模块用于根据更新后的最优解获取对应候选解的选择概率,根据选择概率值Prob选择满足rand(0,1)<Probi的候选解进一步探索,采用自适应最优引导局部寻优策略;
生成模块用于检查当前所有候选解的评估次数,如果某候选解对应的评估次数trial大于设定的阈值时,通过初始化生成新的候选解替换当前候选解,直到生成对抗样本或者查询数量达到最大查询数量,完成对抗样本的生成并输出。
CN202110867054.8A 2021-07-29 2021-07-29 一种黑盒攻击对抗样本生成方法及系统 Active CN113704758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110867054.8A CN113704758B (zh) 2021-07-29 2021-07-29 一种黑盒攻击对抗样本生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110867054.8A CN113704758B (zh) 2021-07-29 2021-07-29 一种黑盒攻击对抗样本生成方法及系统

Publications (2)

Publication Number Publication Date
CN113704758A CN113704758A (zh) 2021-11-26
CN113704758B true CN113704758B (zh) 2022-12-09

Family

ID=78651196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110867054.8A Active CN113704758B (zh) 2021-07-29 2021-07-29 一种黑盒攻击对抗样本生成方法及系统

Country Status (1)

Country Link
CN (1) CN113704758B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722407B (zh) * 2022-03-03 2024-05-24 中国人民解放军战略支援部队信息工程大学 基于内生式对抗样本的图像保护方法
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统
CN116304703A (zh) * 2023-03-21 2023-06-23 郑州轻工业大学 基于de-c&w的通用对抗样本生成方法
CN117240624B (zh) * 2023-11-14 2024-01-23 长春大学 一种基于黑盒场景的对抗攻击样本生成及测试方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN110991549A (zh) * 2019-12-13 2020-04-10 成都网域复兴科技有限公司 一种针对图像数据的对抗样本生成方法及系统
CN111291828A (zh) * 2020-03-03 2020-06-16 广州大学 一种基于深度学习的hrrp对抗样本黑盒攻击方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276377A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于贝叶斯优化的对抗样本生成方法
CN110991549A (zh) * 2019-12-13 2020-04-10 成都网域复兴科技有限公司 一种针对图像数据的对抗样本生成方法及系统
CN111291828A (zh) * 2020-03-03 2020-06-16 广州大学 一种基于深度学习的hrrp对抗样本黑盒攻击方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于PSO的路牌识别模型黑盒对抗攻击方法;陈晋音等;《软件学报》;20200915(第09期);全文 *

Also Published As

Publication number Publication date
CN113704758A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113704758B (zh) 一种黑盒攻击对抗样本生成方法及系统
CN109961145B (zh) 一种针对图像识别模型分类边界敏感的对抗样本生成方法
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN111325324A (zh) 一种基于二阶方法的深度学习对抗样本生成方法
CN111598210B (zh) 面向基于人工免疫算法对抗攻击的对抗防御方法
CN111950628A (zh) 人工智能图像分类模型的鲁棒性评估与增强系统
CN111967006A (zh) 基于神经网络模型的自适应黑盒对抗攻击方法
CN112396129A (zh) 一种对抗样本检测方法及通用对抗攻击防御系统
CN112381142B (zh) 基于重要特征的具有可解释性对抗样本生成方法及系统
CN115578248B (zh) 一种基于风格引导的泛化增强图像分类算法
CN112200243A (zh) 一种基于低问询图像数据的黑盒对抗样本生成方法
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN112085050A (zh) 基于pid控制器的对抗性攻击与防御方法及系统
CN113988312A (zh) 一种面向机器学习模型的成员推理隐私攻击方法及系统
CN111611909A (zh) 多子空间域自适应人脸识别方法
CN112926661A (zh) 一种增强图像分类鲁棒性的方法
CN114387449A (zh) 一种应对神经网络对抗性攻击的图像处理方法及系统
CN114399630A (zh) 基于信念攻击和显著区域扰动限制的对抗样本生成方法
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN116110113A (zh) 一种基于深度学习的虹膜识别方法
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN113344814A (zh) 一种基于生成机制的高分辨率对抗样本的合成方法
CN113407939A (zh) 面向黑盒攻击的替代模型自动选取方法、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant