CN114579777A - 一种改进的符号优化对抗攻击方法 - Google Patents
一种改进的符号优化对抗攻击方法 Download PDFInfo
- Publication number
- CN114579777A CN114579777A CN202210200033.5A CN202210200033A CN114579777A CN 114579777 A CN114579777 A CN 114579777A CN 202210200033 A CN202210200033 A CN 202210200033A CN 114579777 A CN114579777 A CN 114579777A
- Authority
- CN
- China
- Prior art keywords
- search
- attack
- boundary
- search direction
- improved symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005457 optimization Methods 0.000 title claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract 2
- 230000008569 process Effects 0.000 claims description 10
- 230000008485 antagonism Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 abstract description 6
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 abstract description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 235000000332 black box Nutrition 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及对抗样本技术领域,具体为一种改进的符号优化对抗攻击方法。
背景技术
随着人工智能技术的不断提高,深度神经网络的安全性问题也在不断被关注。在一些现实应用场景中,如自动驾驶等,往往会要求深度神经网络具有高度的安全性和鲁棒性。已有大量的研究表明深度神经网络容易受到对抗样本的威胁,对抗样本也成为人工智能安全研究的一个热点。对抗样本是由原始图像叠加一个微小的扰动构成的。在人眼无法感知到这个微小扰动的情况下,分类模型会对该样本进行错误的判断。生成对抗样本的过程即称之为对抗攻击。根据攻击者是否能获得目标模型的具体结构及参数设置,对抗攻击分为白盒攻击和黑盒攻击。白盒攻击是指目标模型完全暴露给攻击者,攻击者已知模型的结构以及参数设置;黑盒攻击则是攻击者对目标模型的内部信息完全未知。其中,黑盒攻击又分为两类:基于迁移的黑盒攻击和基于查询的黑盒攻击。基于迁移的黑盒攻击要求攻击者能够获得目标模型的训练数据并且通过使用这些训练数据来训练出一个本地的替代模型,攻击者在这个替代模型上对原始图像进行白盒攻击来获得一个对抗样本,根据模型的迁移性,这个对抗样本有一定的概率在目标模型上也具有对抗性;基于查询的黑盒攻击是指攻击者利用模型的返回信息进行攻击。根据目标模型返回信息的不同,基于查询的黑盒攻击又进一步分为基于分数的攻击和基于硬标签的攻击。基于分数的黑盒攻击是指攻击者利用目标模型输出的置信分数生成对抗样本;基于硬标签的黑盒攻击则是指攻击者利用目标模型的top-1决策(硬标签)生成对抗样本。在现实场景中,硬标签黑盒攻击是这些攻击中最实用的。在硬标签黑盒攻击中,符号优化攻击(Sign-OPT Attack)因其性能卓越而受到了广泛关注。
但我们发现符号优化攻击(Sign-OPT Attack)的回溯线性查找过程中消耗了大量查询。本发明在每一轮线性查找过程中不使用二分查找而是直接判断沿新的搜索方向的候选样本是落在决策边界内还是决策边界外。这个判断只需要通过一个单次查询即可实现,以便获得最佳搜索方向,且显著减少了整体查询。本发明在MNIST、CIFAR-10及ImageNet三个数据上进行了大量的实验,验证了方案的可行性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种改进的符号优化对抗攻击方法,极大的减少了查询次数,并提高了攻击成功率。具备对抗样本的失真收敛速度快等优点,解决了需要额外构建数据集并训练替代模型,操作难度大的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种改进的符号优化对抗攻击方法,包括以下步骤:
S1:初始化搜索方向;
S2:估计目标函数梯度;
S3:更新搜索方向。
优选的,所述S1中通过二分查找法计算出沿各个对抗扰动方向的边界对抗样本。
优选的,所述S3中使用回溯线性查找方法找到最佳的搜索方向,在符号优化攻击的线性查找过程中,每一次迭代都会使用二分查找方法计算出沿每个搜索方向的边界对抗样本。
优选的,所述S3中当候选样本落在决策边界外,则沿新的搜索方向的边界对抗样与过去的边界对抗样本具有更小的失真,当候选样本落在决策边界内,则沿新的搜索方向的边界对抗样本与过去的边界对抗样本具有更大的失真。
优选的,所述S3中每一次迭代中逐渐增大更新搜索方向的步长直到候选样本落在决策边界内,若单次查询的判断结果是候选样本落在决策边界内,将会结束迭代。
(三)有益效果
与现有技术相比,本发明提供了一种改进的符号优化对抗攻击方法,具备以下有益效果:
1、该改进的符号优化对抗攻击方法,不在决策边界上随机游走,有引导方向进行指引,对抗样本的失真收敛速度快。
2、该改进的符号优化对抗攻击方法,不需要目标模型暴露置信分数,只需要模型的top-1最终决策即可实现。
3、该改进的符号优化对抗攻击方法,不需要自己额外构建数据集并训练替代模型,简单易操作。
附图说明
图1为本发明的符号优化对抗攻击方法流程图;
图2为本发明的可视化攻击流程图;
图3为本发明的二分查找逐渐增大步长图;
图4为本发明的二分查找逐渐减小步长图;
图5为本发明的第t轮线性查找图;
图6为本发明的攻击成功率图;
图7为本发明的平均l2范数失真图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种改进的符号优化对抗攻击方法,包括以下步骤:
S1:初始化搜索方向;
S2:估计目标函数梯度;
S3:更新搜索方向。
向量和标量分别使用粗体小写字母和斜体小写字母表示,为了更好地说明,本方案中使用的基本符号和描述如下表所示。
给定一张原始图片x0、对应的真实标签y0和一个硬标签黑盒分类器(模型)f,本方案使用了符号攻击方法中提出的关于搜索方向θ的目标函数g(θ),并通过解决以下优化问题,找到最小失真对抗样本:
因此,全局最佳对抗样本可以用如下公式表达:
对于非定向攻击,本发明首先随机采样N个服从的扰动,通过调用模型找到其中具有对抗性的扰动。接下来通过二分查找法计算出沿各个对抗扰动方向的边界对抗样本。通过比较找出其中具有最小失真的边界对抗样本,其对应的扰动作为初始搜索方向θ0,且g0=g(θ0)。
在定向攻击中,本方案从目标类别中随机挑选M张图像,用目标类别的图像减去原始图像得到的差即是对抗扰动。除了调用模型,接下来的初始化过程与非定向攻击相同。
本方案通过以下的公式估计目标函数g0的梯度:
其中,随机采样一个服从分布的方向uk,δ为调节因子,sgn(·)为符号操作,δuk旨在旋转搜索方向θ。根据3式可知,如果原始图像沿旋转后的方向θ+δuk到决策边界的距离大于原始图像沿方向θ到决策边界的距离,那么旋转方向uk将被保留;否则,旋转方向uk将被反向。根据概率论,被保留方向和被反向的方向的占比近似1:1。最终,这k个旋转的求和方向(即g(θ)的梯度估计量)肯定总是指向使得g(θ)变大的方向。
本方案使用回溯线性查找方法找到最佳的搜索方向,在符号优化攻击的线性查找过程中,每一次迭代都会使用二分查找方法计算出沿每个搜索方向的边界对抗样本,也就是说,在线性查找过程的每一次迭代里,边界对抗样本必须通过二分查找方法被计算出,然后通过比较当前迭代和上一次迭代的边界对抗样本的两个失真之间的大关系,具有更小失真的边界对抗样本将会被保存,我们发现每一次迭代中使用到的二分查找消耗了大量的查询次数。事实上,在每一次迭代中,并不总是需要使用二分查找求出边界对抗样本。我们可以使用一个单次查询来判断候选样本是落在决策边界里面还是决策边界外面,从而适当地减少二分查找的使用。
情况1:候选样本落在决策边界外,这说明沿新的搜索方向的边界对抗样本肯定比过去的边界对抗样本具有更小的失真。这表明新的搜索方向是有用的,在这种情况下,接下来的步骤和符号优化攻击一样,本方案会使用二分查找计算出沿新的搜索方向的边界对抗样本,如附图3所示,我们在每一次迭代中逐渐增大更新搜索方向的步长直到候选样本落在决策边界内,一旦单次查询的判断结果是候选样本落在决策边界内,将会结束迭代,并将上一次迭代得到的边界对抗样本作为第t轮线性查找的输出,这意味着,在最后一次迭代中,将不会使用二分查找求出边界对抗样本,因此节省了一些查询次数。
情况2:候选样本落在决策边界内,这说明沿新的搜索方向的边界对抗样本肯定比过去的边界对抗样本具有更大的失真,这表明新的搜索方向是错误的。不同于符号优化,由于计算一个沿错误方向的边界对抗样本是没有必要的,所以本方案不使用二分查找,如附图4所示,本发明在每一次迭代中逐渐减小更新搜索方向的步长,直到候选样本落在决策边界外,其中,在每一次迭代中,本方案仅使用一次查询而不使用二分查找即可完成判断,最终大量的查询次数被节省,只有在最后一次迭代,需要使用二分查找计算新的边界对抗样本,以便下一轮线性查找的更新,本方案详细的更新过程如附图5 所示。
本方案在MNIST、CIFAR-10及ImageNet三个数据集上进行了大量的实验。 l2范数下的攻击结果如下表所示,我们从下表中可以看出,在同样的最大查询次数和失真阈值(∈)的条件下,相比于其他方法,本发明能达到更高的攻击成功率以及更小的l2范数失真,具体来说,对于攻击成功率指标,本发明在基准方法(Sign-OPT+)上最高提高了15.38%。对于l2范数失真,在所有的数据集上,和其他方法相比,本发明都能取得更小的失真,为了进一步验证本发明的有效性,本方案在不同查询次数条件下也进行了实验,结果如附图6、附图7所示,对于攻击成功率和失真指标,和基准方法相比(Sign-OPT+),本方案依然稳定地表现良好,当失真被控制为较小值时,人眼已几乎无法分辨对抗样本;且与基准方法相比,本方案节省了大约15%的查询次数。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种改进的符号优化对抗攻击方法,其特征在于,包括以下步骤:
S1:初始化搜索方向;
S2:估计目标函数梯度;
S3:更新搜索方向。
3.根据权利要求1所述的一种改进的符号优化对抗攻击方法,其特征在于:所述S1中通过二分查找法计算出沿各个对抗扰动方向的边界对抗样本。
4.根据权利要求1所述的一种改进的符号优化对抗攻击方法,其特征在于:所述S3中使用回溯线性查找方法找到最佳的搜索方向,在符号优化攻击的线性查找过程中,每一次迭代都会使用二分查找方法计算出沿每个搜索方向的边界对抗样本。
5.根据权利要求1所述的一种改进的符号优化对抗攻击方法,其特征在于:所述S3中使用一个单次查询判断候选样本是落在决策边界还是落在决策边界内来判断当前搜索方向是否正确;若不正确,不使用二分查找方法计算沿这个错误方向的边界对抗样本,节省了查询次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200033.5A CN114579777A (zh) | 2022-03-01 | 2022-03-01 | 一种改进的符号优化对抗攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210200033.5A CN114579777A (zh) | 2022-03-01 | 2022-03-01 | 一种改进的符号优化对抗攻击方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579777A true CN114579777A (zh) | 2022-06-03 |
Family
ID=81776203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210200033.5A Pending CN114579777A (zh) | 2022-03-01 | 2022-03-01 | 一种改进的符号优化对抗攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579777A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520933A (zh) * | 2023-12-29 | 2024-02-06 | 长春师范大学 | 基于机器学习的环境监测方法及系统 |
-
2022
- 2022-03-01 CN CN202210200033.5A patent/CN114579777A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520933A (zh) * | 2023-12-29 | 2024-02-06 | 长春师范大学 | 基于机器学习的环境监测方法及系统 |
CN117520933B (zh) * | 2023-12-29 | 2024-03-19 | 长春师范大学 | 基于机器学习的环境监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948658B (zh) | 面向特征图注意力机制的对抗攻击防御方法及应用 | |
CN110941794A (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
CN111754519B (zh) | 一种基于类激活映射的对抗防御方法 | |
CN112396129A (zh) | 一种对抗样本检测方法及通用对抗攻击防御系统 | |
CN112597993B (zh) | 基于补丁检测的对抗防御模型训练方法 | |
CN111047006B (zh) | 一种基于对偶式生成网络的对抗攻击防御模型及应用 | |
CN113704758B (zh) | 一种黑盒攻击对抗样本生成方法及系统 | |
CN113283599B (zh) | 基于神经元激活率的对抗攻击防御方法 | |
CN111967006A (zh) | 基于神经网络模型的自适应黑盒对抗攻击方法 | |
CN112329832A (zh) | 一种基于深度卷积生成对抗网络的无源定位目标轨迹数据增强方法及系统 | |
CN113255816A (zh) | 定向攻击对抗补丁生成方法及装置 | |
CN113435264A (zh) | 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置 | |
CN112528675A (zh) | 一种基于局部扰动的对抗样本防御算法 | |
CN114579777A (zh) | 一种改进的符号优化对抗攻击方法 | |
CN115048983A (zh) | 数据流形拓扑感知的人工智能系统对抗样本防御方法 | |
CN117978595A (zh) | 自动调制分类方法及装置、设备、计算机可读存储介质 | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 | |
CN113379001B (zh) | 针对图像识别模型的处理方法及装置 | |
CN114580527A (zh) | 一种基于拉丁超立方体抽样估计梯度的边界对抗攻击方法 | |
US20240193931A1 (en) | Method and apparatus for generating adversarial patch | |
CN113052167B (zh) | 一种基于对抗补丁的栅格地图数据保护方法 | |
CN115270891A (zh) | 一种信号对抗样本的生成方法、装置、设备及存储介质 | |
CN114359653A (zh) | 基于强化型通用补丁的对抗攻击方法、防御方法及装置 | |
CN113486736A (zh) | 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法 | |
CN112989359A (zh) | 针对基于三元组损失的行人重识别模型的后门攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |