CN113837253B - 一种单步对抗训练方法、系统、设备、存储介质及产品 - Google Patents
一种单步对抗训练方法、系统、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN113837253B CN113837253B CN202111080178.8A CN202111080178A CN113837253B CN 113837253 B CN113837253 B CN 113837253B CN 202111080178 A CN202111080178 A CN 202111080178A CN 113837253 B CN113837253 B CN 113837253B
- Authority
- CN
- China
- Prior art keywords
- sample
- training
- countermeasure
- clean
- fgsm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 33
- 238000005520 cutting process Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 15
- 210000002569 neuron Anatomy 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000007123 defense Effects 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004904 shortening Methods 0.000 abstract description 3
- 230000008485 antagonism Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种单步对抗训练方法、系统、设备、存储介质及产品,其方法包括对干净样本和对应的标签进行FGSM对抗攻击;同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;对干净样本和裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。解决了现有对抗训练方法鲁棒性差或者用时过长的问题。本申请具有改善对抗训练方法的鲁棒性能和缩短训练时长的效果。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其是涉及一种单步对抗训练方法、系统、设备、存储介质及产品。
背景技术
近些年,人工智能技术飞速发展,在许多领域给人们的生活带来了巨大的便利,其井喷式发展的背后离不开深度学习理论和技术的突破。然而,深度学习技术常常因脆弱性和不可解释性被人诟病。例如,在计算机视觉领域中,仅需要向原图像上添加一些微小的、人眼难以察觉的扰动,就可以使得神经网络的分类出错,这种技术被称为对抗攻击技术。现在,许多计算机视觉领域的“安全重要场景”,例如自动驾驶、人脸识别等等,面临着这种对抗攻击以及模型不可解释性的威胁和挑战。
因此,提高神经网络的鲁棒性以及防御对抗攻击的方法应运而生。其中,对抗训练是一种主流的对抗防御方法,其主要思想是通过在训练模型的同时,主动生成一些对抗样本,并用主动生成的对抗样本作为训练集的扩充来对模型进行进一步的训练,以提高模型对对抗攻击的防御能力。
现有的对抗训练方法主要分为单步对抗训练和多步对抗训练。但是,单步对抗训练生成的模型对于多步迭代攻击的防御效果非常差,多步对抗训练虽改善了单步对抗训练的防御性能,但训练过程用时过长。
针对上述中的相关技术,发明人认为存在有现有的对抗训练方法鲁棒性差或者用时过长的缺陷。
发明内容
为了改善对抗训练方法的鲁棒性能和缩短训练时长,本申请提供了一种单步对抗训练方法。
第一方面,本申请提供一种单步对抗训练方法,具有改善对抗训练方法的鲁棒性能和缩短训练时长的特点。
本申请是通过以下技术方案得以实现的:
一种单步对抗训练方法,包括以下步骤:
对干净样本和对应的标签进行FGSM对抗攻击待生成的FGSM对抗样本;
同时,基于上限值,对待生成的FGSM对抗样本待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
对干净样本和所述裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。
本申请在一较佳示例中可以进一步配置为:所述对干净样本和对应的标签进行FGSM对抗攻击待生成的FGSM对抗样本的步骤包括:
通过FGSM对抗攻击算法,建立干净样本和对应的标签的损失函数;
求解所述损失函数关于所述干净样本的梯度;
基于符号函数得到求解的所述梯度的方向;
使所述梯度的方向乘以预设的步长,并将计算结果作为扰动值;
使所述扰动值与所述干净样本相加,并将计算结果作为扰动样本。
本申请在一较佳示例中可以进一步配置为:所述预设的步长使得所述扰动值在L1范数的限制之内。
本申请在一较佳示例中可以进一步配置为:基于上限值,对待生成的FGSM对抗样本待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本的步骤包括:
基于所有训练数据完成一次前向计算及反向传播的过程和步长之间的关系,建立裁剪公式;
根据所述裁剪公式,获得上限值,以指导裁剪。
本申请在一较佳示例中可以进一步配置为:基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本的步骤还包括:
设置所述裁剪公式的下限值,基于所述下限值,对待生成的FGSM对抗样本的步长进行裁剪。
本申请在一较佳示例中可以进一步配置为:对干净样本和所述裁剪样本进行对抗训练的步骤包括:
基于交叉熵函数计算所述裁剪样本的损失,获得第二损失值;
结合第一损失值和所述第二损失值,利用反向传播算法逐个计算神经网络中各个神经元的梯度,并用总体梯度来对神经网络中各个神经元的参数进行更新,优化神经网络。
通过采用上述技术方案,对干净样本和对应的标签进行FGSM(Fast GradientSign Method,快速梯度下降法)对抗攻击,以对干净样本进行扰动后再训练,有利于改善分类模型对易分类出错的对抗样本的识别准确率;同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,以减轻训练模型时过拟合的影响,避免灾难性过拟合现象的发生;对裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程,以实现单个epoch下的对抗训练过程;重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击;进而一种单步对抗训练方法通过简单有效的方式解决了现有单步对抗训练的严重过拟合问题,提高了鲁棒性,提高单步对抗训练对于其他类别攻击的防御能力,从而提高了安全重要场景下神经网络模型的安全性,减小其可能给社会带来的危害和损失;同时,一种单步对抗训练方法比现有的多步对抗训练方式的速度更快,在计算资源有限的前提下,采用本申请可以加速训练过程,大大减少了用更大的数据集来训练模型导致的计算开销,从而可以通过使用大数据集的方式来获得更好、更鲁棒的模型,改善了对抗训练方法的鲁棒性能和缩短了训练时长。
进一步地,人工设置步长的大小以控制添加的扰动的大小,使得扰动的大小在L1范数的限制之内,以保证对抗样本能够不被人眼察觉,有利于进一步改善分类模型对易分类出错的对抗样本的识别准确率。
进一步地,裁剪公式反映了所有训练数据完成一次前向计算及反向传播的过程和步长之间的关系,以指导样本步长的裁剪,使得样本的步长在训练过程中逐渐变大,进而逐渐增加样本的对抗性和分类器学习的难度。
进一步地,下限值限制了步长裁剪的下限,以保证样本在训练过程中的有效对抗性,增加分类器学习的难度,进而训练模型的防御性能更好。
第二方面,本申请提供一种单步对抗训练系统,具有改善对抗训练方法的鲁棒性能和缩短训练时长的特点。
本申请是通过以下技术方案得以实现的:
一种单步对抗训练系统,包括:
待生成的FGSM对抗样本生成模块,用于使干净样本和对应的标签进行FGSM对抗攻击待生成的FGSM对抗样本;
步长裁剪模块,用于基于上限值,对待生成的FGSM对抗样本待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
对抗训练模块,用于对干净样本和所述裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
防御模块,用于重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。
第三方面,本申请提供一种计算机设备,具有改善对抗训练方法的鲁棒性能和缩短训练时长的特点。
本申请是通过以下技术方案得以实现的:
一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,具有改善对抗训练方法的鲁棒性能和缩短训练时长的特点。
本申请是通过以下技术方案得以实现的:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
第五方面,本申请提供一种计算机程序产品,具有改善对抗训练方法的鲁棒性能和缩短训练时长的特点。
本申请是通过以下技术方案得以实现的:
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1、一种单步对抗训练方法通过简单有效的方式提高了单步对抗训练对于其他类别攻击的防御能力,从而提高了安全重要场景下神经网络模型的安全性,减小其可能给社会带来的危害和损失;同时,在计算资源有限的前提下可以加速训练过程,大大减少了用更大的数据集来训练模型导致的计算开销,从而可以通过使用大数据集的方式来获得更好、更鲁棒的模型,改善了对抗训练方法的鲁棒性能和缩短了训练时长;
2、使对抗样本能够不被人眼察觉,有利于进一步改善分类模型对易分类出错的对抗样本的识别准确率;
3、基于裁剪公式指导样本步长的裁剪,使得样本的步长在训练过程中逐渐变大,同时,保证样本在训练过程中的有效对抗性,进而逐渐增加样本的对抗性和分类器学习的难度。
附图说明
图1是本申请其中一实施例一种单步对抗训练方法的整体流程图。
图2是对干净样本和对应的标签进行攻击的步骤流程图。
图3是对待生成的FGSM对抗样本的步长进行裁剪的步骤流程图。
图4是对干净样本和裁剪样本进行对抗训练的步骤流程图。
图5是基于单步对抗训练方法的神经网络的训练示意图。
图6是基于单步对抗训练方法的神经网络的防御示意图。
图7是本申请其中一实施例一种单步对抗训练系统的结构框图。
具体实施方式
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
现有的对抗训练方法中,单步对抗训练是指使用单步对抗攻击方法,例如FGSM攻击,生成训练用的对抗样本;多步对抗训练则是对单步对抗训练的改进方法,其训练出的模型拥有更高的鲁棒性,且对多种不同的攻击方法都有一定的防御效果。
单步对抗训练通常对于训练时使用的攻击方法的防御效果较好,然而经过长期研究发现,单步对抗训练生成的模型对于多步迭代攻击的防御效果非常差,因单步对抗训练过程中,如FGSM对抗训练,模型会对单步攻击对抗样本产生严重的过拟合现象,导致模型决策边界曲面不平滑甚至失真,即在相同的攻击方向上,对大步长的对抗样本防御成功,对小步长的对抗样本容易防御失败,进而易被多步迭代攻击方法攻击。因此,FGSM-对抗训练分类模型对于多步迭代攻击、基于优化的对抗攻击等攻击性更强的攻击方法的防御性能普遍较差。
多步对抗训练的缺点则在于其训练过程用时过长,实验表明,在Cifar10数据集上,对抗训练比普通训练慢了40倍。在实际应用中,如果在更大的数据集,例如ImageNet上,使用多步对抗训练往往需要难以承受的巨大时间开销。多步对抗训练速度如此慢的主要原因是其生成训练用的对抗样本耗时过长,每个样本每次训练都要进行迭代攻击。
且现有的对抗训练的任务是将对抗样本的原类别正确识别出来,其更注重于抗干扰,并没有分辨样本是否为对抗样本,容易因对抗样本的微小的、人眼难以察觉的扰动,使得神经网络的分类出错。
因此,针对现有对抗训练技术的缺点,本申请提出一种单步对抗训练方法,通过简单有效的方法解决单步对抗训练的过拟合问题和鲁棒性差问题,并因其使用单步生成对抗样本的方式,与多步对抗训练方法相比,其时间开销大大降低。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请基于一个图像分类任务,旨在使训练出的分类模型能够在正确分类干净样本的同时,对于带有人眼难以察觉的扰动、普通分类模型会分类出错的对抗样本,也能够正确分类出对应的类别。
参照图1,本申请实施例提供一种单步对抗训练方法,所述方法的主要步骤描述如下。
S1:对干净样本和对应的标签进行FGSM对抗攻击;
S2:同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
S3:对干净样本和裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
S4: 重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。
参照图2,其中,S1:对干净样本和对应的标签进行FGSM对抗攻击的步骤包括:
S11:建立干净样本和对应的标签的损失函数;
S12:求解损失函数关于干净样本的梯度;
S13:基于符号函数得到求解的梯度的方向;
S14:使梯度的方向乘以预设的步长,并将计算结果作为扰动值;
S15:使扰动值与干净样本相加,获得扰动的样本。
具体地,FGSM是一种单步白盒的攻击方法,该攻击方法先计算神经网络对于图像的梯度,然后采用符号函数得到梯度方向,再在具体的梯度方向上乘上一个步长,以得到具体的扰动,最后将该扰动添加到原来的干净样本上,得到扰动的样本。
FGSM攻击方法通过人工设置步长的大小来控制添加的扰动的大小,以保证对抗样本能够不被人眼察觉。
假设有干净样本训练集x,其数据集中对应的标签为y,在数据集中每个干净样本会对应给出标签,则本申请的任务可概括为训练一个模型使得f(x) = y,当对样本添加对抗扰动生成对抗样本x’时,该模型应尽可能使得f(x’) = y,则FGSM的攻击表达式设计如下:
;
其中,用J代表损失函数,▽表示对于损失函数求关于x的梯度,sign表示符号函数,ε表示攻击步长,x’表示经过FGSM对抗攻击生成的扰动的样本,该扰动的样本可用于神经网络对抗训练。
本实施例中,损失函数J选用交叉熵函数。
本实施例中,预设的步长使得扰动值在L1范数的限制之内,以使得扰动的样本能够不被人眼察觉。L1范数指的是向量中各个元素绝对值之和,L1范数是L0范数的最优凸近似,L0范数是指向量中非0的元素的个数,L1范数比L0范数要容易优化求解。故采用L1范数实现稀疏,且具有更好的优化求解特性。
通过对普通的FGSM对抗训练进行了详细的实验观察。研究发现,在步长为0.03、训练105个epoch的设置下,并在相同的攻击方向上取不同的步长进行loss(损失)检测,观察到在训练的初始阶段中,模型较好的学习到了知识;但在50个epoch过后,大步长的对抗样本找到的loss反而比小步长的要小,即违背了攻击步长越大,攻击性越强的基础认识,意味着模型的训练出现了灾难性的过拟合现象。
为减轻过拟合的影响和避免灾难性过拟合现象的发生,本申请根据训练过程的epoch对待生成的FGSM对抗样本的步长进行裁剪。
参照图3,进一步地,S2:同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本的步骤包括:
S21:基于所有训练数据完成一次前向计算及反向传播的过程和步长之间的关系,建立裁剪公式;
S22:根据裁剪公式,获得上限值;
S23:设置裁剪公式的下限值;
S24:基于上限值和下限值,对待生成的FGSM对抗样本的步长进行裁剪。
其中,所有训练数据完成一次前向计算及反向传播的过程称之为一个epoch,裁剪公式了epoch与步长之间的关系,以指导待生成的FGSM对抗样本步长的裁剪,使得待生成的FGSM对抗样本的步长逐渐变大,进而逐渐增加样本的对抗性和分类器学习的难度。
训练初始阶段,裁剪力度较大,并随训练进程的深入而不断减小;当训练到第n个epoch时,停止裁剪待生成的FGSM对抗样本的步长。n可以根据训练情况和经验进行人工调整。本实施例中, 通过以往的训练情况,n设置为75。
进一步地,通过设置裁剪公式的下限值,具体可根据实际经验给出,设置裁剪的下限,以保证裁剪样本可以在训练过程中提供有效的对抗性,即训练样本包含一定的对抗性,避免对抗训练裁剪后退化为普通训练。
具体的裁剪公式设计如下:
其中,n表示停止裁剪的epoch,e表示当前的epoch,ε表示初始攻击时的步长,α指超参,用于调整裁剪的下限。
在训练过程中,根据裁剪公式计算出裁剪后的步长ε’,然后在FGSM计算出的梯度方向上用新步长ε’进行扰动训练。
参照图4,进一步地,S3:对干净样本和裁剪样本进行对抗训练的步骤包括:
S31:基于交叉熵函数计算裁剪样本的损失,获得第二损失值;
S32:结合第一损失值和第二损失值,利用反向传播算法逐个计算神经网络中各个神经元的梯度,并用总体梯度来对神经网络中各个神经元的参数进行更新,优化神经网络。
其中,交叉熵函数(Cross Entropy Loss)可以用来度量两个概率分布间的差异性信息,用交叉熵作为损失函数时,损失越大,代表差异越大,即预测结果更偏向于错误。
具体地,从训练集中不断取出原始的干净样本(即没有添加过扰动的样本)和对应的标签,常用的训练集如Cifar-10、Cifar-100、ImageNet等,经扰动和裁剪后,生成裁剪样本和其正确标签。
将干净样本前向传播,使用交叉熵函数计算干净样本的损失,获取第一损失值,并利用神经网络的反向传播算法逐个计算每个神经元的梯度。
将裁剪样本前向传播,使用交叉熵函数计算裁剪样本的损失,获得第二损失值,并利用神经网络的反向传播算法计算逐个每个神经元的梯度。
将两次损失回传计算的神经网络的梯度之和作为总体梯度,更新神经网络中各个神经元的权值,使训练的神经网络的准确率和鲁棒性得以提升。
依次重复上述步骤,直至训练完成指定的epoch数,即完成全部的对抗训练,以获得有分类能力且更鲁棒的神经网络。
参照图5,通过选取干净样本,生成相应的FGSM对抗样本,之后将这些干净样本和对抗样本输入神经网络,结合损失函数计算损失,利用神经网络的反向传播算法逐个计算每个神经元的梯度,并将两次损失回传计算的神经网络的梯度之和作为总体梯度,更新神经网络中各个神经元的权值,最终得到一个鲁棒性更好的分类模型,获得分类结果和标签。
参照图6,本实施例改进的单步对抗训练后的神经网络,对于未知对抗样本的防御,防御成功率高于未改进的神经网络模型。
本实施例选用常用神经网络模型Resnet-20和常用数据集Cifar-10进行实验,比较PGD(Project Gradient Descent)、FGSM(Fast Gradient Sign Method)、CW三种常用图像对抗攻击方法中,本申请改进的单步对抗训练和普通单步对抗训练的分类准确率,得到的实验数据如下表所示:
故实验数据表明:改进FGSM对抗训练在干净样本、PGD、FGSM、CW中的分类准确率高于普通FGSM对抗训练在干净样本、PGD、FGSM、CW中的分类准确率,干净样本的分类准确率及其他多种攻击下的准确率都有了显著提升,很好地提高了神经网络模型的鲁棒性。
进而一种单步对抗训练方法根据训练进程来裁剪单步对抗攻击的步长,以调节对抗样本的生成,缓解单步对抗训练中的过拟合问题,从而以较快的速度训练出更鲁棒的分类模型,通过简单有效的方式提高了单步对抗训练对于其他类别攻击的防御能力,从而提高了安全重要场景下神经网络模型的安全性,减小其可能给社会带来的危害和损失;同时,在计算资源有限的前提下可以加速训练过程,大大减少了用更大的数据集来训练模型导致的计算开销,从而可以通过使用大数据集的方式来获得更好、更鲁棒的模型,改善了对抗训练方法的鲁棒性能和缩短了训练时长。
相比现有的基于多步迭代攻击的对抗训练方法,本申请在对抗样本生成环节节省了大量的时间开销,使得使用大规模数据集进行对抗训练在现实中更容易实现。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
参照图7,本申请实施例还提供一种单步对抗训练系统,该一种单步对抗训练系统与上述实施例中一种单步对抗训练方法一一对应。该一种单步对抗训练系统包括:
预处理样本生成模块,用于使干净样本和对应的标签进行FGSM对抗攻击;
步长裁剪模块,用于基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
对抗训练模块,用于对干净样本和裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
防御模块,用于重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。
关于一种单步对抗训练系统的具体限定可以参见上文中对于一种单步对抗训练方法的限定,在此不再赘述。上述一种单步对抗训练系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种单步对抗训练方法。
在一个实施例中,提供了一种计算机可读存储介质,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
S1:使干净样本和对应的标签进行FGSM对抗攻击;
S2:同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
S3:对干净样本和裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
S4: 重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
Claims (4)
1.一种单步对抗训练方法,其特征在于,包括以下步骤:
对干净样本和对应的标签进行FGSM对抗攻击待生成的FGSM对抗样本,所述干净样本包括自动驾驶原图像或人脸识别原图像;
同时,基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
对干净样本和所述裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击,所述模型用于待识别样本的类别分类;所述对干净样本和对应的标签进行FGSM对抗攻击待生成的FGSM对抗样本的步骤包括:
建立干净样本和对应的标签的损失函数;
求解所述损失函数关于所述干净样本的梯度;
基于符号函数得到求解的所述梯度的方向;
使所述梯度的方向乘以预设的步长,并将计算结果作为扰动值,所述步长使得所述扰动值在L1范数的限制之内;
使所述扰动值与所述干净样本相加,获得扰动的样本;
FGSM的攻击表达式设计如下:
;
其中,x代表干净样本训练集,y代表干净样本训练集中对应的标签,用J代表损失函数,所述损失函数选用交叉熵函数;▽表示对于损失函数求关于x的梯度,sign表示符号函数,ε表示攻击步长,x’表示经过FGSM对抗攻击生成的扰动的样本,该扰动的样本可用于神经网络对抗训练;
基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本的步骤包括:
基于所有训练数据完成一次前向计算及反向传播的过程和步长之间的关系,建立裁剪公式;
根据裁剪公式,获得上限值;
设置裁剪公式的下限值;
基于上限值和下限值,对待生成的FGSM对抗样本的步长进行裁剪;
对所述干净样本和所述裁剪样本进行对抗训练的步骤包括:
将干净样本前向传播,使用交叉熵函数计算干净样本的损失,获得第一损失值,并利用神经网络的反向传播算法逐个计算每个神经元的梯度;
将裁剪样本前向传播,使用交叉熵函数计算裁剪样本的损失,获得第二损失值,并利用神经网络的反向传播算法计算逐个每个神经元的梯度;
结合所述第一损失值和所述第二损失值,利用反向传播算法逐个计算神经网络中各个神经元的梯度,并用总体梯度来对神经网络中各个神经元的参数进行更新,优化神经网络。
2.一种单步对抗训练系统,应用于权利要求1所述的单步对抗训练方法,其特征在于,包括:
预处理样本生成模块,用于使干净样本和对应的标签进行FGSM对抗攻击,包括建立干净样本和对应的标签的损失函数;求解所述损失函数关于所述干净样本的梯度;基于符号函数得到求解的所述梯度的方向;使所述梯度的方向乘以预设的步长,并将计算结果作为扰动值;使所述扰动值与所述干净样本相加,获得扰动的样本,所述干净样本包括自动驾驶原图像或人脸识别原图像;
步长裁剪模块,用于基于上限值,对待生成的FGSM对抗样本的步长进行裁剪,获取裁剪样本;
对抗训练模块,用于对干净样本和所述裁剪样本进行对抗训练,直至所有训练数据完成一次前向计算及反向传播的过程;
防御模块,用于重复获取干净样本和裁剪样本,并对干净样本和裁剪样本进行对抗训练,直至完成全部的对抗训练,获得模型以防御攻击,所述模型用于待识别样本的类别分类。
3.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1所述方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080178.8A CN113837253B (zh) | 2021-09-15 | 2021-09-15 | 一种单步对抗训练方法、系统、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080178.8A CN113837253B (zh) | 2021-09-15 | 2021-09-15 | 一种单步对抗训练方法、系统、设备、存储介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837253A CN113837253A (zh) | 2021-12-24 |
CN113837253B true CN113837253B (zh) | 2024-01-19 |
Family
ID=78959447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080178.8A Active CN113837253B (zh) | 2021-09-15 | 2021-09-15 | 一种单步对抗训练方法、系统、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837253B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757349B (zh) * | 2022-04-01 | 2023-09-19 | 中国工程物理研究院计算机应用研究所 | 一种基于条件对抗样本的模型投毒方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948663A (zh) * | 2019-02-27 | 2019-06-28 | 天津大学 | 一种基于模型抽取的步长自适应的对抗攻击方法 |
CN110334808A (zh) * | 2019-06-12 | 2019-10-15 | 武汉大学 | 一种基于对抗样本训练的对抗攻击防御方法 |
CN111047054A (zh) * | 2019-12-13 | 2020-04-21 | 浙江科技学院 | 一种基于两阶段对抗知识迁移的对抗样例防御方法 |
CN113240080A (zh) * | 2021-05-06 | 2021-08-10 | 鹏城实验室 | 基于先验类别增强的对抗训练方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562244B2 (en) * | 2018-02-07 | 2023-01-24 | Royal Bank Of Canada | Robust pruned neural networks via adversarial training |
US11568261B2 (en) * | 2018-10-26 | 2023-01-31 | Royal Bank Of Canada | System and method for max-margin adversarial training |
-
2021
- 2021-09-15 CN CN202111080178.8A patent/CN113837253B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948663A (zh) * | 2019-02-27 | 2019-06-28 | 天津大学 | 一种基于模型抽取的步长自适应的对抗攻击方法 |
CN110334808A (zh) * | 2019-06-12 | 2019-10-15 | 武汉大学 | 一种基于对抗样本训练的对抗攻击防御方法 |
CN111047054A (zh) * | 2019-12-13 | 2020-04-21 | 浙江科技学院 | 一种基于两阶段对抗知识迁移的对抗样例防御方法 |
CN113240080A (zh) * | 2021-05-06 | 2021-08-10 | 鹏城实验室 | 基于先验类别增强的对抗训练方法 |
Non-Patent Citations (1)
Title |
---|
信息安全领域中鲁棒的深度学习及其应用研究;王赛男;;智能计算机与应用(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837253A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Parametric noise injection: Trainable randomness to improve deep neural network robustness against adversarial attack | |
Mancini et al. | Open world compositional zero-shot learning | |
Ozdag | Adversarial attacks and defenses against deep neural networks: a survey | |
Warde-Farley et al. | 11 adversarial perturbations of deep neural networks | |
Chang et al. | Provable benefits of overparameterization in model compression: From double descent to pruning neural networks | |
CN112364915B (zh) | 一种不可察觉的对抗补丁生成方法及应用 | |
CN113269241B (zh) | 一种遥感图像对抗样本的软阈值防御方法 | |
CN111047054A (zh) | 一种基于两阶段对抗知识迁移的对抗样例防御方法 | |
WO2023019456A1 (en) | Method and apparatus for evaluation of adversarial robustness | |
CN114241569A (zh) | 人脸识别攻击样本的生成方法、模型训练方法及相关设备 | |
CN113837253B (zh) | 一种单步对抗训练方法、系统、设备、存储介质及产品 | |
CN112085050A (zh) | 基于pid控制器的对抗性攻击与防御方法及系统 | |
CN114387449A (zh) | 一种应对神经网络对抗性攻击的图像处理方法及系统 | |
CN113935396A (zh) | 基于流形理论的对抗样本攻击方法及相关装置 | |
CN113240080A (zh) | 基于先验类别增强的对抗训练方法 | |
CN111950635A (zh) | 一种基于分层特征对齐的鲁棒特征学习方法 | |
Yin et al. | Adversarial attack, defense, and applications with deep learning frameworks | |
CN115495578A (zh) | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 | |
WO2022222087A1 (en) | Method and apparatus for generating adversarial patch | |
CN115063652A (zh) | 一种基于元学习的黑盒攻击方法、终端设备及存储介质 | |
Zhou et al. | Latent adversarial defence with boundary-guided generation | |
US20210334519A1 (en) | Information processing apparatus, method, and non-transitory storage medium | |
CN113052314B (zh) | 一种认证半径引导攻击方法、优化训练方法及系统 | |
CN116612345A (zh) | 一种基于元学习对抗特征的对抗训练方法及系统 | |
Hong et al. | Certifiable black-box attack: Ensuring provably successful attack for adversarial examples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |