CN113033822A

CN113033822A - 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统

Info

Publication number: CN113033822A
Application number: CN202110340500.XA
Authority: CN
Inventors: 黄方军; 万晨
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-25

Abstract

本发明为基于预测校正和随机步长优化的对抗性攻击与防御方法及系统，其方法包括步骤：输入训练数据集和机器学习模型；根据输入的训练数据集训练机器学习模型；判断损失函数是否收敛；若损失函数不收敛则采用基于预测校正和随机步长优化的对抗攻击生成对抗样本，并和原始数据作为训练数据集对机器学习模型进行训练，直至损失函数收敛，得到训练好的机器学习模型；若损失函数收敛，则直接输出结果。本发明通过对抗攻击生成对抗样本，能够在相同扰动约束限制下实现更高的攻击成功率，可用于评估机器学习模型的性能以及对抗防御方法的有效性；所产生的对抗样本对机器学习模型实施对抗训练能有效地抵御各种对抗性攻击，提升模型的鲁棒性。

Description

基于预测校正和随机步长优化的对抗性攻击与防御方法及系统

技术领域

本发明涉及人工智能机器学习领域，具体为基于预测校正和随机步长优化的对抗性攻击与防御方法及系统。

背景技术

随着深度学习在数据挖掘、计算机视觉、自然语言处理和无人驾驶等诸多领域都取得了显著的成果，深度神经网络的鲁棒性和稳定性越来越受到人们的关注。然而，最近的研究已经证实，几乎所有的机器学习模型存在着易受对抗样本攻击的安全隐患。攻击者通过在原始输入样本中添加一些微小的扰动可以得到对抗样本，添加扰动后的对抗样本与原始样本在人类观察者看来具有相同的类别或属性，但会误导神经网络模型产生错误的预测输出，这给深度神经网络的实际应用带来了严重的安全问题。

基于梯度的对抗攻击算法具有较低的计算成本和较好的性能，是目前最流行的对抗攻击方法之一。基于梯度的对抗攻击是通过计算损失函数对输入样本的梯度来确定所添加的扰动，其中损失函数通常是由深度神经网络模型对输入样本的预测标签与真实标签确定的。对抗攻击的目标是在原始样本中添加扰动，使得添加扰动后得到的对抗样本的预测标签不等于真实标签，其核心是最大化模型对于输入样本的预测标签与真实标签之间的损失函数的值。对抗攻击不仅能误导正常训练的机器学习模型，同时也能攻击各种防御模型。而从另一方面来讲，对于对抗攻击研究可以发现机器学习模型存在的缺陷，利用对抗攻击方法生成的对抗样本对深度神经网络模型实施对抗性训练可以作为一种防御方法，能有效地提升模型的鲁棒性，抵御各种各样的对抗攻击。

尽管现有的基于梯度的对抗攻击方法取得了较好的效果，但生成的对抗样本距离最优的对抗样本可能存在一定的误差。这主要是由两个原因造成的，第一个原因是深度神经网络的复杂性和非线性导致添加扰动后，生成对抗样本的损失值并不一定严格地沿着梯度方向变化；第二个原因是每次迭代的步长决定了添加扰动的幅度，但在实践中，无论是固定步长还是自适应步长都不能保证最优扰动幅度，使得生成的对抗样本具有最大的损失值。因此，现有的技术无法准确地评估出机器学习模型的鲁棒性以及对抗防御方法的有效性。

发明内容

本发明提供基于预测校正和随机步长优化的对抗性攻击与防御方法，相较于现有基于梯度的对抗攻击方案，在相同的扰动约束限制下，本发明能实现更高的攻击成功率并降低模型分类的准确率，可以用来评估机器学习模型的性能以及对抗防御方法的有效性。另一方面，使用基于预测校正和随机步长优化的对抗攻击所产生的对抗样本对机器学习模型实施对抗训练可以作为一种防御方法，以提升模型的鲁棒性，抵御各种各样的对抗攻击。

本发明还提供基于预测校正和随机步长优化的对抗性攻击与防御系统。

本发明方法采用以下技术方案来实现：基于预测校正和随机步长优化的对抗性攻击与防御方法，包括以下步骤：

S1、输入训练数据集和机器学习模型f；

S2、根据输入的训练数据集训练机器学习模型f；

S3、判断损失函数J是否收敛，如果损失函数J不收敛，则采用基于预测校正和随机步长优化的对抗性攻击生成对抗样本x^adv，并将所生成的对抗样本和原始数据x组成训练数据集对机器学习模型f进行训练，直至损失函数J收敛，得到训练后的机器学习模型f。

在优选的实施例中，步骤S3中基于预测校正和随机步长优化的对抗性攻击生成对抗样本x^adv的具体步骤如下：

S31、输入原始数据x、机器学习模型f和损失函数J；

S32、进行参数初始化；

S33、根据给定的迭代次数T开始循环，初始化初值t＝0；

S34、计算损失函数J对于输入样本x_t的梯度

其中x_t表示在迭代次数为t时的样本；

S35、得到预测样本

S36、计算损失函数J对于预测样本

的梯度

并采用

对

进行校正，确定梯度g_t；

S37、分别采用固定步长a和随机步长b作为添加扰动的幅值在样本中添加对抗扰动，生成样本

和

S38、比较样本

和

的损失函数的值，将较大损失值所对应的样本作为每次迭代所生成的对抗样本

S39、循环T次后结束循环，返回对抗样本x^adv。

本发明系统采用以下技术方案来实现：基于预测校正和随机步长优化的对抗性攻击与防御系统，包括：

数据信息输入模块，用于输入训练数据集和机器学习模型f；

模型训练模块，用于根据输入的训练数据集训练机器学习模型f；

损失函数收敛判断模块，用于判断损失函数J是否收敛，如果损失函数J不收敛，则采用基于预测校正和随机步长优化的对抗性攻击生成对抗样本x^adv，并将所生成的对抗样本和原始数据x组成训练数据集对机器学习模型f进行对抗性训练，直至损失函数J收敛，得到训练好的机器学习模型f；

对抗样本的生成模块，基于预测校正和随机步长优化的对抗攻击生成对抗样本，首先输入原始数据x、机器学习模型f和损失函数J，并初始化参数，根据给定的迭代次数T开始循环；接着计算损失函数J对于输入样本x_t的梯度

得到预测样本

然后通过损失函数J对于预测样本

的梯度

校正所添加的扰动；接下来分别采用固定步长a和随机步长b作为添加扰动的幅值在输入样本x_t中添加对抗扰动，生成样本

和

最后比较样本

和

循环T次后结束循环，返回对抗样本x^adv，其中x_t表示在迭代次数为t时的样本。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用了预测校正来优化扰动，这可以看作是一个预测系统和一个校正系统。首先，现有的对抗攻击方法所产生的对抗样本都可以被看作是预测样本，然后利用损失函数相对于预测样本的梯度对当前扰动进行修正，以确保加入扰动后生成对抗样本的损失函数的值尽可能地沿梯度方向变化。

2、本发明采用了随机步长优化扰动，在生成对抗样本的过程中引入随机步长，并比较固定步长与随机步长得到的样本的损失值，选取损失值较大的样本作为对抗样本。随机步长优化可以确保得到的对抗样本的预测标签与真实标签之间具有较大的损失值。

3、预测校正和随机步长优化的对抗性攻击生成对抗样本可以用来对机器学习模型进行对抗训练，以提升模型的鲁棒性，抵御各种各样的对抗攻击方法，进而为人工智能领域的机器学习方法的安全领域提供更为优质的服务。

4、本发明预测校正和随机步长优化的对抗攻击方法能达到较高的攻击成功率，可以用于使用该方法评估机器学习模型的鲁棒性以及对抗性防御方法的有效性。

附图说明

图1是本发明实施例中对抗攻击与防御方法的整体流程图；

图2是本发明实施例中进行对抗防御的流程图；

图3是本发明实施例中进行对抗攻击的流程图；

图4是本发明实施例中攻击MINST模型产生的对抗样本在不同的重启次数下模型分类的准确率曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于预测校正和随机步长优化策略进行对抗攻击和防御攻击，主要涉及如下技术：1)基于预测校正和随机步长优化的对抗攻击，通过将现有方法生成的对抗样本作为预测样本，然后利用损失函数相对于预测样本的梯度对当前扰动进行修正。同时，在生成对抗样本的过程中引入随机步长，并比较固定步长与随机步长得到的样本的损失值，选取损失值较大的样本作为对抗样本。2)基于预测校正和随机步长优化的防御，采用基于预测校正和随机步长优化的对抗攻击方法生成的对抗样本对机器学习模型进行对抗训练作为一种防御方法，以提升模型的鲁棒性。

如图2所示，本实施例基于预测校正和随机步长优化的对抗性攻击与防御方法，具体步骤如下：

S1、输入训练数据集和机器学习模型f；

S2、根据输入的训练数据集训练机器学习模型f；

S3、判断损失函数J是否收敛，如果损失函数J不收敛，则采用基于预测校正和随机步长优化的对抗性攻击生成对抗样本x^adv，并将所生成的对抗样本和原始数据x组成训练数据集对机器学习模型f进行训练，直至损失函数J收敛，得到训练后的具有较强鲁棒性的机器学习模型f。

如图3所示，以无穷范数的扰动约束下无目标对抗攻击为例，步骤S3中基于预测校正和随机步长优化的对抗性攻击生成对抗样本x^adv的具体步骤如下：

S31、输入原始数据x、机器学习模型f和损失函数J；

S32、进行参数初始化，确定扰动约束范围ε、迭代次数T，对抗样本的初始值

等于原始数据x，每次迭代所添加扰动的固定步长a；

S33、根据给定的迭代次数T开始进行循环，初始化初值t＝0；

S34、将对抗样本

代入作为机器学习模型f的输入信号，计算其预测标签与真实标签y之间的损失函数J所对应的梯度

S35、在对抗样本

中添加方向为

和步长为a的扰动得到预测样本