CN112085050A

CN112085050A - 基于pid控制器的对抗性攻击与防御方法及系统

Info

Publication number: CN112085050A
Application number: CN202010720974.2A
Authority: CN
Inventors: 黄方军; 万晨
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-12-15

Abstract

本发明基于PID控制器的对抗性攻击与防御方法及系统，其方法包括步骤：S1、输入训练数据集和机器学习模型f；S2、根据输入的训练数据集训练机器学习模型f；S3、判断损失函数J是否收敛，若损失函数J不收敛，则采用基于PID控制器的对抗性攻击生成对抗样本x^adv和原始数据x作为训练数据集对机器学习模型f进行训练，直至损失函数J收敛，得到训练好的机器学习模型f，若损失函数J收敛，则直接输出结果。本发明通过对抗攻击生成对抗样本的过程，能够在相同的扰动约束限制下，实现更高的攻击成功率，可用于评估机器学习模型的性能以及对抗防御方法的有效性；使用对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可作为一种防御方法，以提升模型的鲁棒性。

Description

基于PID控制器的对抗性攻击与防御方法及系统

技术领域

本发明涉及人工智能机器学习方法的安全领域，具体为基于PID(ProportionalIntegral Derivative)控制器的对抗性攻击与防御方法及系统。

背景技术

机器学习是人工智能的核心，近年来机器学习得到了前所未有的发展，其应用遍及人工智能的各个领域。尤其在数据挖掘、计算机视觉、自然语言处理和无人驾驶等领域，机器学习的应用取得了巨大的成功。然而，现有的机器学习模型存在着易受对抗样本攻击的安全隐患，攻击者可以通过向原始输入数据中添加细微的扰动，生成对抗样本。附加细微扰动的对抗样本不会影响人类的判断，却会造成机器学习模型产生错误的预测。

在实际应用中，因基于梯度的对抗攻击算法具有较低的计算成本和较好的性能，大多数对抗攻击主要是由损失函数相对于输入数据的梯度所决定的。对抗攻击不仅能误导正常训练的机器学习模型，同时也能攻击各种防御模型。而从另一方面来讲，对于对抗攻击研究可以发现机器学习模型存在的缺陷，从而提升模型的鲁棒性。现有的对抗攻击与防御算法面临四个问题：第一个问题是由于基于梯度的对抗攻击需要知道网络模型的具体结构及参数，而对于黑盒模型的攻击主要依赖于生成对抗样本的迁移性，因而随着攻击者知道模型的结构信息和训练模型的数据源越来越少，攻击成功率也会随之下降；第二个问题是针对防御模型，现有的对抗攻击算法的攻击成功率有限；第三个问题是对于现有的防御方法，在实施对抗性训练的过程中采用对抗样本的迁移性有限，导致防御模型的鲁棒性较低；第四个问题是现有的技术也无法准确地评估出机器学习模型的鲁棒性以及对抗防御方法的有效性。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于PID控制器的对抗性攻击与防御方法及系统，通过对抗攻击生成对抗样本的过程，能够保证在相同的扰动约束限制下，实现更高的攻击成功率，且可用于评估机器学习模型的性能以及对抗防御方法的有效性；使用基于PID控制器的对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可以作为一种防御方法，以提升模型的鲁棒性。

本发明方法采用以下技术方案来实现：基于PID控制器的对抗性攻击与防御方法，包括以下步骤：

S1、输入训练数据集和机器学习模型f；

S2、根据输入的训练数据集训练机器学习模型f；

S3、判断损失函数J是否收敛，如果损失函数J不收敛，则采用基于PID控制器的对抗性攻击生成对抗样本x^adv和原始数据x作为训练数据集对机器学习模型f进行训练，直至损失函数J收敛，得到训练好的机器学习模型f，如果损失函数J收敛，则直接输出结果。

在优选的实施例中，步骤S3中基于PID控制器的对抗性攻击生成对抗样本x^adv的具体步骤如下：

S31、输入原始数据x、机器学习模型f和损失函数J；

S32、进行参数初始化；

S33、根据给定的迭代次数T开始循环；

S34、获取回调数据

S35、进行梯度计算；

S36、对未来梯度的趋势进行更新；

S37、进行扰动确定，确定每次迭代所添加的扰动；

S38、添加扰动；

S39、循环T次后结束循环，返回对抗样本x^adv。

本发明系统采用以下技术方案来实现：基于PID控制器的对抗性攻击与防御系统，包括：

数据信息输入模块，用于输入训练数据集和机器学习模型f；

训练模型模块，用于根据输入的训练数据集训练机器学习模型；

损失函数收敛判断模块，用于判断损失函数是否收敛，如果损失函数不收敛，则采用基于PID控制器的对抗攻击生成对抗样本x^adv和原始数据x作为训练数据集对机器学习模型进行训练，直至损失函数收敛，得到训练好的机器学习模型，如果损失函数收敛，则直接输出结果；

PID对抗攻击生成对抗样本模块，先输入原始数据x、机器学习模型f和损失函数J，初始化参数，根据给定的迭代次数T开始循环，接着获取回调数据、计算梯度、更新未来梯度趋势、确定扰动、添加扰动，循环T次后结束循环，返回对抗样本x^adv。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明采用了未来梯度变化的趋势优化扰动，使对抗性攻击的过程中产生的扰动达到最优，因此不仅能对白盒模型的攻击取得较高的成功率，并且对黑盒模型和防御模型都能实现较高的攻击成功率。

2、本发明使用了未来梯度的变化趋势，可以更好地确保生成的对抗样本具有较强的迁移性，其生成的对抗样本可以用来对机器学习模型进行对抗训练，以提升模型的鲁棒性，进而为人工智能领域的机器学习方法的安全领域提供更为优质的服务。

3、本发明基于PID控制器的对抗性攻击方法能达到较高的攻击成功率，可以用于使用该方法评估机器学习模型的性能以及对抗性防御方法的有效性。

附图说明

图1是本发明对抗攻击与防御方法流程图；

图2是本发明方法进行对抗防御的流程图；

图3是本发明方法进行对抗攻击的流程图；

图4是本发明方法攻击Inc-v3模型产生的对抗样本在不同微分系数k_d情况下的黑盒攻击成功率曲线图；

图5是本发明方法攻击Inc-v3模型产生的对抗样本在不同迭代次数T情况下的黑盒攻击成功率曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于P(比例)、I(积分)和D(微分)控制器进行对抗攻击和防御攻击，主要涉及如下技术：1)基于PID控制器的对抗攻击方法：通过将损失函数相对于输入数据的梯度划分成当前和过去的梯度信息，分别对应于PID控制器中的P控制器和I控制器，对D控制器采用当前和过去的梯度差值来进行计算；2)基于PID控制器的防御方法：采用基于PID控制器的对抗攻击方法生成的对抗样本对机器学习模型进行对抗训练成为一种防御方法，以提升模型的鲁棒性。

如图2所示，本实施例基于PID控制器的对抗性攻击与防御方法，具体步骤如下：

S1、输入训练数据集和机器学习模型f；

S2、根据输入的训练数据集训练机器学习模型f；

具体来说，如图3所示，步骤S3中基于PID控制器的对抗性攻击生成对抗样本x^adv的具体步骤如下：

S31、输入原始数据x、机器学习模型f和损失函数J；

S32、进行参数初始化，确定扰动约束范围ε，迭代次数T，衰减因子μ和微分系数k_d，对抗样本的初始值

等于原始数据x，梯度变化趋势的初始值为0，初始扰动g₀＝0，每次迭代所添加的扰动a＝ε/T；

S33、取初值t＝0并开始进行迭代循环，参数t表示当前迭代次数并且有0≤t≤T-1；

S34、获取回调数据，即根据梯度变化趋势D_t对生成的对抗样本

进行回调，具体方式为：

S35、进行梯度计算，分别将对抗样本

和回调数据

代入机器学习模型f中，并计算其预测标签与真实标签y之间的损失函数J所对应的梯度

和

S36、对未来梯度的趋势进行更新，通过计算出来的梯度

和

更新未来梯度的趋势，未来梯度变化趋势相关公式表示如下：

S37、进行扰动确定，确定每次迭代所添加扰动的方向，具体相关公式表示如下：

其中，g_t为当前扰动。

S38、添加扰动，以无穷范数的扰动约束为例，无目标对抗攻击中每次迭代所生成的对抗样本如下：

其中sign(·)为符号函数，α表示每次迭代过程中添加的扰动，

函数表示生成的对抗样本所添加的扰动限制在ε范围内；

S39、若t小于迭代次数T，则t＝t+1，并转入步骤S34，否则直接输出对抗样本x^adv，其中

即将循环T次后得到的对抗样本

作为最终得到的对抗样本x^adv。

基于相同的发明构思，本发明提出了与上述攻击与防御方法相应的攻击与防御系统，其包括：

数据信息输入模块，用于输入训练数据集和机器学习模型f；

训练模型模块，用于根据输入的训练数据集训练机器学习模型f；

损失函数收敛判断模块，用于判断损失函数J是否收敛，如果损失函数J不收敛，则采用基于PID控制器的对抗性攻击生成对抗样本x^adv和原始数据x作为训练数据集对机器学习模型f进行训练，直至损失函数J收敛，得到训练好的机器学习模型f，如果损失函数J收敛，则直接输出结果。

如图4、5所示，在本实施例中，基于PID控制器的对抗性攻击与防御方法攻击Inc-v3模型产生的对抗样本x^adv在不同微分系数k_d和迭代次数T情况下攻击Inc-v4、Res-152和IncRes-v2模型的成功率的实验结果显示，在不同微分系数k_d下，黑盒攻击成功率的变化情况不同，在k_d＝0.7时，对Inc-v4、Res-152和IncRes-v2模型的攻击成功率最高。随着迭代次数的增加，均有不错的黑盒攻击成功率，并且当迭代次数的增加时，黑盒攻击成功率趋于一种稳定状态，不会发生攻击成功率明显下降的情况。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。