CN110941794A

CN110941794A - 一种基于通用逆扰动防御矩阵的对抗攻击防御方法

Info

Publication number: CN110941794A
Application number: CN201911182144.2A
Authority: CN
Inventors: 陈晋音; 吴长安; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-31
Anticipated expiration: 2039-11-27
Also published as: CN110941794B

Abstract

本发明公开了一种基于通用逆扰动防御矩阵的对抗攻击防御方法，首先，准备对抗样本，利用各类攻击方法获得比较全面的对抗样本；然后开始训练通用逆扰动矩阵，训练策略包括通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略和自集成通用逆扰动防御矩阵生成网络策略，使用三种不同的策略生成通用逆扰动矩阵，以应对不用的用户需求，用户的计算资源越充足，防御等级需求越高，使用的通用逆扰动矩阵生成策略越复杂；最后，观察所产生的通用逆扰动矩阵的性能指标，指标达标后，进行对抗攻击防御的应用。本发明的方法，不需要使用模型的反馈信息，也不会改动模型内部结构，既能对已知的各种攻击进行防御，还能实现对部分未知攻击进行防御。

Description

一种基于通用逆扰动防御矩阵的对抗攻击防御方法

技术领域

本发明属于人工智能中深度学习算法与数据的安全领域，尤其是涉及一种基于通用逆扰动防御矩阵的对抗攻击防御方法。

背景技术

深度学习作为机器学习领域的一个新的研究方向，是目前最热门的学科之一，对于实现机器学习的最初目标—人工智能(AI,Artificial Intelligence)有着历史性的作用。深度学习能够从样本数据中学习到数据的内在规律和表示层次，能够获得比一般算法更准确的分类结果，具有强大的特征表达能力。深度学习技术最早被应用于图像识别方向，并取得了令人瞩目的效果，深度学习技术利用其功能强大的神经网络，进行特征提取，完成对大量数据分布的拟合，从而表现出优秀的图像处理能力。

目前，基于深度学习技术的图像识别已经取得了很多成绩，包括了利用卷积神经网络完成目标物体的检测和识别，使用FaceNet完成对人脸的识别检测，以及利用深度学习的模型实现大量类别物体的分类。尽管深度学习在图像识别以及其他计算机视觉领域的任务上表现出色，但是，szegedy等人第一次发现了深度神经网络在图像分类领域存在一个致命的弱点，那就是深度模型尽管有着很高的正确率，但是很容易受到对抗样本的攻击。这些对抗样本仅有很轻微的扰动，以至于人眼视觉系统根本无法察觉这种扰动，但是却会让神经网络模型对错误类标产生很高置信度的结果。对抗样本的存在威胁着深度学习模型的安全，对此，研究人员展开了一系列的研究。

对于对抗样本的防御，目前存在三个主要的方向：在学习过程中修改训练过程或者修改输入样本；修改网络，比如：添加子网络或者改变损失函数和激活函数；当分类没有见过的样本时，用外部模型作为附加网络。但这些防御的方法，都是在一定程度上，通过深度学习模型的特征提取能力，减弱某一部分对抗扰动的危害性。而在“GenerativeAdversarial Perturbations”一文中，作者提出了通用扰动的概念，具体指对于深度学习模型而言，可能存在着一种通用扰动，导致模型在分类识别中产生偏差，做出错误的分类结果。在面对通用扰动时，传统的防御方法很难有效地抵抗。

发明内容

为了提升各类模型在对各类已知或未知的攻击方法的防御能力，本发明提供了一种基于通用逆扰动防御矩阵的对抗攻击防御方法，该方法包括三种通用逆扰动防御矩阵的生成策略，针对不用的用户需求，生成具有通用性的逆扰动矩阵，实现不同等级的防御效果。

第一种通用逆扰动防御矩阵的生成策略如下：

一种基于通用逆扰动防御矩阵的对抗攻击防御方法，包括：

(1)准备训练集，采用多种攻击方法对训练集进行攻击，生成对抗样本；

(2)使用迭代方法生成通用逆扰动防御矩阵，具体过程为：

(2-1)构造用于样本分类的深度学习网络模型，使用训练集对网络模型进行训练，训练结束后保存模型参数；

(2-2)对步骤(1)中生成的对抗样本与训练集按比例混合后得到数据集x，将数据集x输入到通用逆扰动矩阵X＝(x1，x2,x3...xm)中进行迭代训练；训练通用逆扰动矩阵时，模型的输入为x+X，预测的输出结果为y’，样本的真实标签为y，每次迭代后，更新通用逆扰动矩阵的权重，到达迭代上限后结束，得到通用逆扰动防御矩阵；

(3)应用时，将待分类样本先经过训练好的通用逆扰动防御矩阵后再输入模型，使待分类样本中的对抗样本能够被正确识别，完成对对抗样本的防御。

步骤(1)中，所述的多种攻击方法包括CW攻击、FGSM攻击、Box-constrained L-BFGS攻击、DeepFool攻击、Jacobian-based Saliency Map攻击和Universal AdversarialPerturbations攻击。

步骤(2-1)中，训练网络模型时，使用交叉熵作为损失函数：

其中，y_i是类别i的真实标签，pi是softmax函数计算出来的类别i的概率值；k是类别数，N是样本总数，其状态Softmax的计算公式:

公式中的分子e^zi是要计算的类别i的网络输出的指数，分母

是所有类别网络输出的指数和。

步骤(2-2)中，更新通用逆扰动矩阵的权重w公式为：

其中C是迭代的步长，j(w,x)是对错误分类敏感的准则函数，使权重能够沿着最快的方向更新；设准则函数为：

j(w,x)＝|w^Tx|-w^Tx

当预测输出的标签与样本的真实标签不一致时，w^Tx<0，j为正值，权重更新：

w(k+1)＝w(k)+2C

当预测输出的标签与样本的真实标签一致时，w^Tx>0，j＝0，权重保持不变。

步骤(2-2)中，训练通用逆扰动矩阵时，使用交叉熵函数作为训练的损失函数，使用Adam优化器进行优化，该交叉熵损失函数公式：

loss＝-[ylogy’+(1-y)log(1-y’)]

其中，y’为预测的输出结果为，y为样本的真实标签。

第二种通用逆扰动防御矩阵的生成策略如下：

一种基于通用逆扰动防御矩阵的对抗攻击防御方法，包括：

(1’)准备训练数据集，采用多种攻击方法对训练数据集进行攻击，生成对抗样本；

(2’)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵，具体过程为：

(2-1’)构建通用逆扰动防御矩阵生成网络，其包括解码器和编码器，生成网络的输入为高维噪声和样本，样本包括良性样本和步骤(1’)中的对抗样本，输出为通用逆扰动防御矩阵；

(2-2’)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络；其中，编码器对输入的样本进行映射，得到编码后的向量，解码器对编码的向量进行映射，得到重构后的向量，编码器和解码器同时训练，训练的目标是最小化重构误差；

(2-3’)训练完以后，利用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵；

(3’)应用时，将待分类样本先经过得到的通用逆扰动防御矩阵后再输入模型，使待分类样本中的对抗样本能够被正确识别，完成对对抗样本的防御。

步骤(2-2’)中，编码器的映射是将输入样本x映射成低维的向量y，降维执行以下变换：

y＝W(x-m)

其中，W是投影矩阵，从样本集中获取，m是样本集的均值向量；

编码器的映射是将降维后的向量y重构出原始的向量x的过程，通过重构算法实现：

x＝W^Ty+m

解码器映射函数为h，解码器的映射函数为g，训练时优化的目标函数为：

其中，l为训练样本数，θ和θ'分别是编码器和解码器的内部参数。

第三种通用逆扰动防御矩阵的生成策略如下：

一种基于通用逆扰动防御矩阵的对抗攻击防御方法，包括：

(1”)准备训练数据集，采用多种攻击方法对训练数据集进行攻击，生成对抗样本；

(2”)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵，具体过程为：

(2-1”)构建通用自集成逆扰动防御矩阵生成网络，其包括解码器和编码器，且生成网络的输出口设有多个并行的单层卷积，单层卷积之间增加lock卷积层，生成网络的输入为高维噪声和样本，样本包括良性样本和步骤(1”)中的对抗样本，输出为通用逆扰动防御矩阵；

(2-2”)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络；其中，编码器对输入的样本进行映射，得到编码后的向量，解码器对编码的向量进行映射，得到重构后的向量，编码器和解码器同时训练，训练的目标是最小化重构误差；

(2-3”)训练完以后，利用自集成通用逆扰动防御矩阵生成网络生成多个通用逆扰动防御矩阵；

(3”)应用时，将待分类样本先经过得到的多个通用逆扰动防御矩阵后再输入模型，采用多数投票方式确定最后的识别结果，使待分类样本中的对抗样本能够被正确识别，完成对对抗样本的防御。

与现有技术相比，本发明具有以下有益效果：

本发明通过通用逆扰动矩阵来生成通用逆扰动，利用大量的对抗样本和原始样本进行训练，采取三种不同的策略生成通用扰动矩阵，学习通用逆扰动的特征。因此，不需要使用模型的反馈信息，同时也不会改动模型内部结构，既能对已知的各种攻击进行防御，还能实现对部分未知攻击进行防御。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例中采用通用逆扰动防御矩阵策略的流程示意图；

图2是本发明实施例中采用通用逆扰动防御矩阵生成网络策略流程示意图；

图3是本发明实施例中采用自集成通用逆扰动防御矩阵生成网络策略流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

通用逆扰动防御矩阵，是学习了良性样本的分类特征和对抗样本的扰动特征的矩阵，将其添加到输入样本中，不仅能够破坏对抗样本中的对抗特征，使其实现正确分类，同时能够强化良性样本的分类特征，提高其正确类标的置信度。本发明提出的通用逆扰动矩阵生成方法，根据用户的资源和用户对防御等级要求不同，分为通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略、自集成通用逆扰动防御矩阵生成网络策略。用户的计算资源越充足，防御等级需求越高，使用的通用逆扰动矩阵生成策略越复杂。在本发明中，如何生成具有普遍性的通用逆扰动矩阵是核心内容。

本发明的技术构思为：首先，准备对抗样本，利用各类攻击方法获得比较全面的对抗样本。这里的对抗样本除了通用逆扰动产生的对抗样本，还包括DeepFool，CW，JSMA，FGSM等各类对抗攻击下得到的对抗样本，这是为了保证对抗性扰动具有普遍通用性。然后开始训练通用逆扰动矩阵，训练策略包括通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略和自集成通用逆扰动防御矩阵生成网络策略，使用三种不同的策略生成通用逆扰动矩阵，以应对不用的用户需求，最后，观察所产生的通用逆扰动矩阵的性能指标，指标达标后，进行对抗攻击防御的应用。

如图1所示，为第一种通用逆扰动防御矩阵的生成策略，步骤如下：

1)准备对抗样本；

对训练集使用多种方法进行攻击，生成对抗样本S，各类攻击方法包括：CW攻击(通过限制0范数、1范数和无穷范数使得扰动无法被察觉)，FGSM攻击(利用深层神经网络的设计的高维线性，有效计算对抗扰动)，Box-constrained L-BFGS攻击(寻找最小的损失函数添加项，使得神经网络做出误分类)，DeepFool攻击(通过迭代计算的方法生成最小规范对抗扰动)，Jacobian-based Saliency Map Attack(通过限制扰动的0范数的方法来产生对抗性攻击，即仅改变几个像素的值，而不是扰动整张图像。)，Universal AdversarialPerturbations Attack(用对抗扰动将图像推出分类边界，同一个扰动针对的是所有图片)。尽可能的保证对抗性扰动最大程度的普遍化，从而确保最后能够生成的通用逆扰动足够的强大。

2)使用迭代的方法生成通用逆扰动防御矩阵；

2.1)构造一个用于样本分类的深度学习网络模型，基于深度学习网络的基本知识，搭建一个图像分类的深度学习网络，样本输入为32×32×3，即图片的宽度为32，高度为32，深度为3，神经网络包括两层卷积层conv1、conv2，两层全连接层fc1和fc2，两层池化层pool1和pool2，为了减少过拟合的情况，在输出层之前加入dropout。

2.2)使用训练集进行样本分类网络的训练，训练集用于训练的每类图片5000张，10类共50000张，测试集每类1000张，共10000张。对数据的类别进行onehot编码，获取对应的类别标签序列，便于训练和测试。为了提高训练的效果，对数据进行增强，使用随机剪裁、随机反转、随机调整图片亮度、随机改变图片对比度等方法扩充数据集训练。训练中使用交叉熵作为损失函数：

其中，y_i是类别i的真实标签，pi是softmax函数计算出来的类别i的概率值；k是类别数，N是样本总数。其状态Softmax的计算公式:

上述公式中的分子是要计算的类别i的网络输出的指数，分母是所有类别网络输出的指数和，训练结束后保存模型参数。

2.3)对步骤1)中生成的对抗样本进行预处理，保存为npy格式后与训练集以3：7的比例混合后组成数据集x，将数据集x输入到通用逆扰动矩阵X＝(x1，x2,x3...xm)中进行迭代训练。X与数据集x相加后输入已经训练好的模型，训练通用逆扰动矩阵的输入为x+X，预测的输出结果为y’，样本的真实标签为y，计算y’与y的距离。设函数f(x)是通用逆扰动矩阵X＝(x1，x2,x3...xm)的函数，则f(x)的梯度定义为：

设迭代训练的次数为N，每次迭代后，更新通用逆扰动矩阵的权重w：

其中C是迭代的步长，j(w,x)是对错误分类敏感的准则函数，使权重能够沿着最快的方向更新。

设准则函数为：

j(w,x)＝|w^Tx|-w^Tx

w(k+1)＝w(k)+2C

当预测输出的标签与样本的真实标签一致时，w^Tx>0，j＝0，权重保持不变。使用交叉熵函数作为训练的损失函数，使用Adam优化器进行优化。

交叉熵损失函数公式：

loss＝-[ylogy’+(1-y)log(1-y’)]

迭代次数为N，到达迭代上限后结束，得到通用逆扰动防御矩阵。

如图2所示，为第二种通用逆扰动防御矩阵的生成策略，即使用通用逆扰动防御矩阵生成网络生成通用逆扰动矩阵，准备对抗样本的过程和第一种通用逆扰动防御矩阵的生成策略完全相同，生成通用逆扰动防御矩阵的具体如下：

3.1)训练通用逆扰动防御矩阵生成网络，生成网络包括两个部分：编码器和解码器，生成网络的输入是高维噪声和样本，样本包括良性样本和步骤1)中生成的对抗样本，输出为通用逆扰动防御矩阵。

3.2)自动编码器(AE)能够完成特征提取和数据降维。本发明中采用的自动编码器由一个输入层，一个隐含层和一个输出层组成。隐含层的映射充当编码器，输出层的映射充当解码器。训练时编码器对输入样本进行映射，得到编码后的向量；解码器对编码向量进行映射，得到重构后的向量，它是对输入样本的近似。编码器将高维的输入样本x映射成低维的向量y，在映射的过程中必须保证向量y保留x的主要信息，降维执行的变换：

y＝W(x-m)

W是投影矩阵，从样本集中获取，m是样本集的均值向量，编码器和解码器同时训练，训练的目标是最小化重构误差。编码器的映射是将降维后的向量y重构出原始的向量x的过程，通过重构算法实现：

x＝W^Ty+m

其中l为训练样本数，θ和θ'分别是编码器和解码器的内部参数。通过编码器和解码器的生成网络后输出通用逆扰动矩阵，使用良性样本和对抗样本交替训练生成网络，学习良性样本的分类特征和对抗样本的扰动特征，到达通用防御的效果。

如图3所示，为第三种通用逆扰动防御矩阵的生成策略，即使用自集成通用逆扰动防御矩阵生成网络生成通用逆扰动矩阵，准备对抗样本的过程和第一种通用逆扰动防御矩阵的生成策略完全相同，生成通用逆扰动防御矩阵的具体如下：

4.1)自集成通用逆扰动防御矩阵生成网络的基本结构与训练过程与第二种通用逆扰动防御矩阵的生成策略相似，生成网络包括编码器和解码器，生成网络的输入是高维噪声和样本，样本包括良性样本和步骤中1)生成的对抗样本，输出为通用逆扰动防御矩阵。为了提高防御的效果和等级，在生成网络输出口加上多个并行的单层卷积，实现轻量级的多个通用逆扰动防御矩阵输出，同时在单层卷积间增加lock卷积层，以此增加在灰盒环境下的对抗样本生成难度。

4.2)将多个通用逆扰动矩阵加到待检测的图像上分别进行识别，根据投票结果实现样本识别。自集成通用逆扰动防御矩阵生成网络的输出通用逆扰动防御矩阵个数为M，对于同一个样本的识别，采取多数投票的方式决定最后的识别结果，使最终的分类结果具有更好的一致性。

上述三种通用逆扰动防御矩阵的生成策略，需观察所产生的通用逆扰动防御矩阵的防御性能，当防御效果达标，才能进一步进行对抗攻击防御方法。

观察的性能指标主要是随机样本的防御特性和样本集的防御成功率。随机样本的防御特性是随机挑选对抗样本，观察对抗样本adv_r在经过通用逆扰动矩阵后，再输入分类模型中，类标是否变化，如果类标转变为良性样本的类标记为adv_t，则通用逆扰动防御矩阵的防御效果达标。样本集的防御成功率，是指全部对抗样本adv_all通过通用逆扰动矩阵后，防御成功的样本adv_s所占的比重。通用逆扰动防御矩阵的防御效果良好，能够对大量的对抗样本完成防御，还能实现对部分未知攻击进行防御。随机样本的防御特征和样本集的防御成功率计算公式：

d_radam＝adv_t/adv_r

d_set＝adv_s/adv_all

应用时，将待分类样本先经过训练好的通用逆扰动防御矩阵后再输入模型，使待分类样本中的对抗样本能够被正确识别，完成对对抗样本的防御。

以第一种通用逆扰动防御矩阵的生成策略为例，在图像识别的场景中，对于手写数字数据集进行实验，通过FGSM、PGD、JSAM、CW等攻击方法对模型进行攻击，攻击成功后生成大量的对抗样本并保存，将这些对抗样本经过通用逆扰动防御矩阵后再输入到模型中去，防御成功率在95％以上，证明该方法有效且效果良好。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于通用逆扰动防御矩阵的对抗攻击防御方法，其特征在于，包括：

(2)使用迭代方法生成通用逆扰动防御矩阵，具体过程为：

(2-2)把步骤(1)中生成的对抗样本与训练集按比例混合后得到数据集x，将数据集x输入到通用逆扰动矩阵X＝(x1，x2,x3...xm)中进行迭代训练；训练通用逆扰动矩阵时，模型的输入为x+X，预测的输出结果为y’，样本的真实标签为y，每次迭代后，更新通用逆扰动矩阵的权重，到达迭代上限后结束，得到通用逆扰动防御矩阵；

2.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法，其特征在于，步骤(1)中，所述的多种攻击方法包括CW攻击、FGSM攻击、Box-constrained L-BFGS攻击、DeepFool攻击、Jacobian-based Saliency Map攻击和Universal AdversarialPerturbations攻击。

3.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法，其特征在于，步骤(2-1)中，训练网络模型时，使用交叉熵作为损失函数：