CN113283599A

CN113283599A - 基于神经元激活率的对抗攻击防御方法

Info

Publication number: CN113283599A
Application number: CN202110657925.3A
Authority: CN
Inventors: 陈晋音; 陈若曦; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-20
Anticipated expiration: 2041-06-11
Also published as: CN113283599B

Abstract

本发明公开了一种基于神经元激活率的对抗攻击防御方法，包括：1)获取图像数据集并进行预处理，构建训练集和测试集；2)构建CNN网络结构的分类器模型；3)构建二分类判别器D，对分类器模型关于输入本x的输出N进行判定；4)根据分类器模型和二分类判别器D的损失函数构建整体的损失函数，确定整体优化目标；采用训练集对整体模型进行联合训练，当整体的损失函数收敛时，停止训练并保存模型；5)输入测试集对训练后的分类器模型进行测试，若分类准确率低于阈值，则修改整体损失函数的λ，按步骤4)再次进行训练，直至分类准确率高于阈值。本发明的防御方法具有良好的适用性和准确率，对对抗攻击有良好的防御效果。

Description

基于神经元激活率的对抗攻击防御方法

技术领域

本发明涉及对抗攻击防御方法，尤其涉及一种基于神经元激活率的对抗攻击防御方法。

背景技术

深度学习以其优越的性能被广泛应用于图像分类、目标检测、生物信息、语音识别、自然语言处理等众多领域，在计算机视觉领域获得了前所未有的成功。但深度模型容易受到人眼不可见扰动的影响而出现错误分类，这引起了研究人员的注意。在深度模型逐步替代人类进行自主决策的过程中，由于其容易受到对抗攻击等问题，已经对网络安全、数据安全、算法安全和信息安全产生了严重威胁。深度模型面对对抗样本的脆弱性也阻碍了深度学习在一些安全性苛刻的场景中的进一步应用，例如人脸识别、自动驾驶。因此，研究针对对抗攻击的防御，提高深度学习技术的安全性和鲁棒性十分必要。

在图像分类识别领域，目前已经有很多种对抗攻击方法已经被提出来发现深度模型的安全漏洞。按照其是否需要知道模型的结构参数，它们可以分为白盒攻击和黑盒攻击。白盒攻击可以分为基于梯度的FGSM，BIM，JSMA和基于决策面的DeepFool等等。黑盒攻击一般是基于模型决策的，如ZOO等。

同时，针对对抗攻击的防御研究也在展开，不同技术主要沿着一下三种方向：数据修改(如对抗性训练和数据预处理)，模型修改和添加附加网络。Goodfellow和Huang等人将对抗样本加入训练集，用对抗性训练来加强模型对于攻击的鲁棒性。Prakash等人通过像素偏移来重新分配对抗样本中的像素值，再对其进行基于小波的去噪操作，从而有效地恢复图片的真实类标。Papernot等人提出了防御蒸馏，利用网络的知识来塑造自己的鲁棒性，并证明其可以抵抗小幅度扰动的对抗攻击。

添加附加网络的方法一般是使用一个或多个外部扩展的模型来帮助主模型应对对抗性扰动，附加模型可以是自编码器，GAN或者集成模型。Hlihor等人提出了DAE方法，训练自编码器缩小输入样本和良性样本的距离，以达到移除对抗性扰动的效果。Ju等人研究了神经网络的集成方法Ens-D用于图像识别任务，当一个模型收到攻击时，集成的方法依旧能做出正确的判断。Samangouei等人提出Defense-GAN和Jin等人提出APE-GAN将噪声或对抗样本与良性样本混合后输入给GAN，训练模型直到它能消除输入中的对抗性扰动。

尽管现有防御方法能达到较好的效果，但它们仍存在以下缺点和不足：

(1)这些防御措施只能针对已有的对抗样本，对未知的对抗性输入没有抵御能力。

(2)这些方法在面对黑盒攻击时，经常不能取得较好的效果。

(3)对于可迁移的攻击，这些防御方法会遭到破坏。

对于深度模型来说，需要从模型本身出发，提高自身对于对抗性输入的鲁棒性，而不只是针对已有的对抗样本做防御。基于此，本发明提出了一种基于神经元激活率的对抗攻击防御方法，通过附加判别器进行联合训练，增加被激活的神经元数量，以减弱对抗性输入对模型分类的影响，使深度模型在应用时更加安全可靠。

发明内容

本发明提供了一种基于神经元激活率的对抗攻击防御方法，该对抗攻击防御方法从深度模型内部出发，提高模型安全鲁棒性，减弱对抗性扰动对分类的影响，对未知对抗样本均有防御能力。

本发明的技术方案如下：

一种基于神经元激活率的对抗攻击防御方法，包括以下步骤：

1)获取图像数据集并进行预处理，构建训练集和测试集；包括：

1.1)下载MNIST、CIFAR-10和ImageNet数据集，保存图像样本及其对应的类标，样本集合记为X＝{x₁，x₂，…，x_m}，每张图片的类标记为y；

1.2)将数据集按照比例划分为训练集和测试集，对类标y进行one-hot编码；

1.3)将样本统一尺寸，与待训练的分类器模型输出尺寸相同：MNIST数据集的图像尺寸设置为28×28；CIFAR-10的图像尺寸设置为32×32×3；ImageNet设置为299×299×3；

2)构建并采用训练集训练分类器模型f(·)；包括：

2.1)利用tfleran中的库函数搭建卷积神经网络：将卷积层、池化层、dropout层和全连接网络进行组合，构建CNN网络结构的分类器模型；

分类器模型的输入层大小与训练集图像大小相同；

2.2)将训练集样本x及其对应类标y输入到分类器模型中进行训练，分类器模型的损失函数定义为：

其中L_model表示分类器模型的loss函数；K为训练集的样本总数；CE(·)表示交叉熵函数；i表示样本的索引；

2.3)给定训练完成的分类器模型f(·)和输入样本x，模型未经过全连接网络的激活函数处理的输出为f(x)＝N，其中N_l＝{n₁，n₂，...，n_m}为分类器模型的一组神经元，l表示模型的层，n为神经元，m为神经元的索引；记

为第i个神经元对于输入x的激活值；

若满足以下公式，则第i个神经元被激活：

神经元激活率h(x)定义如下：

其中N_l表示l层的神经元总数。

3)构建二分类判别器D，对分类器模型关于输入本x的输出N进行判定；所述的二分类判别器D由全连接层组合而成；二分类判别器D的输入大小与分类器模型的输出大小相同；

分类器的输出f(x)＝N输入到D用于训练，二分类结果real或者fake将反馈给分类器和判别器对模型进行优化。

二分类判别器D的损失函数定义如下：

L_D＝BCE(D(h(x))，B(x)) (4)

其中D(·)表示D的输出；B(·)为0或1；BCE表示二分类交叉熵，计算公式为

其中

是分类器模型预测样本为正例的概率，y代表真实类标，如果样本属于正例，取值为1，否则为0；

4)将整体的损失函数定义为L＝L_model-λL_D，整体优化目标定义为：

其中λ为平衡因子，可人为调节；

采用训练集对整体模型进行联合训练，当整体的损失函数收敛时，停止训练并保存模型；

训练时，同时更新二分类判别器D和分类器模型的参数；学习率设置为0.0001，batchsize设置为64，优化器选择Adam；

5)输入测试集对训练后的分类器模型进行测试，若分类准确率低于阈值，则修改整体损失函数的λ，按步骤4)再次进行训练，直至分类准确率高于阈值。

本发明的技术构思为：基于神经元激活率的对抗攻击防御方法，减弱对抗性扰动对分类的影响，对未知对抗样本均有防御能力，从模型内部出发提高了安全鲁棒性。设计了基于附加网络的防御结构，利用判别器的分类结果更新分类器输出的神经元，在保证正常样本识别准确率的同时增加神经元的激活值，降低对抗样本激活异常神经元而导致错误分类的概率，实现抵御对抗攻击的能力。

与现有技术相比，本发明的有益效果主要表现在：

通过判别器的联合训练，模型全连接层增加了被激活的神经元数目，降低了对抗样本改变神经元激活值而产生误分类的概率，该方法对已知和未知攻击均具有一定的抵御能力，同时保持了对良性样本的分类准确率。在真实图像数据集上的实验结果表明，本发明的防御方法具有良好的适用性和准确率，对对抗攻击有良好的防御效果。

附图说明

图1是本发明的实施例中基于神经元激活率的对抗攻击防御方法示意图。

图2是基于神经元激活率的对抗攻击防御方法的流程框架示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

参照图1～图2，一种基于神经元激活率的对抗攻击防御方法，包括以下步骤：

1)图像数据集的获取和预处理，具体过程如下：

1.1)下载MNIST、CIFAR-10和ImageNet数据集，保存图像样本及其对应的类标，样本集合记为X＝{x₁，x₂，...，x_m}，每张图片的类标记为y。

1.2)将上一步的数据集按照比例划分为训练集和测试集，对类标y进行one-hot编码以方便后续训练。

1.3)将样本统一尺寸：MNIST数据集的图像尺寸设置为28×28，CIFAR-10的图像尺寸设置为32×32×3，ImageNet设置为299×299×3，与训练的模型输出尺寸相同。

2)构建分类器模型f(·)，具体如下：

2.1)利用tfleran中的库函数搭建卷积神经网络。conv_2d表示二维卷积网络，nb_filter表示卷积核的数量，filter_size表示卷积核的大小，max_pool_2d表示二维最大池化层，dropout表示抑制该层部分神经元的输出，fully_connected表示全连接网络，一般放在模型的最后一层，它的激活层一般使用softmax函数，将每个元素取指数后进行归一化，最后输出模型的置信度。普通的卷积网络也可以选用tanh和ReLU作为激活层函数，它们都是将输入映射到指定区间内，将简单的线性输出转换成复杂非线性问题。将卷积层、池化层、dropout层和全连接网络进行组合，就构建了简单的CNN网络结构。分类器模型的输入层大小与图像大小相同，都是[H，W，C]，输出层大小为[H×W×C,1]，其中H为图像高度，W为宽度，C为输入通道数。

2.2)将样本x及其对应类标y输入到分类器中进行训练，模型的损失函数定义为：

其中L_model表示模型的loss函数，K为训练集的样本总数，CE(·)表示交叉熵函数，i表示样本的索引。

2.3)给定训练完成的深度模型f(·)和输入样本x，模型未经过softmax函数处理的输出为f(x)＝N，其中N_l＝{n₁，n₂，...，n_m}为深度学习模型的一组神经元，l表示模型的层，n为神经元，m为神经元的索引。记

为第i个神经元对于输入x的激活值。若满足以下公式，则第i个神经元被激活：

同时，神经元激活率h(x)定义如下：

其中N_l表示l层的神经元总数。

3)构建判别器D。

本发明中D是个二分类器，由全连接层组合而成，具体结构如下表所示。D对原模型关于输入样本x的输出N进行判定。判别结果为real，标记为1，若为fake则记为0。D的输入大小与分类器输出大小相同，为[H×W×C，1]，D的输出层大小为[1，1]。

分类器的输出f(x)＝N输入到D用于训练，二分类结果real或者fake将反馈给生成器和判别器对模型进行优化。

D的损失函数定义如下：

L_D＝BCE(D(h(x))，B(x)) (4)

其中D(·)表示D的输出，B(·)为0或1，BCE表示二分类交叉熵，计算公式为

其中

是模型预测样本为正例的概率，y代表真实类标，如果样本属于正例，取值为1，否则为0。

4)整体系统的训练：

整体的损失函数定义为L＝L_model-λL_D，整体优化目标定义为：

其中λ为平衡因子，可人为调节，默认取0.5。训练时，同时更新D和分类器的参数，学习率设置为0.0001，batchsize设置为64，优化器选择Adam。当loss函数收敛时，停止训练并保存模型。

5)参数优化：

输入对抗样本对分类器进行测试，若分类准确率较低，则修改λ按步骤4)再次进行训练，直至取得最佳防御效果。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经元激活率的对抗攻击防御方法，其特征在于，包括以下步骤：

1)获取图像数据集并进行预处理，构建训练集和测试集；

2)利用tfleran中的库函数搭建卷积神经网络：将卷积层、池化层、dropout层和全连接网络进行组合，构建CNN网络结构的分类器模型；

4)根据分类器模型和二分类判别器D的损失函数构建整体的损失函数，确定整体优化目标；采用训练集对整体模型进行联合训练，当整体的损失函数收敛时，停止训练并保存模型；

2.根据权利要求1所述的基于神经元激活率的对抗攻击防御方法，其特征在于，步骤1)包括：

1.1)下载MNIST、CIFAR-10和ImageNet数据集，保存图像样本及其对应的类标，样本集合记为X＝{x₁，x₂，...，x_m}，每张图片的类标记为y；

1.3)将样本统一尺寸，与待训练的分类器模型输出尺寸相同：MNIST数据集的图像尺寸设置为28×28；CIFAR-10的图像尺寸设置为32×32×3；ImageNet设置为299×299×3。

3.根据权利要求1所述的基于神经元激活率的对抗攻击防御方法，其特征在于，步骤2)包括：

分类器模型的输入层大小与训练集图像大小相同；

2.3)给定训练完成的分类器模型f(·)和输入样本x，模型未经过全连接网络的激活函数处理的输出为f(x)＝N，其中N₁＝{n₁，n₂，...，n_m}为分类器模型的一组神经元，l表示模型的层，n为神经元，m为神经元的索引；记

为第i个神经元对于输入x的激活值；

若满足以下公式，则第i个神经元被激活：

神经元激活率h(x)定义如下：

其中N₁表示1层的神经元总数。

4.根据权利要求3所述的基于神经元激活率的对抗攻击防御方法，其特征在于，二分类判别器D的损失函数定义如下：

L_D＝BCE(D(h(x))，B(x)) (4)

其中

是分类器模型预测样本为正例的概率，y代表真实类标，如果样本属于正例，取值为1，否则为0。

5.根据权利要求4所述的基于神经元激活率的对抗攻击防御方法，其特征在于，整体的损失函数定义为L＝L_model-λL_D，整体优化目标定义为：

其中λ为平衡因子，可人为调节。

6.根据权利要求1所述的基于神经元激活率的对抗攻击防御方法，其特征在于，训练时，同时更新二分类判别器D和分类器模型的参数；学习率设置为0.0001，batchsize设置为64，优化器选择Adam。