CN110569916B

CN110569916B - 用于人工智能分类的对抗样本防御系统及方法

Info

Publication number: CN110569916B
Application number: CN201910868997.5A
Authority: CN
Inventors: 丁康一; 张小松; 牛伟纳; 谢科; 张瑾昀; 赵成洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-03-22
Anticipated expiration: 2039-09-16
Also published as: CN110569916A

Abstract

本发明涉及用于人工智能分类的对抗样本防御系统及方法，其中系统包括第一常规卷积神经网络、防御模型训练模块、第一降采样器连接的第一降采样卷积神经网络；防御模型训练模块中的数据集分别输入到第一常规卷积神经网络，和经第一降采样器输入到第一降采样卷积神经网络中；对抗样本训练集获取模块与数据集一同输入到第二常规卷积神经网络和第二降采样器中，第二降采样器通过第二降采样卷积神经网络与第二常规卷积神经网络一同输入到全连接模型融合器后输出防御模型；第一常规卷积神经网络和第一降采样卷积神经网络分别对应输出参数到第二常规卷积神经网络和第二降采样卷积神经网络中。本发明能够有效提高对对抗样本分类的准确性和鲁棒性。

Description

用于人工智能分类的对抗样本防御系统及方法

技术领域

本发明涉及数据模型学习的系统和方法，具体讲是用于人工智能分类的对抗样本防御系统及方法。

背景技术

近几年来，在大数据的背景下，机器学习受到了广泛的关注，在很多不同的领域获得很大进步的应用发展。例如：金融经济领域(量化分析、风险控制等)、无人驾驶领域(环境感知、人车交互、路线规划等)、医疗领域(药物挖掘、病情分析、医学影像等)、网络安全领域等等(过滤垃圾邮件、DNS恶意域名分析等)。然而，在机器学习为我们带来巨大的便利的同时，也暴露出很大的安全问题。

Christian Szegedy等人在ICLR2014发表的论文中，首次提出了对抗样本的概念，即在数据集中通过故意添加细微的变化，干扰所形成的输入样本，受干扰之后的输入导致模型以高置信度输出一个错误的结果。论文中提到包括卷积神经网络在内的深度学习模型对于对抗样本都具有极高的脆弱性。很多情况下，在训练集的不同子集上训练得到的具有不同结构的模型都会对相同的对抗样本实现误分，这意味着对抗样本成为了训练算法的一个盲点。AnhNguyen等人在CVPR2015上发表的论文中，他们发现面对一些人类完全无法识别的样本(例如噪声)，深度学习模型会以高置信度将它们进行分类(分类为狮子等)。这些研究的提出，迅速引起了广泛的关注，有人将其当作是深度学习的特有缺陷，可是KDnuggets指出，事实上深度学习对于对抗样本的脆弱性并不是深度学习所独有的，在很多的机器学习模型中普遍存在，因此进一步研究有利于抵抗对抗样本的算法实际上有利于整个机器学习领域的进步。

廖方舟使用传统方法(中值滤波等)和深度网络模型U-Net，试图通过去燥方法解决像素引导去噪问题(PGD Pixel Guided Denoiser)，但效果不佳。虽然绝大部分噪声被消除了，但是并没有提升分类准确率。他们研究将对抗样本和去噪后的图像输入到网络中，计算网络每一层特征的距离。并且发现：如果只是普通的噪声，例如高斯噪声，这些噪声的影响会随着网络的加深而逐渐变小；但是对于对抗样本的噪声，这些噪声的影响会随着网络的加深而逐渐变大。这一趋势在图像经过基本的去噪后仍然存在。

Papernot等人在《Distillation as a defense to adversarial perturbationsagainst deep neuralnetworks》中提出对使用模型对训练集数据的分类预测结果再次训练的方式，让攻击者难以获取模型的真实梯度信息，即“梯度遮蔽”，然而在后来的文献《Towards Evaluating the Robustness ofNeural Networks》中证明，该方法带来的“安全感”是虚假的，攻击者仍能通过构建目标函数来对模型进行攻击。

Harini Kannan等人在《Adversarial Logit Pairing》中提出利用增加正则项的方式，该模型采用了平衡模型分类能力与自然样本与自然样本所生成对抗样本的分类结果距离的方式，提高模型防御对抗样本的能力。但该方法在损失函数上的优化，并不能从根源上增强模型对对抗样本的鲁棒性，因损失函数是分类能力+(对抗样本与自然样本间距离)*系数。

论文《A study ofthe effect ofJPG compression on adversarial images》中提到了降采样或是图像压缩技术能有效提升模型的鲁棒性。然而，该方法会损失一定的干净样本分类正确率。

发明内容

本发明提供了一种用于人工智能分类的对抗样本防御系统及方法，以提高对对抗图像样本分类的准确性和鲁棒性。

本发明用于人工智能分类的对抗样本防御系统，包括第一常规卷积神经网络、防御模型训练模块，以及相连接的第一降采样器和第一降采样卷积神经网络；

在所述的防御模型训练模块中具有用于图像样本输入的图像数据集，将图像数据集中的图像样本分别输入到所述第一常规卷积神经网络，以及通过第一降采样器输入到第一降采样卷积神经网络中；

在防御模型训练模块中还具有对抗图像样本训练集获取模块，通过对抗图像样本训练集获取模块生成对抗图像样本后，与图像数据集中的图像样本一同输入到防御模型训练模块中的第二常规卷积神经网络和第二降采样器中，第二降采样器通过第二降采样卷积神经网络与第二常规卷积神经网络一同输入到全连接模型融合器，以全连接方式融合后输出防御模型；

第一常规卷积神经网络输出特征提取部分的参数到第二常规卷积神经网络中；第一降采样卷积神经网络输出特征提取部分的参数到第二降采样卷积神经网络中。

由于对抗图像样本的要求是人眼对人为扰动不可见、机器却会因为这些扰动发生错误判决的样本，因此，本发明采用降采样的方式减少了不可见扰动，从而降低了不可见扰动对整个样本图像的影响。同时，本发明在防御模型训练模块中采用的是双网络结构，通过训练得到网络参数和对抗图像样本，得到最终的防御模型，其中第二常规卷积神经网络能够提高分类的正确率，第二降采样卷积神经网络能够提高对抗图像样本的鲁棒性，因此两者的并联能在保证防御模型正确性的同时，拥有对对抗图像样本的鲁棒性，并且模型的可解释性强。尽管有而文章提到过降采样技术会让模型对对抗图像样本具有一定鲁棒性，但本发明采用了一种更简单的方式，而且在不损失模型性能的前提下，拥有了对对抗图像样本的鲁棒性。

具体的，所述的第一常规卷积神经网络中的结构为：第一层为输入层，将接收的图像数据集中的图像样本作为网络输入，第二层为40个大小为5×5卷积核计算得到的卷积层，第三层为50个大小为5×5卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对该池化层的输出进行随机失活(dropout)处理，第四层为70个大小为3×3卷积核计算得到的卷积层和池化层，池化方式与第三层相同，第五层为100个大小为3×3卷积核计算得到的卷积层，并将所有的神经元展开，第六层为全连接层，将所述展开的神经元与一个全连接神经网络相连，最后由第七层的归一化指数函数(softmax)层输出结果，第一常规卷积神经网络的损失函数为交叉熵。从功能上划分，第一常规卷积神经网络分为特征提取部分与分类部分，前五层为特征提取部分，最后两层为分类部分。

具体的，所述的第一降采样卷积神经网络的结构为：第一层为输入层，将图像数据集中的图像样本降采样后作为网络输入，第二层为50个大小为3×3卷积核计算得到的卷积层，第三层为60个大小为3×3卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对其输出进行随机失活(dropout)处理，第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层，池化方式与第三层相同，并将所有的神经元展开，第五层为全连接层，将所述展开的神经元与一个全连接神经网络相连，并输出100个神经元，第六层为归一化指数函数(softmax)层，将第五层输出的100个神经元与10个神经元相连接，这10个神经元对应10个不同的数字，并将最后的结构通过归一化指数函数输出，第一降采样卷积神经网络的损失函数为交叉熵。按功能划分，第一降采样卷积神经网络分为特征提取部分与分类部分，前四层为特征提取部分，最后两层为分类部分。

与上述结构类似的，所述的第二常规卷积神经网络的结构为：第一层为输入层，将所述的对抗图像样本和图像数据集中的图像样本共同作为网络输入，第二层为40个大小为5×5卷积核计算得到的卷积层，第三层为50个大小为5×5卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层并对其输出进行随机失活(dropout)处理，第四层为70个大小为3×3卷积核计算得到的卷积层和池化层，池化方式与第三层相同，第五层为100个大小为3×3卷积核计算得到的卷积层，并将所有神经元展开。

与第一常规卷积神经网络相比，第二常规卷积神经网络只包含特征提取部分，而没有分类部分。

与上述结构类似的，所述的第二降采样卷积神经网络的结构为：第一层为输入层，将所述的对抗图像样本和图像数据集中的图像样本降采样后共同作为网络输入，第二层为50个大小为3×3卷积核计算得到的卷积层，第三层为60个大小为3×3卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对其输出进行随机失活(dropout)处理，第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层，池化方式与第三层相同，并将所有神经元展开。与第一降采样卷积神经网络相比，第二降采样卷积神经网络只包含特征提取部分，而没有分类部分。

具体的，所述的对抗图像样本和图像数据集中的图像样本同时送入第二常规卷积神经网络和第二降采样卷积神经网络，通过添加正则项的交叉熵的损失函数进行训练后，所述的全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联，得到所述的防御模型。

本发明还提供了一种用于上述系统的人工智能分类的对抗样本防御方法，包括：

A.通过图像数据集中的图像样本训练第一常规卷积神经网络，第一常规卷积神经网络的损失函数为交叉熵，训练完成后保存其特征提取部分的参数；

B.将图像数据集中的图像样本通过第一降采样器进行降采样运算后，训练第一降采样卷积神经网络，第一降采样卷积神经网络的损失函数为交叉熵，训练完成后保存其特征提取部分的参数；

C.在防御模型训练模块中，由对抗图像样本训练集获取模块通过对抗图像样本生成算法，对每个图像数据集中的图像样本生成基于L_∞范数(P＝∞时的L-P范数，用以度量向量元素的最大值)约束的对抗图像样本，并将对抗图像样本加入图像数据集的图像样本中，得到对抗图像样本数据集；

D.第二常规卷积神经网络接收第一常规卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集、第一降采样卷积神经网络接收第一降采样卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集，一并经全连接模型融合器，采用带有正则项的交叉熵作为损失函数，训练得到具有鲁棒性的防御模型。

本发明通过对常规卷积神经网络与降采样卷积神经网络进行预训练的方式，既保证了这两个网络的结构的可靠性，又使训练所得的参数能够参与防御模型的训练，缩短了防御模型的训练时间，并有效提高了防御模型的稳定性，同时也大幅度提高了对对抗图像样本分类的准确性和鲁棒性。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明用于人工智能分类的对抗样本防御系统的结构框图。

图2为图1中第一常规卷积神经网络结构示意图。

图3为图1中第一降采样卷积神经网络结构示意图。

图4为图1中第二常规卷积神经网络与第二降采样神经网络通过全连接模型融合器融合的示意图。

具体实施方式

本实施例中是针对手写字符集MNIST数据集进行对抗性训练。

MNIST数据集来自美国国家标准与技术研究所(National Institute ofStandards and Technology(NIST))。

本实施例中的训练集(training set)由250个不同人手写的数字构成，其中50％是高中学生，50％来自人口普查局(the Census Bureau)的工作人员，测试集(test set)也是同样比例的手写数字数据，训练集中的图像样本为42000张，测试集的图像样本为28000张。

原始数据集中的MNIST数据是每张为28×28的黑白点阵图片，将每张图片的每个像素灰度值除以256，压缩到0到1之间。

如图1所示本发明用于人工智能分类的对抗样本防御系统，包括第一常规卷积神经网络、防御模型训练模块，以及相连接的第一降采样器和第一降采样卷积神经网络。

如图2所示，其中，所述的第一常规卷积神经网络中的结构为：第一层为输入层，将接收的图像数据集中的图像样本作为网络输入，第二层为40个大小为5×5卷积核计算得到的卷积层，第三层为50个大小为5×5卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对该池化层的输出进行随机失活(dropout)处理，第四层为70个大小为3×3卷积核计算得到的卷积层和池化层，池化方式与第三层相同，第五层为100个大小为3×3卷积核计算得到的卷积层，并将所有的神经元展开，第六层为全连接层，将所述展开的神经元与一个全连接神经网络相连，最后由第七层的归一化指数函数(softmax)层输出结果，第一常规卷积神经网络的损失函数为交叉熵。按功能划分，第一常规卷积神经网络分为特征提取部分与分类部分，前五层为特征提取部分，最后两层为分类部分。

以图2中的第二层为例，第二层中的24×24×40，其中24×24表示输出卷积层的长×宽，40为输出卷积层的数量。卷积层输出的计算公式为：output＝(input+2×padding-kernel)/stride+1，其中，output为输出尺寸，input为输入尺寸，padding为边缘是否补0，补0则为1，不补0则为0，kernel为卷积核尺寸，stride为卷积核滑动的间隔。本实施例中input为28，卷积核尺寸kernel为5，padding为0，stride为1，因此最后output的尺寸为24，由于输出卷积层的长和宽一致，输出卷积层的数量与卷积核相同，最后得到的输出卷积层为24×24×40。

如图3所示，所述的第一降采样卷积神经网络的结构为：第一层为输入层，将图像数据集中的图像样本降采样后作为网络输入，第二层为50个大小为3×3卷积核计算得到的卷积层，第三层为60个大小为3×3卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对其输出进行随机失活(dropout)处理，第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层，池化方式与第三层相同，并将所有的神经元展开，第五层为全连接层，将所述展开的神经元与一个全连接神经网络相连，并输出100个神经元，第六层为归一化指数函数(softmax)层，将第五层输出的100个神经元与10个神经元相连接，这10个神经元对应10个不同的数字，并将最后的结构通过归一化指数函数输出，第一降采样卷积神经网络的损失函数为交叉熵。按功能划分，第一降采样卷积神经网络分为特征提取部分与分类部分，前四层为特征提取部分，最后两层为分类部分。

在所述的防御模型训练模块中还具有用于图像样本输入的图像数据集(即训练集)，将图像数据集中的图像样本分别输入到所述第一常规卷积神经网络，以及通过第一降采样器输入到第一降采样卷积神经网络中。

在防御模型训练模块中还具有对抗图像样本训练集获取模块，通过对抗图像样本训练集获取模块生成对抗图像样本后，将对抗图像样本和图像数据集中的图像样本同时送入防御模型训练模块中的第二常规卷积神经网络、以及通过第二降采样器连接的第二降采样卷积神经网络中，然后通过添加正则项的交叉熵的损失函数进行训练后，由全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联，得到防御模型。如图4所示，所述的全连接模型融合器为2层结构，第一层为120个神经元组成，第二层由10个神经元组成分别对应10个不同数字，最后通过归一化指数函数(softmax)将10个神经元中的值转变为概率。

与第一常规卷积神经网络的结构相比，第二常规卷积神经网络只有特征提取部分，而没有第六层和第七层的分类部分。类似的，与第一降采样卷积神经网络的结构相比，第二降采样卷积神经网络同样只有特征提取部分，没有最后两层的分类部分。

本发明采用了降采样的方式减少了不可见扰动，从而降低了不可见扰动对整个样本图像的影响。同时，还通过第二常规卷积神经网络保障了分类的正确率，通过第二降采样卷积神经网络提高了对抗图像样本的鲁棒性。

因此，在上述系统的基础上，本实施例的人工智能分类的对抗样本防御方法包括：

A.通过所述的图像数据集中的图像样本训练所述的第一常规卷积神经网络，第一常规卷积神经网络的损失函数为交叉熵，训练完成后保存其特征提取部分的参数；

B.将图像数据集中的图像样本通过所述第一降采样器进行降采样运算后，训练第一降采样卷积神经网络，第一降采样卷积神经网络的损失函数为交叉熵，训练完成后保存其特征提取部分的参数；

C.在所述的防御模型训练模块中，由对抗图像样本训练集获取模块通过对抗图像样本生成算法，对每个图像数据集中的图像样本生成基于L_∞范数(P＝∞时的L-P范数，用以度量向量元素的最大值)约束的对抗图像样本，并将对抗图像样本加入图像数据集的图像样本中，得到对抗图像样本数据集，具体为：

采用PGD算法生成对抗图像样本，采取训练集(42000张图像样本)中每个图像样本分别生成其L_∞范数约束的对抗图像样本，共生成42000个对抗图像样本，并将对抗图像样本与训练集中的原有图像样本相混合，生成对抗图像样本数据集。在对抗图像样本数据集中，每个对抗图像样本对应一个非对抗图像样本(原数据集中的图像样本)。PGD算法如下所示；

该对抗图像样本的生成方式为迭代生成方式，该方法每次对训练集中增加一个生成的对抗图像样本，其中x^t为第t个对抗图像样本，α为修改的步长，

表示对x求导数，L(θ,x,y)为当模型参数为θ时，输入训练集中的图像样本x、分类结果为y的损失函数，sgn()为方向函数，即每次输入的图像样本x中每个像素关于y的梯度，其中梯度大于0的，像素值增加α，梯度小于0的，像素值减小α，Π_x+S表示将对抗图像样本的范围限制在x+S内，本实例采用L_∞范数，即S为一个球体，S通过人为进行设定，本实施例中S设定为0.15。

D.第二常规卷积神经网络接收第一常规卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集、第一降采样卷积神经网络接收第一降采样卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集，一并经所述的全连接模型融合器，采用带有正则项的交叉熵作为损失函数，训练得到具有鲁棒性的防御模型。

将步骤C生成的对抗图像样本数据集输入防御模型中进行训练，训练中使用的损失函数为交叉熵与对抗图像样本和非对抗图像样本距离度量之后的方式，如下所示：

其中，

为防御模型的交叉熵，该项用于优化防御模型的分类正确率，

为所有对抗图像样本和非对抗图像样本的集合，即对抗图像样本数据集。后面一项中，x⁽ⁱ⁾为第i个非对抗图像样本，

为第i个非对抗图像样本对应的通过PGD算法生成的对抗图像样本，f(x⁽ⁱ⁾；θ)为第i个非对抗图像样本经过该防御模型后的logit层输出的多维向量，

为第i个非对抗图像样本通过PGD算法所生的对抗图像样本经过该防御模型后的logit层输出的多维向量，对应在本实施例中的多维向量为一个10维向量，λ为正则项系数，L的度量方式为2范数，n为图像数据集中图像样本的数量。通过该损失函数能够在保证防御模型性能的同时，尽可能让防御模型做出对抗图像样本与非对抗图像样本的输出尽可能相似。

训练完成后，保存防御模型的网络参数。

最后通过测试集中的28000张图像样本对训练后的防御模型进行测试：通过PGD算法对28000个测试样例生成28000个对抗图像样本，然后将其输入训练好的防御模型中，经验证后得知防御模型的对抗图像样本具有良好的鲁棒性。

Claims

1.用于人工智能分类的对抗样本防御系统，其特征为：包括第一常规卷积神经网络、防御模型训练模块，以及相连接的第一降采样器和第一降采样卷积神经网络；

2.如权利要求1所述的用于人工智能分类的对抗样本防御系统，其特征为：所述的第一常规卷积神经网络中的结构为：第一层为输入层，将接收的图像数据集中的图像样本作为网络输入，第二层为40个大小为5×5卷积核计算得到的卷积层，第三层为50个大小为5×5卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对该池化层的输出进行随机失活处理，第四层为70个大小为3×3卷积核计算得到的卷积层和池化层，池化方式与第三层相同，第五层为100个大小为3×3卷积核计算得到的卷积层，并将所有的神经元展开，第六层为全连接层，将所述展开的神经元与一个全连接神经网络相连，最后由第七层的归一化指数函数层输出结果。

3.如权利要求1所述的用于人工智能分类的对抗样本防御系统，其特征为：所述的第一降采样卷积神经网络的结构为：第一层为输入层，将图像数据集中的图像样本降采样后作为网络输入，第二层为50个大小为3×3卷积核计算得到的卷积层，第三层为60个大小为3×3卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对其输出进行随机失活处理，第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层，池化方式与第三层相同，并将所有的神经元展开，第五层为全连接层，将所述展开的神经元与一个全连接神经网络相连，并输出100个神经元，第六层为归一化指数函数层，将第五层输出的100个神经元与10个神经元相连接，这10个神经元对应10个不同的数字，并将最后的结构通过归一化指数函数输出。

4.如权利要求1所述的用于人工智能分类的对抗样本防御系统，其特征为：所述的第二常规卷积神经网络的结构为：第一层为输入层，将所述的对抗图像样本和图像数据集中的图像样本共同作为网络输入，第二层为40个大小为5×5卷积核计算得到的卷积层，第三层为50个大小为5×5卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层并对其输出进行随机失活处理，第四层为70个大小为3×3卷积核计算得到的卷积层和池化层，池化方式与第三层相同，第五层为100个大小为3×3卷积核计算得到的卷积层，并将所有神经元展开。

5.如权利要求1所述的用于人工智能分类的对抗样本防御系统，其特征为：所述的第二降采样卷积神经网络的结构为：第一层为输入层，将所述的对抗图像样本和图像数据集中的图像样本降采样后共同作为网络输入，第二层为50个大小为3×3卷积核计算得到的卷积层，第三层为60个大小为3×3卷积核计算得到的卷积层，并在后面加入一个保留2×2像素范围内最大值的池化层，并对其输出进行随机失活处理，第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层，池化方式与第三层相同，并将所有神经元展开。

6.如权利要求1所述的用于人工智能分类的对抗样本防御系统，其特征为：所述的对抗图像样本和图像数据集中的图像样本同时送入第二常规卷积神经网络和第二降采样卷积神经网络，通过添加正则项的交叉熵的损失函数进行训练后，所述的全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联，得到所述的防御模型。

7.用于权利要求1至6之一所述系统的人工智能分类的对抗样本防御方法，其特征包括：

C.在防御模型训练模块中，由对抗图像样本训练集获取模块通过对抗图像样本生成算法，对每个图像数据集中的图像样本生成基于L∞范数约束的对抗图像样本，并将对抗图像样本加入图像数据集的图像样本中，得到对抗图像样本数据集；