CN111783853A

CN111783853A - 一种基于可解释性的检测并恢复神经网络对抗样本方法

Info

Publication number: CN111783853A
Application number: CN202010555172.0A
Authority: CN
Inventors: 王静远; 吴宇帆; 李明轩; 林鑫; 李超
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-16
Anticipated expiration: 2040-06-17
Also published as: CN111783853B

Abstract

本发明公开了一种基于可解释性的检测并恢复神经网络对抗样本方法，具体步骤包括：获取原始图像数据；原始图像数据经过解释器得到四种解释图；解释图与所述原始图像数据作为对抗样本检测器的输入；输出为图像是否为对抗样本；若为对抗样本，则执行下一步，若不是对抗样本，则直接输出分类器模型对于图像的预测结果；根据对抗样本获取掩码后的图像，用掩码后的图像作为输入，输出对抗样本恢复器对于对抗样本的预测结果。本发明检测器的检测正确率和AUC值更高，具有可迁移性，具有更好的对抗样本恢复性能以及模型训练速度，更高的数据使用效率。

Description

一种基于可解释性的检测并恢复神经网络对抗样本方法

技术领域

本发明涉及对抗样本防御技术领域，更具体的说是涉及一种基于可解释性的检测并恢复神经网络对抗样本方法。

背景技术

得益于计算机硬件的快速发展，深度学习在图像识别，语音识别，多媒体处理等领域都取得了惊人的成绩。在某些特定的任务上，其表现甚至超越了人类。因此，许多成熟的神经网络模型已经被大规模部署在现实应用场景中。然而对于某些特殊场景如自动驾驶和安防领域来说，神经网络模型需要很高的鲁棒性，此时我们需要考虑应用的模型是否足够可靠和安全。

近几年关于深度学习模型安全问题的研究发现，通过用精心设计的极小噪声扰动原始图像，得到的新图像可以直接导致图像分类器识别错误，但人的肉眼却无法察觉到该图像被篡改过，这说明了神经网络模型潜在的脆弱性。这样的图像我们称之为对抗样本，而构造对抗样本的算法则称为对抗攻击。进一步研究发现，基于一个开源的神经网络分类模型生成的对抗样本，也能攻击其它不可访问且不同网络架构的分类模型，这揭示了对抗攻击具有迁移性以及神经网络模型不够鲁棒的普遍性。因而如何防御针对深度学习的对抗攻击并提高神经网络模型的鲁棒性成为了一个重要的研究课题。

虽然深度模型能提取有效的特征并出色地完成多种复杂任务，但人们不知道模型为什么深度模型会做出这样的决策，模型对于研究者来说仍然是黑盒的，因此神经网络模型的可解释性研究也被囊括进深度学习中。目前大多数可解释研究通过可视化的技术来窥探模型的内部，例如GuidedBackpropagation，IntegratedGrad，GradCAM等基于梯度的解释性方法。有研究者利用解释工具发现，神经网络模型在对干净样本和对抗样本做决策时会有所区别，揭示了可解释性与对抗样本的潜在联系。然而利用这种联系做对抗样本防御的研究还比较少。

现有的防御对抗攻击的方法，大体分为两种类型：(a)正确判定；(b)仅检测。第一种类型的目标是让模型忽略或者去除对抗样本的扰动而给出正确的判定结果。采取这种策略的防御方法有对抗训练，蒸馏模型，自动编码器去噪等方法。然而这些方法有训练时间长，不能有效防御黑盒攻击和白盒攻击等缺点。第二种防御类型是只识别模型的输入图片是否为对抗样本，若是对抗样本，则拒绝服务。此防御类型包括特征压缩检测，对抗样本检测网络，抽取中间层检测，N+1类分类器等方法。该类型相较正确判定而言较为容易，许多检测方法都有着较高的检测正确率。但部分方法只能检测由弱攻击生成的对抗样本，又或者其检测器的AUC值(Area Under Curve)较低。有研究也指出，大部分检测方法不能防御黑盒攻击和白盒攻击。

因此，如何提供一种检测器的检测正确率和AUC值更高，甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁，且具有可迁移性的防御方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于可解释性的检测并恢复神经网络对抗样本方法，本方法与现有的基于检测的对抗样本防御方法相比，能有效防御当前攻击领域的前沿攻击方法，检测器的检测正确率和AUC值更高，甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁，且具有可迁移性，具有更好的对抗样本恢复性能以及模型训练速度，更高的数据使用效率；可以显著提高对抗攻击的成本，使得部分基于L₂范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本；可以方便地部署在已经投入使用的生产环境中，而不影响现有的神经网络架构；或方便地与其他现有防御方法组合使用。

为了实现上述目的，本发明提供如下技术方案：

一种基于可解释性的检测并恢复神经网络对抗样本方法，具体步骤包括：获取原始图像数据；

所述原始图像数据经过解释器得到四种解释图；

所述解释图与所述原始图像数据作为对抗样本检测器的输入；输出为图像是否为对抗样本；若为对抗样本，则执行下一步，若不是对抗样本，则直接输出分类器模型对于图像的预测结果；

根据对抗样本获取掩码后的图像，掩码后的图像数据作为输入，输出对抗样本恢复器对于对抗样本的预测结果。

优选的，在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中，获取原始图像数据具体步骤包括：获取原始图像数据集I，其中，包括原始训练集I_train和原始测试集I_test，用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A；其中，将所述图像数据集中图像的像素值范围[0，255]映射为[0，1]；并预先设定一个在0到1之间的掩码率α，用来控制对抗样本被掩码的比例。

优选的，在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中，检测对抗样本的具体步骤包括：

S21，用对抗攻击算法A对原始图像数据集I中每个图像搜索噪声以生成对抗样本去攻击分类器模型C，保留攻击成功的对抗样本记为I’，包含与原图像对应的对抗训练集I’_train和对抗测试集I’_test；

S22，将所述原始图像数据集标记为第一类干净样本类，将对抗样本I’标记为第二类对抗样本类，并训练二分类神经网络的数据检测器D_image，其输出是输入图像为第一类干净样本类和第二类对抗样本类的概率；

S23，利用四种解释器Vanilla Gradient(VG)，Integrated Gradient(IG)，GuidedBackpropagation(GBP)and Layer-wise Relevance Propagation(LRP)分别得到原始训练集I_train，原始测试集I_test，对抗训练集I’_train和对抗测试集I’_test对于分类器模型C预测结果的解释图，得到对应的解释图数据集VG(VG_train，VG_test，VG’_train，VG’_test)，IG(IG_train，IG_test，IG’_train，IG’_test)，GBP(GBP_train，GBP_test，GBP’_train，GBP’_test)，LRP(LRP_train，LRP_test，LRP’_train，LRP’_test)；

S24，将解释图原始训练集VG_train，IG_train，GBP_train，LRP_train，解释图原始测试集VG_test，IG_test，GBP_test，LRP_test标记为第一类干净类，将解释图对抗训练集VG’_train，IG’_train，GBP’_train，LRP’_train，解释图对抗测试集VG’_test，IG’_test，GBP’_test，LRP’_test标记为第二类对抗类，并分别训练对应的使用二分类神经网络的解释图检测器D_VG，D_IG，D_GBP，D_LRP，输出是输入图像为第一类干净类和第二类对抗类的概率；

S25，利用随机森林模型将原始数据检测器D_image和四种解释图检测器D_VG，D_IG，D_GBP，D_LRP集成为对抗样本检测器，其输入为图像信息和图像对于分类模型的四种解释图，输出为图像是否为对抗样本。

优选的，在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中，集成五种检测器的步骤如下：

第一步，将输入图像i放入数据检测器D_image中，得到为第二类对抗样本类的概率p₁；生成i的四种解释图vg，ig,gbp,lrp，分别放入解释图检测器D_VG，D_IG，D_GBP，D_LRP中，得到为第二类干净样本类的概率p₂，p₃，p₄，p₅

第二步，将求得的5个概率组成一个概率向量(p₁，p₂，p₃，p₄，p₅)，作为训练好的随机森林模型的输入，随机森林模型最后给出输入图像i是否为对抗样本的判定结果。

优选的，在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中，对抗样本恢复的具体步骤包括：

S31，对于任意对抗样本i’，计算四种解释图检测器关于i’预测概率向量的信息熵，选取拥有最大信息熵的解释图检测器使用的解释图s并计算|s|；

S32，用预先设定的掩码率α，设定敏感性阈值θ＝α*(max(|s|)-min(|s|))+min(|s|)，记录所有满足|s|≥θ的位置(x_n，y_n，z_n)，n＝1,2,3,…,m，其中x_n和y_n是图像的坐标，z_n是图像的颜色通道；

S33，将每个对抗样本i’在所有(x_n，y_n，z_n)坐标上的像素值pixel修改为pixel+u，其中u是一个服从均值为0和标准差为图像像素值标准差的正态分布的随机数；其余位置的像素值保持不变，得到一张掩码后的图像i^*；每个对抗样本重复此过程后，得到一组掩码后的图像集I^*，包括训练集和测试集；

S34，用原始图像数据集I和掩码后的图像集I^*’训练新的图像分类器作为对抗样本恢复器R，其中掩码后的图像集I^*使用的标签是其真实的类别标签。

S35将i^*作为恢复器R的输入，恢复器最后输出对抗样本的真实类别。

优选的，在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中，掩码率α取0.6到0.9的值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于可解释性的检测并恢复神经网络对抗样本方法，检测器的检测正确率和AUC值更高，甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁，且具有可迁移性，具有更好的对抗样本恢复性能以及模型训练速度，更高的数据使用效率；并且可以显著提高对抗攻击的成本，使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本；另外高度模块化，可以方便地部署在已经投入使用的生产环境中，而不影响现有的神经网络架构；或方便地与其他现有防御方法组合使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的整体原理图；

图2附图为本发明的对抗样本检测流程图；

图3附图为本发明的对抗样本恢复流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于可解释性的检测并恢复神经网络对抗样本方法，检测器的检测正确率和AUC值更高，甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁，且具有可迁移性，具有更好的对抗样本恢复性能以及模型训练速度，更高的数据使用效率；并且可以显著提高对抗攻击的成本，使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本；另外高度模块化，可以方便地部署在已经投入使用的生产环境中，而不影响现有的神经网络架构；或方便地与其他现有防御方法组合使用。

目前的检测防御方法大多都基于原始图像的特征做检测，虽然在图像层面的特征上，原始样本和对抗样本(仅部分弱攻击方法)也能很好地区分，但攻击方法在知道防御机制的情况下(白盒攻击情景)，也能自适应地调整搜索噪声的方向，生成的对抗样本仍能突破检测器的防御。要解决该问题则需引入其它特征做检测。在使用神经网络模型时发现，利用解释工具在对一组干净样本和对抗样本生成解释图时，获得的解释图是不一样的(通常由基于梯度的解释器生成的解释图也被称作输入敏感性)。由此在防御过程中引入解释工具生成的解释图作为新的检测特征，并重新训练一个神经网络模型学习这样的特征以区分原始样本和对抗样本，作为检测器。实验表明，在仅用一种解释图检测器情况下，已经能有效检测多种攻击，而在使用随机森林模型集成原始图像特征检测器和多种解释图检测器后，能进一步提升对抗样本的检测正确率，并使得防御机制更鲁棒，能抵御白盒攻击。

一般的检测防御方法，会对所有进入模型的图像都进行修改或者修改模型去适应对抗样本以增强模型的鲁棒性，这样可能容易导致原分类器对于干净样本的分类预测正确率会大幅下降。因此提出先检测后恢复的机制，使得原分类器预测正确率在不下降很多的情况下，而大幅提高预测对抗样本标签的准确率。输入敏感性(解释图)也能解释对抗样本中哪块区域(像素)的噪声对分类器判别结果影响较大，因而抹去该区域(像素)的噪声信息，有助于恢复对抗样本的正确预测结果。

所述原始图像数据经过解释器得到至少四种解释图；

为了进一步优化上述技术方案，获取原始图像数据具体步骤包括：获取原始图像数据集I，其中，包括原始训练集I_train和原始测试集I_test，用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A；其中，将所述图像数据集中图像的像素值范围[0，255]映射为[0，1]；并预先设定一个在0到1之间的掩码率α，用来控制对抗样本被掩码的比例。

为了进一步优化上述技术方案，检测对抗样本的具体步骤包括：

S23，利用四种解释器分别得到原始训练集I_train，原始测试集I_test，对抗训练集I’_train和对抗测试集I’_test对于分类器模型C预测结果的解释图，得到对应的解释图数据集VG(VG_train，VG_test，VG’_train，VG’_test)，IG(IG_train，IG_test，IG’_train，IG’_test)，GBP(GBP_train，GBP_test，GBP’_train，GBP’_test)，LRP(LRP_train，LRP_test，LRP’_train，LRP’_test)；

为了进一步优化上述技术方案，集成五种检测器的步骤如下：

为了进一步优化上述技术方案，对抗样本恢复的具体步骤包括：

为了进一步优化上述技术方案，掩码率α取0.6到0.9的值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，具体步骤包括：

获取原始图像数据；

所述原始图像数据经过解释器得到四种解释图；

2.根据权利要求1所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，获取原始图像数据具体步骤包括：获取原始图像数据集I，其中，包括原始训练集I_train和原始测试集I_test，用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A；其中，将所述图像数据集中图像的像素值范围[0，255]映射为[0，1]；并预先设定一个在0到1之间的掩码率α，用来控制对抗样本被掩码的比例。

3.根据权利要求2所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，检测对抗样本的具体步骤包括：

S21，用对抗攻击算法A对原始图像数据集I中每个图像搜索噪声以生成对抗样本去攻击分类器模型C，保留攻击成功的对抗样本记为I’，生成与原图像对应的对抗训练集I’_train和对抗测试集I’_test；

S22，将所述原始图像数据集I标记为第一类干净样本类，将对抗样本I’标记为第二类对抗样本类，并训练二分类神经网络的数据检测器D_image，其输出是输入图像为第一类干净样本类和第二类对抗样本类的概率；

S24，标记第一类干净类和第二类对抗类，并输出对应的概率；

4.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，所述S24中具体步骤：将解释图原始训练集VG_train，IG_train，GBP_train，LRP_train，解释图原始测试集VG_test，IG_test，GBP_test，LRP_test标记为第一类干净类，将解释图对抗训练集VG’_train，IG’_train，GBP’_train，LRP’_train，解释图对抗测试集VG’_test，IG’_test，GBP’_test，LRP’_test标记为第二类对抗类，并分别训练对应的使用二分类神经网络的解释图检测器D_VG，D_IG，D_GBP，D_LRP，输出是输入图像为第一类干净类和第二类对抗类的概率。

5.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，集成五种检测器的步骤如下：

第一步，将输入图像i放入数据检测器D_image中，得到为第二类对抗样本类的概率p₁；生成i的四种解释图vg，ig，gbp，lrp，分别放入解释图检测器D_VG，D_IG，D_GBP，D_LRP中，得到为第二类对抗样本类的概率p₂，p₃，p₄，p₅

6.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，对抗样本恢复的具体步骤包括：

S33，将每个对抗样本i’在所有(x_n，y_n，z_n)坐标上的像素值pixel修改为pixel+u，其中u是一个服从均值为0和标准差为图像像素值标准差的正态分布的随机数；其余位置的像素值保持不变，得到一张掩码后的图像i^*；将i^*作为恢复器R的输入，恢复器最后输出对抗样本的真实类别。

7.根据权利要求6所述的一种基于可解释性的检测并恢复神经网络对抗样本方法，其特征在于，掩码率α取0.6到0.9的值。