CN112836716B

CN112836716B - 一种可解释区域引导的对抗样本检测方法

Info

Publication number: CN112836716B
Application number: CN202010858301.3A
Authority: CN
Inventors: 范铭; 魏佳利; 刘烃; 徐茜; 贾昂; 魏闻英
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-05-20
Anticipated expiration: 2040-08-24
Also published as: CN112836716A

Abstract

本发明公开了一种可解释区域引导的对抗样本检测方法，采用了深度学习模型的可解释方法引导特征压缩：首先应用可解释方法，得到输入样本的可解释结果，并分割出可解释区域和非可解释区域；然后对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法，提高了检测的性能，减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。

Description

一种可解释区域引导的对抗样本检测方法

技术领域

本发明属于智能系统安全和深度学习模型可解释性领域，特别涉及一种可解释区域引导的对抗样本检测方法。

背景技术

随着深度神经网络、人工智能的快速发展，深度学习算法越来越多地应用于各个领域，比如图像分类、图像识别、物体检测，并且有着非常显著的优势，但在某些方面也有着明显的不足。首先就是我们无法解释深度神经网络模型的决策过程，目前有很多关于深度神经网络模型可解释性的研究，可以将图像中对模型决策起重要作用的区域高亮出来。此外，对抗样本也是深度神经网络的进一步应用所必须要解决的关键问题。所谓对抗样本，在图像识别领域，是指对图像样本加入“精心设计”的细微扰动，人眼基本看不出有任何变化，但是深度神经网络模型却分类错误的这些样本。因此当在一些与安全密切相关的领域，比如医学诊断领域，自动驾驶领域和恶意软件检测等领域应用深度神经网络模型时，我们必须检测和防御对抗样本。

目前，关于对抗样本的防御技术，主要可以分为三大类：对抗训练、梯度掩蔽和输入转换。

对抗训练是指首先产生对抗样本，再将对抗样本和其对应的正常标签引入到训练中，进行重新训练。那么在一定程度上，重新训练后的模型，就对用于训练的对抗样本以及与之相似的对抗样本产生鲁棒性。但是，当对抗样本与用于训练的对抗样本有一定差距时，仍会攻击成功。

“梯度掩蔽”防御试图降低DNN模型对输入微小变化的敏感性。但是对于这种防御方法，研究表明，由于对抗样本的可转移性，防御成功的概率有限。

输入转换是指不改变原始的DNN模型，而是在进行预测之前，对模型的输入进行变换，代表性的方法就是特征压缩。但是特征压缩方法没有考虑可解释结果，直接对整个输入图像进行特征压缩，可能会使正常样本的可解释区域受到太大扰动，造成正常样本被误分类为对抗样本。

发明内容

本发明的内容在于提出一种可解释区域引导的对抗样本检测方法，以克服特征压缩方法在检测对抗样本中的不足。本方法采用了深度学习模型的可解释方法引导特征压缩：首先应用可解释方法，得到输入样本的可解释结果，并分割出可解释区域和非可解释区域；然后对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法，提高了检测的性能，减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。

为了达到上述目的，本发明采用以下技术方案予以实现，包括以下步骤：

1)、得到输入样本的可解释结果，并分割出可解释区域和非可解释区域：

步骤S1：通过分析样本数据集，得到相应的训练集和测试集，构建卷积神经网络模型，并进行训练和测试，得到具有良好分类性能的卷积神经网络模型；

步骤S2：通过分析卷积神经网络模型的结构，应用可解释方法，得到输入样本对应的可解释结果；

步骤S3：基于图像分割思想，首先对得到的可解释结果生成分割阈值，再根据阈值将其分割成为相应的可解释区域和非可解释区域；

2)、对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测：

步骤S4：对正常样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化，从正常样本的预测变化diff中选择一个阈值∈，使得正常样本的预测变化大于此阈值∈的比率不超过0.05；

步骤S5：对输入样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化pre-diff；

步骤S6：根据步骤S4得到的阈值∈，如果步骤S5的预测变化pre-diff大于阈值∈，判断输入样本为对抗样本；小于阈值∈，判断输入样本为对抗样本，以此来实现对对抗样本的检测。

进一步的，所述步骤S1的具体方法为：

步骤S101：得到样本数据集A，并将样本数据集A划分为独立的训练集B和测试集

步骤S102：通过分析样本数据集A中的图片大小和分类数目，构建与其对应的卷积神经网络模型；

步骤S103：通过训练集B进行优化训练，并通过测试集D测试训练好的模型；

步骤S104：如果测试的分类性能不能满足要求，改变卷积神经网络模型结构，返回步骤S103；

步骤S105：最终得到具有良好分类性能的卷积神经网络模型。

进一步的，所述步骤S2的具体方法为：

步骤S201：分析步骤S1训练好的卷积神经网络模型的结构，得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射A^k，采用全局平均池化(GlobalAverage Pooling,GAP)和线性变换得到每个类别c分数的y^c；

步骤S202：然后计算分数y^c相对于特征映射A^k的梯度

经过GAP得到神经元的重要性权重

公式如下：

步骤S203：通过一个加权的前向激活映射组合，再经过ReLU激活函数，得到每个类c对应的Grad-CAM可解释结果为：

步骤S204：通过将Grad-CAM可解释方法得到的可解释结果与Guided BackPropagation可解释方法得到的可解释结果进行点积运算得到最终的Guided Grad-CAM可解释结果。

进一步的，所述步骤S3的具体方法为：

步骤S301：首先对于步骤S2得到的输入样本可解释结果，生成其相应的直方图；

步骤S302：选择一个初始的阈值θ；

步骤S303：用θ来分割图像，将得到两组像素点G1和G2。其中G1中的像素点的像素值大于阈值θ；其中G2中的像素点的像素值小于阈值θ；

步骤S304：计算两组像素点中像素值的均值，G1中的像素值均值用mean1表示；G2中的像素值均值用mean2表示；

步骤S305：计算新的阈值θ＝(1/2)(mean1+mean2)；

步骤S306：重复步骤S303到步骤S305，直到相邻两次阈值θ之间的差距小于预定义的一个很小的常数θ₀；

步骤S307：对于可解释结果中大于分割阈值θ的部分，被划分为可解释区域；小于分割阈值θ的部分，被划分为非可解释区域。

进一步的，所述步骤S4的具体方法为：

步骤S401：选择部分正常样本作为计算阈值∈的训练样本；

步骤S402：选择降低比特位深度、中值滤波和高斯滤波作为联合特征压缩的三个特征压缩方法；

步骤S403：将正常样本经过联合特征压缩器，对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩，之后再输入卷积神经网络模型，并得到其预测值；

步骤S404：与未经过联合特征压缩得到的预测值进行比较，得到预测变化diff；

步骤S405：从正常样本的预测变化diff中选择一个阈值∈，使得正常样本的预测变化大于此阈值∈的比率不超过0.05。

进一步的，所述步骤S4实现联合特征压缩的具体方法为：

步骤S501：选择特征压缩方法：降低比特位深度、中值滤波和高斯滤波；

步骤S502：计算输入样本经过每个特征压缩方法后的模型预测变化

用L₁- 范数来衡量：

步骤S503：计算各种特征压缩方法得到的模型预测变化最大值，作为联合特征压缩的模型预测变化diff^joint：

进一步的，所述步骤S5的具体方法为：

将输入样本经过联合特征压缩器，对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩，之后再输入卷积神经网络模型，并得到其预测值；并与未经过联合特征压缩得到的预测值进行比较，得到预测变化pre-diff。

进一步的，所述步骤S6的具体方法为：

根据步骤S4得到的阈值∈，如果步骤S5的预测变化pre-diff大于阈值∈，判断输入样本为对抗样本；小于阈值∈，判断输入样本为对抗样本，以此来实现对对抗样本的检测。

从以上技术方案可以看出，本发明具有以下有益效果：

1)本发明方法在检测和防御对抗样本时，不改变深度神经网络模型的结构，只对输入样本进行处理，具有更好的泛化性能。

2)本发明方法利用直方图分割方法得到图像分割阈值，可以实现更好的分割效果，得到可解释区域和非可解释区域。

3)本发明方法利用了深度神经网络模型的可解释结果引导特征压缩，提高了对抗样本的检测性能。

4)本发明方法利用了联合特征压缩方法，在实际运用中，对多种攻击方法都可以实现好的检测效果，提高对多种攻击方法防御的泛化能力。

附图说明

图1为本发明可解释区域引导的对抗样本检测方法整体流程图；

图2为卷积神经网络构建和训练过程流程图；

图3为判断阈值∈的计算方法流程图。

具体实施方式

以下结合附图详细说明本发明可解释区域引导的对抗样本检测方法的具体实施方式。

参见图1，本发明是一种可解释区域引导的对抗样本检测方法，包括以下步骤：

步骤S1：通过分析样本数据集，得到相应的训练集和测试集，构建卷积神经网络模型，并进行训练和测试，得到具有良好分类性能的卷积神经网络模型。

结合图2，具体而言，步骤S1具体步骤如下：

步骤S105：最终得到具有良好分类性能的卷积神经网络模型。

步骤S2：通过分析卷积神经网络模型的结构，应用可解释方法，得到输入样本对应的可解释结果。

具体而言，所述步骤S2的步骤如下：

步骤S202：然后计算分数y^c相对于特征映射A^k的梯度

经过GAP得到神经元的重要性权重

公式如下：

步骤S3：基于图像分割思想，首先对得到的可解释结果生成分割阈值，再根据阈值将其分割成为相应的可解释区域和非可解释区域。

具体而言，所述步骤S3的步骤如下：

步骤S302：选择一个初始的阈值θ；

步骤S305：计算新的阈值θ＝(1/2)(mean1+mean2)；

对输入样本非可解释区域对应的图像部分进行特征压缩，并得到特征压缩前后的模型预测变化，最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测：

步骤S4：对正常样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化，从正常样本的预测变化diff中选择一个阈值∈，使得正常样本的预测变化大于此阈值∈的比率不超过0.05。

结合图3，具体而言，步骤S4具体步骤如下：

步骤S401：选择部分正常样本作为计算阈值∈的训练样本；

具体而言，实现联合特征压缩的具体步骤如下：

用L₁- 范数来衡量：

步骤S5：对输入样本非可解释区域对应的图像部分进行联合特征压缩，得到其压缩前后的模型预测变化pre-diff。

具体而言，所述步骤S5的实现方法如下：

具体而言，所述步骤S6的实现方法如下：

本发明在整个检测对抗样本的过程中，不需要深度神经网络模型的先验知识，不依赖于模型的架构特性，使得该算法具有极强的泛化性能。结合可解释方法来引导特征压缩，显著地提高了对抗样本的检测率，降低了正常样本的误报率。采用了联合特征压缩的方法，在具体的实际应用过程中，可以对未知类型的对抗样本都实现很好的检测性能，增加了此方法的实用性和泛化能力。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。