CN109543760B

CN109543760B - 基于图像滤镜算法的对抗样本检测方法

Info

Publication number: CN109543760B
Application number: CN201811431005.4A
Authority: CN
Inventors: 易平; 顾双驰; 杨涛
Original assignee: Shanghai Jiaotong University; Third Research Institute of the Ministry of Public Security
Current assignee: Shanghai Jiaotong University; Third Research Institute of the Ministry of Public Security
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-10-19
Anticipated expiration: 2038-11-28
Also published as: CN109543760A

Abstract

一种基于图像滤镜算法的对抗样本检测方法，通过图像滤镜算法对待测样本进行处理后得到多个比对样本，将比对样本与待测样本一并输入深度学习模型进行分类，通过评估分类结果的不一致性以判断待测样本属于对抗样本或正常样本。本发明针对人工智能的图像对抗攻击，能够应用于图像分类，图像识别领域，能够以相对低廉的成本对输入样本进行检测进而提升深度学习模型的安全性能。

Description

基于图像滤镜算法的对抗样本检测方法

技术领域

本发明涉及的是一种人工智能领域的技术，具体是一种针对对抗样本攻击的基于图像滤镜算法的对抗样本检测方法。

背景技术

随着人工智能和深度学习技术的快速发展，机器学习本身的安全问题也不断涌现。当使用一些特定的攻击算法，对正常样本添加特定的图样，就可以把正常样本变为对抗样本，使深度学习模型得出错误的分类结果，但是从人看来样本并没有发生大的变化。因此目前有许多研究都在致力于使用独立的检测方法来抵御对抗样本的攻击。

发明内容

本发明针对上述现有技术的缺陷和不足，提出一种基于图像滤镜算法的对抗样本检测方法，通过使用图像滤镜算法修改深度学习模型的输入图像，通过分析分类结果是否具有不一致性来检测对抗样本，进而提升深度学习模型的鲁棒性。本发明针对人工智能的图像对抗攻击，能够应用于图像分类，图像识别领域，能够对输入样本进行检测进而提升深度学习模型的安全性能。

本发明是通过以下技术方案实现的：

本发明通过图像滤镜算法对待测样本进行处理后得到多个比对样本，将比对样本与待测样本一并输入深度学习模型进行分类，通过评估分类结果的不一致性以判断待测样本属于对抗样本或正常样本。

所述的待测样本采用但不限于图像、视频或其组合。

所述的图像滤镜算法包括：高斯模糊算法、中值模糊算法、颜色深度降低算法或其组合。

所述的深度学习模型为卷积神经网络。

所述的分类结果是指：深度学习模型对于待测样本和每个比对样本的预测分类结果，该分类结果p优选采用向量表示p＝[p₁,p₂,p₃,...]，其中：每一个分量代表输入图像在每一个类别的预测概率。

所述的不一致性是指：未经过滤镜算法处理的待测样本和经过滤镜算法处理的比对样本在分类结果中存在的差异，当待测样本为对抗样本，则该差异将显著增加，具体为：

dist₂ ^{(og,filtered)}＝||f(x)_og-f(x)_filtered||₂,f(x)＝<p₁(x),p2(x),p3(x),…>，其中：og为待测样本，filtered为比对样本，,f(x)为x待测样本的分类结果，||·||₂为对两个分类结果(概率向量)求欧几里得距离，<p₁(x),p₂(x),p₃(x),…>为以向量方式表示的x待测样本的分类结果。

所述的对抗样本的生成方法包括但不限于：快速梯度下降法(FGSM)、迭代的快速梯度下降算法(BIM)、基于优化的对抗样本距离计算方法(C&W)或其组合。

技术效果

本发明与现有同类技术相比具有低成本和高灵活性的特点：本发明采用的图像滤镜算法对计算机性能的要求相对于其他类型的对抗样本检测方法要更低，不需要昂贵的图形计算资源进行深度学习模型的二次训练，并且不需要对深度学习模型进行修改。而且本发明可以灵活运用于任意图像分类深度学习模型上，并且能与其他类型的对抗样本防御方法相结合，从而显著提升深度学习模型的图像分类鲁棒性。

附图说明

图1为本发明总体结构示意图；

图2为原始输入图像和经过滤镜算法处理后的图像输出分类结果的示意图。

图3为图像分类结果不一致性分析示意图。

具体实施方式

如图1所示，为本实施例涉及的一种基于图像滤镜算法实现的对抗样本检测系统，包括：依次级联的图像滤镜预处理模块、深度学习模型分类器模块和预测结果不一致性分析模块，其中：图像滤镜预处理模块将原始输入图像添加图像滤镜算法得到经过处理的输入图像，深度学习模型分类器模块根据原始输入图像以及经过处理的输入图像进行分类并输出分类结果，预测结果不一致性分析模块根据分类结果计算不一致性并得出原始输入图像是否是对抗样本的检测结果。

所述的原始输入图像中包括经修改的图像和未经修改的图像，其中的修改是指：使用滤镜算法对图像进行处理。

所述的计算不一致性是指：

dist₂ ^{(og,filtered)}＝||f(x)_og-f(x)_filtered||₂,f(x)＝<p₁(x),p₂(x),p₃(x),…>，其中：其中：og为原始输入图片，filtered为经过滤镜算法处理后的图像，,f(x)为x输入图像的分类结果，||·||₂为对两个分类结果(概率向量)求欧几里得距离，<p₁(x),p₂(x),p₃(x),…〉为以向量方式表示的x待测样本的分类结果；当计算得到的不一致性结果超过阈值则认为原始图像为对抗样本。

本实施例中,f(x)分类结果的维度与深度学习分类器的总类别保持一致。本实施例中的深度学习模型可以是任意的图像分类神经网络。

如图2和图3所示，本实施例涉及上述系统的针对对抗样本攻击的基于图像滤镜算法的对抗样本检测方法，包括以下步骤：

a)将原始输入图像X_og输入图像滤镜预处理模块得到多个经过处理的输入图像X_f1、X_f2、X_f3等。

b)将原始输入图像X_og和经过处理的输入图像X_f1、X_f2、X_f3等都输入深度学习模型中进行分类，得到对应各个输入的预测结果R_og(原始输入图像结果)和R_f1、R_f2、R_f3(滤镜处理后图像的结果)。

所述的深度学习模型具体采用基于卷积神经网络实现的图像分类器。

c)将所有预测结果输入不一致性分析模块，得到量化的预测结果不一致性值Inc。

d)当不一致性值Inc超过阈值α，则判断原始输入图像X_og为对抗样本，当低于α，则判断原始输入图像X_og为正常样本。

和现有的对抗样本检测技术在成本方面进行对比，基于图像滤镜算法的对抗样本检测方法(本方法)在保持高检测率的同时，具有硬件成本低廉与效率高的特点。

用现有的对抗样本检测技术在MNIST和ImageNet数据集上进行测试后，效果分别如下：

a)MNIST:

I.核密度法(Kernel Density)：95.7％

II.LID(局部内在维度)：96.9％

III.基于图像滤镜算法的对抗样本检测方法(本方法)：97.2％

b)ImageNet:

I.LID(局部内在维度)：85.8％

II.基于图像滤镜算法的对抗样本检测方法(本方法)：86.2％

由结果可知，在低分辨率内容简单的MNIST数据集上，本方法的检测率高达97.2％，在具备更低成本的前提下获得了更高的检测率。而在ImageNet这类非常复杂的数据集上，本方法也能保持较高的检测率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于图像滤镜算法的对抗样本检测方法的实现系统，其特征在于，包括：依次级联的图像滤镜预处理模块、深度学习模型分类器模块和预测结果不一致性分析模块，其中：图像滤镜预处理模块将原始输入图像添加图像滤镜算法得到经过处理的输入图像，深度学习模型分类器模块根据原始输入图像以及经过处理的输入图像进行分类并输出分类结果，预测结果不一致性分析模块根据分类结果计算不一致性并得出原始输入图像是否是对抗样本的检测结果；

所述的原始输入图像采用图像、视频或其组合；

所述的图像滤镜算法包括：高斯模糊算法、中值模糊算法、颜色深度降低算法或其组合；

所述的分类结果p采用向量表示p＝[p₁,p₂,p₃,...]，其中：每一个分量代表输入图像在每一个类别的预测概率；

dist₂ ^{(og，filtered)}＝||f(x)_og-f(x)_filtered||₂，f(x)＝<p₁(x)，p₂(x)，p₃(x)，…>，其中：og为待测样本，filtered为比对样本，f(x)为样本的分类结果，||·||₂为对两个分类结果，即概率向量求欧几里得距离，<p₁(x)，p₂(x)，p₃(x)，…>为以向量方式表示的样本的分类结果；

所述的对抗样本的生成方法包括：快速梯度下降法、迭代的快速梯度下降算法、基于优化的对抗样本距离计算方法或其组合；

所述的基于图像滤镜算法的对抗样本检测是指：通过图像滤镜算法对待测样本进行处理后得到多个比对样本，将比对样本与待测样本一并输入卷积神经网络进行分类，通过评估分类结果，即卷积神经网络对于待测样本和每个比对样本的预测分类结果的不一致性以判断待测样本属于对抗样本或正常样本，具体为：

a)将原始输入图像X_og输入图像滤镜预处理模块得到多个经过处理的输入图像X_f1、X_f2、X_f3；

b)将原始输入图像X_og和经过处理的输入图像X_f1、X_f2、X_f3都输入深度学习模型中进行分类，得到对应各个输入的原始输入图像结果R_og和滤镜处理后图像的结果R_f1、R_f2、R_f3；

所述的深度学习模型具体采用基于卷积神经网络实现的图像分类器；

c)将所有预测结果输入不一致性分析模块，得到量化的预测结果不一致性值Inc；

d)当不一致性值Inc超过阈值α，则判断原始输入图像X_og为对抗样本，当不一致性值Inc低于α，则判断原始输入图像X_og为正常样本。