CN113222056B

CN113222056B - 面向图像分类系统攻击的对抗样本检测方法

Info

Publication number: CN113222056B
Application number: CN202110592135.1A
Authority: CN
Inventors: 罗森林; 于浩淼; 潘丽敏; 李玉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-11-08
Anticipated expiration: 2041-05-28
Also published as: CN113222056A

Abstract

本发明涉及一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法，属于人工智能对抗领域。主要为了解决对抗样本数量、种类较少难以用于训练和仅使用良性样本训练时深度神经网络隐藏层特征数量较多、相似特征计算量大的问题。本发明首先将只包含良性样本的训练集输入到被攻击图像分类系统中，提取系统隐藏层特征构建隐藏层特征池；并将其按照标签分别进行聚类，将每个簇中心作为该标签代表性特征向量，构建代表性特征池；对于测试样本，先进行图像去噪，再输入到系统中提取隐藏层特征，计算该特征在所有代表性特征中的K近邻，将其中出现频率最高的标签与直接将样本输入系统得到的标签比较，如果不同则为对抗样本。

Description

面向图像分类系统攻击的对抗样本检测方法

技术领域

本发明涉及一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法，属于人工智能对抗领域。

背景技术

随着深度神经网络模型的不断改进，深度学习能够更快速地从海量的数据中学习数据的特征，并给出更准确的判断或者分类结果。深度神经网络模型逐渐深入到安全性至关重要的任务中，如自动驾驶汽车、恶意软件检测、面部识别等领域。

当深度学习以惊人的准确性执行各种各样任务的同时，Szegedy等人却发现在图像分类领域，深度神经网络容易受到人眼无法察觉的微小扰动的攻击，从而导致模型完全改变对图像的预测结果，并且相同的微小扰动能够同时攻击多个深度神经网络模型。这一结果预示着对抗攻击将能够干扰深度神经网络模型的判别结果，从而导致自动驾驶汽车识别障碍物失败等重要的安全问题。

为防御对抗攻击，对抗样本检测方法必不可少。现有的对抗样本检测方法主要有三种，分别是预测不一致性判别、添加辅助网络检测、使用统计数据区分。预测不一致性判别的方法，基于分类器对良性样本有着稳定预测的思想，判断是否不同分类器在输入同一样本时输出存在分歧，如果存在分歧则说明输入为对抗样本。添加辅助网络检测的方法，需要增加一个辅助网络，用来检测输入样本是良性样本还是对抗样本。为提高辅助网络的检测性能，往往需要大量的良性样本和对抗样本作为训练集，但在实际中可用的对抗样本数量种类相对有限，容易使检测网络面临过拟合、泛化能力差的问题。使用统计数据区分的方法，同样需要大量的对抗样本用于计算和比对，也面临着对抗样本数据不足的问题，而且只能检测出远离良性样本分布的对抗样本。

传统的对抗样本检测方法往往需要大量的对抗样本作为训练数据，无法适应对抗样本数量和种类较少的情况，也无法识别出训练集中未包含种类的对抗样本。一些只使用良性样本用于训练的方法，能够识别出未知的对抗攻击，但通常是对良性样本的流形进行建模，忽略了深度神经网络在样本输入后体现的内在特征。现有方法在利用深度神经网络隐藏层特征时，也存在特征数量过多，相似特征计算量大的困难。

发明内容

本发明的目的是为解决对抗样本数量、种类较少难以用于训练和仅使用良性样本训练时深度神经网络隐藏层特征数量较多、相似特征计算量大的问题，提出一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法。

本发明的设计原理为：将只包含良性样本的训练集输入到被攻击的图像分类系统中，对于每个输入样本，提取系统的隐藏层特征，组成一个特征向量，特征向量的标签即为输入样本的分类标签。所有输入样本的特征向量及其标签组成了隐藏层特征池。对于隐藏层特征池中的所有特征向量按照标签分别进行聚类，提取每次聚类形成的各个簇中心特征向量及其标签组成代表性特征池。对于测试集中每个样本，先进行图像去噪，然后输入到被攻击的图像分类系统中，提取系统的隐藏层特征，组成一个特征向量，并计算该向量在代表性特征池中的K近邻，K近邻中出现频率最高的标签即为标签1；样本直接输入到被攻击图像分类系统，得到的分类为标签2。如果标签1和2相等，则为良性样本，否则为对抗样本。具体过程见图1。

本发明的技术方案是通过如下步骤实现的：

步骤1，训练集样本深度神经网络隐藏层特征提取。

步骤2，隐藏层特征池构建。

步骤3，同标签特征聚类。

步骤4，代表性特征池构建。

步骤5，测试集样本图像去噪。

步骤6，测试集样本深度神经网络隐藏层特征提取。

步骤7，K近邻算法计算测试样本特征对应标签。

步骤8，被攻击系统计算测试样本对应标签。

步骤9，根据步骤7和8得到的标签是否不同来检测对抗样本。

有益效果

相对于一般采用的方法，本发明采用的深度神经网络隐藏层代表性特征最近邻搜索方法，只使用良性样本用于训练，不受对抗样本数量和种类的限制，具有泛化性。且通过聚类的方法筛选出具有代表性的良性样本深度神经网络隐藏层特征显著降低了相似特征搜索的计算量。

附图说明

图1为本发明的深度神经网络隐藏层代表性特征最近邻搜索方法原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，训练集样本深度神经网络隐藏层特征提取。将训练集大小为m、标签类别数量为n的样本集合X_train输入到被攻击系统中，被攻击系统为N(N≥3)层的深度神经网络，其中第一层为输入层，第N层为输出层，有N-2的隐藏层。每个隐藏层有s_p(2≤p≤N-1)个神经元，每个神经元的输出为y_pq(1≤q≤s_p)，所有隐藏层神经元的总数为

对于每个标签序号为

的训练样本

将所有隐藏层神经元的输出按顺序组合，构建特征

该特征向量的长度为S。

步骤2，隐藏层特征池构建。使用所有训练样本的深度神经网络隐藏层特征及其标签序号构建隐藏层特征池

步骤3，同标签特征聚类。

步骤3.1，按标签分类隐藏层特征池中的特征。将T₁中的(特征向量，标签序号)数据，按照标签序号的不同，分为n类。在每一类中，有c_a(1≤a≤n)个(特征向量，标签序号)数据，所有数据的标签序号完全相同。

步骤3.2，对每类的数据进行聚类。使用K-means算法对c_a个特征向量进行聚类，通过余弦相似度计算特征向量之间距离。聚类结束后得到K₁个簇，每个簇的中心特征向量

即为代表性特征向量。因此，可以得到每个类的代表性特征向量集合

步骤4，代表性特征池构建。使用每个类别的代表性特征向量构建代表性特征池T₂＝{T_2a,1≤a≤n}。

步骤5，测试集样本图像去噪。为去除图像噪声，使用3*3的滑动窗口，对测试样本x_test进行中值滤波，得到x^′ _test。

步骤6，测试集样本深度神经网络隐藏层特征提取。将x^′ _test输入到被攻击系统中，按照与步骤1同样的方式，将所有隐藏层神经元的输出按顺序组合，构建特征t_test。

步骤7，K近邻算法计算测试样本特征对应标签。使用K近邻算法，计算t_test在T₂所有代表性特征向量中最近的K₂个特征向量。将这K₂个特征向量所对应的标签序号中出现频率最高的作为t_test的标签序号

步骤8，被攻击系统计算测试样本对应标签。将测试样本x_test输入到被攻击系统中，得到系统的输出标签序号

步骤9，根据步骤7和8得到的标签是否不同来检测对抗样本。如果

等于

则判断为良性样本；如果不等，则判断为对抗样本。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法，其特征在于所述方法包括如下步骤：

步骤1，将训练集输入到被攻击系统中，按顺序组合系统所有隐藏层神经元的输出，构建深度神经网络隐藏层特征：假定系统是一个N层的深度神经网络模型，将每个隐藏层的s_p(2≤p≤N-1)个神经元的输出y_pq(1≤q≤s_p)顺序组合得到训练样本特征

步骤2，使用所有训练样本的深度神经网络隐藏层特征及其标签构建隐藏层特征池；

步骤3，首先按标签分类隐藏层特征池中的特征，然后使用K-means算法对每类的特征进行聚类，通过余弦相似度计算特征向量之间的距离，得到的每个簇的中心即为该类的代表性特征；

步骤4，使用每个类别的代表性特征及其标签构建代表性特征池；

步骤5，使用3*3的滑动窗口对测试样本进行中值滤波以去除图像噪声；

步骤6，将去除噪声后的测试样本，输入到被攻击系统中，按照与步骤1同样的方式，将所有隐藏层神经元的输出按顺序组合，构建特征；

步骤7，使用K近邻算法，计算测试样本特征在代表性特征池中最近的K个特征，将这K个特征所对应的标签中出现频率最高的作为测试样本的标签1；

步骤8，将原始的测试样本输入到被攻击系统中，得到系统的输出为标签2；

步骤9，如果标签1等于标签2，则判断为良性样本，如果不等，则判断为对抗样本。