CN113222056B - 面向图像分类系统攻击的对抗样本检测方法 - Google Patents

面向图像分类系统攻击的对抗样本检测方法 Download PDF

Info

Publication number
CN113222056B
CN113222056B CN202110592135.1A CN202110592135A CN113222056B CN 113222056 B CN113222056 B CN 113222056B CN 202110592135 A CN202110592135 A CN 202110592135A CN 113222056 B CN113222056 B CN 113222056B
Authority
CN
China
Prior art keywords
hidden layer
sample
label
features
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110592135.1A
Other languages
English (en)
Other versions
CN113222056A (zh
Inventor
罗森林
于浩淼
潘丽敏
李玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110592135.1A priority Critical patent/CN113222056B/zh
Publication of CN113222056A publication Critical patent/CN113222056A/zh
Application granted granted Critical
Publication of CN113222056B publication Critical patent/CN113222056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法,属于人工智能对抗领域。主要为了解决对抗样本数量、种类较少难以用于训练和仅使用良性样本训练时深度神经网络隐藏层特征数量较多、相似特征计算量大的问题。本发明首先将只包含良性样本的训练集输入到被攻击图像分类系统中,提取系统隐藏层特征构建隐藏层特征池;并将其按照标签分别进行聚类,将每个簇中心作为该标签代表性特征向量,构建代表性特征池;对于测试样本,先进行图像去噪,再输入到系统中提取隐藏层特征,计算该特征在所有代表性特征中的K近邻,将其中出现频率最高的标签与直接将样本输入系统得到的标签比较,如果不同则为对抗样本。

Description

面向图像分类系统攻击的对抗样本检测方法
技术领域
本发明涉及一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法,属于人工智能对抗领域。
背景技术
随着深度神经网络模型的不断改进,深度学习能够更快速地从海量的数据中学习数据的特征,并给出更准确的判断或者分类结果。深度神经网络模型逐渐深入到安全性至关重要的任务中,如自动驾驶汽车、恶意软件检测、面部识别等领域。
当深度学习以惊人的准确性执行各种各样任务的同时,Szegedy等人却发现在图像分类领域,深度神经网络容易受到人眼无法察觉的微小扰动的攻击,从而导致模型完全改变对图像的预测结果,并且相同的微小扰动能够同时攻击多个深度神经网络模型。这一结果预示着对抗攻击将能够干扰深度神经网络模型的判别结果,从而导致自动驾驶汽车识别障碍物失败等重要的安全问题。
为防御对抗攻击,对抗样本检测方法必不可少。现有的对抗样本检测方法主要有三种,分别是预测不一致性判别、添加辅助网络检测、使用统计数据区分。预测不一致性判别的方法,基于分类器对良性样本有着稳定预测的思想,判断是否不同分类器在输入同一样本时输出存在分歧,如果存在分歧则说明输入为对抗样本。添加辅助网络检测的方法,需要增加一个辅助网络,用来检测输入样本是良性样本还是对抗样本。为提高辅助网络的检测性能,往往需要大量的良性样本和对抗样本作为训练集,但在实际中可用的对抗样本数量种类相对有限,容易使检测网络面临过拟合、泛化能力差的问题。使用统计数据区分的方法,同样需要大量的对抗样本用于计算和比对,也面临着对抗样本数据不足的问题,而且只能检测出远离良性样本分布的对抗样本。
传统的对抗样本检测方法往往需要大量的对抗样本作为训练数据,无法适应对抗样本数量和种类较少的情况,也无法识别出训练集中未包含种类的对抗样本。一些只使用良性样本用于训练的方法,能够识别出未知的对抗攻击,但通常是对良性样本的流形进行建模,忽略了深度神经网络在样本输入后体现的内在特征。现有方法在利用深度神经网络隐藏层特征时,也存在特征数量过多,相似特征计算量大的困难。
发明内容
本发明的目的是为解决对抗样本数量、种类较少难以用于训练和仅使用良性样本训练时深度神经网络隐藏层特征数量较多、相似特征计算量大的问题,提出一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法。
本发明的设计原理为:将只包含良性样本的训练集输入到被攻击的图像分类系统中,对于每个输入样本,提取系统的隐藏层特征,组成一个特征向量,特征向量的标签即为输入样本的分类标签。所有输入样本的特征向量及其标签组成了隐藏层特征池。对于隐藏层特征池中的所有特征向量按照标签分别进行聚类,提取每次聚类形成的各个簇中心特征向量及其标签组成代表性特征池。对于测试集中每个样本,先进行图像去噪,然后输入到被攻击的图像分类系统中,提取系统的隐藏层特征,组成一个特征向量,并计算该向量在代表性特征池中的K近邻,K近邻中出现频率最高的标签即为标签1;样本直接输入到被攻击图像分类系统,得到的分类为标签2。如果标签1和2相等,则为良性样本,否则为对抗样本。具体过程见图1。
本发明的技术方案是通过如下步骤实现的:
步骤1,训练集样本深度神经网络隐藏层特征提取。
步骤2,隐藏层特征池构建。
步骤3,同标签特征聚类。
步骤4,代表性特征池构建。
步骤5,测试集样本图像去噪。
步骤6,测试集样本深度神经网络隐藏层特征提取。
步骤7,K近邻算法计算测试样本特征对应标签。
步骤8,被攻击系统计算测试样本对应标签。
步骤9,根据步骤7和8得到的标签是否不同来检测对抗样本。
有益效果
相对于一般采用的方法,本发明采用的深度神经网络隐藏层代表性特征最近邻搜索方法,只使用良性样本用于训练,不受对抗样本数量和种类的限制,具有泛化性。且通过聚类的方法筛选出具有代表性的良性样本深度神经网络隐藏层特征显著降低了相似特征搜索的计算量。
附图说明
图1为本发明的深度神经网络隐藏层代表性特征最近邻搜索方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,训练集样本深度神经网络隐藏层特征提取。将训练集大小为m、标签类别数量为n的样本集合Xtrain输入到被攻击系统中,被攻击系统为N(N≥3)层的深度神经网络,其中第一层为输入层,第N层为输出层,有N-2的隐藏层。每个隐藏层有sp(2≤p≤N-1)个神经元,每个神经元的输出为ypq(1≤q≤sp),所有隐藏层神经元的总数为
Figure BDA0003089979170000031
对于每个标签序号为
Figure BDA0003089979170000032
的训练样本
Figure BDA0003089979170000033
将所有隐藏层神经元的输出按顺序组合,构建特征
Figure BDA0003089979170000034
该特征向量的长度为S。
步骤2,隐藏层特征池构建。使用所有训练样本的深度神经网络隐藏层特征及其标签序号构建隐藏层特征池
Figure BDA0003089979170000035
步骤3,同标签特征聚类。
步骤3.1,按标签分类隐藏层特征池中的特征。将T1中的(特征向量,标签序号)数据,按照标签序号的不同,分为n类。在每一类中,有ca(1≤a≤n)个(特征向量,标签序号)数据,所有数据的标签序号完全相同。
步骤3.2,对每类的数据进行聚类。使用K-means算法对ca个特征向量进行聚类,通过余弦相似度计算特征向量之间距离。聚类结束后得到K1个簇,每个簇的中心特征向量
Figure BDA0003089979170000036
即为代表性特征向量。因此,可以得到每个类的代表性特征向量集合
Figure BDA0003089979170000037
步骤4,代表性特征池构建。使用每个类别的代表性特征向量构建代表性特征池T2={T2a,1≤a≤n}。
步骤5,测试集样本图像去噪。为去除图像噪声,使用3*3的滑动窗口,对测试样本xtest进行中值滤波,得到x test
步骤6,测试集样本深度神经网络隐藏层特征提取。将x test输入到被攻击系统中,按照与步骤1同样的方式,将所有隐藏层神经元的输出按顺序组合,构建特征ttest
步骤7,K近邻算法计算测试样本特征对应标签。使用K近邻算法,计算ttest在T2所有代表性特征向量中最近的K2个特征向量。将这K2个特征向量所对应的标签序号中出现频率最高的作为ttest的标签序号
Figure BDA0003089979170000041
步骤8,被攻击系统计算测试样本对应标签。将测试样本xtest输入到被攻击系统中,得到系统的输出标签序号
Figure BDA0003089979170000042
步骤9,根据步骤7和8得到的标签是否不同来检测对抗样本。如果
Figure BDA0003089979170000043
等于
Figure BDA0003089979170000044
则判断为良性样本;如果不等,则判断为对抗样本。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法,其特征在于所述方法包括如下步骤:
步骤1,将训练集输入到被攻击系统中,按顺序组合系统所有隐藏层神经元的输出,构建深度神经网络隐藏层特征:假定系统是一个N层的深度神经网络模型,将每个隐藏层的sp(2≤p≤N-1)个神经元的输出ypq(1≤q≤sp)顺序组合得到训练样本特征
Figure FDA0003794295410000011
步骤2,使用所有训练样本的深度神经网络隐藏层特征及其标签构建隐藏层特征池;
步骤3,首先按标签分类隐藏层特征池中的特征,然后使用K-means算法对每类的特征进行聚类,通过余弦相似度计算特征向量之间的距离,得到的每个簇的中心即为该类的代表性特征;
步骤4,使用每个类别的代表性特征及其标签构建代表性特征池;
步骤5,使用3*3的滑动窗口对测试样本进行中值滤波以去除图像噪声;
步骤6,将去除噪声后的测试样本,输入到被攻击系统中,按照与步骤1同样的方式,将所有隐藏层神经元的输出按顺序组合,构建特征;
步骤7,使用K近邻算法,计算测试样本特征在代表性特征池中最近的K个特征,将这K个特征所对应的标签中出现频率最高的作为测试样本的标签1;
步骤8,将原始的测试样本输入到被攻击系统中,得到系统的输出为标签2;
步骤9,如果标签1等于标签2,则判断为良性样本,如果不等,则判断为对抗样本。
CN202110592135.1A 2021-05-28 2021-05-28 面向图像分类系统攻击的对抗样本检测方法 Active CN113222056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110592135.1A CN113222056B (zh) 2021-05-28 2021-05-28 面向图像分类系统攻击的对抗样本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110592135.1A CN113222056B (zh) 2021-05-28 2021-05-28 面向图像分类系统攻击的对抗样本检测方法

Publications (2)

Publication Number Publication Date
CN113222056A CN113222056A (zh) 2021-08-06
CN113222056B true CN113222056B (zh) 2022-11-08

Family

ID=77099151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592135.1A Active CN113222056B (zh) 2021-05-28 2021-05-28 面向图像分类系统攻击的对抗样本检测方法

Country Status (1)

Country Link
CN (1) CN113222056B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145778A (zh) * 2017-05-04 2017-09-08 北京邮电大学 一种入侵检测方法及装置
CN110866287A (zh) * 2019-10-31 2020-03-06 大连理工大学 一种基于权重谱生成对抗样本的点攻击方法
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法
CN111460881A (zh) * 2020-01-16 2020-07-28 华中科技大学 基于近邻判别的交通标志对抗样本检测方法和分类装置
CN111538991A (zh) * 2020-07-09 2020-08-14 鹏城实验室 对抗样本检测方法、装置及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321790B (zh) * 2019-05-21 2023-05-12 华为技术有限公司 一种对抗样本的检测方法及电子设备
CN110674937A (zh) * 2019-07-04 2020-01-10 北京航空航天大学 一种提升深度学习模型鲁棒性的训练方法及系统
CN111401407B (zh) * 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN112396129B (zh) * 2020-12-08 2023-09-05 中山大学 一种对抗样本检测方法及通用对抗攻击防御系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145778A (zh) * 2017-05-04 2017-09-08 北京邮电大学 一种入侵检测方法及装置
CN110866287A (zh) * 2019-10-31 2020-03-06 大连理工大学 一种基于权重谱生成对抗样本的点攻击方法
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法
CN111460881A (zh) * 2020-01-16 2020-07-28 华中科技大学 基于近邻判别的交通标志对抗样本检测方法和分类装置
CN111538991A (zh) * 2020-07-09 2020-08-14 鹏城实验室 对抗样本检测方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于聚类降维的改进KNN文本分类;刘海峰等;《微计算机信息》;20100125;第26卷(第1-3期);参见第3、4节 *

Also Published As

Publication number Publication date
CN113222056A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN108960080B (zh) 基于主动防御图像对抗攻击的人脸识别方法
CN111814584A (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
Katzir et al. Detecting adversarial perturbations through spatial behavior in activation spaces
CN112784790B (zh) 一种基于元学习的泛化性伪造脸检测方法
CN117155706B (zh) 网络异常行为检测方法及其系统
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
CN116318928A (zh) 一种基于数据增强和特征融合的恶意流量识别方法及系统
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
Sharma et al. Deep convolutional neural network with ResNet-50 learning algorithm for copy-move forgery detection
CN113705645B (zh) 一种针对脑电信号的自适应联合模型半监督学习分类方法
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
CN116630816B (zh) 基于原型对比学习的sar目标识别方法、装置、设备及介质
CN113271297A (zh) 基于相对信息熵和半监督聚类的多层流量入侵检测方法
CN113222056B (zh) 面向图像分类系统攻击的对抗样本检测方法
Prihasto et al. A survey of deep face recognition in the wild
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
CN111310838A (zh) 一种基于深度Gabor网络的药效图像分类识别方法
CN116051924A (zh) 一种图像对抗样本的分治防御方法
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
KR102212310B1 (ko) 오류 트리플 검출 시스템 및 방법
Wang et al. RoDLSR: Robust discriminative least squares regression model for multi-category classification
CN106778775B (zh) 一种基于sift特征软匹配的图像分类方法
Masoud et al. Deep learning fusion algorithm for arts categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant