CN112836716B - 一种可解释区域引导的对抗样本检测方法 - Google Patents

一种可解释区域引导的对抗样本检测方法 Download PDF

Info

Publication number
CN112836716B
CN112836716B CN202010858301.3A CN202010858301A CN112836716B CN 112836716 B CN112836716 B CN 112836716B CN 202010858301 A CN202010858301 A CN 202010858301A CN 112836716 B CN112836716 B CN 112836716B
Authority
CN
China
Prior art keywords
interpretable
sample
threshold
area
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010858301.3A
Other languages
English (en)
Other versions
CN112836716A (zh
Inventor
范铭
魏佳利
刘烃
徐茜
贾昂
魏闻英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010858301.3A priority Critical patent/CN112836716B/zh
Publication of CN112836716A publication Critical patent/CN112836716A/zh
Application granted granted Critical
Publication of CN112836716B publication Critical patent/CN112836716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可解释区域引导的对抗样本检测方法,采用了深度学习模型的可解释方法引导特征压缩:首先应用可解释方法,得到输入样本的可解释结果,并分割出可解释区域和非可解释区域;然后对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法,提高了检测的性能,减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。

Description

一种可解释区域引导的对抗样本检测方法
技术领域
本发明属于智能系统安全和深度学习模型可解释性领域,特别涉及一种可解释区域引导的对抗样本检测方法。
背景技术
随着深度神经网络、人工智能的快速发展,深度学习算法越来越多地应用于各个领域,比如图像分类、图像识别、物体检测,并且有着非常显著的优势,但在某些方面也有着明显的不足。首先就是我们无法解释深度神经网络模型的决策过程,目前有很多关于深度神经网络模型可解释性的研究,可以将图像中对模型决策起重要作用的区域高亮出来。此外,对抗样本也是深度神经网络的进一步应用所必须要解决的关键问题。所谓对抗样本,在图像识别领域,是指对图像样本加入“精心设计”的细微扰动,人眼基本看不出有任何变化,但是深度神经网络模型却分类错误的这些样本。因此当在一些与安全密切相关的领域,比如医学诊断领域,自动驾驶领域和恶意软件检测等领域应用深度神经网络模型时,我们必须检测和防御对抗样本。
目前,关于对抗样本的防御技术,主要可以分为三大类:对抗训练、梯度掩蔽和输入转换。
对抗训练是指首先产生对抗样本,再将对抗样本和其对应的正常标签引入到训练中,进行重新训练。那么在一定程度上,重新训练后的模型,就对用于训练的对抗样本以及与之相似的对抗样本产生鲁棒性。但是,当对抗样本与用于训练的对抗样本有一定差距时,仍会攻击成功。
“梯度掩蔽”防御试图降低DNN模型对输入微小变化的敏感性。但是对于这种防御方法,研究表明,由于对抗样本的可转移性,防御成功的概率有限。
输入转换是指不改变原始的DNN模型,而是在进行预测之前,对模型的输入进行变换,代表性的方法就是特征压缩。但是特征压缩方法没有考虑可解释结果,直接对整个输入图像进行特征压缩,可能会使正常样本的可解释区域受到太大扰动,造成正常样本被误分类为对抗样本。
发明内容
本发明的内容在于提出一种可解释区域引导的对抗样本检测方法,以克服特征压缩方法在检测对抗样本中的不足。本方法采用了深度学习模型的可解释方法引导特征压缩:首先应用可解释方法,得到输入样本的可解释结果,并分割出可解释区域和非可解释区域;然后对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测。通过以上方法,提高了检测的性能,减少误报率与漏报率。为深度学习模型的对抗样本检测防御提供了一种新的防御方法。
为了达到上述目的,本发明采用以下技术方案予以实现,包括以下步骤:
1)、得到输入样本的可解释结果,并分割出可解释区域和非可解释区域:
步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型;
步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果;
步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域;
2)、对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:
步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05;
步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff;
步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。
进一步的,所述步骤S1的具体方法为:
步骤S101:得到样本数据集A,并将样本数据集A划分为独立的训练集B和测试集
Figure RE-GDA0002907848010000032
步骤S102:通过分析样本数据集A中的图片大小和分类数目,构建与其对应的卷积神经网络模型;
步骤S103:通过训练集B进行优化训练,并通过测试集D测试训练好的模型;
步骤S104:如果测试的分类性能不能满足要求,改变卷积神经网络模型结构,返回步骤S103;
步骤S105:最终得到具有良好分类性能的卷积神经网络模型。
进一步的,所述步骤S2的具体方法为:
步骤S201:分析步骤S1训练好的卷积神经网络模型的结构,得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射Ak,采用全局平均池化(GlobalAverage Pooling,GAP)和线性变换得到每个类别c分数的yc
步骤S202:然后计算分数yc相对于特征映射Ak的梯度
Figure RE-GDA0002907848010000031
经过GAP得到神经元的重要性权重
Figure RE-GDA0002907848010000041
公式如下:
Figure RE-GDA0002907848010000042
步骤S203:通过一个加权的前向激活映射组合,再经过ReLU激活函数,得到每个类c对应的Grad-CAM可解释结果为:
Figure RE-GDA0002907848010000043
步骤S204:通过将Grad-CAM可解释方法得到的可解释结果与Guided BackPropagation可解释方法得到的可解释结果进行点积运算得到最终的Guided Grad-CAM可解释结果。
进一步的,所述步骤S3的具体方法为:
步骤S301:首先对于步骤S2得到的输入样本可解释结果,生成其相应的直方图;
步骤S302:选择一个初始的阈值θ;
步骤S303:用θ来分割图像,将得到两组像素点G1和G2。其中G1中的像素点的像素值大于阈值θ;其中G2中的像素点的像素值小于阈值θ;
步骤S304:计算两组像素点中像素值的均值,G1中的像素值均值用mean1表示;G2中的像素值均值用mean2表示;
步骤S305:计算新的阈值θ=(1/2)(mean1+mean2);
步骤S306:重复步骤S303到步骤S305,直到相邻两次阈值θ之间的差距小于预定义的一个很小的常数θ0
步骤S307:对于可解释结果中大于分割阈值θ的部分,被划分为可解释区域;小于分割阈值θ的部分,被划分为非可解释区域。
进一步的,所述步骤S4的具体方法为:
步骤S401:选择部分正常样本作为计算阈值∈的训练样本;
步骤S402:选择降低比特位深度、中值滤波和高斯滤波作为联合特征压缩的三个特征压缩方法;
步骤S403:将正常样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;
步骤S404:与未经过联合特征压缩得到的预测值进行比较,得到预测变化diff;
步骤S405:从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05。
进一步的,所述步骤S4实现联合特征压缩的具体方法为:
步骤S501:选择特征压缩方法:降低比特位深度、中值滤波和高斯滤波;
步骤S502:计算输入样本经过每个特征压缩方法后的模型预测变化
Figure RE-GDA0002907848010000051
用L1- 范数来衡量:
Figure RE-GDA0002907848010000052
步骤S503:计算各种特征压缩方法得到的模型预测变化最大值,作为联合特征压缩的模型预测变化diffjoint
Figure RE-GDA0002907848010000053
进一步的,所述步骤S5的具体方法为:
将输入样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;并与未经过联合特征压缩得到的预测值进行比较,得到预测变化pre-diff。
进一步的,所述步骤S6的具体方法为:
根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。
从以上技术方案可以看出,本发明具有以下有益效果:
1)本发明方法在检测和防御对抗样本时,不改变深度神经网络模型的结构,只对输入样本进行处理,具有更好的泛化性能。
2)本发明方法利用直方图分割方法得到图像分割阈值,可以实现更好的分割效果,得到可解释区域和非可解释区域。
3)本发明方法利用了深度神经网络模型的可解释结果引导特征压缩,提高了对抗样本的检测性能。
4)本发明方法利用了联合特征压缩方法,在实际运用中,对多种攻击方法都可以实现好的检测效果,提高对多种攻击方法防御的泛化能力。
附图说明
图1为本发明可解释区域引导的对抗样本检测方法整体流程图;
图2为卷积神经网络构建和训练过程流程图;
图3为判断阈值∈的计算方法流程图。
具体实施方式
以下结合附图详细说明本发明可解释区域引导的对抗样本检测方法的具体实施方式。
图1为本发明可解释区域引导的对抗样本检测方法整体流程图;
参见图1,本发明是一种可解释区域引导的对抗样本检测方法,包括以下步骤:
步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型。
结合图2,具体而言,步骤S1具体步骤如下:
步骤S101:得到样本数据集A,并将样本数据集A划分为独立的训练集B和测试集
Figure RE-GDA0002907848010000061
步骤S102:通过分析样本数据集A中的图片大小和分类数目,构建与其对应的卷积神经网络模型;
步骤S103:通过训练集B进行优化训练,并通过测试集D测试训练好的模型;
步骤S104:如果测试的分类性能不能满足要求,改变卷积神经网络模型结构,返回步骤S103;
步骤S105:最终得到具有良好分类性能的卷积神经网络模型。
步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果。
具体而言,所述步骤S2的步骤如下:
步骤S201:分析步骤S1训练好的卷积神经网络模型的结构,得到每个卷积层的输出表示。计算卷积神经网络倒数第二层的K个特征映射Ak,采用全局平均池化(GlobalAverage Pooling,GAP)和线性变换得到每个类别c分数的yc
步骤S202:然后计算分数yc相对于特征映射Ak的梯度
Figure RE-GDA0002907848010000071
经过GAP得到神经元的重要性权重
Figure RE-GDA0002907848010000072
公式如下:
Figure RE-GDA0002907848010000073
步骤S203:通过一个加权的前向激活映射组合,再经过ReLU激活函数,得到每个类c对应的Grad-CAM可解释结果为:
Figure RE-GDA0002907848010000074
步骤S204:通过将Grad-CAM可解释方法得到的可解释结果与Guided BackPropagation可解释方法得到的可解释结果进行点积运算得到最终的Guided Grad-CAM可解释结果。
步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域。
具体而言,所述步骤S3的步骤如下:
步骤S301:首先对于步骤S2得到的输入样本可解释结果,生成其相应的直方图;
步骤S302:选择一个初始的阈值θ;
步骤S303:用θ来分割图像,将得到两组像素点G1和G2。其中G1中的像素点的像素值大于阈值θ;其中G2中的像素点的像素值小于阈值θ;
步骤S304:计算两组像素点中像素值的均值,G1中的像素值均值用mean1表示;G2中的像素值均值用mean2表示;
步骤S305:计算新的阈值θ=(1/2)(mean1+mean2);
步骤S306:重复步骤S303到步骤S305,直到相邻两次阈值θ之间的差距小于预定义的一个很小的常数θ0
步骤S307:对于可解释结果中大于分割阈值θ的部分,被划分为可解释区域;小于分割阈值θ的部分,被划分为非可解释区域。
对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型 预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:
步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05。
结合图3,具体而言,步骤S4具体步骤如下:
步骤S401:选择部分正常样本作为计算阈值∈的训练样本;
步骤S402:选择降低比特位深度、中值滤波和高斯滤波作为联合特征压缩的三个特征压缩方法;
步骤S403:将正常样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;
步骤S404:与未经过联合特征压缩得到的预测值进行比较,得到预测变化diff;
步骤S405:从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05。
具体而言,实现联合特征压缩的具体步骤如下:
步骤S501:选择特征压缩方法:降低比特位深度、中值滤波和高斯滤波;
步骤S502:计算输入样本经过每个特征压缩方法后的模型预测变化
Figure RE-GDA0002907848010000093
用L1- 范数来衡量:
Figure RE-GDA0002907848010000091
步骤S503:计算各种特征压缩方法得到的模型预测变化最大值,作为联合特征压缩的模型预测变化diffjoint
Figure RE-GDA0002907848010000092
步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff。
具体而言,所述步骤S5的实现方法如下:
将输入样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;并与未经过联合特征压缩得到的预测值进行比较,得到预测变化pre-diff。
步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。
具体而言,所述步骤S6的实现方法如下:
根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为对抗样本,以此来实现对对抗样本的检测。
本发明在整个检测对抗样本的过程中,不需要深度神经网络模型的先验知识,不依赖于模型的架构特性,使得该算法具有极强的泛化性能。结合可解释方法来引导特征压缩,显著地提高了对抗样本的检测率,降低了正常样本的误报率。采用了联合特征压缩的方法,在具体的实际应用过程中,可以对未知类型的对抗样本都实现很好的检测性能,增加了此方法的实用性和泛化能力。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (8)

1.一种可解释区域引导的对抗样本检测方法,其特征在于,包括如下步骤:
1)、得到输入样本的可解释结果,并分割出可解释区域和非可解释区域:
步骤S1:通过分析样本数据集,得到相应的训练集和测试集,构建卷积神经网络模型,并进行训练和测试,得到具有良好分类性能的卷积神经网络模型;
步骤S2:通过分析卷积神经网络模型的结构,应用可解释方法,得到输入样本对应的可解释结果;
步骤S3:基于图像分割思想,首先对得到的可解释结果生成分割阈值,再根据阈值将其分割成为相应的可解释区域和非可解释区域;
2)、对输入样本非可解释区域对应的图像部分进行特征压缩,并得到特征压缩前后的模型预测变化,最终根据正常样本和对抗样本在预测变化上的不同实现对对抗样本的检测:
步骤S4:对正常样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化,从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05;
步骤S5:对输入样本非可解释区域对应的图像部分进行联合特征压缩,得到其压缩前后的模型预测变化pre-diff;
步骤S6:根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为正常样本,以此来实现对对抗样本的检测。
2.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S1的具体方法为:
步骤S101:得到样本数据集A,并将样本数据集A划分为独立的训练集B和测试集D
Figure FDA0003517649210000011
步骤S102:通过分析样本数据集A中的图片大小和分类数目,构建与其对应的卷积神经网络模型;
步骤S103:通过训练集B进行优化训练,并通过测试集D测试训练好的模型;
步骤S104:如果测试的分类性能不能满足要求,改变卷积神经网络模型结构,返回步骤S103;
步骤S105:最终得到具有良好分类性能的卷积神经网络模型。
3.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S2的具体方法为:
步骤S201:分析步骤S1训练好的卷积神经网络模型的结构,得到每个卷积层的输出表示,计算卷积神经网络倒数第二层的第k个特征映射Ak,采用全局平均池化(GlobalAverage Pooling,GAP)和线性变换得到每个类别c分数的yc
步骤S202:然后计算分数yc相对于特征映射Ak的梯度
Figure FDA0003517649210000021
经过全局平均池化得到神经元的重要性权重
Figure FDA0003517649210000022
公式如下:
Figure FDA0003517649210000023
步骤S203:通过一个加权的前向激活映射组合,再经过ReLU激活函数,得到每个类c对应的Grad-CAM可解释结果为:
Figure FDA0003517649210000024
步骤S204:通过将Grad-CAM可解释方法得到的可解释结果与Guided BackPropagation可解释方法得到的可解释结果进行点积运算得到最终的Guided Grad-CAM可解释结果。
4.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S3的具体方法为:
步骤S301:首先对于步骤S2得到的输入样本可解释结果,生成其相应的直方图;
步骤S302:选择一个初始的阈值θ;
步骤S303:用θ来分割图像,将得到两组像素点G1和G2,其中G1中的像素点的像素值大于阈值θ,G2中的像素点的像素值小于阈值θ;
步骤S304:计算两组像素点中像素值的均值,G1中的像素值均值用mean1表示;G2中的像素值均值用mean2表示;
步骤S305:计算新的阈值θ=(1/2)(mean1+mean2);
步骤S306:重复步骤S303到步骤S305,直到相邻两次阈值θ之间的差距小于预定义的一个很小的常数θ0
步骤S307:对于可解释结果中大于分割阈值θ的部分,被划分为可解释区域;小于分割阈值θ的部分,被划分为非可解释区域。
5.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S4的具体方法为:
步骤S401:选择部分正常样本作为计算阈值∈的训练样本;
步骤S402:选择降低比特位深度、中值滤波和高斯滤波作为联合特征压缩的三个特征压缩方法;
步骤S403:将正常样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;
步骤S404:与未经过联合特征压缩得到的预测值进行比较,得到预测变化diff;
步骤S405:从正常样本的预测变化diff中选择一个阈值∈,使得正常样本的预测变化大于此阈值∈的比率不超过0.05。
6.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S4与S5实现联合特征压缩的具体方法为:
步骤S501:选择特征压缩方法:降低比特位深度、中值滤波和高斯滤波;
步骤S502:计算输入样本经过每个特征压缩方法后的模型预测变化
Figure FDA0003517649210000031
用L1-范数来衡量:
Figure FDA0003517649210000041
步骤S503:计算各种特征压缩方法得到的模型预测变化最大值,作为联合特征压缩的模型预测变化diffjoint
Figure FDA0003517649210000042
7.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S5的具体方法为:
将输入样本经过联合特征压缩器,对其步骤S3所得到的非可解释区域对应的图像部分进行特征压缩,之后再输入卷积神经网络模型,并得到其预测值;并与未经过联合特征压缩得到的预测值进行比较,得到预测变化pre-diff。
8.根据权利要求1所述的可解释区域引导的对抗样本检测方法,其特征在于,所述步骤S6的具体方法为:
根据步骤S4得到的阈值∈,如果步骤S5的预测变化pre-diff大于阈值∈,判断输入样本为对抗样本;小于阈值∈,判断输入样本为正常样本,以此来实现对对抗样本的检测。
CN202010858301.3A 2020-08-24 2020-08-24 一种可解释区域引导的对抗样本检测方法 Active CN112836716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010858301.3A CN112836716B (zh) 2020-08-24 2020-08-24 一种可解释区域引导的对抗样本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010858301.3A CN112836716B (zh) 2020-08-24 2020-08-24 一种可解释区域引导的对抗样本检测方法

Publications (2)

Publication Number Publication Date
CN112836716A CN112836716A (zh) 2021-05-25
CN112836716B true CN112836716B (zh) 2022-05-20

Family

ID=75923777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010858301.3A Active CN112836716B (zh) 2020-08-24 2020-08-24 一种可解释区域引导的对抗样本检测方法

Country Status (1)

Country Link
CN (1) CN112836716B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379418A (zh) * 2019-06-28 2019-10-25 西安交通大学 一种语音对抗样本生成方法
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN111209370A (zh) * 2019-12-27 2020-05-29 同济大学 一种基于神经网络可解释性的文本分类方法
CN111340180A (zh) * 2020-02-10 2020-06-26 中国人民解放军国防科技大学 指定标签的对抗样本生成方法、装置、电子设备及介质
CN111538991A (zh) * 2020-07-09 2020-08-14 鹏城实验室 对抗样本检测方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341277B2 (en) * 2018-04-20 2022-05-24 Nec Corporation Method and system for securing machine learning models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379418A (zh) * 2019-06-28 2019-10-25 西安交通大学 一种语音对抗样本生成方法
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN111209370A (zh) * 2019-12-27 2020-05-29 同济大学 一种基于神经网络可解释性的文本分类方法
CN111340180A (zh) * 2020-02-10 2020-06-26 中国人民解放军国防科技大学 指定标签的对抗样本生成方法、装置、电子设备及介质
CN111538991A (zh) * 2020-07-09 2020-08-14 鹏城实验室 对抗样本检测方法、装置及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Enhancing the Robustness of Deep Neural Networks from "Smart" Compression;Tao Liu, Zihao Liu, Qi Liu and Wujie Wen;《2018 IEEE Computer Society Annual Symposium on VLSI》;20180809;528-532 *
Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks;Weilin Xu, David Evans, Yanjun Qi;《In Network and Distributed Systems Security Symposium (NDSS) 2018, San Diego, February 2018》;20171205;1-15 *
基于Grad-CAM的探地雷达公路地下目标检测算法;赵迪、叶盛波、周斌;《电子测量技术》;20200531;第43卷(第10期);113-118 *
深度学习模型可解释性的研究进展;化盈盈、张岱墀、葛仕明;《信息安全学报》;20200531;第5卷(第3期);1-12 *

Also Published As

Publication number Publication date
CN112836716A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN106951825B (zh) 一种人脸图像质量评估系统以及实现方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
CN106897738A (zh) 一种基于半监督学习的行人检测方法
Jian et al. Densely connected convolutional network optimized by genetic algorithm for fingerprint liveness detection
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN115348074B (zh) 深度时空混合的云数据中心网络流量实时检测方法
CN109191418B (zh) 一种基于收缩自编码器特征学习的遥感图像变化检测方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116886398B (zh) 一种基于特征选择和集成学习的物联网入侵检测方法
Phung et al. Mine-like object sensing in sonar imagery with a compact deep learning architecture for scarce data
CN115512226A (zh) 融入注意力机制多尺度CNN的LiDAR点云滤波方法
Wu et al. Streamsong: A soft streaming classification approach
CN113222002B (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
Yousefzadeh Decision boundaries and convex hulls in the feature space that deep learning functions learn from images
CN117152486A (zh) 一种基于可解释性的图像对抗样本检测方法
CN116311387B (zh) 一种基于特征交集的跨模态行人重识别方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN112836716B (zh) 一种可解释区域引导的对抗样本检测方法
CN112801179A (zh) 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法
CN114821200B (zh) 一种应用于工业视觉检测领域的图像检测模型及方法
CN113902044B (zh) 一种基于轻量级yolov3的图像目标提取方法
CN115861625A (zh) 一种处理噪声标签的自标签修改方法
CN113392901A (zh) 一种基于深度学习模型神经通路激活特征的对抗样本检测方法
CN113283520A (zh) 面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant