CN111783853A - 一种基于可解释性的检测并恢复神经网络对抗样本方法 - Google Patents

一种基于可解释性的检测并恢复神经网络对抗样本方法 Download PDF

Info

Publication number
CN111783853A
CN111783853A CN202010555172.0A CN202010555172A CN111783853A CN 111783853 A CN111783853 A CN 111783853A CN 202010555172 A CN202010555172 A CN 202010555172A CN 111783853 A CN111783853 A CN 111783853A
Authority
CN
China
Prior art keywords
sample
test
confrontation
train
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010555172.0A
Other languages
English (en)
Other versions
CN111783853B (zh
Inventor
王静远
吴宇帆
李明轩
林鑫
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010555172.0A priority Critical patent/CN111783853B/zh
Publication of CN111783853A publication Critical patent/CN111783853A/zh
Application granted granted Critical
Publication of CN111783853B publication Critical patent/CN111783853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可解释性的检测并恢复神经网络对抗样本方法,具体步骤包括:获取原始图像数据;原始图像数据经过解释器得到四种解释图;解释图与所述原始图像数据作为对抗样本检测器的输入;输出为图像是否为对抗样本;若为对抗样本,则执行下一步,若不是对抗样本,则直接输出分类器模型对于图像的预测结果;根据对抗样本获取掩码后的图像,用掩码后的图像作为输入,输出对抗样本恢复器对于对抗样本的预测结果。本发明检测器的检测正确率和AUC值更高,具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率。

Description

一种基于可解释性的检测并恢复神经网络对抗样本方法
技术领域
本发明涉及对抗样本防御技术领域,更具体的说是涉及一种基于可解释性的检测并恢复神经网络对抗样本方法。
背景技术
得益于计算机硬件的快速发展,深度学习在图像识别,语音识别,多媒体处理等领域都取得了惊人的成绩。在某些特定的任务上,其表现甚至超越了人类。因此,许多成熟的神经网络模型已经被大规模部署在现实应用场景中。然而对于某些特殊场景如自动驾驶和安防领域来说,神经网络模型需要很高的鲁棒性,此时我们需要考虑应用的模型是否足够可靠和安全。
近几年关于深度学习模型安全问题的研究发现,通过用精心设计的极小噪声扰动原始图像,得到的新图像可以直接导致图像分类器识别错误,但人的肉眼却无法察觉到该图像被篡改过,这说明了神经网络模型潜在的脆弱性。这样的图像我们称之为对抗样本,而构造对抗样本的算法则称为对抗攻击。进一步研究发现,基于一个开源的神经网络分类模型生成的对抗样本,也能攻击其它不可访问且不同网络架构的分类模型,这揭示了对抗攻击具有迁移性以及神经网络模型不够鲁棒的普遍性。因而如何防御针对深度学习的对抗攻击并提高神经网络模型的鲁棒性成为了一个重要的研究课题。
虽然深度模型能提取有效的特征并出色地完成多种复杂任务,但人们不知道模型为什么深度模型会做出这样的决策,模型对于研究者来说仍然是黑盒的,因此神经网络模型的可解释性研究也被囊括进深度学习中。目前大多数可解释研究通过可视化的技术来窥探模型的内部,例如GuidedBackpropagation,IntegratedGrad,GradCAM等基于梯度的解释性方法。有研究者利用解释工具发现,神经网络模型在对干净样本和对抗样本做决策时会有所区别,揭示了可解释性与对抗样本的潜在联系。然而利用这种联系做对抗样本防御的研究还比较少。
现有的防御对抗攻击的方法,大体分为两种类型:(a)正确判定;(b)仅检测。第一种类型的目标是让模型忽略或者去除对抗样本的扰动而给出正确的判定结果。采取这种策略的防御方法有对抗训练,蒸馏模型,自动编码器去噪等方法。然而这些方法有训练时间长,不能有效防御黑盒攻击和白盒攻击等缺点。第二种防御类型是只识别模型的输入图片是否为对抗样本,若是对抗样本,则拒绝服务。此防御类型包括特征压缩检测,对抗样本检测网络,抽取中间层检测,N+1类分类器等方法。该类型相较正确判定而言较为容易,许多检测方法都有着较高的检测正确率。但部分方法只能检测由弱攻击生成的对抗样本,又或者其检测器的AUC值(Area Under Curve)较低。有研究也指出,大部分检测方法不能防御黑盒攻击和白盒攻击。
因此,如何提供一种检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性的防御方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于可解释性的检测并恢复神经网络对抗样本方法,本方法与现有的基于检测的对抗样本防御方法相比,能有效防御当前攻击领域的前沿攻击方法,检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率;可以显著提高对抗攻击的成本,使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本;可以方便地部署在已经投入使用的生产环境中,而不影响现有的神经网络架构;或方便地与其他现有防御方法组合使用。
为了实现上述目的,本发明提供如下技术方案:
一种基于可解释性的检测并恢复神经网络对抗样本方法,具体步骤包括:获取原始图像数据;
所述原始图像数据经过解释器得到四种解释图;
所述解释图与所述原始图像数据作为对抗样本检测器的输入;输出为图像是否为对抗样本;若为对抗样本,则执行下一步,若不是对抗样本,则直接输出分类器模型对于图像的预测结果;
根据对抗样本获取掩码后的图像,掩码后的图像数据作为输入,输出对抗样本恢复器对于对抗样本的预测结果。
优选的,在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中,获取原始图像数据具体步骤包括:获取原始图像数据集I,其中,包括原始训练集Itrain和原始测试集Itest,用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A;其中,将所述图像数据集中图像的像素值范围[0,255]映射为[0,1];并预先设定一个在0到1之间的掩码率α,用来控制对抗样本被掩码的比例。
优选的,在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中,检测对抗样本的具体步骤包括:
S21,用对抗攻击算法A对原始图像数据集I中每个图像搜索噪声以生成对抗样本去攻击分类器模型C,保留攻击成功的对抗样本记为I’,包含与原图像对应的对抗训练集I’train和对抗测试集I’test
S22,将所述原始图像数据集标记为第一类干净样本类,将对抗样本I’标记为第二类对抗样本类,并训练二分类神经网络的数据检测器Dimage,其输出是输入图像为第一类干净样本类和第二类对抗样本类的概率;
S23,利用四种解释器Vanilla Gradient(VG),Integrated Gradient(IG),GuidedBackpropagation(GBP)and Layer-wise Relevance Propagation(LRP)分别得到原始训练集Itrain,原始测试集Itest,对抗训练集I’train和对抗测试集I’test对于分类器模型C预测结果的解释图,得到对应的解释图数据集VG(VGtrain,VGtest,VG’train,VG’test),IG(IGtrain,IGtest,IG’train,IG’test),GBP(GBPtrain,GBPtest,GBP’train,GBP’test),LRP(LRPtrain,LRPtest,LRP’train,LRP’test);
S24,将解释图原始训练集VGtrain,IGtrain,GBPtrain,LRPtrain,解释图原始测试集VGtest,IGtest,GBPtest,LRPtest标记为第一类干净类,将解释图对抗训练集VG’train,IG’train,GBP’train,LRP’train,解释图对抗测试集VG’test,IG’test,GBP’test,LRP’test标记为第二类对抗类,并分别训练对应的使用二分类神经网络的解释图检测器DVG,DIG,DGBP,DLRP,输出是输入图像为第一类干净类和第二类对抗类的概率;
S25,利用随机森林模型将原始数据检测器Dimage和四种解释图检测器DVG,DIG,DGBP,DLRP集成为对抗样本检测器,其输入为图像信息和图像对于分类模型的四种解释图,输出为图像是否为对抗样本。
优选的,在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中,集成五种检测器的步骤如下:
第一步,将输入图像i放入数据检测器Dimage中,得到为第二类对抗样本类的概率p1;生成i的四种解释图vg,ig,gbp,lrp,分别放入解释图检测器DVG,DIG,DGBP,DLRP中,得到为第二类干净样本类的概率p2,p3,p4,p5
第二步,将求得的5个概率组成一个概率向量(p1,p2,p3,p4,p5),作为训练好的随机森林模型的输入,随机森林模型最后给出输入图像i是否为对抗样本的判定结果。
优选的,在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中,对抗样本恢复的具体步骤包括:
S31,对于任意对抗样本i’,计算四种解释图检测器关于i’预测概率向量的信息熵,选取拥有最大信息熵的解释图检测器使用的解释图s并计算|s|;
S32,用预先设定的掩码率α,设定敏感性阈值θ=α*(max(|s|)-min(|s|))+min(|s|),记录所有满足|s|≥θ的位置(xn,yn,zn),n=1,2,3,…,m,其中xn和yn是图像的坐标,zn是图像的颜色通道;
S33,将每个对抗样本i’在所有(xn,yn,zn)坐标上的像素值pixel修改为pixel+u,其中u是一个服从均值为0和标准差为图像像素值标准差的正态分布的随机数;其余位置的像素值保持不变,得到一张掩码后的图像i*;每个对抗样本重复此过程后,得到一组掩码后的图像集I*,包括训练集和测试集;
S34,用原始图像数据集I和掩码后的图像集I*’训练新的图像分类器作为对抗样本恢复器R,其中掩码后的图像集I*使用的标签是其真实的类别标签。
S35将i*作为恢复器R的输入,恢复器最后输出对抗样本的真实类别。
优选的,在上述的一种基于可解释性的检测并恢复神经网络对抗样本方法中,掩码率α取0.6到0.9的值。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于可解释性的检测并恢复神经网络对抗样本方法,检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率;并且可以显著提高对抗攻击的成本,使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本;另外高度模块化,可以方便地部署在已经投入使用的生产环境中,而不影响现有的神经网络架构;或方便地与其他现有防御方法组合使用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的整体原理图;
图2附图为本发明的对抗样本检测流程图;
图3附图为本发明的对抗样本恢复流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于可解释性的检测并恢复神经网络对抗样本方法,检测器的检测正确率和AUC值更高,甚至能够抵御灰盒、黑盒和白盒不同情景攻击下的多种威胁,且具有可迁移性,具有更好的对抗样本恢复性能以及模型训练速度,更高的数据使用效率;并且可以显著提高对抗攻击的成本,使得部分基于L2范数的攻击算法失败或者生成可以轻易被肉眼识别的低质量对抗样本;另外高度模块化,可以方便地部署在已经投入使用的生产环境中,而不影响现有的神经网络架构;或方便地与其他现有防御方法组合使用。
目前的检测防御方法大多都基于原始图像的特征做检测,虽然在图像层面的特征上,原始样本和对抗样本(仅部分弱攻击方法)也能很好地区分,但攻击方法在知道防御机制的情况下(白盒攻击情景),也能自适应地调整搜索噪声的方向,生成的对抗样本仍能突破检测器的防御。要解决该问题则需引入其它特征做检测。在使用神经网络模型时发现,利用解释工具在对一组干净样本和对抗样本生成解释图时,获得的解释图是不一样的(通常由基于梯度的解释器生成的解释图也被称作输入敏感性)。由此在防御过程中引入解释工具生成的解释图作为新的检测特征,并重新训练一个神经网络模型学习这样的特征以区分原始样本和对抗样本,作为检测器。实验表明,在仅用一种解释图检测器情况下,已经能有效检测多种攻击,而在使用随机森林模型集成原始图像特征检测器和多种解释图检测器后,能进一步提升对抗样本的检测正确率,并使得防御机制更鲁棒,能抵御白盒攻击。
一般的检测防御方法,会对所有进入模型的图像都进行修改或者修改模型去适应对抗样本以增强模型的鲁棒性,这样可能容易导致原分类器对于干净样本的分类预测正确率会大幅下降。因此提出先检测后恢复的机制,使得原分类器预测正确率在不下降很多的情况下,而大幅提高预测对抗样本标签的准确率。输入敏感性(解释图)也能解释对抗样本中哪块区域(像素)的噪声对分类器判别结果影响较大,因而抹去该区域(像素)的噪声信息,有助于恢复对抗样本的正确预测结果。
一种基于可解释性的检测并恢复神经网络对抗样本方法,具体步骤包括:获取原始图像数据;
所述原始图像数据经过解释器得到至少四种解释图;
所述解释图与所述原始图像数据作为对抗样本检测器的输入;输出为图像是否为对抗样本;若为对抗样本,则执行下一步,若不是对抗样本,则直接输出分类器模型对于图像的预测结果;
根据对抗样本获取掩码后的图像,掩码后的图像数据作为输入,输出对抗样本恢复器对于对抗样本的预测结果。
为了进一步优化上述技术方案,获取原始图像数据具体步骤包括:获取原始图像数据集I,其中,包括原始训练集Itrain和原始测试集Itest,用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A;其中,将所述图像数据集中图像的像素值范围[0,255]映射为[0,1];并预先设定一个在0到1之间的掩码率α,用来控制对抗样本被掩码的比例。
为了进一步优化上述技术方案,检测对抗样本的具体步骤包括:
S21,用对抗攻击算法A对原始图像数据集I中每个图像搜索噪声以生成对抗样本去攻击分类器模型C,保留攻击成功的对抗样本记为I’,包含与原图像对应的对抗训练集I’train和对抗测试集I’test
S22,将所述原始图像数据集标记为第一类干净样本类,将对抗样本I’标记为第二类对抗样本类,并训练二分类神经网络的数据检测器Dimage,其输出是输入图像为第一类干净样本类和第二类对抗样本类的概率;
S23,利用四种解释器分别得到原始训练集Itrain,原始测试集Itest,对抗训练集I’train和对抗测试集I’test对于分类器模型C预测结果的解释图,得到对应的解释图数据集VG(VGtrain,VGtest,VG’train,VG’test),IG(IGtrain,IGtest,IG’train,IG’test),GBP(GBPtrain,GBPtest,GBP’train,GBP’test),LRP(LRPtrain,LRPtest,LRP’train,LRP’test);
S24,将解释图原始训练集VGtrain,IGtrain,GBPtrain,LRPtrain,解释图原始测试集VGtest,IGtest,GBPtest,LRPtest标记为第一类干净类,将解释图对抗训练集VG’train,IG’train,GBP’train,LRP’train,解释图对抗测试集VG’test,IG’test,GBP’test,LRP’test标记为第二类对抗类,并分别训练对应的使用二分类神经网络的解释图检测器DVG,DIG,DGBP,DLRP,输出是输入图像为第一类干净类和第二类对抗类的概率;
S25,利用随机森林模型将原始数据检测器Dimage和四种解释图检测器DVG,DIG,DGBP,DLRP集成为对抗样本检测器,其输入为图像信息和图像对于分类模型的四种解释图,输出为图像是否为对抗样本。
为了进一步优化上述技术方案,集成五种检测器的步骤如下:
第一步,将输入图像i放入数据检测器Dimage中,得到为第二类对抗样本类的概率p1;生成i的四种解释图vg,ig,gbp,lrp,分别放入解释图检测器DVG,DIG,DGBP,DLRP中,得到为第二类干净样本类的概率p2,p3,p4,p5
第二步,将求得的5个概率组成一个概率向量(p1,p2,p3,p4,p5),作为训练好的随机森林模型的输入,随机森林模型最后给出输入图像i是否为对抗样本的判定结果。
为了进一步优化上述技术方案,对抗样本恢复的具体步骤包括:
S31,对于任意对抗样本i’,计算四种解释图检测器关于i’预测概率向量的信息熵,选取拥有最大信息熵的解释图检测器使用的解释图s并计算|s|;
S32,用预先设定的掩码率α,设定敏感性阈值θ=α*(max(|s|)-min(|s|))+min(|s|),记录所有满足|s|≥θ的位置(xn,yn,zn),n=1,2,3,…,m,其中xn和yn是图像的坐标,zn是图像的颜色通道;
S33,将每个对抗样本i’在所有(xn,yn,zn)坐标上的像素值pixel修改为pixel+u,其中u是一个服从均值为0和标准差为图像像素值标准差的正态分布的随机数;其余位置的像素值保持不变,得到一张掩码后的图像i*;每个对抗样本重复此过程后,得到一组掩码后的图像集I*,包括训练集和测试集;
S34,用原始图像数据集I和掩码后的图像集I*’训练新的图像分类器作为对抗样本恢复器R,其中掩码后的图像集I*使用的标签是其真实的类别标签。
S35将i*作为恢复器R的输入,恢复器最后输出对抗样本的真实类别。
为了进一步优化上述技术方案,掩码率α取0.6到0.9的值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,具体步骤包括:
获取原始图像数据;
所述原始图像数据经过解释器得到四种解释图;
所述解释图与所述原始图像数据作为对抗样本检测器的输入;输出为图像是否为对抗样本;若为对抗样本,则执行下一步,若不是对抗样本,则直接输出分类器模型对于图像的预测结果;
根据对抗样本获取掩码后的图像,掩码后的图像数据作为输入,输出对抗样本恢复器对于对抗样本的预测结果。
2.根据权利要求1所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,获取原始图像数据具体步骤包括:获取原始图像数据集I,其中,包括原始训练集Itrain和原始测试集Itest,用所述原始图像数据集I训练的需要被保护的分类器模型C以及针对性防御的对抗攻击算法A;其中,将所述图像数据集中图像的像素值范围[0,255]映射为[0,1];并预先设定一个在0到1之间的掩码率α,用来控制对抗样本被掩码的比例。
3.根据权利要求2所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,检测对抗样本的具体步骤包括:
S21,用对抗攻击算法A对原始图像数据集I中每个图像搜索噪声以生成对抗样本去攻击分类器模型C,保留攻击成功的对抗样本记为I’,生成与原图像对应的对抗训练集I’train和对抗测试集I’test
S22,将所述原始图像数据集I标记为第一类干净样本类,将对抗样本I’标记为第二类对抗样本类,并训练二分类神经网络的数据检测器Dimage,其输出是输入图像为第一类干净样本类和第二类对抗样本类的概率;
S23,利用四种解释器分别得到原始训练集Itrain,原始测试集Itest,对抗训练集I’train和对抗测试集I’test对于分类器模型C预测结果的解释图,得到对应的解释图数据集VG(VGtrain,VGtest,VG’train,VG’test),IG(IGtrain,IGtest,IG’train,IG’test),GBP(GBPtrain,GBPtest,GBP’train,GBP’test),LRP(LRPtrain,LRPtest,LRP’train,LRP’test);
S24,标记第一类干净类和第二类对抗类,并输出对应的概率;
S25,利用随机森林模型将原始数据检测器Dimage和四种解释图检测器DVG,DIG,DGBP,DLRP集成为对抗样本检测器,其输入为图像信息和图像对于分类模型的四种解释图,输出为图像是否为对抗样本。
4.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,所述S24中具体步骤:将解释图原始训练集VGtrain,IGtrain,GBPtrain,LRPtrain,解释图原始测试集VGtest,IGtest,GBPtest,LRPtest标记为第一类干净类,将解释图对抗训练集VG’train,IG’train,GBP’train,LRP’train,解释图对抗测试集VG’test,IG’test,GBP’test,LRP’test标记为第二类对抗类,并分别训练对应的使用二分类神经网络的解释图检测器DVG,DIG,DGBP,DLRP,输出是输入图像为第一类干净类和第二类对抗类的概率。
5.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,集成五种检测器的步骤如下:
第一步,将输入图像i放入数据检测器Dimage中,得到为第二类对抗样本类的概率p1;生成i的四种解释图vg,ig,gbp,lrp,分别放入解释图检测器DVG,DIG,DGBP,DLRP中,得到为第二类对抗样本类的概率p2,p3,p4,p5
第二步,将求得的5个概率组成一个概率向量(p1,p2,p3,p4,p5),作为训练好的随机森林模型的输入,随机森林模型最后给出输入图像i是否为对抗样本的判定结果。
6.根据权利要求3所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,对抗样本恢复的具体步骤包括:
S31,对于任意对抗样本i’,计算四种解释图检测器关于i’预测概率向量的信息熵,选取拥有最大信息熵的解释图检测器使用的解释图s并计算|s|;
S32,用预先设定的掩码率α,设定敏感性阈值θ=α*(max(|s|)-min(|s|))+min(|s|),记录所有满足|s|≥θ的位置(xn,yn,zn),n=1,2,3,…,m,其中xn和yn是图像的坐标,zn是图像的颜色通道;
S33,将每个对抗样本i’在所有(xn,yn,zn)坐标上的像素值pixel修改为pixel+u,其中u是一个服从均值为0和标准差为图像像素值标准差的正态分布的随机数;其余位置的像素值保持不变,得到一张掩码后的图像i*;将i*作为恢复器R的输入,恢复器最后输出对抗样本的真实类别。
7.根据权利要求6所述的一种基于可解释性的检测并恢复神经网络对抗样本方法,其特征在于,掩码率α取0.6到0.9的值。
CN202010555172.0A 2020-06-17 2020-06-17 一种基于可解释性的检测并恢复神经网络对抗样本方法 Active CN111783853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555172.0A CN111783853B (zh) 2020-06-17 2020-06-17 一种基于可解释性的检测并恢复神经网络对抗样本方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555172.0A CN111783853B (zh) 2020-06-17 2020-06-17 一种基于可解释性的检测并恢复神经网络对抗样本方法

Publications (2)

Publication Number Publication Date
CN111783853A true CN111783853A (zh) 2020-10-16
CN111783853B CN111783853B (zh) 2022-05-03

Family

ID=72756800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555172.0A Active CN111783853B (zh) 2020-06-17 2020-06-17 一种基于可解释性的检测并恢复神经网络对抗样本方法

Country Status (1)

Country Link
CN (1) CN111783853B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560059A (zh) * 2020-12-17 2021-03-26 浙江工业大学 一种基于神经通路特征提取的垂直联邦下模型窃取防御方法
CN113378985A (zh) * 2021-07-06 2021-09-10 浙江工业大学 一种基于逐层相关性传播的对抗样本检测方法和装置
CN113469290A (zh) * 2021-09-01 2021-10-01 北京数美时代科技有限公司 一种训练样本的选取方法、系统、存储介质和电子设备
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110852363A (zh) * 2019-10-31 2020-02-28 大连理工大学 一种基于欺骗攻击者的对抗样本防御方法
CN111209370A (zh) * 2019-12-27 2020-05-29 同济大学 一种基于神经网络可解释性的文本分类方法
CN111242166A (zh) * 2019-12-30 2020-06-05 南京航空航天大学 一种通用对抗扰动生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
CN110852363A (zh) * 2019-10-31 2020-02-28 大连理工大学 一种基于欺骗攻击者的对抗样本防御方法
CN111209370A (zh) * 2019-12-27 2020-05-29 同济大学 一种基于神经网络可解释性的文本分类方法
CN111242166A (zh) * 2019-12-30 2020-06-05 南京航空航天大学 一种通用对抗扰动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINDONG GU 等: "Saliency Methods for Explaining Adversarial Attacks", 《HTTPS://ARXIV.ORG/》 *
纪守领 等: "机器学习模型可解释性方法、应用与安全研究综述", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560059A (zh) * 2020-12-17 2021-03-26 浙江工业大学 一种基于神经通路特征提取的垂直联邦下模型窃取防御方法
CN112560059B (zh) * 2020-12-17 2022-04-29 浙江工业大学 一种基于神经通路特征提取的垂直联邦下模型窃取防御方法
CN113378985A (zh) * 2021-07-06 2021-09-10 浙江工业大学 一种基于逐层相关性传播的对抗样本检测方法和装置
CN113469290A (zh) * 2021-09-01 2021-10-01 北京数美时代科技有限公司 一种训练样本的选取方法、系统、存储介质和电子设备
CN116863279A (zh) * 2023-09-01 2023-10-10 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Also Published As

Publication number Publication date
CN111783853B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN111783853B (zh) 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN113554089B (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
CN108491837B (zh) 一种提高车牌攻击鲁棒性的对抗攻击方法
CN110348475B (zh) 一种基于空间变换的对抗样本增强方法和模型
CN110298297B (zh) 火焰识别方法和装置
CN112738015A (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
Masurekar et al. Real time object detection using YOLOv3
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
WO2016201648A1 (zh) 一种基于局部学习的信息隐藏检测方法
CN111753881A (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113127857B (zh) 针对对抗性攻击的深度学习模型防御方法及深度学习模型
CN110874471B (zh) 保护隐私安全的神经网络模型的训练方法和装置
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
Jia et al. Fooling the eyes of autonomous vehicles: Robust physical adversarial examples against traffic sign recognition systems
KR101268520B1 (ko) 영상 인식 장치 및 방법
CN112668557A (zh) 一种行人再识别系统中防御图像噪声攻击的方法
CN114257697B (zh) 一种高容量通用图像信息隐藏方法
CN115641471A (zh) 一种基于生成对抗网络的对抗样本生成方法及系统
CN112541404A (zh) 一种面向交通信息感知的物理攻击对抗样本生成方法
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
CN117152486A (zh) 一种基于可解释性的图像对抗样本检测方法
CN115841681A (zh) 一种基于通道注意力的行人再识别对抗攻击方法
CN112750067B (zh) 图像处理系统及其训练方法
CN115187789A (zh) 基于卷积层激活差异的对抗图像检测方法及装置
CN113487506A (zh) 基于注意力去噪的对抗样本防御方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant