CN114969728B - 一种基于热力图的神经网络攻击方法 - Google Patents
一种基于热力图的神经网络攻击方法 Download PDFInfo
- Publication number
- CN114969728B CN114969728B CN202210628270.1A CN202210628270A CN114969728B CN 114969728 B CN114969728 B CN 114969728B CN 202210628270 A CN202210628270 A CN 202210628270A CN 114969728 B CN114969728 B CN 114969728B
- Authority
- CN
- China
- Prior art keywords
- sample
- attack
- disturbance
- matrix
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000010586 diagram Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 230000003042 antagnostic effect Effects 0.000 claims abstract 2
- 238000013145 classification model Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000008092 positive effect Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Security & Cryptography (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computer Hardware Design (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于热力图的神经网络攻击方法,属于人工智能安全技术领域。本发明方法包括:利用要对抗攻击的神经网络模型对输入图像分类,获得图像对于类别的热力图;根据热力图和选取阈值获取二值化矩阵,矩阵中取值为1的区域为重要区域;采用单次攻击或迭代攻击生成对抗样本;单次攻击方式下,添加一次扰动来生成对抗样本;迭代攻击方式下,每次迭代添加一次扰动,逐步生成对抗样本,总体扰动会更小。本发明方法解决了目前全局攻击中扰动过大,易被人眼识别的不足,使得生成的对抗样本更加高效,经实验证明,在成功率相似的前提下,本发明方法的扰动范数大小、峰值信噪比和结构相似度衡量指标相比现有全局方法均有显著提升。
Description
技术领域
本发明属于人工智能安全技术领域,具体涉及一种基于热力图的神经网络攻击方法。
背景技术
目前,随着人工智能的发展,神经网络在各领域的运用越来越广泛。由于深度神经网络本身的不可解释性和脆弱性,其模型的部署也带来了一定的安全隐患。对抗攻击(Adversarial Attack)是针对深度模型预测和决策阶段的一种攻击方法,可以在不改变模型结构和参数的基础上对输入添加扰动从而干扰模型判断结果。近年来,对抗攻击是目前人工智能领域的研究热点,旨在发现深度神经网络模型的弱点,提高模型鲁棒性。
目前,许多研究者已经提出了多种基于白盒的对抗样本生成方法,主要思路为根据损失函数获取模型的梯度信息,并在梯度方向添加扰动,例如经典方法FGSM(Fastgradient sign method)、I-FGSM(Iterative fast gradient sign method)、PGD(Projected Gradient Descent)、MI-FGSM(momentum iterative fast gradient signmethod,MIM)等。
基于梯度的白盒攻击方法具有优秀的攻击性能,然而其一般具有较大的扰动,易被人眼所察觉,其原因为这些攻击方法在全局添加扰动,未考虑扰动冗余的问题。因此,需要结合扰动区域大小与攻击效果,设计出低扰动的局部对抗样本生成方案。
发明内容
针对上述现有全局攻击的不足,本发明根据在图片领域每个像素点对于模型决策的影响程度是不同的这一思想,提供了一种基于热力图的神经网络攻击方法(SalienceMap-based Local Adversarial Attack,简称SMLAA),SMLAA为一种白盒局部攻击方法。本发明方法使用热力图解释方法发现图像中的局部重要区域,并针对重要区域添加局部扰动,通过单次攻击或迭代攻击方法生成扰动更小的对抗样本。
本发明提出的一种基于热力图的神经网络攻击方法,包括如下步骤:
(1)给定用于对抗攻击的神经网络的图像分类模型f,对于输入图像x模型f输出类别c,获取图像x对于类别c的热力图SMmask;
(2)根据热力图和选取阈值θ,获取二值化矩阵Bmask,矩阵Bmask中将大于θ的像素的值置为1,其余置为0:矩阵Bmask中取值为1的区域为重要区域;
(3)预先设置攻击方式,为单次攻击或迭代攻击;
(3.1)选取单次攻击时,根据损失函数对原样本x求导得到梯度矩阵,取梯度矩阵与矩阵Bmask的交集,得到重要区域的梯度信息,根据梯度信息生成局部扰动,添加到样本x的重要区域,当模型f对生成的样本的分类结果与样本x不同时,生成的样本为对抗样本;
(3.2)选取迭代攻击时,在每次迭代过程中:先根据损失函数对当前样本求导得到梯度矩阵,初始当前样本为原样本;再取梯度矩阵与矩阵Bmask的交集,生成一次步长为η的局部扰动,添加到当前样本上;判断模型f对当前样本的分类结果是否与样本x不同,若是,当前样本为对抗样本,否则继续对当前样本执行下一次迭代过程,直到获得对抗样本或者达到最大迭代次数。
所述步骤3.1中,设根据损失函数对原样本x求导得到梯度矩阵g,添加的局部扰动r,如下:
r=αSsign(g∧Bmask)
其中,∧为取交集,sign表示矩阵的方向向量,αS为单次扰动系数。
对计算的局部扰动r,与设置的最大扰动阈值αmax比较,若r>αmax,表示原样本x攻击所需扰动过大,不生成对抗样本;否则,将局部扰动添加至原样本,得到对抗样本xadv。将生成的对抗样本xadv输入模型f,若分类结果与原样本x相同,则为当前扰动系数αS增加攻击增量v,然后重新对样本x计算局部扰动,生成对抗样本;若分类结果与样本x不同,则输出对抗样本xadv,用于攻击模型f。
所述步骤3.2中,设当前迭代次数为t,则添加一次步长为η的局部扰动rt+1如下:
rt+1=ηsign(gt∧Bmask)
其中,gt为在第t次迭代中当前样本对应的梯度矩阵。
对计算的局部扰动rt+1,与设置的最大扰动阈值αmax比较,若rt+1>αmax,表示原样本x攻击所需扰动过大,不生成对抗样本;否则,将局部扰动添加至上一轮的样本,更新当前对抗样本xadv。对当前迭代次数与最大迭代次数K比较,若t≥K,同样认为原样本x攻击所需扰动过大,不生成对抗样本;否则将当前对抗样本xadv输入模型f,获取分类结果。若分类结果与原样本x相同,重新计算当前对抗样本xadv的梯度信息并添加局部扰动;若分类结果与样本x不同,则输出对抗样本xadv,用于攻击模型f。
本发明的基于热力图的神经网络攻击方法的优点在于:
(1)本发明通过神经网络最后一个卷积层的输出进行反向传播,定义特征图的每一个通道的权重,加权融合后得到每一个像素对决策结果的重要程度矩阵,并以热力图的可视化结果展现,其能清晰得显示模型的关注重点,然后通过选取阈值来完成对样本关注区域的选取,本发明的选取方法是新颖且普遍性强的,对于白盒神经网络均可使用,且无需对网络结构与样本进行改变。
(2)本发明根据图像中每个像素对网络决策的影响程度不同这一原理,结合热力图的可视化结果与局部攻击的优势,形成局部的白盒攻击方法,并提供单次攻击与迭代攻击两种方式。经实验证明,在成功率相似的前提下,本发明方法的扰动范数大小、峰值信噪比和结构相似度衡量指标相比现有全局方法均有显著提升。本发明可解决目前全局攻击中扰动过大,易被人眼识别的不足,使得生成的对抗样本更加高效。
附图说明
图1为本发明的一种基于热力图的神经网络攻击方法的整体流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好的理解本发明。但需要特别说明,本发明不仅限于以下具体实施方法的范围,以下实施例仅用于说明本发明。
如图1所示,本发明实施例的基于热力图的神经网络攻击方法,分以下18个步骤说明。
S101:设置对抗攻击参数。
设置用于对抗攻击的神经网络的图像分类模型f,确定输入图像x,将图像x通过模型f的输出标签记为c;设置提取阈值θ,单次扰动系数αS,单次攻击增量ν,迭代攻击步长η,最大迭代次数K,最大扰动阈值αmax。
S102:计算特征图每个通道权重。
对于给定网络f、干净样本x与真实输出类别c,设A表示网络f中卷积输出的特征图,利用反向传播的梯度计算特征图每一个通道的权重,通道k对应类别c的权重计算为:
其中c表示类别,yc是该类别对应的得分,是输出中还没经过Softmax的值,表示特征层A在通道k中(i,j)坐标的值,Z表示特征图的尺寸,即长*宽得到。由上式可见,每个通道k的权值为该通道上特征图梯度的均值。
S103:获取热力图矩阵SMmask。
将所有通道线性加权融合,输入激活函数ReLU,只保留对类别c有正作用的区域,即热力图的矩阵形式SMmask:
其中,Ak为通道k的特征图,输出为对类别c有正影响的区域,SMmask可通过热力图的可视化呈现,其表示为样本x对于输出类别c的热力图。颜色深度表示深度神经网络对与图像的每一个像素的关注程度,颜色越深说明此区域对于网络决策更重要。
S104:计算重要性二值矩阵Bmask。
根据热力图SMmask,可通过设定的提取阈值θ得到二值化的矩阵形式Bmask,该矩阵中将重要像素的值设置为1,其余像素的值置为0:
表示矩阵/>中坐标(i,j)处的值,/>表示矩阵Bmask中坐标(i,j)处的值。此处的阈值θ为可设定的参数,例如选择SMmask中的中位数,可保证正好提取一半的像素。
S105:判断攻击方式。
判断所需攻击方式,单次攻击转至S106,迭代攻击转至S110。
S106:计算梯度并添加局部扰动r。
根据图像分类模型f的损失函数对样本x求导得到梯度矩阵g,与重要区域二值化矩阵Bmask取交集,得到重要区域的梯度信息。然后,根据梯度信息在重要区域上添加局部扰动r,如下:
r=αSsign(g∧Bmask)
其中,∧为取交集,sign表示矩阵的方向向量。
S107:判断攻击是否超过阈值。
判断扰动r是否超过扰动最大阈值αmax,若r(x)>αmax,则认为此样本攻击所需扰动过大,转至步骤S117,若r(x)≤αmax,转至S108。
S108:将扰动添加至原样本。
将扰动添加至原样本,得到对抗样本xadv,如下:
xadv=x+r
S109:判断当前样本是否为对抗样本。
判断模型输出f(xadv)是否有变化,若f(xadv)=c,增加扰动系数αS=αS+ν,转至S106。若f(xadv)≠c,转至步骤S118。
S110:初始化对抗样本,迭代次数。
定义当前对抗样本xadv=x,当前迭代次数t=0;
S111:计算当前样本重要区域梯度。
将当前样本xadv输入网络f,根据损失函数对当前样本xadv求导得到梯度矩阵gt,梯度矩阵gt在每次迭代中需重新计算。
S112:计算局部扰动rt+1。
根据重要区域二值化矩阵Bmask,求得当前局部梯度,并添加一次步长为η的扰动rt+1:
rt+1=ηsign(gt∧Bmask)
S113:判断攻击是否超过阈值。
判断扰动rt+1是否超过扰动最大阈值αmax,若rt+1>αmax,则认为当前样本攻击所需扰动过大,转至步骤S117,若rt+1≤αmax,转至步骤S114。
S114:添加扰动并更新xadv。
将扰动添加至当前对抗样本xadv并更新:xadv=xadv+rt+1。
S115:判断是否超过最大迭代次数。
判断迭代次数t是否超过最大迭代次数,若t≥K,则认为此样本攻击所需扰动过大,转至S117,若t<K,转至S116。
S116:判断当前样本是否为对抗样本。
判断模型输出f(xadv)是否有变化,若f(xadv)=c,更新迭代次数t=t+1,转至步骤S111,若f(xadv)≠c,转至S118。
S117:攻击失败。
不生成对抗样本。
S118:攻击成功。
输出对抗样本xadv,用于攻击分类模型f。
根据上述步骤可知,本发明引入了热力图的思想,计算特征图权值,高效准确的提取网络对样本的关注区域,通过向关注区域内添加局部扰动实现攻击,相比全局攻击,攻击关注点更加明确。本发明方法在保证总体成功率的基础上,生成更小的对抗样本。本发明方法提供了两种攻击方式,采用单次攻击时,添加一次扰动来生成对抗样本,效率比较高;采用迭代攻击时,每次迭代都添加一次扰动,逐步添加直到成功,总体扰动会更小一些,更适用于对扰动比较敏感的模型。
为了更好的验证本发明的有效性与效率,采用具体实例对本发明进行实验验证。
首先采用ImageNet2012数据集。该数据集包含大量彩色图片数据,当前针对高像素图像的多种主流攻击方法均采用了此数据集,因此选取此数据集进行对比实验。
神经网络选用了SqueezeNet1_1,MobileNet_v2,ResNet50三种经典网络,代码基于Pytorch深度学习框架,其中每个网络都已针对ImageNet2012数据集进行了训练,训练后的网络对于干净样本的预测成功率均高于90%,将训练后的网络作为实验的目标模型,对其进行攻击。
分别用本发明的一种单次攻击方法、两种迭代攻击方法SM-FGSM(Salience Map-based FGSM)、SM-PGD(Salience Map-based PGD)、SM-MIM(Salience Map-based MIM)与白盒攻击算法FGSM、PGD和MIM对目标模型进行攻击,通过多个评价指标来比价它们的性能。
实验中,选取的指标有:攻击成功率(Success Rate,SR)、平均鲁棒性(AverageRobustness,AR)、峰值信噪比(Peak signal-to-noise ratio,PSNR)、结构相似性(Structual Similarity,SSIM)。
攻击成功率表示为攻击成功的样本与所有输入样本之比,定义如下:
其中N表示输入样本数;f(xadv)i表示第i个对抗样本的分类结果标签,yi表示原始样本xi的标签;I(X)判断条件是否为真,即:
平均鲁棒性用来评价对于对抗样本对于分类器f所添加的扰动大小定义为:
其中ri表示第i个样本所添加的噪声矩阵,值越小说明对抗样本添加的扰动越小。
峰值信噪比是一种基于像素点间的误差而衡量图像差异的评价指标,定义为:
其中,n为像素的位数,2n-1为图像像素可取到的最大值,例如8bits图像最大值为255;其中x(i,j)、xadv(i,j)分别表示干净样本、对抗样本在位置(i,j)的像素值。如果图片为RGB彩色图像,则求每个通道的MSE,然后取三个通道MSE的平均值作为总体MSE。PSNR值越大,则两张图片越相似。
结构相似性是基于两幅图片之间的亮度、对比度和结构来衡量样本的相似性的,定义如下:
SSIM=l(x,xadv)α·c(x,xadv)β·s(x,xadv)γ
SSIM由三部分组成,其中,为干净样本x(对抗样本xadv)所有像素的均值; 为x(xadv)的标准差;为xxadv的协方差,c1=(k1L)2,c2=(k2L)2,c3=c2/2,按照经验常取k1=0.01,k2=0.03,L等价于PSNR中的(2n-1)2,α,β,γ为表示三部分占比的常数,SSIM指标值越大说明两张图片的相似度越高。
参数选取:
热力图选取中,提取阈值θ=0.1。
FGSM与SM-FGSM中,扰动系数αS=0.012,最大扰动阈值αmax=0.5,单次攻击增量ν=0.002。
PGD与SM-PGD中,最大迭代次数K=30,每次迭代攻击步长η=0.015。
MIM与SM-MIM中,最大迭代次数K=20,每次迭代攻击步长η=0.01,衰减系数μ=1.0。
表1本发明与全局攻击在不同数据集和网络下各扰动指标
表1为6种攻击方法攻击3个目标网络的实验结果。SR为攻击成功率,表中AR、PSNR、SSIM表示测试数据集中所有样本的指标平均值。
表1表明,对于网络SqueezeNet1_1与ResNet50,SR平均下降了3%,局部攻击方法的AR下降了9%-24%,PSNR提升了3%,SSIM也有所提升。因为白盒攻击方法产生的扰动较小,PSNR与SSIM指标仅小幅提升。AR降低幅度较大,这说明扰动幅度降低较大,拥有更小扰动的对抗样本不易被人眼或机器检测到,因此攻击更加高效。
对于网络MobileNet_v2,相比全局攻击方法,两种局部攻击方法的SR指标更好,1种局部攻击方法的SR指标略低;AR下降了9%-23%;PSNR提升了2-3%;SSIM也有所提升。对于该网络,局部攻击方法与全局攻击方法的SR指标值相似,但所添加的扰动明显降低,说明局部攻击方法在保证成功率的前提下,能够生成更不易察觉的对抗样本。
全局攻击方法与局部攻击方法均以高成功率欺骗了网络模型,而局部攻击方法在添加扰动的区域与幅度上均优于全局攻击方法,这说明本发明方法生成的对抗样本更接近于原干净样本,更不易被人所察觉。
以上为本发明的具体实施方法描述。应当指出,本发明不仅局限于具体实施方式的范围,对于本技术领域的普通技术人员来讲,在不脱离本发明原理的前提下,所进行的改变也应视为本发明的保护范围。
Claims (8)
1.一种基于热力图的神经网络攻击方法,其特征在于,包括如下步骤:
(1)给定用于对抗攻击的神经网络的图像分类模型f,设模型f对输入图像x输出类别c,获取该模型在输入图像x对于输出类别c的热力图SMmask;
(2)根据热力图和选取阈值θ,获取二值化矩阵Bmask,矩阵Bmask中将大于θ的像素的值置为1,其余置为0:矩阵Bmask中取值为1的区域为重要区域;
(3)预先设置攻击方式,为单次攻击或迭代攻击;
(3.1)选取单次攻击时,根据损失函数对原样本x求导得到梯度矩阵,取梯度矩阵与矩阵Bmask的交集,得到重要区域的梯度信息,根据梯度信息生成局部扰动,添加到样本x的重要区域,当模型f对生成的样本的分类结果与样本x不同时,生成的样本为对抗样本;
(3.2)选取迭代攻击时,在每次迭代过程中:先根据损失函数对当前样本求导得到梯度矩阵,初始当前样本为原样本;再取梯度矩阵与矩阵Bmask的交集,生成一次步长为η的局部扰动,添加到当前样本上;判断模型f对当前样本的分类结果是否与样本x不同,若是,当前样本为对抗样本,否则继续对当前样本执行下一次迭代过程,直到获得对抗样本或者达到最大迭代次数。
2.根据权利要求1所述的方法,其特征在于,所述的步骤3.1中,设根据目标函数对原样本x求导得到梯度矩阵g,添加的局部扰动r,如下:
r=αSsign(g∧Bmask)
其中,∧为取交集,sign表示矩阵的方向向量,αS为单次扰动系数。
3.根据权利要求1或2所述的方法,其特征在于,所述的步骤3.1中,对计算的局部扰动r,与设置的最大扰动阈值αmax比较,若r>αmax,表示原样本x攻击所需扰动过大,不生成对抗样本;否则,将局部扰动添加至原样本,得到对抗样本。
4.根据权利要求3所述的方法,其特征在于,所述的步骤3.1中,将生成的对抗样本输入模型f,若分类结果与原样本x相同,则为当前扰动系数αS增加攻击增量v,然后重新对样本x计算局部扰动,生成对抗样本;若分类结果与样本x不同,则输出对抗样本,用于攻击模型f。
5.根据权利要求1所述的方法,其特征在于,所述的步骤3.2中,设当前迭代次数为t,则添加一次步长为η的局部扰动rt+1如下:
rt+1=ηsign(gt∧Bmask)
其中,∧为取交集,sign表示矩阵的方向向量。
6.根据权利要求1或5所述的方法,其特征在于,所述的步骤3.2中,在第t次迭代中,将生成的局部扰动rt+1与设置的最大扰动阈值αmax比较,若rt+1>αmax,表示当前样本攻击所需扰动过大,不生成对抗样本;否则将局部扰动添加至当前样本,然后将当前样本输入模型f,若分类结果与样本x相同,则对当前样本进行下一次迭代,若分类结果与样本x不同,则当前样本为对抗样本。
7.根据权利要求1所述的方法,其特征在于,所述的步骤2中,选取阈值θ设置为SMmask中的中位数。
8.根据权利要求1所述的方法,其特征在于,所述方法中,对模型f,预先输入图像x,获得输出标签c;然后利用反向传播的梯度计算特征图每一个通道的权重,将所有通道线性加权融合,输入激活函数ReLU,只保留对类别c有正作用的区域,得到热力图SMmask。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628270.1A CN114969728B (zh) | 2022-06-06 | 2022-06-06 | 一种基于热力图的神经网络攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210628270.1A CN114969728B (zh) | 2022-06-06 | 2022-06-06 | 一种基于热力图的神经网络攻击方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969728A CN114969728A (zh) | 2022-08-30 |
CN114969728B true CN114969728B (zh) | 2024-06-07 |
Family
ID=82959477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210628270.1A Active CN114969728B (zh) | 2022-06-06 | 2022-06-06 | 一种基于热力图的神经网络攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969728B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325324A (zh) * | 2020-02-20 | 2020-06-23 | 浙江科技学院 | 一种基于二阶方法的深度学习对抗样本生成方法 |
WO2021051561A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质 |
WO2021155650A1 (zh) * | 2020-02-03 | 2021-08-12 | 平安科技(深圳)有限公司 | 图片识别模型的训练方法、装置、计算机系统及存储介质 |
CN113449783A (zh) * | 2021-06-17 | 2021-09-28 | 广州大学 | 一种对抗样本生成方法、系统、计算机设备和存储介质 |
CN113704758A (zh) * | 2021-07-29 | 2021-11-26 | 西安交通大学 | 一种黑盒攻击对抗样本生成方法及系统 |
CN114298190A (zh) * | 2021-12-20 | 2022-04-08 | 润联软件系统(深圳)有限公司 | 基于目标定位的对抗攻击方法、装置、设备及存储介质 |
CN114332982A (zh) * | 2021-11-30 | 2022-04-12 | 浪潮(北京)电子信息产业有限公司 | 一种人脸识别模型攻击防御方法、装置、设备及存储介质 |
CN114399630A (zh) * | 2021-12-31 | 2022-04-26 | 燕山大学 | 基于信念攻击和显著区域扰动限制的对抗样本生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11768932B2 (en) * | 2019-06-28 | 2023-09-26 | Baidu Usa Llc | Systems and methods for fast training of more robust models against adversarial attacks |
-
2022
- 2022-06-06 CN CN202210628270.1A patent/CN114969728B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051561A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质 |
WO2021155650A1 (zh) * | 2020-02-03 | 2021-08-12 | 平安科技(深圳)有限公司 | 图片识别模型的训练方法、装置、计算机系统及存储介质 |
CN111325324A (zh) * | 2020-02-20 | 2020-06-23 | 浙江科技学院 | 一种基于二阶方法的深度学习对抗样本生成方法 |
CN113449783A (zh) * | 2021-06-17 | 2021-09-28 | 广州大学 | 一种对抗样本生成方法、系统、计算机设备和存储介质 |
CN113704758A (zh) * | 2021-07-29 | 2021-11-26 | 西安交通大学 | 一种黑盒攻击对抗样本生成方法及系统 |
CN114332982A (zh) * | 2021-11-30 | 2022-04-12 | 浪潮(北京)电子信息产业有限公司 | 一种人脸识别模型攻击防御方法、装置、设备及存储介质 |
CN114298190A (zh) * | 2021-12-20 | 2022-04-08 | 润联软件系统(深圳)有限公司 | 基于目标定位的对抗攻击方法、装置、设备及存储介质 |
CN114399630A (zh) * | 2021-12-31 | 2022-04-26 | 燕山大学 | 基于信念攻击和显著区域扰动限制的对抗样本生成方法 |
Non-Patent Citations (3)
Title |
---|
一种基于进化策略和注意力机制的黑盒对抗攻击算法;黄立峰;庄文梓;廖泳贤;刘宁;软件学报;20211231(011);全文 * |
基于级联卷积神经网络的服饰关键点定位算法;李锵;姚麟倩;关欣;;天津大学学报(自然科学与工程技术版);20200122(03);全文 * |
深度学习模型可解释性的研究进展;化盈盈;张岱墀;葛仕明;;信息安全学报;20200515(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114969728A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738064B (zh) | 一种雾霾图像的雾浓度识别方法 | |
US8345974B2 (en) | Hierarchical recursive image segmentation | |
CN108615048A (zh) | 基于扰动进化对图像分类器对抗性攻击的防御方法 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN111325324A (zh) | 一种基于二阶方法的深度学习对抗样本生成方法 | |
EP3598288A1 (en) | System and method for generating photorealistic synthetic images based on semantic information | |
JP2005157679A (ja) | 対象物検出装置及び方法、並びに集団学習装置及び方法 | |
Sathya et al. | Classification and segmentation in satellite imagery using back propagation algorithm of ann and k-means algorithm | |
CN109509196B (zh) | 一种基于改进的蚁群算法的模糊聚类的舌诊图像分割方法 | |
KR20200095336A (ko) | 고 정밀도로 이미지를 분석하기 위한 딥 러닝 네트워크를 사용하기 위해 트레이닝 이미지를 오토 라벨링하는 오토 라벨링 장치의 하이퍼파라미터를 최적화하는 방법 및 이를 이용한 최적화 장치 | |
CN108710893B (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN110175646B (zh) | 基于图像变换的多通道对抗样本检测方法及装置 | |
CN110826411B (zh) | 一种基于无人机图像的车辆目标快速识别方法 | |
WO2021144943A1 (ja) | 制御方法、情報処理装置および制御プログラム | |
JP2007102401A (ja) | 顔向き特定方法、顔判別方法および装置並びにプログラム | |
CN106682684A (zh) | 一种基于k均值聚类的目标识别方法 | |
CN112819096A (zh) | 一种基于复合卷积神经网络的化石图像分类模型的构建方法 | |
CN114399630A (zh) | 基于信念攻击和显著区域扰动限制的对抗样本生成方法 | |
Kumar et al. | A hybrid cluster technique for improving the efficiency of colour image segmentation | |
US8131077B2 (en) | Systems and methods for segmenting an image based on perceptual information | |
CN114969728B (zh) | 一种基于热力图的神经网络攻击方法 | |
CN113486736B (zh) | 一种基于活跃子空间与低秩进化策略的黑盒对抗攻击方法 | |
Tomczyk | Active hypercontours and contextual classification | |
JP2004246618A (ja) | パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム | |
JP4243144B2 (ja) | 文字領域抽出装置、文字領域抽出方法及び文字領域抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |