CN111680292A - 一种基于高隐蔽性通用扰动的对抗样本生成方法 - Google Patents
一种基于高隐蔽性通用扰动的对抗样本生成方法 Download PDFInfo
- Publication number
- CN111680292A CN111680292A CN202010524788.1A CN202010524788A CN111680292A CN 111680292 A CN111680292 A CN 111680292A CN 202010524788 A CN202010524788 A CN 202010524788A CN 111680292 A CN111680292 A CN 111680292A
- Authority
- CN
- China
- Prior art keywords
- disturbance
- target
- general
- sample
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000010408 sweeping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 abstract description 2
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于高隐蔽性通用扰动的对抗样本生成方法,涉及人工智能安全技术领域。本发明首先将攻击目标函数优化问题,由最大化单一图像的损失,调整为最大化某特定类别图像的期望损失,以实现扰动的通用性;其次,为提高对抗样本的不易察觉性,本发明设置多目标优化函数,使特定类别的图像被错误识别的同时,保证其他类别的图像不受干扰影响,仍能被正确决策;最后,在隐蔽性方面,经前期实验发现,传统的梯度方法能够较快地产生具有对抗效果的扰动,而低频噪声往往更隐蔽更稳定,因此,本发明在使用传统梯度方法生成初步的对抗扰动后,进一步采用低通滤波器来消除通用扰动中的高频尖锐噪音,在实现通用攻击的同时保证对抗样本的隐蔽性。
Description
技术领域
本发明涉及人工智能安全技术领域,具体涉及一种基于高隐蔽性通用扰动的对抗样本生成方法。
背景技术
近年来,对抗攻击成为人工智能领域一个新的研究热点,数据污染、逃避、模仿等攻击方法不断涌现。目前国内外研究机构针对人工智能算法的攻击技术研究,主要以对抗样本攻击为主。对抗样本是通过向原始样本中添加特定的干扰,形成的具有对抗性攻击效果的样本。即,使智能算法对样本识别错误。
当前,各种对抗样本生成算法被陆续提出,典型的对抗样本生成算法包括快速梯度攻击、雅克比映射攻击、深度欺骗攻击等等。但现有的对抗样本生成方法,大都是针对各样本添加针对性的扰动。在真实应用场景中,受限于数据获取能力和实时性需求,往往难以对每个样本逐一添加针对性的干扰。最新研究表明,通用性扰动可以有效解决此问题,通过添加一种干扰,可对一类样本产生攻击效果。但现有通用扰动技术在实现通用性的同时,以牺牲对抗样本的隐蔽性为代价,比如在图像数据中,通用扰动多为明显的斑点或者色块。同时,针对某一类样本的通用性干扰,往往会对其他类型样本也产生对抗效果,易在还未达到攻击目标时被提前发现。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种基于高隐蔽性通用扰动的对抗样本生成方法,使对抗扰动具备通用性的同时,还能够兼备隐蔽性和不易察觉性。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于高隐蔽性通用扰动的对抗样本生成方法,包括以下步骤:
步骤1、最大化特定类别的期望损失,得到通用损失函数,以实现基本的通用性扰动生成;
步骤2、基于步骤1实现高隐蔽性通用扰动生成:首先在所述通用损失函数中加入对目标攻击类之外样本的修正,构建无目标、有目标通用性对抗样本生成的损失函数;其次采用梯度下降的方式对所述损失函数进行优化训练,得到初步的通用性扰动;最后采用低通滤波对所述初步的通用性扰动进行过滤,去除噪音。
优选地,步骤1中:设定x∈X为输入样本,y∈Y为样本标签,(X,Y)为数据所属集合,C(·)为分类器,C(x)表示对样本x的分类结果;
则无目标对抗样本生成是指给定一个合法的输入样本x,C(x)=a,寻找一个对抗样本x′,使得C(x)≠a;有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t,t∈Y,C(x)≠t,寻找一个对抗样本x′,使得C(x)=t;
在对抗样本生成过程中,确定扰动函数ρ:X→X,使得:
x′=ρ(x)=x+δ (1)
其中,δ为添加的对抗扰动,对扰动大小加以限制:||δ||p≤ε,||·||p为Lp距离,ε为预设常值;
将无目标通用扰动的损失函数设定为:
maxE(x,y)~D[L(C(ρ(x)),y)]s.t.||δ||p≤ε (4)
将有目标通用扰动的损失函数设定为:
maxE(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]s.t.||δ||p≤ε (5)
其中,L(·)为欧式距离,E(x,y)~D[·]表示损失函数在数据集D上的期望,所述无目标通用扰动的损失函数、有目标通用扰动的损失函数组成所述通用损失函数。
优选地,步骤2中,构建无目标、有目标通用性对抗样本生成的损失函数时,先将通用扰动的无目标损失函数Loss,有目标攻击损失函数Losstarg分别定义如下:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε(6)
Losstarg=max[(E(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε (7)
其中,F=(X,Y)-D,是D的补集。
优选地,步骤2中,构建无目标、有目标通用性对抗样本生成的损失函数时,再引入SSIM指标来衡量对抗样本与原干净样本之间的相似度,通过限制相似度对对抗样本进行进一步优化,将公式(6)、(7)的损失函数分别调整为:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2, (8)
Losstarg=max[(E(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2 (9)
其中,ε1、ε2均为预设的常数,SSIM表示结构相似性。
优选地,步骤2中,采用梯度下降的方式对所述损失函数进行优化训练,得到初步的通用性扰动具体为:
首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x),通过对每轮迭代数据集中的数据点进行不断迭代,逐步建立通用扰动,在每次迭代中,如果分类器可以将目标识别成攻击方指定的攻击目标,则跳过当前点,对于添加通用扰动后仍无法达到攻击方设置的目标,包括将特定目标识别为攻击目标和正常目标错误分类的数据点,计算出其Loss、Losstarg损失最大化的方向梯度,与预先设定的学习率α相乘,将成绩加至当前的通用扰动中;
在每轮迭代后,都对本轮迭代使用的数据集识别准确率进行判断,其中无目标攻击的准确率为将某特定类别分错类的概率以及将其他类别正确识别的概率加权之和;有目标攻击的准确率为将某一特定类别数据识别为某另一特定类别的概率,与将其他类别数据正确识别的概率加权之和,如果准确率达到预设的阈值则停止迭代,随机初始化下一个数据子集,进行下一批次的迭代,最终输出初步的通用性扰动,为一个矩阵,称为通用扰动矩阵。
优选地,步骤2中,采用低通滤波对所述初步的通用性扰动进行过滤,去除噪音时,是通过卷积来消除所述初步的通用性扰动中的高频噪声。
优选地,通过卷积来消除所述初步的通用性扰动中的高频噪声是用一个矩阵完整扫过通用扰动矩阵得到新的通用扰动。
优选地,通过卷积来消除所述初步的通用性扰动中的高频噪声具体为:卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上,同时,核内的其他值与该元素邻域的各元素重合;将核内各值与相应元素值相乘,并将乘积相加;将所得结果放到与锚点对应的元素上;对通用扰动矩阵所有元素值重复上述过程,最终,实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。
本发明还提供了一种所述的方法在对抗攻击中的应用。
本发明又提供了一种所述的方法在人工智能安全领域中的应用。
(三)有益效果
本发明首先将攻击目标函数优化问题,由最大化单一图像的损失,调整为最大化某特定类别图像的期望损失,以实现扰动的通用性;其次,为提高对抗样本的不易察觉性,本发明设置多目标优化函数,使特定类别的图像被错误识别的同时,保证其他类别的图像不受干扰影响,仍能被正确决策;最后,在隐蔽性方面,经前期实验发现,传统的梯度方法能够较快地产生具有对抗效果的扰动,而低频噪声往往更隐蔽更稳定,因此,本发明在使用传统梯度方法生成初步的对抗扰动后,进一步采用低通滤波器来消除通用扰动中的高频尖锐噪音,在实现通用攻击的同时保证对抗样本的隐蔽性。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本发明提出了一种基于高隐蔽性通用扰动的对抗样本生成方法,使对抗扰动具备通用性的同时,还能够兼备隐蔽性和不易察觉性。该方法具体包括以下步骤:
步骤1.基本的通用性扰动生成
传统的对抗样本生成方法按照攻击目标可以分为有目标对抗样本生成和无目标对抗样本生成。设定x∈X为输入样本,y∈Y为样本标签,(X,Y)为数据所属集合,C(·)为分类器,C(x)表示对样本x的分类结果;
则无目标对抗样本生成是指给定一个合法的输入样本x,C(x)=a,寻找一个对抗样本x′,使得C(x)≠a;有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t(t∈Y,C(x)≠t),寻找一个对抗样本x′,使得C(x)=t;
在对抗样本生成过程中,需要确定扰动函数ρ:X→X,使得:
x′=ρ(x)=x+δ (1)
其中,δ为添加的对抗扰动,为保证对抗样本的隐蔽性,对扰动大小加以限制:||δ||p≤ε,||·||p为Lp距离,ε为人为设定的常值;
传统的无目标对抗样本生成过程就是,对于给定的输入样本对(x,y),找到一个满足噪声约束的扰动ρ使得分类器C(·)的损失loss最大化:
max L(C(ρ(x)),y)s.t.||δ||p≤ε (2)
其中,L(·)为欧式距离,包含L1、L2、L∞等计算方式;
传统的有目标对抗样本生成,即对抗样本能够被分类器识别为攻击方指定的类别ytarg,其损失函数可以表示如下:
max(L(C(ρ(x)),y)-L(C(ρ(x)),ytarg))s.t.||δ||p≤ε (3)
总体来说,传统的对抗样本生成方法是通过最大化单一数据的损失,实现对每个样本添加针对性的对抗扰动。而本发明旨在提出一种通用扰动生成方法,通过生成一个扰动,可以对某一类样本都具有对抗攻击效果。因此,本发明首先将最大化单一图像的损失,调整为最大化某特定类别的期望损失,以实现扰动的通用性。
maxE(x,y)~D[L(C(ρ(x)),y)]s.t.||δ||p≤ε (4)
将有目标通用扰动的损失函数设定为:
maxE(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]s.t.||δ||p≤ε (5)
其中,E(x,y)~D[·]表示损失函数在数据集D上的期望。
步骤2.高隐蔽性通用扰动生成
(1)非特定类别的识别限制
在实际使用中,这种通用扰动一般会添加在所有样本中,本发明计划实现的攻击目标是,对某一类样本产生攻击效果,且不影响其他类样本的决策结果。而在上述损失函数下生成的通用扰动存在着易被察觉的问题,具体来说,对所有样本添加干扰后,可能会影响“其他”类别样本的决策准确率。比如,攻击方的目标是仅仅将路牌上的“停止”标志识别为“继续前进”,但在添加通用性对抗扰动后,可能将“限速60公里”的标志也误识别为“限速40公里”。这种设定之外的攻击不是攻击方所需要的,同时很容易引起防御方的警觉从而通过这些异常发现自已的系统受到攻击。
因此,需要对损失函数做进一步的处理,以掩盖攻击方的攻击意图,防止被防御方轻易发现,达到通用扰动的不可察觉性。本发明在上述通用损失函数中加入对目标攻击类之外样本的修正,通过抑制通用扰动对其他类别样本的攻击效果,以达成通用扰动的不可察觉性。
本发明将通用扰动的无目标损失函数Loss,有目标攻击损失函数Losstarg定义如下:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ|||p≤ε(6)
Losstarg=max[(E(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε (7)
其中,F=(X,Y)-D,是D的补集。
本步骤中,为提高对抗样本的不易察觉性,设置了多目标优化函数,使特定类别的图像被错误识别的同时,保证其他类别的图像不受干扰影响,仍能被正确决策。
(2)引入结构相似性指标增强人类视觉下的对抗扰动隐蔽性
对上述目标函数进行优化训练,可得到具有一定不可察觉性的通用性对抗扰动,但仍存在一些问题。在传统的对抗样本生成中,我们一般采用欧氏距离来衡量分类器识别结果与真是结果的差距,但欧式距离与我们人类视觉、听觉识别效果存在差异性。
以图像为例,人类对RGB图像三个通道的敏感程度不同。一般来说,人类对蓝色通道添加的扰动敏感度较低,对红色通道添加的扰动敏感度较高。在欧氏距离下对三个通道添加同样大小的扰动,红色通道添加的扰动更容易被发觉。
人类视觉系统(HVS)对噪声的敏感性取决于局部亮度、对比度和结构的不同,攻击方需要另一种指标来评估添加通用噪声的通信的隐蔽性。结构相似性(SSIM)是一种在HVS下,衡量两幅图像相似度的指标。SSIM从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。SSIM被广泛应用于衡量图像及视频质量。
本发明引入SSIM指标来衡量对抗样本与原干净样本之间的相似度,通过限制相似度对对抗样本进行进一步优化。损失函数调整为:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2, (8)
Losstarg=max[(E(x,y)~D[L(C(p(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2 (9)
ε1、ε2均为预设的常数,SSIM表示结构相似性;
(3)优化训练
1)基于梯度下降方法的优化训练
现有的主流对抗攻击技术,大都是通过计算样本梯度信息来优化扰动噪声。受此启发,本发明首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x)。通过对每轮迭代数据集中的数据点进行不断迭代,逐步建立通用扰动。
在每次迭代中,如果分类器可以将目标识别成攻击方指定的攻击目标,则跳过当前点。对于添加通用扰动后仍无法达到攻击方设置的目标,包括将特定目标识别为攻击目标和正常目标错误分类的数据点,计算出其Loss、Losstarg损失最大化的方向梯度,与原先设定的学习率α相乘,将成绩加至当前的通用扰动中。
在每轮迭代后,都对本轮迭代使用的数据集识别准确率进行判断。其中无目标攻击的准确率为将某特定类别分错类的概率以及将其他类别正确识别的概率加权之和;有目标攻击的准确率为将某一特定类别数据识别为某另一特定类别的概率,与将其他类别数据正确识别的概率加权之和。如果准确率达到预设的阈值则停止迭代,随机初始化下一个数据子集,进行下一批次的迭代,最终输出通用扰动,为一个矩阵,称为通用扰动矩阵。
2)基于低通滤波增强通用干扰隐蔽性
现有的典型分类器中,如卷积神经网络,因具有太多的卷积层,这就导致尖锐的噪声会在深度网络中放大到很高的倍数。高频噪声易被人眼识别和发现,防御方也可以通过寻找高频噪声来识别对抗样本。因此,在通用扰动的每次迭代后,加入低通滤波器。低通滤波可以让样本数据变得光滑,滤除通用噪声中的尖锐点,使得通用扰动更具有普遍性和不可见性。
本发明采用高斯滤波,通过卷积来消除通用扰动中的高频噪声。具体地说,用一个矩阵完整扫过原通用扰动得到新的通用扰动。通过卷积来消除通用扰动中的高频噪声具体为:卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上,同时,核内的其他值与该元素邻域的各元素重合;将核内各值与相应元素值相乘,并将乘积相加;将所得结果放到与锚点对应的元素上;对通用扰动矩阵所有元素值重复上述过程。最终,实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。
综上,本步骤生成高隐蔽性通用扰动的流程总结如下:
Step1:设定通用性扰动损失函数。通过考虑扰动的通用性攻击效果、对非特定类别的影响最小化,以及真实物理意义上的不可察觉性,构建无目标、有目标通用性对抗样本生成的损失函数,如公式(8)、(9);
Step2:采用梯度下降的方式对损失函数进行优化训练,得到初步的通用性扰动;
Step3:采用低通滤波对上一步骤中产生的扰动进行过滤,去除尖锐噪音,增强对抗样本隐蔽性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于高隐蔽性通用扰动的对抗样本生成方法,其特征在于,包括以下步骤:
步骤1、最大化特定类别的期望损失,得到通用损失函数,以实现基本的通用性扰动生成;
步骤2、基于步骤1实现高隐蔽性通用扰动生成:首先在所述通用损失函数中加入对目标攻击类之外样本的修正,构建无目标、有目标通用性对抗样本生成的损失函数;其次采用梯度下降的方式对所述损失函数进行优化训练,得到初步的通用性扰动;最后采用低通滤波对所述初步的通用性扰动进行过滤,去除噪音。
2.如权利要求1所述的方法,其特征在于,步骤1中:设定x∈X为输入样本,y∈Y为样本标签,(X,Y)为数据所属集合,C(·)为分类器,C(x)表示对样本x的分类结果;
则无目标对抗样本生成是指给定一个合法的输入样本x,C(x)=a,寻找一个对抗样本x′,使得C(x′)≠a;有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t,t∈Y,C(x)≠t,寻找一个对抗样本x′,使得C(x′)=t;
在对抗样本生成过程中,确定扰动函数ρ:X→X,使得:
x'=ρ(x)=x+δ (1)
其中,δ为添加的对抗扰动,对扰动大小加以限制:||δ||p≤ε,||·||p为Lp距离,ε为预设常值;
将无目标通用扰动的损失函数设定为:
maxE(x,y)~D[L(C(ρ(x)),y)]s.t.||δ||p≤ε(4)
将有目标通用扰动的损失函数设定为:
maxE(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]s.t.||δ||p≤ε(5)
其中,L(·)为欧式距离,E(x,y)~D[·]表示损失函数在数据集D上的期望,所述无目标通用扰动的损失函数、有目标通用扰动的损失函数组成所述通用损失函数。
3.如权利要求2所述的方法,其特征在于,步骤2中,构建无目标、有目标通用性对抗样本生成的损失函数时,先将通用扰动的无目标损失函数Loss,有目标攻击损失函数Losstarg分别定义如下:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε (6)
Losstarg=max[(E(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε(7)
其中,F=(X,Y)-D,是D的补集。
4.如权利要求3所述的方法,其特征在于,步骤2中,构建无目标、有目标通用性对抗样本生成的损失函数时,再引入SSIM指标来衡量对抗样本与原干净样本之间的相似度,通过限制相似度对对抗样本进行进一步优化,将公式(6)、(7)的损失函数分别调整为:
Loss=max[(E(x,y)~D[L(C(ρ(x)),y)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2,(8)
Losstarg=max[(E(x,y)~D[L(C(ρ(x)),y)-L(C(ρ(x)),ytarg)]-E(x,y)~F[L(C(ρ(x)),y)])]s.t.||δ||p≤ε1,SSIM(x,ρ(x))≤ε2 (9)
其中,ε1、ε2均为预设的常数,SSIM表示结构相似性。
5.如权利要求4所述的方法,其特征在于,步骤2中,采用梯度下降的方式对所述损失函数进行优化训练,得到初步的通用性扰动具体为:
首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x),通过对每轮迭代数据集中的数据点进行不断迭代,逐步建立通用扰动,
在每次迭代中,如果分类器可以将目标识别成攻击方指定的攻击目标,则跳过当前点,对于添加通用扰动后仍无法达到攻击方设置的目标,包括将特定目标识别为攻击目标和正常目标错误分类的数据点,计算出其Loss、Losstarg损失最大化的方向梯度,与预先设定的学习率α相乘,将成绩加至当前的通用扰动中;
在每轮迭代后,都对本轮迭代使用的数据集识别准确率进行判断,其中无目标攻击的准确率为将某特定类别分错类的概率以及将其他类别正确识别的概率加权之和;有目标攻击的准确率为将某一特定类别数据识别为某另一特定类别的概率,与将其他类别数据正确识别的概率加权之和,如果准确率达到预设的阈值则停止迭代,随机初始化下一个数据子集,进行下一批次的迭代,最终输出初步的通用性扰动,为一个矩阵,称为通用扰动矩阵。
6.如权利要求5所述的方法,其特征在于,步骤2中,采用低通滤波对所述初步的通用性扰动进行过滤,去除噪音时,是通过卷积来消除所述初步的通用性扰动中的高频噪声。
7.如权利要求6所述的方法,其特征在于,通过卷积来消除所述初步的通用性扰动中的高频噪声是用一个矩阵完整扫过通用扰动矩阵得到新的通用扰动。
8.如权利要求7所述的方法,其特征在于,通过卷积来消除所述初步的通用性扰动中的高频噪声具体为:卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上,同时,核内的其他值与该元素邻域的各元素重合;将核内各值与相应元素值相乘,并将乘积相加;将所得结果放到与锚点对应的元素上;对通用扰动矩阵所有元素值重复上述过程,最终,实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。
9.一种如权利要求1至8中任一项所述的方法在对抗攻击中的应用。
10.一种如权利要求1至8中任一项所述的方法在人工智能安全领域中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524788.1A CN111680292B (zh) | 2020-06-10 | 2020-06-10 | 一种基于高隐蔽性通用扰动的对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524788.1A CN111680292B (zh) | 2020-06-10 | 2020-06-10 | 一种基于高隐蔽性通用扰动的对抗样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680292A true CN111680292A (zh) | 2020-09-18 |
CN111680292B CN111680292B (zh) | 2023-05-16 |
Family
ID=72454443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010524788.1A Active CN111680292B (zh) | 2020-06-10 | 2020-06-10 | 一种基于高隐蔽性通用扰动的对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680292B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333402A (zh) * | 2020-10-20 | 2021-02-05 | 浙江大学 | 一种基于声波的图像对抗样本生成方法及系统 |
CN112488023A (zh) * | 2020-12-08 | 2021-03-12 | 西北工业大学 | 基于梯度扰动的电磁信号智能识别系统诱骗方法 |
CN112529047A (zh) * | 2020-11-23 | 2021-03-19 | 广州大学 | 一种基于梯度屏蔽的对抗样本生成方法 |
CN112836764A (zh) * | 2021-03-02 | 2021-05-25 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN112926802A (zh) * | 2021-04-01 | 2021-06-08 | 重庆邮电大学 | 时序数据对抗样本生成方法、系统、电子设备及存储介质 |
CN113205821A (zh) * | 2021-04-25 | 2021-08-03 | 广州大学 | 一种基于对抗样本的语音隐写方法 |
CN113362822A (zh) * | 2021-06-08 | 2021-09-07 | 北京计算机技术及应用研究所 | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 |
CN113450271A (zh) * | 2021-06-10 | 2021-09-28 | 南京信息工程大学 | 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法 |
CN113469873A (zh) * | 2021-06-25 | 2021-10-01 | 中国人民解放军陆军工程大学 | 对抗智能侦察识别系统的伪装贴片生成方法 |
CN113628150A (zh) * | 2021-07-05 | 2021-11-09 | 深圳大学 | 攻击图像生成方法、电子设备及可读存储介质 |
CN113673581A (zh) * | 2021-07-29 | 2021-11-19 | 厦门路桥信息股份有限公司 | 硬标签黑盒深度模型对抗样本的生成方法、存储介质 |
CN114332446A (zh) * | 2021-10-18 | 2022-04-12 | 北京计算机技术及应用研究所 | 在物理世界下具有旋转鲁棒性的图像对抗样本生成方法 |
CN114758187A (zh) * | 2022-01-10 | 2022-07-15 | 西安电子科技大学 | 基于隐写的通用对抗扰动生成方法、介质及计算机设备 |
CN114972783A (zh) * | 2022-05-06 | 2022-08-30 | 华中科技大学 | 一种增强梯度低频信息的对抗样本生成方法及其应用 |
CN115439377A (zh) * | 2022-11-08 | 2022-12-06 | 电子科技大学 | 一种增强对抗图像样本迁移性攻击的方法 |
CN116935172A (zh) * | 2023-07-31 | 2023-10-24 | 北京瑞莱智慧科技有限公司 | 图像处理方法、相关装置及存储介质 |
CN116991075A (zh) * | 2023-09-26 | 2023-11-03 | 中国石油大学(华东) | 一种针对故障诊断模型的通用对抗扰动生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599109A (zh) * | 2018-12-26 | 2019-04-09 | 浙江大学 | 针对白盒场景的对抗音频生成方法及系统 |
CN110674937A (zh) * | 2019-07-04 | 2020-01-10 | 北京航空航天大学 | 一种提升深度学习模型鲁棒性的训练方法及系统 |
CN110941794A (zh) * | 2019-11-27 | 2020-03-31 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
-
2020
- 2020-06-10 CN CN202010524788.1A patent/CN111680292B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599109A (zh) * | 2018-12-26 | 2019-04-09 | 浙江大学 | 针对白盒场景的对抗音频生成方法及系统 |
CN110674937A (zh) * | 2019-07-04 | 2020-01-10 | 北京航空航天大学 | 一种提升深度学习模型鲁棒性的训练方法及系统 |
CN110941794A (zh) * | 2019-11-27 | 2020-03-31 | 浙江工业大学 | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 |
Non-Patent Citations (2)
Title |
---|
HONG LIU 等: "Universal Adversarial Perturbation via Prior Driven Uncertainty Approximation" * |
郭敏 等: "针对深度强化学习导航的物理对抗攻击方法" * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333402A (zh) * | 2020-10-20 | 2021-02-05 | 浙江大学 | 一种基于声波的图像对抗样本生成方法及系统 |
CN112333402B (zh) * | 2020-10-20 | 2021-10-22 | 浙江大学 | 一种基于声波的图像对抗样本生成方法及系统 |
CN112529047A (zh) * | 2020-11-23 | 2021-03-19 | 广州大学 | 一种基于梯度屏蔽的对抗样本生成方法 |
CN112488023A (zh) * | 2020-12-08 | 2021-03-12 | 西北工业大学 | 基于梯度扰动的电磁信号智能识别系统诱骗方法 |
CN112488023B (zh) * | 2020-12-08 | 2024-05-31 | 西北工业大学 | 基于梯度扰动的电磁信号智能识别系统诱骗方法 |
CN112836764A (zh) * | 2021-03-02 | 2021-05-25 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN112836764B (zh) * | 2021-03-02 | 2023-07-28 | 中山大学 | 一种面向目标分类系统的通用目标攻击方法及装置 |
CN112926802B (zh) * | 2021-04-01 | 2023-05-23 | 重庆邮电大学 | 时序数据对抗样本生成方法、系统、电子设备及存储介质 |
CN112926802A (zh) * | 2021-04-01 | 2021-06-08 | 重庆邮电大学 | 时序数据对抗样本生成方法、系统、电子设备及存储介质 |
CN113205821A (zh) * | 2021-04-25 | 2021-08-03 | 广州大学 | 一种基于对抗样本的语音隐写方法 |
CN113205821B (zh) * | 2021-04-25 | 2023-08-29 | 广州大学 | 一种基于对抗样本的语音隐写方法 |
CN113362822A (zh) * | 2021-06-08 | 2021-09-07 | 北京计算机技术及应用研究所 | 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法 |
CN113450271A (zh) * | 2021-06-10 | 2021-09-28 | 南京信息工程大学 | 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法 |
CN113450271B (zh) * | 2021-06-10 | 2024-02-27 | 南京信息工程大学 | 一种基于人类视觉模型的鲁棒自适应对抗样本生成方法 |
CN113469873A (zh) * | 2021-06-25 | 2021-10-01 | 中国人民解放军陆军工程大学 | 对抗智能侦察识别系统的伪装贴片生成方法 |
CN113628150B (zh) * | 2021-07-05 | 2023-08-08 | 深圳大学 | 攻击图像生成方法、电子设备及可读存储介质 |
CN113628150A (zh) * | 2021-07-05 | 2021-11-09 | 深圳大学 | 攻击图像生成方法、电子设备及可读存储介质 |
CN113673581A (zh) * | 2021-07-29 | 2021-11-19 | 厦门路桥信息股份有限公司 | 硬标签黑盒深度模型对抗样本的生成方法、存储介质 |
CN113673581B (zh) * | 2021-07-29 | 2023-08-01 | 厦门路桥信息股份有限公司 | 硬标签黑盒深度模型对抗样本的生成方法、存储介质 |
CN114332446B (zh) * | 2021-10-18 | 2022-07-12 | 北京计算机技术及应用研究所 | 在物理世界下具有旋转鲁棒性的图像对抗样本生成方法 |
CN114332446A (zh) * | 2021-10-18 | 2022-04-12 | 北京计算机技术及应用研究所 | 在物理世界下具有旋转鲁棒性的图像对抗样本生成方法 |
CN114758187A (zh) * | 2022-01-10 | 2022-07-15 | 西安电子科技大学 | 基于隐写的通用对抗扰动生成方法、介质及计算机设备 |
CN114758187B (zh) * | 2022-01-10 | 2024-09-17 | 西安电子科技大学 | 基于隐写的通用对抗扰动生成方法、介质及计算机设备 |
CN114972783A (zh) * | 2022-05-06 | 2022-08-30 | 华中科技大学 | 一种增强梯度低频信息的对抗样本生成方法及其应用 |
CN115439377A (zh) * | 2022-11-08 | 2022-12-06 | 电子科技大学 | 一种增强对抗图像样本迁移性攻击的方法 |
CN116935172A (zh) * | 2023-07-31 | 2023-10-24 | 北京瑞莱智慧科技有限公司 | 图像处理方法、相关装置及存储介质 |
CN116991075B (zh) * | 2023-09-26 | 2023-12-19 | 中国石油大学(华东) | 一种针对故障诊断模型的通用对抗扰动生成方法 |
CN116991075A (zh) * | 2023-09-26 | 2023-11-03 | 中国石油大学(华东) | 一种针对故障诊断模型的通用对抗扰动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111680292B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680292A (zh) | 一种基于高隐蔽性通用扰动的对抗样本生成方法 | |
Bhattad et al. | Unrestricted adversarial examples via semantic manipulation | |
CN109948658B (zh) | 面向特征图注意力机制的对抗攻击防御方法及应用 | |
CN110991299B (zh) | 一种物理域上针对人脸识别系统的对抗样本生成方法 | |
Guo et al. | Low frequency adversarial perturbation | |
CN111460443A (zh) | 一种联邦学习中数据操纵攻击的安全防御方法 | |
CN113780461B (zh) | 基于特征匹配的鲁棒神经网络训练方法 | |
Li et al. | Hiding faces in plain sight: Disrupting ai face synthesis with adversarial perturbations | |
CN110163093A (zh) | 一种基于遗传算法的路牌识别对抗防御方法 | |
CN110288550B (zh) | 基于先验知识引导条件生成对抗网络的单张图像去雾方法 | |
CN112287973A (zh) | 基于截尾奇异值和像素插值的数字图像对抗样本防御方法 | |
CN112200075B (zh) | 一种基于异常检测的人脸防伪方法 | |
CN111179202A (zh) | 一种基于生成对抗网络的单幅图像去雾增强方法和系统 | |
CN116739114B (zh) | 部署在服务器上对抗模型投毒攻击的联邦学习方法及装置 | |
Li et al. | Spatial kernel K-harmonic means clustering for multi-spectral image segmentation | |
CN114049537B (zh) | 一种基于卷积神经网络的对抗样本防御方法 | |
CN113627543A (zh) | 一种对抗攻击检测方法 | |
Li et al. | Detecting adversarial patch attacks through global-local consistency | |
CN115481716A (zh) | 一种基于深度网络前景激活特征转移的物理世界对抗攻击方法 | |
CN113221388B (zh) | 一种视觉感知扰动约束的黑盒深度模型对抗样本生成方法 | |
CN113378620B (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
CN114861796A (zh) | 一种针对大尺寸图像分类的对抗样本混合防御方法 | |
Tan et al. | DOEPatch: Dynamically Optimized Ensemble Model for Adversarial Patches Generation | |
CN118135640B (zh) | 基于隐性噪声的对抗人脸图像攻击防御方法 | |
Yang et al. | LpAdvGAN: Noise Optimization Based Adversarial Network Generation Adversarial Example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |