CN114757336A - 深度学习模型对抗攻击敏感频带检测方法及相关装置 - Google Patents
深度学习模型对抗攻击敏感频带检测方法及相关装置 Download PDFInfo
- Publication number
- CN114757336A CN114757336A CN202210356023.0A CN202210356023A CN114757336A CN 114757336 A CN114757336 A CN 114757336A CN 202210356023 A CN202210356023 A CN 202210356023A CN 114757336 A CN114757336 A CN 114757336A
- Authority
- CN
- China
- Prior art keywords
- frequency
- successful
- disturbance
- learning model
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000926 separation method Methods 0.000 claims abstract description 53
- 238000009826 distribution Methods 0.000 claims description 74
- 230000000873 masking effect Effects 0.000 claims description 52
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 230000003042 antagnostic effect Effects 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000007123 defense Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于机器学习领域,公开了一种深度学习模型对抗攻击敏感频带检测方法,通过构造成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集并利用掩码操作将其中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;进而结合预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带,能够准确定位深度学习模型的对抗攻击敏感频带。
Description
技术领域
本发明属于机器学习领域,涉及一种深度学习模型对抗攻击敏感频带检测方法及相关装置。
背景技术
以深度学习算法为代表的人工智能技术不断发展,推动图像分类、自然语言处理以及语音识别等多种任务的解决方案持续取得了较大突破。随着深度学习模型广泛应用于现实生活场景中,其鲁棒性逐渐成为被关注的重点,目前,有研究表明深度学习模型极易受到对抗样本的攻击,即通过向原始图像添加人眼不可察觉的对抗扰动,攻击者可以构造出视觉上与原始图像相似度极高,却可以误导模型以较高的置信度输出错误预测结果的对抗样本。对抗样本的出现为深度学习模型的稳定运行带来了新的安全威胁,尤其阻碍了深度学习模型在自动驾驶以及金融风险分析等安全敏感领域的落地应用。目前尽管已经有一些深度学习模型对抗攻击结果的解释方法被提出,但所得到的结论之间仍然存在不一致甚至矛盾之处,导致了深度模型对抗攻击结果难以得到有效的解释。
针对以上问题,已经有一些研究工作初步尝试从频域的角度解释深度学习模型的对抗攻击结果。例如,有学者提出将向原始图像添加到的对抗扰动通过二维离散傅里叶变换转换到频域,观察其在频域的分布,并基于此得出对抗扰动在高频区域强度较大,进而影响深度学习模型图像分类准确率的结论。
但是,现有方法只提供了对抗扰动在频域的分布图,而观察对抗扰动在频域的分布是粗粒度方法,只能大概确定对抗扰动强度较大区域的范围,无法准确定位原始图像受到高强度对抗攻击的区域,这导致无法确定具体在那些频带内添加扰动能够高效率地实现对深度学习模型的对抗攻击,进而导致无法有针对性地进行对抗攻击防御。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种深度学习模型对抗攻击敏感频带检测方法及相关装置。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种深度学习模型对抗攻击敏感频带检测方法,包括:
获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
可选的,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离:
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;为高频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;为低频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
可选的,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:
将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
可选的,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;
当|rl1-rh1|小于|rl2-rh2|时,深度学习模型的对抗攻击敏感频带 (rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
可选的,还包括:
根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集;
在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rh-rl;为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rl-rh;为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k;
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
pk=‖Δvk‖0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置 (i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;为分类准确率上限阈值;为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果;
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
可选的,还包括:
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
本发明第二方面,一种深度学习模型对抗攻击敏感频带检测系统,包括:
数据获取模块,用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
转换模块,用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
频带分离模块,用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
统计模块,用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
敏感频带确定模块,用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明深度学习模型对抗攻击敏感频带检测方法,通过构造频域成功对抗扰动集,然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试,根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值,准确定位深度学习模型的对抗攻击敏感频带,进而基于检测到的对抗攻击敏感频带,可以为深度学习模型的对抗攻击防御方法提供指导,针对对抗攻击敏感频带设计相应的防御方法,提高深度学习模型抵御对抗攻击的能力,增强深度学习模型的鲁棒性。并且,基于深度学习模型的对抗攻击敏感频带的准确定位,精确表征深度学习模型的脆弱区域,为深度学习模型对抗攻击结果提供细粒度解释。
附图说明
图1为本发明实施例的深度学习模型对抗攻击敏感频带检测方法流程图;
图2为本发明实施例的深度学习模型对抗攻击敏感频带检测系统结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一实施例中,提供一种深度学习模型对抗攻击敏感频带检测方法,用于准确检测深度学习模型的对抗攻击敏感频带,进而可根据检测出的对抗攻击敏感频带有针对性地设计对抗攻击防御措施,进而提高深度学习模型抵御对抗攻击的能力,提升深度学习模型的预测性能。
具体的,该深度学习模型对抗攻击敏感频带检测方法包括以下步骤:
S1:获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像。
S2:根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集。
S3:利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
S4:将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率。
S5:根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
具体的,所述步骤S1中,深度学习模型可以选择在图像分类任务中常用的深度卷积神经网络模型,且所获取的深度学习模型为已经完成训练的模型,通常需要获取模型结构、模型参数等进行白盒对抗攻击所需的信息。
所述步骤S1中,原始图像集中的每一个原始图像被输入到深度学习模型C 后,深度学习模型的输出结果都是该原始图像的正确标签。可选的,考虑到后续生成对抗图像的计算成本,若原始图像集中原始图像的维度d×d数值较大,生成对抗图像方法的复杂度较高,可以将原始图像集的原始图像数量控制在一个较小的范围内,以避免生成对抗图像所需时间过长的问题。
所述步骤S2中,设原始图像x∈X,X为原始图像集,对应的对抗图像 xadv∈Xadv,Xadv为对抗样本集,且x,将对抗样本xadv输入深度学习模型C并计算对抗扰动ε=xadv-x,且若深度学习模型C的输出结果不是原始图像x的标签y,则成功对抗扰动εsuc=ε,且εsuc∈Εsuc,Εsuc为成功对抗扰动集。
然后,将成功对抗扰动集中的对抗扰动转换至频域,具体的,设为二维离散傅里叶变换,z为ε转换至频域的形式,且将成功对抗扰动集Εsuc中的成功对抗扰动εsuc通过上述方式转换至频域,生成频域成功对抗扰动zsuc,zsuc∈Zsuc,构成频域成功对抗扰动集Zsuc。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的εsuc通道个数为1,完成二维离散傅里叶变换即可得到通道个数为1的频域成功对抗扰动 zsuc以及频域成功对抗扰动集Zsuc;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的εsuc通道个数为3,在εsuc的每个通道内分别完成二维离散傅里叶变换,可得到通道个数为3的频域成功对抗扰动zsuc以及频域成功对抗扰动集Zsuc。
所述步骤S3中,利用掩码操作将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离:
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;为高频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;为低频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的zsuc通道个数为1,完成上述操作即可将zsuc的高频成分与低频成分分离;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的zsuc通道个数为3,在zsuc的每个通道内分别完成上述操作,可将zsuc的高频成分与低频成分分离。
所述步骤S3中,根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。具体的,将频域成功对抗扰动集Zsuc中的对抗扰动的高频成分与低频成分分离后,将所得的与利用逆二维离散傅里叶变换转换至图像域,与对应的原始图像重新组合,从而构建高频成功对抗样本集与低频成功对抗样本集具体表示为:
其中,clip(·)可以确保重构高频成功对抗样本与低频成功对抗样本的像素值上下界与原始图像像素值上下界保持一致。随着掩码半径r的改变,可以得到若干组高频成功对抗样本集与低频成功对抗样本集。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的与通道个数为1,完成与的逆二维离散傅里叶变换后,将其与对应的原始图像重新组合即可构建高频成功对抗样本集与低频成功对抗样本集;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的与通道个数为3,在与的每个通道内分别完成逆二维离散傅里叶变换后,将其与对应的原始图像重新组合,可构建高频成功对抗样本集与低频成功对抗样本集。
具体的,根据对抗攻击敏感频带的定义和深度学习模型分别在与上的测试结果,可得到深度学习模型位于高频区域与低频区域的两个对抗攻击敏感频带,选取|rl-rh|较小的对抗攻击敏感频带(rh,rl)作为该深度学习模型在该对抗样本集上的唯一对抗攻击敏感频带。其中,当对抗攻击敏感频带位于高频区域时,rl<rh;当对抗攻击敏感频带位于低频区域时,rl>rh。
具体的,根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;当|rl1-rh1|小于 |rl2-rh2|时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
在一种可能的实施方式中,所述深度学习模型对抗攻击敏感频带检测方法还包括以下的验证步骤:
S6:根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集Εunsuc,将非成功对抗扰动集中的对抗扰动转换至频域得到频域非成功对抗扰动集Zunsuc。
S7:在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc。
S8:当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rh-rl;为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k。
S9:当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,ri-rh;为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k。
S10:根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
pk=‖Δvk‖0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置 (i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;为分类准确率上限阈值;为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果。
S11:当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
所述步骤S6中,将对抗样本xadv输入深度学习模型C并计算对抗扰动ε= xadv-x,且若深度学习模型C的输出结果为原始图像x的标签y,则非成功对抗扰动εunsec=ε,且εunsec∈Εunsuc,Εunsuc为非成功对抗扰动集。利用二维离散傅里叶变换将非成功对抗扰动集Εunsuc中的非成功对抗扰动εunsuc逐一转换至频域,生成频域非成功对抗扰动zunsuc,且zunsuc∈Zunsuc,从而构成频域非成功对抗扰动集Zunsuc。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的εunsec通道个数为1,完成二维离散傅里叶变换即可得到通道个数为1的频域非成功对抗扰动zunsuc以及频域非成功对抗扰动集Zunsuc;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的εunsec通道个数为3,在εunsec的每个通道内分别完成二维离散傅里叶变换,可得到通道个数为3的频域非成功对抗扰动zunsuc以及频域非成功对抗扰动集Zunsuc。
所述步骤S7中,通过下式得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc:
其中,zsuc为频域成功对抗扰动;εsuc为对应于zsuc的成功对抗扰动; zunsuc为频域非成功对抗扰动;εunsuc为对应于zunsuc的非成功对抗扰动; numsuc与numunsuc分别为频域成功对抗扰动集Zsuc与频域非成功对抗扰动集 Zunsuc中的样本数量。
当原始图像为灰度图像时,其通道个数为1,完成上述操作即可得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;当原始图像为彩色图像时,其通道个数为3,通过下式得到频域成功对抗扰动集强度分布 vsuc与频域非成功对抗扰动集强度分布vunsuc:
其中,zsuc,i为频域成功对抗扰动第i个通道上的值;εsuc,i为成功对抗扰动第 i个通道上的值;zunsuc,i为频域非成功对抗扰动第i个通道上的值;εunsuc,i为非成功对抗扰动第i个通道上的值。
所述步骤S11中,score越高,表明成功对抗扰动在对抗攻击敏感频带内相较于非成功对抗扰动强度越大,可选的,本实施例中,预设阈值为0.5,当 score>0.5时,确定深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
在一种可能的实施方式中,当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。其中,为使得所得深度学习模型的对抗攻击敏感频带结果更加泛化,所能更换的扰动方法总量一般不小于3个,各扰动方法的原理之间也应有明显区别。
综上所述,本发明深度学习模型对抗攻击敏感频带检测方法,通过构造频域成功对抗扰动集,然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试,根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值,准确定位深度学习模型的对抗攻击敏感频带,进而基于检测到的对抗攻击敏感频带,可以为深度学习模型的对抗攻击防御方法提供指导,针对对抗攻击敏感频带设计相应的防御方法,提高深度学习模型抵御对抗攻击的能力,增强深度学习模型的鲁棒性。
并且,基于深度学习模型的对抗攻击敏感频带的准确定位,精确表征深度学习模型的脆弱区域,为深度学习模型对抗攻击结果提供细粒度解释。
例如,针对在图像分类任务中常用的深度卷积神经网络模型,通过该深度学习模型对抗攻击敏感频带检测方法检测其对抗攻击敏感频带,然后基于对抗攻击敏感频带对该深度学习模型的对抗攻击防御进行部署,可以有效提升该深度学习模型的对抗攻击防御效果,并且提升该深度学习模型对图像的分类效果。
进一步的,通过在深度学习模型的对抗攻击敏感频带内比较频域成功对抗扰动集与频域非成功对抗扰动集的强度,继而获得成功对抗扰动与非成功对抗扰动之间的差异,有效验证所检测到的对抗攻击敏感频带的有效性。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
参见图2,本发明再一实施例中,提供一种深度学习模型对抗攻击敏感频带检测系统,能够用于实现上述的深度学习模型对抗攻击敏感频带检测方法,具体的,该深度学习模型对抗攻击敏感频带检测系统包括数据获取模块、转换模块、频带分离模块、统计模块以及敏感频带确定模块。
其中,数据获取模块用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;转换模块用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;频带分离模块用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;统计模块用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;敏感频带确定模块用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
在一种可能的实施方式中,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离:
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;为高频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;为低频成分分离结果;为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
在一种可能的实施方式中,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r 对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
在一种可能的实施方式中,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;当|rl1-rh1|小于|rl2-rh2| 时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
在一种可能的实施方式中,该深度学习模型对抗攻击敏感频带检测还包括验证模块,验证模块用于根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集,在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rh-rl;为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为ri+k-1或rl+k。
当深度学习模型的对抗攻击敏感频带(rh,rl(=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rl-rh;为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k。
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
pk=‖Δvk‖0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置(i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;为分类准确率上限阈值;为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果。
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
在一种可能的实施方式中,验证模块还用于当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
前述的深度学习模型对抗攻击敏感频带检测方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的深度学习模型对抗攻击敏感频带检测系统所对应的功能模块的功能描述,在此不再赘述。本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于深度学习模型对抗攻击敏感频带检测方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关深度学习模型对抗攻击敏感频带检测方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种深度学习模型对抗攻击敏感频带检测方法,其特征在于,包括:
获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
2.根据权利要求1所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离:
4.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:
将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
5.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;
当|rl1-rh1|小于|rl2-rh2|时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
6.根据权利要求5所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,还包括:
根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集;
在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rh-rl;为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k:
其中,k=1,2,…,rl-rh;为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k;
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
pk=||Δvk||0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置(i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;为分类准确率上限阈值;为分类准确率下限阈值;||·||0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;为对d×d维的像素点值均为1的图像的以rl-k为半径划分的外部进行掩码操作后的结果;
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
7.根据权利要求6所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,还包括:
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
8.一种深度学习模型对抗攻击敏感频带检测系统,其特征在于,包括:
数据获取模块,用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
转换模块,用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
频带分离模块,用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
统计模块,用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
敏感频带确定模块,用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356023.0A CN114757336B (zh) | 2022-04-06 | 2022-04-06 | 深度学习模型对抗攻击敏感频带检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356023.0A CN114757336B (zh) | 2022-04-06 | 2022-04-06 | 深度学习模型对抗攻击敏感频带检测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757336A true CN114757336A (zh) | 2022-07-15 |
CN114757336B CN114757336B (zh) | 2024-06-18 |
Family
ID=82329077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210356023.0A Active CN114757336B (zh) | 2022-04-06 | 2022-04-06 | 深度学习模型对抗攻击敏感频带检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757336B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821408A (zh) * | 2023-08-29 | 2023-09-29 | 南京航空航天大学 | 一种多任务一致性对抗的检索方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113822328A (zh) * | 2021-08-05 | 2021-12-21 | 厦门市美亚柏科信息股份有限公司 | 防御对抗样本攻击的图像分类方法、终端设备及存储介质 |
WO2022037295A1 (zh) * | 2020-08-20 | 2022-02-24 | 鹏城实验室 | 一种针对深度哈希检索的有目标攻击方法及终端设备 |
CN114220097A (zh) * | 2021-12-17 | 2022-03-22 | 中国人民解放军国防科技大学 | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
-
2022
- 2022-04-06 CN CN202210356023.0A patent/CN114757336B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
WO2022037295A1 (zh) * | 2020-08-20 | 2022-02-24 | 鹏城实验室 | 一种针对深度哈希检索的有目标攻击方法及终端设备 |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113822328A (zh) * | 2021-08-05 | 2021-12-21 | 厦门市美亚柏科信息股份有限公司 | 防御对抗样本攻击的图像分类方法、终端设备及存储介质 |
CN114220097A (zh) * | 2021-12-17 | 2022-03-22 | 中国人民解放军国防科技大学 | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
Non-Patent Citations (1)
Title |
---|
杨浚宇;: "基于迭代自编码器的深度学习对抗样本防御方案", 信息安全学报, no. 06, 15 November 2019 (2019-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821408A (zh) * | 2023-08-29 | 2023-09-29 | 南京航空航天大学 | 一种多任务一致性对抗的检索方法及系统 |
CN116821408B (zh) * | 2023-08-29 | 2023-12-01 | 南京航空航天大学 | 一种多任务一致性对抗的检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114757336B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN110866287B (zh) | 一种基于权重谱生成对抗样本的点攻击方法 | |
CN110222566A (zh) | 一种人脸特征的获取方法、装置、终端及存储介质 | |
CN104866868A (zh) | 基于深度神经网络的金属币识别方法和装置 | |
CN110781976B (zh) | 训练图像的扩充方法、训练方法及相关装置 | |
CN110009628A (zh) | 一种针对连续二维图像中多形态目标的自动检测方法 | |
CN111611851B (zh) | 模型生成方法、虹膜检测方法及装置 | |
CN110348358A (zh) | 一种肤色检测系统、方法、介质和计算设备 | |
CN111950633A (zh) | 神经网络的训练、目标检测方法及装置和存储介质 | |
CN114757336A (zh) | 深度学习模型对抗攻击敏感频带检测方法及相关装置 | |
Luo et al. | Camouflaged instance segmentation via explicit de-camouflaging | |
CN109697727A (zh) | 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质 | |
CN112884147A (zh) | 神经网络训练方法、图像处理方法、装置及电子设备 | |
CN103700118B (zh) | 基于脉冲耦合神经网络的动目标检测方法 | |
CN111046755A (zh) | 字符识别方法、装置、计算机设备和计算机可读存储介质 | |
Zhu et al. | A novel simple visual tracking algorithm based on hashing and deep learning | |
CN112488062B (zh) | 一种图像识别方法、装置、设备及介质 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
Sun et al. | Multi-AUV target recognition method based on GAN-meta learning | |
Meethal et al. | Semi-weakly supervised object detection by sampling pseudo ground-truth boxes | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN117370832A (zh) | 基于贝叶斯神经网络的水声目标识别方法及装置 | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
CN114898137A (zh) | 面向人脸识别的黑盒对抗样本攻击方法、装置、设备及介质 | |
CN113971442A (zh) | 一种基于自步学习的生成通用对抗扰动方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |