CN114757336A - 深度学习模型对抗攻击敏感频带检测方法及相关装置 - Google Patents

深度学习模型对抗攻击敏感频带检测方法及相关装置 Download PDF

Info

Publication number
CN114757336A
CN114757336A CN202210356023.0A CN202210356023A CN114757336A CN 114757336 A CN114757336 A CN 114757336A CN 202210356023 A CN202210356023 A CN 202210356023A CN 114757336 A CN114757336 A CN 114757336A
Authority
CN
China
Prior art keywords
frequency
successful
disturbance
learning model
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210356023.0A
Other languages
English (en)
Other versions
CN114757336B (zh
Inventor
蔺琛皓
韩思聪
沈超
王骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210356023.0A priority Critical patent/CN114757336B/zh
Publication of CN114757336A publication Critical patent/CN114757336A/zh
Application granted granted Critical
Publication of CN114757336B publication Critical patent/CN114757336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器学习领域,公开了一种深度学习模型对抗攻击敏感频带检测方法,通过构造成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集并利用掩码操作将其中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;进而结合预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带,能够准确定位深度学习模型的对抗攻击敏感频带。

Description

深度学习模型对抗攻击敏感频带检测方法及相关装置
技术领域
本发明属于机器学习领域,涉及一种深度学习模型对抗攻击敏感频带检测方法及相关装置。
背景技术
以深度学习算法为代表的人工智能技术不断发展,推动图像分类、自然语言处理以及语音识别等多种任务的解决方案持续取得了较大突破。随着深度学习模型广泛应用于现实生活场景中,其鲁棒性逐渐成为被关注的重点,目前,有研究表明深度学习模型极易受到对抗样本的攻击,即通过向原始图像添加人眼不可察觉的对抗扰动,攻击者可以构造出视觉上与原始图像相似度极高,却可以误导模型以较高的置信度输出错误预测结果的对抗样本。对抗样本的出现为深度学习模型的稳定运行带来了新的安全威胁,尤其阻碍了深度学习模型在自动驾驶以及金融风险分析等安全敏感领域的落地应用。目前尽管已经有一些深度学习模型对抗攻击结果的解释方法被提出,但所得到的结论之间仍然存在不一致甚至矛盾之处,导致了深度模型对抗攻击结果难以得到有效的解释。
针对以上问题,已经有一些研究工作初步尝试从频域的角度解释深度学习模型的对抗攻击结果。例如,有学者提出将向原始图像添加到的对抗扰动通过二维离散傅里叶变换转换到频域,观察其在频域的分布,并基于此得出对抗扰动在高频区域强度较大,进而影响深度学习模型图像分类准确率的结论。
但是,现有方法只提供了对抗扰动在频域的分布图,而观察对抗扰动在频域的分布是粗粒度方法,只能大概确定对抗扰动强度较大区域的范围,无法准确定位原始图像受到高强度对抗攻击的区域,这导致无法确定具体在那些频带内添加扰动能够高效率地实现对深度学习模型的对抗攻击,进而导致无法有针对性地进行对抗攻击防御。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种深度学习模型对抗攻击敏感频带检测方法及相关装置。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种深度学习模型对抗攻击敏感频带检测方法,包括:
获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
可选的,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离:
Figure BDA0003582841580000031
Figure BDA0003582841580000032
Figure BDA0003582841580000033
Figure BDA0003582841580000034
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;
Figure BDA0003582841580000035
为高频成分分离结果;
Figure BDA0003582841580000036
为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;
Figure BDA0003582841580000037
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;
Figure BDA0003582841580000038
为低频成分分离结果;
Figure BDA0003582841580000039
为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;
Figure BDA00035828415800000310
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
可选的,所述掩码半径
Figure BDA00035828415800000311
其中,n为预设常数。
可选的,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:
将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
可选的,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2
当|rl1-rh1|小于|rl2-rh2|时,深度学习模型的对抗攻击敏感频带 (rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
可选的,还包括:
根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集;
在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000041
Figure BDA0003582841580000051
其中,k=1,2,…,rh-rl
Figure BDA0003582841580000052
为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000053
为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000054
Figure BDA0003582841580000055
其中,k=1,2,…,rl-rh
Figure BDA0003582841580000056
为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000057
为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k;
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
Figure BDA0003582841580000058
pk=‖Δvk0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
Figure BDA0003582841580000061
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置 (i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;
Figure BDA0003582841580000062
为分类准确率上限阈值;
Figure BDA0003582841580000063
为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;
Figure BDA0003582841580000064
为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000065
为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000066
为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000067
为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果;
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
可选的,还包括:
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
本发明第二方面,一种深度学习模型对抗攻击敏感频带检测系统,包括:
数据获取模块,用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
转换模块,用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
频带分离模块,用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
统计模块,用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
敏感频带确定模块,用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明深度学习模型对抗攻击敏感频带检测方法,通过构造频域成功对抗扰动集,然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试,根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值,准确定位深度学习模型的对抗攻击敏感频带,进而基于检测到的对抗攻击敏感频带,可以为深度学习模型的对抗攻击防御方法提供指导,针对对抗攻击敏感频带设计相应的防御方法,提高深度学习模型抵御对抗攻击的能力,增强深度学习模型的鲁棒性。并且,基于深度学习模型的对抗攻击敏感频带的准确定位,精确表征深度学习模型的脆弱区域,为深度学习模型对抗攻击结果提供细粒度解释。
附图说明
图1为本发明实施例的深度学习模型对抗攻击敏感频带检测方法流程图;
图2为本发明实施例的深度学习模型对抗攻击敏感频带检测系统结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一实施例中,提供一种深度学习模型对抗攻击敏感频带检测方法,用于准确检测深度学习模型的对抗攻击敏感频带,进而可根据检测出的对抗攻击敏感频带有针对性地设计对抗攻击防御措施,进而提高深度学习模型抵御对抗攻击的能力,提升深度学习模型的预测性能。
具体的,该深度学习模型对抗攻击敏感频带检测方法包括以下步骤:
S1:获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像。
S2:根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集。
S3:利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
S4:将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率。
S5:根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
具体的,所述步骤S1中,深度学习模型可以选择在图像分类任务中常用的深度卷积神经网络模型,且所获取的深度学习模型为已经完成训练的模型,通常需要获取模型结构、模型参数等进行白盒对抗攻击所需的信息。
所述步骤S1中,原始图像集中的每一个原始图像被输入到深度学习模型C 后,深度学习模型的输出结果都是该原始图像的正确标签。可选的,考虑到后续生成对抗图像的计算成本,若原始图像集中原始图像的维度d×d数值较大,生成对抗图像方法的复杂度较高,可以将原始图像集的原始图像数量控制在一个较小的范围内,以避免生成对抗图像所需时间过长的问题。
所述步骤S2中,设原始图像x∈X,X为原始图像集,对应的对抗图像 xadv∈Xadv,Xadv为对抗样本集,且x,
Figure BDA0003582841580000101
将对抗样本xadv输入深度学习模型C并计算对抗扰动ε=xadv-x,且
Figure BDA0003582841580000102
若深度学习模型C的输出结果不是原始图像x的标签y,则成功对抗扰动εsuc=ε,且εsuc∈Εsuc,Εsuc为成功对抗扰动集。
然后,将成功对抗扰动集中的对抗扰动转换至频域,具体的,设
Figure BDA0003582841580000103
为二维离散傅里叶变换,
Figure BDA0003582841580000104
z为ε转换至频域的形式,且
Figure BDA0003582841580000105
将成功对抗扰动集Εsuc中的成功对抗扰动εsuc通过上述方式转换至频域,生成频域成功对抗扰动zsuc,zsuc∈Zsuc,构成频域成功对抗扰动集Zsuc
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的εsuc通道个数为1,完成二维离散傅里叶变换即可得到通道个数为1的频域成功对抗扰动 zsuc以及频域成功对抗扰动集Zsuc;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的εsuc通道个数为3,在εsuc的每个通道内分别完成二维离散傅里叶变换,可得到通道个数为3的频域成功对抗扰动zsuc以及频域成功对抗扰动集Zsuc
所述步骤S3中,利用掩码操作将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离:
Figure BDA0003582841580000111
Figure BDA0003582841580000112
Figure BDA0003582841580000113
Figure BDA0003582841580000114
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;
Figure BDA0003582841580000115
为高频成分分离结果;
Figure BDA0003582841580000116
为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;
Figure BDA0003582841580000117
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;
Figure BDA0003582841580000118
为低频成分分离结果;
Figure BDA0003582841580000119
为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;
Figure BDA00035828415800001110
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的zsuc通道个数为1,完成上述操作即可将zsuc的高频成分与低频成分分离;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的zsuc通道个数为3,在zsuc的每个通道内分别完成上述操作,可将zsuc的高频成分与低频成分分离。
所述步骤S3中,根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。具体的,将频域成功对抗扰动集Zsuc中的对抗扰动的高频成分与低频成分分离后,将所得的
Figure BDA0003582841580000121
Figure BDA0003582841580000122
利用逆二维离散傅里叶变换
Figure BDA0003582841580000123
转换至图像域,与对应的原始图像重新组合,从而构建高频成功对抗样本集
Figure BDA0003582841580000124
与低频成功对抗样本集
Figure BDA0003582841580000125
具体表示为:
Figure BDA0003582841580000126
Figure BDA0003582841580000127
其中,clip(·)可以确保重构高频成功对抗样本与低频成功对抗样本的像素值上下界与原始图像像素值上下界保持一致。随着掩码半径r的改变,可以得到若干组高频成功对抗样本集与低频成功对抗样本集。
其中,可选的,对于维度d×d数值较小的对抗样本而言,
Figure BDA0003582841580000128
Figure BDA0003582841580000129
对于维度d×d数值较大的对抗样本而言,
Figure BDA00035828415800001210
Figure BDA00035828415800001211
其中,n的大小可根据d的大小进行调整的,以控制计算成本。
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的
Figure BDA00035828415800001212
Figure BDA00035828415800001213
通道个数为1,完成
Figure BDA00035828415800001214
Figure BDA00035828415800001215
的逆二维离散傅里叶变换后,将其与对应的原始图像重新组合即可构建高频成功对抗样本集与低频成功对抗样本集;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的
Figure BDA0003582841580000131
Figure BDA0003582841580000132
通道个数为3,在
Figure BDA0003582841580000133
Figure BDA0003582841580000134
的每个通道内分别完成逆二维离散傅里叶变换后,将其与对应的原始图像重新组合,可构建高频成功对抗样本集与低频成功对抗样本集。
所述步骤S4中,具体的,将若干组高频成功对抗样本集
Figure BDA0003582841580000135
与低频成功对抗样本集
Figure BDA0003582841580000136
中的样本输入深度学习模型进行测试,统计深度学习模型在高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率。
所述步骤S5中,对抗攻击敏感频带定义为在其中包含的对抗扰动可以使深度学习模型的分类准确率由一个较高的值,即分类准确率上限阈值
Figure BDA0003582841580000137
快速下降至一个较低的值,即分类准确率下限阈值
Figure BDA0003582841580000138
具体的,根据对抗攻击敏感频带的定义和深度学习模型分别在
Figure BDA0003582841580000139
Figure BDA00035828415800001310
上的测试结果,可得到深度学习模型位于高频区域与低频区域的两个对抗攻击敏感频带,选取|rl-rh|较小的对抗攻击敏感频带(rh,rl)作为该深度学习模型在该对抗样本集上的唯一对抗攻击敏感频带。其中,当对抗攻击敏感频带位于高频区域时,rl<rh;当对抗攻击敏感频带位于低频区域时,rl>rh
具体的,根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;当|rl1-rh1|小于 |rl2-rh2|时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
在一种可能的实施方式中,所述深度学习模型对抗攻击敏感频带检测方法还包括以下的验证步骤:
S6:根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集Εunsuc,将非成功对抗扰动集中的对抗扰动转换至频域得到频域非成功对抗扰动集Zunsuc
S7:在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc
S8:当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000141
Figure BDA0003582841580000142
其中,k=1,2,…,rh-rl
Figure BDA0003582841580000143
为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000144
为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k。
S9:当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000151
Figure BDA0003582841580000152
其中,k=1,2,…,ri-rh
Figure BDA0003582841580000153
为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000154
为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k。
S10:根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
Figure BDA0003582841580000155
pk=‖Δvk0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
Figure BDA0003582841580000156
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置 (i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;
Figure BDA0003582841580000157
为分类准确率上限阈值;
Figure BDA0003582841580000158
为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;
Figure BDA0003582841580000161
为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000162
为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000163
为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000164
为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果。
S11:当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
所述步骤S6中,将对抗样本xadv输入深度学习模型C并计算对抗扰动ε= xadv-x,且
Figure BDA0003582841580000165
若深度学习模型C的输出结果为原始图像x的标签y,则非成功对抗扰动εunsec=ε,且εunsec∈Εunsuc,Εunsuc为非成功对抗扰动集。利用二维离散傅里叶变换将非成功对抗扰动集Εunsuc中的非成功对抗扰动εunsuc逐一转换至频域,生成频域非成功对抗扰动zunsuc,且zunsuc∈Zunsuc,从而构成频域非成功对抗扰动集Zunsuc
当原始图像为灰度图像时,其通道个数为1,经前述步骤所产生的εunsec通道个数为1,完成二维离散傅里叶变换即可得到通道个数为1的频域非成功对抗扰动zunsuc以及频域非成功对抗扰动集Zunsuc;当原始图像为彩色图像时,其通道个数为3,经前述步骤所产生的εunsec通道个数为3,在εunsec的每个通道内分别完成二维离散傅里叶变换,可得到通道个数为3的频域非成功对抗扰动zunsuc以及频域非成功对抗扰动集Zunsuc
所述步骤S7中,通过下式得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc
Figure BDA0003582841580000171
Figure BDA0003582841580000172
其中,zsuc为频域成功对抗扰动;εsuc为对应于zsuc的成功对抗扰动; zunsuc为频域非成功对抗扰动;εunsuc为对应于zunsuc的非成功对抗扰动; numsuc与numunsuc分别为频域成功对抗扰动集Zsuc与频域非成功对抗扰动集 Zunsuc中的样本数量。
当原始图像为灰度图像时,其通道个数为1,完成上述操作即可得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;当原始图像为彩色图像时,其通道个数为3,通过下式得到频域成功对抗扰动集强度分布 vsuc与频域非成功对抗扰动集强度分布vunsuc
Figure BDA0003582841580000173
Figure BDA0003582841580000174
其中,zsuc,i为频域成功对抗扰动第i个通道上的值;εsuc,i为成功对抗扰动第 i个通道上的值;zunsuc,i为频域非成功对抗扰动第i个通道上的值;εunsuc,i为非成功对抗扰动第i个通道上的值。
所述步骤S11中,score越高,表明成功对抗扰动在对抗攻击敏感频带内相较于非成功对抗扰动强度越大,可选的,本实施例中,预设阈值为0.5,当 score>0.5时,确定深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
在一种可能的实施方式中,当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。其中,为使得所得深度学习模型的对抗攻击敏感频带结果更加泛化,所能更换的扰动方法总量一般不小于3个,各扰动方法的原理之间也应有明显区别。
综上所述,本发明深度学习模型对抗攻击敏感频带检测方法,通过构造频域成功对抗扰动集,然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试,根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值,准确定位深度学习模型的对抗攻击敏感频带,进而基于检测到的对抗攻击敏感频带,可以为深度学习模型的对抗攻击防御方法提供指导,针对对抗攻击敏感频带设计相应的防御方法,提高深度学习模型抵御对抗攻击的能力,增强深度学习模型的鲁棒性。
并且,基于深度学习模型的对抗攻击敏感频带的准确定位,精确表征深度学习模型的脆弱区域,为深度学习模型对抗攻击结果提供细粒度解释。
例如,针对在图像分类任务中常用的深度卷积神经网络模型,通过该深度学习模型对抗攻击敏感频带检测方法检测其对抗攻击敏感频带,然后基于对抗攻击敏感频带对该深度学习模型的对抗攻击防御进行部署,可以有效提升该深度学习模型的对抗攻击防御效果,并且提升该深度学习模型对图像的分类效果。
进一步的,通过在深度学习模型的对抗攻击敏感频带内比较频域成功对抗扰动集与频域非成功对抗扰动集的强度,继而获得成功对抗扰动与非成功对抗扰动之间的差异,有效验证所检测到的对抗攻击敏感频带的有效性。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
参见图2,本发明再一实施例中,提供一种深度学习模型对抗攻击敏感频带检测系统,能够用于实现上述的深度学习模型对抗攻击敏感频带检测方法,具体的,该深度学习模型对抗攻击敏感频带检测系统包括数据获取模块、转换模块、频带分离模块、统计模块以及敏感频带确定模块。
其中,数据获取模块用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;转换模块用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;频带分离模块用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;统计模块用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;敏感频带确定模块用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
在一种可能的实施方式中,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离:
Figure BDA0003582841580000191
Figure BDA0003582841580000201
Figure BDA0003582841580000202
Figure BDA0003582841580000203
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量; (cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;
Figure BDA0003582841580000204
为高频成分分离结果;
Figure BDA0003582841580000205
为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;
Figure BDA0003582841580000206
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;
Figure BDA0003582841580000207
为低频成分分离结果;
Figure BDA0003582841580000208
为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000209
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
在一种可能的实施方式中,所述掩码半径
Figure BDA00035828415800002010
其中, n为预设常数。
在一种可能的实施方式中,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r 对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
在一种可能的实施方式中,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2;当|rl1-rh1|小于|rl2-rh2| 时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
在一种可能的实施方式中,该深度学习模型对抗攻击敏感频带检测还包括验证模块,验证模块用于根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集,在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc;当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000211
Figure BDA0003582841580000212
其中,k=1,2,…,rh-rl
Figure BDA0003582841580000213
为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000214
为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为ri+k-1或rl+k。
当深度学习模型的对抗攻击敏感频带(rh,rl(=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure BDA0003582841580000221
Figure BDA0003582841580000222
其中,k=1,2,…,rl-rh
Figure BDA0003582841580000223
为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000224
为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k。
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
Figure BDA0003582841580000225
pk=‖Δvk0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
Figure BDA0003582841580000226
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置(i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;
Figure BDA0003582841580000231
为分类准确率上限阈值;
Figure BDA0003582841580000232
为分类准确率下限阈值;‖·‖0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;
Figure BDA0003582841580000233
为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000234
为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;
Figure BDA0003582841580000235
为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;
Figure BDA0003582841580000236
为对d×d维的像素点值均为 1的图像的以rl-k为半径划分的外部进行掩码操作后的结果。
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
在一种可能的实施方式中,验证模块还用于当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
前述的深度学习模型对抗攻击敏感频带检测方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的深度学习模型对抗攻击敏感频带检测系统所对应的功能模块的功能描述,在此不再赘述。本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于深度学习模型对抗攻击敏感频带检测方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关深度学习模型对抗攻击敏感频带检测方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种深度学习模型对抗攻击敏感频带检测方法,其特征在于,包括:
获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
2.根据权利要求1所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果包括:
获取掩码操作预设的若干掩码半径r;
依次根据各掩码半径r,通过下式将频域成功对抗扰动集中的对抗扰动zsuc的高频成分与低频成分分离:
Figure FDA0003582841570000011
Figure FDA0003582841570000012
Figure FDA0003582841570000013
Figure FDA0003582841570000021
其中,i,j∈{0,1,…,d-1};d为对抗扰动在水平或垂直方向的像素点数量;(cm,cn)为对抗扰动的形心;d(·)表示计算两个位置之间的欧几里得距离;
Figure FDA0003582841570000022
为高频成分分离结果;
Figure FDA0003582841570000023
为对成功对抗扰动zsuc的以r为半径划分的内部进行掩码操作后的结果;zsuc(i,j)为成功对抗扰动中(i,j)位置的扰动;
Figure FDA0003582841570000024
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作;
Figure FDA0003582841570000025
为低频成分分离结果;
Figure FDA0003582841570000026
为对成功对抗扰动zsuc的以r为半径划分的外部进行掩码操作后的结果;
Figure FDA0003582841570000027
为根据成功对抗扰动zsuc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。
3.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述掩码半径r=0,n,2n,…,mn,
Figure FDA0003582841570000028
其中,n为预设常数。
4.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集包括:
将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域,然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集。
5.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带包括:
根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,获取深度学习模型的当前分类准确率为分类准确率上限阈值时,对应的高频成功对抗样本集的掩码半径rh1和低频成功对抗样本集的掩码半径rh2,以及深度学习模型的当前分类准确率为分类准确率下限阈值时,对应的高频成功对抗样本集的掩码半径rl1和低频成功对抗样本集的掩码半径rl2
当|rl1-rh1|小于|rl2-rh2|时,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1);否则,深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)。
6.根据权利要求5所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,还包括:
根据对抗图像对深度学习模型的对抗攻击结果,得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域,得到频域非成功对抗扰动集;
在频域成功对抗扰动集Zsuc与频域非成功对抗扰动集Zunsuc上取平均值,得到频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh1,rl1)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure FDA0003582841570000031
Figure FDA0003582841570000032
其中,k=1,2,…,rh-rl
Figure FDA0003582841570000033
为对频域成功对抗扰动集强度分布vsuc的以t1为半径划分的内部进行掩码操作后的结果;
Figure FDA0003582841570000034
为对频域非成功对抗扰动集强度分布vunsuc的以t1为半径划分的内部进行掩码操作后的结果;t1为rl+k-1或rl+k;
当深度学习模型的对抗攻击敏感频带(rh,rl)=(rh2,rl2)时,根据频域成功对抗扰动集强度分布vsuc与频域非成功对抗扰动集强度分布vunsuc,通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k
Figure FDA0003582841570000041
Figure FDA0003582841570000042
其中,k=1,2,…,rl-rh
Figure FDA0003582841570000043
为对频域成功对抗扰动集强度分布vsuc的以t2为半径划分的外部进行掩码操作后的结果;
Figure FDA0003582841570000044
为对频域非成功对抗扰动集强度分布vunsuc的以t2为半径划分的外部进行掩码操作后的结果;t2为rl-k+1或rl-k;
根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vsuc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布vunsuc,k,由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score:
Figure FDA0003582841570000045
pk=||Δvk||0
Δvk(i,j)=ReLU(vsuc,k(i,j)-vunsuc,k(i,j))
Figure FDA0003582841570000046
其中,vsuc,k(i,j)为vsuc,k中位置(i,j)上的值;vunsuc,k(i,j)为vunsuc,k中位置(i,j)上的值;pk为在敏感频带的第k个离散区域中vsuc,k(i,j)>vunsuc,k(i,j)的像素点的数量;qk为在敏感频带的第k个离散区域中总像素点的数量;Δacck表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值;
Figure FDA0003582841570000051
为分类准确率上限阈值;
Figure FDA0003582841570000056
为分类准确率下限阈值;||·||0为零范数;Δvk为在敏感频带的第k个离散区域中判断vsuc,k与vunsuc,k每个位置上的值的大小关系的结果;Δvk(i,j)为Δvk中位置(i,j)上的值;ReLU(·)为线性整流函数;
Figure FDA0003582841570000052
为对d×d维的像素点值均为1的图像的以rl+k-1为半径划分的内部进行掩码操作后的结果;
Figure FDA0003582841570000053
为对d×d维的像素点值均为1的图像的以rl+k为半径划分的内部进行掩码操作后的结果;
Figure FDA0003582841570000054
为对d×d维的像素点值均为1的图像的以rl-k+1为半径划分的外部进行掩码操作后的结果;
Figure FDA0003582841570000055
为对d×d维的像素点值均为1的图像的以rl-k为半径划分的外部进行掩码操作后的结果;
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时,深度学习模型对抗攻击的当前敏感频带为最终敏感频带。
7.根据权利要求6所述的深度学习模型对抗攻击敏感频带检测方法,其特征在于,还包括:
当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时,变更扰动原始图像集中的图像的扰动方法后,重新检测深度学习模型的对抗攻击敏感频带。
8.一种深度学习模型对抗攻击敏感频带检测系统,其特征在于,包括:
数据获取模块,用于获取深度学习模型及原始图像集,扰动原始图像集中的图像得到对抗图像;
转换模块,用于根据对抗图像对深度学习模型的对抗攻击结果,得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域,得到频域成功对抗扰动集;
频带分离模块,用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离,得到分离结果并根据分离结果和原始图像集,得到若干高频成功对抗样本集与若干低频成功对抗样本集;
统计模块,用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型,统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率;
敏感频带确定模块,用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率,以及预设的分类准确率上限阈值和分类准确率下限阈值,得到深度学习模型的对抗攻击敏感频带。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。
CN202210356023.0A 2022-04-06 2022-04-06 深度学习模型对抗攻击敏感频带检测方法及相关装置 Active CN114757336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356023.0A CN114757336B (zh) 2022-04-06 2022-04-06 深度学习模型对抗攻击敏感频带检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356023.0A CN114757336B (zh) 2022-04-06 2022-04-06 深度学习模型对抗攻击敏感频带检测方法及相关装置

Publications (2)

Publication Number Publication Date
CN114757336A true CN114757336A (zh) 2022-07-15
CN114757336B CN114757336B (zh) 2024-06-18

Family

ID=82329077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356023.0A Active CN114757336B (zh) 2022-04-06 2022-04-06 深度学习模型对抗攻击敏感频带检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN114757336B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285952A1 (en) * 2019-03-08 2020-09-10 International Business Machines Corporation Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113822328A (zh) * 2021-08-05 2021-12-21 厦门市美亚柏科信息股份有限公司 防御对抗样本攻击的图像分类方法、终端设备及存储介质
WO2022037295A1 (zh) * 2020-08-20 2022-02-24 鹏城实验室 一种针对深度哈希检索的有目标攻击方法及终端设备
CN114220097A (zh) * 2021-12-17 2022-03-22 中国人民解放军国防科技大学 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285952A1 (en) * 2019-03-08 2020-09-10 International Business Machines Corporation Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations
WO2022037295A1 (zh) * 2020-08-20 2022-02-24 鹏城实验室 一种针对深度哈希检索的有目标攻击方法及终端设备
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113822328A (zh) * 2021-08-05 2021-12-21 厦门市美亚柏科信息股份有限公司 防御对抗样本攻击的图像分类方法、终端设备及存储介质
CN114220097A (zh) * 2021-12-17 2022-03-22 中国人民解放军国防科技大学 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨浚宇;: "基于迭代自编码器的深度学习对抗样本防御方案", 信息安全学报, no. 06, 15 November 2019 (2019-11-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821408A (zh) * 2023-08-29 2023-09-29 南京航空航天大学 一种多任务一致性对抗的检索方法及系统
CN116821408B (zh) * 2023-08-29 2023-12-01 南京航空航天大学 一种多任务一致性对抗的检索方法及系统

Also Published As

Publication number Publication date
CN114757336B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN110866287B (zh) 一种基于权重谱生成对抗样本的点攻击方法
CN110222566A (zh) 一种人脸特征的获取方法、装置、终端及存储介质
CN104866868A (zh) 基于深度神经网络的金属币识别方法和装置
CN110781976B (zh) 训练图像的扩充方法、训练方法及相关装置
CN110009628A (zh) 一种针对连续二维图像中多形态目标的自动检测方法
CN111611851B (zh) 模型生成方法、虹膜检测方法及装置
CN110348358A (zh) 一种肤色检测系统、方法、介质和计算设备
CN111950633A (zh) 神经网络的训练、目标检测方法及装置和存储介质
CN114757336A (zh) 深度学习模型对抗攻击敏感频带检测方法及相关装置
Luo et al. Camouflaged instance segmentation via explicit de-camouflaging
CN109697727A (zh) 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN103700118B (zh) 基于脉冲耦合神经网络的动目标检测方法
CN111046755A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
Zhu et al. A novel simple visual tracking algorithm based on hashing and deep learning
CN112488062B (zh) 一种图像识别方法、装置、设备及介质
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
Sun et al. Multi-AUV target recognition method based on GAN-meta learning
Meethal et al. Semi-weakly supervised object detection by sampling pseudo ground-truth boxes
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN117370832A (zh) 基于贝叶斯神经网络的水声目标识别方法及装置
CN115410250A (zh) 阵列式人脸美丽预测方法、设备及存储介质
CN114898137A (zh) 面向人脸识别的黑盒对抗样本攻击方法、装置、设备及介质
CN113971442A (zh) 一种基于自步学习的生成通用对抗扰动方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant