CN114757336A

CN114757336A - 深度学习模型对抗攻击敏感频带检测方法及相关装置

Info

Publication number: CN114757336A
Application number: CN202210356023.0A
Authority: CN
Inventors: 蔺琛皓; 韩思聪; 沈超; 王骞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-15
Anticipated expiration: 2042-04-06
Also published as: CN114757336B

Abstract

本发明属于机器学习领域，公开了一种深度学习模型对抗攻击敏感频带检测方法，通过构造成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域，得到频域成功对抗扰动集并利用掩码操作将其中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集；将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型，统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率；进而结合预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带，能够准确定位深度学习模型的对抗攻击敏感频带。

Description

深度学习模型对抗攻击敏感频带检测方法及相关装置

技术领域

本发明属于机器学习领域，涉及一种深度学习模型对抗攻击敏感频带检测方法及相关装置。

背景技术

以深度学习算法为代表的人工智能技术不断发展，推动图像分类、自然语言处理以及语音识别等多种任务的解决方案持续取得了较大突破。随着深度学习模型广泛应用于现实生活场景中，其鲁棒性逐渐成为被关注的重点，目前，有研究表明深度学习模型极易受到对抗样本的攻击，即通过向原始图像添加人眼不可察觉的对抗扰动，攻击者可以构造出视觉上与原始图像相似度极高，却可以误导模型以较高的置信度输出错误预测结果的对抗样本。对抗样本的出现为深度学习模型的稳定运行带来了新的安全威胁，尤其阻碍了深度学习模型在自动驾驶以及金融风险分析等安全敏感领域的落地应用。目前尽管已经有一些深度学习模型对抗攻击结果的解释方法被提出，但所得到的结论之间仍然存在不一致甚至矛盾之处，导致了深度模型对抗攻击结果难以得到有效的解释。

针对以上问题，已经有一些研究工作初步尝试从频域的角度解释深度学习模型的对抗攻击结果。例如，有学者提出将向原始图像添加到的对抗扰动通过二维离散傅里叶变换转换到频域，观察其在频域的分布，并基于此得出对抗扰动在高频区域强度较大，进而影响深度学习模型图像分类准确率的结论。

但是，现有方法只提供了对抗扰动在频域的分布图，而观察对抗扰动在频域的分布是粗粒度方法，只能大概确定对抗扰动强度较大区域的范围，无法准确定位原始图像受到高强度对抗攻击的区域，这导致无法确定具体在那些频带内添加扰动能够高效率地实现对深度学习模型的对抗攻击，进而导致无法有针对性地进行对抗攻击防御。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种深度学习模型对抗攻击敏感频带检测方法及相关装置。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种深度学习模型对抗攻击敏感频带检测方法，包括：

获取深度学习模型及原始图像集，扰动原始图像集中的图像得到对抗图像；

根据对抗图像对深度学习模型的对抗攻击结果，得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域，得到频域成功对抗扰动集；

利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集；

将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型，统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率；

根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带。

可选的，所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果包括：

获取掩码操作预设的若干掩码半径r；

依次根据各掩码半径r，通过下式将频域成功对抗扰动集中的对抗扰动z_suc的高频成分与低频成分分离：

其中，i,j∈{0,1,…,d-1}；d为对抗扰动在水平或垂直方向的像素点数量； (c_m,c_n)为对抗扰动的形心；d(·)表示计算两个位置之间的欧几里得距离；

为高频成分分离结果；

为对成功对抗扰动z_suc的以r为半径划分的内部进行掩码操作后的结果；z_suc(i,j)为成功对抗扰动中(i,j)位置的扰动；

为根据成功对抗扰动z_suc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作；

为低频成分分离结果；

为对成功对抗扰动z_suc的以r为半径划分的外部进行掩码操作后的结果；

为根据成功对抗扰动z_suc中(i,j)的位置判断是否需要对该处的扰动进行掩码操作。

可选的，所述掩码半径

其中，n为预设常数。

可选的，所述根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集包括：

将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域，然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集。

可选的，所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带包括：

根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，获取深度学习模型的当前分类准确率为分类准确率上限阈值时，对应的高频成功对抗样本集的掩码半径r_h1和低频成功对抗样本集的掩码半径r_h2，以及深度学习模型的当前分类准确率为分类准确率下限阈值时，对应的高频成功对抗样本集的掩码半径r_l1和低频成功对抗样本集的掩码半径r_l2；

当|r_l1-r_h1|小于|r_l2-r_h2|时，深度学习模型的对抗攻击敏感频带 (r_h,r_l)＝(r_h1,r_l1)；否则，深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h2,r_l2)。

可选的，还包括：

根据对抗图像对深度学习模型的对抗攻击结果，得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域，得到频域非成功对抗扰动集；

在频域成功对抗扰动集Z_suc与频域非成功对抗扰动集Z_unsuc上取平均值，得到频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc；

当深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h1,r_l1)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_h-r_l；

为对频域成功对抗扰动集强度分布v_suc的以t₁为半径划分的内部进行掩码操作后的结果；

为对频域非成功对抗扰动集强度分布v_unsuc的以t₁为半径划分的内部进行掩码操作后的结果；t₁为r_l+k-1或r_l+k；

当深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h2,r_l2)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_l-r_h；

为对频域成功对抗扰动集强度分布v_suc的以t₂为半径划分的外部进行掩码操作后的结果；

为对频域非成功对抗扰动集强度分布v_unsuc的以t₂为半径划分的外部进行掩码操作后的结果；t₂为r_l-k+1或r_l-k；

根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k，由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score：

p_k＝‖Δv_k‖₀

Δv_k(i,j)＝ReLU(v_suc,k(i,j)-v_unsuc,k(i,j))

其中，v_suc,k(i,j)为v_suc,k中位置(i,j)上的值；v_unsuc,k(i,j)为v_unsuc,k中位置 (i,j)上的值；p_k为在敏感频带的第k个离散区域中v_suc,k(i,j)＞v_unsuc,k(i,j)的像素点的数量；q_k为在敏感频带的第k个离散区域中总像素点的数量；Δacc_k表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值；

为分类准确率上限阈值；

为分类准确率下限阈值；‖·‖₀为零范数；Δv_k为在敏感频带的第k个离散区域中判断v_suc,k与v_unsuc,k每个位置上的值的大小关系的结果；Δv_k(i,j)为Δv_k中位置(i,j)上的值；ReLU(·)为线性整流函数；

为对d×d维的像素点值均为1的图像的以r_l+k-1为半径划分的内部进行掩码操作后的结果；

为对d×d维的像素点值均为1的图像的以r_l+k为半径划分的内部进行掩码操作后的结果；

为对d×d维的像素点值均为1的图像的以r_l-k+1为半径划分的外部进行掩码操作后的结果；

为对d×d维的像素点值均为 1的图像的以r_l-k为半径划分的外部进行掩码操作后的结果；

当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时，深度学习模型对抗攻击的当前敏感频带为最终敏感频带。

可选的，还包括：

当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时，变更扰动原始图像集中的图像的扰动方法后，重新检测深度学习模型的对抗攻击敏感频带。

本发明第二方面，一种深度学习模型对抗攻击敏感频带检测系统，包括：

数据获取模块，用于获取深度学习模型及原始图像集，扰动原始图像集中的图像得到对抗图像；

转换模块，用于根据对抗图像对深度学习模型的对抗攻击结果，得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域，得到频域成功对抗扰动集；

频带分离模块，用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集；

统计模块，用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型，统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率；

敏感频带确定模块，用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述深度学习模型对抗攻击敏感频带检测方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明深度学习模型对抗攻击敏感频带检测方法，通过构造频域成功对抗扰动集，然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试，根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值，准确定位深度学习模型的对抗攻击敏感频带，进而基于检测到的对抗攻击敏感频带，可以为深度学习模型的对抗攻击防御方法提供指导，针对对抗攻击敏感频带设计相应的防御方法，提高深度学习模型抵御对抗攻击的能力，增强深度学习模型的鲁棒性。并且，基于深度学习模型的对抗攻击敏感频带的准确定位，精确表征深度学习模型的脆弱区域，为深度学习模型对抗攻击结果提供细粒度解释。

附图说明

图1为本发明实施例的深度学习模型对抗攻击敏感频带检测方法流程图；

图2为本发明实施例的深度学习模型对抗攻击敏感频带检测系统结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供一种深度学习模型对抗攻击敏感频带检测方法，用于准确检测深度学习模型的对抗攻击敏感频带，进而可根据检测出的对抗攻击敏感频带有针对性地设计对抗攻击防御措施，进而提高深度学习模型抵御对抗攻击的能力，提升深度学习模型的预测性能。

具体的，该深度学习模型对抗攻击敏感频带检测方法包括以下步骤：

S1：获取深度学习模型及原始图像集，扰动原始图像集中的图像得到对抗图像。

S2：根据对抗图像对深度学习模型的对抗攻击结果，得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域，得到频域成功对抗扰动集。

S3：利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集。

S4：将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型，统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率。

S5：根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带。

具体的，所述步骤S1中，深度学习模型可以选择在图像分类任务中常用的深度卷积神经网络模型，且所获取的深度学习模型为已经完成训练的模型，通常需要获取模型结构、模型参数等进行白盒对抗攻击所需的信息。

所述步骤S1中，原始图像集中的每一个原始图像被输入到深度学习模型C 后，深度学习模型的输出结果都是该原始图像的正确标签。可选的，考虑到后续生成对抗图像的计算成本，若原始图像集中原始图像的维度d×d数值较大，生成对抗图像方法的复杂度较高，可以将原始图像集的原始图像数量控制在一个较小的范围内，以避免生成对抗图像所需时间过长的问题。

所述步骤S2中，设原始图像x∈X，X为原始图像集，对应的对抗图像 x^adv∈X^adv,X^adv为对抗样本集，且x,

将对抗样本x^adv输入深度学习模型C并计算对抗扰动ε＝x^adv-x，且

若深度学习模型C的输出结果不是原始图像x的标签y，则成功对抗扰动ε_suc＝ε，且ε_suc∈Ε_suc，Ε_suc为成功对抗扰动集。

然后，将成功对抗扰动集中的对抗扰动转换至频域，具体的，设

为二维离散傅里叶变换，

z为ε转换至频域的形式，且

将成功对抗扰动集Ε_suc中的成功对抗扰动ε_suc通过上述方式转换至频域，生成频域成功对抗扰动z_suc，z_suc∈Z_suc，构成频域成功对抗扰动集Z_suc。

当原始图像为灰度图像时，其通道个数为1，经前述步骤所产生的ε_suc通道个数为1，完成二维离散傅里叶变换即可得到通道个数为1的频域成功对抗扰动 z_suc以及频域成功对抗扰动集Z_suc；当原始图像为彩色图像时，其通道个数为3，经前述步骤所产生的ε_suc通道个数为3，在ε_suc的每个通道内分别完成二维离散傅里叶变换，可得到通道个数为3的频域成功对抗扰动z_suc以及频域成功对抗扰动集Z_suc。

所述步骤S3中，利用掩码操作将频域成功对抗扰动集中的对抗扰动z_suc的高频成分与低频成分分离，得到分离结果包括：

获取掩码操作预设的若干掩码半径r；依次根据各掩码半径r，通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离：

为高频成分分离结果；

为低频成分分离结果；

当原始图像为灰度图像时，其通道个数为1，经前述步骤所产生的z_suc通道个数为1，完成上述操作即可将z_suc的高频成分与低频成分分离；当原始图像为彩色图像时，其通道个数为3，经前述步骤所产生的z_suc通道个数为3，在z_suc的每个通道内分别完成上述操作，可将z_suc的高频成分与低频成分分离。

所述步骤S3中，根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集包括：将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域，然后根据转换的各掩码半径r对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集。具体的，将频域成功对抗扰动集Z_suc中的对抗扰动的高频成分与低频成分分离后，将所得的

与

利用逆二维离散傅里叶变换

转换至图像域，与对应的原始图像重新组合，从而构建高频成功对抗样本集

与低频成功对抗样本集

具体表示为：

其中，clip(·)可以确保重构高频成功对抗样本与低频成功对抗样本的像素值上下界与原始图像像素值上下界保持一致。随着掩码半径r的改变，可以得到若干组高频成功对抗样本集与低频成功对抗样本集。

其中，可选的，对于维度d×d数值较小的对抗样本而言，

对于维度d×d数值较大的对抗样本而言，

其中，n的大小可根据d的大小进行调整的，以控制计算成本。

当原始图像为灰度图像时，其通道个数为1，经前述步骤所产生的

与

通道个数为1，完成

与

的逆二维离散傅里叶变换后，将其与对应的原始图像重新组合即可构建高频成功对抗样本集与低频成功对抗样本集；当原始图像为彩色图像时，其通道个数为3，经前述步骤所产生的

与

通道个数为3，在

与

的每个通道内分别完成逆二维离散傅里叶变换后，将其与对应的原始图像重新组合，可构建高频成功对抗样本集与低频成功对抗样本集。

所述步骤S4中，具体的，将若干组高频成功对抗样本集

与低频成功对抗样本集

中的样本输入深度学习模型进行测试，统计深度学习模型在高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率。

所述步骤S5中，对抗攻击敏感频带定义为在其中包含的对抗扰动可以使深度学习模型的分类准确率由一个较高的值，即分类准确率上限阈值

快速下降至一个较低的值，即分类准确率下限阈值

具体的，根据对抗攻击敏感频带的定义和深度学习模型分别在

与

上的测试结果，可得到深度学习模型位于高频区域与低频区域的两个对抗攻击敏感频带，选取|r_l-r_h|较小的对抗攻击敏感频带(r_h,r_l)作为该深度学习模型在该对抗样本集上的唯一对抗攻击敏感频带。其中，当对抗攻击敏感频带位于高频区域时，r_l＜r_h；当对抗攻击敏感频带位于低频区域时，r_l＞r_h。

具体的，根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，获取深度学习模型的当前分类准确率为分类准确率上限阈值时，对应的高频成功对抗样本集的掩码半径r_h1和低频成功对抗样本集的掩码半径r_h2，以及深度学习模型的当前分类准确率为分类准确率下限阈值时，对应的高频成功对抗样本集的掩码半径r_l1和低频成功对抗样本集的掩码半径r_l2；当|r_l1-r_h1|小于 |r_l2-r_h2|时，深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h1,r_l1)；否则，深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h2,r_l2)。

在一种可能的实施方式中，所述深度学习模型对抗攻击敏感频带检测方法还包括以下的验证步骤：

S6：根据对抗图像对深度学习模型的对抗攻击结果，得到非成功对抗扰动集Ε_unsuc，将非成功对抗扰动集中的对抗扰动转换至频域得到频域非成功对抗扰动集Z_unsuc。

S7：在频域成功对抗扰动集Z_suc与频域非成功对抗扰动集Z_unsuc上取平均值，得到频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc。

S8：当深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h1,r_l1)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_h-r_l；

为对频域非成功对抗扰动集强度分布v_unsuc的以t₁为半径划分的内部进行掩码操作后的结果；t₁为r_l+k-1或r_l+k。

S9：当深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h2,r_l2)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_i-r_h；

为对频域非成功对抗扰动集强度分布v_unsuc的以t₂为半径划分的外部进行掩码操作后的结果；t₂为r_l-k+1或r_l-k。

S10：根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布 v_unsuc,k，由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score：

p_k＝‖Δv_k‖₀

Δv_k(i,j)＝ReLU(v_suc,k(i,j)-v_unsuc,k(i,j))

为分类准确率上限阈值；

为对d×d维的像素点值均为 1的图像的以r_l-k为半径划分的外部进行掩码操作后的结果。

S11：当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score大于预设阈值时，深度学习模型对抗攻击的当前敏感频带为最终敏感频带。

所述步骤S6中，将对抗样本x^adv输入深度学习模型C并计算对抗扰动ε＝ x^adv-x，且

若深度学习模型C的输出结果为原始图像x的标签y，则非成功对抗扰动ε_unsec＝ε，且ε_unsec∈Ε_unsuc，Ε_unsuc为非成功对抗扰动集。利用二维离散傅里叶变换将非成功对抗扰动集Ε_unsuc中的非成功对抗扰动ε_unsuc逐一转换至频域，生成频域非成功对抗扰动z_unsuc，且z_unsuc∈Z_unsuc，从而构成频域非成功对抗扰动集Z_unsuc。

当原始图像为灰度图像时，其通道个数为1，经前述步骤所产生的ε_unsec通道个数为1，完成二维离散傅里叶变换即可得到通道个数为1的频域非成功对抗扰动z_unsuc以及频域非成功对抗扰动集Z_unsuc；当原始图像为彩色图像时，其通道个数为3，经前述步骤所产生的ε_unsec通道个数为3，在ε_unsec的每个通道内分别完成二维离散傅里叶变换，可得到通道个数为3的频域非成功对抗扰动z_unsuc以及频域非成功对抗扰动集Z_unsuc。

所述步骤S7中，通过下式得到频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc：

其中，z_suc为频域成功对抗扰动；ε_suc为对应于z_suc的成功对抗扰动； z_unsuc为频域非成功对抗扰动；ε_unsuc为对应于z_unsuc的非成功对抗扰动； num_suc与num_unsuc分别为频域成功对抗扰动集Z_suc与频域非成功对抗扰动集 Z_unsuc中的样本数量。

当原始图像为灰度图像时，其通道个数为1，完成上述操作即可得到频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc；当原始图像为彩色图像时，其通道个数为3，通过下式得到频域成功对抗扰动集强度分布 v_suc与频域非成功对抗扰动集强度分布v_unsuc：

其中，z_suc,i为频域成功对抗扰动第i个通道上的值；ε_suc,i为成功对抗扰动第 i个通道上的值；z_unsuc,i为频域非成功对抗扰动第i个通道上的值；ε_unsuc,i为非成功对抗扰动第i个通道上的值。

所述步骤S11中，score越高，表明成功对抗扰动在对抗攻击敏感频带内相较于非成功对抗扰动强度越大，可选的，本实施例中，预设阈值为0.5，当 score＞0.5时，确定深度学习模型对抗攻击的当前敏感频带为最终敏感频带。

在一种可能的实施方式中，当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时，变更扰动原始图像集中的图像的扰动方法后，重新检测深度学习模型的对抗攻击敏感频带。其中，为使得所得深度学习模型的对抗攻击敏感频带结果更加泛化，所能更换的扰动方法总量一般不小于3个，各扰动方法的原理之间也应有明显区别。

综上所述，本发明深度学习模型对抗攻击敏感频带检测方法，通过构造频域成功对抗扰动集，然后利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，进而得到若干高频成功对抗样本集与若干低频成功对抗样本集并输入深度学习模型进行测试，根据测试结果并结合预设的分类准确率上限阈值和分类准确率下限阈值，准确定位深度学习模型的对抗攻击敏感频带，进而基于检测到的对抗攻击敏感频带，可以为深度学习模型的对抗攻击防御方法提供指导，针对对抗攻击敏感频带设计相应的防御方法，提高深度学习模型抵御对抗攻击的能力，增强深度学习模型的鲁棒性。

并且，基于深度学习模型的对抗攻击敏感频带的准确定位，精确表征深度学习模型的脆弱区域，为深度学习模型对抗攻击结果提供细粒度解释。

例如，针对在图像分类任务中常用的深度卷积神经网络模型，通过该深度学习模型对抗攻击敏感频带检测方法检测其对抗攻击敏感频带，然后基于对抗攻击敏感频带对该深度学习模型的对抗攻击防御进行部署，可以有效提升该深度学习模型的对抗攻击防御效果，并且提升该深度学习模型对图像的分类效果。

进一步的，通过在深度学习模型的对抗攻击敏感频带内比较频域成功对抗扰动集与频域非成功对抗扰动集的强度，继而获得成功对抗扰动与非成功对抗扰动之间的差异，有效验证所检测到的对抗攻击敏感频带的有效性。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未披露的细节，请参照本发明方法实施例。

参见图2，本发明再一实施例中，提供一种深度学习模型对抗攻击敏感频带检测系统，能够用于实现上述的深度学习模型对抗攻击敏感频带检测方法，具体的，该深度学习模型对抗攻击敏感频带检测系统包括数据获取模块、转换模块、频带分离模块、统计模块以及敏感频带确定模块。

其中，数据获取模块用于获取深度学习模型及原始图像集，扰动原始图像集中的图像得到对抗图像；转换模块用于根据对抗图像对深度学习模型的对抗攻击结果，得到成功对抗扰动集并将成功对抗扰动集中的对抗扰动转换至频域，得到频域成功对抗扰动集；频带分离模块用于利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果并根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集；统计模块用于将若干高频成功对抗样本集与若干低频成功对抗样本集输入深度学习模型，统计深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率；敏感频带确定模块用于根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带。

在一种可能的实施方式中，所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果包括：

获取掩码操作预设的若干掩码半径r；

依次根据各掩码半径r，通过下式将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离：

为高频成分分离结果；

为低频成分分离结果；

在一种可能的实施方式中，所述掩码半径

其中， n为预设常数。

在一种可能的实施方式中，所述根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集包括：将各掩码半径r对应的低频成分分离结果和高频成分分离结果转换至图像域，然后根据转换的各掩码半径r 对应的低频成分分离结果和高频成分分离结果分别扰动原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集。

在一种可能的实施方式中，所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带包括：

根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，获取深度学习模型的当前分类准确率为分类准确率上限阈值时，对应的高频成功对抗样本集的掩码半径r_h1和低频成功对抗样本集的掩码半径r_h2，以及深度学习模型的当前分类准确率为分类准确率下限阈值时，对应的高频成功对抗样本集的掩码半径r_l1和低频成功对抗样本集的掩码半径r_l2；当|r_l1-r_h1|小于|r_l2-r_h2| 时，深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h1,r_l1)；否则，深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h2,r_l2)。

在一种可能的实施方式中，该深度学习模型对抗攻击敏感频带检测还包括验证模块，验证模块用于根据对抗图像对深度学习模型的对抗攻击结果，得到非成功对抗扰动集并将非成功对抗扰动集中的对抗扰动转换至频域，得到频域非成功对抗扰动集，在频域成功对抗扰动集Z_suc与频域非成功对抗扰动集Z_unsuc上取平均值，得到频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc；当深度学习模型的对抗攻击敏感频带(r_h,r_l)＝(r_h1,r_l1)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_h-r_l；

为对频域非成功对抗扰动集强度分布v_unsuc的以t₁为半径划分的内部进行掩码操作后的结果；t₁为r_i+k-1或r_l+k。

当深度学习模型的对抗攻击敏感频带(r_h,r_l(＝(r_h2,r_l2)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc,k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc,k：

其中，k＝1,2,…,r_l-r_h；

p_k＝‖Δv_k‖₀

Δv_k(i,j)＝ReLU(v_suc,k(i,j)-v_unsuc,k(i,j))

其中，v_suc,k(i,j)为v_suc,k中位置(i,j)上的值；v_unsuc,k(i,j)为v_unsuc,k中位置(i,j)上的值；p_k为在敏感频带的第k个离散区域中v_suc,k(i,j)＞v_unsuc,k(i,j)的像素点的数量；q_k为在敏感频带的第k个离散区域中总像素点的数量；Δacc_k表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值；

为分类准确率上限阈值；

在一种可能的实施方式中，验证模块还用于当成功对抗扰动与非成功对抗扰动在敏感频带上的差异score不大于预设阈值时，变更扰动原始图像集中的图像的扰动方法后，重新检测深度学习模型的对抗攻击敏感频带。

前述的深度学习模型对抗攻击敏感频带检测方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的深度学习模型对抗攻击敏感频带检测系统所对应的功能模块的功能描述，在此不再赘述。本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本发明各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于深度学习模型对抗攻击敏感频带检测方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关深度学习模型对抗攻击敏感频带检测方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种深度学习模型对抗攻击敏感频带检测方法，其特征在于，包括：

2.根据权利要求1所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，所述利用掩码操作将频域成功对抗扰动集中的对抗扰动的高频成分与低频成分分离，得到分离结果包括：

获取掩码操作预设的若干掩码半径r；

其中，i，j∈{0，1，…，d-1}；d为对抗扰动在水平或垂直方向的像素点数量；(c_m，c_n)为对抗扰动的形心；d(·)表示计算两个位置之间的欧几里得距离；

为高频成分分离结果；

为对成功对抗扰动z_suc的以r为半径划分的内部进行掩码操作后的结果；z_suc(i，j)为成功对抗扰动中(i，j)位置的扰动；

为根据成功对抗扰动z_suc中(i，j)的位置判断是否需要对该处的扰动进行掩码操作；

为低频成分分离结果；

为根据成功对抗扰动z_suc中(i，j)的位置判断是否需要对该处的扰动进行掩码操作。

3.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，所述掩码半径r＝0，n，2n，…，mn，

其中，n为预设常数。

4.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，所述根据分离结果和原始图像集，得到若干高频成功对抗样本集与若干低频成功对抗样本集包括：

5.根据权利要求2所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，所述根据深度学习模型在每个高频成功对抗样本集与每个低频成功对抗样本集上的分类准确率，以及预设的分类准确率上限阈值和分类准确率下限阈值，得到深度学习模型的对抗攻击敏感频带包括：

当|r_l1-r_h1|小于|r_l2-r_h2|时，深度学习模型的对抗攻击敏感频带(r_h，r_l)＝(r_h1，r_l1)；否则，深度学习模型的对抗攻击敏感频带(r_h，r_l)＝(r_h2，r_l2)。

6.根据权利要求5所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，还包括：

当深度学习模型的对抗攻击敏感频带(r_h，r_l)＝(r_h1，r_l1)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc，k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc，k：

其中，k＝1，2，…，r_h-r_l；

当深度学习模型的对抗攻击敏感频带(r_h，r_l)＝(r_h2，r_l2)时，根据频域成功对抗扰动集强度分布v_suc与频域非成功对抗扰动集强度分布v_unsuc，通过下式得到频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc，k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc，k：

其中，k＝1，2，…，r_l-r_h；

根据频域成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_suc，k和频域非成功对抗扰动集在敏感频带的第k个离散区域中的强度分布v_unsuc，k，由下式得到成功对抗扰动与非成功对抗扰动在敏感频带上的差异score：

p_k＝||Δv_k||₀

Δv_k(i，j)＝ReLU(v_suc，k(i，j)-v_unsuc，k(i，j))

其中，v_suc，k(i，j)为v_suc，k中位置(i，j)上的值；v_unsuc，k(i，j)为v_unsuc，k中位置(i，j)上的值；p_k为在敏感频带的第k个离散区域中v_suc，k(i，j)＞v_unsuc，k(i，j)的像素点的数量；q_k为在敏感频带的第k个离散区域中总像素点的数量；Δacc_k表示包含在敏感频带的第k个离散区域中的扰动所导致的深度学习模型的分类准确率的下降值；

为分类准确率上限阈值；

为分类准确率下限阈值；||·||₀为零范数；Δv_k为在敏感频带的第k个离散区域中判断v_suc，k与v_unsuc，k每个位置上的值的大小关系的结果；Δv_k(i，j)为Δv_k中位置(i，j)上的值；ReLU(·)为线性整流函数；

为对d×d维的像素点值均为1的图像的以r_l-k为半径划分的外部进行掩码操作后的结果；

7.根据权利要求6所述的深度学习模型对抗攻击敏感频带检测方法，其特征在于，还包括：

8.一种深度学习模型对抗攻击敏感频带检测系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型对抗攻击敏感频带检测方法的步骤。