CN112836764B

CN112836764B - 一种面向目标分类系统的通用目标攻击方法及装置

Info

Publication number: CN112836764B
Application number: CN202110232607.2A
Authority: CN
Inventors: 高成英; 吴星
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2023-07-28
Anticipated expiration: 2041-03-02
Also published as: CN112836764A

Abstract

本发明公开了一种面向目标分类系统的通用目标攻击方法及装置。所述方法，包括步骤：S1、对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵；S2、将所述初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，以获取所述误导后的目标分类系统对所述伪装图像的分类结果；S3、对所述初始噪音矩阵进行更新得到更新噪音矩阵，并将所述初始噪音矩阵更新为所述更新噪音矩阵；S4、迭代执行步骤S2～S3直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像。本发明能够实现定向攻击目标分类系统，获取具有最佳攻击效果的噪音矩阵和/或伪装图像。

Description

一种面向目标分类系统的通用目标攻击方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种面向目标分类系统的通用目标攻击方法及装置。

背景技术

近年来，深度神经网络作为目标分类系统被广泛应用于图像分类、目标检测、自然语言处理等领域。由于深度神经网络容易受到输入端微小扰动的影响而发生分类错误，施加一个微小的通用扰动可能使深度神经网络在整个数据集上失效。因此，深入研究通用扰动的存在根源和生成方法，有助于将叠加有通用扰动的图像作为对抗样本构建更加健壮的深度神经网络。而通用扰动生成问题要求得到一个扰动向量对整个数据集产生指定扰动率的攻击效果。目前，基于现有算法得到的定向攻击的通用扰动范数较大，容易被人眼识别，减小范数扰动迁移性也几乎为0，通用攻击效果不佳。

发明内容

为了克服现有技术的缺陷，本发明提供一种面向目标分类系统的通用目标攻击方法及装置，能够实现定向攻击目标分类系统，获取具有最佳攻击效果的噪音矩阵和/或伪装图像。

为了解决上述技术问题，第一方面，本发明一实施例提供一种面向目标分类系统的通用目标攻击方法，包括步骤：

S1、对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵；

S2、将所述初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，以获取所述误导后的目标分类系统对所述伪装图像的分类结果；

S3、对所述初始噪音矩阵进行更新得到更新噪音矩阵，并将所述初始噪音矩阵更新为所述更新噪音矩阵；

S4、迭代执行步骤S2～S3直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像。

进一步地，所述步骤S1，还包括：

获取目标类别的可视化图像。

进一步地，所述通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，具体为：

通过标签误导方法使所述目标分类系统将所述伪装图像分类为所述目标类别的概率达到最大概率，并通过特征误导方法使所述目标分类系统所提取的所述伪装图像的特征与所述可视化图像的特征的相似度达到最大相似度，得到所述误导后的目标分类系统。

进一步地，所述对所述初始噪音矩阵进行更新得到更新噪音矩阵，具体为：

通过梯度下降方法更新所述初始噪音矩阵，得到中间噪音矩阵，并通过语义约束方法约束所述中间噪音矩阵的取值范围，得到所述更新噪音矩阵。

进一步地，所述迭代执行步骤S2～S3直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像，具体包括：

在当前迭代执行次数等于第一预设阈值时，统计当前所有所述分类结果得到第一攻击成功率，并在当前迭代执行次数等于第二预设阈值时，统计当前所有所述分类结果得到第二攻击成功率；其中，所述第二预设阈值大于所述第一预设阈值；

比较所述第一攻击成功率和所述第二攻击成功率，在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件，停止迭代执行步骤S2～S3，并获取当前所述初始噪音矩阵和/或当前所述伪装图像。

第二方面，本发明一实施例提供一种面向目标分类系统的通用目标攻击装置，包括：

初始噪音矩阵获取模块，用于对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵；

目标分类系统误导模块，用于将所述初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，以获取所述误导后的目标分类系统对所述伪装图像的分类结果；

初始噪音矩阵更新模块，用于对所述初始噪音矩阵进行更新得到更新噪音矩阵，并将所述初始噪音矩阵更新为所述更新噪音矩阵；

目标攻击结果获取模块，用于驱动所述目标分类系统误导模块和所述初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像。

进一步地，所述初始噪音矩阵获取模块，还用于获取目标类别的可视化图像。

进一步地，所述驱动所述目标分类系统误导模块和所述初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像，具体包括：

比较所述第一攻击成功率和所述第二攻击成功率，在所述第二攻击成功率小于所述第一攻击成功率时判定满足所述预设停止条件，停止驱动所述目标分类系统误导模块和所述初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作，并获取当前所述初始噪音矩阵和/或当前所述伪装图像。

相比于现有技术，本发明的实施例，具有如下有益效果：

通过对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵，将初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导目标分类系统，得到误导后的目标分类系统，以获取误导后的目标分类系统对伪装图像的分类结果，对初始噪音矩阵进行更新得到更新噪音矩阵，并将初始噪音矩阵更新为更新噪音矩阵，迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前初始噪音矩阵和/或当前伪装图像，能够实现定向攻击目标分类系统，获取具有最佳攻击效果的噪音矩阵和/或伪装图像，以便后续利用具有最佳攻击效果的噪音矩阵定向攻击目标分类系统，和/或利用具有最佳攻击效果的伪装图像作为对抗样本训练目标分类系统，有利于提高目标分类系统的鲁棒性。

附图说明

图1为本发明第一实施例中的一种面向目标分类系统的通用目标攻击方法的流程示意图；

图2为本发明第一实施例中的一种面向目标分类系统的通用目标攻击方法的另一流程示意图；

图3为本发明第二实施例中的一种面向目标分类系统的通用目标攻击装置的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。

如图1-2所示，第一实施例提供一种面向目标分类系统的通用目标攻击方法，包括步骤S1～S4：

S2、将初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导目标分类系统，得到误导后的目标分类系统，以获取误导后的目标分类系统对伪装图像的分类结果；

S3、对初始噪音矩阵进行更新得到更新噪音矩阵，并将初始噪音矩阵更新为更新噪音矩阵；

S4、迭代执行步骤S2～S3直至满足预设停止条件，获取当前初始噪音矩阵和/或当前伪装图像。

在优选的实施例中，步骤S1，还包括：获取目标类别的可视化图像。

在本实施例的一优选实施方式中，根据预先定义的目标类别，获取目标类别的可视化图像，并对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵。

作为示例性地，根据预先定义的目标类别，通过激活最大化的神经网络可视化方法获取目标类别的可视化图像。其中，激活最大化的神经网络可视化方法是根据反向传播算法在可视化神经网络的最终层获取输入偏好，得到目标类别的可视化图像。

基于标准正态分布N(0,1)随机生成一个维度为h×w×c的噪音矩阵，对噪音矩阵进行初始化，得到初始噪音矩阵。其中，h，w，c分别为训练集图像的高、宽、通道维度。

在优选的实施例中，所述通过标签误导方法和特征误导方法误导目标分类系统，得到误导后的目标分类系统，具体为：通过标签误导方法使目标分类系统将伪装图像分类为目标类别的概率达到最大概率，并通过特征误导方法使目标分类系统所提取的伪装图像的特征与可视化图像的特征的相似度达到最大相似度，得到误导后的目标分类系统。

需要说明的是，最大概率、最大相似度可以是预先设置的一取值。

作为示例性地，通过标签误导方法误导目标分类系统输出的分类结果，最大化地降低目标分类系统将伪装图像分类为真实类别的概率，同时最大化地提高目标分类系统将伪装图像分类为目标类别的概率，并通过特征误导方法误导目标分类系统中提取特征的卷积层的判断结果，使目标分类系统所提取的伪装图像的特征与目标类别的可视化图像的特征尽可能地接近。

其中，标签误导的优化公式如式(1)所示：

在式(1)中，I为可视化图像；C为目标分类系统，C(t*)为目标分类系统对自然图像t*的分类结果，C((t+z)*)为目标分类网络对伪装图像I^t＝(t+z)*的分类结果；最小化式(1)可以最大化地降低目标分类系统将伪装图像分类为真实类别T*的概率，同时最大化地增加目标分类系统将伪装图像分类为目标类别F*的概率。

特征误导的优化公式如式(2)所示：

在式(2)中，I为可视化图像；f为目标分类系统的卷积层，f((t+z)*)为目标分类系统对伪装图像I^t＝(t+z)*的特征提取结果，f(I)为目标分类系统对可视化图像I的特征提取结果；最小化式(2)可以使伪装图像的特征和目标类别的可视化图像的特征尽可能接近。

在优选的实施例中，所述对初始噪音矩阵进行更新得到更新噪音矩阵，具体为：通过梯度下降方法更新初始噪音矩阵，得到中间噪音矩阵，并通过语义约束方法约束中间噪音矩阵的取值范围，得到更新噪音矩阵。

作为示例性地，通过梯度下降方法，按照目标分类系统最优损失函数的下降方向更新初始噪音矩阵，得到中间噪音矩阵。其中，初始噪音矩阵的更新公式如式(3)所示：

z′＝z+Δz (3)；

在式(3)中，z’为中间噪音矩阵，z为初始噪音矩阵，Δz为更新增量。

通过语义约束方法，将中间噪音矩阵投影至小范围无穷范数空间中，约束中间噪音矩阵的取值范围，得到更新噪音矩阵。其中，中间噪音矩阵的约束公式如式(4)所示：

在式(4)中，z^*为更新噪音矩阵；Projection为投影函数，z’为中间噪音矩阵，为攻击后识别为错误内容对应的噪音矩阵，ε为预设的一个较小固定值，用于约束中间噪音矩阵的取值范围。

本实施例通过约束中间噪音矩阵的取值范围得到更新噪音矩阵，使得基于更新噪音矩阵得到的伪装图像在视觉上接近自然图像，人眼难以察觉，具有更强的视觉隐蔽性。

在优选的实施例中，所述迭代执行步骤S2～S3直至满足预设停止条件，获取当前初始噪音矩阵和/或当前伪装图像，具体包括：在当前迭代执行次数等于第一预设阈值时，统计当前所有分类结果得到第一攻击成功率，并在当前迭代执行次数等于第二预设阈值时，统计当前所有分类结果得到第二攻击成功率；其中，第二预设阈值大于第一预设阈值；比较第一攻击成功率和第二攻击成功率，在第二攻击成功率小于第一攻击成功率时判定满足预设停止条件，停止迭代执行步骤S2～S3，并获取当前初始噪音矩阵和/或当前伪装图像。

可以理解的是，若目标分类系统将伪装图像分类为目标类别，即分类结果为目标类别，则定向攻击目标分类系统成功。

作为示例性地，利用深度学习优化器迭代执行步骤S2～S3，在当前迭代执行次数等于第一预设阈值时，统计当前所有分类结果得到第一攻击成功率，并在当前迭代执行次数等于第二预设阈值时，统计当前所有分类结果得到第二攻击成功率，通过比较第一攻击成功率和第二攻击成功率，在第二攻击成功率小于第一攻击成功率时，认为此后基于更新噪音矩阵得到的伪装图像对目标分类系统的攻击效果已经不如先前，则判定满足预设停止条件，停止迭代执行步骤S2～S3，并获取当前初始噪音矩阵和/或当前伪装图像。

本实施例通过迭代更新初始噪音矩阵，利用基于更新噪音矩阵得到的伪装图像定向攻击目标分类系统，能够优化初始噪音矩阵，获取具有最佳攻击效果的噪音矩阵和/或伪装图像。

如图3所示，第二实施例提供一种面向目标分类系统的通用目标攻击装置，包括：初始噪音矩阵获取模块21，用于对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵；目标分类系统误导模块22，用于将初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导目标分类系统，得到误导后的目标分类系统，以获取误导后的目标分类系统对伪装图像的分类结果；初始噪音矩阵更新模块23，用于对初始噪音矩阵进行更新得到更新噪音矩阵，并将初始噪音矩阵更新为更新噪音矩阵；目标攻击结果获取模块24，用于驱动目标分类系统误导模块和初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前初始噪音矩阵和/或当前伪装图像。

在优选的实施例中，初始噪音矩阵获取模块21，还用于获取目标类别的可视化图像。

在本实施例的一优选实施方式中，通过初始噪音矩阵获取模块21，根据预先定义的目标类别，获取目标类别的可视化图像，并对随机生成的噪音矩阵进行初始化，得到初始噪音矩阵。

作为示例性地，通过目标分类系统误导模块22，通过标签误导方法误导目标分类系统输出的分类结果，最大化地降低目标分类系统将伪装图像分类为真实类别的概率，同时最大化地提高目标分类系统将伪装图像分类为目标类别的概率，并通过特征误导方法误导目标分类系统中提取特征的卷积层的判断结果，使目标分类系统所提取的伪装图像的特征与目标类别的可视化图像的特征尽可能地接近。

其中，标签误导的优化公式如式(5)所示：

在式(5)中，I为可视化图像；C为目标分类系统，C(t*)为目标分类系统对自然图像t*的分类结果，C((t+z)*)为目标分类网络对伪装图像I^t＝(t+z)*的分类结果；最小化式(5)可以最大化地降低目标分类系统将伪装图像分类为真实类别T*的概率，同时最大化地增加目标分类系统将伪装图像分类为目标类别F*的概率。

特征误导的优化公式如式(6)所示：

在式(6)中，I为可视化图像；f为目标分类系统的卷积层，f((t+z)*)为目标分类系统对伪装图像I^t＝(t+z)*的特征提取结果，f(I)为目标分类系统对可视化图像I的特征提取结果；最小化式(6)可以使伪装图像的特征和目标类别的可视化图像的特征尽可能接近。

作为示例性地，通过初始噪音矩阵更新模块23，通过梯度下降方法，按照目标分类系统最优损失函数的下降方向更新初始噪音矩阵，得到中间噪音矩阵。其中，初始噪音矩阵的更新公式如式(7)所示：

z′＝z+Δz (7)；

在式(7)中，z’为中间噪音矩阵，z为初始噪音矩阵，Δz为更新增量。

通过语义约束方法，将中间噪音矩阵投影至小范围无穷范数空间中，约束中间噪音矩阵的取值范围，得到更新噪音矩阵。其中，中间噪音矩阵的约束公式如式(8)所示：

在式(8)中，z^*为更新噪音矩阵；Projection为投影函数，z’为中间噪音矩阵，为攻击后识别为错误内容对应的噪音矩阵，ε为预设的一个较小固定值，用于约束中间噪音矩阵的取值范围。

本实施例通过初始噪音矩阵更新模块23约束中间噪音矩阵的取值范围得到更新噪音矩阵，使得基于更新噪音矩阵得到的伪装图像在视觉上接近自然图像，人眼难以察觉，具有更强的视觉隐蔽性。

在优选的实施例中，所述驱动目标分类系统误导模块和初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前初始噪音矩阵和/或当前伪装图像，具体包括：在当前迭代执行次数等于第一预设阈值时，统计当前所有分类结果得到第一攻击成功率，并在当前迭代执行次数等于第二预设阈值时，统计当前所有分类结果得到第二攻击成功率；其中，第二预设阈值大于第一预设阈值；比较第一攻击成功率和第二攻击成功率，在第二攻击成功率小于第一攻击成功率时判定满足预设停止条件，停止驱动目标分类系统误导模块和初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作，并获取当前初始噪音矩阵和/或当前伪装图像。

作为示例性地，通过目标攻击结果获取模块24，驱动目标分类系统误导模块和初始噪音矩阵更新模块利用深度学习优化器迭代执行目标分类系统误导操作和初始噪音矩阵更新操作，在当前迭代执行次数等于第一预设阈值时，统计当前所有分类结果得到第一攻击成功率，并在当前迭代执行次数等于第二预设阈值时，统计当前所有分类结果得到第二攻击成功率，通过比较第一攻击成功率和第二攻击成功率，在第二攻击成功率小于第一攻击成功率时，认为此后基于更新噪音矩阵得到的伪装图像对目标分类系统的攻击效果已经不如先前，则判定满足预设停止条件，停止迭代执行目标分类系统误导操作和初始噪音矩阵更新操作，并获取当前初始噪音矩阵和/或当前伪装图像。

本实施例通过目标攻击结果获取模块24迭代更新初始噪音矩阵，利用基于更新噪音矩阵得到的伪装图像定向攻击目标分类系统，能够优化初始噪音矩阵，获取具有最佳攻击效果的噪音矩阵和/或伪装图像。

综上所述，实施本发明的实施例，具有如下有益效果：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种面向目标分类系统的通用目标攻击方法，其特征在于，包括步骤：

S2、将所述初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，以获取所述误导后的目标分类系统对所述伪装图像的分类结果；所述标签误导方法的优化公式为：

其中，I为可视化图像；C为目标分类系统，C(t*)为目标分类系统对自然图像t*的分类结果，C((t+z)*)为目标分类网络对伪装图像I^t＝(t+z)*的分类结果；

所述特征误导方法的公式如下：

其中，I为可视化图像；f为目标分类系统的卷积层，f((t+z)*)为目标分类系统对伪装图像I^t＝(t+z)*的特征提取结果，f(I)为目标分类系统对可视化图像I的特征提取结果；

2.如权利要求1所述的面向目标分类系统的通用目标攻击方法，其特征在于，所述步骤S1，还包括：

获取目标类别的可视化图像。

3.如权利要求2所述的面向目标分类系统的通用目标攻击方法，其特征在于，所述通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，具体为：

4.如权利要求1所述的面向目标分类系统的通用目标攻击方法，其特征在于，所述对所述初始噪音矩阵进行更新得到更新噪音矩阵，具体为：

5.如权利要求1所述的面向目标分类系统的通用目标攻击方法，其特征在于，所述迭代执行步骤S2～S3直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像，具体包括：

6.一种面向目标分类系统的通用目标攻击装置，其特征在于，包括：

目标分类系统误导模块，用于将所述初始噪音矩阵叠加至自然图像，得到伪装图像，并通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，以获取所述误导后的目标分类系统对所述伪装图像的分类结果；所述标签误导方法的优化公式为：

所述特征误导方法的公式如下：

7.如权利要求6所述的面向目标分类系统的通用目标攻击装置，其特征在于，所述初始噪音矩阵获取模块，还用于获取目标类别的可视化图像。

8.如权利要求7所述的面向目标分类系统的通用目标攻击装置，其特征在于，所述通过标签误导方法和特征误导方法误导所述目标分类系统，得到误导后的目标分类系统，具体为：

9.如权利要求6所述的面向目标分类系统的通用目标攻击装置，其特征在于，所述对所述初始噪音矩阵进行更新得到更新噪音矩阵，具体为：

10.如权利要求6所述的面向目标分类系统的通用目标攻击装置，其特征在于，所述驱动所述目标分类系统误导模块和所述初始噪音矩阵更新模块迭代执行目标分类系统误导操作和初始噪音矩阵更新操作直至满足预设停止条件，获取当前所述初始噪音矩阵和/或当前所述伪装图像，具体包括：