CN114239685B

CN114239685B - 评估神经网络图像分类模型鲁棒性的方法及装置

Info

Publication number: CN114239685B
Application number: CN202111371948.4A
Authority: CN
Inventors: 何召阳; 靳宇馨; 刘乃海; 李乾坤; 刘兵
Original assignee: Beijing Moyun Technology Co ltd
Current assignee: Beijing Moyun Technology Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-12
Anticipated expiration: 2041-11-18
Also published as: CN114239685A

Abstract

本发明公开了评估神经网络图像分类模型鲁棒性的方法及装置，该方法包括：S1：获取样本集，样本集内包括图像样本；S2：将样本集中任意的第一图像样本输入神经网络图像分类模型中，获取第一图像样本的特征图；S3：输入第一图像样本，通过热力图生成算法，基于神经网络图像分类模型和特征图，获取第一图像样本的热力图；S4：基于热力图，计算第一图像样本的敏感区域，并突出第一图像样本的敏感区域；S5：采用扰动算法对敏感区域进行扰动，得到第一对抗样本；S6：将第一对抗样本作为新的第一图像样本重复S3至S5得到最终第一对抗样本；S7：将最终第一对抗样本和初始第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。

Description

评估神经网络图像分类模型鲁棒性的方法及装置

技术领域

本发明实施例涉及神经网络领域，具体涉及一种评估神经网络图像分类模型鲁棒性的方法及装置。

背景技术

随着深层神经网络(DNNs)模型的大规模应用，其安全性与稳定性也受到了广泛的关注。2013年，Szegedy等人研究发现深层神经网络模型容易受到对抗样本的攻击，这种攻击是基于在原始图像上添加微小的扰动，而这种扰动在人眼范围内不会产生较大影响，却可以干扰深层神经网络模型做出误判。于是，针对神经网络模型的安全性、鲁棒性评估也变得至关重要。

发明内容

为此，本发明实施例提供一种评估神经网络图像分类模型鲁棒性的方法及装置，以解决现有技术中用于检测鲁棒性的对抗样本针对性差、扰动较大且通用性差的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：

在本发明的实施方式的一个方面中，提供了一种评估神经网络图像分类模型鲁棒性的方法，所述方法包括：

步骤1：获取样本集，所述样本集内包括图像样本；

步骤2：将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中，获取所述第一图像样本的特征图；

步骤3：输入所述第一图像样本，通过热力图生成算法，基于所述神经网络图像分类模型和所述特征图，获取所述第一图像样本的热力图；

步骤4：基于所述热力图，计算所述第一图像样本的敏感区域，并突出所述第一图像样本的敏感区域；

步骤5：采用扰动算法对所述敏感区域进行扰动，得到第一对抗样本；

步骤6：将所述第一对抗样本作为新的第一图像样本重复步骤3至步骤5得到最终第一对抗样本；

步骤7：将所述最终第一对抗样本和初始所述第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。

进一步地，将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中，获得softmax层之前最后一个连接层输出的特征图。

进一步地，所述热力图算法为LRP热力图生成算法，将所述第一图像样本与所述第一图像样本的原始分类标签作为LRP解释器的输入，以所述特征图为起点，利用所述神经网络图像分类模型的结构，反向传播其相关性R，生成预测类别的所述热力图。

进一步地，步骤4中计算所述第一图像样本的敏感区域具体为：

将生成的所述热力图的所有像素点求均值μ，将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z，其余位置认为是非敏感区域。

进一步地，步骤4中突出所述第一图像样本的敏感区域具体为：

设定二值化掩码m，将所述热力图中的敏感区域z的掩码值设置为1，其余区域的掩码值设置为0。

进一步地，步骤5具体为：

采用扰动算法，根据公式

更新所述第一图像样本中敏感区域z的像素值；

根据公式x′＝x⊙(1-m)+z⊙m得到对抗样本图像x′；

其中，z表示敏感区域，x′表示第一对抗样本，x表示第一图像样本，y表示第一图像样本的原始分类标签，m表示二值化掩码，⊙表示哈达玛积，∈表示更新时的学习率，sign表示符号函数，值域为{+1，-1}，J(x,y)表示神经网络模型的损失函数，

表示梯度算子。

进一步地，步骤6具体为：

重复步骤3至步骤5，直到达到迭代次数n，将此时的第一对抗样本作为最终的第一对抗样本；其中，n为正整数。

在本发明的实施方式的另一个方面中，提供了一种评估神经网络图像分类模型鲁棒性的装置，所述装置包括：

获取单元，用于获取样本集，所述样本集内包括图像样本；

第一生成单元，用于将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中，获取所述第一图像样本的特征图；

第二生成单元，用于输入所述第一图像样本，通过热力图生成算法，基于所述神经网络图像分类模型和所述特征图，获取所述第一图像样本的热力图；

计算单元，用于基于所述热力图，计算所述第一图像样本的敏感区域，并突出所述第一图像样本的敏感区域；

扰动单元，用于采用扰动算法对所述敏感区域进行扰动，得到第一对抗样本；

评估单元，用于将所述第一对抗样本作为新的第一图像样本依次重复所述第二生成单元、所述计算单元、所述扰动单元的操作得到最终第一对抗样本，将所述最终第一对抗样本和初始所述第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。

在本发明的实施方式的另一个方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述方法。

在本发明的实施方式的另一个方面中，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述方法。

本发明的实施方式具有如下优点：

本发明实施例公开了一种评估神经网络图像分类模型鲁棒性的方法及装置，该方法采用LRP(Layer-wise Relevance Propagation)算法生成可显示出模型输入与预测类别的相关性的热力图，通过相关性热力图可确定图片的敏感区域，进而直接针对图像的敏感区域添加扰动。与传统对抗样本生成方法相比，本方案生成方式针对性更强，可减小扰动空间的范围，降低对人类视觉范围内的干扰。并且该方法生成的对抗样本具有一定的可迁移性，可评估实验中的神经网络图像分类模型鲁棒性的同时，也可迁移性的评估其他神经网络图像分类模型的鲁棒性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明的实施例提供的一种评估神经网络图像分类模型鲁棒性的方法的流程示意图；

图2为本发明的实施例提供的一种评估神经网络图像分类模型鲁棒性的装置的结构示意图。

图中：102-获取单元、104-第一生成单元、106-第二生成单元、108-计算单元、110-扰动单元、112-评估单元。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例

卷积神经网络(Convolutional Neural Network，CNN)作为深层神经网络模型中的典型代表，其在神经网络视觉模型中有着极为广泛的应用。同时模型的可解释性和可视化算法揭示了模型的输入与模型输出结果的相关性，因此模型的可解释性和可视化也具有重要的研究价值。

通过对抗样本攻击神经网络模型的方式主要有两种，即通过在整幅图像上添加扰动或在图片的特定区域添加扰动构造对抗补丁来生成对抗样本。传统的在整幅图像上添加扰动的方法，间接性的修改了图像中敏感区域的像素点，却无法直接对图片中的敏感区域添加扰动。同时全局添加扰动也可能会带来整体扰动空间变大，总体扰动值变大的问题。而采用对抗补丁的攻击方式将可能会造成较大的扰动，引起人来视觉上的注意，影响攻击效果。

虽然深层神经网络(DNNs)具有不同的结构和权重，但他们可能具有相似的语义特征。如果专注于注意力热力图，不同的DNNs将具有相似的结果。那么如果我们可以利用热力图生成算法确定图片的敏感区域直接进行攻击，那么这种攻击可能具有较大的通用性，生成的对抗样本可能也具有较大的可迁移性。

因此，我们希望可以提出一种攻击方法，可以通过利用深层神经网络模型的可解释性和可视化算法确定图像中的敏感区域，并直接针对图像中的敏感区域进行扰动，以便控制扰动空间，不对过多的像素点进行扰动，在人类视觉范围内不造成较大的影响，却可以愚弄深层神经网络模型，并可以迁移性的评估其他深层神经网络模型的鲁棒性。

基于此，如图1所示，本发明的实施例提供了一种评估神经网络图像分类模型鲁棒性的方法，该方法包括以下步骤：

步骤1：获取样本集，样本集内包括图像样本；

步骤2：将样本集中任意的第一图像样本输入神经网络图像分类模型中，获取第一图像样本的特征图；

步骤3：输入第一图像样本，通过热力图生成算法，基于神经网络图像分类模型和特征图，获取第一图像样本的热力图；

步骤4：基于热力图，计算第一图像样本的敏感区域，并突出第一图像样本的敏感区域；

步骤5：采用扰动算法对敏感区域进行扰动，得到第一对抗样本；

步骤6：将第一对抗样本作为新的第一图像样本重复步骤3至步骤5得到最终第一对抗样本；

步骤7：将最终第一对抗样本和初始第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。在本实施例中，通过样本对，检测该神经网络分类模型的鲁棒性，由于本实施例样本对的通用性，生成的样本对也应用于检测其他神经网络模型的鲁棒性。

具体的，步骤2中，将样本集中任意的第一图像样本输入神经网络图像分类模型中，获得softmax层之前最后一个连接层输出的特征图。

进一步的，热力图算法为LRP热力图生成算法，将第一图像样本与第一图像样本的原始分类标签作为LRP解释器的输入，以特征图为起点，利用神经网络图像分类模型的结构，反向传播其相关性R，生成预测类别的热力图。LRP(Layer-wise RelevancePropagation)是一种基于深度泰勒分解的解释方法。该方法通过神经网络图像分类模型，使用网络权重和由前向传递创建的神经激活将输出传播回网络，直到输入层，并确定节点对分类的贡献。每个像素或中间神经元的贡献大小称为“相关性”，即通过计算从输出到输入的相邻层之间的相关性来获得热力图，并且解释器给出了与输入图像具有相同维数的像素级热图，从而可视化了输入图像中对所选类别有贡献的重要区域。

具体的，其中LRP算法在网络中反向传播相关性的规则为：

其中j和k是任意连续层的两个神经元，a表示各个神经元的激活，w是两个神经元之间的权重。

步骤4中计算第一图像样本的敏感区域具体为：

将生成的热力图的所有像素点求均值μ，将热力图中像素点的值大于均值μ的位置认为是第一图像样本的敏感区域z，其余位置认为是非敏感区域。

步骤4中突出第一图像样本的敏感区域具体为：

设定二值化掩码m，将热力图中的敏感区域z的掩码值设置为1，其余区域的掩码值设置为0。

步骤5具体为：

采用扰动算法，根据公式

更新第一图像样本中敏感区域z的像素值；

根据公式x′＝x⊙(1-m)+z⊙m得到对抗样本图像x′；

表示梯度算子。

其中，步骤6具体为：

重复步骤3至步骤5，直到达到迭代次数n，将此时的第一对抗样本作为最终的第一对抗样本；其中，n为正整数。例如，重复步骤3至步骤5，直到达到迭代次数10，将此时的对抗图像x′作为最终的对抗样本图像，即最终的第一对抗样本。并将最终的第一对抗样本图像与原始的第一图像样本组成样本对。通过样本对检测该实验中的神经网络模型的鲁棒性，通过样本对检测其他神经网络模型的鲁棒性。

在本发明的其他实施例中还提供了一种评估神经网络图像分类模型鲁棒性的装置，装置包括：获取单元102、第一生成单元104、第二生成单元106、计算单元108、扰动单元110和评估单元112。

获取单元102用于获取样本集，样本集内包括图像样本；

第一生成单元104用于将样本集中任意的第一图像样本输入神经网络图像分类模型中，获取第一图像样本的特征图；

第二生成单元106用于输入第一图像样本，通过热力图生成算法，基于神经网络图像分类模型和特征图，获取第一图像样本的热力图；

计算单元108用于基于热力图，计算第一图像样本的敏感区域，并突出第一图像样本的敏感区域；

扰动单元110用于采用扰动算法对敏感区域进行扰动，得到第一对抗样本；

评估单元112用于将第一对抗样本作为新的第一图像样本依次重复第二生成单元106、计算单元108、扰动单元110的操作得到最终第一对抗样本，将最终第一对抗样本和初始第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。

本实施例提出了一种基于热力图生成算法的通用的评估神经网络图像分类模型鲁棒性的方法，该方法采用LRP(Layer-wise Relevance Propagation)算法生成可显示出模型输入与预测类别的相关性的热力图，通过相关性热力图可确定图片的敏感区域，进而直接针对图像的敏感区域添加扰动。与传统对抗样本生成方法相比，本方案生成方式针对性更强，可减小扰动空间的范围，降低对人类视觉范围内的干扰。并且该方法生成的对抗样本具有一定的可迁移性，可评估实验中的神经网络图像分类模型鲁棒性的同时，也可迁移性的评估其他神经网络图像分类模型的鲁棒性。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

根据另一方面的实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图1所描述的方法。

根据再一方面的实施例，还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图1所述的方法。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明做了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种评估神经网络图像分类模型鲁棒性的方法，其特征在于，所述方法包括：

步骤1：获取样本集，所述样本集内包括图像样本；

步骤4：基于所述热力图，计算所述第一图像样本的敏感区域，并突出所述第一图像样本的敏感区域；具体是：将生成的所述热力图的所有像素点求均值μ，将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z，其余位置认为是非敏感区域；设定二值化掩码m，将所述热力图中的敏感区域z的掩码值设置为1，其余区域的掩码值设置为0；

步骤5：采用扰动算法对所述敏感区域进行扰动，得到第一对抗样本；具体是：根据公式

更新所述第一图像样本中敏感区域z的像素值；根据公式x'＝x⊙(1-m)+z⊙m得到对抗样本图像x'；其中，z表示敏感区域，x'表示第一对抗样本，x表示第一图像样本，y表示第一图像样本的原始分类标签，m表示二值化掩码，⊙表示哈达玛积，∈表示更新时的学习率，sign表示符号函数，值域为{+1，-1}，J(x,y)表示神经网络模型的损失函数，

表示梯度算子；

2.根据权利要求1所述的方法，将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中，其特征在于，

获得softmax层之前最后一个连接层输出的特征图。

3.根据权利要求1所述的方法，其特征在于，

所述热力图算法为LRP热力图生成算法，将所述第一图像样本与所述第一图像样本的原始分类标签作为LRP解释器的输入，以所述特征图为起点，利用所述神经网络图像分类模型的结构，反向传播其相关性R，生成预测类别的所述热力图。

4.根据权利要求1所述的方法，其特征在于，步骤6具体为：

重复步骤3至步骤5，直到达到迭代次数n，将此时的第一对抗样本作为最终的第一对抗样本；

其中，n为正整数。

5.一种评估神经网络图像分类模型鲁棒性的装置，其特征在于，所述装置包括：

获取单元(102)，用于获取样本集，所述样本集内包括图像样本；

第一生成单元(104)，用于将所述样本集中任意的第一图像样本输入所述神经网络图像分类模型中，获取所述第一图像样本的特征图；

第二生成单元(106)，用于输入所述第一图像样本，通过热力图生成算法，基于所述神经网络图像分类模型和所述特征图，获取所述第一图像样本的热力图；

计算单元(108)，用于基于所述热力图，计算所述第一图像样本的敏感区域，并突出所述第一图像样本的敏感区域；具体是：将生成的所述热力图的所有像素点求均值μ，将所述热力图中像素点的值大于所述均值μ的位置认为是所述第一图像样本的敏感区域z，其余位置认为是非敏感区域；设定二值化掩码m，将所述热力图中的敏感区域z的掩码值设置为1，其余区域的掩码值设置为0；

扰动单元(110)，用于采用扰动算法对所述敏感区域进行扰动，得到第一对抗样本；具体是：根据公式

更新所述第一图像样本中敏感区域z的像素值；根据公式x'＝x⊙1-m+z⊙m得到对抗样本图像x'；其中，z表示敏感区域，x'表示第一对抗样本，x表示第一图像样本，y表示第一图像样本的原始分类标签，m表示二值化掩码，⊙表示哈达玛积，∈表示更新时的学习率，sign表示符号函数，值域为{+1，-1}，Jx,y表示神经网络模型的损失函数，

表示梯度算子；

评估单元(112)，用于将所述第一对抗样本作为新的第一图像样本依次重复所述第二生成单元(106)、所述计算单元(108)、所述扰动单元(110)的操作得到最终第一对抗样本，将所述最终第一对抗样本和初始所述第一图像样本组成样本对，用于评估神经网络图像分类模型的鲁棒性。

6.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-4中任一项所述的方法。

7.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-4中任一项所述的方法。