CN117253094B

CN117253094B - 一种图像分类系统对抗性样本生成方法、系统及电子设备

Info

Publication number: CN117253094B
Application number: CN202311411509.0A
Authority: CN
Inventors: 陈敏刚; 方鸿涛; 马泽宇; 王瑞云; 谭鑫; 沈颖; 胡芸; 葛建新
Original assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Current assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-05-14
Anticipated expiration: 2043-10-30
Also published as: CN117253094A

Abstract

本发明公开一种图像分类系统对抗性样本生成方法、系统及电子设备，涉及黑盒对抗攻击技术领域，所述方法包括：根据预设下游任务，获取i种类别的图像；每种类别均包括j张图像；将各类别的图像分别求均值，得到对应类别的均值图像；基于各类别的均值图像确定对应类别的类别敏感补丁区域；获取目标图像；基于目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域；基于类别敏感补丁区域和实例敏感补丁区域确定待填充补丁区域；基于目标图像和微调后的替代图像分类模型，确定补丁纹理；基于待填充补丁区域、补丁纹理和目标图像，得到对抗性样本。本发明提高了图像分类系统对抗性样本的迁移性。

Description

一种图像分类系统对抗性样本生成方法、系统及电子设备

技术领域

本发明涉及黑盒对抗攻击技术领域，特别是涉及一种图像分类系统对抗性样本生成方法、系统及电子设备。

背景技术

深度神经网络(Deep Neural Networks，DNN)容易受到对抗性样本的影响，对抗性样本指针对深度神经网络故意构造的扰动图像，这种对抗性样本可以导致深度神经网络产生图像分类错误。

生成对抗性样本的目的为了发现深度神经网络的脆弱性，从而进一步提升图像分类系统的鲁棒性。利用对抗性样本实施对抗攻击，根据扰动是否可在现实中部署，分成数字世界攻击和物理世界攻击，其中物理世界对抗攻击模式通常为贴在图像上的补丁，具有更广泛的应用前景。例如，通过将对抗性样本输入物理世界的神经网络图像分类系统，可发现系统脆弱性缺陷，从而进一步对其进行安全加固。

现有的对抗性样本生成方法大多对图像生成采用固定形状或数量补丁的扰动，容易被发现且对抗迁移性不足，在黑盒攻击场景下会以较大概率失效，导致对抗攻击效果不佳。

发明内容

本发明的目的是提供一种图像分类系统对抗性样本生成方法、系统及电子设备，提高了图像分类系统对抗性样本的迁移性。

为实现上述目的，本发明提供了如下方案：

一种图像分类系统对抗性样本生成方法，包括：

根据预设下游任务，获取i种类别的图像；每种类别均包括j张图像；i>1，j>1；

将各类别的图像分别求均值，得到对应类别的均值图像；

基于各类别的均值图像确定对应类别的类别敏感补丁区域；

获取目标图像；所述目标图像为欲生成对抗性样本的图像；

基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域；所述微调后的替代图像分类模型是利用ImageNet数据集对替代图像分类模型进行微调得到的；

基于所述类别敏感补丁区域和所述实例敏感补丁区域确定待填充补丁区域；

基于所述目标图像和所述微调后的替代图像分类模型，确定补丁纹理；

基于所述待填充补丁区域、所述补丁纹理和所述目标图像，得到对抗性样本。

可选地，基于各类别的均值图像确定对应类别的类别敏感补丁区域，具体包括：

对于任一张均值图像：

将均值图像输入至所述微调后的替代图像分类模型中进行反向传播，得到梯度矩阵；

对所述梯度矩阵进行均值池化下采样，得到下采样后的梯度矩阵；

将所述下采样后的梯度矩阵中的元素按照从大到小进行排序；

取前预设个数个元素为敏感元素，将敏感元素对应的区域确定为关键区域；

对各所述关键区域进行上采样，得到所述类别敏感补丁区域。

可选地，所述微调后的替代图像分类模型的微调过程，包括：

根据所述预设下游任务训练Resnet50，得到所述替代图像分类模型；

获取ImageNet数据集；所述ImageNet数据集包括多张图像和对应的类别；

利用所述ImageNet数据集对所述替代图像分类模型进行微调，得到所述微调后的替代图像分类模型。

可选地，基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域，具体包括：

将所述目标图像输入至微调后的替代图像分类模型中，并进行反向传播，确定所述微调后的替代图像分类模型中各网络层的类激活映射图；

初始化所述目标图像的掩膜为空白掩膜；

基于所述空白掩膜、各所述类激活映射图和攻击区域修正网络，得到实例敏感补丁区域。

可选地，基于所述目标图像和所述微调后的替代图像分类模型，确定补丁纹理，具体包括：

构建并初始化自适应步长生成器；

将所述目标图像输入所述自适应步长生成器中，确定攻击步幅；

利用投影梯度下降法，基于所述目标图像、所述攻击步幅和所述微调后的替代图像分类模型，确定所述补丁纹理。

一种图像分类系统对抗性样本生成系统，包括：

多种类别图像获取模块，用于根据预设下游任务，获取i种类别的图像；每种类别均包括j张图像；i>1，j>1；

均值图像确定模块，用于将各类别的图像分别求均值，得到对应类别的均值图像；

类别敏感补丁区域确定模块，用于基于各类别的均值图像确定对应类别的类别敏感补丁区域；

目标图像获取模块，用于获取目标图像；所述目标图像为欲生成对抗性样本的图像；

实例敏感补丁区域确定模块，用于基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域；所述微调后的替代图像分类模型是利用ImageNet数据集对替代图像分类模型进行微调得到的；

待填充补丁区域确定模块，用于基于所述类别敏感补丁区域和所述实例敏感补丁区域确定待填充补丁区域；

补丁纹理确定模块，用于基于所述目标图像和所述微调后的替代图像分类模型，确定补丁纹理；

对抗性样本生成模块，用于基于所述待填充补丁区域、所述补丁纹理和所述目标图像，得到对抗性样本。

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述所述的图像分类系统对抗性样本生成方法。

可选地，所述存储器为可读存储介质。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种图像分类系统对抗性样本生成方法、系统及电子设备，在生成对抗性样本时，不需要已知待攻击模型的架构和参数，可以在黑盒模型上通过微调后的替代图像分类模型实现较好的攻击可迁移性；可自适应生成任意形状和大小的补丁，生成的对抗性样本难以被现有的防御手段察觉；生成的对抗性样本可应用于数字世界和物理世界，并具有对角度和距离的鲁棒性，提高了图像分类系统对抗性样本的迁移性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的图像分类系统对抗性样本生成方法流程示意图；

图2为替代图像分类模型微调流程示意图；

图3为提取敏感攻击补丁区域流程示意图；

图4为补丁纹理确定流程示意图；

图5为最终对抗攻击效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种图像分类系统对抗性样本生成方法、系统及电子设备，旨在提高图像分类系统对抗性样本的迁移性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明实施例1提供的图像分类系统对抗性样本生成方法流程示意图。如图1所示，本实施例中的图像分类系统对抗性样本生成方法，包括：

步骤101：根据预设下游任务，获取i种类别的图像；每种类别均包括j张图像；i>1，j>1。

步骤102：将各类别的图像分别求均值，得到对应类别的均值图像。

步骤103：基于各类别的均值图像确定对应类别的类别敏感补丁区域M₁。

作为一种可选的实施方式，步骤103，具体包括：

对于任一张均值图像：

将均值图像输入至微调后的替代图像分类模型中进行反向传播，得到梯度矩阵。

具体的，将均值图像输入到微调后的替代图像分类模型中反向传播获取梯度的表达式为：

其中，为类别为y的均值图像；/>为给定类别y后均值图像的概率密度函数。

对梯度矩阵进行均值池化下采样，得到下采样后的梯度矩阵。具体的，池化大小为选取的掩膜大小。

将下采样后的梯度矩阵中的元素按照从大到小进行排序。

取前预设个数个元素为敏感元素，将敏感元素对应的区域确定为关键区域。

对各关键区域进行上采样，得到类别敏感补丁区域。

步骤104：获取目标图像；目标图像为欲生成对抗性样本的图像。

步骤105：基于目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域。

其中，微调后的替代图像分类模型是利用ImageNet数据集对替代图像分类模型进行微调得到的。

作为一种可选的实施方式，步骤105，具体包括：

将目标图像输入至微调后的替代图像分类模型中，并进行反向传播，确定微调后的替代图像分类模型中各网络层的类激活映射图。

初始化目标图像的掩膜为空白掩膜。

基于空白掩膜、各类激活映射图和攻击区域修正网络，得到实例敏感补丁区域。

具体的，修正网络G(·)可以对实例敏感补丁区域M₂进行优化，网络输入为当前步的实例敏感补丁区域与类激活映射图，输出为优化后的实例敏感补丁区域，其损失函数可表示为：

其中，为第t步的实例敏感补丁区域；/>为第t-1步的实例敏感补丁区域；Cam(x)为类激活映射图；E_t为对t求均值(将每一步的损失求和再除以总步数)；E_x为对多张图像x求均值(将每张图像的损失求和再除以总图像数)；D_KL为KL散度；/>为添加随机扰动后微调后的替代图像分类模型的输出结果；f_θ(y|x)为微调后的替代图像分类模型在原始图像上的输出结果；z为随机扰动；⊙为对应元素相乘运算符；λ₁和λ₂均为可调节的常数；LB为约束掩膜的最小值的下界常数；g(·)为图像膨胀-腐蚀的形态学变换。

将目标图像在t₀时刻预先置为空白掩膜(记作)，将空白掩膜和最后一层类激活映射图输入到修正网络中进行优化，得到新的掩膜/>再将/>和倒数第二层的类激活映射图输入到修正网络中进行优化，得到新的掩膜/>重复直至收敛，得到实例敏感补丁区域/>

作为一种可选的实施方式，微调后的替代图像分类模型的微调过程，包括：

根据预设下游任务训练Resnet50，得到替代图像分类模型。

获取ImageNet数据集；ImageNet数据集包括多张图像和对应的类别。

利用ImageNet数据集对替代图像分类模型进行微调，得到微调后的替代图像分类模型。

具体的，构建数据分布相关的损失函数对替代图像分类模型进行微调，将替代图像分类模型的梯度对齐到由得分函数刻画的数据分布特征，得到微调后的替代图像分类模型。其对齐方法为如下损失函数

其中，为约等于；/>为图像x的梯度；/>为对ImageNet数据集中的每一个类别求期望；/>为对给定某类别下数据集中所有的该类别图像求期望；x为输入替代图像分类模型的图像；y为图像x所属的类别；θ为替代图像分类模型的权重参数；p_D(y)为类别为y的图像数据分布的概率密度函数；p_D(x|y)为给定类别y后图像x的概率密度函数；logp_θ(y|x)为在给定图像x后，将图像x输入替代图像分类模型后得到属于该图像真实类别的概率的对数。

步骤106：基于类别敏感补丁区域和实例敏感补丁区域确定待填充补丁区域。

步骤107：基于目标图像和微调后的替代图像分类模型，确定补丁纹理。

作为一种可选的实施方式，步骤107，具体包括：

构建并初始化自适应步长生成器。具体的，自适应步长生成器是一个2层的多层感知机网络。

将目标图像输入自适应步长生成器中，确定攻击步幅。

利用投影梯度下降法，基于目标图像、攻击步幅和微调后的替代图像分类模型，确定补丁纹理。

具体的，投影梯度下降法是一种迭代攻击方法，其迭代公式为：

其中，x^t+1为第t+1步生成的图像；∏_x+S(·)为投影操作，将x^t+1投影回可行域x+S；x^t为第t步生成的图像；α为攻击步幅；L(θ,x,y)为将类别为y的图像x输入至微调后的替代图像分类模型中，在其类别y上得到的损失；

投影梯度下降法最终根据上述公式迭代进行攻击，直至攻击成功为止。

步骤108：基于待填充补丁区域、补丁纹理和目标图像，得到对抗性样本。

具体的，将步骤106得到待填充补丁区域和步骤107得到的补丁纹理结合，得到对抗攻击补丁，然后将补丁覆盖在目标图像上，得到对抗性样本。

为了验证上述方法的效果，还进行具体实施例的测试，具体步骤包括：

步骤一：替代图像分类模型微调(详见图2)。

1.根据下游任务训练一个替代图像分类模型，该下游任务可以是人脸识别、目标检测等根据场景决定的任务。本实施例选择对常见的十种物体(豹子、汽车、企鹅等)的图像分类任务，选择的替代图像分类模型是Resnet50，被攻击模型选取DenseNet，被攻击模型与替代图像分类模型结构不同，可以证明该攻击方法具有迁移性，数据集选取ImageNet数据集。攻击的最终目标是DenseNet模型，但并不知道被攻击模型的真实结构，因此指定DenseNet是模拟一个不知道的黑盒模型，最终通过攻击替代图像分类模型来实现将攻击迁移到攻击最终的目标模型上去。

2.构建数据分布相关的损失函数对替代图像分类模型进行微调，将模型的梯度对齐到由得分函数刻画的数据分布特征，得到微调后的替代图像分类模型。

步骤二：提取敏感攻击补丁区域(详见图3)。

1.根据下游任务的分类目标，搜集不同类别的图像若干张，本实例选择的是ImageNet的图像数据集中10个典型类别(企鹅、狗、豹子、飞机、飞艇、轮船、足球、小汽车、卡车、橘子)，每个类别搜集50张图像。

2.提取类别敏感补丁区域

(1)对搜集的10类图像分别求均值，得到10张均值图像，均值图像蕴含着对应类别的特有信息。

(2)将10张均值图像分别输入到微调后的替代图像分类模型中反向传播得到对应的梯度矩阵。

(3)对梯度矩阵进行均值池化下采样，池化大小为选取的掩膜大小。

(4)对下采样后的梯度矩阵中的元素从大到小排列并选取前16个值，即为当前类别的16个关键区域。

(5)得到对应16个关键区域之后，上采样梯度矩阵至图像相同大小，并提取该16个关键区域，得到类别敏感补丁区域M₁。

3.提取实例敏感补丁区域

(1)输入希望生成对抗性样本的图像到微调后的替代图像分类模型ResNet50中，通过反向传播获取微调后的替代图像分类模型ResNet50中各个网络层的类激活映射图。

(2)构建并初始化攻击区域修正网络G(·)。

(3)将希望生成对抗性样本的图像在t₀时刻预先置为空白掩膜(记作)和最后一层的类激活映射图输入到修正网络中进行优化，得到新的掩膜/>再将该掩膜和倒数第二层的类激活映射图输入到修正网络中进行优化，得到新的掩膜/>重复直至收敛，得到实例敏感补丁区域/>

4.将步骤二中得到的类别敏感补丁区域M₁和实例敏感补丁区域M₂取并集得到待填充补丁区域。

步骤三：确定补丁纹理(详见图4)。

1.构建并初始化自适应步长生成器，该生成器是一个2层的多层感知机网络。

2.将希望生成对抗性样本的图像传入自适应步长生成器确定攻击步幅α。

3.将微调后的替代图像分类模型运用投影梯度下降(PGD)方法确定最终的补丁纹理。

步骤四：获取对抗性样本。

将待填充补丁区域和补丁纹理结合，得到对抗攻击补丁，然后将补丁覆盖在图像上，得到对抗性样本。

最终对抗攻击效果为图5所示。

实施例2

本实施例中的图像分类系统对抗性样本生成系统，包括：

多种类别图像获取模块，用于根据预设下游任务，获取i种类别的图像；每种类别均包括j张图像；i>1，j>1。

均值图像确定模块，用于将各类别的图像分别求均值，得到对应类别的均值图像。

类别敏感补丁区域确定模块，用于基于各类别的均值图像确定对应类别的类别敏感补丁区域。

目标图像获取模块，用于获取目标图像；目标图像为欲生成对抗性样本的图像。

实例敏感补丁区域确定模块，用于基于目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域；微调后的替代图像分类模型是利用ImageNet数据集对替代图像分类模型进行微调得到的。

待填充补丁区域确定模块，用于基于类别敏感补丁区域和实例敏感补丁区域确定待填充补丁区域。

补丁纹理确定模块，用于基于目标图像和微调后的替代图像分类模型，确定补丁纹理。

对抗性样本生成模块，用于基于待填充补丁区域、补丁纹理和目标图像，得到对抗性样本。

实施例3

一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行实施例1中的图像分类系统对抗性样本生成方法。

作为一种可选的实施方式，存储器为可读存储介质。

本发明生成的对抗性样本，不需要已知待攻击模型的架构和参数，可以在黑盒模型上通过微调替代图像分类模型实现较好的攻击可迁移性；且本发明提出的对抗性样本生成方法可自适应生成任意形状和大小的补丁，生成的对抗性样本难以被现有的防御手段察觉；且生成的对抗性样本可应用于数字世界和物理世界，并具有对角度和距离的鲁棒性，本发明的对抗性样本生成方法在可迁移性和综合攻击成功率上超越了之前的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像分类系统对抗性样本生成方法，其特征在于，所述方法包括：

将各类别的图像分别求均值，得到对应类别的均值图像；

基于各类别的均值图像确定对应类别的类别敏感补丁区域；

基于各类别的均值图像确定对应类别的类别敏感补丁区域，具体包括：

对于任一张均值图像：

将均值图像输入至微调后的替代图像分类模型中进行反向传播，得到梯度矩阵；

对梯度矩阵进行均值池化下采样，得到下采样后的梯度矩阵；

将下采样后的梯度矩阵中的元素按照从大到小进行排序；

对各关键区域进行上采样，得到类别敏感补丁区域；

获取目标图像；所述目标图像为欲生成对抗性样本的图像；

基于所述目标图像、微调后的替代图像分类模型和攻击区域修正网络，确定实例敏感补丁区域，具体包括：

将目标图像输入至微调后的替代图像分类模型中，并进行反向传播，确定微调后的替代图像分类模型中各网络层的类激活映射图；

初始化目标图像的掩膜为空白掩膜；

基于空白掩膜、各类激活映射图和攻击区域修正网络，得到实例敏感补丁区域；

替代图像分类模型为Resnet50；

基于所述类别敏感补丁区域和所述实例敏感补丁区域确定待填充补丁区域，具体包括：

将类别敏感补丁区域和实例敏感补丁区域取并集得到待填充补丁区域；

基于所述目标图像和所述微调后的替代图像分类模型，确定补丁纹理，具体包括：

构建并初始化自适应步长生成器；

将目标图像输入自适应步长生成器中，确定攻击步幅；

利用投影梯度下降法，基于目标图像、攻击步幅和微调后的替代图像分类模型，确定补丁纹理；

基于所述待填充补丁区域、所述补丁纹理和所述目标图像，得到对抗性样本；

基于所述待填充补丁区域、所述补丁纹理和所述目标图像，得到对抗性样本，具体包括：

将待填充补丁区域和补丁纹理结合，得到对抗攻击补丁，将对抗攻击补丁覆盖在目标图像上，得到对抗性样本。

2.根据权利要求1所述的图像分类系统对抗性样本生成方法，其特征在于，所述微调后的替代图像分类模型的微调过程，包括：

3.一种图像分类系统对抗性样本生成系统，其特征在于，所述系统包括：

对于任一张均值图像：

将下采样后的梯度矩阵中的元素按照从大到小进行排序；

对各关键区域进行上采样，得到类别敏感补丁区域；

初始化目标图像的掩膜为空白掩膜；

替代图像分类模型为Resnet50；

构建并初始化自适应步长生成器；

将目标图像输入自适应步长生成器中，确定攻击步幅；

对抗性样本生成模块，用于基于所述待填充补丁区域、所述补丁纹理和所述目标图像，得到对抗性样本；

4.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至2中任一项所述的图像分类系统对抗性样本生成方法。

5.根据权利要求4所述的一种电子设备，其特征在于，所述存储器为可读存储介质。