CN113344814A

CN113344814A - 一种基于生成机制的高分辨率对抗样本的合成方法

Info

Publication number: CN113344814A
Application number: CN202110621340.6A
Authority: CN
Inventors: 李志伟; 方贤进; 杨高明
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-03

Abstract

本发明涉及深度学习计算机视觉领域，具体的是一种基于生成机制的高分辨率对抗样本的合成方法，包括以下步骤：首先使用数据增强技术对高分辨率的数据集进行预处理，来获得复杂的数据分布以减少生成对抗网络在训练时出现过拟合现象；接着使用特征提取模型来提取输入的深层特征；然后结合主成分分析(PCA)和基于核函数的主成分分析(KPCA)方法，在保持原始输入96％以上的特征的同时将输入映射到噪声矢量；最后将上述特征和噪声矢量作为生成对抗网络生成器的输入进行训练，进而合成具有高分辨率的对抗样本。本发明实现了在高分辨率图像上产生更自然的扰动；提升了在复杂深度学习模型上的攻击成功率；合成了具有较好迁移性的强语义关联对抗样本。

Description

一种基于生成机制的高分辨率对抗样本的合成方法

技术领域

本发明涉及深度学习计算机视觉领域，具体的是一种基于生成机制的高分辨率对抗样本的合成方法。

背景技术

深度神经网络的最新成就使得计算机视觉、语音识别、自然语言处理、和Web挖掘等领域取得了重大突破。然而Szegedy等人提出对抗样本的概念，通过在原始良性输入图片的像素上添加人类难以感知的微小扰动，可以诱导深度学习模型将输入示例错误分类为其他类别，从而导致性能显著降低。Nguyen等人提出，深度学习模型可以高置信度地对人类无法识别的某些实例进行分类，这意味着深度学习模型非常脆弱。随着对抗样本这一概念的提出，围绕生成对抗样本的算法开始大量涌现，并且出现了各种各样的流派。这种现象对于深度学习的攻击和防御方面都具有重大的实际意义。其中攻击策略可分为以下几类：

1、基于敏感度分析，对抗攻击使用敏感度分析(一种用于确定每个输入特征对输出的贡献的算法)来发现敏感特征并对其进行干扰。在这一类别中具有代表性的算法，例如FGSM，JSMA和PGD。通常，这些攻击比基于优化的攻击要快也更直接，因此，它们更适合被整合到深度学习模型的训练过程中并提高其鲁棒性；

2、基于优化，攻击者使用优化算法来搜索解决方案，替代形式或约束。一些有代表性的算法是L-BFGS，DeepFool，C&W等。尽管基于灵敏度分析的攻击更为普遍，但这些都需要对受攻击系统有全面的了解。与基于灵敏度分析的方法相比，基于优化的攻击在黑盒方案中使用更多；

3、基于生成机制，使用生成模型学习对抗扰动的概率分布，并将其用于采样新的对抗样本。一个有代表性的生成模型是生成对抗网络(GAN)，它不同于上面基于优化和基于敏感性分析的方法。一旦生成器学习了输入示例的分布，就可以在短时间内产生大量的对抗扰动。一些典型的算法是AdvGAN，Natural GAN，Rob-GAN等。

值得注意的是，由于数据量大，所需的计算资源高，之前基于生成机制算法合成对抗样本是使用小型和简单的数据集(例如MNIST，CIFAR-10和Tiny-ImageNet(64像素))进行训练的。这导致生成的对抗样本可视化效果不佳。此外通过增加迭代次数或调整相关的超参数，会使得训练模型在小规模数据集上出现过拟合。这会导致生成的对抗样本在白盒攻击下会表现出良好的性能，但当对抗样本被转移到其他模型进行测试时，性能表现就会较差。因此一种基于生成机制的高分辨率对抗样本的合成方法来解决上述问题，并且通过高分辨率对抗样本来发现深度学习模型中的盲点来提升整个模型的鲁棒性尤其重要。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种基于生成机制的高分辨率对抗样本的合成方法。

本发明的目的可以通过以下技术方案实现：

一种基于生成机制的高分辨率对抗样本的合成方法，所述合成方法包括以下步骤：

步骤1、选取大规模高分辨率数据集，并且对选取的数据集X进行图片增强，生成增强数据X′；

步骤2、使用VGG19作为特征提取函数F_x()对输入x′(x′∈X′)进行特征提取；

步骤3、使用主成分分析(PCA)的线性降维方法将x′映射到相应的噪声矢量z；

步骤4、使用基于核函数的主成分分析(KPCA)的非线性降维方法将x′映射到相应的噪声矢量z；

步骤5、将x′的深层特征F_x(x′)和噪声矢量z(结合成串联矢量)作为生成对抗网络生成器G的输入进行训练，并生成针对输入的特定对抗扰动δ_x′＝G(z|F_x(x′))；

步骤6、将增强数据集中的输入x′与相应的对抗扰动δ_x′进行叠加，合成对抗样本x^*＝x′+δ_x′；

步骤7、计算生成对抗网络训练过程的损失L_GAN；欺骗目标模型F_t()的损失L_adv；量级限制后的扰动损失L_pert。

进一步地，所述步骤1针对数据集使用图片数据增强，分别从图片的内在属性、图片的表现形式、图片的形状三个方面进行，具体步骤如下：

步骤1.1、

色度转化：图片的每个像素值在(-3，3)范围内随机相加，饱和度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘，亮度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘；

步骤1.2、

镜面翻转：将图片的左右顺序交换，图像旋转：将图片沿着顺时针方向在(-15，15)角度范围内旋转；

步骤1.3、

随机填充：将图片边缘区域的像素值随机使用空白来替代。

进一步地，所述步骤2使用预训练VGG19作为特征提取函数F_x()，预训练模型在验证对抗样本在不同模型间的迁移性时减少训练开销，16个卷积层和3个全连接层提取更多的输入特征且提升整个方法的泛化性能；通过对输入x’进行降维映射，组合图片的不同属性得到新的属性，改变原始的特征空间。

进一步地，所述步骤3使用主成分分析(PCA)的线性降维方法将x’映射到相应的噪声矢量z；PCA在输入x’所在的坐标系下，变化数据点的方差沿新的坐标轴得到最大化，利用输入集X′统计性质的特征空间变换，在无损或较少损失输入的情况下将图片特征映射为z。

进一步地，所述步骤4使用基于核函数的主成分分析(KPCA)的非线性降维方法将x′映射到相应的噪声矢量z；KPCA采用非线性映射把将输入集X′由数据空间映射到特征空间，增强了非线性数据的处理能力，在无损或较少损失输入的情况下将图片特征映射为z。

进一步地，所述步骤6将增强数据集中的输入x′与相应的对抗扰动δ_x′进行叠加，合成对抗样本x^*＝x′+δ_x′；设置输入x′的融合比例为100％，对抗扰动δ_x′的融合比例为15％，防饱和参数为-10。

进一步地，所述步骤7的具体步骤如下：

步骤7.1、

GAN损失L_GAN：方法使用均方误差(MSE)损失来检测预测标签与真实标签之间的偏差；将生成对抗网络(GAN)训练分为训练鉴别器D和训练生成器G两个过程；对于鉴别器D，最大化区分输入实例是原始图像还是生成图像的概率，在训练过程应使原始图像的损失最小化，生成图像的损失最大化；在优化损失函数时，将错误的样本标签设置为“0”，真正的样本标签设置为“1”；对于生成器，和成的对抗样本要尽可能欺骗判别器，最小化其损失函数；

步骤7.2、

对抗损失L_adv：方法使用的目标模型F_t()为预训练ResNet152结构，使用MSE计算目标模型的预测类别不同于x′真实类别的损失；

步骤7.3、

扰动损失L_pere：扰动的大小对于使输出类似于原始图像至关重要，方法使用L₂范数和L_∞范数结合的技巧来限制生成扰动的量级。

本发明的有益效果：

1、本发明可以实现在大规模数据集上生成扰动，从而合成高分辨率对抗样本，较之前基于生成机制的方法相比，在提升攻击成功率的同时能够降低合成单个对抗样本的时间；

2、本发明合成的高分辨率对抗样本与原始输入间有强语义关联性，且在图像可视化效果和迁移性方面表现良好；

3、本发明为今后使用GAN合成高分辨率对抗样本应用到黑盒攻击上奠定基础，也为今后研究人员在大规模数据集上合成对抗样本的方式提供选择。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明合成方法的步骤流程框图；

图2是本发明合成方法的训练框架示意图；

图3是本发明提出的数据集进行数据增强的流程图；

图4是本发明提出的目标函数损失训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种基于生成机制的高分辨率对抗样本的合成方法，包括以下步骤：

步骤1针对数据集使用图片数据增强，分别从图片的内在属性、图片的表现形式、图片的形状三个方面进行，具体步骤如下：

步骤1.1、色度转化：图片的每个像素值在(-3，3)范围内随机相加，饱和度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘，亮度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘；

步骤1.2、镜面翻转：将图片的左右顺序交换，图像旋转：将图片沿着顺时针方向在(-15，15)角度范围内旋转；

步骤1.3、随机填充：将图片边缘区域的像素值随机使用空白来替代。

步骤2使用预训练VGG19作为特征提取函数F_x()，预训练模型在验证对抗样本在不同模型间的迁移性时可以减少训练开销，16个卷积层和3个全连接层可以提取更多的输入特征且提升整个方法的泛化性能；通过对输入x′进行降维映射，组合图片的不同属性得到新的属性，改变原始的特征空间。

步骤3使用主成分分析(PCA)的线性降维方法将x′映射到相应的噪声矢量z；PCA在输入x′所在的坐标系下，变化数据点的方差沿新的坐标轴得到最大化，利用输入集X′统计性质的特征空间变换，在无损或较少损失输入的情况下将图片特征映射为z。

步骤4使用基于核函数的主成分分析(KPCA)的非线性降维方法将x′映射到相应的噪声矢量z；KPCA采用非线性映射把将输入集X′由数据空间映射到特征空间，增强了非线性数据的处理能力，在无损或较少损失输入的情况下将图片特征映射为z。

步骤6将增强数据集中的输入x′与相应的对抗扰动δ_x′进行叠加，合成对抗样本x^*＝x′+δ_x′；设置输入x′的融合比例为100％，对抗扰动δ_x′的融合比例为15％，防饱和参数为-10。

步骤7、计算生成对抗网络训练过程的损失L_GAN；欺骗目标模型F_t()的损失L_adv；量级限制后的扰动损失L_pert，具体步骤如下：

步骤7.1、GAN损失L_GAN：方法使用均方误差(MSE)损失来检测预测标签与真实标签之间的偏差；将生成对抗网络(GAN)训练分为训练鉴别器D和训练生成器G两个过程；对于鉴别器D，最大化区分输入实例是原始图像还是生成图像的概率，在训练过程应使原始图像的损失最小化，生成图像的损失最大化；在优化损失函数时，将错误的样本标签设置为“0”，真正的样本标签设置为“1”；对于生成器，和成的对抗样本要尽可能欺骗判别器，最小化其损失函数；

步骤7.2、对抗损失L_adv：方法使用的目标模型F_t()为预训练ResNet152结构，使用MSE计算目标模型的预测类别不同于x′真实类别的损失；

步骤7.3、扰动损失L_pert：扰动的大小对于使输出类似于原始图像至关重要，方法使用L₂范数和L_∞范数结合的技巧来限制生成扰动的量级。

在本实施例中，对于给定的分类器f，它可以将x∈X分类成真实标签y^true＝f_θ(x)；对抗攻击的目的是训练模型以生成对抗样本x^*＝x+δ_x，这些对抗样本会被f标识为其他标签y^pred，其中δ_x是微小且人为察觉的扰动添加到原始图像。

在本实施例中，δ_x＝G(z|x)，其中G是生成器。要优化的目标如下：

f_θ(x+δ_x)＝y^pred≠y^true (1)

s.t.

在公式(1)中，使得对抗样本x^*尽可能与x相似，并且∈是允许的最大||·||_p扰动量级。最常用的是L₀，L₂和L_∞距离，每个距离都有重要的数学定义。其中L₀表示原始图像和对抗样本之间像素点不同的个数，L₂表示测量原始图像与对抗样本之间的标准欧几里得距离，L_∞表示对抗性示例中不可感知的扰动的最大值。本发明通过研究对抗样本可以发现深度学习模型中的盲点，从而提升整个模型的鲁棒性。

图1表示基于生成机制的高分辨率对抗样本合成方法的步骤流程图，图2表示基于生成机制的高分辨率对抗样本合成方法的训练框架，包括数据增强技术，降维映射方法，特征提取函数，目标模型，生成器G和判别器D。实施例的实验环境为：CPU：Xeon Gold 6139，RAM：96GRAM，GPU：Tesla V100 16G，PyTorch框架。整个框架的训练过程分为以下步骤：

T1、数据预处理，本发明使用数据集ImageNet，LSUN和CIFAR-10，防止模型过拟合的有效方法是数据增强，如图3所示，分别从图片的内在属性、图片的表现形式、图片的形状三个方面进行，色度转化：图片的每个像素值在(-3，3)范围内随机相加，饱和度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘，亮度转化：图片的每个像素值在(0.95，1.05)范围内随机相乘；镜面翻转：将图片的左右顺序交换，图像旋转：将图片沿着顺时针方向在(-15，15)角度范围内旋转；随机填充：将图片边缘区域的像素值随机使用空白来替代。通过图像数据增强，来获得更复杂的数据分布。本发明基于生成机制来合成对抗样本，复杂的数据分布优点是可以使模型更健壮，并具有良好的泛化性能。

T2、网络结构的训练，本发明基于生成机制合成高分辨率对抗样本的方法网络结构如图2所示。由特征提取函数F_x，生成器G，鉴别器D和目标函数F_t组成。给定原始输入集X，通过G生成对抗性扰动δ_x′，将该扰动限制在一定数量级上。而后扰动与x′拼接以合成对抗样本x^*。合成的高分辨率对抗样本可能欺骗判别器D，在无目标攻击中被目标函数F_t误分类。在训练阶段，在得到数据增强后的数据集后，使用VGG19作为特征提取函数来对输入x′进行特征提取，无需遵循编码器-解码器基础结构，减少了训练和推理开销。在生成对抗扰动前，使用PCA的线性降维方法和KPCA的非线性降维方法将x′映射到相应的噪声矢量z，生成与原始输入具有强语义相关性和更自然的对抗图像。G将x′的特征F(x′)和噪声矢量z(作为串联矢量)进行训练生成对抗扰动δ_x′。在PyTorch框架下使用OpenCV工具库下的AddWeighted(src1，double alpha，src2，double beta，double gamma)函数；设置src1为输入x′，doublealpha为1.00，src2为对抗扰动δ_x′，double beta为0.15，融合比例为15％，double gamma为-10，合成相应的高分辨率对抗样本为x^*＝x′+δ_x′。

T3、损失函数的训练，本发明基于生成机制合成高分辨率对抗样本方法的损失训练过程如图4所示；训练数据增强损失：经增强数据后得到的图像的分布有些与原始图像不同。计算变换后的图像和原始图像的分布在模型上的交叉熵作为数据增强损失。交叉熵损失描述的是两个概率分布之间的距离；当原始图像与数据增强后图像分布间的交叉熵在训练过程中达到收敛，使用增强后的图像来生成对抗扰动。

这个过程可分为两个主要步骤：

(1)、计算两个分布在特征提取上的交叉熵损失模型；

(2)、计算目标模型的损失。

当整个训练过程达到收敛时，通过损失函数的变化来确定训练过程相关参数；在CIFAR-10上，优化器选择Adam，学习率设为0.001，批大小为300，训练epoch为60，学习衰减的epoch为30，损失函数对应的权重α和β分别为0.1，0.05；在ImageNet上，优化器选择Adam，学习率设为0.001，批大小为128，训练epoch为50，学习衰减的epoch为35，损失函数对应的权重α和β分别为0.1，0.02；在LSUN上，优化器选择Adam，学习率设为0.001，批大小为64，训练epoch为40，学习衰减的epoch为30，损失函数对应的权重α和β分别为0.25，0.05；

训练GAN损失，本发明使用均方误差(MSE)损失来检测预测标签与真实标签之间的偏差。将GAN训练分为两个过程：训练鉴别器D和训练生成器G；对于鉴别器D，期望D最大化区分输入实例是原始图像还是生成图像的概率。因此训练过程应使原始图像的损失最小化，生成图像的损失最大化。在优化损失函数时，将合成样本标签设置为“0”，将原始样本标签设置为“1”。因此训练判别器D以最大化下式：

L_{D_fake}＝E_z[(D(G(z|F_x(x′))+x′)-0)²] (3)

并最小化：

L_{D_real}＝E_x′[(D(x′)-1)²] (4)

对于生成器G生成的样本尽可能欺骗判别器，在训练G时，将其损失函数最小化：

L_G＝E_z[D((G(z|F_x(x′))+x′)-1)²] (5)

GAN的总损失如下：

L_GAN＝L_{D_real}-L_{D_fake}+L_G (6)

训练对抗损失，在无目标攻击中，欺骗目标模型F_t的损失为：

L_adv＝E_x′，z[F_t(G(z|F_x(x′))+x′，l′] (7)

其中l’是不同于x′的真实标签l的任何类别。

训练扰动损失，扰动的大小对于使输出类似于原始图像至关重要。在等式(2)中，Lp用于测量x′与x^*之间的距离(或相似度)，p的通常选择为[0，2，∞]。L₀表示原始图像和对抗样本之间像素点不同的个数，L₂测量原始图像与对抗样本之间的标准欧几里得距离，L_∞表示对抗性示例中不可感知的扰动的最大值。本发明将L₂和L_∞结合在一起，生成更好感知质量的图片。扰动损失如下：

L_pert＝λ₁*E_x′[||x^*-x′||₂]+λ₂*E_x′[||x^*-x′||_∞] (8)

s.t.λ₁+λ₂＝1 (9)

综上，本发明方法的目标是最小化以下目标函数：

L＝L_GAN+α*L_adv+β*L_pert (10)

其中α和β是相应损失函数对应的权重。

T4、结构参数确定，本发明基于生成机制合成高分辨率对抗样本方法使用pix2pix的训练方式。对于特征提取模型，使用预训练的VGG19，对于目标模型，使用ResNet152。这里选择的模型具有两个特征：更深的模型深度和预训练。更深的模型可以提取更多的输入特征，并提高整个网络的泛化性能。预训练模型在验证对抗样本在不同模型之间的迁移性时可以减少训练开销。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述合成方法包括以下步骤：

步骤4、使用基于核函数的主成分分析(KPCA)的非线性降维方法将x’映射到相应的噪声矢量z；

步骤5、将x’的深层特征F_x(x′)和噪声矢量z(结合成串联矢量)作为生成对抗网络生成器G的输入进行训练，并生成针对输入的特定对抗扰动δ_x′＝G(z|F_x(x′))；

2.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤1针对数据集使用图片数据增强，分别从图片的内在属性、图片的表现形式、图片的形状三个方面进行，具体步骤如下：

步骤1.1、

步骤1.2、

步骤1.3、

随机填充：将图片边缘区域的像素值随机使用空白来替代。

3.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤2使用预训练VGG19作为特征提取函数F_x()，预训练模型在验证对抗样本在不同模型间的迁移性时减少训练开销，16个卷积层和3个全连接层提取更多的输入特征且提升整个方法的泛化性能；通过对输入x’进行降维映射，组合图片的不同属性得到新的属性，改变原始的特征空间。

4.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤3使用主成分分析(PCA)的线性降维方法将x’映射到相应的噪声矢量z；PCA在输入x’所在的坐标系下，变化数据点的方差沿新的坐标轴得到最大化，利用输入集X′统计性质的特征空间变换，在无损或较少损失输入的情况下将图片特征映射为z。

5.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤4使用基于核函数的主成分分析(KPCA)的非线性降维方法将x′映射到相应的噪声矢量z；KPCA采用非线性映射把将输入集X′由数据空间映射到特征空间，增强了非线性数据的处理能力，在无损或较少损失输入的情况下将图片特征映射为z。

6.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤6将增强数据集中的输入x′与相应的对抗扰动δ_x′进行叠加，合成对抗样本x^*＝x′+δ_x′；设置输入x′的融合比例为100％，对抗扰动δ_x′的融合比例为15％，防饱和参数为-10。

7.根据权利要求1所述的一种基于生成机制的高分辨率对抗样本的合成方法，其特征在于，所述步骤7的具体步骤如下：

步骤7.1、

步骤7.2、

步骤7.3、

扰动损失L_pert：扰动的大小对于使输出类似于原始图像至关重要，方法使用L₂范数和L_∞范数结合的技巧来限制生成扰动的量级。