CN113537467A

CN113537467A - 一种基于wgan-gp的对抗扰动图像生成方法

Info

Publication number: CN113537467A
Application number: CN202110799668.7A
Authority: CN
Inventors: 蒋凌云; 吴梦雪; 季一木; 孙静; 田鹏浩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-22
Anticipated expiration: 2041-07-15
Also published as: CN113537467B

Abstract

本发明是一种基于WGAN‑GP的对抗扰动图像生成方法。该方法包括如下步骤：利用特征提取器从目标网络模型中获取其中一个卷积层的特征向量，并将其作为先验信息；生成器将原始图像的特征向量和噪声向量作为级联向量输入到生成器后生成对抗扰动图像；判别器判断生成器生成的对抗扰动图像的类别是否符合训练集中的类别描述信息；目标神经网络模型利用误判损失函数来指导生成器生成的对抗扰动图像的类别更接近目标标签的类别。本发明提升了生成对抗扰动图像的隐蔽性和图像质量，利用目标网络模型的特征提取器，使GAN网络生成器从学习原始图像的特征转换为学习目标特征，以减少训练开销和提高对抗成功率。

Description

一种基于WGAN-GP的对抗扰动图像生成方法

技术领域

本发明属于计算机图形处理技术和人工智能技术领域，具体的说是涉及一种基于WGAN-GP的对抗扰动图像生成方法。

背景技术

随着深度学习领域的不断发展以及计算机性能的快速提高，计算机视觉领域的发展取得了巨大的成功，而在计算机视觉领域中，卷积神经网络更是其主要的代表技术之一，并且已经在图像识别、定位、视频跟踪和视频分割等领域得到了广泛的应用。

虽然研究者已经提出多种应用于数字世界的对抗方法，但多数对抗方法都属于白盒对抗方法，如FGSM对抗方法和C&W对抗方法。而白盒对抗方法有一个严重的弊端：研究者需要在已知训练数据集的前提下，拥有访问网络模型的架构、参数的权限才可进行对抗操作。因此，近几年研究者又提出了多种基于半白盒环境下的对抗方法，其中Xiao等人提出的AdvGAN对抗方法是经典的半白盒对抗方法之一。AdvGAN实现半白盒对抗的原理是，在AdvGAN中的前馈网络训练完成后，可为任何输入的对抗目标产生对应的对抗扰动图像，而不需要再访问模型本身，从而实现半白盒对抗效果。然而，在AdvGAN网络中，采用了LSGAN来训练生成器和判别器，而LSGAN的缺陷在于它并没有解决当判别器足够优秀时生成器发生梯度弥散的问题，并且相较于WGAN-GP生成的图像质量较差。其次，AdvGAN未能利用目标网络模型中卷积层提供的特征信息作为先验信息，而该先验信息最近被Sinha等人证明更容易受到对抗扰动的影响。

发明内容

为了达到上述目，本发明提供了一种基于WGAN-GP的对抗扰动图像生成方法，该方法基于一种半白盒环境下的对抗方法，通过前馈网络训练完成后，可为任何输入的对抗目标产生对应的对抗扰动图像，而不需要再访问模型本身，从而实现半白盒对抗效果。包括如下步骤：利用特征提取器从目标网络模型中获取其中一个卷积层的特征向量，并将其作为先验信息；生成器将原始图像的特征向量和噪声向量作为级联向量输入到生成器后生成对抗扰动图像；判别器判断生成器生成的对抗扰动图像的类别是否符合训练集中的类别描述信息；目标神经网络模型利用误判损失函数来指导生成器生成的对抗扰动图像的类别更接近目标标签的类别。

具体包括如下步骤：

步骤1：参数初始化：设置训练步长n、噪声分布T和训练集P；

步骤2：小批量采样噪声分布和数据集样本：从噪声分布T中取m个噪声扰动{z₁，z₂，...，z_m}进行小批量采样，从训练集P中取m个原始图像{x₁，x₂，...，x_m}进行小批量采样；

步骤3：提取原始图像特征向量：利用目标网络模型M的特征提取器f来提取每个原始图像的特征向量，并获取m张原始图像中的特征向量{f(x₁)，f(x₂)，...，f(x_m)}，使GAN网络生成器从学习原始图像的特征转换为学习目标特征，以减少训练开销和提高对抗成功率；

步骤4：训练判别网络：在目标损失函数L_WGAN-GP基础上，通过提升随机梯度来训练判别器；

步骤5：小批量采样噪声分布：从噪声分布T中再取m个噪声扰动{z1，z2，...，zm}进行小批量采样；

步骤6：训练生成网络：结合目标损失函数L_WGAN-GP、误判损失函数L_adv和约束对抗扰动生成幅度损失函数L_norm，通过降低随机梯度来训练生成器；

步骤7：迭代步数：根据设置的迭代步数，反复的进行步骤2-步骤6的步骤直至到达终止条件，最终获取到一个可为任何输入的对抗目标产生对应的对抗扰动图像，而不需要再访问模型本身的前馈网络。

本发明的有益效果是：本发明中提出的方法实现了半白盒对抗效果；利用WGAN-GP目标损失函数以解决GAN在训练时生成器存在梯度弥散的问题，且提升了生成对抗扰动图像的隐蔽性和图像质量；利用目标网络模型的特征提取器，使GAN网络生成器从学习原始图像的特征转换为学习目标特征，以减少训练开销和提高对抗成功率。

附图说明

图1是基于WGAN-GP的对抗扰动图像生成方法架构图。

图2是生成对抗扰动图像算法伪代码。

图3是生成对抗扰动图像流程图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明是一种基于WGAN-GP的对抗扰动图像生成方法，利用特征提取器从目标网络模型中获取其中一个卷积层的特征向量，并将其作为先验信息；生成器将原始图像的特征向量和噪声向量作为级联向量输入到生成器后生成对抗扰动图像；判别器判断生成器生成的对抗扰动图像的类别是否符合训练集中的类别描述信息；目标神经网络模型利用误判损失函数来指导生成器生成的对抗扰动图像的类别更接近目标标签的类别。

对原始损失函数进行改进，包括如下两点：

(1)训练阶段中，其采用了WGAN-GP目标损失函数L_WGAN-GP

由于传统的基于GAN的对抗扰动图像生成方法存在训练时生成器存在梯度弥散和生成的图像质量较差的问题，因此我们采用了WGAN-GP目标损失函数L_WGAN-GP来替代原始的目标损失函数。L_WGAN-GP目标损失函数主要采用了梯度惩罚方法来取代权重剪枝方法。其原理是，通过在原WGAN目标损失函数基础上添加一个梯度惩罚约束函数，来强制判别器网络满足一阶利普希茨函数约束，即判别器的梯度值尽可能不大于一个设置的常数值，从而解决训练时生成器存在梯度弥散问题。

(2)在训练生成器阶段中，利用了目标网络模型的特征提取器

本发明基于目前经典的LeNet与ResNet目标网络模型和MNIST手写字数据集与CIFAR10彩色图像数据集来进行对抗测试。我们在训练生成器过程中，利用了目标网络模型的特征提取器来获取卷积层提供的特征信息，并将其作为先验信息。引入了该特征提取器使GAN网络生成器从学习原始图像的特征转换为学习目标特征，以减少训练开销和提高对抗成功率。

本方法具体的执行过程如下：

步骤1：参数初始化

设置训练步长n、噪声分布T和训练集P。

步骤2：采样噪声分布和数据集样本

从噪声分布T中取m个噪声扰动{z₁，z₂，...，z_m}进行小批量采样，从训练集P中取m个原始图像{x₁，x₂，...，x_m}进行小批量采样；

步骤3：提取原始图像特征向量

在训练生成器过程中，利用特征提取器从目标网络模型中获取其中一个卷积层的特征向量，并将其作为先验信息，特征向量计算的表达式为：

f_extract(x)＝f_l(f_l-1(...(f₂(f₁(x；W₁,b₁)；W₂,b₂)))...；W_l,b_l) (1)。

步骤4：训练判别器

GAN在训练过程中，GAN通过最大化目标损失函数的方式来提高判别器的误判概率，因此在目标损失函数L_WGAN-GP基础上，通过提升随机梯度来训练判别器。

目标损失函数L_WGAN-GP计算的表达式为：

式(2)中，D(x)表示判别器判断x类别标签是否属于训练集P中的类别信息，E表示期望值表达式。

步骤6：训练生成器

GAN在训练过程中，GAN通过最小化的方式来减少原始图像和生成图像之间的距离，因此在目标损失函数L_WGAN-GP基础上，通过降低随机梯度来训练生成器。而本方法针对的对抗样本生成策略，因此还引入了误判损失函数L_adv和约束对抗扰动生成幅度损失函数L_norm来进一步提高GAN网络中生成器的对抗性能。

为了使目标网络模型M对生成的对抗扰动图像G(t|f(x))产生误分类的效果，本章方法采用误判损失函数L_adv来实现。

所述误判损失函数L_adv的计算表达式为：

式(3)中，l_M表示用于训练原始模型的交叉熵损失函数，c表示目标类别；

在有指向目标对抗中，L_adv使用最小化对抗扰动图像G(t|f(x))属于其他类别c的softmax概率方法，达到目标网络模型M误分类的目的；

在无指向目标对抗中，L_adv使用最大化对抗扰动图像G(t|f(x))的概率与真实值(Ground Truth)概率之间的距离方法，达到目标网络模型M检测失效的目的。

本方法通过最小化对抗扰动图像G(t|f(x))和原始图像x之间的L2损失函数来约束对抗扰动的生成幅度，所述约束对抗扰动生成幅度损失函数L_norm的计算表达式为：

L_norm＝E_x||x-G(t|f(x))||₂ (4)。

步骤7：设置训练迭代步数、生成对抗样本：本发明设置的迭代步数为2000步，反复的进行步骤2-步骤6的步骤直至到达终止条件，从而获取到一个训练好的前馈网络。将要对抗的数据集输入至训练好的前馈网络，可为任何输入的对抗目标产生对应的对抗扰动图像，而不需要再访问模型本身，从而实现半白盒对抗效果。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于WGAN-GP的对抗扰动图像生成方法，其特征在于：所述生成方法包括如下步骤：

步骤1：参数初始化：设置训练步长n、噪声分布T和训练集P；

步骤2：采样噪声分布和数据集样本：从噪声分布T中取m个噪声扰动{z₁，z₂，...，z_m}进行小批量采样，从训练集P中取m个原始图像{x₁，x₂，...，x_m}进行小批量采样；

步骤3：提取原始图像特征向量：利用目标网络模型M的特征提取器f来提取每个原始图像的特征向量，并获取m张原始图像中的特征向量{f(x₁)，f(x₂)，...，f(x_m)}，使GAN网络生成器从学习原始图像的特征转换为学习目标特征；

2.根据权利要求1所述一种基于WGAN-GP的对抗扰动图像生成方法，其特征在于：目标损失函数L_WGAN-GP计算的表达式为：

3.根据权利要求1所述一种基于WGAN-GP的对抗扰动图像生成方法，其特征在于：所述误判损失函数L_adv的计算表达式为：

在无指向目标对抗中，L_adv使用最大化对抗扰动图像G(t|f(x))的概率与真实值概率之间的距离方法，达到目标网络模型M检测失效的目的。

4.根据权利要求1所述一种基于WGAN-GP的对抗扰动图像生成方法，其特征在于：所述约束对抗扰动生成幅度损失函数L_norm的计算表达式为：

L_norm＝E_x||x-G(t|f(x))||₂ (4)。

5.根据权利要求1所述一种基于WGAN-GP的对抗扰动图像生成方法，其特征在于：所述步骤3中所述图像特征向量的表达式为：