CN108665058A

CN108665058A - 一种基于分段损失的生成对抗网络方法

Info

Publication number: CN108665058A
Application number: CN201810321286.1A
Authority: CN
Inventors: 姜代红; 刘其开; 黄轲
Original assignee: Xuzhou University of Technology
Current assignee: Xuzhou University of Technology
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-10-16
Anticipated expiration: 2038-04-11
Also published as: CN108665058B

Abstract

一种基于分段损失的生成对抗网络方法，步骤如下：1、参数初始化：设批大小m＝100，超参数k＝1，用Xavier方法进行参数初始化，确定最大迭代次数和损失切换迭代次数参数T，令迭代次数epoch＝0；2、训练判别器参数：令i＝1，i为循环变量；3、训练生成器参数；epoch＝epoch+1，判断epoch是否大于最大迭代次数，如小于最大迭代次数，则重复步骤2和3，如满足，则训练结束。该方法能实现生成器在不同的训练阶段采用不同形式的损失函数，一定程度上弥补了单一损失形式下GAN理论的不足，使网络训练更加稳定；通过引入真实样本与生成样本之间特征级损失，使判别器提取的特征更加鲁棒。

Description

一种基于分段损失的生成对抗网络方法

技术领域

本发明属于深度学习神经网络技术领域，具体是一种基于分段损失的生成对抗网络方法。

背景技术

生成对抗网络(Generative Adversarial Network,简称GAN)是由Goodfellow在2014年提出的无监督深度学习框架，借鉴“博弈论”的思想，构造了两个玩家：生成器(generator)和判别器(discriminator)，前者通过输入参数为(0，1)的均匀噪声或高斯随机噪声来生成图像，后者对输入的图像进行判别，判断输入是来自数据集的图像还是由生成器生成的图像。判别器将判断的结果反馈给生成器，使其朝着真实数据的分布进行优化。

近几年，生成对抗网络在图像生成和半监督学习上应用广泛。但理论上依然存在不足，原始GAN模型难以把握生成器与判别器的同步更新，导致模型训练不稳定以及模式崩溃的现象，从而导致判别器提取的特征鲁棒性较差。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于分段损失的生成对抗网络方法，该方法能避免常规生成对抗网络在单一形式损失下出现的训练不稳定以及模式崩溃现象，从而解决判别器提取的特征较差的问题；该方法能实现生成器在不同的训练时期采用不同形式的损失函数，通过使生成器引入真实样本与生成样本之间特征级损失，使网络训练更加稳定，判别器提取的特征更加鲁棒。

为了实现上述目的，算法主要分为以下几个步骤：

步骤1：参数初始化：批大小m＝100，即每一次参数更新时所需的样本数；设超参数k＝1，即训练判别器k次才训练生成器1次；对数损失和特征损失权重分别为α＝β＝0.5；用Xavier方法进行参数初始化；根据数据集确定最大迭代次数和损失切换迭代次数参数T；令迭代次数epoch＝0；

步骤2：训练判别器参数：令i＝1，变量i是一个循环变量；

(1)抽取m个来自噪声分布P_noise(z)的随机样本{z⁽¹⁾,z⁽²⁾……z^(m)}，抽取m个来自真实样本分布的无标签样本{x⁽¹⁾,x⁽²⁾……x^(m)}，抽取m个来自真实样本分布的带标签的样本{(x_l ⁽¹⁾,y⁽¹⁾)，(x_l ⁽²⁾,y⁽²⁾)……(x_l ^(m),y^(m))}；

(2)计算判别器的无监督损失C_unsup：

(3)计算判别器的监督损失C_sup：

(4)通过Adam优化算法更新判别器的参数：

(5)判断循环变量是否等于参数k，若小于k则重复步骤2，直至满足条件为止；若等于k，则转至下一步；

步骤3：训练生成器参数：

(1)抽取m个来自噪声分布P_noise(z)的随机样本{z⁽¹⁾,z⁽²⁾……z^(m)}，抽取m个来自真实样本分布的无标签样本{x⁽¹⁾,x⁽²⁾……x^(m)}；

(2)计算生成器的特征级损失V_feature(x,z)：

(3)计算时间参数w(t)：w(t)＝exp[-10*(1-t)²]，t等于当前epoch与转换切换次数参数T的比值；

(4)计算生成器的对数损失V_log(z)：

(5)通过Adam优化算法更新生成器的参数：

步骤4:epoch＝epoch+1；判断epoch是否大于最大迭代次数，如小于最大迭代次数，则重复步骤2和步骤3，如满足，则训练结束。

本发明针对生成对抗网络模型训练不稳定以及模式崩溃的问题，提出了基于分段损失的生成对抗网络。通过引入时间参数来改变生成器与判别器的训练过程，使衡量生成分布与真实分布之间差异的JS散度能够更好发挥良性作用；对生成器引入真实样本与生成样本之间的特征级损失，使训练过程更加稳定，一定程度上能够改善模型的模式崩溃现象，同时判别器提取到的特征更加鲁棒。模型在半监督图像分类上有较好的表现，其分类精度与其他算法相比有一定的优势。

附图说明

图1是PL-GAN的计算流程；

图2是GAN半监督分类的示意流程；

图3是输入的真实样本的示意图；

图4是feature-wise GAN下的生成样本；

图5是是regular GAN的生成样本；

图6是PL-GAN生成的样本；

图7是PL-GAN与regular GAN以及feature-wise GAN在训练过程中的损失变化趋势对比图；

图8是PL-GAN在mnist数据集测试对比结果；

图9是PL-GAN在cifar10数据集测试对比结果。

具体实施方式

机器学习算法以训练样本有无标签，可以分为带标签的监督学习和不带标签的无监督学习。由于监督学习的标签数据获取的成本很高，无监督学习算法表现不足，因此半监督学习(semi-supervised learning，SSL)成为研究学者重要的一个研究方向。SSL利用海量的无标签样本和少量标签样本能够学习具有鲁棒性的特征，在图像分类方面有着较好的表现。Lee等提出了一种对无标签数据的伪标签来帮助模型训练的高效方法。Rasmus等人提出了基于自动编码器的阶梯网络，编码器用于监督学习，解码器的每一层与编码器一一对应，形成阶梯，用于无监督学习训练。

近年来，深度生成模型(Deep generative models，DGMs)与生成对抗网络(GAN)在半监督学习上有着良好的表现。Springenberg等提出的Cat-GAN在判别器中引进适当的目标函数来权衡输入样本与对应预测类别的互信息，通过最大化生成数据类别的条件交叉熵来训练分类器。Odena和Salimans等将判别器的二分类的概率输出扩展到N+1类别概率输出，真实样本对应的N个类加上生成样本类别。Li等提出了triple GAN，通过引入额外的分类器，改善了GAN在半监督学习上的生成器和判别器在训练时无法同时达到最优的问题且生成器能够学习到样本的语义特征。文献中提到可以利用无标签数据对GAN的判别器进行预训练，用少量有标签数据对判别器进行微调，再用于分类任务。

GAN在训练过程中会出现不稳定以及模式崩溃的问题，Arjovsky等从理论分析了其原因，当生成样本分布与真实样本分布之间的支撑集没有重叠或可忽略的重叠部分为0时，生成器的损失梯度近似常数。常规GAN采用衡量两者分布差异的JS散度受限于分布之间支撑集没有重叠。于是作者提出了Wesserstein-GAN(W-GAN)，通过满足一定约束条件下神经网络逼近函数来近似度量两者分布的距离。Che等提出了模态正则化的GAN，通过设计一系列的相似度量方法对判别器进行约束，提供更加稳定的梯度来训练生成器。Metz等针对模式崩溃的问题，提出了基于梯度损失的Unrolled GAN，通过计算二阶梯度来指示生成器一阶梯度变化的方向。

针对上述问题，本申请提出一种基于分段损失的生成对抗网络(Piecewise-LossGenerative Adversarial Networks，PL-GAN)，通过引入时间参数，使生成器在不同的训练阶段采用不同的损失函数，JS散度就可以发挥良性作用。为了给生成器提供足够的梯度，本申请额外引入了生成样本和真实样本在特征空间的均方差损失，从而PL-GAN不仅有效改善了生成器梯度消失的问题，而且在半监督学习方面有着不俗的表现。

GAN可以理解为两个玩家相互博弈的二人游戏，即生成器(Generator，G)和判别器(Discriminator，D)之间的“零和游戏”。G的输入是噪声变量z，目的是拟合真实样本的数据分布，输出生成样本G(z)。D来判断输入的样本是来自真实样本还是生成样本，输出输入的样本来自真实样本的概率D(x)。因此判别器D的优化目标对输入为真实样本的概率尽可能为1，输入为生成样本的概率尽可能为0。生成器G的优化目的是最大化判别器D给出错误判断的概率，最终的优化目的是寻找两者之间的一个纳什均衡。其优化过程是一个极大极小的一个对抗过程，其目标函数为V(D,G)：

其中，p_data(x)表示的是真实样本的分布，p_noise(z)表示的是输入噪声分布。

GAN的优化目标是通过双玩家游戏策略隐式地训练一个逼近真实样本的生成器p_g(z)＝G_θ(z)，常规GAN判别器D的目的是尽可能判别出真实样本与生成样本的真伪，其损失函数为:

生成器G的损失函数有以下两种形式：

当p_data(x)＝p_g(x)时，最优判别器表示为：

最优判别器下，式(5)代入式(1)得生成器第一种损失函数形式为：

式(6)代入D^*(x)后，引入衡量相似度的两个指标KL散度和JS散度。

则最优判别器下G第一种损失函数形式最终为：

即在最优判别器下，最小化生成器的损失等价为最小化生成样本与真实样本之间的JS散度。但Arjovsky等证明了在第一种损失函数形式下，JS散度衡量分布差异的前提是两者的分布要有所重叠或有不可忽略的重叠，否则JS散度将会是一个常数。但网络初始化后的生成样本分布很难与真实样本分布有不可忽略的重叠。

同样，由式(6)和式(7)可得G的第二种形式的损失函数如下：

由于后两项不依赖于G，最终最小化式(4)等价于最小化

该目标形式一方面要求最小化生成分布与真实分布的KL散度，另一方面又要求最大化两者的JS散度，优化目标相互矛盾。且KL(p_g||p_data)不是一个对称的度量，KL(p_g||p_data)不等于KL(p_data||p_g)，当p_data与p_g的取值相对改变时，KL散度也会变化，这就迫使生成器生成大量重复且置信度较高的样本，导致了模式崩溃。

WGAN作者针对生成器第一种损失函数存在的缺点，提出了对生成样本和真实样本加噪声的方法，使得原本的两个低维流形弥散到整个高维的空间，迫使它们产生不可忽略的重叠，而一旦存在重叠，JS散度就能真正发挥作用，梯度消失的问题便得到了解决，随着训练的进行，再进行噪声退火，JS散度照样能发挥作用，继续产生有意义的梯度把两个低维流形拉近，直到完全重合。

本文借鉴了噪声退火的思想，通过引入时间参数w(t)＝exp[-10*(1-t)²]，来控制GAN在不同的训练阶段采用不同形式的损失。训练的前期以第二种损失函数方式为主，随着训练的进行，真实样本和生成样本就能够有所重叠，训练进行到某一阶段，再切换到以第一种损失方式为主，此时JS散度就可以发挥良性作用，从而避免生成器梯度消失和模式崩溃。同时为了给生成器提供足够的梯度，本文引入生成样本和真实样本之间特征级的均方差损失。最终生成器的损失函数如下：

其中D_f(*)表示判别器特征层的输出。

有关PL-GAN的计算流程如图1所示，考虑到GAN的监督损失，假设标准的分类器输出是N维向量logits＝{l₁,l₂,…,l_N}，N为样本的类别数。则用softmax计算输出的概率为：

将生成样本所属的类别定义为第N+1类，则来自生成样本的概率可表示为P_model(y＝N+1|x)，对应常规GAN的1-D(x)。假设判别器的训练样本一半来自真实样本，另一半来自生成样本，则D的损失函数可表示为：

其中，真实样本由带标签样本和不带标签样本组成。由带标签样本参与的监督损失为：

由不带标签的真实样本和生成样本参与的无监督对抗损失为：

令D(x)＝1-P_model(y＝N+1|x)，则

如何计算监督损失和无监督对抗损失成为问题的关键。从最终的优化目标的角度分析，存在一个未知的映射函数f(x)，使p(y＝j,x)＝f(x)·exp[l_j(x)]，且p_G(x)＝f(x)·exp[l_N+1(x)]成立。由于判别器输出维度为N+1的概率向量是过参数化的，假设l_N+1(x)＝0，则不会改变判别器softmax概率值。此时，GAN监督损失变为标准的分类器的监督损失，输出为其中，有关GAN半监督图像分类示意流程如图2所示，其中，标签样本为D贡献监督损失，无标签样本为D贡献无监督损失。

本发明提供了一种基于分段损失的生成对抗网络方法，包括以下步骤：

步骤2：训练判别器参数：令i＝1，变量i是一个循环变量；

(2)计算判别器的无监督损失C_unsup：

(3)计算判别器的监督损失C_sup：

(4)通过Adam优化算法更新判别器的参数：

步骤3：训练生成器参数：

(2)计算生成器的特征级损失V_feature(x,z)：

(3)计算时间参数w(t)：w(t)＝exp[-10*(1-t)2]，t等于当前epoch与转换切换次数参数T的比值；

(4)计算生成器的对数损失V_log(z)：

(5)通过Adam优化算法更新生成器的参数：

基于分段损失的生成对抗网络半监督分类算法步骤如表1所示。设超参数k＝1，即训练判别器k次才训练生成器1次；对数损失和特征级均方差损失权重分别为：α＝β＝0.5；用Xavier方法进行参数初始化。

表1 PL-GAN的参数设置及算法步骤

实验结果与分析

1实验数据集

为了验证本文方法的表现，采用两个数据集MNIST、CIFAR-10进行相关的实验。MNIST是深度学习领域常见的手写字体数据集，共十类(数字0～9)，每类包含单通道的6000个训练样本和1000个测试样本。CIFAR-10包含着6万张包括10类的三通道样本，每类有5000个训练样本和1000个测试样本。

2网络参数分析

基于theano深度学习框架上进行实验对比，在单块GPU型号为GTX980上运行，对于生成器的损失函数来说，损失切换迭代次数参数switch epoch以及学习率衰减策略非常重要，直接影响着生成图像的质量以及稳定性，从而影响判别器的好坏。关于每个数据集中对应的switch epoch与learning rate参数的设置如下表2所示。

表2参数设置

3实验对比分析

1)MNIST数据集

本实验的模型框架主要是由多层感知机组成，实验的评价标准一方面是生成样本的质量，另一方面是半监督分类的精度。对比的算法主要是常规GAN(regular GAN)，其生成器的损失为对数损失特征级损失GAN(feature-wise GAN)，其生成器的损失仅仅是特征级均方差损失PL-GAN在常规GAN的基础上改变了对数损失的形式且引入了特征级损失，然后经过加权，作为PL-GAN的生成器损失。

如图3至6所示，其中图3表示的是真实样本的输入，图4表示的是feature-wiseGAN下的生成样本，图5表示的是regularGAN的生成样本，图6表示的是PL-GAN生成的样本；与feature-wise GAN相比，PL-GAN生成的样本质量较好，与regular GAN相比，PL-GAN生成的样本虽然质量上稍差，但多样性明显好于前者。即改善了常规的GAN模式崩溃的问题。

如图7所示是PL-GAN与regular GAN以及feature-wise GAN在训练过程中的损失变化趋势对比图。其中对生成器的损失而言，PL-GAN相比feature-wise GAN损失下降得更加稳定；与regular GAN相比，PL-GAN损失的变化呈现逐渐下降的趋势，而不是趋近于一个常数。对判别器的损失而言，PL-GAN的变化趋势相比regular GAN较好，与feature-wiseGAN相当。在保证模型的结构框架相同的情况下，当标签样本为100时，比较半监督分类性能。分类对比结果如图8所示，PL-GAN相比regular GAN分类错误率较低，相比feature-wiseGAN，分类性能虽基本接近，但收敛性更好。

表3 MNIST测试错误率对比(labels＝100)

同样设标签样本为100，与传统的半监督学习算法，如基于深度生成模型算法的ADGM、M1+M2、基于虚拟对抗网络VAT、CatGAN等方法比较，PL-GAN有较好的表现。比较结果如表3所示。

为了加速模型的训练速度，在判别器结构中，加入了weightNormalization正则化，有关PL-GAN模型的参数配置如表4所示。

表4 MNIST数据集网络参数配置

2)c i far 10数据集

本实验的模型框架主要是以DCGAN的框架为基准，训练之前采用ZCA白化对数据集进行预处理，初始基准学习率设为0.0003，为了加速模型的训练和防止模型的过拟合，模型中加入weight normalization和dropout策略。关于网络模型参数的配置如表5所示。

表5 CIFAR10网络参数配置

在保证模型的结构框架相同的情况下，当标签样本为4000时，半监督分类对比结果如图9所示，PL-GAN相比regular GAN分类错误率较低，相比feature-wise GAN，分类性能虽基本接近，但收敛性更好。

表6不同模型生成样本的IS值

与其他传统的半监督分类算法相比，设同样设带标签的训练样本为4000，对比结果如表7所示，PL-GAN有较好的表现，优于大部分传统算法。

表7 CIFAR10测试错误率对比结果(labels＝4000)

Claims

1.一种基于分段损失的生成对抗网络方法，其特征在于，包括以下步骤：

步骤2：训练判别器参数：令i＝1，变量i是一个循环变量；

(2)计算判别器的无监督损失C_unsup：

(3)计算判别器的监督损失C_sup：

(4)通过Adam优化算法更新判别器的参数：

步骤3：训练生成器参数：

(2)计算生成器的特征级损失V_feature(x,z)：

(4)计算生成器的对数损失V_log(z)：

(5)通过Adam优化算法更新生成器的参数：