CN107590532A

CN107590532A - 一种基于wgan的超参数动态调整方法

Info

Publication number: CN107590532A
Application number: CN201710690207.XA
Authority: CN
Inventors: 周智恒; 李立军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2018-01-16
Anticipated expiration: 2037-08-14
Also published as: CN107590532B

Abstract

本发明公开了一种基于WGAN的超参数动态调整方法，属于深度学习神经网络领域，该超参数动态调整方法包括以下步骤：S1、构造沃瑟斯坦生成式对抗网络WGAN模型；S2、输入图像数据集，设置默认的超参数λ，对网络进行训练；S3、在第i次迭代的过程中，记录判别器的损失函数X_i；S4、在第i+1次的迭代过程中，记录判别器的损失函数为X_i+1；S5、计算X_i‑X_i+1的差值，动态调整超参数λ的数值。本方法能够解决在网络训练的过程中，由超参数引起的网络震荡问题，动态调整超参数λ，能够使判别器灵活地学习数据集中的特征，增强自身损失函数递减的稳定性，从而使整个生成对抗网络的训练效果更好。

Description

一种基于WGAN的超参数动态调整方法

技术领域

本发明涉及深度学习神经网络技术领域，具体涉及一种基于WGAN的超参数动态调整方法。

背景技术

生成式对抗网络(Generative Adversarial Network,简称GAN)是由Goodfellow在2014年提出的框架，它基于“博奕论”的思想，构造生成器(generator)和判别器(discriminator)两种模型，前者通过输入(0，1)的均匀噪声或高斯随机噪声生成图像，后者对输入的图像进行判别，确定是来自数据集的图像还是由生成器产生的图像。判别器每完成一次判断，将结果误差返回给生成器。

然而，原始的GAN模型存在着网络训练不稳定、判别器损失函数无法指示网络训练效果等问题。为此，有学者利用Wasserstein距离的思想，提出了WGAN。它与原始GAN的最大不同之处在于，将Wasserstein距离作为判别器的损失函数。这种做法的好处是，网络训练的效果能够根据判别器损失函数的大小来确定。

在标准的WGAN模型中，超参数的设置是默认不变的。它产生的缺点是判别器训练不能保持稳定，损失函数递减不具有平滑性。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提出一种基于WGAN的超参数动态调整方法，通过让判别器的损失函数以更加稳定的形式递减，从而增强整个生成式对抗网络在训练过程当中的稳定性。

本发明的目的可以通过采取如下技术方案达到：

一种基于WGAN的超参数动态调整方法，所述动态调整算法包括下列步骤：

S1、构造沃瑟斯坦生成式对抗网络WGAN模型，模型包含生成器和判别器，采用交叉熵函数与梯度惩罚结合作为判别器的损失函数；

S2、输入图像数据集，设置默认的超参数λ＝10，对DCGAN模型进行训练；

S3、在第i次迭代的过程中，记录判别器的损失函数X_i；

S4、在第i+1次的迭代过程中，记录判别器的损失函数为X_i+1；

S5、计算X_i-X_i+1的差值，动态调整λ的数值。

进一步地，所述的步骤S2具体如下：

准备好图像数据集，随机初始化生成器、判别器的卷积神经网络中所有的参数和权重，然后利用随机梯度下降的方法对参数不断进行训练、调整与更新。

进一步地，所述的步骤S3中在第i次迭代的过程中，记录判别器的损失函数X_i，具体如下：

S31、将数据集中的图像输入判别器中进行训练；

S32、记录判别器的损失函数X_i。

进一步地，所述的步骤S4中在第i+1次的迭代过程中，记录判别器的损失函数为X_i+1，过程如下：

S41、将数据集中的图像输入判别器中进行训练；

S42、记录判别器的损失函数X_i+1。

进一步地，所述的步骤S5中，计算X_i-X_i+1的差值，动态调整超参数λ的数值。具体如下

S51、计算X_i-X_i+1的差值；

S52、若差值为正，则减小λ的数值；

S53、若差值为负，则增大λ的数值。

本发明相对于现有技术具有如下的优点及效果：

1.动态性：本发明根据WGAN中判别器损失函数的构成形式，根据判别器损失函数的变化情况，动态地调整损失函数中的超参数λ，使得整个网络的训练更加灵活，具有动态性；

2.稳定性：本发明所构建的基于WGAN超参数的动态调整算法，结合了判别器损失函数的构成特点，在损失函数震荡时能够及时灵活地调整超参数λ，使得整个网络在训练的过程中能够保持更加稳定。

附图说明

图1是WGAN网络的整体结构示意图；

图2是将动态调整WGAN超参数λ的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于WGAN的超参数动态调整方法，具体包括下列步骤：

步骤S1、构造沃瑟斯坦生成式对抗网络WGAN模型，模型包含生成器和判别器，采用交叉熵函数与梯度惩罚结合作为判别器的损失函数；

步骤S2、输入图像数据集，设置默认的超参数λ，对DCGAN模型进行训练；

在WGAN中，判别器的损失函数为：

其中，D(x)表示判别器对图像的判别，pr表示数据集图像的分布，pg表示生成图像的分布，λ为超参数，为梯度。

对于判别器的损失函数而言，若超参数λ越大，则从历史数据集中的获取特征的内容越多；反之则越少。因此，根据判别器损失函数的变化情况，可以动态地调整λ的数值，从而增强整个网络在训练过程中的稳定性。

本实施例中，超参数λ示例性地设置为10。

步骤S3、在第i次迭代的过程中，记录判别器的损失函数X_i。

在WGAN中，判别器的损失函数能够反映网络训练的效果。具体而言，若判别器的损失函数越小，则说明整个网络训练的效果越好，即生成图像的质量越好；反之，若判别器的损失函数越大，则说明整个网络训练的效果越差，即生成图像的质量越差。

步骤S4、在第i+1次的迭代过程中，记录判别器的损失函数为X_i+1。

具体方法如下：

S41、将数据集中的图像输入判别器中进行训练；

S42、记录判别器的损失函数X_i+1。

步骤S5、计算X_i-X_i+1的差值，动态调整λ的数值。具体如下：

S51、计算X_i-X_i+1的差值；

S52、若差值为正，则减小λ的数值；

S53、若差值为负，则增大λ的数值。

综上所述，本实施例公开了一种基于WGAN的超参数动态调整方法，该算法在WGAN网络训练的过程中，能够根据判别器损失函数的变化情况，动态地对网络超参数λ的数值进行调整，从而能够保证判别器损失函数递减的稳定性，能够减小整个网络在训练过程当中的震荡。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于WGAN的超参数动态调整方法，其特征在于，所述的动态调整方法法包括下列步骤：

S2、输入图像数据集，设置默认的超参数λ，对DCGAN模型进行训练；

S3、在第i次迭代的过程中，记录判别器的损失函数为X_i；

S4、在第i+1次的迭代过程中，记录判别器的损失函数为Xi+1；

S5、计算X_i-X_i+1的差值，动态调整超参数λ的数值，若差值为正，则减小λ的数值；若差值为负，则增大λ的数值。

2.根据权利要求1所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的步骤S1中判别器的损失函数为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>p</mi> <mi>r</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <msub> <mi>E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>p</mi> <mi>g</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <msub> <mi>&lambda;E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>X</mi> </mrow> </msub> <msub> <mo>&dtri;</mo> <mi>x</mi> </msub> </mrow>

3.根据权利要求1所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的步骤S2具体如下：

准备好图像数据集，随机初始化生成器、判别器的卷积神经网络中所有的参数和权重，设置超参数λ，然后利用随机梯度下降的方法对参数进行训练。

4.根据权利要求1所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的步骤S3具体如下：

S31、将数据集中的图像输入判别器中进行训练；

S32、记录判别器的损失函数X_i。

5.根据权利要求1所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的步骤S4具体如下：

S41、将数据集中的图像输入判别器中进行训练；

S42、记录判别器的损失函数X_i+1。

6.根据权利要求1所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的步骤S5具体如下：

S51、计算X_i-X_i+1的差值；

S52、若差值为正，则减小λ的数值；

S53、若差值为负，则增大λ的数值。

7.根据权利要求3所述的一种基于WGAN的超参数动态调整方法，其特征在于，所述的超参数λ设置为10。