CN109409508B

CN109409508B - 一种基于生成对抗网络使用感知损失解决模型崩塌的方法

Info

Publication number: CN109409508B
Application number: CN201811310962.1A
Authority: CN
Inventors: 李孝杰; 伍贤宇; 冯诗皓; 史沧红; 罗超; 张宪; 刘书樵; 李俊良
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2022-03-15
Anticipated expiration: 2038-11-06
Also published as: CN109409508A

Abstract

本发明属于图像重建技术领域，公开了一种基于生成对抗网络使用感知损失解决模型崩塌的方法，利用随机向量z生成与实际数据分布相似的图像，在训练的过程中采用感知损失将z和真实数据映射到特征空间中来提取更高层次的特征，并结合对抗损失来鼓励生成网络产生与实际图像相似的图像样本；最后，使得鉴别器不能判断这是一个虚假图像。本发明针对已有网络采用较小的数据集解决了模型崩塌问题，VGG‑GAN在两个小场景数据集上进行评价；实验结果表明，用VGG‑GAN方法生成的图像质量优于现有方法。

Description

一种基于生成对抗网络使用感知损失解决模型崩塌的方法

技术领域

本发明属于图像重建技术领域，尤其涉及一种基于生成对抗网络使用感知损失解决模型崩塌的方法。具体涉及一种基于生成对抗网络使用感知损失解决模型崩塌的方法VGG-GAN。

背景技术

目前，业内常用的现有技术是这样的：

传统生成对抗网络GAN有生成器网络和鉴别器网络组成。训练GAN使生成器网络和鉴别器网络相互竞争达到最优的过程，即达到纳什均衡。然而，目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡。该问题是一个高维非凸优化目标。网络试图在下一步中最小化非凸优化目标，这最终可能导致振荡，而不是收敛到底层的真实目标。只要一个生成器和鉴别器不再改变，任何一方不会进一步改进。从梯度下降开始，选择一个可微的损失函数，并最小化它。

GAN应用广泛，但存在训练不稳定、梯度消失、模型崩溃等问题。例如，当GAN训练不稳定时，实验的结果会很差，即使训练增加训练的时间也不会让最终的结果改进。众所周知，最优的D旨在最大化真实数据分布与生成的样本分布之间的Jensen-Shannon(JS)偏差。理论上，高维空间中两个分布之间的JS距离的最大概率是常数。当优化的目标是常数时，对于最优鉴别器，生成器不能得到任何的梯度信息。即使对于接近最优的鉴别器，生成器也有很大的可能来面对梯度消失的问题。模型崩溃被称为GAN网络中最重要的失败模式。生成器重复产生完全相同的图像，本发明称之为模式崩溃。一般来说，现实世界的数据分布是高度复杂和多模态的。数据描述的概率分布具有多重性。由不同的子组样本集中。生成器崩塌到一个非常狭窄的分布，并导致生成的样本不再改变。这显然违反了GAN的本质。

此外，模式崩塌的严重程度因完全崩塌而不同。在现实中，生成的样本几乎是相同的部分崩塌(大多数样本都具有一些共同属性)。为了解决图像生成中的模型崩塌问题，基于GAN框架提出了使用权重削减的新算法WGAN。WGAN采用大型场景LSUN卧室数据集(数量为3033042)来表现出色的视觉效果，证明了该方法的有效性。

综上所述，现有技术存在的问题是：

(1)目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡；

(2)GAN应用广泛，但存在训练不稳定、梯度消失、模型崩溃等问题，实验的结果会很差，即使训练增加训练的时间也不会让最终的结果改进；

(3)现有技术中，使用大场景数据集(例如LSUN，CelebA)，并且最终结果呈现良好的视觉效果。然而，当训练数据是一个小场景数据集时，实验结果会产生模式崩塌；导致了生成样本失去多样性。

解决上述技术问题的意义：

本发明的VGG-GAN有两个优点：

第一，解决了在小场景数据集下的模式崩溃问题，保证生成样本的多样性。

第二，VGG-GAN网络收敛速度快，并且稳定。

发明内容

针对现有技术存在的问题，本发明提供了一种基于生成对抗网络使用感知损失解决模型崩塌的方法。

本发明是这样实现的，一种基于生成对抗网络使用感知损失解决模型崩塌的方法，包括以下步骤：

输入待训练的图像I；

将待训练图像I转为m×m的图像块集合，图像块用I^data表示。

随机产生满足高斯分布或均匀分布的噪声z；

将噪声z输入到生成器G中进行训练；

将生成器G输出的结果I^z和I^data一同输入到鉴别器D中；

生成器和鉴别器不断更新学习，直到达到纳什平衡，生成类似于真实图像的样本图像。

进一步，所述将随机噪声z输入到生成器G中进行训练，包括以下步骤：

对z做全连接处理。

然后reshape成512个特征映射的高维张量。

输出的特征图经过四个大小为5*5反卷积处理，随后归一化处理，再经过ReLU激活函数。

输出生成的图像。

进一步，所述将生成器G输出的结果I^z和I^data一同输入到鉴别器D中，包括以下步骤：

经过四次大小为5*5的卷积核，对图像做卷积处理；随后归一化处理，再经过LeakyReLU激活函数。

将得到的结果构造一个全连接隐藏层得到一维的数组，进行非线性激活输出结果，判断图像是来自生成器I^z还是图像块I^data。

本发明的另一目的在于提供一种实现任意一项所述基于生成对抗网络使用感知损失解决模型崩塌的方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于生成对抗网络使用感知损失解决模型崩塌的方法。

本发明的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的基于生成对抗网络使用感知损失解决模型崩塌控制系统。

本发明的另一目的在于提供一种实现所述基于生成对抗网络使用感知损失解决模型崩塌的方法的生成器网络平台。

综上所述，本发明的优点及积极效果为：

本发明基本解决了小型场景数据集下的模式崩塌问题。保证了生成的样本的多样性，并且使得生成样本的分布更容易接近真实数据的分布。使生成器网络快速收敛，证明了训练的稳定性。

如图3所示，本发明与现有的最先进方法在训练时网络的收敛对比图。对比方法从上到下依次是DCGAN，LSGAN，WGAN，WGAN-GP和VGG-GAN。可以观察到DCGAN在生成网络中的损失不仅没有下降的趋势，而且还在不断增加。它也使得鉴别器的损失出现振荡，不能准确判断真实数据或生成样本。LSGAN的生成网络和鉴别网络在训练时发生了振荡，也出现中度模型崩溃。此外，LSGAN的收敛速度也很慢。WGAN的生成网络及其判别网络损失收敛网络趋于正常，但速度慢于的VGG-GAN，导致最终生成的样本没有VGG-GAN清晰。20个epoch以后出现小振荡，但不影响结果。WGAN GP中生成网络与判别网络一开始出现较高的损失值。随着训练的进行，损失不断减少。但是在训练结束后，没有达到最佳效果，结果不理想。VGG-GAN训练时网络收敛比其他方法更快。最后，本发明的方法可以生成感知真实感图像。

本发明在基于GAN的图像生成中解决了模型崩塌的问题，并且表现出了良好的视觉效果。实验结果表明，明显优于目前最先进的方法。

附图说明

图1是本发明实施例提供的基于生成对抗网络使用感知损失解决模型崩塌的方法流程图。

图2是本发明实施例提供的图2为VGG-GAN网络在Cartoon数据集上生成图像的视觉对比图。

图3是本发明实施例提供的图3为VGG-GAN网络与现有的最先进方法在训练时网络的收敛对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明确，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前并没有一个明确的方法来确定GAN网络是否已经进入纳什平衡；GAN应用广泛，但存在训练不稳定、梯度消失、模型崩溃等问题，实验的结果会很差，即使增加训练的时间也不会让最终的结果改进。

下面结合具体分析对本发明作详细的进一步描述。

如图1所示，本发明实施例提供的基于生成对抗网络使用感知损失解决模型崩塌的方法，包括以下步骤：

(1)输入训练数据集I。

(2)利用VGG-GAN结构生成新的图像。

a.将图像I转成大小为64×64的图像块集合，每一块用I^data。

b.随机产生满足正太分布或高斯分布的噪声z，数据形式为64*100。

(3)将z输入到生成器G中进行训练。

c.对z作全连接处理，输出为64*8192。

d.然后reshape成512个特征映射的高维张量。

e.用大小为5×5，步长为2的反卷积，每个卷积层的输出归一化处理再经过

ReLU激活函数，ReLU函数如下表示：

f(x)＝max(0，x) (1)

当输入信号小于0时，输出为0，当输入信号大于0时，输出等于输入。ReLU的收敛速度大于其它激活函数的收敛速度。ReLU只需要一个阈值来获得激活值，并且计算复杂度较低。

f.经过4个反卷积操作以后，生成器输出结果I^z。

生成网络的损失函数为：

G_loss＝G_adv+G_VGG (2)

其中G_adv表示对抗损失，G_VGG表示高维均方误差(high level mean squareerror)。具体公式如下：

其中，x和y表示I^z和I^data对应的像素点。

(4)将生成网络的输出结果I^z和训练数据I^data一起输入到鉴别网络。

f.用大小为5×5，步长为2的卷积进行特征提取。

每次卷积操作以后，经过一个归一化处理进入LeakyReLU激活函数。卷积操作包括3个卷积。鉴别网络D总共24个epoch迭代，生成网络同样多次迭代。LeakyReLU激活函数是Relu的改进版本，引入负的非零梯度，其数学表达式为：

其中，a_i是1到正无穷区间内的固定参数，x_i是输入，y_i是输出结果。g.构造一个全连接隐藏层，将数组返回一个一维的数组，一共有64*1。h.输入最后的结果，判断图像是来自生成器I^z还是图像块I^data。

鉴别网络损失函数为：

下面结合具体实验对本发明作进一步描述。

如图2所示，本发明的方法与最先进的几种方法在Cartoon数据集上视觉效果对比。

本发明对比的方法从上到下依次是DCGAN，LSGAN，WGAN，WGAN-GP和VGG-GAN，使用同一种Cartoon数据集在相同的训练时间进行对比。可以观察到，DCGAN和LSGAN的方法出现了模型崩塌，WGAN的收敛速度和VGG-GAN相比较慢，WGAN和DCGAN，LSGAN在训练的时候都不太稳定。只有本发明提出的方法VGG-GAN没有出现模型坍塌，收敛速度快并且稳定。

如图3所示，本发明与现有的最先进方法在训练时网络的收敛对比图。

对比方法从上到下依次是DCGAN，LSGAN，WGAN，WGAN-GP和VGG-GAN。可以观察到DCGAN在生成网络中的损失不仅没有下降的趋势，而且还在不断增加。它也使得鉴别器的损失出现振荡，不能准确判断真实数据或生成样本。LSGAN的生成网络和鉴别网络在训练时发生了振荡，也出现中度模型崩溃。此外，LSGAN的收敛速度也很慢。WGAN的生成网络及其判别网络损失收敛网络趋于正常，但速度慢于的VGG-GAN，导致最终生成的样本没有VGG-GAN清晰。20个epoch以后出现小振荡，但不影响结果。WGAN GP中生成网络与判别网络一开始出现较高的损失值。随着训练的进行，损失不断减少。但是在训练结束后，没有达到最佳效果，结果不理想。VGG-GAN训练时网络收敛比其他方法更快。最后，本发明的方法可以生成感知真实感图像。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络使用感知损失解决模型崩塌的方法，其特征在于，所述基于生成对抗网络使用感知损失解决模型崩塌的方法包括以下步骤：

输入待训练的图像I；

将待训练图像I转为m×m的图像块集合，图像块用I^data表示；

随机产生满足高斯分布或均匀分布的噪声z；

将噪声z输入到生成器G中进行训练；

将生成器G输出的结果I^z和I^data一同输入到鉴别器D中；

生成器和鉴别器不断更新学习，直到达到纳什平衡，生成类似于真实图像的样本图像；

所述将随机噪声z输入到生成器G中进行训练，包括以下步骤：

对z做全连接处理；

然后reshape成512个特征映射的高维张量；

输出的特征图经过四个大小为5*5反卷积处理，随后归一化处理，再经过ReLU激活函数；

输出生成的图像；

所述将随机噪声z输入到生成器G中进行训练，具体包括：

1)对z作全连接处理，输出为64*8192；

2)然后reshape成512个特征映射的高维张量；

3)用大小为5×5，步长为2的反卷积，每个卷积层的输出归一化处理再经过ReLU激活函数，ReLU函数如下表示：

f(x)＝max(0，x)

当输入信号小于0时，输出为0，当输入信号大于0时，输出等于输入；ReLU的收敛速度大于其它激活函数的收敛速度；ReLU只需要一个阈值获得激活值；

4)经过4个反卷积操作以后，生成器输出结果I^z；

生成网络的损失函数为：

G_loss＝G_adv+G_VGG

其中G_adv表示对抗损失，G_VGG表示高维均方误差；具体公式如下：

其中，x和y表示I^z和I^data对应的像素点。

2.如权利要求1所述的基于生成对抗网络使用感知损失解决模型崩塌的方法，其特征在于，所述将生成器G输出的结果I^z和I^data一同输入到鉴别器D中，包括以下步骤：

经过四次大小为5*5的卷积核，对图像做卷积处理；随后归一化处理，再经过LeakyReLU激活函数；

3.如权利要求2所述的基于生成对抗网络使用感知损失解决模型崩塌的方法，其特征在于，所述将生成器G输出的结果I^z和I^data一同输入到鉴别器D中，具体包括：

a)用大小为5×5，步长为2的卷积进行特征提取；

b)每次卷积操作以后，经过一个归一化处理进入LeakyReLU激活函数；卷积操作包括3个卷积；鉴别网络D总共24个epoch迭代，生成网络同样多次迭代；LeakyReLU激活函数是Relu的改进版本，引入负的非零梯度，数学表达式为：

其中，a_i是1到正无穷区间内的固定参数，x_i是输入，y_i是输出结果；

c)构造一个全连接隐藏层，将数组返回一个一维的数组，共有64*1；

d)输入最后的结果，判断图像是来自生成器I^z还是图像块I^data；

鉴别网络损失函数为：

4.一种实现权利要求1～3任意一项所述基于生成对抗网络使用感知损失解决模型崩塌的方法的信息数据处理终端。

5.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的基于生成对抗网络使用感知损失解决模型崩塌的方法。

6.一种实现权利要求1所述基于生成对抗网络使用感知损失解决模型崩塌的方法的基于生成对抗网络使用感知损失解决模型崩塌控制系统。

7.一种实现权利要求1所述基于生成对抗网络使用感知损失解决模型崩塌的方法的生成器网络平台。