CN108711138B

CN108711138B - 一种基于生成对抗网络的灰度图片彩色化方法

Info

Publication number: CN108711138B
Application number: CN201810571538.6A
Authority: CN
Inventors: 解凯; 何翊卿; 何南南; 李天聪; 李桐
Original assignee: Beijing Institute of Graphic Communication
Current assignee: Beijing Institute of Graphic Communication
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2022-02-11
Anticipated expiration: 2038-06-06
Also published as: CN108711138A

Abstract

一种基于生成对抗网络的灰度图片彩色化方法，结合DiscoGAN、Progressive Growing GAN、Wasserstein GAN和CGAN生成对抗网络，包括步骤如下：首先要收集和整理图片样本，并将样本分成两组，一组是N张灰度图片，另一组是N张彩色图片。然后，对本生成对抗网络的架构进行设计以期训练后的网络可以生成高分辨率、高质量图片。接着，将样本传入生成对抗网络开始训练，待生成对抗网络训练稳定后，使用PGGAN对生成图像的分辨率进行提升。在本网络中加入WGAN‑PG可以对原生成对抗网络进行改进，解决梯度不稳定和模式崩溃问题，并改善生成对抗网络优化的过程。最后，本网络中加入了CGAN的描述限制功能，它可以根据描述条件生成具有指定风格的图片。

Description

一种基于生成对抗网络的灰度图片彩色化方法

技术领域

本发明涉及一种结合DiscoGAN，PGGAN，CGAN和WGAN的灰度图片彩色化方法，属于深度学习和图像生成技术领域。

背景技术

随着计算机硬件和神经网络领域的发展，人工智能逐渐得到了人们的重视，也在人们生活中发挥着越来越重要的作用。深度学习源于神经网络的发展，其概念由Hinton 等人于2006年提出，其目的是为了模拟人脑进行分析和解释数据。人们希望通过深度学习找到一个深层次的神经网络模型，这个模型可以表示在人工智能应用中遇到的各种数据之中的概率分布，这些应用包括图像处理、自然语言处理等。到目前为止，深度学习中最令人瞩目的成就之一就是判别模型，它可以接收一个高纬度输入并将其转化为一个分类标签。

深度学习可以分为有监督学习、半监督学习和无监督学习等几类。生成对抗网络就是一种典型的、非常有发展前景的无监督学习，其本质是一个“对抗”的过程，它是由 IanGoodfellow等人于2014年10月提出的一种通过对抗过程估计生成模型的神经网络模型。但是原始的生成对抗网络训练不稳定，生成器面临着梯度消失的问题，还经常出现模型崩溃问题(mode collapse)。这种情况一直持续到两年后WGAN的提出后才得以解决，WGAN中引入了Wasserstein距离，它相对KLD和JSD更加平滑，可以解决梯度消失(vanishing gradient)问题，并且提供了一个可靠的训练指标。

条件生成对抗网络(Conditional GAN)是紧接着原始生成对抗网络被提出来的，它背后的思想十分简单，就是给原始网络提供一些“暗示(hint)”来提醒它应该生成什么样的输出，这样原始的生成过程变成基于某些额外信息的生成。这个额外的“暗示”是直接拼接在原来输入上实现的，操作十分简单。

人类可以轻松地发现不同域数据之间的关系，但是对于机器来说，想要学习这个关系是非常有挑战性的，有时可能还需要专门制造一些成对的不同域数据传给机器来学习。为了解决这个问题，Taeksoo Kim等人发表了一篇名为Learning to Discover Cross-Domain Relations with Generative Adversarial Networks的论文，其中提出了跨域生成对抗网络(DiscoGAN)的概念。跨域生成对抗网络改变了原始生成对抗网络架构，在其中设置了双路生成对抗机制，并且在每一路中加入了重建过程。它可以通过接收无需配对的样本来发现不同域样本之间的关系。

如今灰度图片彩色化的过程大多是借助Photoshop或其他图像美化软件来完成的，方法是用色相和饱和度给某个区域单独着色，然后需要用户手动调整色相、饱和度以及明亮三个参数并且观察预览图直到用户觉得满意为止，有时对于特定图片甚至需要创建模板进行上色。对那些不熟悉Photoshop的人群来说这样的操作是十分复杂的，而且图像容易丢失细节。

发明内容

为了解决上述问题，本发明提出了一种基于生成对抗网络的灰度图片彩色化方法，该方法使用深度学习的方法来对灰度图片进行彩色化，大大简化了操作步骤，并且加入了描述条件限制的技术，使生成图片可以带有指定风格，增加了生成图片的多样性；生成对抗网络虽然需要使用大量的样本和时间来进行训练，但是在训练完成之后只要花费很短的时间便可以完成灰度图片彩色化的过程，操作简单方便，有很高的实用价值；不仅如此，本网络不仅可以完成灰度图片彩色化这个工作，还可以将彩色图片转化为灰度图片。

本发明的技术解决方案：首先使用神经网络发现跨域关系，基于跨域生成对抗网络 (DiscoGAN)架构建立生成对抗网络，然后将使用Wasserstein距离的生成对抗网络(WGAN)、渐进生成对抗网络(Progressive growing GAN)、条件生成对抗网络(CGAN) 的特性改进跨域生成对抗网络，采用独特的生成对抗网络架构产生彩色图片并进一步生成具有风格化的图片。本发明提供基于生成对抗网络的灰度图片彩色化方法，包括如下步骤：

(1.1)收集样本图片，并制作两个样本集，第一个样本集中存放了N张灰度图片，第二个样本集中存放了N张彩色图片；

(1.2)借助Pytorch深度学习库建立改进的生成对抗网络的架构；基于跨域生成对抗网络(DiscoGAN)架构建立生成对抗网络，并将Wasserstein生成对抗网络(WGAN)、渐进生成对抗网络(Progressive growing GAN)、条件生成对抗网络(CGAN)的特性加入到跨域生成对抗网络(DiscoGAN)中，形成改进的生成对抗网络；

(1.3)选择适当的损失函数用于计算重建损失、生成损失和判别损失，并选择适当的优化函数用于在反向传播过程中更新生成对抗网络的参数；

(1.4)使用标准高斯分布对整个生成对抗网络的参数进行初始化，并且在每个周期都会对生成对抗网络的权重做归一化，从而起到了均衡学习率的作用；

(1.5)训练生成对抗网络：其本质是一个“对抗”的过程，

首先固定生成器参数不变，训练判别器，其步骤如下：

(1.5.1)从灰度图片样本集中随机取m个样本{x¹，x²，……，x^m}，标记为X；从彩色图片样本集中随机取m个样本{z¹，z²，……，z^m}，标记为Z；

(1.5.2)将标记为X的样本集中的样本xⁱ作为输入传给生成器，生成一组新的、伪造的样本{y¹，y²，……，y^m}，标记为Y；

(1.5.3)将标记为Y的样本集中的样本yⁱ和标记为Z的样本集中的样本zⁱ分别传入判别器，通过实际输出与目标输出计算出生成对抗网络的判别网络的判别损失，反向传播这个判别损失并且更新判别器参数θ_d，更新过程用公式表示为：

θ_d←θ_d+η▽V(θ_d)

其中D表示判别器，η表示超参数中的学习率，▽V(θ_d)表示判别器参数的梯度；

(1.5.4)将步骤1.5.3计算出的判别损失与预设阈值进行比较，如果大于预设阈值则重复步骤1.5.1-1.5.3这个过程，否则视为当前阶段判别器训练完成，然后固定判别器参数不变，训练生成器，其步骤如下：

(1.5.5)从灰度图片样本集中随机取m个样本，{x¹，x²，……，x^m}，标记为X；

(1.5.6)将标记为X的样本集中的样本xⁱ作为输入传给生成器，生成一组新的、伪造的样本{y¹，y²，……，y^m}，标记为Y；

(1.5.7)将标记为Y的样本集中的样本yⁱ传入判别器，用实际输出与目标输出计算出网络的生成损失，然后反向传播这个损失并且更新生成器参数θ_g，更新过程用公式表示为：

θ_g←θ_g-η▽V(θ_g)

其中D表示判别器，G表示生成器，η表示超参数中的学习率，▽V(θ_g)表示生成器参数的梯度。

首先使用神经网络发现跨域关系，基于跨域生成对抗网络(DiscoGAN)架构建立生成对抗网络步骤如下：

(1)搜集两组图片作为样本传入本神经网络，其中一组是N张灰度图片，另一组是N张彩色名画，图片分辨率应当较高，以便提供足够的细节来生成高分辨率的图像。

(2)建立两个生成器模型G_A和G_B以及两个判别器模型D_A和D_B。G_A是一个用数学定义的关系来表示B域元素到A域的映射，同理我们定义了G_B。

(3)先训练判别器D_A和D_B，这个过程中要求固定生成器G_A和G_B的参数，生成一组伪造的图片。将真实的图片和生成的图片输入到判别器中，然后训练它正确地判断数据的真实性。判别器在接收一幅图片后给出一个0～1之间的分数，图片真实性越高，判别器给出的分数越接近1。

(4)然后训练生成器G_A和G_B，生成器在计算损失的时候比原始生成对抗网络复杂，因为它需要计算生成损失和重建损失。具体做法是：固定判别器D_A和D_B的参数，然后将两组图片传入生成器中生成伪造图片，之后将真实图片和生成图片传给相应判别器打分并且计算生成损失L_GEN。向本神经网络输入一张真实图片，传入两个生成器之后可以对其进行重建，对比重建图片和原始图片就可以得到重建损失L_CONST。那么生成器总损失就是L_G＝L_GA+L_GB＝L_GANB+L_CONSTA+L_GANA+L_CONSTB，将这个损失反向传播并且更新生成器参数，直到判别器会给生成器伪造的图片一个高的分数。

(5)重复(3)和(4)的步骤，直到网络训练完成。

本发明通过对上述跨域生成对抗网络架构建立的生成对抗网络进行改进，将Wasserstein生成对抗网络的特性加入到该跨域生成对抗网络中，WGAN中的Wasserstein距离，是一个平滑的距离，使用它的好处在于即使两个分布之间没有交集，依然衡量可以他们之间的远近，加入WGAN包括如下步骤：

(2.1)基于跨域生成对抗网络将生成网络分为生成网络G_A和G_B，将判别网络分为判别网络D_A和D_B，训练中需要将灰度图片和彩色图片分别传入生成网络：生成过程是将样本集中的原图x_A传入生成网络G_B生成具有样本集B特征的图片x_AB，之后将x_AB传入生成网络G_A形成生成图片x_ABA，用公式表示为：

x_AB＝G_B(x_A)

x_ABA＝G_A(x_AB)＝G_AοG_B(x_A)

这是一个重建的过程，生成图片x_ABA理论上应该和原图x_A是相同的，但实际上，重建的过程中原图x_A的一些信息可能会丢失，因此，在先G_A后G_B组合或是先G_B后G_A组合的双路生成网络中，使用一个损失函数来计算原图和重建图片之间的差距，即重建损失L_CONST，用公式表示为：

其中

表示样本集A中图片的重建损失，

表示样本集B中图片的重建损失，d表示均方误差(mean square error，MSE)距离，用于计算生成图片和原图片之间的差距，也可以用余弦距离或铰链损失函数来计算，并且用x_A表示原图A；计算生成损失，生成损失用于衡量生成网络输出的图片AB和样本集B中图片之间的差距，该差距是使用WGAN中的Wasserstein距离计算的，它的数值越小生成图片越真实；

计算判别损失，判别损失用于反映判别网络学习到的真实样本分布和生成网络产生的生成样本之间的差距，该差距是使用WGAN中的Wasserstein距离计算的，它的数值越大判别器鉴别能力越强；Wasserstein距离是一个平滑的距离，使用它的好处在于即使两个分布之间没有交集，依然衡量可以他们之间的远近。

(2.2)使用不基于动量的RMS Prop作为优化函数来训练生成对抗网络，并且将学习率设为0.001，权重衰减系数设为0.999；训练过程中分辨率逐渐增加，批量大小也随之减小，这是为了防止出现内存不足的问题，因此特别设计了一个批量计算器，用于动态调整批量大小；本生成对抗网络中，除最后的卷积层使用线性激活函数外，其余卷积层都使用SeLU作为其非线性层；本生成对抗网络会在每个全连接层和非线性层之间加入一个权重初始化层，这里使用的是像素归一化层；本生成对抗网络向生成器添加了上采样层并且向判别器添加了下采样层。

使用WGAN提出的方法改进本发明，解决了模式崩溃问题，并且持续地提供的梯度来指示训练的进程，改进方法是：去掉了输出层的sigmoid激活函数，使判别器由解决一个二分类问题变为解决一个回归问题；生成器和判别器的损失函数(loss函数)都不带有对数计算(log计算)；使用不带momentum的RMS Prop优化算法代替了常用的Adam优化算法；使用梯度惩罚方法。梯度惩罚(Gradient Penalty)是一种更加先进的Lipschitz限制手法，Lipschitz限制了判别器函数的梯度，使其不大于一个有限的常数K，这样就保证了输入经过微小变化后，输出不会发生剧烈的变化。梯度惩罚是对权重裁剪(Weight Clipping)的一种改进，它可以让梯度在反向传播过程中保持稳定。它的做法是对生成样本集中区域、真实样本集中区域以及夹在它们中间的区域加以限制，并且直接把判别器的梯度norm限制在1附近，这样就避免WGAN在训练过程中可能产生的梯度消失或梯度爆炸现象。具体做法是：在计算判别器的判别损失时加入了一个额外项λEx～χ[||▽_xD(x)||_p-1]²，对大于或小于1的判别器梯度施加惩罚，用公式表示为：

L(D)＝-Ex～P_τ[D(x)]+Ex～P_g[D(x)]

+λEx～χ[||▽_xD(x)||_p-1]²

L′(D)＝L(D)+εEx∈P_τ[D(x)²]

其中超参数用ε表示，这里ε＝0.001，是一个很小的权重数值。公式中L’(D)即为最终版本的判别式损失函数，对比原先的损失函数L(D)加入了另一个额外项，以防输出与0偏离过大。

由于WGAN-GP是对每个样本独立地施加梯度惩罚，所以判别器的模型不能使用批标准化，因为它会引入同个批量中不同样本的相互依赖关系。进一步的，上述基于生成对抗网络的灰度图片彩色化方法中，将渐进生成对抗网络(Progressive growing GAN) 中的渐进生成的特性加入到跨域生成对抗网络中，使其生成清晰且高质量(高分辨率) 图片，从而可以防止训练过程中计算机出现内存不足的问题，并且避免了在训练过程中向神经网络中直接添加隐含层，使网络更加稳定，训练更加高效。本生成对抗网络中引入了“阶段(phase)”的概念，它指的是网络会先生成低分辨率图片，再逐渐增加生成图片的分辨率和细节。阶段共有两个，分别是淡入(fade in)阶段和稳定化(stabilize) 阶段。将生成对抗网络的训练过程分为两个阶段，分别为淡入阶段和稳定化阶段；通过设置的一个阶段监视器(phase detector)，对训练的周期数、生成损失、重建损失和判别损失进行监控，当训练到达一定周期或总损失小于设定的阈值时，生成对抗网络所处的阶段就会发生变化，生成对抗训练过程中两个阶段交替进行，直到生成图片达到期望的分辨率并且生成对抗网络已经稳定。

如果不引入淡入阶段，那么较差的初始化参数会导致原来训练的模型崩溃，整个生成对抗网络不仅不能获得原来已经训练好的信息，甚至还可能误导网络训练。在淡入阶段，前一个分辨率大小的输入会分别通过卷积和上采样操作得到跟下一个分辨率同样大小的输出，将两部分做加权后通过to_rgb操作得到最终的输出。在巩固阶段，本神经网络所做的工作与原始生成对抗网络基本相同，即交替地训练生成器和判别器。此外，本发明中设计了一个监控器用于控制阶段转化和监督模型训练进度。

进一步的，上述基于生成对抗网络的灰度图片彩色化方法中，将条件生成对抗网络 (CGAN)的特性加入到跨域生成对抗网络(DiscoGAN)中；生成的图片需要满足一定的描述限制，描述限制是指生成网络不仅使用样本图片作为输入，还会接收一个文字描述向量，用这两个部分共同生成一幅满足描述的图像；同时，判别网络在判别过程中也会考虑描述向量，因此生成图片需要符合目标分布和描述条件。这样做可以使生成对抗网络生成的图片风格化，这个功能可以由多个生成对抗网络共同完成，但是通过将描述文字向量化这个方法，可以使用一个网络完成多个网络的工作，从而节约大量的训练时间以及存储空间。

所述描述限制的加入位置是在生成器G和判别器D中，这样可以限制由灰度图片生成的图片满足文字描述y的画风。其中文字描述会以一个向量的形式和图片一起传入生成器和判别器。所以生成器损失L_G和判别器损失L_D的计算与原始跨域生成网络的计算方法有所不同，其公式如下所示：

其中Pr表示真实样本分布，x～表示生成器产生的图片，z表示目标训练集中的样本图片。

进一步的，上述基于生成对抗网络的灰度图片彩色化方法中，在本生成对抗网络中使用SELU(Scaled Exponential Linear Unit)作为卷积层的激活函数，而不是使用Leaky ReLU。SELU的公式表示为：

其中α＝1.6732632423543772848170429916717，λ＝1.05070098735548049341933498，这两个数字是经过严格地推导得出的，直接使用它们带入公式中使用即可。使用SELU 的好处在于，它的结果有正有负，不会像ReLU一样丢失掉z小于0区域的细节；其次，SELU拥有饱和区(Saturation region)；SELU在部分区域的斜率是大于1的，即它可以将输入数据放大1.05070098倍。要使用SELU作为激活函数需要对权重的初始化值有所限制，其权重的分布应当是正态分布并且满足平均值为0，方差为1这个条件。它相对于批标准化方法更加稳定，并且得出结果更加精确，而且收敛速度也有所加快。因此，本神经网络中去掉了批标准化层，改为使用像素标准化层，它的好处是特征图的每个位置都有单位长度。

附图说明

图1为本发明中生成对抗网络的流程图；

图2为本发明中生成对抗网络的系统结构图；

图3为本发明中文字描述添加的方法图，其中图片3( a) 为生成器描述的添加方式，图片3( b) 为判别器描述的添加方式；

图4为本发明中渐进增大方式的原理图，其中图片4( a) 为生成器淡入阶段流程图，图片4( b) 为判别器淡入阶段的流程图；

图5为SELU激活函数的曲线图，并且标注了计算时用到的公式和必要数值；

图6为本发明中生成模型结构图；

图7为本发明中判别模型结构图。

具体实施方式

下面结合附图详细解释结合DiscoGAN、Progressive Growing GAN、WGAN和 CGAN的图片生成方法。

本发明所述的灰度图片彩色化系统应当包括以下几个部分：样本数据采集，样本图像预处理，生成对抗网络模型建立，网络训练及测试和调整超参数。本发明包括的主要步骤有：收集图片并进行预处理、将图片输入生成对抗网络、训练生存对抗网络、调整生成对抗网络的超参数并重复训练得到最终模型，如图1所示。其系统结构如图2所示。样本数据采集环节负责采集足够多包含有丰富细节信息的、可供训练的灰度图片和彩色图片。样本图像预处理环节判断采集到的图片是否清晰、图片内容是否包括人像或风景，然后需要对灰度图片加入描述条件以生成指定风格图片。生成对抗网络模型建立环节的主要工作是设计整个模型，是整个系统中最重要的部分。网络训练及测试环节负责对我们建立起来的模型进行训练、更新参数，确保网络能够学习到足够多的信息。调参环节负责在网络训练结束后调节网络中的超参数以保证网络得到最优的结果。

本发明提出的结合DiscoGAN、Progressive Growing GAN、WGAN和CGAN的图片生成方法，其主要特征在于灰度图片彩色化系统中的生成对抗网络模型建立和网络训练及测试这两个环节。本发明中融合了多种生成对抗网络的特点并且进行了改进，这些特点分别是：使用跨域生成对抗网络(DiscoGAN)中的跨域的特点使灰度图片转化成带有一定画风的彩色图片，这个画风取决于彩色图片样本集的画风；使用WGAN中的 Wasserstein距离来衡量真实样本分布和生成样本分布之间的差距，由于Wasserstein 距离是一个平滑的距离，所以即使两个分布之间没有交集，它依然衡量可以样本分布之间的远近。加入WGAN-GP后，整个训练过程是可控的，并且能够显著增加训练的速度和稳定性；使用CGAN向生成对抗网络中添加文字描述限制，将文字转化成向量传入生成器和判别器，生成满足要求的图片；PGGAN中的渐进增大方法是本生成对抗网络的核心之一，它通过引入“阶段”的方式实现了通过低分辨率图像渐进生成高分辨率图像的方式，大大节省了训练时间，提升了训练效率，生成了质量很好的图片。改进后的网络比原跨域生成对抗网络功能更强、训练更快更稳定、结果更好。

1.从网络中搜索并且提取图像。

本生成对抗网络需要在网上搜索和下载大量样本，经过大量训练才能够学习一个概率分布以及生成数据。所有的图片需要分辨率大于400X300，图片内容包括风景和人像。彩色图片选择的是塞尚、毕加索和梵高的作品，因为我们希望生成模型能够学习到这三个风格的数据分布，并将画风转移到生成的图片上。

2.对样本图片进行预处理。

将全部样本图像进行编号，删除模糊的、存在水印的图片。将灰度图片配上文字描述，并且将文字描述转化成向量，用于对生成图像的风格加以限制。文字描述使用像素归一化实现，用公式表示为：

其中X’是归一化后得到的像素，X是我们当前需要的像素，由于我们希望将文字向量转化为灰度图形式，所以b＝255，a＝0。经过归一化的向量就将作为描述向量在训练过程中传入生成器和判别器。

选取灰度图片N张作为神经网络的样本集A，塞尚图片、毕加索图片、梵高图片共计N张作为神经网络的样本集B。每次训练过程中需要将样本集分成训练样本和随机样本，并且根据生成对抗网络当前阶段分辨率进行下采样操作，这个操作使用一个自定义的自动编码器完成，通过它来进行可视化降维。然后，将所有真实样本图片标签设置为 1，表示它们是真实样本。最后，使用OpenCV图形库进行样本图片的图像增强操作，使机器可以更好地分辨图像。

3.生成对抗网络模型的建立及其训练过程。

要建立网络模型，首先要对网络的功能和需求进行分析。分析过程中需要确定如何使用WGAN、PGGAN以及CGAN改进DiscoGAN，以便将上文所述的各网络特点融合在一起建立一个新的神经网络模型。模型确定后，需要对生成对抗网络中的参数做权重归一化处理，均衡学习率，并且在每个训练周期结束后，都要做权重归一化。此神经网络的生成模型有两个分支：一个分支是由灰度图片生成彩色图片，然后再用生成器伪造的彩色图片生成灰度图片；另一个分支正好相反，它是由灰度图片生成彩色图片，再生成灰度图片。两个分支结构相似，生成顺序相反。以其中一条分支为例，模型建立以及训练的具体步骤如下：

(3.1)首先，从灰度图片样本中随机采样，取出共m个样本作为一个batch，表示为X，X中的样本表示为{x₁，x₂，……，x_m}，m是当前训练阶段中batch的大小。

(3.2)之后建立生成模型，生成模型会随着训练过程逐渐加深，生成模型整体结构如图6所示。生成模型是一个卷积神经网络，它接收一幅灰度图片，然后将其转化为具有特定风格的彩色图片。在加入Wasserstein距离后生成网络的损失函数计算公式为：

生成模型的输入由两个部分组成，其中一个是文字描述向量，由一段文字描述t通过一个函数φ将其转换为一个向量φ(t)，另外一个部分是原始灰度图片z，将这两个部分结合在一起便可以得到生成模型所需要的输入。也就是说对于生成网络G，原本是接收一幅图片然后生成一幅图像G(z)，而在加入文字描述限制后，使用这两个部分共同生成一幅图像G(z,φ(t))，如图3(a)所示。

生成模型的激活函数与判别器相同，都是使用SELU作为激活函数。模型的标准化层使用的是像素特征向量归一化(Pixel Feature Vector Normalization)，它紧跟在卷积层之后，使得每个标准化后的特征向量都具有单位长度，可以约束由于G和D不健康的竞争造成的信号范围越界的问题。用公式表示为：

其中b_x,y是标准化后的特征向量，a_x,y是原始特征向量，N是特征图的数量，∈等于10的-8次方。模型的优化器使用RMS Prop对生成网络中的参数更新，因为本生成网络不能使用带有动量的优化算法。RMS Prop需要设置全局学习速率∈、初始参数θ、数值稳定量δ和衰减速率ρ这几个参数，它可以自动调节学习速率，做法是通过引入一个衰减系数ρ，来控制历史信息获取的量。更新过程用公式表示为：

r＝ρr+(1-ρ)g⊙g

θ＝θ+Δθ

其中g是梯度，r是累积平方梯度，其初始值是0，△θ是计算得到的参数更新量，▽_θ是参数θ的梯度。

(3.3)生成器接收X这个batch，然后根据X中样本的数据分布生成m个伪造的样本作为一个batch，表示为Z，Z中的样本表示为{z₁，z₂，……，z_m}，将Z中的全部样本的标签设置为0，表示他们是伪造样本，以供判别器学习。

(3.4)之后建立判别网络模型，判别器模型会随着训练过程逐渐加深，判别器χ模型结构如图7所示。判别器模型不仅要鉴别输入样本的真实性，还要判断文字描述向量φ(t)和输入样本是否配对，然后输出一个0到1之间的标量作判别器分数D(z,φ(t))，如图3(b)所示。模型中使用Wasserstein距离而不是原始跨域生成对抗网络中的BCE 损失函数来计算损失。加入梯度惩罚后，计算损失时需要从生成样本区域P_g和真实样本区域P_r采样得到x_r和x_g，还要在生成样本和真实样本之间的区域χ上采样，采样方法是：加入一个0到1之间的随机数α，然后在x_r和x_g的连线上随机插值采样，就可以得到所需样本，用公式表示为：

判别器的损失函数加入额外项后表示为：

L(D)＝-Ex～P_τ[D(x,φ(t))]+Ex～P_g[D(x,φ(t))]

+λEx～χ[||▽xD(x)||_p-1]²

判别器模型使用SELU作为激活函数，将SELU添加在标准化层或卷积层之后，输入数据经过该激活函数后使得样本分布自动归一化到0均值和单位方差。使用SELU时需要先使用LeCun正态分布初始化方法对网络权重参数进行初始化，并且正确的设置α和λ的值，如下图5所示。由于Batch Normalization会引入同个batch中不同样本的相互依赖关系，所以在本判别网络中使用Pixelwise Normalization层代替Batch Normalization层。

(3.5)训练时先训练判别器，并且固定生成器中的参数不变，将真实样本和生成网络伪造的样本一起输入给判别器，然后衡量判别器输出结果和样本标签之间差异，计算判别损失，这个损失由Wasserstein距离来计算。然后将该这个损失从输出层向隐藏层反向传播，直至传播到输入层，在这个过程中使用RMS Prop优化方法对网络参数进行更新。更新完成后，再次使用判别器对生成样本和真实样本进行鉴别，直到判别器可以正确区分真伪样本，此时判别器训练暂时完成。本判别网络中设置了一个判别监控器，这个监控器可以通过判别器的损失来检查其是否具有分辨真假样本的能力。

(3.6)然后固定判别器的参数来训练生成器。生成器接收灰度图片样本x_A生成伪造样本G(x_A，φ(t))。将伪造样本和真实样本传入训练好的判别器计算生成损失，不同于判别损失的是此时伪造样本的目标输出是1，也就是说本生成网络希望可以生成接近真实样本的图片x_B，骗过判别器。用数学公式表示为：

D(G_B(x_A,Φ(t)))＝x_B

此外，生成器需要一个重建过程，也就是对x_A进行重建，并且计算重建损失。加入重建过程是为了防止生成器利用不正当竞争的手段骗过判别器，这个手段是指生成器在学习过程中并没有真正学会如何产生新的图片，只是单纯的记住彩色样本集中的所有样本，导致训练失败。而加入重建过程的好处是在训练过程中生成器会尽力保留灰度图片样本中的细节信息，不会再单纯地学习彩色样本。这个过程实现的方法用公式表示为：

x_A,Φ(t)＝G_AοG_B(x_A，Φ(t))

并且需要最小化生成损失，生成损失使用MSELoss计算，即均方误差。然后用生成损失L(G_B)(见步骤2)加上重建损失

可以得到生成器的总损失

用公式表示为：

通过反向传播这个总损失更新生成器中的参数，优化方法与判别器相同，都使用RMS Prop。更新完成后使用生成器再次生成伪造样本，看判别器能否正确区分伪造样本和真实样本，并且重建后的样本应当与原始样本相差不大。本生成网络中设有生成监控器，它的作用是判断生成器训练是否完成，当重建损失小于超参数中设定好的阈值，即说明图片重建符合设定的要求，当生成损失小于设定好的阈值时，说明判别器已经无法正确区分真实样本和伪造样本之间差异，此时生成器训练暂时完成。

(3.7)然后阶段监控器会监控此时训练周期数是否达到给定量，或衡量当前的生成器是否可以生成质量足够好的图片。衡量图片质量主要通过两个指标，其中一个是生成总损失L_G，用公式表示为：

另一个是一个自定义函数用于衡量生成样本和真实样本之间的Earth Mover'sDistance(EMD)。EMD可以用来衡量两个分布之间的距离，主要应用在图像处理和语音信号处理领域，用公式表示为：

EMD实现原理以及计算方法在这里不再赘述，公式中的d代表距离，f代表运输重量，X和Z代表生成样本和真实样本。

若阶段监控器判断出当前训练结果良好且过程趋于稳定，那么训练将进入淡入阶段，这个阶段中生成网络和判别网络会加深，生成器生成图片的分辨率会提高，结果更加清晰，并且与直接使用高分辨率图片进行训练相比，生成对抗网络的训练速度会更快，效率会大大提升，训练效果也会有一定提升。

反之，如果阶段监控器判断当前网络没有达到进入淡入阶段的条件，那么网络就会按顺序重复步骤3.1、步骤3.3、步骤3.5和步骤3.6这个过程，直到网络训练达到预期效果。

(3.8)渐进增大生成对抗网络的实现原理是，先训练如何生成一个低分辨率的图片，之后再逐步过渡到生成更高分辨率的图片，过渡完成后先要稳定当前分辨率，再逐步过渡到训练生成更高分辨率的图片。淡入阶段需要完成的工作就是让网络学会逐步生成更高分辨率的图片。淡入阶段的实现过程如图4(a)和图4(b)所示，图4(a)是生成器渐进阶段流程图，图4(b)是判别器渐进阶段流程图。当上一分辨率训练完成后，将网络通过pytoch的save函数存储到文件夹中，然后构建下一分辨率的网络，新的网络会使用上一分辨率网络的参数，且生成网络和判别网络层数更深，然后进行淡入阶段操作。在这个操作中，生成器需要做上采样和卷积操作，然后将两部分的得到结果加权相加，再通过to_rgb操作得到最终输出，而判别器与生成器不同的一点是其做的是下采样操作。这个过程用公式表示为：

X＝X_pre×(1-α)+X_cur×α

其中α受自变量x所控制，随着淡入阶段的进行从0到1不断增加，X表示的是真实样本，X_pre表示的是上个分辨率下的样本，X_cur表示的是当前目标分辨率下的样本。其中to_rgb代表一个1×1大小的卷积层，这个卷积层可以将特征向量投射成RGB颜色。

淡入阶段会按顺序重复步骤3.1、步骤3.3、步骤3.5和步骤3.6这个过程，每次都被视为一个训练周期，这个周期中x的值不断增加，生成对抗网络的参数不断更新，直到淡入训练达到指定训练周期，此时生成网络已经“了解”如何生成新分辨率的图像。

(3.9)淡入阶段完成后，本生成对抗网络会进入稳定化阶段(stabilize phase)，在这个阶段，生成网络需要继续更新自己的参数，以便生成质量足够好的伪造图片，并且完善生成图片的细节。需要的操作就是按顺序重复步骤3.1、步骤3.3、步骤3.5和步骤3.6这个过程。由于此时网络得到了上一个分辨率中已经训练好的网络中的参数，所以训练速度会大大加快。

(3.10)重复步骤3.8和步骤3.9这个过程，直到本生成对抗网络可以稳定生成指定分辨率的图片。至此训练完成。

4.调整生成对抗网络的超参数。

网络中有许多超参数，比如学习率、图片批量大小、训练周期数、目标分辨率、起始分辨率等等。通过调节这些参数，可以对网络生成的结果产生影响。这相当于一个优化的过程，我们希望可以找到最优的参数使网络能够生成最好的结果，但是这项工作大多数情况下是基于设计者经验和当前网络生成结果来调整的，有很大不确定性。

上面所述的仅是体现本发明结合DiscoGAN、Progressive Growing GAN、WGAN 和CGAN的图片生成方法的实施例。本发明并不限于上述实施例。本发明的说明书是用于进行说明，不限制权利要求的范围。对于本领域的技术人员，很显然可以有很多的替换、改进和变化。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围内。

Claims

1.一种基于生成对抗网络的灰度图片彩色化方法，其特征在于：该灰度图片彩色化方法包括如下步骤：

(1.2)借助Pytorch深度学习库建立改进的生成对抗网络的架构：基于跨域生成对抗网络架构建立生成对抗网络，并将Wasserstein生成对抗网络、渐进生成对抗网络、条件生成对抗网络的特性加入到跨域生成对抗网络中，形成改进的生成对抗网络；

(1.3)选择损失函数用于计算重建损失、生成损失和判别损失，并选择不基于动量的RMS Prop优化函数用于在反向传播过程中更新生成对抗网络的参数；其中，重建损失的损失函数采用均方误差、余弦距离或铰链损失来计算；生成损失和判别损失的损失函数采用Wasserstein距离来计算；

(1.4)使用标准高斯分布对整个生成对抗网络的参数进行初始化；

(1.5)训练生成对抗网络：

首先固定生成器参数不变，训练判别器，其步骤如下：

(1.5.3)将标记为Y的样本集中的样本yⁱ和标记为Z的样本集中的样本zⁱ分别传入判别器，通过实际输出与目标输出计算出生成对抗网络的判别网络的判别损失L，反向传播这个判别损失并且更新判别器参数θ_d，更新过程用公式表示为：

其中D表示判别器，η表示超参数中的学习率，

表示判别器参数的梯度；

其中G表示生成器。

2.根据权利要求1所述的基于生成对抗网络的灰度图片彩色化方法，其特征在于：所述步骤(1.2)中基于跨域生成对抗网络架构建立生成对抗网络，并将Wasserstein生成对抗网络的特性加入到该跨域生成对抗网络中，包括如下步骤：

(1.2.1)基于跨域生成对抗网络将生成网络分为生成网络G_A和G_B，将判别网络分为判别网络D_A和D_B，训练中需要将灰度图片和彩色图片分别传入生成网络：生成过程是将样本集A中的原图x_A传入生成网络G_B生成具有样本集B特征的图片x_AB，之后将x_AB传入生成网络G_A形成生成图片x_ABA，用公式表示为：

x_AB＝G_B(xA)

其中d表示均方误差距离，用于计算生成图片和原图片之间的差距，也可以用余弦距离或铰链损失函数来计算；

计算生成损失，生成损失用于衡量生成网络输出的图片AB和样本集B中图片之间的差距，该差距是使用Wasserstein距离计算的；

计算判别损失，判别损失用于反映判别网络学习到的真实样本分布和生成网络产生的生成样本之间的差距，该差距是使用Wasserstein距离计算的；

(1.2.2)本生成对抗网络使用不基于动量的RMS Prop作为优化函数，并将学习率设为0.001，权重衰减系数设为0.999；训练过程中分辨率逐渐增加，批量大小随之减小，因此特别设计了一个批量计算器，用于动态调整批量大小；本生成对抗网络中，除最后的卷积层使用线性激活函数外，其余卷积层都使用SeLU作为其非线性层；本生成对抗网络会在每个全连接层和非线性层之间加入一个权重初始化层，这里使用的是像素归一化层；本生成对抗网络向生成器添加了上采样层并且向判别器添加了下采样层。

3.根据权利要求2所述的基于生成对抗网络的灰度图片彩色化方法，其特征在于：将Wasserstein生成对抗网络的特性加入到该跨域生成对抗网络中后，使用梯度惩罚方法进行图片生成，通过Wasserstein距离度量两个分布的远近并提供平滑的梯度，加入1-Lipschitz限制判别器梯度，去掉判别器的Sigmoid层，将判别器做的工作转化为回归任务，生成器和判别器的损失函数中不再含有对数计算。

4.根据权利要求3所述的基于生成对抗网络的灰度图片彩色化方法，其特征在于：在计算判别器的判别损失L(D)时加入了一个额外项

将判别器的梯度限制在1附近，大于或小于1的梯度都会受到惩罚，加入

的作用是以防输出与0偏离过大，用公式表示为：

L′(D)＝L(D)+εEx∈P_τ[D(x)²]

其中超参数用ε表示，这里ε＝0.001，是一个很小的权重数值，χ表示生成样本和真实样本分布之间的区域，P_τ表示真实样本的数据分布，P_g表示生成样本的数据分布。

5.根据权利要求2所述的基于生成对抗网络的灰度图片彩色化方法，其特征在于：将渐进生成对抗网络中的渐进生成的特性加入到跨域生成对抗网络中，将生成对抗网络的训练过程分为两个阶段，分别为淡入阶段和稳定化阶段；通过设置的一个阶段监视器，对训练的周期数、生成损失、重建损失和判别损失进行监控，当训练到达一定周期或总损失小于设定的阈值时，生成对抗网络所处的阶段就会发生变化，生成对抗训练过程中两个阶段交替进行，直到生成图片达到期望的分辨率并且生成对抗网络已经稳定。

6.根据权利要求2所述的基于生成对抗网络的灰度图片彩色化方法，其特征在于：将条件生成对抗网络的特性加入到跨域生成对抗网络中；生成的图片需要满足一定的描述限制，描述限制是指生成网络不仅使用样本图片作为输入，还会接收一个文字描述向量，用这两个部分共同生成一幅满足描述的图像；同时，判别网络在判别过程中也会考虑描述向量，因此生成图片需要符合目标分布和描述条件。