CN111563841A

CN111563841A - 一种基于生成对抗网络的高分辨率图像生成方法

Info

Publication number: CN111563841A
Application number: CN201911105666.2A
Authority: CN
Inventors: 张贺舒; 李涛; 宋公飞
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-08-21
Anticipated expiration: 2039-11-13
Also published as: CN111563841B

Abstract

本发明公开了一种基于生成对抗网络的高分辨率图像生成方法，首先对待学习的数据集图像进行预处理得到训练集；然后构建包含生成网络和判别网络的生成对抗网络，对生成对抗网络进行预训练，获得预训练的模型参数作为生成对抗网络的初始化参数：接着，将训练集和生成网络生成的图像分别输入到判别网中，判别网络的输出反作用于生成网络，对生成对抗网络进行对抗训练，优化生成网络和判别网络的网络参数，当损失函数收敛时结束训练，得到训练好的生成对抗网络；最后，将随机数据分布输入到训练好的生成网络中，实现高分辨率图像生成。本发明生成图像更加清晰、训练过程稳定且网络较快收敛。

Description

一种基于生成对抗网络的高分辨率图像生成方法

技术领域

本发明涉及深度学习和图像处理领域，尤其涉及一种基于生成对抗网络的高分辨率图像生成方法。

背景技术

随着图形绘制技术、数字信号处理技术、传感技术、图形技术的发展，虚拟现实的研究日益广泛，即利用计算机生成逼真的图像等，使得用户可以在虚拟环境中实现交互和控制。在内容创建、智能编辑方面，很多软件可以改变图像的表情、皱纹等，这对高质量、多样性的图像生成技术提出很大需求。同时在许多对信息安全要求较高的公司(如信用卡公司)，需要构建虚拟欺诈数据、图像等来提高欺诈检测系统，这也属于数据增强的应用。人们对生成图像的要求越来越高。但是利用计算机从数据中学习生成高保真、高分辨率、多样化的图像仍然是很大的挑战。

近年来，生成图像建模领域涌现了很多成果。2014年lan Goodfellow创造性地提出了基于深度学习的生成对抗网络(Generative Adversarial Network,GAN)，目前GAN已经成为首选和最前沿的生成模型之一。2016年Honglak Lee等人提出了一种新的GAN架构，有效的连接文本和图像建模之间的步骤。2017年Han Zhang等人提出了堆叠生成对抗网络(StackGAN:Text to Photo-realistic Image Synthesis with Stacked GenerativeAdversarial Networks,StackGAN)来生成基于文本描述的真实图像。2018年Han Zhang,Ian Goodfellow等人将NLP领域的自注意力机制引入生成对抗网络，提出自注意力生成对抗网络(Self-Attention Generative Adversarial Networks,SAGAN)，很大程度上提高了图像生成的质量。

2015年Denton,E等人提出了基于生成对抗网络的拉普拉斯金字塔(DeepGenerative Image Models using a Laplacian Pyramid of Adversarial Networks,LAPGAN)算法，能够生成高质量的图像，但是细节效果太差，并且该网络的训练方式过于自由，模型缺少约束，很难平衡各级联GAN，对于较大输入图片或较多像素会导致训练或模式崩溃使得整个模型不可控。

发明内容

本发明所要解决的技术问题是针对现有技术LAPGAN在生成图像方面的细节效果模糊、网络的训练方式过于自由、模型缺少约束、很难平衡各级联GAN、对于较大输入图片或较多像素会导致训练或模式崩溃使得整个模型不可控的缺陷或问题，提供一种基于生成对抗网络的高分辨率图像生成方法，达到生成图像更加清晰、训练过程稳定且网络较快收敛的效果。

本发明为解决上述技术问题采用以下技术方案：

一种基于生成对抗网络的高分辨率图像生成方法，包含以下步骤：

步骤1)，对待学习的数据集图像进行预处理得到训练集；

步骤2)，构建生成对抗网络，所述生成对抗网络包含生成网络G和判别网络D两个深度卷积神经网络；

步骤3)，对生成对抗网络进行预训练，获得预训练的模型参数作为生成对抗网络的初始化参数：

步骤3.1)，随机初始化生成对抗网络的模型参数，对生成对抗网络进行训练并保存训练完成时的模型参数；

步骤3.2)，重复步骤3.1)预设的次数阈值，随机选取其中一次保存的模型参数作为预训练的模型参数；

步骤4)，将训练集和生成网络G生成的图像分别输入到判别网络D中，判别网络D的输出反作用于生成网络G，对生成对抗网络进行对抗训练，优化生成网络G和判别网络D的网络参数，当损失函数收敛时结束训练，得到训练好的生成对抗网络；

步骤5)，将随机数据分布输入到训练好的生成网络中，实现高分辨率图像生成。

作为本发明一种基于生成对抗网络的高分辨率图像生成方法进一步的优化方案，所述步骤1)的详细步骤如下：

步骤1.1)，将待处理图像x裁剪为n*n，n为16的整数倍；

步骤1.2)，采用双三次插值方法对裁剪后的图像分别进行采样率为2、4、8、16的下采样，得到低分辨率图像；低分辨率图像块构成训练集。

作为本发明一种基于生成对抗网络的高分辨率图像生成方法进一步的优化方案，所述生成网络G采用倒金字塔结构，包含5个级联的生成器G₀、G₁、G₂、G₃、G₄，逐层实现高频信息的学习、锐化图片细节；最低层生成器G₄包含按顺序连接的全连接层、RELU激活层、Dropout层、全连接层、RELU激活层、Dropout层、全连接层、Tanh激活层；四个高层生成器G₀、G₁、G₂、G₃均包含卷积层、RELU激活层、卷积层、RELU激活层、卷积层、Tanh激活层；

所述判别网络D包含五个判别器D₀、D₁、D₂、D₃、D₄，分别对应生成器G₀、G₁、G₂、G₃、G₄，最低层判别器D₄包含按顺序连接的全连接层、RELU激活层、Dropout层、全连接层、RELU激活层、Dropout层、全连接层、Tanh激活层；四个高层判别器D₀、D₁、D₂、D₃均包含卷积层、RELU激活层、Dropout层、卷积层、RELU激活层、Dropout层、Flatten层、全连接层；

在卷积操作中使用“补零”方式来保持所有特征图的大小相同；

生成网络G通过模拟训练集中的数据分布来生成逼近真实数据分布的图像；判别网络D判断输入到判别网络中的图片是来自真实数据分布p_data还是生成网络G生成的分布，并反作用于生成网络G；

生成对抗网络的目标函数为：

V(D,G)是整个生成对抗网络待优化的目标函数，D为判别网络，G为生成网络，z为随机输入的数据分布，x为下采样后的低分辨率图片，y为真实图片对应的标签或者是从真实图片中截取的一个图像块作为该图像的标签；p_data(x)为真实数据分布，p_g(z)为随机输入数据分布；D(x|y)表示在条件y的情况下，判别器判定低分辨率图片x是来自真实图片的概率；G(z|y)表示在条件y的情况下，生成器输入为z时的输出；D(G(z|y))表示在条件y的情况下，判别器判断生成器输出的图片为真实图片的概率。

作为本发明一种基于生成对抗网络的高分辨率图像生成方法进一步的优化方案，所述步骤4)的详细步骤如下：

步骤4.1)，固定生成网络G参数，将随机输入分布输入到生成网络G中，输出得到相应的图像；

将生成图像和对应的训练集图像输入到判别网络中，将l_D作为判别网络的损失函数，使用判别网络Adam优化器优化判别网络参数，最大化目标函数V(D,G)；

判别网络的损失函数如下：

l_D＝l_Dr-p_il_Df (4)

M_balance＝γl_Dr-l_G (5)

p_i+1＝p_i+λ*M_balance(0＜p_i+1＜1) (6)

M_global＝l_Dr+abs(M_balance) (7)

I_r为真实图片；I_f为生成网络生成的图片；y是与真实图片I_r对应的标签；l_G为生成网络的损失函数；l_Dr为判别网络判别“真实图片为真”的概率，l_Df为判别网络判别“生成网络生成的图片为真”的概率；l_D为判别网络的损失函数，是一种相对判别方法，能够更大程度上优化判别网络，同时使用参数p_i动态调节判别网络的的学习能力，有效的改善梯度消失问题；使用参数M_global来衡量生成对抗网络的训练程度，数值越大表示网络训练越完善；设置超参数γ为0.5，λ为e^-3；

判别网络Adam优化器中设置参数learning_rate初始值为d_lr，每迭代N次，参数d_lr更新为maxd(_lr*lr_decay_rat,e l_r lo_w bo，参数lr_decay_rate在[0.1,0.5]间取值，参数lr_low_boundary为设置的最低学习率；

步骤4.2)，将步骤4.1)中优化后的判别器参数固定，将l_D作为生成网络的损失函数，使用生成网络Adam优化器优化生成网络参数，最小化目标函数V(D,G)；

生成网络的损失函数如下：

生成网络Adam优化器中设置参数learning_rate初始值为g_lr，每迭代M次，参数g_lr更新为max(g_lr*lr_decay_rate,lr_low_boundary)，参数lr_decay_rate在[0.1,0.5]间取值，参数lr_low_boundary为设置的最低学习率；

步骤4.3)，重复步骤4.1)、步骤4.2)，交替训练判别网络和生成网络，随着训练周期的加长动态调整生成网络和判别网络的学习率，直到损失函数收敛，得到最优的网络模型参数并保存。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明采用基于条件的生成对抗网络，在生成网络和判别网络中加入条件。加入的条件可能是待处理数据集的标签或者是输入图片中截取的一部分。对生成网络的输入添加约束条件能够引导生成网络的学习方向，拉近生成网络生成的数据分布和真实数据分布之间的距离，使得生成的图片更加地“真实”。在判别网络中加入真实图片的一部分作为判别条件输入，可以让判别网络更好地区分真实图片和生成网络生成的图片，改进判别网络的判别能力，提高判别能力。

2.本发明生成对抗网络中生成网络采用拉普拉斯金字塔结构，在不同尺度上拉近生成图片和真实图片的距离，提高生成图片的质量。生成网络由多个生成器级联，每个生成器对应有一个判别器进行对抗学习，训练网络就带来了很大的困难，很容易在训练过程中崩溃如图6左一红框标出部分所示。为了平衡各级生成器和判别器间的训练程度，改善因网络过深带来的判别器梯度消失的问题，使用边界平衡方式训练，动态调整生成器和判别器的学习率，提升整个网络的稳定性而且加快了网络的训练速度。如图5左一和图6左一所示。由判别器损失提出参数M_global来预估整个网络的训练程度，侧面辅助整个生成对抗网络的训练。

3.本发明使用了相对判别器，使得整个网络训练更快收敛，结构更加稳定且生成更高质量的图片，本发明方法取得了更高的IS值。

4.本发明在判别网络中使用Spectral Norm Regularization，使生成对抗网络对输入扰动具有较好的非敏感性，从而使训练过程更稳定，更容易收敛，如图5右二和图6右一红框标出部分对比所示。

附图说明

图1是本发明的基于生成对抗网络的高分辨图像生成方法流程图；

图2是本发明的生成对抗网络框架图；

图3是本发明的生成网络结构示意图；

图4是本发明的判别网络结构示意图；

图5是本发明提供的高分辨率图像生成方法的消融实验在视觉效果上的对比图；

图6是本发明提供的高分辨率图像生成方法和其他方法在视觉效果上的对比图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。在附图中，为了清楚起见放大了组件。

一种基于生成对抗网络的高分辨率图像生成方法，如图1所示，包括以下步骤：

对待处理的数据集图像进行预处理得到训练集,具体为：

(1)采用cifar_10训练集的50000张训练图像，使用双三次插值方法对训练图像分别进行2、4、8、16倍下采样，获得低分辨率图像，将每个图像对应的类别作为训练的标签，标签和低分辨率图像共同构成训练集。

(2)构建生成对抗网络模型，使用预训练模型的参数作为网络的初始化参数，将标签和随机输入分布输入到生成网络中，得到生成图像。具体如图2所示：

本实施例的生成对抗网络模型由生成网络G和判别网络D两个深度卷积神经网络组成。生成网络G通过输入随机数据分布，生成逼近真实数据分布的高分辨率图像；判别网络D的判别条件是原始真实图像对应的标签，在这个条件下判断输入到判别网络中的图片是来自真实数据分布p_data还是生成网络G生成的数据分布，并反作用于生成网络G。通过不断的迭代优化直到判别网络D无法区分输入数据的真假，判别结果趋近于0.5，则生成对抗网络达到最优。

生成对抗网络的目标函数为：

V(D,G)是整个生成对抗网络待优化的目标函数，z为随机输入的数据分布，x为下采样后的低分辨率图片，y为真实图片对应的标签。在真实图片对应标签的条件下训练生成对抗网络不仅能够引导生成网络的学习，更好地拉近生成网络生成的数据分布和真实数据分布间的距离，而且能增强判别网络的判别能力。D(x|y)表示判别器判定在条件y的情况下，低分辨率图片x来自真实图片的概率；G(z|y)表示生成器在条件y的情况下，输入为z和x时的输出；D(G((z,x)|y))表示判别器判断在条件y的情况下，生成器输出的图片为真实图片的概率。

如图3所示，本实施例的生成网络模型采用倒金字塔结构，由5个生成器(G₀、G₁、G₂、G₃、G₄)级联组成，逐层实现高频信息的学习，锐化图片细节。最低层生成器G₄由全连接层、RELU激活层、Dropout层、全连接层、RELU激活层、Dropout层、全连接层、Tanh激活层按顺序连接组成；四个高层生成器(G₀、G₁、G₂、G₃)由卷积层、RELU激活层、卷积层、RELU激活层、卷积层、Tanh激活层级联组成。

本实施例的生成对抗网络模型在卷积操作中使用“补零“方式来保持所有特征图的大小相同。

如图4所示，本实施例的判别网络D由五个判别器(D₀、D₁、D₂、D₃、D₄)组成，分别对应五个生成器(G₀、G₁、G₂、G₃、G₄)。最低层判别器D₄的网络层组成与对应的生成器G₄类似，四个高层判别器(D₀、D₁、D₂、D₃)由卷积层、RELU激活层、Dropout层、卷积层、RELU激活层、Dropout层、Flatten层、全连接层级联组成，最后输出概率值p。若p大于0.5则认为输入图像是标签图像的可能性较大，若p小于0.5则认为输入图像是生成图像的可能性较大。

本实施例的判别网络D中使用谱归一化，提高网络的抗敏感性，具体实施是结合卷积操作进行的。

本实施例中使用预训练模型的参数作为网络的初始化参数，具体包括：

(2a)对生成对抗网络进行预训练：

(2b)随机初始化生成对抗网络的模型参数，对生成对抗网络进行训练并保存每次训练完成时的模型参数，训练一定次数之后，随机选取该批次中的模型参数。

(2c)将选取的模型参数作为重新训练的初始化参数。

对生成对抗网络进行对抗训练，优化网络参数，当损失函数收敛时结束训练，并保存训练完成时的模型参数；使用训练样本训练生成对抗网络即对抗训练的具体过程为：

(3a)固定生成网络参数，将训练集图像输入到生成网络中，输出得到相应的高分辨率图像。将高分辨率图像和对应的原图输入到判别网络中，将l_D作为判别网络的损失函数，使用Adam反向传播算法优化判别网络参数，最大化目标函数V(D,G)。

(3b)将步骤(3a)中优化后得到的判别器参数固定，使用l_D作为生成网络的损失函数，使用Adam反向传播算法优化生成网络参数，最小化目标函数V(D,G)。

(3c)重复步骤(3a)、(3b)，交替训练判别网络和生成网络，随着训练周期的加长动态调整生成网络和判别网络的学习率，直到损失函数收敛，得到最优的网络模型参数并保存。

生成网络和判别网络的优化目标相反，生成网络希望最大程度上“欺骗”判别网络，判别网络则希望最小程度地判别生成网络生成的图像为真实图像的概率。此时生成网络G和判别网络D实际上就在进行最大最小博弈，在博弈论中已经被证明存在收敛点使得博弈双方达到利益均衡最优即对抗网络可以被训练到趋近于最优解，此时判别网络输出p趋近于0.5。

本实施例中判别网络的损失函数设计如下：

l_D＝l_Dr-p_il_Df (4)

M_balance＝γl_Dr-l_G (5)

p_i+1＝p_i+λ*M_balance(0＜p_i+1＜1) (6)

M_global＝l_Dr+abs(M_balance) (7)

I_r为真实图片；I_f为生成网络生成的图片；y是真实图片I_r对应的标签；f₁、f₂为标量函数，实验中设为1；l_G为生成网络的损失函数；l_Dr为判别网络判别“真实图片为真”的概率，l_Df为判别网络判别“生成网络生成的图片为真”的概率；l_D为判别网络的损失函数，是一种相对判别方法，能够更大程度上优化判别网络，同时使用参数p_i动态调节判别网络的的学习能力，有效的改善梯度消失问题；使用参数M_global来衡量生成对抗网络的训练程度，数值越大表示网络训练越完善；设置超参数γ为0.5，λ为e^-3。

判别网络Adam优化器中设置参数learning_rate初始值为d_lr＝2e^-4，参数beat1为0.5，参数beat2为0.5。每迭代1000次，参数d_lr更新为max(d_lr*lr_decay_rate,lr_low_boundary)，参数lr_decay_rate在[0.1,0.5]间取值，参数lr_low_boundary为设置的最低学习率，设置为e^-8，能够防止判别网络优化过慢。

本实施例中生成网络的损失函数设计如下：

f₂为标量函数，实验中设为1。

生成网络Adam优化器中设置参数learning_rate初始值为g_lr＝2e^-4，参数beat1为0.5，参数beat2为0.5。每迭代2000次，参数g_lr更新，更新方式和判别网络学习率d_lr类似。

使用随机数据分布输入到训练好的生成网络模型中，实现高分辨率图像生成。

从上述步骤(3)中训练得到最优的网络参数，固定相应的生成器和判别器的网络参数，将随机分布(均匀分布)输入到训练好的生成网络G中，即可生成高分辨率图片。

为了验证本发明的作用效果，进行了三组消融实验，如图5所示，由左至右分别是在本发明方法基础上既不使用相对判别也不使用谱归一化(左一)、不使用相对判别(左二)、不使用谱归一化(右二)分别与本发明方法(右一)作比较。这三组实验中生成的图像存在噪点、缺失和清晰度较差等问题(红线方框标出)。可见本发明方法无论是学习速率、生成图像轮廓及清晰度都是最优。使用专门评价生成对抗网络生成图片效果的质量评估指标IS值对各生成图像进行评估，如下表所示，本发明生成的图片取得了较高的IS值。这证明了本发明中使用的相对判别及谱归一化在生成图像方面的有效性。

为了验证本发明的实际效果，进行了两组对比实验，如图6所示，分别将本发明方法和目前先进的LAPGAN、WGAN方法生成的图像在不同迭代次数下进行对比。训练一开始(迭代0次)，本发明中的生成对抗网络就展现出微弱的优势，图像的轮廓、颜色初步形成。迭代21000次左右，清晰的图像逐步展现，迭代32000次之后生成的图像趋近真实，在之后迭代次数增加后图像更加清晰。反观左侧WGAN生成的图像，不仅学习速率慢，迭代15000次左右图像的轮廓、颜色才初步形成，图像清晰度始终低于本发明生成的图像，而且在迭代50000次之后，生成的图像仍然存在重大瑕疵(红线方框标出)。最左侧一列LAPGAN生成的图像，在迭代2000次之前，学习速率慢于本发明方法，虽然在迭代11000次左右时，部分图像生成效果优于本发明图像，但仍有令一部分生成图像存在重大瑕疵(红线方框标出)，很快到迭代15000次之后反复出现模式崩溃(红线方框标出)，迭代32000次左右生成图像出现了模糊和变形(红线方框标出)，迭代34000次左右生成图像出现了缺失(红线方框标出)，迭代50000次左右生成图像出现了明显噪点(红线方框标出)，迭代到100000次之后仍然没有跳脱出模式崩溃,生成图像出现了大量的噪点和缺失(红线方框标出)，生成效果明显低于本发明。使用质量评估指标IS对LAPGAN、WGAN和本发明方法进行评估，如下表所示，本发明生成的图片取得了较高的IS值。

评估指标\生成方法	LAPGAN	WGAN	本发明方法
				Inception Score(IS)	1.3912555	2.063378	2.1522071

将图5(左一)和图6(左一)生成的图像作对比，很明显图5(左一)生成的图像在视觉效果、评价指标上更好，证明了本发明中提出的平衡生成器和判别器学习能力这一方法在生成图像方面的有效性。可见，无论是在评估指标还是在视觉效果上，本发明的效果都是非常好的。

由此可见，本发明提供的高分辨率图像生成方法与已有算法相比，训练过程更加稳定，算法精度有明显提高。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的高分辨率图像生成方法，其特征在于，包含以下步骤：

步骤1)，对待学习的数据集图像进行预处理得到训练集；

2.根据权利要求1所述的基于生成对抗网络的高分辨率图像生成方法，其特征在于，所述步骤1)的详细步骤如下：

步骤1.1)，将待处理图像x裁剪为n*n，n为16的整数倍；

3.根据权利要求2所述的基于生成对抗网络的高分辨率图像生成方法，其特征在于，

所述生成网络G采用倒金字塔结构，包含5个级联的生成器G₀、G₁、G₂、G₃、G₄，逐层实现高频信息的学习、锐化图片细节；最低层生成器G₄包含按顺序连接的全连接层、RELU激活层、Dropout层、全连接层、RELU激活层、Dropout层、全连接层、Tanh激活层；四个高层生成器G₀、G₁、G₂、G₃均包含卷积层、RELU激活层、卷积层、RELU激活层、卷积层、Tanh激活层；

生成对抗网络的目标函数为：

4.根据权利要求3所述的基于生成对抗网络的高分辨率图像生成方法，其特征在于，所述步骤4)的详细步骤如下：

判别网络的损失函数如下：

l_D＝l_Dr-p_il_Df

M_balance＝γl_Dr-l_G

p_i+1＝p_i+λ*M_balance(0＜p_i+1＜1)

M_global＝l_Dr+abs(M_balance)

判别网络Adam优化器中设置参数learning_rate初始值为d_lr，每迭代N次，参数d_lr更新为max(d_lr*lr_decay_rate,lr_low_boundary)，参数lr_decay_rate在[0.1,0.5]间取值，参数lr_low_boundary为设置的最低学习率；

生成网络的损失函数如下：