CN113592715A

CN113592715A - 一种面向小样本图像集的超分辨率图像重构方法

Info

Publication number: CN113592715A
Application number: CN202110898675.2A
Authority: CN
Inventors: 王蒙; 李鑫凯; 王强; 陈家兴; 邵逸轩
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113592715B

Abstract

本发明涉及一种面向小样本图像集的超分辨率图像重构方法，属于人工智能、计算机视觉领域。本发明结合了生成对抗学习、小样本图像训练、金字塔GAN和超分辨率重构的图像生成方法，包括基于残差网络的生成网络模块、金字塔对抗学习网络、生成样本的上下采样模块。其中，金字塔对抗学习网络由多层不同尺度训练的GAN组成，上一层的输出在上采样之后作为下一层的输入之一进行训练。生成对抗网络以卷积神经网络为基础的残差神经网络，可加深训练网络，同时稳定训练收敛。本发明着眼于小样本学习在超分辨率场景下的应用，提高了在训练图像稀缺情况下获得超分辨率图像的清晰度，减少了训练时间和训练样本的数量，使重构图像质量得到了提升和保证。

Description

一种面向小样本图像集的超分辨率图像重构方法

技术领域

本发明涉及一种面向小样本图像集的超分辨率图像重构方法，具体设计是一种基于小样本图像的GAN金字塔结构训练的超分辨率学习方法，属于人工智能、计算机视觉领域。

背景技术

在计算机视觉领域中，大致分为两个主要方向，分别是图像识别和图像生成。图像识别在日常生活中的使用非常普遍，现如今人们最常使用的人脸支付就是其中一种应用。图像生成的应用领域也非常广，例如可以将模糊图像进行放大并使得其细节变清晰的超分辨率，或者让一个图像可以平滑的改变风格的风格迁移等。

在多年来的计算机视觉研究中，卷积神经网络和残差网络已经得到了广泛的研究，并已用于提高现代深度神经网络的性能。事实证明，卷积神经网络和残差网络在提升深度神经网络的学习效率和学习精度上有很好的效果，提升了多种场景应用的效果，例如图像分类和超分辨率。

在2014年Goodfellow等人提出了生成对抗学习网络GAN，让图像生成这一任务方向取得了显著进展，但仍存在许多未解决的问题，比如原始的GAN模型训练容易遇到梯度爆炸和图像细节学习不足等问题。之后有人提出将卷积神经网络CNN加入到GAN中，组成了深度卷积生成对抗网络DCGAN，目前来看这种尝试非常成功，解决了GAN梯度爆炸等问题。然而，通过仔细检查这些生成的样本，尽管先进的ImageNet GAN模型擅长在结构约束较少的情况下生成图像类别(例如，海洋、天空和景观类别，这些类别更多地通过纹理而不是几何结构来区分)，它无法捕捉某些类别中持续出现的几何或结构模式，这就使得它难以进行复杂的超分辨率任务。

生成对抗网络包括两种模型，分别是生成器G和判别器D，它们的训练同时进行：通过训练D使训练样本和来自G的样本的正确标签的概率最大化；同时通过最小化log(1-D(G(z)))来调整生成器G的参数。

Christian Ledig等人在2017年首次提出将残差网络融入到GAN中来加强模型的学习效率，残差网络的思想是将原来的输入加到经过卷积操作后的输出上，这样可以稳定训练，保证网络不会丢失原先已经学习到的细节，同时也让网络的学习深度有了较大的提升，使网络的学习精度有了长足的进步。Christian Ledig等人同时提出将这种新型的网络运用到超分辨率(Super-Resolution，SR)的场景当中，在这之前SR的任务的效果都难以满足人们的要求，而这篇论文的结果直接获得了sota(state of the art)。

不过这个方法面向的是拥有较多数据集的情况下，它在小样本场景下的生成效果并不令人满意。

发明内容

本发明的目的是针对上述已有技术存在的不足和缺陷，在小样本图像集实现超分辨率的任务中，提供了一种面向小样本图像集的超分辨率图像重构方法。

本发明采用的技术方案是：一种面向小样本图像集的超分辨率图像重构方法，本发明面向的对象是小样本图像集、本发明使用多层GAN组成的串行金字塔结构来训练；

金字塔GAN中包括多尺度生成模块和多尺度判别模块，其中生成器使用的是以卷积神经网络为基础的残差神经网络；

多尺度生成模块，包括多层的样本空间生成器G_N～G₀；

多尺度鉴别模块，包括多层的样本空间判别器D_N～D₀；

在基础的生成对抗学习模型的前提下，基于卷积神经网络并融合残差网络的新型GAN在对待超分辨率这一任务时表现出了较好的效果。这种新型的GAN保证了模型对图像学习的稳定性，保证模型不会出现梯度爆炸的现象，同时还降低了模型训练的时间，大大提升了模型的性能。

通过结合上述的方法，提出一种串行的多尺度GAN金字塔训练结构，这个结构根据不同尺度对应的不同尺寸就行对应的学习，上一个尺寸的图像训练完成才进行下一层的训练，将上一层的输出上采样后作为下一层的输入进行学习。这个结构提高了模型对图像细节的学习精度，让模型非常适合小样本领域，同时也非常适用于超分辨率这一训练场景。

整体的方法架构如图1所示，整体的训练用公式表示为：

其中，

为金字塔GAN中每一层生成器G_n的输出图像，G_n()表示生成器的生成过程，z_n表示高斯噪声，

表示上一层输出图像的上采样。因为第N层没有上一层的输出，所以这一层的输入只有高斯噪声z_N，具体公式如下：

其中，

为金字塔GAN中第N层生成器G_N的输出图像，G_N()表示生成器生成过程，z_N表示高斯噪声。

上述的公式再细化可以得到以下公式：

其中，

为金字塔GAN中每一层生成器G_n的输出图像，

表示上一层GAN输出图像的上采样，ψ_n()表示由5个Conv(3×3)-BatchNorm-LeakyReLU卷积块组成的完全卷积网络。在训练阶段的最低尺度中，每个卷积块包括32个卷积核，每经过4个尺度，卷积核的数量翻倍。因为生成器是完全卷积的，所以可以在测试时生成任意大小和纵横比的图像(通过改变噪声图的维度)。

上述方法的具体步骤如下：

(1)在训练开始阶段，先对图像进行预处理，选择一个特定的比例1/r把原始的真实图像进行N次迭代下采样，下采样使用求像素均值的方法。得到迭代后的共N+1个尺度的图像，将这N+1个尺度图像保存为I₀～I_N，I₀是原始图像，I_N是N次下采样后尺寸最小的图像，这些图像将作为各级判别器的输入。

(2)图像预处理过后，开始第N层的GAN(生成对抗网络)学习，第N层生成器G_N的输入为一个和I_N尺寸相同的高斯噪声图像z_N，之后第N层生成器G_N通过学习后生成质量较低的图像

再把图像

和步骤(1)中得到的下采样后的真实图像I_N作为第N层判别器的输入，判别器判别后促使生成器改进生成效果，不断的更新生成图像，使最后的生成图像更接近于输入的真实图像I_N，本层训练结束得到更新完成后质量最高的生成图像

(3)下面开始第N-1层GAN的训练，在第N层GAN训练完毕后，将该层的输出图像

用双线性插值法进行比例为r的上采样，将得到的图像

和相同尺寸的高斯噪声图像z_N-1作为生成器G_N-1的输入进行学习，然后得到生成的质量较低的图像

然后把

和真实图像I_N-1作为判别器D_N-1的输入进行判别，和G_N-1进行对抗，最后得到更新完成后质量较高的生成图像

(4)迭代的运行步骤(3)，对每一个尺度的图像都进行训练，到第0层训练完成后结束迭代，这时我们就得到了包括最小尺度的G_N到最大尺度的G₀共N+1个尺度的生成器，这时代表本模型的训练阶段结束。

(5)训练阶段结束后，并不能立即进行超分辨率操作。在进行实际的测试时，会对输入图像进行二次训练。二次训练的过程和一次训练的类似，不过训练尺度不同，都是先运行步骤(1)和(2)，然后迭代的运行步骤(3)(4)，直到训练结束。

(6)二次训练结束后，得到训练好的生成器G₀，通过G₀生成超分辨率重构后的图像，在本发明中，设置生成超分辨率的倍数为4倍，所以最后生成的图像是放大四倍并且细节更清晰的图像。

在步骤(2)(3)中判别器返回的损失定义为两个部分，分别是对抗损失和重构损失。对抗损失就是生成器G和判别器D的基于代价函数L(G，D)的极大极小博弈的训练过程，这里用

来表示。重构损失是指图像在经过生成器G中的卷积或反卷积等操作时，会损失一些图像精度，这里用αL_rec(G)来表示，其中α表示的是残差网络中规定的学习率。

把上述的损失函数加在一起，就构成了每一层GAN中的损失函数，可以得到以下的计算公式为：

其中，

表示的是每一层GAN中的生成器G_n和判别器D_n在进行基于函数L_adv(G，D)的极大极小博弈，这个函数实际上是通过计算均方误差来得到的，αL_rec(G_n)中α是残差网络中规定的学习率，L_rec(G_n)表示的是生成器G_n在生成过程中的损失，具体计算公式如下：

其中，

表示的是上一层的输出

进行比例为r的上采样，

表示生成器G_n的生成结果，I_n是这一层的真实图像，||||²表示的是||||中的公式取范数后平方。因为金字塔的第N层的输入只有高斯噪声z_N，所以这一层L_rec(G_N)计算公式为：

L_rec＝‖G_N(z_N)-I_N‖²

其中，G_N(z_N)表示的是第一层生成器G_N的生成结果，z_N表示的是第N的输入噪声，I_N是这一层的真实图像，||||²表示的是||||中的公式取范数后平方。

进一步地，步骤(2)、(3)中所述的GAN模型是由生成器G_0-N和判别器D_0-N组成，其架构详见图2、3。具体运行步骤包括：

(2.1)生成器G_n的输入为高斯噪声z_n和上一层输出的上采样

(2.2)根据残差网络的思想，在生成器G_n中要进行多次迭代，如图2所示，图中的Conv层表示每次迭代操作，每次迭代包括卷积层Conv，归一化层BN和激活层ReLU。对生成器G_n的输入进行迭代，每隔5次迭代后得到一个张量，然后将得到的张量以一定比例和输入图像

所表示的张量相加，得到最终的张量，然后再将这个张量转化成图像作为生成器G_n的输出

(2.3)通过步骤(2.2)得到生成器G_n的输出图像

再结合真实图像I_n组成判别器D_n的输入，之后判别器D_n的结构和生成器G_n类似，如图3所示，不过在5个Conv卷积层后会有一个全连接层(Dense)，这个层是根据权重来分类的，Dense全连接层后跟一个ReLU激活函数，然后再跟一个Dense全连接层，最后是一个Sigmoid激活层，这个层的作用是用来实现前向或后向的计算。判别器D_n的作用是判断

和真实图像I_n是否相近，如果相差较大的话判别器D_n会返回一个损失函数，并促使生成器G_n重新生成，直到生成的结果可以通过判别器。

本发明的有益效果是：提出了一种新型的GAN金字塔结构，并且结合以卷积神经网络的残差网络为基础组成的新型GAN。首先，本发明增强了模型训练的稳定性，大大降低了出现梯度爆炸情况的概率。第二，本发明加深了模型网络的可训练深度，这使得网络对图像细节的学习有了极大的进步。第三，GAN金字塔结构串行训练，每一层对应不同的尺度和尺寸，从小到大依次训练，上一层输出的上采样作为下一层的输入，串联起各层的训练。这个设计大大提高模型对每张图像的学习效果。最后，通过上述的设计，本发明适用于很多小样本图像乃至单图像领域的任务，本发明选取小样本图像领域的超分辨率这一具有挑战的任务，取得了较好的效果。

附图说明

图1是基于小样本图像的GAN金字塔结构训练的超分辨率学习方法框架图；

图2是GAN金字塔中每层GAN的生成器G_n的结构图；

图3是GAN金字塔中每层GAN的判别器D_n的结构图；

图4是本发明与其他先进的对抗学习网络以小样本中一张图片为例所做的对比实验结果。

具体实施方式

下面结合附图和在小样本数据集上的训练对发明内容作进一步说明。

实施例1：如图1-4所示，一种面向小样本图像集的超分辨率图像重构方法，本发明使用多层GAN组成的串行金字塔结构来训练；

本发明在训练前会进行图像的预处理，会将原始的输入图片进行N次的下采样，原始图像记为I₀，第一次下采样得到的图像记为I₁，以此类推，最后一次下采样得到的图像记为I_N。

在多层GAN组成的串行金字塔结构中，每一层代表一个尺度，每一个尺度运用不同尺寸的图像进行训练，分别对应上述图像预处理的结果I_0～N。

训练时从最小的尺度I_N开始，所以把第N层GAN中的生成器记为G_N，判别器记为D_N，训练完毕后将得到的输出

用双线性插值法进行上采样，，之后把上采样得到的图像作为第N-1层GAN的输入。这个过程以此类推，最后一层，也就是第0层GAN使用的尺度就是I₀，故这一层的生成器记为G₀，判别器记为D₀，具体流程可以参考图1。

在多层GAN组成的串行金字塔结构中，包括多尺度生成模块和多尺度鉴别模块，其中生成器使用的是以卷积神经网络为基础的残差神经网络；

多尺度生成模块，包括多层的样本空间生成器G_N～G₀；

多尺度鉴别模块，包括多层的样本空间判别器D_N～D₀；

所述方法的网络结构如图1所示，具体运行步骤如下：

再把图像

用双线性插值法进行比例为r的上采样，将得到的图像

然后把

对步骤(2)、(3)进行详细讨论，其具体运行步骤包括：

(2.1)生成器G_n的输入为高斯噪声z_n和上一层输出的上采样

(2.3)通过步骤(2.2)得到生成器G_n的输出图像

本发明有着广泛的应用领域，不止可以应用在超分辨率这一任务上，在其他很多图像生成范围内的热门任务都可以使用，例如风格迁移、图像填充、Paint-to-Image、图像融合等。本发明着眼于小样本领域，针对小样本图像领域存在的数据集不充足和图像信息缺失等问题进行解决，大大提高了小样本图像乃至单图像领域的超分辨率任务的生成效果，在基础图像稀缺的情况下得到可以满足人们要求的超分辨率图像。

本发明实验过程中，使用系统Ubuntu 18.04，采用硬件CPU为AMD Ryzen52600SiI-Core Processor 3.85GHz，编程语言为Python 3.6，显卡为英伟达GeForce RTI2070，深度学习框架为Pytorch 1.4。所用数据集为小样本模糊数据集BSD100，图片都是清晰图片经过模糊处理后得到的，分辨率集中在80×80像素到120×120像素之间。本发明与其他先进的对抗学习网络以此数据集为例所做的对比实验结果如图4，对比实验结果评估参数如下表：

模型	RMSE	NIQE
			EDSR	12.29	6.50
DIP	13.82	6.35
			ZSSP	13.08	7.13
本发明	16.22	3.71

其中：RMSE为Root Mean Squared Error，是均方误差的意思，在这里用于评估生成图像的质量，数值越大越好；NIQE为Natural image quality evaluator，用于评估生成图像和原始图像的失真程度，数值越小越好。

综上所述，根据本发明实施的一种基于小样本图像的GAN金字塔结构训练的超分辨率学习方法，是一种使用新型的以卷积神经网络为基础的残差网络组成的生成对抗网络(GAN)，利用这种新型GAN构建一个存在多个尺度的GAN金字塔结构。与之前的方法不同，本发明采用不同尺度串行训练的结构，上一层的输出上采样后作为下一层的输入进行训练，这样的结构让不同的尺度的训练可以有机的联系起来，不再是毫无联系的并行训练，加强了模型对每张图像的学习效果，进一步增强了图像的细节生成效果，在数据集较少的情况下取得了令人满意的效果。

本发明着眼于小样本学习在超分辨率场景下的应用，提高了在训练图像稀缺情况下获得超分辨率图像的清晰度，减少了训练时间和训练样本的数量，使重构图像质量得到了提升和保证。本发明的实际应用价值很高，比如追查犯罪嫌疑人时，原来的图片不够清晰且数量很少，这时可以用本发明生成高像素的清晰图片，还可以用于老照片清晰度提升等场景。

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不局限于上述实施方式，在进行不同任务场景的开发时，可以对本发明进行一定的改进，根据不同任务侧重点的不同来设计模型的结构，或者选择不同的训练尺度来调整图像学习的效率。

Claims

1.一种面向小样本图像集的超分辨率图像重构方法，其特征在于：面向的对象是小样本图像集、使用多层GAN组成的串行金字塔结构来训练；

多尺度生成模块，包括多层的样本空间生成器G_N～G₀；

多尺度判别模块，包括多层的样本空间判别器D_N～D₀；

所述方法的具体步骤如下：

(1)在训练开始阶段，先对图像进行预处理，选择一个特定的比例1/r把原始的真实图像进行N次迭代下采样，下采样使用求像素均值的方法，得到迭代后的共N+1个尺度的图像，将这N+1个尺度图像保存为I₀～I_N，I₀是原始图像，I_N是N次下采样后尺寸最小的图像，这些图像将作为各级判别器的输入；

(2)图像预处理过后，开始第N层的GAN学习，第N层生成器G_N的输入为一个和I_N尺寸相同的高斯噪声图像z_N，之后第N层生成器G_N通过学习后生成质量较低的图像

再把图像

和步骤(1)中得到的下采样后的真实图像I_N作为第N层判别器的输入，判别器判别后促使生成器改进生成效果，不断的更新生成图像，本层训练结束得到更新完成后质量最高的生成图像

用双线性插值法进行比例为r的上采样，将得到的图像

然后把

(4)迭代的运行步骤(3)，对每一个尺度的图像都进行训练，到第0层训练完成后结束迭代，这时得到了包括最小尺度的G_N到最大尺度的G₀共N+1个尺度的生成器，这时代表本模型的训练阶段结束；

(5)训练阶段结束后，对输入图像进行二次训练，二次训练的过程为：采用不同的训练尺度，重复进行步骤(1)至步骤(4)，直到训练结束；

2.根据权利要求1所述的一种面向小样本图像集的超分辨率图像重构方法，其特征在于：步骤(6)中设置生成超分辨率的倍数为4倍。

3.根据权利要求1所述的一种面向小样本图像集的超分辨率图像重构方法，其特征在于：以卷积神经网络为基础的残差神经网络，其具体运行步骤包括：

(2.1)生成器G_n的输入为高斯噪声z_n和上一层的上采样图像

(2.2)根据残差网络的思想，在生成器G_n中要进行多次迭代，每次迭代包括卷积层Conv，归一化层BN和激活层ReLU，对生成器G_n的输入进行迭代，每隔5次迭代后得到一个张量，然后将得到的张量以一定比例和输入图像

(2.3)通过步骤(2.2)得到生成器G_n的输出图像

再结合真实图像I_n组成判别器D_n的输入，之后判别器D_n的结构和生成器G_n类似，不过在5个Conv卷积层后会有一个全连接层Dense，这个层是根据权重来分类的，Dense后跟一个ReLU激活函数，然后再跟一个Dense，最后是一个Sigmoid激活层，这个层的作用是用来实现前向或后向的计算，判别器D_n的作用是判断

和真实图像I_n是否相近，如果相差较大的话判别器D_n会返回一个损失函数，并促使生成器G_n重新生成，直到生成的结果可以通过判别器；

在步骤(2.2)中，生成器G_n生成图像的过程可以用以下公式理解：

其中，

表示上一层输出图像的上采样，因为第N层没有上一层的输出，所以这一层的输入只有高斯噪声z_N，具体公式如下：

其中，

为金字塔GAN中第N层生成器G_N的输出图像，G_N()表示生成器生成过程，z_N表示高斯噪声；

上述的公式再细化可以得到以下公式：

其中，

为金字塔GAN中每一层生成器G_n的输出图像，

表示上一层GAN输出图像的上采样，ψ_n()表示由5个Conv(3×3)-BatchNorm-LeakyReLU卷积块组成的完全卷积网络，在训练阶段的最低尺度中，每个卷积块包括32个卷积核，每经过4个尺度，卷积核的数量翻倍，因为生成器是完全卷积的，所以可以在测试时通过改变噪声图的维度生成任意大小和纵横比的图像，这些Conv卷积块的运算公式为：

T＝ReLU(Conv^k×k(I))

其中，I为输入图像，ReLU为激活函数，Conv为卷积操作，k表示卷积核大小，T表示步骤(2.2)中每一次Conv卷积块运行后得到的高维向量。

4.根据权利要求3所述的一种面向小样本图像集的超分辨率图像重构方法，其特征在于：步骤(2.3)中，判别器返回的损失定义为两个部分，分别是对抗损失和重构损失，对抗损失就是生成器G和判别器D的基于代价函数L(G，D)的极大极小博弈的训练过程，这里用

来表示，重构损失是指图像在经过生成器G中的卷积或反卷积等操作时，会损失一些图像精度，这里用αL_rec(G)来表示，其中α表示的是残差网络中规定的学习率；

其中，

其中，

表示的是上一层的输出

进行比例为r的上采样，

表示生成器G_n的生成结果，I_n是这一层的真实图像，|| ||²表示的是|| ||中的公式取范数后平方，因为金字塔的第N层的输入只有高斯噪声z_N，所以这一层L_rec(G_N)计算公式为：

L_rec＝‖G_N(z_N)-I_N‖²

其中，G_N(z_N)表示的是第一层生成器G_N的生成结果，I_N是这一层的真实图像，|| ||²表示的是|| ||中的公式取范数后平方。