CN112435165A

CN112435165A - 基于生成对抗网络的两阶段视频超分辨率重建方法

Info

Publication number: CN112435165A
Application number: CN202011335855.1A
Authority: CN
Inventors: 吴爱国; 方仕奇; 侯明哲
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-02
Anticipated expiration: 2040-11-25
Also published as: CN112435165B

Abstract

本发明公开了基于生成对抗网络的两阶段视频超分辨率重建方法，包括用于生成高清帧的SR生成器和用于对SR生成器进行对抗训练的判别器；SR生成器生成高清帧的流程分为两个阶段(第一阶段和第二阶段)，在第一阶段中，通过对多个时间连续的低分辨率帧进行对齐和融合重建出当前时刻的参考帧对应的高分辨率帧，然后送往第二个阶段；在第二个阶段中，输入不仅为上一个阶段生成的高分辨率帧，还加上前一时刻的参考帧对应的高分辨率重建帧，然后将这两帧进行对齐和融合，生成最终的高清帧。本发明充分利用了前后帧与生成帧之间的空间与时间上的关联信息，在确保SR图像更接近原始图像的同时，具有网络结构简单、重建流程简洁的优点，大幅提高了重建的效率。

Description

基于生成对抗网络的两阶段视频超分辨率重建方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及的是为解决视频的超分辨率重建任务提出一种基于生成对抗网络的两阶段视频超分辨率重建方法。

背景技术

实际成像系统(如CCD、CMOS图像传感器、红外成像仪等)采集的数字图像，一方面受传感器排列密度等硬件实现条件和成本的限制，采集的图像分辨率较低；另一方面在成像过程受诸多因素影响(如光学系统相差、大气扰动、运动、离焦、系统噪音等)还会使图像发生模糊、变形等质量退化现象。传统的图像复原技术虽然可以从一定程度上改善退化图像的质量，但并不能改变复原图像的分辨率。另外，高分辨率图像在诸多领域有着重要应用，超分辨率复原技术(Super-Resolution，SR)即是在此背景下提出来的。

所谓超分辨率复原，即是通过信号处理的方法，在提高图像的分辨率的同时改善采集图像质量。文章Frame-Recurrent Video Super-Resolution提出了一种基于RNN循环结构的超分辨率网络框架；文章EDVR:Video Restoration With Enhanced DeformableConvolutional Networks中使用了多帧融合的策略来进行视频的超分辨率重建，并提出使用PCD Align Module进行多视频帧之间的对齐并通过TSA Fusion Module将对齐后的特征进行融合。文章Real-Time Single Image and Video Super-Resolution Using anEfficient Sub-Pixel Convolutional Neural Network则提出了亚像素卷积层(Sub-pixel Convolution Layer)对重建的特征进行上采样得到高分辨率结果。

现有的基于深度学习的超分辨率算法主要有两种结构，即基于多视频帧融合的结构与基于RNN的循环结构。然而，在基于多帧融合的模式中，只考虑到输入的低清帧与其相邻帧之间的关系，忽略了前后两帧生成的高清帧之间的联系，导致网络并不能充分的利用输入数据与输出数据；而在基于RNN的循环模式中，通常是将前一帧的生成结果与当前帧一起通过生成器网络重建出当前帧的高清结果，这种做法虽然充分利用了生成的高清帧，但同时也忽略了输入的低清帧与其相邻帧之间的联系。

此外，专利公开号：CN111429355A提出了一种基于生成对抗网络的图像超分辨率重建方法，其是通过设计两个生成器(深层生成器和浅层生成器)、两个判决器(深层判决器和浅层判决器)，利用深层生成器和浅层生成器处理低分辨率图片，得到深层特征图和浅层特征图，并通过逐元素相加的方式将深层特征图和浅层特征图进行融合，融合后的特征图经特征映射生成高分辨率的预测图片；同时，将生成器生成的高分辨率预测图片与原始的高分辨率图片同时并行输入深层判决器和浅层判决器以预测图片的真实或者虚假概率。该方案同样忽略了前后两帧生成的高清帧之间的联系，其是通过设计复杂的网络结构(设计了两个生成器、两个判决器)，并且在生成器和判决器中都加入了二阶通道注意机制和空间注意机制的双注意机制(用于输出两个大小相同的输出特征图，以便特征的融合)，所以该方案虽然能充分利用原始的低分辨率图像，使得最终的SR图像更接近原始图像，但整个重建流程较为繁杂。

发明内容

针对上述现有技术的不足，本发明提供了一种基于生成对抗网络的两阶段视频超分辨率重建方法，具有能充分利用前后帧与生成帧之间的空间与时间上的关联信息、并且重建流程简单的优点。

为实现上述目的，本发明采用的技术方案如下：

基于生成对抗网络的两阶段视频超分辨率重建方法，包括用于生成高清帧的SR生成器和用于对SR生成器进行对抗训练的判别器，所述SR生成器生成高清帧的流程包括高分辨率帧生成阶段和高分辨率帧优化阶段，其中：

所述高分辨率帧生成阶段包括以下步骤：

(1)收集待超分重建的低分辨率视频序列，并将其分为多个无场景切换的子序列；

(2)为每一个子序列中的每一个视频帧都准备与其对应的前一帧和下一帧，得到两个辅助帧视频序列；

(3)从参考帧视频序列和辅助帧视频序列中按顺序各取一帧作为已经训练好的SR生成器的输入；

(4)SR生成器接收3帧连续的低分辨率帧并进行对齐和融合，重建出当前时刻的参考帧对应的高分辨率帧，然后送入高分辨率帧优化阶段；

(5)循环步骤(3)、(4)，重建出多个连续时间的参考帧对应的高分辨率帧，然后送入高分辨率帧优化阶段；

所述高分辨率帧阶段是将高分辨率帧生成阶段重建的参考帧对应的高分辨率帧与前一时刻网络输出的高分辨率重建帧进行再次对齐和融合，生成最终的高清帧；

例如，SR生成器在高分辨率帧生成阶段接收3帧连续的低分辨率帧[x_t-1,x_t,x_t+1]；而后，经过重建后得到参考帧x_t对应的高分辨率帧g′_t；接着，将g′_t与前一帧参考帧x_t-1对应的生成结果g_t-1一起送入高分辨率帧优化阶段的网络，当t＝1时，g₀使用0来填充；最后，经过高分辨率帧优化阶段对g′_t进行优化后得到当前参考帧最终的高分辨率重建帧g_t，此时更新g_t-1为g_t，并开始第(t+1)帧的生成。

所述判别器与SR生成器的对抗训练过程如下：

(a)将训练集中每一个视频序列分为多个无场景切换的子序列，并对每个视频序列中的高清视频帧进行指定倍率的下采样得到低清视频序列；

(b)对训练数据进行数据增强，并对增强后的数据进行归一化处理；

(c)训练开始时首先初始化(例如采用Kaiming初始化方法)网络中各层卷积层的参数，之后给SR生成器网络输入batch_size个视频序列；

(d)将SR生成器生成的高清帧与真实的高清帧一起输入至判别器进行处理；

(e)将判别器处理后的输出结果用于计算判别器损失与生成器的对抗损失，同时根据生成的高清帧与真实的高清帧计算生成器的感知损失与内容损失，并对损失函数进行迭代优化；

(f)达到最大训练迭代次数后，保存模型，完成整个训练过程。

具体地，所述步骤(4)中，采用残差学习模式对多个时间连续的低分辨率帧进行对齐和融合，即：将低分辨率帧输入到一个对齐和融合模块中，通过该模块学习到参考帧经过特定的上采样之后与目标高清帧的残差，然后将学习到的残差与上采样之后的参考帧进行逐像素相加，得到高分辨率帧生成阶段的高分辨率帧。

具体地，所述高分辨率帧优化阶段采用残差学习模式对重建的高分辨率帧与前一时刻送入的高分辨率帧进行对齐和融合，即：将高分辨率帧生成阶段的高分辨率帧g′_t与前一时刻网络输出的高分辨率重建帧输入到另一个对齐和融合模块中，通过该模块学习到g′_t与目标高清帧的残差，然后将学习到的残差与g′_t进行逐像素相加得到最终的高清帧。

进一步地，所述步骤(b)中，采用随机翻转和随机裁剪的方法对训练数据进行数据增强。

作为优选，所述步骤(d)中，输入至判别器的数据中，生成的高清帧与真实的高清帧比例为1∶1，并且以低清帧作为条件输入执行前向过程。

再进一步地，所述判别器为时空判别器，其采用VGG网络结构，并在VGG网络的头部加入非局部残差块。

具体地，所述非局部残差块按照如下公式计算：

y_i＝x_i+w(y′_i)

式中，x表示输入的数据；y表示输出；i表示输出数据的每个元素的索引；j表示所有可能的位置，在图像中就代表每一个像素点的位置索引；函数f(·)计算得到一个标量，表示两个输入之间的关系；函数g(·)、w(·)作为输入的一种表示形式，其分别使用一个卷积核大小为1×1的卷积来实现；C(x)作为归一化参数，使用高斯函数来表示两个输入之间的关系，即

此时归一化参数

作为优选，所述步骤(e)中，使用Adam优化器迭代优化损失函数。

与现有技术相比，本发明具有以下有益效果：

(1)本发明充分利用了前后帧与生成帧之间的空间与时间上的关联信息，并结合判别器进行对抗训练，最终可以生成具有丰富纹理信息的高清视频序列。本发明在确保SR图像更接近原始图像的同时，具有网络结构简单(仅需一个SR生成器和一个判别器)、无需在生成器和判别器中引入双注意机制、重建流程简洁的优点，大幅提高了重建的效率。

(2)本发明在归一化处理前，先采用随机翻转和随机裁剪的方法对训练数据进行数据增强，这样做不仅减少了在训练过程中网络模型对于每一个mini batch的计算时间，还从侧面增加了数据集的复杂度，充分确保了训练的有效性。

(3)本发明中，输入至判别器的数据中，生成的高清帧与真实的高清帧比例为1∶1，并且以低清帧作为条件输入执行前向过程，从而可以有效增强判别器的鉴别能力。

(4)本发明中的判别器采用VGG网络结构，并在VGG网络的头部加入了非局部残差块，如此可以直接获取长程时空关联性，从而使判别器能够更好地捕捉到前后帧与生成帧之间的时间关联性和每帧帧内的空间关联性。

附图说明

图1为本发明-实施例的网络结构示意图。

图2为本发明-实施例中判别器网络的输入示意图。

图3为本发明-实施例中的网络训练流程图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的实施例包括但不限于以下实施例。

实施例

本实施例提供了一种基于生成对抗网络的两阶段视频超分辨率重建方法，适用于视频图像的超分辨率复原，其网络结构如图1所示，包括SR生成器和判别器。

所述的SR生成器用于生成高清帧，其生成高清帧的流程包括高分辨率帧生成阶段和高分辨率帧优化阶段。在高分辨率帧生成阶段(第一阶段)中，首先将低分辨率帧输入到一个对齐和融合模块(Align and Fusion Module)，通过该模块学习到参考帧经过特定的上采样之后与目标高清帧h_t的残差，然后将学习到的残差与上采样之后的参考帧进行逐像素相加，得到第一阶段的高分辨率生成帧g′_t。

上述使用的Align and Fusion Module中，包含了Feature Extractor(特征提取模块)、PCD Align Module(PCD对齐模块)、TSA Fusion Module(TSA融合模块)和Reconstruction Module(重建模块)。Feature Extractor通过使用多个连续的残差块对输入的原始数据进行特征提取，PCD Align Module接收Feature Extractor输出的特征图，并将相邻帧的特征图一一与参考帧进行对齐，TSA Fusion Module对经过PCD Align Module对齐后的特征图进行融合并将结果送往Reconstruction Module。在ReconstructionModule中通过使用多个连续的残差块对融合的特征进行重建并送入后续的上采样模块得到参考帧经过特定的上采样后与目标高清帧h_t的残差。

在高分辨率帧优化阶段(第二阶段)中，将上一阶段的高分辨率生成帧g′_t与前一时刻网络输出的高分辨率生成帧g_t-1输入到另一个Align and Fusion Module，通过该模块学习到g′_t与目标高清帧h_t的残差(即h_t-g′_t)，然后将学习到的残差与g′_t进行逐像素相加得到网络的最终输出高清帧g_t。

上述SR生成器网络的前向推理过程可以通过公式(1)、(2)表示为：

g′_t＝Bicubic(x_t)+Upsampling(C₁({x_t-1,x_t,x_t+1})) (1)

g_t＝g′_t+C₂({g_t-1,g′_t}) (2)

式中，C₁表示第一阶段中的Align and Fusion Module，C₂表示第二阶段的Alignand Fusion Module。在本实施例中，Reconstruction Module后的Upsampling(上采样)采用的是可学习的亚像素卷积层，C₁用来对输出的特征图进行4倍放大。

所述判别器用于对SR生成器进行对抗训练，如图2、3所示，其训练过程如下：

(1)获取训练集：将训练集中每一个视频序列分为多个无场景切换的子序列，并对每个视频序列中的高清视频帧进行指定倍率的下采样得到低清视频序列；

(2)数据预处理：先使用随机翻转和随机裁剪的方法对训练数据进行数据增强，由于模型的计算量每次裁剪时都是从低清图像中随机的裁剪出一个32×32大小的patch，对应高清图像中128×128大小的patch，因而这样做不仅减少了在训练过程中网络模型对于每一个mini batch的计算时间，还从侧面增加了数据集的复杂度；对训练数据进行数据增强后，对其进行归一化处理，归一化处理如式(3)所示：

式中，MinValue为RGB图像中的最小像素值0，MaxValue为最大像素值255；

(3)训练开始时首先采用Kaiming初始化方法初始化网络中各层卷积层的参数，之后给SR生成器网络输入batch_size个视频序列；

(4)根据SR生成器生成高清帧的方式得到当前batch的重建结果，并与真实的高清帧一起送入判别器，判别器的训练数据为生成的高清帧和真实的高清帧，并以低清帧作为条件输入进行前向过程；判别器输入数据中，50％为真实数据，50％为生成的数据，如图2所示；

(5)将判别器对生成的高清帧帧和真实的高清帧的输出结果用于计算判别器损失

与生成器的对抗损失

同时根据重建的高清帧与真实的高清帧计算生成器的感知损失L_percep与内容损失L_SR，并使用Adam优化器迭代优化损失函数；其中，感知损失与内容损失计算公式如式(4)、(5)所示：

L_SR＝ρ(y-SR(x) (4)

式中，

ε为常数项，通常设定为10^-3；y表示真实的高分辨率帧；x表示网络输入的低分辨率帧；

代表输入为x的VGG-19网络中的第i层输出的特征图；

表示第i层损失的权值，这里的VGG-19网络采用的是在ImageNet数据集上预训练好的模型；

对于对抗损失，具体的形式如式(6)所示：

式中，D_Ra(y,g)＝σ(C(y)-E(C(g))，D_Ra(g,y)＝σ(C(g)-E(C(y))，σ为sigmoid函数用于将结果归一化为0-1之间，C(x)表示判别器的输出；最终生成器部分的总损失定义如式(7)所示：

对于判别器损失，计算公式如式(8)所示：

(6)达到最大训练迭代次数后，保存模型，完成整个训练过程。

本发明巧妙结合了多帧融合方法与RNN循环方法，充分利用了前后帧与生成帧之间的空间与时间上的关联信息，将超分辨率重建过程分为两个阶段，并使用对抗训练的模式来完成网络的训练。在第一阶段中，通过对多个时间连续的低分辨率帧进行对齐和融合，重建出多个时刻的参考帧对应的高分辨率帧，然后送往第二个阶段；在第二个阶段中，输入不仅为上一个阶段生成的高分辨率帧，还加上了前一时刻的参考帧所对应的高分辨率帧，然后将这两帧再进行一次对齐和融合，生成最终的高清帧。相比现有技术来说，本发明在确保SR图像更接近原始图像的同时，具有网络结构简单、重建流程简洁的优点，大幅提高了重建的效率。因此，与现有技术相比，本发明具有突出的实质性特点和显著的进步。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.基于生成对抗网络的两阶段视频超分辨率重建方法，包括用于生成高清帧的SR生成器和用于对SR生成器进行对抗训练的判别器，其特征在于，所述SR生成器生成高清帧的流程包括高分辨率帧生成阶段和高分辨率帧优化阶段，其中：

所述高分辨率帧生成阶段包括以下步骤：

所述判别器与SR生成器的对抗训练过程如下：

(c)训练开始时首先初始化网络中各层卷积层的参数，之后给SR生成器网络输入batch_size个视频序列；

2.根据权利要求1所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述步骤(4)中，采用残差学习模式对多个时间连续的低分辨率帧进行对齐和融合，即：将低分辨率帧输入到一个对齐和融合模块中，通过该模块学习到参考帧经过特定的上采样之后与目标高清帧的残差，然后将学习到的残差与上采样之后的参考帧进行逐像素相加，得到高分辨率帧生成阶段的高分辨率帧。

3.根据权利要求2所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述高分辨率帧优化阶段采用残差学习模式对重建的高分辨率帧与前一时刻送入的高分辨率帧进行对齐和融合，即：将高分辨率帧生成阶段的高分辨率帧g′_t与前一时刻网络输出的高分辨率重建帧输入到另一个对齐和融合模块中，通过该模块学习到g′_t与目标高清帧的残差，然后将学习到的残差与g′_t进行逐像素相加得到最终的高清帧。

4.根据权利要求3所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述步骤(b)中，采用随机翻转和随机裁剪的方法对训练数据进行数据增强。

5.根据权利要求1～4任一项所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述步骤(d)中，输入至判别器的数据中，生成的高清帧与真实的高清帧比例为1∶1，并且以低清帧作为条件输入执行前向过程。

6.根据权利要求5所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述判别器为时空判别器，其采用VGG网络结构，并在VGG网络的头部加入非局部残差块。

7.根据权利要求6所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述非局部残差块按照如下公式计算：

y_i＝x_i+w(y′_i)

此时归一化参数

8.根据权利要求1～7任一项所述的基于生成对抗网络的两阶段视频超分辨率重建方法，其特征在于，所述步骤(e)中，使用Adam优化器迭代优化损失函数。