CN112348745B

CN112348745B - 一种基于残差卷积网络的视频超分辨率重构方法

Info

Publication number: CN112348745B
Application number: CN202011350139.0A
Authority: CN
Inventors: 王丽; 徐立中; 严锡君; 沈洁; 李东新; 李昌利
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-10-14
Anticipated expiration: 2040-11-26
Also published as: CN112348745A

Abstract

本发明公开了一种基于残差卷积网络的视频超分辨率重构方法，包括：构建深度学习模型，其包括运动补偿、特征提取、重构网络：训练深度学习模型：训练模型中的改进的残差密集网络、特征提取网络和残差递归网络以获得最优的权值和偏置，得到能够实现低分辨率视频图像到高分辨率重构的深度学习模型；利用训练好的深度学习模型进行视频超分辨率重构。本发明不仅能够加快模型训练的速度，还能充分利用先前卷积层的层级特征；利用残差递归网络作为超分辨重构层，不仅能够减少训练参数，还能恢复高频细节信息；此外，利用感知损失作为额外的损失函数，可以更好地恢复纹理细节和提高图像重构的视觉效果，提升了图像空间超分辨重构效果。

Description

一种基于残差卷积网络的视频超分辨率重构方法

技术领域

本发明属于数字图像领域，涉及视频图像超分辨率重构技术，具体涉及了一种基于残差卷积网络的视频超分辨率重构方法。

背景技术

超分辨率图像重构(Super-Resolution Reconstruction,SRR)是一种通过信号处理方式来实现图像分辨率的提升，以及解决成像密度低和图像噪声等问题的技术。现阶段，由于图像/视频图像采集系统不仅受到传感器密度和尺寸的限制，还受到目标物体运动、光照变化及信号采集和处理过程中的其他干扰，因此，获得的视频空间分辨率较低。通过硬件的改善提高视频空间分辨率是最为简单的方法，但是高精度的视频传感器往往意味着高昂的成本。因此，为了克服硬件方法带来的缺陷，提出了利用软件方法来实现图像空间分辨率的提升。图像超分辨率重构是使用低分辨的单帧或多帧序列图像来重建一张高分辨率图像，高分辨率指图像的像素密度尽可能的高，并且尽可能多的包含图像高频信息。这样的图像可以更好的描述真实目标场景的细节信息，并给予人眼更良好的直观体验。由于计算机视觉发展也极大依赖于图像的采集和分析，因此对低分辨率图像进行超分辨率重构具有十分重要的理论意义和应用价值。

目前，图像超分辨率方法主要集中于单幅图像，对于连续多帧视频图像研究较少，虽然可将一些方法直接用于视频超分辨率重构，但是未能充分利用视频的帧间互补信息，导致超分辨率重构效果差。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于残差卷积网络的视频超分辨率重构方法，能够提升图像空间超分辨重构效果。

技术方案：为实现上述目的，本发明提供一种基于残差卷积网络的视频超分辨率重构方法，包括如下步骤：

S1：构建深度学习模型，其包括如下步骤：

A1：运动补偿：

对输入的低分辨率图像序列，将连续三帧

作为模型的输入，然后利用改进的残差密集网络预测上一帧/下一帧相对于中间帧的光流场，再采用双线性插值实现中间帧的运动补偿得到I_t-1 ^L′，I_t+1 ^L′；

A2：特征提取：

将运动补偿得到的两帧图像以及中间帧图像作为特征提取模块的输入，实现深层特征的提取；

A3：重构网络：

将步骤A2中提取的深层特征作为重构网络模块即残差递归网络的输入，最后利用上采样操作实现图像的超分辨率重构；

S2：训练深度学习模型：

将预处理好的训练集中的低分辨视频图像的连续三帧

作为深度学习模型的输入，对应的高分辨率视频图像作为目标高分辨图像

训练模型中的改进的残差密集网络、特征提取网络和残差递归网络以获得最优的权值和偏置，得到能够实现低分辨率视频图像到高分辨率重构的深度学习模型。

其中，改进的残差密集网络对低分辨视频图像序列进行运动补偿，生成运动补偿图像，并与中间帧进行改进的残差密集网络的损失函数

的计算。为了平滑空间位移场，

中加入了惩罚项Huber损失

残差递归网络将特征提取网络中获得的深层特征作为输入，以重构高分辨率视频图像，与目标高分辨率视频图像进行递归网络损失函数L_Re。

感知网络中将目标高分辨率视频图像和重构的高分辨率视频图像做感知损失函数L_p计算。深度学习模型进行多次迭代直至稳定后完成训练过程。

S3：利用训练好的深度学习模型进行视频超分辨率重构。

进一步地，所述步骤S2中训练集的预处理过程为：将具有高分辨率的视频图像序列进行数据增强，将原始视频图像序列和增强后的图像序列通过高斯模糊和下采样的过程生成对应的低分辨率图像序列，存储相对应的高分辨图像序列和低分辨率图像序列数据，作为整个网络的训练集。

进一步地，所述步骤S2中深度学习模型的训练过程如下：

A1：使用增益为

的正交初始化改进的残差密集网络的增益，使用标准高斯分布初始化残差递归网络权重，偏置均初始化为0；

A2：将连续三帧低分辨率视频图像

输入到改进的残差密集网络中，生成与中间帧大小一致的运动补偿图像I_t-1 ^L′，I_t+1 ^L′，再将运动补偿图像和中间帧级联作为特征提取网络的输入，特征提取网络输出的深层特征图像作为残差递归网络的输入，输出与目标高分辨率视频图像大小一致的输出图像；

A3：将改进的残差密集网络生成的运动补偿图像和中间帧做改进的残差密集网络的损失函数

残差递归网络生成的高分辨率图像和目标高分辨率图像分别做残差递归网络的损失函数L_Re和感知网络的损失函数L_p，依次迭代使得损失函数降低直至趋于稳定；

A4：训练整个深度学习模型，计算对应网络的损失函数，同时更新整个网络的参数，感知网络参与训练但不更新自身网络参数，直到所有损失函数趋于稳定，得到最终的视频图像超分辨率模型。

进一步地，所述步骤S3中训练好的深度学习模型的目标函数如下：

其中，α、β、γ为网络平衡参数，用于调整损失函数之间的比重，L_Re为残差递归网络均方误差损失函数，

为改进的残差卷积网络损失函数，

为Huber损失，L_p为感知损失。

进一步地，所述残差递归网络均方误差损失函数L_Re为：

其中，r为放大因子，W和H分别为视频图像的高和宽，

和

分别为目标高分辨率图像和网络生成的高分辨率图像。

进一步地，所述改进的残差卷积网络损失函数

为：

其中，

表示低分辨率图像中间帧，I_t+1 ^L′为通过残差卷积网络生成的相对于中间帧的运动补偿图像。

进一步地，所述Huber损失

为：

其中，Δ_t±1表示在t±1时刻对应于x和y方向上的两个特征，∈＝0.01。

进一步地，所述感知损失L_p为：

其中，

表示在ImageNet数据集上预训练好的Vgg19网络。

有益效果：本发明与现有技术相比，使用改进的残差密集网络作为预测上一帧/下一帧相对于中间帧的密集光流场，不仅能够加快模型训练的速度，还能充分利用先前卷积层的层级特征；利用残差递归网络作为超分辨重构层，不仅能够减少训练参数，还能恢复高频细节信息；此外，利用感知损失作为额外的损失函数，可以更好地恢复纹理细节和提高图像重构的视觉效果，提升了图像空间超分辨重构效果。

附图说明

图1是本发明基于残差卷积网络的视频超分辨率方法的原理总框图；

图2是本发明基于改进的残差密集网络的运动补偿模块；

图3是本发明基于卷积网络的特征提取模块；

图4是本发明基于残差递归网络的重构模块；

图5是本发明改进的残差密集块结构图；

图6是本发明重构图像的对比示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于残差卷积网络的视频超分辨率重构方法，如图1所示，其包括如下步骤：

1、训练集预处理：

首先对训练数据集在python软件上进行预处理操作，包括图像增强、高斯模糊和下采样操作，放大因子r可以是×2、×3或×4。然后将训练数据集的输入裁剪为32×32大小的子图像块，相应的目标高分辨图像裁剪为32r×32r。最后将这些处理后的训练数据集用h5py模块打包成h5py格式。

2、构建深度学习模型，其包括如下步骤：

A1：运动补偿：

对输入的低分辨率图像序列，将连续三帧

A2：特征提取：

A3：重构网络：

S2：训练深度学习模型：

将预处理好的训练集中的低分辨视频图像的连续三帧

训练模型中的改进的残差密集网络、特征提取网络和残差递归网络以获得最优的权值和偏置，得到能够实现低分辨率视频图像到高分辨率重构的深度学习模型。本实施例中放大因子可设置为×2、×3或×4。

具体的训练过程如下步骤A1～A4：

A1：使用增益为

A2：将连续三帧低分辨率视频图像

本实施例中训练好的深度学习模型的目标函数如下：

为改进的残差卷积网络损失函数，

为Huber损失，L_p为感知损失。

残差递归网络均方误差损失函数L_Re为：

其中，r为放大因子，W和H分别为视频图像的高和宽，

和

分别为目标高分辨率图像和网络生成的高分辨率图像。

改进的残差卷积网络损失函数

为：

其中，

表示低分辨率图像中间帧，I_t±1 ^L′为通过残差卷积网络生成的相对于中间帧的运动补偿图像。

Huber损失

为：

感知损失L_p为：

其中，

表示在ImageNet数据集上预训练好的Vgg19网络。

本实施例中先将级联的三帧利用一个3*3*24的卷积层提取浅层特征，然后将浅层特征输入到如图2所示的改进的残差密集网络中预测光流场，其中3*3表示卷积层滤波器大小，24表示卷积层滤波器个数。改进的残差密集网络是由D个改进的残差密集块(ImprovedResidual Dense Block，IRDB)组成，IRDB具体如图5所示，每个残差密集块包含了两个密集连接的卷积层，每个密集连接的卷积层包含两个卷积滤波器和一个激活操作。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置。同理，改进的残差密集块的个数也可以根据实际情况进行选择设置，最后根据光流场，利用双线性插值算法获得运动补偿的图像。

在如图3所示的特征提取网络(Feature Extraction Network，FFN)模块中,将中间帧，两幅运动补偿图像级联作为特征提取模块的输入。特征提取模块由1个1*1*24卷积滤波器，一个3*3*24的卷积滤波器和一个激活函数组成用于提取补偿帧和中间帧的深层特征作为重构模块的基础。

在如图4所示的基于残差递归网络(Residual Recursive Network，RRN)的重构(Reconstruction)模块中，将提取的深层特征输入到残差递归网络中并通过上采样实现视频图像的超分辨率重构。残差递归网络也是由G个残差递归块(Residual RecursiveBlock，RRB)组成，其中每块是由三个3*3*24的卷积滤波器和两个激活函数构成。每个残差递归块中通过权值共享实现特征的重复提取以减小网络的训练参数，最后通过上采样层输出高分辨率图像

在感知网络中，将最终生成的高分辨率图像

和目标高分辨率图像

输入到预训练好的Vgg19网络中，以提升视觉效果。Vgg19网络模型是在ImageNet数据集上训练，并且已经保存好相应的权值和偏置。

S3：利用训练好的深度学习模型进行视频超分辨率重构。

本实施例中将本发明方法与现有的方法进行试验对比，试验的对比结果数据如表1所示：

表1：在放大因子r＝4下比较标准Vid4数据集上的平均PSNR和SSIM值。

从表1中可以看出本发明方法相比现有技术中提到的方法在标准测试数据集Vid4上其平均峰值信噪比(PSNR)和结构相似性(SSIM)的值表现更好。(数值越大效果越好)

为了更加直观的体现本发明所提出方法的有效性，可视化数据集calendar下的第40帧图像的结果如图6所示。可以看出，本发明所提出方法与其他的三个方法相比，重构的图像与目标高分辨率图像较为接近且恢复出较好的细节，其感知效果非常好。所以本实施例证明了本发明方法的有效性，并且具备更好的重构效果。

Claims

1.一种基于残差卷积网络的视频超分辨率重构方法，其特征在于，包括如下步骤：

S1：构建深度学习模型，其包括如下步骤：

A1：运动补偿：

对输入的低分辨率图像序列，将连续三帧

改进的残差密集网络是由D个改进的残差密集块组成，每个残差密集块包含了两个密集连接的卷积层，每个密集连接的卷积层包含两个卷积滤波器和一个激活操作；卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置，同理，改进的残差密集块的个数也可以根据实际情况进行选择设置，最后根据光流场，利用双线性插值算法获得运动补偿的图像；

A2：特征提取：

A3：重构网络：

S2：训练深度学习模型：

将预处理好的训练集中的低分辨视频图像的连续三帧

训练模型中的改进的残差密集网络、特征提取网络和残差递归网络以获得最优的权值和偏置，得到能够实现低分辨率视频图像到高分辨率重构的深度学习模型；

S3：利用训练好的深度学习模型进行视频超分辨率重构。

2.根据权利要求1所述的一种基于残差卷积网络的视频超分辨率重构方法，其特征在于，所述步骤S2中训练集的预处理过程为：将具有高分辨率的视频图像序列进行数据增强，将原始视频图像序列和增强后的图像序列通过高斯模糊和下采样的过程生成对应的低分辨率图像序列，存储相对应的高分辨图像序列和低分辨率图像序列数据，作为整个网络的训练集。

3.根据权利要求1所述的一种基于残差卷积网络的视频超分辨率重构方法，其特征在于，所述步骤S2中深度学习模型的训练过程如下：

A1：初始化改进的残差密集网络的增益，使用标准高斯分布初始化残差递归网络权重，偏置均初始化为0；

A2：将连续三帧低分辨率视频图像