CN111311490B

CN111311490B - 基于多帧融合光流的视频超分辨率重建方法

Info

Publication number: CN111311490B
Application number: CN202010065267.4A
Authority: CN
Inventors: 郭敏; 方榕桢; 吕琼帅
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-03-21
Anticipated expiration: 2040-01-20
Also published as: CN111311490A

Abstract

一种基于多帧融合光流的视频超分辨重建方法，由采集数据集、构建运动补偿网络、超分辨率重建网络步骤组成。本发明在多帧融合光流网络中，对于输入的多帧，能够充分利用帧内空间相关性，能够弥补损失细节，用融合后的光流作运动补偿，补偿帧与学习目标相似。在超分辨率重建网络中，用三维尺度特征提取层和时空残差模块提取补偿帧的图像特征，并采用亚像素卷积，得到高分辨率视频帧。对多帧融合光流网络和视频超分辨率重建网络，同时进行端到端的训练。采集的视频帧之间的时空信息，能够表达视频帧信息融合的特征，重建出效果良好的高分辨率视频帧。可应用于卫星图像、视频监控、医学成像、军事科技等技术领域。

Description

基于多帧融合光流的视频超分辨率重建方法

技术领域

本发明涉及视频超分辨率技术领域，具体涉及到一种基于多帧融合光流和时空残差致密块的视频超分辨率重建方法。

背景技术

视频超分辨率方法是从低分辨率视频中生成高分辨率视频的方法，作为一种典型的计算机视觉问题，几十年来得到了广泛的研究。近些年，随着大量高清显示设备的涌现以及超高清分辨率的出现，进一步推动了视频超分辨率的发展。与此同时，它在卫星图像、视频监控、医学成像、军事科技也有很广泛的应用前景，已成为计算机视觉领域的热点研究问题之一。

传统的超分辨率方法有基于插值的方法，如最近邻插值，双线性插值以及双三次插值。这三种方法需要将固定的卷积核应用于给定的低分辨率输入，得到高分辨率图像中的未知像素值。但是这三种方法会产生振铃和锯齿伪影现象，不能较好地恢复丢失的高频分量，在恢复高频细节方面的效果欠佳，其结果不足以满足实际需求。

为了找到更好的方式来恢复丢失的信息，Dong等人率先提出了将深度学习用于超分辨率，利用三层卷积神经网络对低分辨率图像到高分辨率图像进行端到端非线性映射。但是若直接将其应用于视频超分辨率，会忽略视频帧之间的时空相关性，而这种时空相关性对视频超分辨率至关重要。

近些年，卷积神经网络开始应用于视频超分辨率。Tao等人提出了一种亚像素卷积操作，将低分率视频帧直接映射到高分辨率视频帧上，没有利用帧之间的相关信息。Jose等人研究了早期融合和慢融合用来处理时间维度，同时建立了一个基于空间变压器动作补偿模块，得到一个有效的视频超分辨运动补偿方法。Liu等人设计了时间自适应神经网络，来自适应地学习时间依赖性的最优尺度，但目前只是设计了一个简单的三层卷积神经网络结构，从而限制了性能。

目前视频超分辨率方法还存在一些问题：单视频帧超分辨率方法图像之间独立，对视频帧中的每一张图像进行单独处理，最后再合成整个视频，这些方法忽视了视频帧之间的时间相关性，损失了很多细节。多视频帧超分辨率方法虽然考虑了视频帧之间的时间相关性，但这些方法模型增多了很多计算成本，在一定程度上限制了视频超分辨率的发展。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种分辨率高、计算速度快、运算成本低的基于多帧融合光流的视频超分辨率重建方法。

解决上述技术问题所采用的技术方案是由下述步骤组成：

(1)采集数据集

在高分辨率数据集中的每一帧的RGB空间，按照下式转换为Y空间，得到单通道的高分辨率视频帧。

Y＝0.257R+0.504G+0.098B+16

其中R、G、B为三个通道。

从高分辨率视频帧中相同的位置截取长为h、宽为w的高分辨率视频帧作为学习目标，采用下采样方法缩小4倍，得到长为H、宽为W的低分辨率视频帧，为网络输入，h和w为有限的正整数，并将所有数据进行归一化处理。

(2)构建运动补偿网络

从低分辨率视频帧中选取5张时间连续的低分辨率视频帧I_t-2、I_t-1、I_t、I_t+1、I_t+2作为网络输入，I_t对应的高分辨率视频帧

作为学习目标，将I_t-2、I_t-1、I_t、I_t+1、I_t+2分为I_t-2、I_t-1、I_t和I_t、I_t+1、I_t+2两组，I_t-2、I_t-1、I_t作为第一组低分辨率输入帧输入到第一个多帧融合光流网络，得到一个长为h、宽为w的高分辨率融合光流，经过空深转换方法得到第一组低分辨率光流组；I_t、I_t+1、I_t+2作为第二组低分辨率输入帧输入到第二个多帧融合光流网络，得到一个长为h、宽为w的高分辨率融合光流，通过空深转换方法得到第二组低分辨率光流组，两组低分辨率光流分别对I_t采用运动补偿方法，得到一组低分辨补偿帧f′_t，构建成运动补偿网络。

(3)超分辨率重建网络

将低分辨率补偿帧通过三维尺度特征提取层，得到三维尺度特征图，输入到三个串联的时空残差致密块，将三个时空残差致密块的输出在通道维数上拼接得到全局残差特征图，经亚像素卷积层，得高分辨率视频帧I^SR。

在本发明的构建运动补偿网络步骤(2)中，所述的第一个多帧融合光流网络由PWC-Net光流估计网络和融合模块构建成。其构建方法为：将输入的I_t-2、I_t-1、I_t三帧分为I_t-2、I_t-1和I_t-1、I_t两组，输出到只有四层金字塔的PWC-Net光流估计网络，得到两个分辨率与学习目标相同的高分辨率光流估计，I_t-1到I_t的光流估计作为基本信息，I_t-1到I_t-2的光流估计作为补充信息融合到I_t-1到I_t的光流估计，得到一个分辨率与学习目标相同的高分辨率融合光流f_t-1→t；同时将输入的I_t、I_t+1和I_t+2三帧分为I_t、I_t+1和I_t+1、I_t+2两组，输出到只有四层金字塔的PWC-Net光流估计网络，I_t+1到I_t的光流估计作为基本信息，I_t+1到I_t+2的光流估计作为补充信息融合到I_t+1到I_t的光流估计，得到另一个分辨率与学习目标相同的高分辨融合光流f_t+1→t。

在本发明的构建超分辨网络(3)中，所述的三维尺度特征提取层的构建方法为：低分辨率补偿帧分别用大小为1×1×1、3×3×3、5×5×5的三维卷积进行三维尺度特征提取，得到三维尺度特征，将三维尺度特征在通道维数上拼接，构建成三维尺度特征提取层。

在本发明的构建超分辨网络(3)中，所述的时空残差致密块由3个相同的时空残差块依次相连并与1×1×1的三维卷积层连接构成；所述的时空残差块由Prelu激活函数、1×3×3的三维卷积、3×1×1的三维卷积、三维通道注意力模块依次相连构成，第一个时空残差块的输出O₁、第二个时空残差块的输出O₂、第三个时空残差块的输出O₃、时空残差致密块的输出O为：

O₁＝H₍(W_1,t(W_1,d(σ[O′])))

O₂＝H₂(W_2,t(W_2,d(σ[O′,O₁])))

O₃＝H₃(W_3,t(W_3,d(σ[O′,O₁,O₂])))

O＝W(Φ(O′,O₁,O₂,O₃))+O＇

其中O＇为时空残差致密块的输入，σ为Prelu激活函数，W_1,d为第一个时空残差块中大小为1×3×3的三维卷积层，W_2,d为第二个时空残差块中大小为1×3×3的三维卷积层，W_3,d为第三个时空残差块中为1×3×3的三维卷积层，W_1,t为第一个时空残差块中为3×1×1三维卷积层，W_2,t为第二个时空残差块中大小为3×1×1三维卷积层，W_3,t为第三个时空残差块中为3×1×1三维卷积层，H₁为第一个时空残差块中的三维通道注意力模块，H₂为第二个时空残差块中的三维通道注意力模块，H₃为第三个时空残差块中的三维通道注意力模块，Φ为在通道维度上的拼接，W为1×1×1的三维卷积层。

本发明的三维通道注意力模块的构建方法为：将C×F×H×W的补偿帧作为输入，F为帧数，C为通道数，依次通过1×1×1的池化层、1×1×1的第一卷积层、1×1×1的第二卷积层、激活层，得到C×1×1×1的特征图，并和输入的补偿帧进行点积运算，得到C×F×H×W的特征图，构建成三维通道注意力模块。

本发明采用在多帧融合光流网络中，输入多帧，能够充分利用帧内空间相关性，与一般的两帧光流估计网络相比，能够弥补损失的细节，并采用融合后的光流作运动补偿，补偿帧与学习目标相似。在超分辨率重建网络中，采用三维尺度特征提取层和时空残差模块提取补偿帧的图像特征，并采用亚像素卷积，得到最终的高分辨率视频帧。训练过程采用损失函数，对多帧融合光流网络和视频超分辨率重建网络，同时进行端到端的训练。本发明能够充分利用视频帧之间的时空信息，表达视频帧信息融合的特征，重建出效果良好的高分辨率视频帧。

附图说明

图1是本发明实施例1的流程图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述的实施例。

实施例1

以在CDVL数据集里选取30个随机场景作为高分辨率数据集为例，本实施例的基于多帧融合光流的视频超分辨率重建方法由下述步骤组成(参见图1)：

(1)数据集预处理

在高分辨率数据集30个场景中每个场景都保留20帧，每一帧的RGB空间，按照下式转换为Y空间，得到单通道的高分辨率视频帧。

Y＝0.257R+0.504G+0.098B+16

其中R、G、B为三个通道。

从高分辨率视频帧中相同的位置截取长为540、宽为960的高分辨率视频帧作为学习目标，采用下采样方法缩小4倍，得到长为135、宽为240的低分辨率视频帧，为网络输入，并将所有数据进行归一化处理。

(2)构建运动补偿网络

从低分辨率视频帧中随机选取5张时间连续的低分辨率视频帧I_t-2、I_t-1、I_t、I_t+1、I_t+2作为网络输入，I_t对应的高分辨率视频帧

作为学习目标，将I_t-2、I_t-1、I_t、I_t+1、I_t+2分为I_t-2、I_t-1、I_t和I_t、I_t+1、I_t+2两组，I_t-2、I_t-1、I_t作为第一组低分辨率输入帧输入到第一个多帧融合光流网络，得到大小为[1,1,540,960]的高分辨融合光流f_t-1→t，经过空深转换方法得到大小为[1,16,135,240]的16帧融合光流组；I_t、I_t+1、I_t+2作为第二组低分辨率输入帧输入到第二个多帧融合光流网络，得到大小为[1,1,540,960]的高分辨融合光流f_t+1→t，通过空深转换方法得到第二组大小为[1,16,135,240]的16帧融合光流组，两组低分辨率光流分别对I_t采用运动补偿方法，得到大小为[1,16,135,240]的16帧补偿帧

和大小为[1,16,135,240]的16帧补偿帧

并将

和I_t在帧数维数上拼接得到大小为[1,33,135,240]的一组低分辨率补偿帧f′_t。

所述的第一个多帧融合光流网络的构建方法为：将输入的I_t-2、I_t-1、I_t三帧分为I_t-2、I_t-1和I_t-1、I_t两组，输出到只有四层金字塔的PWC-Net光流估计网络，得到两个大小为[1,1,540,960]的高分辨率光流估计，I_t-1到I_t的光流估计作为基本信息，I_t-1到I_t-2的光流估计作为补充信息融合到I_t-1到I_t的光流估计，得到一个大小为[1,1,540,960]的高分辨融合光流f_t-1→t。

所述的第二个多帧融合光流网络的构建方法为：将输入的I_t、I_t+1和I_t+2三帧分为I_t、I_t+1和I_t+1、I_t+2两组，输出到只有四层金字塔的PWC-Net光流估计网络，得到两个大小为[1,1,540,960]的高分辨率光流估计，I_t+1到I_t的光流估计作为基本信息，I_t+1到I_t+2的光流估计作为补充信息融合到I_t+1到I_t的光流估计，得到一个大小为[1,1,540,960]的高分辨融合光流f_t+1→t。

此多帧融合光流网络，能够提供的新信息比仅仅两个相邻帧所能提供的信息更加充足，尤其是对于闭塞和边界像素，能够充分利用帧内空间相关性，与一般的两帧光流估计网络相比，能够弥补更多损失信息。

(3)超分辨率重建网络

将低分辨率补偿帧f′_t通过三维尺度特征提取层，得到大小为[9,33,135,240]的三维尺度特征图O′，输入到三个串联的时空残差致密块，将三个时空残差致密块的输出在通道维数上拼接得到大小为[27,33,135,240]的全局残差特征图O_A，输入到1×1×1的卷积层得到[1,16,135,240]的特征层并通过亚像素卷积得到[1,1,540,960]的高分辨率视频帧I^sR。

所述的三维尺度特征提取层的构建方法为：低分辨率补偿帧f′_t分别通过1×1×1的三维卷积、3×3×3的三维卷积、5×5×5的三维卷积进行三维尺度特征提取，得到大小依次为[1，33,135,240]、[3,33,135,240]、[5,33,135,240]的三维尺度特征图，然后将这三个三维尺度特征图在通道维数上拼接，得到大小为[9,33,135,240]的三维尺度特征图O′。

所述的时空残差块的构建方法为：三维尺度特征图O′通过第一个时空残差致密块，时空残差致密块由三个时空残差块、拼接操作和一个大小为1×1×1的三维卷积构成，三维尺度特征图O′先通过第一个时空残差块的Prelu激活函数、1×3×3的三维卷积层、3×1×1的三维卷积层，并输入到三维通道注意力模块，得到大小为[9,33,135,240]的

再通过第二个时空残差块，得到大小为[18,33,135,240]的

再通过第三个时空残差块，得到大小为[36,33,135,240]的

将O′,

在通道维度上拼接并卷积，再与O′残差连接，输出大小为[9,33,135,240]的特征图O¹。

第二个时空残差致密块和第三个时空残差致密块结构跟第一个时空残差致密块一样，可以依次输出大小为[9,33,135,240]的特征图O²和大小为[9,33,135,240]的特征图O³，

将特征图O¹、特征图O²、特征图O³在通道维数上拼接，得到大小为[27,33,135,240]的全局残差特征图O_A。

此时空残差致密块的层级连接方式，保证了连续的低级和高级信息的存储和记忆，每一个时空残差致密块的输出结果，包含了上一个模块的输出，以及所有的时空残差块之间的信息，保证了信息不丢失。

所述的三维通道注意力模块的构建方法为：将大小为[9,33,135,240]的特征图作为输入，通过1×1×1的池化层，得到[9,1,1,1]的特征图，通过1×1×1的第一卷积层，得到[3,1,1,1]的特征图，通过1×1×1的第二卷积层，得到[9,1,1,1]的特征图，通过激活层，得到[9,1,1,1]的特征图，并和输入的补偿帧进行点积运算，得到[9,33,135,240]的特征图，构建成三维通道注意力模块。

此三维通道注意力可以帮助模型对输入的特征图的每个通道赋予不同的权重，抽取出更加关键和重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的负担。

本发明采用一种损失函数，同时约束多帧融合光流网络和视频超分辨率重建网络，并通过Pytorch深度学习框架对所搭建的运动补偿网络以及超分辨率重建网络进行端到端的训练，通过Adam自适应算法对训练过程中的网络参数进行调节和优化。

L＝β(L₁+L₂)+L_SR

其中，

为I_t的学习目标，w为翘曲函数，L₁、L₂为两个多帧融合光流网络的损失函数，L_SR为视频超分辨率重建网络的损失函数，β是参数、为0.01。

Claims

1.一种基于多帧融合光流的视频超分辨率重建方法，其特征在于它是由下述步骤组成：

(1)采集数据集

在高分辨率数据集中的每一帧的RGB空间，按照下式转换为Y空间，得到单通道的高分辨率视频帧；

Y＝0.257R+0.504G+0.098B+16

其中R、G、B为三个通道；

从高分辨率视频帧中相同的位置截取长为h、宽为w的高分辨率视频帧作为学习目标，采用下采样方法缩小4倍，得到长为H、宽为W的低分辨率视频帧，为网络输入，h和w为有限的正整数，并将所有数据进行归一化处理；

(2)构建运动补偿网络

作为学习目标，将I_t-2、I_t-1、I_t、I_t+1、I_t+2分为I_t-2、I_t-1、I_t和I_t、I_t+1、I_t+2两组，I_t-2、I_t-1、I_t作为第一组低分辨率输入帧输入到第一个多帧融合光流网络，得到一个长为h、宽为w的高分辨率融合光流，经过空深转换方法得到第一组低分辨率光流组；I_t、I_t+1、I_t+2作为第二组低分辨率输入帧输入到第二个多帧融合光流网络，得到一个长为h、宽为w的高分辨率融合光流，通过空深转换方法得到第二组低分辨率光流组，两组低分辨率光流分别对I_t采用运动补偿方法，得到一组低分辨补偿帧f′_t，构建成运动补偿网络；

(3)超分辨率重建网络

2.根据权利要求1所述的基于多帧融合光流的视频超分辨率重建方法，其特征在于：在构建运动补偿网络步骤(2)中，所述的第一个多帧融合光流网络由PWC-Net光流估计网络和融合模块构建成；

其构建方法为：将输入的I_t-2、I_t-1、I_t三帧分为I_t-2、I_t-1和I_t-1、I_t两组，输出到只有四层金字塔的PWC-Net光流估计网络，得到两个分辨率与学习目标相同的高分辨率光流估计，I_t-1到I_t的光流估计作为基本信息，I_t-1到I_t-2的光流估计作为补充信息融合到I_t-1到I_t的光流估计，得到一个分辨率与学习目标相同的高分辨率融合光流f_t-1→t；同时将输入的I_t、I_t+1和I_t+2三帧分为I_t、I_t+1和I_t+1、I_t+2两组，输出到只有四层金字塔的PWC-Net光流估计网络，I_t+1到I_t的光流估计作为基本信息，I_t+1到I_t+2的光流估计作为补充信息融合到I_t+1到I_t的光流估计，得到另一个分辨率与学习目标相同的高分辨融合光流f_t+1→t。

3.根据权利要求1所述的基于多帧融合光流的视频超分辨率重建方法，其特征在于在构建超分辨网络(3)中，所述的三维尺度特征提取层的构建方法为：低分辨率补偿帧分别用大小为1×1×1、3×3×3、5×5×5的三维卷积进行三维尺度特征提取，得到三维尺度特征，将三维尺度特征在通道维数上拼接，构建成三维尺度特征提取层。

4.根据权利要求1所述的基于多帧融合光流的视频超分辨率重建方法，其特征在于：在构建超分辨网络(3)中，所述的时空残差致密块由3个相同的时空残差块依次相连并与1×1×1的三维卷积层连接构成；所述的时空残差块由Prelu激活函数、1×3×3的三维卷积、3×1×1的三维卷积、三维通道注意力模块依次相连构成，第一个时空残差块的输出O₁、第二个时空残差块的输出O₂、第三个时空残差块的输出O₃、时空残差致密块的输出O为：

O₁＝H₁(W_1，t(W_1，d(σ[O′])))

0₂＝H₂(W_2，t(W_2，d(σ[O′，O₁])))

O₃＝H₃(W_3，t(W_3，d(σ[O′，O₁，O₂])))

O＝W(Φ(O′，O₁，O₂，O₃))+O′

其中O′为时空残差致密块的输入，σ为Prelu激活函数，W_1，d为第一个时空残差块中大小为1×3×3的三维卷积层，W_2，d为第二个时空残差块中大小为1×3×3的三维卷积层，W_3，d为第三个时空残差块中为1×3×3的三维卷积层，W_1，t为第一个时空残差块中为3×1×1三维卷积层，W_2，t为第二个时空残差块中大小为3×1×1三维卷积层，W_3，t为第三个时空残差块中为3×1×1三维卷积层，H₁为第一个时空残差块中的三维通道注意力模块，H₂为第二个时空残差块中的三维通道注意力模块，H₃为第三个时空残差块中的三维通道注意力模块，Φ为在通道维度上的拼接，W为1×1×1的三维卷积层。

5.根据权利要求4所述的基于多帧融合光流的视频超分辨率重建方法，其特征在于所述的三维通道注意力模块的构建方法为：将C×F×H×W的补偿帧作为输入，F为帧数，C为通道数，依次通过1×1×1的池化层、1×1×1的第一卷积层、1×1×1的第二卷积层、激活层，得到C×1×1×1的特征图，并和输入的补偿帧进行点积运算，得到C×F×H×W的特征图，构建成三维通道注意力模块。