CN113034380B

CN113034380B - 基于改进可变形卷积校正的视频时空超分辨率方法和装置

Info

Publication number: CN113034380B
Application number: CN202110178143.1A
Authority: CN
Inventors: 蒋荣欣; 蔡卓骏; 田翔; 陈耀武
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-06-10
Anticipated expiration: 2041-02-09
Also published as: CN113034380A

Abstract

本发明公开了一种基于改进可变形卷积校正的视频时空超分辨率方法和装置，包括：构建包含特征提取模块、帧间校正模块以及图像重建模块的视频时空超分辨率网络；对视频时空超分辨率进行网络参数优化后备用；应用时，利用特征提取模块从输入低分率的相邻视频帧提取特征图，利用帧间校正模块依据相邻视频帧对应的特征图在进行校正处理合成中间帧特征图，利用及图像重建模块对输入的中间帧特征图和相邻视频帧对应的特征图进行帧间与帧内特征的提取，重建输出高分辨率高帧率的图像序列。通过改进可变形卷积的模式、引入显式光流估计、注意力网络等技巧，使得帧间校正网络更好地胜任视频时空超分辨率任务，大大提升了复原效果。

Description

基于改进可变形卷积校正的视频时空超分辨率方法和装置

技术领域

本发明涉及计算机科学图像处理领域，尤其涉及一种基于改进可变形卷积校正的视频时空超分辨率方法和装置。

背景技术

视频时空超分辨率是视频与超分辨率与视频帧插值两大视频处理领域基础问题的结合。近年来深度学习网络的快速发展为视频超分辨率与视频帧插值算法提供了一种高效的解决方案，如公布号为CN109102462A的专利申请公开的一种基于深度学习的视频超分辨率重建方法，再如公布号为CN104463793A的专利申请公开的一种基于稀疏表达与极坐标下的向量连分式插值的视频超分辨率重建方法及其系统。但是传统卷积网络较少有对一阶段同时完成视频时空超分辨率的方法进行研究。

在时空超分辨率问题中，中间帧缺少参考，且相邻输入帧为低分辨率时，对中间帧的运动估计相比尤为困难。尽管已有一些较新的研究尝试引入可变形卷积等方法改进帧间运动补偿效果，但是现有深度学习网络往往仍无法较好地同时对中间帧的位置与细节信息进行复原。传统的光流方法以预设比例建模中间帧与输入帧和两相邻输入帧的运动关系，缺乏自适应性。而近期兴起的基于可变形卷积的运动校正方法对运动较大的视频补偿效果较差，难以指代真实运动情况，存在泛化性能不足的问题。

发明内容

鉴于上述，本发明的目的是提供一种基于改进可变形卷积校正的视频时空超分辨率方法和装置。该方法和装置通过改进可变形卷积的模式、引入显式光流估计、注意力网络等技巧，使得帧间校正网络更好地胜任视频时空超分辨率任务，大大提升了复原效果。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，一种基于改进可变形卷积校正的视频时空超分辨率方法，包括以下步骤：

构建包含特征提取模块、帧间校正模块以及图像重建模块的视频时空超分辨率网络，其中，帧间校正模块包括若干个不同空间尺度的改进可变形卷积校正分支和融合单元，每个改进可变形卷积校正分支用于根据相邻视频帧计算的光流估计和偏移参数经可变性卷积得到分支中间帧特征图，融合单元用于融合所有分支中间帧特征图，得到最终的中间帧特征图；

对视频时空超分辨率进行网络参数优化后备用；

应用时，利用特征提取模块从输入低分率的相邻视频帧提取特征图，利用帧间校正模块依据相邻视频帧对应的特征图在进行校正处理合成中间帧特征图，利用及图像重建模块对输入的中间帧特征图和相邻视频帧对应的特征图进行帧间与帧内特征的提取，重建输出高分辨率高帧率的图像序列。

优选地，所述特征提取模块包括至少1个卷积层和若干个残差块 (residualblock)，用于提取低分辨率视频帧的多通道特征图，其中，其中残差块按照残差学习策略设计，为特征提取模块堆叠网络深度的主要单元，包括卷积层、线性整流函数(ReLU)和点加操作。

优选地，每个改进可变形卷积校正分支对应唯一的空间尺度，包括改进可变形卷积校正单元和偏移参数计算单元，其中，偏移参数计算单元用于根据相邻视频帧的特征图和光流信息经过多次卷积操作获得可变性卷积偏移参数，改进可变形卷积校正单元用于根据相邻视频帧计算光流信息后，根据光流信息确定可变性卷积偏移的基底后，根据可变性卷积偏移参数和对应的基底，经过可变性卷积获得与空间尺度对应的分支中间帧特征图。

优选地，所述偏移参数计算单元包括3个卷积层，相邻视频帧的特征图拼接后输入至第一卷积层获得第一卷积结果，第一卷积结果与相邻改进可变形卷积校正分支的偏移参数计算单元计算的可变性卷积偏移参数拼接后输入至第二卷积层获得第二卷积结果，第二卷积结果与相邻视频帧间的光流信息拼接后输入至第三卷积，经卷积操作获得当前分支的可变性卷积偏移。

优选地，所述融合单元复用相邻视频帧间的光流信息，该光流信息经过多次不同尺度的卷积操作后，生成与每个可变形卷积校正分支对应，且与对应可变形卷积校正分支的空间尺度相同的注意力图，每个可变形卷积校正分支的分支中间帧特征图与注意力图点乘后获得点乘结果，所有分支的点乘结果维度拼接后经过卷积层下采样后输出与输入视频帧特征图空间尺度相同的中间帧特征图。

优选地，所述图像重建模块包括可变形长短时记忆网络和若干个残差块，其中，可变形长短时记忆网络用于根据输入的相邻视频帧的特征图和中间帧特征图输出各帧的高层特征图，各帧的高层特征图分贝输入权重共享的残差块组中，输出与高层特征图对应的高分辨率高帧率的图像，组成图像序列。

优选地，对视频时空超分辨率进行网络参数优化前，构建训练样本，具体过程为：

将高分辨率高帧率视频序列切边，保证空间分辨率为目标缩放倍数的整数倍；若序列帧数为偶数，则丢弃最后一帧；预处理后的高分辨率高帧率视频序列作为网络训练目标；

按目标缩放倍数下采样生成低分辨率高帧率视频序列；选取其中奇数帧的低分辨率图像作为网络输入，对应的真实高分辨率图像为监督数据，选取其中偶数帧的低分辨率图像用于合成中间帧的监督数据。

优选地，对视频时空超分辨率进行网络参数优化时，损失函数包括两部分，第一部分是奇数帧的低分辨率图像对应的生成高分辨率图像与真实高分辨率图像之间的损失，第二部分是偶数帧的低分辨率图像的特征图与帧间校正模块生成的中间帧特征图之间的损失。

第二方面，一种基于改进可变形卷积校正的视频时空超分辨率装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现上述基于改进可变形卷积校正的视频时空超分辨率方法。

与现有技术相比，本发明实施例提供的基于改进可变形卷积校正的视频时空超分辨率方法和装置具有的有益效果至少包括：

(1)通过在可变形卷积校正中引入显式光流估计信息，增强帧间校正模块对帧间运动的预测能力，使得网络可以对存在较剧烈的运动的视频也能取得较好的运动补偿效果。同时保留了可变形卷积自由度高的特点，对帧间的非匀速运动能够进行更准确的复原。这一特性提高了网络对中间帧空间位置预测的准确性，从而在时空超分辨率过程中取得更接近真实的结果。

(2)为帧间校正模块引入了基于视频实际运动强度融合的多尺度校正结构，不同的空间尺度提供了适应不同粒度目标与不同幅度运动的运动校正能力，基于显式运动估计的注意力机制令各个分支基于局部运动强度进行自适应的融合，使得校正结果更准确。

(3)通过在训练中引入中间帧特征，对校正模块进行显式监督，降低了神经网络的学习难度，有效保证了训练的收敛性，并提升了帧间校正模块的运动补偿能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的利用视频时空超分辨率网络进行视频时空超分辨率方法的流程图；

图2是本发明实施例提供的改进可变形卷积校正分支的结构示意图；

图3是本发明实施例提供的融合单元的结构示意图；

图4是本发明实施例提供的引入中间帧特征图监督的训练过程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是本发明实施例提供的利用视频时空超分辨率网络进行视频时空超分辨率方法的流程图。如图1所示，实施例提供的利用视频时空超分辨率网络进行视频时空超分辨率方法包括以下流程：

准备训练数据集。原始训练图像取自Vimeo。选取一个原始高分辨率帧序列，生成选定缩放倍数的低分辨率帧序列，并将其中单数帧取出，得到低分辨率低帧率帧序列，与原始高分辨率帧序列构成了一对训练样本。通过裁剪图像块的方法大大增加训练样本数量。

搭建基于改进可变形卷积校正的视频时空超分辨率网络。如图1所示，视频时空超分辨率网络包括特征提取模块、帧间校正模块以及图像重建模块，其中，特征提取模块包括至少1个卷积层和若干个残差块，用于提取低分辨率视频帧的多通道特征图，帧间校正模块包括若干个不同空间尺度的改进可变形卷积校正分支和融合单元，每个改进可变形卷积校正分支用于根据相邻视频帧计算的光流估计和偏移参数经可变性卷积得到分支中间帧特征图，融合单元用于融合所有分支中间帧特征图，得到最终的中间帧特征图，图像重建模块可变形长短时记忆网络和若干个残差块，用于生成高分辨率图像。

输入低分辨率视频帧序列经由特征提取模块得到特征图，并将该特征图送入帧间校正模块。帧间校正模块经过多尺度的下采样产生不同空间尺度的特征图序列。将相邻帧多尺度特征图分别输入对应的金字塔式的改进可变形卷积校正单元中，得到多尺度的中间帧特征图。融合单元输入帧间光流信息进入一层卷积层中，得到对应金字塔多尺度的注意力图。之后多尺度的中间帧特征图输入融合单元，合成输出的中间帧特征图。输出的各中间帧特征图与原本帧特征图一并输入图像重建模块中。图像重建模块通过可变形长短时记忆网络利用输入序列帧间信息进行复原。之后特征图序列输入一系列残差块中，利用特征图帧内信息进行进一步复原。最终图像重建模块输出对应输入的高分辨率高帧率的RGB图像序列。由于帧间校正模块中的改进可变形卷积校正分支与融合单元结构相对复杂，在图2与图3中予以细节展示。

如图2所示，改进可变形卷积单元对应唯一的空间尺度，包括改进可变形卷积校正单元和偏移参数计算单元，其中，偏移参数计算单元用于根据相邻视频帧的特征图和光流信息经过多次卷积操作获得可变性卷积偏移参数。具体地，偏移参数计算单元包括3个卷积层，相邻视频帧的特征图拼接后输入至第一卷积层获得第一卷积结果，第一卷积结果与相邻改进可变形卷积校正分支的偏移参数计算单元计算的可变性卷积偏移参数拼接后输入至第二卷积层获得第二卷积结果，第二卷积结果与相邻视频帧间的光流信息拼接后输入至第三卷积，经卷积操作获得当前分支的可变性卷积偏移。

改进可变形卷积校正单元用于根据相邻视频帧计算光流信息后，根据光流信息确定可变性卷积偏移的基底后，根据可变性卷积偏移参数和对应的基底，经过可变性卷积获得与空间尺度对应的分支中间帧特征图。

图4中所示，融合单元复用相邻视频帧间的光流信息，该光流信息的绝对值经过多次不同尺度的卷积操作后，生成与每个可变形卷积校正分支对应，且与对应可变形卷积校正分支的空间尺度相同的注意力图，每个可变形卷积校正分支的分支中间帧特征图与注意力图点乘后获得点乘结果，所有分支的点乘结果维度拼接后经过卷积层下采样后输出与输入视频帧特征图空间尺度相同的中间帧特征图。

实施例提供的基于改进可变形卷积校正的视频时空超分辨率网络可进行端到端的训练。训练时选定的损失函数为L1误差损失函数，即根据奇数帧的低分辨率图像对应的生成高分辨率图像与真实高分辨率图像构建L1误差损失函数。特别地，本发明在训练阶段引入了低分辨率的偶数帧作为中间帧，通过和主网络共享权重的特征提取模块提取偶数帧的特征，通过平滑L1误差损失函数对帧间校正模块输出的中间帧特征作为监督，如图4所示。为了提高训练效率和防止训练过拟合，采用的优化器是Adam 优化器，初始学习率设置为0.0004，采用余弦退火重启方案，以40000次迭代为一个周期。训练时采用的mini-batch尺寸大小为64。

将训练好的模型参数保存下来，即可供后续视频时空超分辨率使用。

实施例还提供了一种基于改进可变形卷积校正的视频时空超分辨率装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于改进可变形卷积校正的视频时空超分辨率方法。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器 (MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于改进可变形卷积校正的视频时空超分辨率方法步骤。

经过本发明提供的基于改进可变形卷积校正的视频时空超分辨率方法处理得到的结果和现有方法相比，具有比较好的PSNR指标结果，且主观运动补偿效果更好。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，包括以下步骤：

对视频时空超分辨率进行网络参数优化后备用；

应用时，利用特征提取模块从输入低分率的相邻视频帧提取特征图，利用帧间校正模块依据相邻视频帧对应的特征图在进行校正处理合成中间帧特征图，利用图像重建模块对输入的中间帧特征图和相邻视频帧对应的特征图进行帧间与帧内特征的提取，重建输出高分辨率高帧率的图像序列。

2.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，所述特征提取模块包括至少1个卷积层和若干个残差块，用于提取低分辨率视频帧的多通道特征图，其中，残差块包括卷积层、线性整流函数和点加操作。

3.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，每个改进可变形卷积校正分支对应唯一的空间尺度，包括改进可变形卷积校正单元和偏移参数计算单元，其中，偏移参数计算单元用于根据相邻视频帧的特征图和光流信息经过多次卷积操作获得可变性卷积偏移参数，改进可变形卷积校正单元用于根据相邻视频帧计算光流信息后，根据光流信息确定可变性卷积偏移的基底后，根据可变性卷积偏移参数和对应的基底，经过可变性卷积获得与空间尺度对应的分支中间帧特征图。

4.如权利要求3所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，所述偏移参数计算单元包括3个卷积层，相邻视频帧的特征图拼接后输入至第一卷积层获得第一卷积结果，第一卷积结果与相邻改进可变形卷积校正分支的偏移参数计算单元计算的可变性卷积偏移参数拼接后输入至第二卷积层获得第二卷积结果，第二卷积结果与相邻视频帧间的光流信息拼接后输入至第三卷积，经卷积操作获得当前分支的可变性卷积偏移。

5.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，所述融合单元复用相邻视频帧间的光流信息，该光流信息经过多次不同尺度的卷积操作后，生成与每个可变形卷积校正分支对应，且与对应可变形卷积校正分支的空间尺度相同的注意力图，每个可变形卷积校正分支的分支中间帧特征图与注意力图点乘后获得点乘结果，所有分支的点乘结果维度拼接后经过卷积层下采样后输出与输入视频帧特征图空间尺度相同的中间帧特征图。

6.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，所述图像重建模块包括可变形长短时记忆网络和若干个残差块，其中，可变形长短时记忆网络用于根据输入的相邻视频帧的特征图和中间帧特征图输出各帧的高层特征图，各帧的高层特征图分贝输入权重共享的残差块组中，输出与高层特征图对应的高分辨率高帧率的图像，组成图像序列。

7.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，对视频时空超分辨率进行网络参数优化前，构建训练样本，具体过程为：

8.如权利要求1所述的基于改进可变形卷积校正的视频时空超分辨率方法，其特征在于，对视频时空超分辨率进行网络参数优化时，损失函数包括两部分，第一部分是奇数帧的低分辨率图像对应的生成高分辨率图像与真实高分辨率图像之间的损失，第二部分是偶数的低分辨率图像的特征图与帧间校正模块生成的中间帧特征图之间的损失。

9.一种基于改进可变形卷积校正的视频时空超分辨率装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～8任一项所述的基于改进可变形卷积校正的视频时空超分辨率方法。