CN113902620A

CN113902620A - 一种基于可变形卷积网络的视频超分辨率系统及方法

Info

Publication number: CN113902620A
Application number: CN202111241083.XA
Authority: CN
Inventors: 卓成; 董舜杰; 刘平阳
Original assignee: Hangzhou Upyun Technology Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Upyun Technology Co ltd; Zhejiang University ZJU
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-07

Abstract

本发明公开了一种基于可变形卷积网络的视频超分辨率系统及方法，利用可变形卷积网络进行多尺度图像的融合(TFM)来提高原始视频的分辨率；通过将多种尺度的目标帧与相邻若干帧拼接作为联合偏移量预测网络的输入，共同获得每个位置可变形卷积的偏移量，继而进行可变形卷积获得融合特征图，故不同尺度的目标帧与相邻帧之间的互补信息可以通过时空可变形卷积操作进行融合；利用融合特征图经过残差网络获得高分辨率的残差图，与超分辨后的目标帧叠加获得高分辨率的图像；整个网络可以进行端到端的训练，共同获得最优化参数；与现有先进图像超分辨率技术进行比较，在准确度和效率上都达到了优良的性能。

Description

一种基于可变形卷积网络的视频超分辨率系统及方法

技术领域

本发明涉及视频增强技术领域，特别涉及一种基于可变形卷积网络的视频超分辨率系统及方法。

背景技术

随着电子技术和通信技术的发展，视频因其直观性、可靠性的特点成为新的应用需求热点。由于视频信息数据量之大，占用了大量的网络资源，为了减少视频传输所需的带宽，视频分辨率变换技术在视频处理中不可或缺。然而现有的视频分辨率变换技术会造成视频图像的失真，造成主观和客观上的视频质量下降，进而影响其他视频相关工作的性能。为了在低码率下保持较高的视频质量，对低分辨率视频的超分辨技术成为了重要的研究领域。

视频超分辨技术是通过一定的手段将视频图像中存在的光晕、噪声等降低图像质量的因素去除并扩大图像的分辨率，进而提高图像质量的技术。随着卷积神经网络的发展，其在视频超分辨技术中得到了应用，具有较好的性能。现有技术主要借助视频目标帧的相邻帧信息对目标帧进行超分辨率处理，通过对目标帧与相邻帧进行配对，并将配对好的两帧融合得到特征图，再基于特征图对目标帧进行超分辨操作。

现有技术主要存在的不足有：1.当前融合技术主要采用光流法，由于低分辨率视频图像存在模糊失真，可能打破原始分辨率视频帧与帧之间像素级的联系，因而采用光流法得到的结果存在一定的不准确性。2.现有的光流法和基于可变形卷积的方法需要对成对的图像进行重复性的计算，当处理的帧数较多时需要大量的计算，存在效率低的问题。

基于上述问题，为了提高视频超分辨技术的准确性和效率，提出一种基于可变形卷积网络的视频超分辨率系统及方法。

发明内容

本发明针对现有技术的不足，提出了一种基于可变形卷积网络的视频超分辨率系统及方法，通过可变形卷积对输入视频图像进行融合，略去了寻找关键帧以及帧间匹配的运算，融合部分具有较好的灵活性和鲁棒性，视频超分辨的结果达到了较高的准确度和效率。

本发明解决其技术问题所采用的具体技术方案是：一种基于可变形卷积网络的视频超分辨率系统，该系统包括：视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块；

所述视频数据采集模块用于获取待进行超分辨的视频，选择视频中的一个目标帧以及目标帧的前R帧和后R帧，共2R+1帧图像，作为TFM图像融合模块的输入；

所述TFM图像融合模块包括偏移量预测网络和时空可变形卷积网络：所述视频数据采集模块得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络；

所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F₀，再对F₀经过第二次插值下采样得到2R+1帧特征图F₁。F₁经过卷积和上采样得到编码后的特征图F₃；F₀经过卷积得到编码后的特征图F₄；将F₃与F₄连接得到的特征，经过卷积和上采样得到编码后的特征图F₅；视频数据采集模块得到的2R+1帧图像经过卷积得到编码后的特征图F₆；将F₅与F₆连接得到的特征经过卷积得到编码后的特征图F₇，F₇经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量，输入到时空可变形卷积网络；

所述时空可变形卷积网络根据输入的偏移量以及输入的2R+1帧图像进行可变形卷积，得到融合特征图F，输入到SR图像超分辨率模块；

所述SR图像超分辨率模块根据输入的融合特征图F经过非线性映射后得到超分辨率残差图，与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。

进一步地，所述视频数据采集模块每次取视频中的一帧作为目标帧进行超分辨率处理，对时间为t₀的目标帧

进行超分辨处理时，分别取其相邻的前R帧

和后R帧

与目标帧连接起来，共2R+1帧图像作为TFM图像融合模块的输入，以得到更好的视频超分辨率效果。

进一步地，所述时空可变形卷积网络的运算方式为：根据得到的偏移量对视频图像进行可变形卷积，卷积核大小为K，可变形卷积对于每帧、每个位置的像素均有K²的偏移量，经过下式的可变形卷积运算得到p位置的融合特征图F(p)：

其中W_t表示时间为t的卷积核参数，t₀表示目标帧的时刻，p表示当前运算的像素点位置，p_k表示进行卷积操作得到的偏移量，δ_(t，p)表示时空坐标为(t，p)的偏移量，由偏移量预测网络输出得到，A_t表示针对融合特征过程的可学习权重。

进一步地，所述SR图像超分辨率模块包括非线性映射网络和上采样层；所述非线性映射网络由L层残差网络连接一个卷积层构成；卷积层的输出经过上采样层得到残差图，叠加目标帧后得到最终的超分辨目标帧。

进一步地，所述TFM图像融合模块和SR图像超分辨率模块中网络的训练过程具体为：同时优化两个模块的参数θ_on和θ_sr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数

由图像重构损失函数

和偏移量引导损失函数

构成，其中

由原始分辨率图像和超分辨后图像的和方差(SSE)给出，和方差计算的是拟合数据和原始数据对应点的误差的平方和，因此损失函数计算式如下：

其中||·||²表示向量所有元素平方之和，ε表示超参数1×10^-3。而偏移量引导损失函数

则是将相同条件下训练好的配对形式的偏移量Δ^PE与联合形式的偏移量Δ^JE的和方差给出，所述联合形式的偏移量Δ^JE即为偏移量预测网络得到的偏移量，损失函数计算式如下：

其中Δ^PE，

H为偏移量的高，W为偏移量的宽。因此，TFM图像融合模块和SR图像超分辨率模块联合的损失函数

的计算式为

其中λ为超参数。

本发明还提供了一种基于可变形卷积网络的视频超分辨率方法，该方法包括如下步骤：

(1)视频数据采集：获取待进行超分辨的视频，选择视频中的一个目标帧以及目标帧的前R帧和后R帧，共2R+1帧图像；

(2)TFM图像融合；包括偏移量预测网络和时空可变形卷积网络：所述步骤(1)得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络；

(2.1)所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F₀，再对F₀经过第二次插值下采样得到2R+1帧特征图F₁。F₁经过卷积和上采样得到编码后的特征图F₃；F₀经过卷积得到编码后的特征图F₄；将F₃与F₄连接得到的特征，经过卷积和上采样得到编码后的特征图F₅；步骤(1)得到的2R+1帧图像经过卷积得到编码后的特征图F₆；将F₅与F₆连接得到的特征经过卷积得到编码后的特征图F₇，F₇经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量，输入到时空可变形卷积网络；

(2.2)所述时空可变形卷积网络根据步骤(2.1)得到的偏移量以及输入的2R+1帧图像进行可变形卷积，得到融合特征图F；

(3)SR图像超分辨率：根据步骤(2.2)得到的融合特征图F经过非线性映射后得到超分辨率残差图，与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。

本发明的有益效果是：提供了一种基于可变形卷积网络的视频超分辨率系统及方法，用可变形卷积网络获得帧与帧之间相关的信息，完成图像的融合，代替了现有技术中寻找关键帧和目标帧与相邻帧匹配的过程，对多帧进行联合运算获得所需的参数，具有更高的效率和鲁棒性。利用可变形卷积网络得到的图像融合结果对低分辨率图像进行增强，不论从主观视觉上还是从客观评价指标上都比现有最先进技术获得了更高分辨率的图像，具有更高的准确度。除了视频图像超分辨领域，本发明提出的可变形卷积网络还可以应用到其他视频处理任务，包括质量增强、重建、插帧、去噪等。

附图说明

图1是本发明的实现结构框图；

图2是本发明的TFM图像融合模块网络结构示意图；

图3是本发明的SR图像超分辨率模块网络结构示意图；

图4是本发明的视频超分辨率结果与其他技术在视觉上的比较图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供了一种基于可变形卷积网络的视频超分辨率系统，其特征在于，该系统包括：视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块；

所述视频数据采集模块用于获取待进行超分辨的视频；低分辨率视频的帧与帧之间存在着一定的联系，因此在提高某一帧低分辨率图像时可以借助相邻若干帧图像的信息以达到较好的效果。基于上述考虑，对给定的视频中时间为t₀的目标帧

进行超分辨率处理时，分别取其相邻的前R帧

和后R帧

与目标帧连接起来

共2R+1帧图像作为输入，以得到更好的视频超分辨效果。

所述TFM图像融合模块，如图2所示，包括偏移量预测网络和时空可变形卷积网络：

偏移量预测网络：为了获得可变形卷积的偏移量，将输入图像经过偏移量预测网络，获得2R+1帧图像每个像素点在可变形卷积中所需的偏移量Δ：

其中

表示偏移量预测网络算法，

表示低分辨率视频时间为t的帧。令单帧视频图像的高为H，宽为W，可变形卷积核大小为K²，则输出的偏移量大小为H×W×(2R+1)×2K²。

基于金字塔网络的思路设计偏移量预测网络。偏移量预测网络的结构如图2所示，其中包括步长为1的卷积层、步长为2的卷积层和反卷积层，对于步长为1的卷积层采用零填充策略以保持特征图的尺寸不变，步长为2的卷积层和残差块的功能为提取特征，反卷积层的功能为上采样。最后一层的卷积核个数为(2R+1)×2K²，使用线性激活函数。除了最后得到偏移量的卷积层以外，前面各层的卷积核个数均为C₁，且都使用ReLU激活函数，ReLU激活函数的表达式如下：

output＝max(0，input)

其中output表示ReLU函数的输出，input表示ReLU函数的输入。

偏移量预测网络的结构具体如下：输入的H×W×(2R+1)的低分辨率图像为Level0的输入，经过第一次二次插值下采样得到特征F₀的大小为0.5H×0.5W×(2R+1)作为Level1的输入，经过第二次插值下采样得到特征F₁的大小为0.25H×0.25W×(2R+1)作为Level 2的输入。Level 2的输入经过一个卷积层、一个残差块和一个卷积层，并经过上采样得到特征F₃的大小为0.5H×0.5W×C₁。Level 1的输入经过一个卷积层、一个残差块和一个卷积层得到特征F₄的大小为0.5H×0.5W×C₁。将F₃与F₄连接得到大小为0.5H×0.5W×2C₁的特征，经过一个卷积层、一个残差块和一个卷积层，并经过上采样得到特征F₅的大小为H×W×C₁。Level 0的输入经过一个卷积层、一个残差块和一个卷积层得到特征F₆的大小为H×W×C₁。将F₅与F₆连接得到大小为H×W×2C₁的特征，经过一个卷积层、一个残差块和一个卷积层得到特征F₇的大小为H×W×C₁，经过最后一层卷积得到H×W×(2R+1)×2K²的结果即为偏移量，每个像素对应的特征个数为(2R+1)×2K²，(2R+1)代表帧数，2K²代表K²大小的卷积核上每个位置的偏移量由一个二维坐标给出。

时空可变形卷积网络：根据得到的偏移量对视频图像进行可变形卷积，卷积核大小为K，可变形卷积对于每帧、每个位置的像素均有K²的偏移量，经过下式的可变形卷积运算得到p位置的融合特征图F(p)：

其中W_t表示时间为t的卷积核参数，t₀表示目标帧的时刻，p表示当前运算的像素点位置，p_k表示进行卷积操作得到的偏移量，比如对于K＝3，p_k∈{(-1，-1)，(-1，0)，...，(1，1)}，δ_(t，p)表示时空坐标为(t，p)的偏移量，由偏移量预测网络输出得到，A_t表示针对融合特征过程的可学习权重。为了得到最佳性能的卷积核参数W_t，k，采用64通道的可变形卷积网络对输入的2R+1帧图像进行可变形卷积，得到大小为H×W×64的融合特征图。

如图3所示，所述SR图像超分辨率模块包括非线性映射网络和上采样层。所述非线性映射网络

由L层残差网络连接一个卷积层构成。卷积层的输出经过上采样层得到残差图，除了卷积层以外前面各层都包含C₂个以ReLU为激活函数的卷积通道，最后一层输出超分辨残差

超分辨残差

叠加目标帧后得到最终的超分辨后的目标帧

由下式得到：

其中

表示原始图像经过s倍比例放大后的图像。

对上述视频超分辨率网络进行训练，得到最优化的网络参数。由于TFM图像融合模块和SR图像超分辨率模块是全卷积网络且可导的，因此可以进行端到端的联合训练，同时优化两个模块的参数，训练过程具体为：同时优化两个模块的参数θ_op和θ_sr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数

由图像重构损失函数

和偏移量引导损失函数

构成，其中

其中Δ^PE，

的计算式为

其中λ为超参数，选择为0.01。值得说明的是，由于可变形卷积网络偏移量没有真值ground-truth作为参考，因此联合形式的偏移量预测网络的参数训练是由训练好的配对形式的偏移量参数进行监督的，且完全由最终的损失函数决定。将本发明提出的视频超分辨率技术与现有技术进行比较，原始视频经过二次插值缩小s倍后得到训练集和验证集，在同样的训练集上训练得到网络。

(1)视频数据采集：获取待进行超分辨的视频，选择视频中的一个目标帧以及目标帧的前R帧和后R帧，共2R+1帧图像；具体过程参考视频数据采集模块；

(2)TFM图像融合；包括偏移量预测网络和时空可变形卷积网络：所述步骤(1)得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络；具体过程参考TFM图像融合模块；

(3)SR图像超分辨率：根据步骤(2.2)得到的融合特征图F经过非线性映射后得到超分辨率残差图，与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧，具体过程参考SR图像超分辨率模块。

本发明提出的一种基于可变形卷积网络的视频超分辨率系统及方法STDVR-L在Vimeo-90K的测试集上达到的平均PSNR为36.7，比现有先进技术TDAN提高了2.3％，在Vid4的测试集上达到平均的PSNR为26.86，比TDAN提高1.7％，同时运算速度也比TDAN高82.9％。如图4所示，在视觉上，本发明提出的技术在图像超分辨上具有更好的效果。综上，本发明提出的一种基于可变形卷积网络的视频超分辨率技术具有更高的准确度和效率。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于可变形卷积网络的视频超分辨率系统，其特征在于，该系统包括：视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块；

2.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统，其特征在于，所述视频数据采集模块每次取视频中的一帧作为目标帧进行超分辨率处理，对时间为t₀的目标帧

进行超分辨处理时，分别取其相邻的前R帧

和后R帧

3.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统，其特征在于，所述时空可变形卷积网络的运算方式为：根据得到的偏移量对视频图像进行可变形卷积，卷积核大小为K，可变形卷积对于每帧、每个位置的像素均有K²的偏移量，经过下式的可变形卷积运算得到p位置的融合特征图F(p)：

其中W_t表示时间为t的卷积核参数，t₀表示目标帧的时刻，表示当前运算的像素点位置，p_k表示进行卷积操作得到的偏移量，δ_(t,p)表示时空坐标为(t,p)的偏移量，由偏移量预测网络输出得到，A_t表示针对融合特征过程的可学习权重。

4.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统，其特征在于，所述SR图像超分辨率模块包括非线性映射网络和上采样层；所述非线性映射网络由L层残差网络连接一个卷积层构成；卷积层的输出经过上采样层得到残差图，叠加目标帧后得到最终的超分辨目标帧。

5.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统，其特征在于，所述TFM图像融合模块和SR图像超分辨率模块中网络的训练过程具体为：同时优化两个模块的参数θ_op和θ_sr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数

由图像重构损失函数

和偏移量引导损失函数

构成，其中

其中Δ^PE，

的计算式为

其中λ为超参数。

6.一种基于权利要求1-5任一项所述的可变形卷积网络的视频超分辨率系统的视频超分辨率方法，其特征在于，该方法包括如下步骤：