CN113902620A - 一种基于可变形卷积网络的视频超分辨率系统及方法 - Google Patents

一种基于可变形卷积网络的视频超分辨率系统及方法 Download PDF

Info

Publication number
CN113902620A
CN113902620A CN202111241083.XA CN202111241083A CN113902620A CN 113902620 A CN113902620 A CN 113902620A CN 202111241083 A CN202111241083 A CN 202111241083A CN 113902620 A CN113902620 A CN 113902620A
Authority
CN
China
Prior art keywords
image
resolution
super
frame
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111241083.XA
Other languages
English (en)
Inventor
卓成
董舜杰
刘平阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Upyun Technology Co ltd
Zhejiang University ZJU
Original Assignee
Hangzhou Upyun Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Upyun Technology Co ltd, Zhejiang University ZJU filed Critical Hangzhou Upyun Technology Co ltd
Priority to CN202111241083.XA priority Critical patent/CN113902620A/zh
Publication of CN113902620A publication Critical patent/CN113902620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种基于可变形卷积网络的视频超分辨率系统及方法,利用可变形卷积网络进行多尺度图像的融合(TFM)来提高原始视频的分辨率;通过将多种尺度的目标帧与相邻若干帧拼接作为联合偏移量预测网络的输入,共同获得每个位置可变形卷积的偏移量,继而进行可变形卷积获得融合特征图,故不同尺度的目标帧与相邻帧之间的互补信息可以通过时空可变形卷积操作进行融合;利用融合特征图经过残差网络获得高分辨率的残差图,与超分辨后的目标帧叠加获得高分辨率的图像;整个网络可以进行端到端的训练,共同获得最优化参数;与现有先进图像超分辨率技术进行比较,在准确度和效率上都达到了优良的性能。

Description

一种基于可变形卷积网络的视频超分辨率系统及方法
技术领域
本发明涉及视频增强技术领域,特别涉及一种基于可变形卷积网络的视频超分辨率系统及方法。
背景技术
随着电子技术和通信技术的发展,视频因其直观性、可靠性的特点成为新的应用需求热点。由于视频信息数据量之大,占用了大量的网络资源,为了减少视频传输所需的带宽,视频分辨率变换技术在视频处理中不可或缺。然而现有的视频分辨率变换技术会造成视频图像的失真,造成主观和客观上的视频质量下降,进而影响其他视频相关工作的性能。为了在低码率下保持较高的视频质量,对低分辨率视频的超分辨技术成为了重要的研究领域。
视频超分辨技术是通过一定的手段将视频图像中存在的光晕、噪声等降低图像质量的因素去除并扩大图像的分辨率,进而提高图像质量的技术。随着卷积神经网络的发展,其在视频超分辨技术中得到了应用,具有较好的性能。现有技术主要借助视频目标帧的相邻帧信息对目标帧进行超分辨率处理,通过对目标帧与相邻帧进行配对,并将配对好的两帧融合得到特征图,再基于特征图对目标帧进行超分辨操作。
现有技术主要存在的不足有:1.当前融合技术主要采用光流法,由于低分辨率视频图像存在模糊失真,可能打破原始分辨率视频帧与帧之间像素级的联系,因而采用光流法得到的结果存在一定的不准确性。2.现有的光流法和基于可变形卷积的方法需要对成对的图像进行重复性的计算,当处理的帧数较多时需要大量的计算,存在效率低的问题。
基于上述问题,为了提高视频超分辨技术的准确性和效率,提出一种基于可变形卷积网络的视频超分辨率系统及方法。
发明内容
本发明针对现有技术的不足,提出了一种基于可变形卷积网络的视频超分辨率系统及方法,通过可变形卷积对输入视频图像进行融合,略去了寻找关键帧以及帧间匹配的运算,融合部分具有较好的灵活性和鲁棒性,视频超分辨的结果达到了较高的准确度和效率。
本发明解决其技术问题所采用的具体技术方案是:一种基于可变形卷积网络的视频超分辨率系统,该系统包括:视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块;
所述视频数据采集模块用于获取待进行超分辨的视频,选择视频中的一个目标帧以及目标帧的前R帧和后R帧,共2R+1帧图像,作为TFM图像融合模块的输入;
所述TFM图像融合模块包括偏移量预测网络和时空可变形卷积网络:所述视频数据采集模块得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络;
所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F0,再对F0经过第二次插值下采样得到2R+1帧特征图F1。F1经过卷积和上采样得到编码后的特征图F3;F0经过卷积得到编码后的特征图F4;将F3与F4连接得到的特征,经过卷积和上采样得到编码后的特征图F5;视频数据采集模块得到的2R+1帧图像经过卷积得到编码后的特征图F6;将F5与F6连接得到的特征经过卷积得到编码后的特征图F7,F7经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量,输入到时空可变形卷积网络;
所述时空可变形卷积网络根据输入的偏移量以及输入的2R+1帧图像进行可变形卷积,得到融合特征图F,输入到SR图像超分辨率模块;
所述SR图像超分辨率模块根据输入的融合特征图F经过非线性映射后得到超分辨率残差图,与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。
进一步地,所述视频数据采集模块每次取视频中的一帧作为目标帧进行超分辨率处理,对时间为t0的目标帧
Figure BDA0003319568940000021
进行超分辨处理时,分别取其相邻的前R帧
Figure BDA0003319568940000022
和后R帧
Figure BDA0003319568940000023
与目标帧连接起来,共2R+1帧图像作为TFM图像融合模块的输入,以得到更好的视频超分辨率效果。
进一步地,所述时空可变形卷积网络的运算方式为:根据得到的偏移量对视频图像进行可变形卷积,卷积核大小为K,可变形卷积对于每帧、每个位置的像素均有K2的偏移量,经过下式的可变形卷积运算得到p位置的融合特征图F(p):
Figure BDA0003319568940000024
其中Wt表示时间为t的卷积核参数,t0表示目标帧的时刻,p表示当前运算的像素点位置,pk表示进行卷积操作得到的偏移量,δ(t,p)表示时空坐标为(t,p)的偏移量,由偏移量预测网络输出得到,At表示针对融合特征过程的可学习权重。
进一步地,所述SR图像超分辨率模块包括非线性映射网络和上采样层;所述非线性映射网络由L层残差网络连接一个卷积层构成;卷积层的输出经过上采样层得到残差图,叠加目标帧后得到最终的超分辨目标帧。
进一步地,所述TFM图像融合模块和SR图像超分辨率模块中网络的训练过程具体为:同时优化两个模块的参数θon和θsr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure BDA0003319568940000037
由图像重构损失函数
Figure BDA0003319568940000038
和偏移量引导损失函数
Figure BDA0003319568940000039
构成,其中
Figure BDA00033195689400000310
由原始分辨率图像和超分辨后图像的和方差(SSE)给出,和方差计算的是拟合数据和原始数据对应点的误差的平方和,因此损失函数计算式如下:
Figure BDA0003319568940000031
其中||·||2表示向量所有元素平方之和,ε表示超参数1×10-3。而偏移量引导损失函数
Figure BDA0003319568940000032
则是将相同条件下训练好的配对形式的偏移量ΔPE与联合形式的偏移量ΔJE的和方差给出,所述联合形式的偏移量ΔJE即为偏移量预测网络得到的偏移量,损失函数计算式如下:
Figure BDA0003319568940000033
其中ΔPE
Figure BDA0003319568940000034
H为偏移量的高,W为偏移量的宽。因此,TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure BDA0003319568940000035
的计算式为
Figure BDA0003319568940000036
其中λ为超参数。
本发明还提供了一种基于可变形卷积网络的视频超分辨率方法,该方法包括如下步骤:
(1)视频数据采集:获取待进行超分辨的视频,选择视频中的一个目标帧以及目标帧的前R帧和后R帧,共2R+1帧图像;
(2)TFM图像融合;包括偏移量预测网络和时空可变形卷积网络:所述步骤(1)得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络;
(2.1)所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F0,再对F0经过第二次插值下采样得到2R+1帧特征图F1。F1经过卷积和上采样得到编码后的特征图F3;F0经过卷积得到编码后的特征图F4;将F3与F4连接得到的特征,经过卷积和上采样得到编码后的特征图F5;步骤(1)得到的2R+1帧图像经过卷积得到编码后的特征图F6;将F5与F6连接得到的特征经过卷积得到编码后的特征图F7,F7经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量,输入到时空可变形卷积网络;
(2.2)所述时空可变形卷积网络根据步骤(2.1)得到的偏移量以及输入的2R+1帧图像进行可变形卷积,得到融合特征图F;
(3)SR图像超分辨率:根据步骤(2.2)得到的融合特征图F经过非线性映射后得到超分辨率残差图,与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。
本发明的有益效果是:提供了一种基于可变形卷积网络的视频超分辨率系统及方法,用可变形卷积网络获得帧与帧之间相关的信息,完成图像的融合,代替了现有技术中寻找关键帧和目标帧与相邻帧匹配的过程,对多帧进行联合运算获得所需的参数,具有更高的效率和鲁棒性。利用可变形卷积网络得到的图像融合结果对低分辨率图像进行增强,不论从主观视觉上还是从客观评价指标上都比现有最先进技术获得了更高分辨率的图像,具有更高的准确度。除了视频图像超分辨领域,本发明提出的可变形卷积网络还可以应用到其他视频处理任务,包括质量增强、重建、插帧、去噪等。
附图说明
图1是本发明的实现结构框图;
图2是本发明的TFM图像融合模块网络结构示意图;
图3是本发明的SR图像超分辨率模块网络结构示意图;
图4是本发明的视频超分辨率结果与其他技术在视觉上的比较图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供了一种基于可变形卷积网络的视频超分辨率系统,其特征在于,该系统包括:视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块;
所述视频数据采集模块用于获取待进行超分辨的视频;低分辨率视频的帧与帧之间存在着一定的联系,因此在提高某一帧低分辨率图像时可以借助相邻若干帧图像的信息以达到较好的效果。基于上述考虑,对给定的视频中时间为t0的目标帧
Figure BDA0003319568940000041
进行超分辨率处理时,分别取其相邻的前R帧
Figure BDA0003319568940000042
和后R帧
Figure BDA0003319568940000043
与目标帧连接起来
Figure BDA0003319568940000044
共2R+1帧图像作为输入,以得到更好的视频超分辨效果。
所述TFM图像融合模块,如图2所示,包括偏移量预测网络和时空可变形卷积网络:
偏移量预测网络:为了获得可变形卷积的偏移量,将输入图像经过偏移量预测网络,获得2R+1帧图像每个像素点在可变形卷积中所需的偏移量Δ:
Figure BDA0003319568940000045
其中
Figure BDA0003319568940000046
表示偏移量预测网络算法,
Figure BDA0003319568940000047
表示低分辨率视频时间为t的帧。令单帧视频图像的高为H,宽为W,可变形卷积核大小为K2,则输出的偏移量大小为H×W×(2R+1)×2K2
基于金字塔网络的思路设计偏移量预测网络。偏移量预测网络的结构如图2所示,其中包括步长为1的卷积层、步长为2的卷积层和反卷积层,对于步长为1的卷积层采用零填充策略以保持特征图的尺寸不变,步长为2的卷积层和残差块的功能为提取特征,反卷积层的功能为上采样。最后一层的卷积核个数为(2R+1)×2K2,使用线性激活函数。除了最后得到偏移量的卷积层以外,前面各层的卷积核个数均为C1,且都使用ReLU激活函数,ReLU激活函数的表达式如下:
output=max(0,input)
其中output表示ReLU函数的输出,input表示ReLU函数的输入。
偏移量预测网络的结构具体如下:输入的H×W×(2R+1)的低分辨率图像为Level0的输入,经过第一次二次插值下采样得到特征F0的大小为0.5H×0.5W×(2R+1)作为Level1的输入,经过第二次插值下采样得到特征F1的大小为0.25H×0.25W×(2R+1)作为Level 2的输入。Level 2的输入经过一个卷积层、一个残差块和一个卷积层,并经过上采样得到特征F3的大小为0.5H×0.5W×C1。Level 1的输入经过一个卷积层、一个残差块和一个卷积层得到特征F4的大小为0.5H×0.5W×C1。将F3与F4连接得到大小为0.5H×0.5W×2C1的特征,经过一个卷积层、一个残差块和一个卷积层,并经过上采样得到特征F5的大小为H×W×C1。Level 0的输入经过一个卷积层、一个残差块和一个卷积层得到特征F6的大小为H×W×C1。将F5与F6连接得到大小为H×W×2C1的特征,经过一个卷积层、一个残差块和一个卷积层得到特征F7的大小为H×W×C1,经过最后一层卷积得到H×W×(2R+1)×2K2的结果即为偏移量,每个像素对应的特征个数为(2R+1)×2K2,(2R+1)代表帧数,2K2代表K2大小的卷积核上每个位置的偏移量由一个二维坐标给出。
时空可变形卷积网络:根据得到的偏移量对视频图像进行可变形卷积,卷积核大小为K,可变形卷积对于每帧、每个位置的像素均有K2的偏移量,经过下式的可变形卷积运算得到p位置的融合特征图F(p):
Figure BDA0003319568940000051
其中Wt表示时间为t的卷积核参数,t0表示目标帧的时刻,p表示当前运算的像素点位置,pk表示进行卷积操作得到的偏移量,比如对于K=3,pk∈{(-1,-1),(-1,0),...,(1,1)},δ(t,p)表示时空坐标为(t,p)的偏移量,由偏移量预测网络输出得到,At表示针对融合特征过程的可学习权重。为了得到最佳性能的卷积核参数Wt,k,采用64通道的可变形卷积网络对输入的2R+1帧图像进行可变形卷积,得到大小为H×W×64的融合特征图。
如图3所示,所述SR图像超分辨率模块包括非线性映射网络和上采样层。所述非线性映射网络
Figure BDA0003319568940000052
由L层残差网络连接一个卷积层构成。卷积层的输出经过上采样层得到残差图,除了卷积层以外前面各层都包含C2个以ReLU为激活函数的卷积通道,最后一层输出超分辨残差
Figure BDA0003319568940000061
Figure BDA0003319568940000062
超分辨残差
Figure BDA0003319568940000063
叠加目标帧后得到最终的超分辨后的目标帧
Figure BDA0003319568940000064
由下式得到:
Figure BDA0003319568940000065
其中
Figure BDA0003319568940000066
表示原始图像经过s倍比例放大后的图像。
对上述视频超分辨率网络进行训练,得到最优化的网络参数。由于TFM图像融合模块和SR图像超分辨率模块是全卷积网络且可导的,因此可以进行端到端的联合训练,同时优化两个模块的参数,训练过程具体为:同时优化两个模块的参数θop和θsr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure BDA0003319568940000067
由图像重构损失函数
Figure BDA0003319568940000068
和偏移量引导损失函数
Figure BDA0003319568940000069
构成,其中
Figure BDA00033195689400000610
由原始分辨率图像和超分辨后图像的和方差(SSE)给出,和方差计算的是拟合数据和原始数据对应点的误差的平方和,因此损失函数计算式如下:
Figure BDA00033195689400000611
其中||·||2表示向量所有元素平方之和,ε表示超参数1×10-3。而偏移量引导损失函数
Figure BDA00033195689400000612
则是将相同条件下训练好的配对形式的偏移量ΔPE与联合形式的偏移量ΔJE的和方差给出,所述联合形式的偏移量ΔJE即为偏移量预测网络得到的偏移量,损失函数计算式如下:
Figure BDA00033195689400000613
其中ΔPE
Figure BDA00033195689400000614
H为偏移量的高,W为偏移量的宽。因此,TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure BDA00033195689400000615
的计算式为
Figure BDA00033195689400000616
其中λ为超参数,选择为0.01。值得说明的是,由于可变形卷积网络偏移量没有真值ground-truth作为参考,因此联合形式的偏移量预测网络的参数训练是由训练好的配对形式的偏移量参数进行监督的,且完全由最终的损失函数决定。将本发明提出的视频超分辨率技术与现有技术进行比较,原始视频经过二次插值缩小s倍后得到训练集和验证集,在同样的训练集上训练得到网络。
本发明还提供了一种基于可变形卷积网络的视频超分辨率方法,该方法包括如下步骤:
(1)视频数据采集:获取待进行超分辨的视频,选择视频中的一个目标帧以及目标帧的前R帧和后R帧,共2R+1帧图像;具体过程参考视频数据采集模块;
(2)TFM图像融合;包括偏移量预测网络和时空可变形卷积网络:所述步骤(1)得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络;具体过程参考TFM图像融合模块;
(2.1)所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F0,再对F0经过第二次插值下采样得到2R+1帧特征图F1。F1经过卷积和上采样得到编码后的特征图F3;F0经过卷积得到编码后的特征图F4;将F3与F4连接得到的特征,经过卷积和上采样得到编码后的特征图F5;步骤(1)得到的2R+1帧图像经过卷积得到编码后的特征图F6;将F5与F6连接得到的特征经过卷积得到编码后的特征图F7,F7经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量,输入到时空可变形卷积网络;
(2.2)所述时空可变形卷积网络根据步骤(2.1)得到的偏移量以及输入的2R+1帧图像进行可变形卷积,得到融合特征图F;
(3)SR图像超分辨率:根据步骤(2.2)得到的融合特征图F经过非线性映射后得到超分辨率残差图,与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧,具体过程参考SR图像超分辨率模块。
本发明提出的一种基于可变形卷积网络的视频超分辨率系统及方法STDVR-L在Vimeo-90K的测试集上达到的平均PSNR为36.7,比现有先进技术TDAN提高了2.3%,在Vid4的测试集上达到平均的PSNR为26.86,比TDAN提高1.7%,同时运算速度也比TDAN高82.9%。如图4所示,在视觉上,本发明提出的技术在图像超分辨上具有更好的效果。综上,本发明提出的一种基于可变形卷积网络的视频超分辨率技术具有更高的准确度和效率。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于可变形卷积网络的视频超分辨率系统,其特征在于,该系统包括:视频数据采集模块、TFM图像融合模块和SR图像超分辨率模块;
所述视频数据采集模块用于获取待进行超分辨的视频,选择视频中的一个目标帧以及目标帧的前R帧和后R帧,共2R+1帧图像,作为TFM图像融合模块的输入;
所述TFM图像融合模块包括偏移量预测网络和时空可变形卷积网络:所述视频数据采集模块得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络;
所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F0,再对F0经过第二次插值下采样得到2R+1帧特征图F1。F1经过卷积和上采样得到编码后的特征图F3;F0经过卷积得到编码后的特征图F4;将F3与F4连接得到的特征,经过卷积和上采样得到编码后的特征图F5;视频数据采集模块得到的2R+1帧图像经过卷积得到编码后的特征图F6;将F5与F6连接得到的特征经过卷积得到编码后的特征图F7,F7经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量,输入到时空可变形卷积网络;
所述时空可变形卷积网络根据输入的偏移量以及输入的2R+1帧图像进行可变形卷积,得到融合特征图F,输入到SR图像超分辨率模块;
所述SR图像超分辨率模块根据输入的融合特征图F经过非线性映射后得到超分辨率残差图,与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。
2.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统,其特征在于,所述视频数据采集模块每次取视频中的一帧作为目标帧进行超分辨率处理,对时间为t0的目标帧
Figure FDA0003319568930000011
进行超分辨处理时,分别取其相邻的前R帧
Figure FDA0003319568930000012
和后R帧
Figure FDA0003319568930000013
与目标帧连接起来,共2R+1帧图像作为TFM图像融合模块的输入,以得到更好的视频超分辨率效果。
3.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统,其特征在于,所述时空可变形卷积网络的运算方式为:根据得到的偏移量对视频图像进行可变形卷积,卷积核大小为K,可变形卷积对于每帧、每个位置的像素均有K2的偏移量,经过下式的可变形卷积运算得到p位置的融合特征图F(p):
Figure FDA0003319568930000014
其中Wt表示时间为t的卷积核参数,t0表示目标帧的时刻,表示当前运算的像素点位置,pk表示进行卷积操作得到的偏移量,δ(t,p)表示时空坐标为(t,p)的偏移量,由偏移量预测网络输出得到,At表示针对融合特征过程的可学习权重。
4.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统,其特征在于,所述SR图像超分辨率模块包括非线性映射网络和上采样层;所述非线性映射网络由L层残差网络连接一个卷积层构成;卷积层的输出经过上采样层得到残差图,叠加目标帧后得到最终的超分辨目标帧。
5.根据权利要求1所述的一种基于可变形卷积网络的视频超分辨率系统,其特征在于,所述TFM图像融合模块和SR图像超分辨率模块中网络的训练过程具体为:同时优化两个模块的参数θop和θsr。TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure FDA00033195689300000210
由图像重构损失函数
Figure FDA0003319568930000021
和偏移量引导损失函数
Figure FDA0003319568930000022
构成,其中
Figure FDA0003319568930000023
由原始分辨率图像和超分辨后图像的和方差(SSE)给出,和方差计算的是拟合数据和原始数据对应点的误差的平方和,因此损失函数计算式如下:
Figure FDA0003319568930000024
其中||·||2表示向量所有元素平方之和,ε表示超参数1×10-3。而偏移量引导损失函数
Figure FDA0003319568930000025
则是将相同条件下训练好的配对形式的偏移量ΔPE与联合形式的偏移量ΔJE的和方差给出,所述联合形式的偏移量ΔJE即为偏移量预测网络得到的偏移量,损失函数计算式如下:
Figure FDA0003319568930000026
其中ΔPE
Figure FDA0003319568930000027
H为偏移量的高,W为偏移量的宽。因此,TFM图像融合模块和SR图像超分辨率模块联合的损失函数
Figure FDA0003319568930000028
的计算式为
Figure FDA0003319568930000029
其中λ为超参数。
6.一种基于权利要求1-5任一项所述的可变形卷积网络的视频超分辨率系统的视频超分辨率方法,其特征在于,该方法包括如下步骤:
(1)视频数据采集:获取待进行超分辨的视频,选择视频中的一个目标帧以及目标帧的前R帧和后R帧,共2R+1帧图像;
(2)TFM图像融合;包括偏移量预测网络和时空可变形卷积网络:所述步骤(1)得到的2R+1帧图像同时输入到偏移量预测网络和时空可变形卷积网络;
(2.1)所述偏移量预测网络将输入的2R+1帧图像经过第一次二次插值下采样得到一组2R+1帧特征图F0,再对F0经过第二次插值下采样得到2R+1帧特征图F1。F1经过卷积和上采样得到编码后的特征图F3;F0经过卷积得到编码后的特征图F4;将F3与F4连接得到的特征,经过卷积和上采样得到编码后的特征图F5;步骤(1)得到的2R+1帧图像经过卷积得到编码后的特征图F6;将F5与F6连接得到的特征经过卷积得到编码后的特征图F7,F7经过卷积操作得到最终目标帧图像上每个像素点对应的偏移量,输入到时空可变形卷积网络;
(2.2)所述时空可变形卷积网络根据步骤(2.1)得到的偏移量以及输入的2R+1帧图像进行可变形卷积,得到融合特征图F;
(3)SR图像超分辨率:根据步骤(2.2)得到的融合特征图F经过非线性映射后得到超分辨率残差图,与经过s倍比例放大的目标帧相叠加得到最终的超分辨目标帧。
CN202111241083.XA 2021-10-25 2021-10-25 一种基于可变形卷积网络的视频超分辨率系统及方法 Pending CN113902620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111241083.XA CN113902620A (zh) 2021-10-25 2021-10-25 一种基于可变形卷积网络的视频超分辨率系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111241083.XA CN113902620A (zh) 2021-10-25 2021-10-25 一种基于可变形卷积网络的视频超分辨率系统及方法

Publications (1)

Publication Number Publication Date
CN113902620A true CN113902620A (zh) 2022-01-07

Family

ID=79026717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111241083.XA Pending CN113902620A (zh) 2021-10-25 2021-10-25 一种基于可变形卷积网络的视频超分辨率系统及方法

Country Status (1)

Country Link
CN (1) CN113902620A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114554213A (zh) * 2022-02-21 2022-05-27 电子科技大学 一种运动自适应和关注细节的压缩视频质量增强方法
CN114827616A (zh) * 2022-04-28 2022-07-29 电子科技大学 一种基于时空信息平衡的压缩视频质量增强方法
CN115103188A (zh) * 2022-08-24 2022-09-23 中南大学 Svc的错误隐藏方法、模型训练方法、系统及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114554213A (zh) * 2022-02-21 2022-05-27 电子科技大学 一种运动自适应和关注细节的压缩视频质量增强方法
CN114827616A (zh) * 2022-04-28 2022-07-29 电子科技大学 一种基于时空信息平衡的压缩视频质量增强方法
CN114827616B (zh) * 2022-04-28 2023-03-10 电子科技大学 一种基于时空信息平衡的压缩视频质量增强方法
CN115103188A (zh) * 2022-08-24 2022-09-23 中南大学 Svc的错误隐藏方法、模型训练方法、系统及设备
CN115103188B (zh) * 2022-08-24 2022-12-30 中南大学 Svc的错误隐藏方法、模型训练方法、系统及设备

Similar Documents

Publication Publication Date Title
CN113902620A (zh) 一种基于可变形卷积网络的视频超分辨率系统及方法
CN111353940B (zh) 一种基于深度学习迭代上下采样的图像超分辨率重建方法
CN110415199B (zh) 基于残差学习的多光谱遥感图像融合方法及装置
CN108492249B (zh) 基于小卷积递归神经网络的单帧超分辨重建方法
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN111696035A (zh) 一种基于光流运动估计算法的多帧图像超分辨率重建方法
CN115564692B (zh) 顾及幅宽差异下的全色-多光谱-高光谱一体化融合方法
CN111861884A (zh) 一种基于深度学习的卫星云图超分辨率重建方法
CN111242999B (zh) 基于上采样及精确重匹配的视差估计优化方法
CN113947531A (zh) 一种迭代协作的视频超分辨率重构方法及系统
CN115526779A (zh) 一种基于动态注意力机制的红外图像超分辨率重建方法
CN116563100A (zh) 一种基于内核引导网络的盲超分辨率重建方法
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及系统
CN116468605A (zh) 基于时空分层掩膜注意力融合的视频超分辨率重建方法
Zheng et al. Double-branch dehazing network based on self-calibrated attentional convolution
Deng et al. Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution
Wang et al. Gridformer: Residual dense transformer with grid structure for image restoration in adverse weather conditions
CN115511705A (zh) 一种基于可变形残差卷积神经网络的图像超分辨率重建方法
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
Catalbas Modified VDSR-based single image super-resolution using naturalness image quality evaluator
CN111899166A (zh) 一种基于深度学习的医学高光谱显微图像超分辨重构方法
CN112634153B (zh) 一种基于边缘增强的图像去模糊方法
CN115358924A (zh) 一种深度学习星载微波辐射计遥感亮温超分辨率重建方法
Yang et al. Reference-based Image Super-Resolution by Dual-Variational AutoEncoder
US20240177269A1 (en) Method of local implicit normalizing flow for arbitrary-scale image super-resolution, and associated apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination