CN112580473B - 一种融合运动特征的视频超分辨率重构方法 - Google Patents
一种融合运动特征的视频超分辨率重构方法 Download PDFInfo
- Publication number
- CN112580473B CN112580473B CN202011464000.9A CN202011464000A CN112580473B CN 112580473 B CN112580473 B CN 112580473B CN 202011464000 A CN202011464000 A CN 202011464000A CN 112580473 B CN112580473 B CN 112580473B
- Authority
- CN
- China
- Prior art keywords
- feature
- frame
- key frame
- reconstruction
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 34
- 238000012549 training Methods 0.000 description 30
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种融合运动特征的视频超分辨率重构方法,用于解决现阶段视频超分辨率重构方法重构精度不高,重构时间过长的问题。首先自适应关键帧判别子网自适应地从视频连续帧中判别出关键帧;关键帧经过高精度关键帧重构子网进行重构;对于非关键帧,则提取其与邻近关键帧之间的运动特征,并与邻近关键帧特征融合,再经过特征残差学习,得到非关键帧的特征,从而快速地获得非关键帧的重构结果。本发明能够自适应地判断视频中帧为关键帧或是非关键帧,并根据判断结果执行不同的重构策略,保证了视频整体重构结果的精准性;其次,本发明在图像特征层面进行运动信息的融合,避免了伪影的引入,减少了运动估计的提取时间。
Description
技术领域
本发明属于图像处理和计算机视觉领域,涉及视频超分辨率重构的方法,尤其涉及一种融合运动特征的视频超分辨率重构方法。
背景技术
超分辨率重构技术为许多计算机图像处理任务提供了更多的发展可能,更高分辨率的图像或视频能够显著提升后续处理工作的精度。目前,超分辨率重构技术根据处理目标不同主要分为图像超分辨率重构技术和视频超分辨率重构技术,其中,图像超分辨率重构技术通过建立低分辨率图像与高分辨率图像之间的映射关系,还原高分辨率图像中的细节纹理。视频超分辨率重构技术则会利用视频帧间的相似信息与运动信息提升重构精度,并压缩重构时间。
在连续视频帧中,帧与帧之间的差异较小,存在大量重复的信息,若将每帧都作为独立的图像进行重构,则会浪费大量的计算资源和时间。因此,面向视频的超分辨率重构可以复用帧间的相似信息,压缩重构时间。现阶段主流的视频超分辨率重构技术利用卷积神经网络,提取帧间光流,并通过将光流与邻近帧融合的方式,将邻近帧信息映射至当前帧,作为当前帧的补充信息参与当前帧的重构。然而,上述方法依赖精准的光流估计,同时,在图像层面将光流与图像进行融合,会向图像引入伪影并使原图像中的部分细节信息丢失。此外,为降低视频的重构时间,上述方法往往采用网络结构简单的神经网络模型,导致模型无法很好地提取图像特征,重构精度较低。
为了解决上述问题,本发明提出了一种融合运动特征的视频超分辨率重构方法。
发明内容
本发明用于解决现阶段视频超分辨率重构方法重构精度不高,重构时间过长的问题。为了解决上述问题,本发明提供了一种融合运动特征的视频超分辨率重构方法。首先自适应关键帧判别子网自适应地从视频连续帧中判别出关键帧;关键帧经过高精度关键帧重构子网进行重构;对于非关键帧,则提取其与邻近关键帧之间的运动特征,并与邻近关键帧特征融合,再经过特征残差学习,得到非关键帧的特征,从而快速地获得非关键帧的重构结果。具体包括以下步骤:
1)自适应判断当前帧是否为新的关键帧;
2)如果当前帧为新的关键帧,则将其输入基于深度反向投影的高精度关键帧重构子网,获得该当前帧的特征和其重构结果;
3)如果当前帧被判别为非关键帧,则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网,输出该当前帧的重构结果。在面向非关键帧的运动特征提取及融合子网中,首先获得该当前帧和其邻近关键帧间的运动特征,然后将获得的运动特征和其邻近关键帧特征进行融合,最后再将融合后的特征经过与邻近帧特征残差学习获得当前帧特征,从而快速地获得非关键帧的重构结果;
步骤4)对整个视频的每一帧都进行上述步骤1)、步骤2)或步骤3)的处理,最终得到整个视频的重构结果。
进一步,所属步骤1)中的自适应关键帧判别子网,自适应地判别当前帧是否为新的关键帧,具体为:
1.1)如果当前帧为视频的第一帧,则其邻近关键帧为视频的第一帧;
1.2)如果当前帧不为视频的第一帧,则将当前帧和其邻近关键帧输入自适应关键帧判别子网,自适应关键帧判别子网的判断过程如下:
将当前帧输入一路为一个卷积核为3的卷积中提取底层特征,将其邻近关键帧输入另一路为一个卷积核为3的卷积中提取对应的底层特征;随后,将获得的两幅图像的底层特征通过一个64通道的卷积层,得到两幅图像的底层特征差异特征;再经过包含128个神经元的全连接层和全局平均池化,得到一个具有全局视野的两帧间差异值;最后将该帧间差异值经过Sigmoid函数,将其映射到[0,1]区间,得到当前帧作为新关键帧的概率;
1.3)最后,根据设定的新关键帧的判定阈值,当自适应关键帧判别子网输出的概率值超过阈值时,则将当前帧判别为新的关键帧;否则,将该当前帧作为非关键帧。
进一步,所属步骤2)中的基于深度反向投影的高精度关键帧重构子网,获得关键帧的重构特征和重构结果。其中,基于深度反向投影的高精度关键帧重构子网包含深度反向投影模块与通道注意力层。
2.1)首先,当前帧经过3×3的卷积层提取底层特征Fl;
2.2)然后,将获取的底层特征Fl输入深度反向投影模块,得到输出特征Fh。
首先将获取的底层特征Fl输入第一上采样单元,获得关键帧高分辨率空间特征F0;随后将F0输入至第一下采样单元,获得特征F0的低分辨率空间特征F1;再将F1输入至第二上采样单元,获得特征F1的高分辨率空间特征F2;随后将F0和F2拼接后输入至第二下采样单元,获得低分辨率空间特征F3;再将F1与F3拼接后输入至第三上采样单元,获得高分辨率空间特征F4;最后,拼接所有高分辨率空间特征F0、F2和F4,作为深度反向投影模块的输出特征Fh;
其中所述的第一、二、三上采样单元结构和处理过程相同,现以第一上采样单元的处理过程为例说明所述的上采样单元的处理过程具体如下:
首先,第一上采样单元的输入为特征Fl,经过一层3×3反卷积的上采样操作,得到特征Fl1;然后将得到的特征Fl1经过一层stride=2的3×3卷积的下采样操作,得到特征Fl2,再将特征Fl2与输入特征Fl相减,得到特征Fl3;再将特征Fl3经过一层3×3反卷积的上采样操作,得到特征Fl4;最后融合特征Fl1和Fl4,得到第一上采样单元的输出特征F0。
其中所述的第一、二下采样单元结构和处理过程相同,现以第一下采样单元的处理过程为例说明所述的下采样单元的处理过程具体如下:
首先,第一下采样单元的输入为特征F0,经过一层stride=2的3×3卷积的下采样操作,得到特征F01;然后将得到的特征F01经过一层3×3反卷积的上采样操作,得到特征F02,再将特征F02与输入特征F0相减,得到特征F03;再将特征F03经过一层stride=2的3×3卷积的下采样操作,得到特征F04;最后融合特征F01和F04,得到第一下采样单元的输出特征F1。
通过深度反向投影模块不断地上、下采样操作,模型可以学习到不同深度、不同尺度的低分辨率图像特征与高分辨率图像特征之间的映射关系,以此将图像上采样的任务,分散到多个上采样单元,提高模型的精准性和泛化性。同时,采用密集的层间连接模式,不断地复用浅层特征,能够有效缓解因为网络层数过深导致的梯度消失问题,并且后续提取的特征仍可以保留丰富的细节纹理信息,有助于高分辨率重构结果的细节还原。
2.3)将深度反向投影模块的输出特征Fh作为通道注意力层的输入,首先经过一个全局平均池化,将每个通道的二维特征压缩为一个具有全局感受野的实数,该实数代表了该通道上响应值的全局分布,实数值越高,说明该通道特征在重构过程中发挥着更大的作用;随后,通过Sigmoid函数将通道响应值映射为分布于[0,1]区间的通道权重Wk;再将Wk与特征Fh相乘,为特征Fh中各通道分配新的权重,获得最终的关键帧特征Fk;
2.4)最后将关键帧特征Fk经过3×3的卷积重构得到高分辨率的当前帧重构图像。
3)如果当前帧为非关键帧,则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网,获得两帧间的运动特征,将获得的运动特征和其邻近关键帧特征融合后,再经过邻近帧特征残差学习获得当前帧特征,从而快速地获得非关键帧的重构结果。
进一步,所属步骤3)中的运动特征提取及融合子网,获得非关键帧的重构结果。其中,运动特征提取及融合子网包括提取运动特征、关键帧特征融合映射、邻近帧特征残差学习三部分组成。
3.1)对于提取运动特征部分,将当前帧It与邻近关键帧Ik作为输入,经过两层Stride=2的卷积和两层Stride=1的卷积,再通过×4的亚像素卷积,获得两帧的粗糙光流估计Fc;之后,将Fc、It、Ik融合,经过三层Stride=1的卷积后,获得与关键帧特征融合的运动特征Ff。
3.2)对于关键帧特征融合映射部分,将该当前帧的邻近关键帧特征Fk首先经过逆亚像素卷积降维至低分辨率空间,获得低分辨率空间的邻近关键帧精准特征使邻近关键帧特征/>与运动特征Ff对齐至同一特征空间,同时提高非关键帧的重构速度。随后,通过一层3×3卷积的warp操作,将/>与Ff融合,得到该当前帧的粗糙特征Ft c,通过将/>与Ff融合,关键帧特征Ff中的细节纹理信息可以映射至当前帧粗糙特征Ft c的对应位置。
3.3)对于邻近帧特征残差学习部分,将当前帧的粗糙特征Ft c与邻近帧精准特征相减,获得包含当前帧与前一帧之间差异的残差特征Ft r,再将该残差特征Ft r经过包含两层3×3卷积的残差块中进一步提取特征,提取的特征与Ft c融合后弥补关键帧特征中无法表示的当前帧信息,获得当前帧的精准特征Ft a。最后将Ft a经过亚像素卷积还原至高分辨率空间,并经过3×3卷积快速地获得当前帧的重构结果。其中,如果该当前帧的前一邻近帧为关键帧,则/>
本发明提供了一种融合运动特征的视频超分辨率重构方法,该方法能够将视频帧的重构自适应地分为关键帧的重构与非关键帧的重构。对于关键帧的重构,通过高精度关键帧重构子网获得高精准度的关键帧特征与重构结果;而对于非关键帧的重构,则通过关键帧特征与运动特征融合的方式,快速地获得非关键帧的重构结果。本发明能够快速、准确地完成视频超分辨率重构,具有良好的鲁棒性,并满足小分辨率输入视频实时重构的要求。
有益效果
首先,本发明能够自适应地判断视频中帧为关键帧或是非关键帧,并根据判断结果执行不同的重构策略,保证了视频整体重构结果的精准性;其次,本发明在图像特征层面进行运动信息的融合,对比以往方法在图像层面的运动信息融合,避免了伪影的引入,并减少了运动估计的提取时间。
附图说明
图1是本发明融合运动特征的视频超分辨率重构方法的流程图;
图2是本发明中自适应关键帧判别子网的结构图;
图3是本发明中高精度关键帧重构子网的结构图;
图4是本发明中面向非关键帧的运动特征提取及融合子网的结构图。
具体实施方式
本发明提出了一种融合运动特征的视频超分辨率重构方法,在视频超分辨率重构过程中,该方法首先会根据帧间差异判定当前帧是否为新的关键帧。对于关键帧会经过高精度关键帧重构子网获得关键帧特征和重构结果;对于非关键帧,则会经过面向非关键帧的运动特征提取及融合子网快速地获得非关键帧的重构结果。应用本发明,解决了现有面向视频的超分辨率方法无法在重构精度和重构时间上难以平衡的问题,还解决了以往方法在图像层面进行运动信息融合引入伪影的问题。本发明适用于视频的超分辨率重构,具有良好的鲁棒性,重构精度高。
下面结合具体实例以及附图对本发明进行更详细阐述。
本发明包括以下步骤:
1)获取DIV2K数据集作为关键帧重构子网的预训练模型的训练集,并获取Davis-2017、YouTube、SPMCS和Vid4数据集作为整体模型的训练集和测试集;
2)构建自适应关键帧判别子网,输入视频序列后,根据当前帧与邻近关键帧之间的特征差异自适应地判别当前帧是否为新的关键帧,其中,视频序列的第一帧自动判别为关键帧,具体为:
2.1)对于给定每帧分辨率为H×W的输入视频,当前帧大小为H×W×3,邻近关键帧大小为H×W×3,两幅图像分别经过通道数为32的3×3卷积提取底层特征,再将两幅图像的底层特征相减,得到两幅图像的底层特征差异特征,大小为H×W×32;经过池化、一层64通道的卷积、包含128个神经元的全连接层和全局平均池化后,得到两帧间的底层特征差异值;最后通过Sigmoid函数将差异值映射至[0,1]之间,子网的输出结果为当前帧为新的关键帧的概率。
2.2)设定网络损失函数及训练策略,由于连续视频帧中相近帧的差异一般比较小,而间隔较大的帧差异比较大,因此,在训练自适应关键帧判别子网模型时,首先随机选取训练集中任意视频的任意一帧及其相邻帧作为模型训练的负样本;随后,将该帧与其同一视频内间隔较大的一帧(帧间隔为8-12中的随机数)作为正样本,并采用正负样本交替输入的方式训练模型参数,并制定如下损失函数:
其中,n为负样本的数量,m为正样本的数量,xi为输入负样本时模型的输出,yj为输入正样本时模型的输出。同时,为避免正负样本的数量不均衡,在训练过程中,设置n=m。
2.3)设定关键帧判定阈值,对于新关键帧的判别,自适应关键帧判别子网会根据当前帧与前一关键帧之间的底层特征差异,给出在区间[0,1]之间的预测值。当该预测值超过设定阈值时,则将当前帧判别为新关键帧,否则判别当前帧为非关键帧。理论上讲阈值设定越低,关键帧更替越频繁,视频重构结果越精确。特殊情况下,阈值设定为0,则每一帧均为关键帧;阈值设定为1,则除第一帧外其余视频帧均为非关键帧。本发明默认阈值为0.7。
3)构建高精度关键帧重构子网,并设定关键帧的放大倍数为2或4。视频重构过程中,若当前帧被判别为关键帧,则经过高精度关键帧重构子网获得重构特征与重构结果,具体为:
3.1)首先,对于给定大小为H×W×3的关键帧,首先经过一层通道数为12的3×3卷积提取底层特征Fl;
3.2)然后将底层特征Fl输入深度反向投影模块提取特征Fh,假定重构倍数为2。
首先,将底层特征Fl通过通道数为12的上采样单元,获得大小为2H×2W×12高分辨率空间特征F0;随后将F0输入通道数为12的下采样单元,获得大小为H×W×12的低分辨率空间特征F1;再将F1输入通道数为12的上采样单元,获得大小为2H×2W×12的高分辨率空间特征F2;随后将F0和F2拼接后输入通道数为24的下采样单元,获得大小为H×W×24的低分辨率空间特征F3;再将F1与F3拼接后输入通道数为24的上采样单元,获得2H×2W×24的高分辨率空间特征F4;最后,拼接所有高分辨率空间特征F0、F2和F4作为深度反向投影模块的输出特征Fh,特征大小为2H×2W×48。
3.3)将Fh作为通道注意力层的输入,经过一个全局平均池化获得大小为1×1×48通道全局响应值;随后,通过Sigmoid函数将通道全局响应值映射为分布于[0,1]区间的大小为1×1×48的通道权重Wk;然后根据权重Wk为特征Fh分配不同权重,获得最终关键帧特征Fk和高分辨率关键帧重构图像。获得关键帧特征Fk的数学表达式如下:
3.4)设定网络损失函数及训练策略,本发明中高精度关键帧重构子网采用超分辨重构方法中常用的逐像素均方误差(MSE,Mean-Square Error)作为主要的损失函数,同时加入系数为λ的L1正则化损失,λ设置为0.1,整体损失函数的数学表示为:
其中,x为高精度关键帧重构子网输出的高分辨率重构图像,y为给定的对应高清图像,m×n为图像的总像素数。
在训练过程中,首先使用DIV2K数据集对高精度关键帧重构子网模型进行预训练,使模型能够获得比较精准的关键帧特征和重构结果,之后使用DAVIS-2017和SPMCS数据集对预训练模型进行微调,使网络模型能够在应对视频超分辨率重构任务具有更好的表现。
4)构建面向非关键帧的运动特征提取及融合子网,对于被自适应关键帧判别子网判别为非关键帧的图像,则将其和其邻近关键帧一同输入子网,快速地获得非关键帧的重构结果,具体为:
4.1)首先,将当前帧It和其邻近关键帧Ik进行拼接,大小变为H×W×6;
4.2)然后,将当前帧It和其邻近关键帧Ik拼接后的结果输入子网,输入大小为H×W×6,经过两层通道数为32、Stride=2的卷积层和两层通道数为32、Stride=1的卷积,获得大小为的运动特征,再通过×4的亚像素卷积层获得H×W×2的粗糙光流估计Fc;然后,将Fc、It、Ik融合为H×W×8的输入,经过三层通道数为16、Stride=1的卷积层后,获得大小为H×W×16的两帧精准运动特征Ff。
4.3)将网络保存的大小为2H×2W×48的关键帧特征Fk首先经过逆亚像素卷积降维至低分辨率空间,获得大小为H×W×48的关键帧精准特征随后,通过一层3×3卷积的warp操作,将/>与Ff融合,得到大小为H×W×48的当前帧粗糙特征Ft c,通过/>与Ff的融合,可以将关键帧特征/>中的细节纹理信息映射至当前帧粗糙特征Ft c的对应位置。获得Ft c的数学表达式为:
4.4)将大小为H×W×48的当前帧粗糙特征Ft c和大小为H×W×48的其邻近帧精准特征相减,得到大小为H×W×48的残差特征Ft r;然后,将Ft r经过通道数为48的两层3×3卷积层的残差块后,再与Ft c进行相加,得到大小为H×W×48的当前帧精准特征Ft a。
4.5)最后将当前帧精准特征Ft a经过亚像素卷积还原至高分辨率空间,得到大小为2H×2W×48的高分辨率空间特征,并通过与高精度关键帧重构子网的最后一层共享权重的卷积层,获得非关键帧的重构结果。
4.6)设定网络损失函数及训练策略,本发明中面向非关键帧的运动特征提取及融合子网采用与高精度关键帧重构子网相同的损失函数,使用高清视频数据集DAVIS-2017和SPMCS对网络模型进行训练与测试,并通过已经训练好的高精度关键帧重构子网模型进行关键帧特征的提取与保存。训练过程中,随机选取训练集视频中的一帧作为关键帧,经过高精度关键帧重构子网模型提取关键帧特征,并将该帧后续的连续8帧作为一组,依次将该关键帧与其后第一帧、关键帧与其后第二帧直至关键帧与其后第八帧输入网络进行重构与模型训练。
5)对整个融合运动特征的视频超分辨率重构模型进行训练,本发明采取对三部分子网分别训练的方式进行训练。
5.1)首先训练高精度关键帧重构子网放大倍数为2的模型参数。首先选取DIV2K数据集对网络进行训练,训练过程中首先将DIV2K数据集中图像预处理至相同大小,随后将图像各边长缩小至原图的作为输入,原图作为label,每批次训练样本数batch-size设置为4,采用一阶动量动力β1=0.9和二阶动量动力β2=0.999的自适应矩估计(Adam,Adaptivemoment estimation)作为训练优化器,使用3.4)中的损失函数,并将初始学习率设定为1e-4,经过每十万次迭代后,学习率降为原来的一半,共进行30万次迭代。随后使用DAVIS-2017和SPMCS数据集对预训练模型进行微调,图像预处理方式与之前相同,初始学习率设置为1e-5,经过每十万次迭代后,学习率降为原来的一半,直至模型收敛。
5.2)然后,冻结高精度关键帧重构子网的参数,进一步训练面向非关键帧的运动特征提取及融合子网放大倍数为2的模型参数。选取DAVIS-2017和SPMCS数据集对模型进行训练,图像预处理方式与高精度关键帧重构子网相同。训练过程中冻结高精度关键帧重构子网的模型参数,采用一阶动量动力β1=0.9和二阶动量动力β2=0.999的自适应矩估计(Adam,Adaptive moment estimation)作为训练优化器,使用4.6)中损失函数,并将初始学习率设定为1e-4,经过每十万次迭代后,学习率降为原来的一半,共进行50万次迭代。
5.3)最后训练自适应关键帧判别子网的模型参数,获取DAVIS-2017和SPMCS数据集进行训练,训练过程中冻结高精度关键帧重构子网的模型参数和面向非关键帧的运动特征提取及融合子网的模型参数,使用2.2)中训练策略和损失函数,采用一阶动量动力β1=0.9和二阶动量动力β2=0.999的自适应矩估计(Adam,Adaptive moment estimation)作为训练优化器,并将初始学习率设定为1e-4,经过每十万次迭代后,学习率降为原来的一半,共进行50万次迭代。
5.4)根据5.1)、5.2)和5.3)中的步骤,训练放大倍数为4的模型参数。
本发明在GTX 1080Ti GPU和Ubuntu16.04 64位操作系统下,采用TensorFlow开源框架和Python语言实现该方法。
本发明提供了一种融合运动特征的视频超分辨率重构方法,适用于快速获得放大倍数为2或4的视频重构。根据实验结果表明,本发明鲁棒性好,重构结果清晰、准确,且对于小分辨率的视频能够实现实时重构。
Claims (4)
1.一种融合运动特征的视频超分辨率重构方法,其特征在于,包括以下步骤:
步骤1)自适应判断当前帧是否为新的关键帧;
步骤2)如果当前帧被判别为新的关键帧,则将其输入基于深度反向投影的高精度关键帧重构子网,获得该当前帧的特征和其重构结果;
步骤3)如果当前帧被判别为非关键帧,则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网,输出该当前帧的重构结果;在面向非关键帧的运动特征提取及融合子网中,首先获得该当前帧和其邻近关键帧间的运动特征,然后将获得的运动特征和其邻近关键帧特征进行融合,最后再将融合后的特征经过与邻近帧特征残差学习获得当前帧特征,从而快速地获得非关键帧的重构结果;
步骤4)对整个视频的每一帧都进行上述步骤1)至步骤3)的处理,最终得到整个视频的重构结果;
其中,步骤2)对于关键帧,则将其输入基于深度反向投影的高精度关键帧重构子网,获得其特征和重构结果,具体为:
2.1)首先,当前帧经过3×3的卷积层提取底层特征Fl;
2.2)然后,将获取的底层特征Fl输入深度反向投影模块,得到输出特征Fh,具体过程如下:
首先将获取的底层特征Fl输入第一上采样单元,获得关键帧高分辨率空间特征F0;随后将F0输入至第一下采样单元,获得特征F0的低分辨率空间特征F1;再将F1输入至第二上采样单元,获得特征F1的高分辨率空间特征F2;随后将F0和F2拼接后输入至第二下采样单元,获得低分辨率空间特征F3;再将F1与F3拼接后输入至第三上采样单元,获得高分辨率空间特征F4;最后,拼接所有高分辨率空间特征F0、F2和F4,作为深度反向投影模块的输出特征Fh;
2.3)将深度反向投影模块的输出特征Fh作为通道注意力层的输入,具体过程如下:首先,经过一个全局平均池化将每个通道的二维特征压缩为一个具有全局感受野的实数,该实数代表了该通道上响应值的全局分布,实数值越高,说明该通道特征在重构过程中发挥着更大的作用;随后,通过Sigmoid函数将通道响应值映射为分布于[0,1]区间的通道权重Wk;再将Wk与特征Fh相乘,为特征Fh中各通道分配新的权重,获得关键帧特征Fk;
2.4)最后将关键帧特征Fk经过3×3的卷积重构得到高分辨率的关键帧重构图像;
其中所述的第一、二、三上采样单元结构和处理过程相同,现以第一上采样单元的处理过程为例说明所述的上采样单元的处理过程具体如下:
首先,第一上采样单元的输入为特征Fl,经过一层3×3反卷积的上采样操作,得到特征Fl1;然后将得到的特征Fl1经过一层stride=2的3×3卷积的下采样操作,得到特征Fl2,再将特征Fl2与输入特征Fl相减,得到特征Fl3;再将特征Fl3经过一层3×3反卷积的上采样操作,得到特征Fl4;最后融合特征Fl1和Fl4,得到第一上采样单元的输出特征F0;
其中所述的第一、二下采样单元结构和处理过程相同,现以第一下采样单元的处理过程为例说明所述的下采样单元的处理过程具体如下:
首先,第一下采样单元的输入为特征F0,经过一层stride=2的3×3卷积的下采样操作,得到特征F01;然后将得到的特征F01经过一层3×3反卷积的上采样操作,得到特征F02,再将特征F02与输入特征F0相减,得到特征F03;再将特征F03经过一层stride=2的3×3卷积的下采样操作,得到特征F04;最后融合特征F01和F04,得到第一下采样单元的输出特征F1。
2.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法,其特征在于,步骤1)自适应判别当前帧是否为关键帧,具体为:
1.1)如果当前帧为视频的第一帧,则将该当前帧判别为关键帧;
1.2)如果当前帧不为视频的第一帧,则将当前帧和其邻近关键帧输入自适应关键帧判别子网,自适应关键帧判别子网的判断过程如下:将当前帧输入一路为一个卷积核为3的卷积中提取底层特征,将其邻近关键帧输入另一路为一个卷积核为3的卷积中提取对应的底层特征;随后,将两幅图像的底层特征相减,得到两幅图像的底层特征差异特征;再依次通过一个卷积、池化获得帧间差异特征;然后依次经过一个全连接层和一个全局平均池化,得到一个具有全局视野的帧间差异值;最后经过Sigmoid函数将该差异值映射为[0,1]之间,即为当前帧为新的关键帧的概率;
1.3)设定关键帧判定阈值,当当前帧为新关键帧的概率值超过设定阈值时,则将当前帧判别为新关键帧,否则判别当前帧为非关键帧。
3.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法,其特征在于,步骤3)对于非关键帧,则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网,获得非关键帧的重构结果,具体为:
3.1)将当前帧It和其邻近关键帧Ik进行拼接,经过两层Stride=2的卷积和两层Stride=1的卷积,再通过×4的亚像素卷积,获得两帧的粗糙光流估计Fc;之后,将Fc、It、Ik融合,经过三层Stride=1的卷积后,获得与关键帧特征融合的运动特征Ff;
3.2)然后将该当前帧的邻近关键帧特征Fk经过逆亚像素卷积降维至低分辨率空间,获得低分辨率空间的邻近关键帧精准特征使邻近关键帧特征/>与运动特征Ff对齐至同一特征空间;随后,通过一层3×3卷积的warp操作,将/>与Ff融合,得到该当前帧的粗糙特征Ft c,通过将/>与Ff融合,关键帧特征Ff中的细节纹理信息可以映射至当前帧粗糙特征Ft c的对应位置;
3.3)最后将当前帧粗糙特征Ft c和其邻近帧精准特征相减,获得包含当前帧与前一帧之间差异的残差特征Ft r,再将该残差特征Ft r经过包含两层3×3卷积的残差块中进一步提取特征,提取的特征与Ft c融合,获得当前帧的精准特征Ft a;最后将Ft a经过亚像素卷积还原至高分辨率空间,并通过与高精度关键帧重构子网的最后一层共享权重的卷积层获得当前帧的重构结果,其中,如果该当前帧的前一邻近帧为关键帧,则/>
4.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法,其特征在于所述步骤1中损失函数为正负样本数相同的正负样本损失;以及所述步骤2和步骤3中的构造损失函数包括两部分组成:第一部分是像素级损失函数;第二部分是L1正则化损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464000.9A CN112580473B (zh) | 2020-12-11 | 2020-12-11 | 一种融合运动特征的视频超分辨率重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464000.9A CN112580473B (zh) | 2020-12-11 | 2020-12-11 | 一种融合运动特征的视频超分辨率重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580473A CN112580473A (zh) | 2021-03-30 |
CN112580473B true CN112580473B (zh) | 2024-05-28 |
Family
ID=75132297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011464000.9A Active CN112580473B (zh) | 2020-12-11 | 2020-12-11 | 一种融合运动特征的视频超分辨率重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580473B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113382247B (zh) * | 2021-06-09 | 2022-10-18 | 西安电子科技大学 | 基于间隔观测的视频压缩感知系统及方法、设备及存储介质 |
CN114222124B (zh) * | 2021-11-29 | 2022-09-23 | 广州波视信息科技股份有限公司 | 一种编解码方法及设备 |
CN116051380B (zh) * | 2023-01-13 | 2023-08-22 | 深圳大学 | 一种视频超分辨率处理方法及电子设备 |
CN116527833B (zh) * | 2023-07-03 | 2023-09-05 | 清华大学 | 一种基于超分模型的高清视频生成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852944A (zh) * | 2019-10-12 | 2020-02-28 | 天津大学 | 基于深度学习的多帧自适应融合的视频超分辨方法 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111161150A (zh) * | 2019-12-30 | 2020-05-15 | 北京工业大学 | 一种基于多尺度注意级联网络的图像超分辨率重建方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780342A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华星光电技术有限公司 | 基于稀疏域重构的单帧图像超分辨重建方法及装置 |
-
2020
- 2020-12-11 CN CN202011464000.9A patent/CN112580473B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852944A (zh) * | 2019-10-12 | 2020-02-28 | 天津大学 | 基于深度学习的多帧自适应融合的视频超分辨方法 |
CN111161150A (zh) * | 2019-12-30 | 2020-05-15 | 北京工业大学 | 一种基于多尺度注意级联网络的图像超分辨率重建方法 |
CN111161306A (zh) * | 2019-12-31 | 2020-05-15 | 北京工业大学 | 一种基于运动注意力的视频目标分割方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Non-Patent Citations (3)
Title |
---|
基于关键帧的双流卷积网络的人体动作识别方法;张聪聪;何宁;;南京信息工程大学学报(自然科学版);20191128(第06期);全文 * |
基于多尺度特征残差学习卷积神经网络的视频超分辨率方法;林琦;陈婧;曾焕强;朱建清;蔡灿辉;;信号处理;20200125(第01期);全文 * |
基于运动特征融合的快速视频超分辨率重构方法;付利华;孙晓威;赵宇;李宗刚;黄笳倞;王路远;;模式识别与人工智能;20191115(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112580473A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580473B (zh) | 一种融合运动特征的视频超分辨率重构方法 | |
CN110033410B (zh) | 图像重建模型训练方法、图像超分辨率重建方法及装置 | |
CN111062872B (zh) | 一种基于边缘检测的图像超分辨率重建方法及系统 | |
CN111898701B (zh) | 模型训练、帧图像生成、插帧方法、装置、设备及介质 | |
CN111105352B (zh) | 超分辨率图像重构方法、系统、计算机设备及存储介质 | |
CN108122197B (zh) | 一种基于深度学习的图像超分辨率重建方法 | |
CN112001847A (zh) | 相对生成对抗超分辨率重建模型生成高质量图像的方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN112037131A (zh) | 一种基于生成对抗网络的单图像超分辨率重建方法 | |
Cheng et al. | Zero-shot image super-resolution with depth guided internal degradation learning | |
CN111681166A (zh) | 一种堆叠注意力机制编解码单元的图像超分辨率重建方法 | |
CN112862689A (zh) | 一种图像超分辨率重建方法及系统 | |
CN114841856A (zh) | 基于深度残差通道空间注意力的密集连接网络的图像超像素重建方法 | |
CN113298718A (zh) | 一种单幅图像超分辨率重建方法及系统 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112949636A (zh) | 一种车牌超分辨率识别方法、系统及计算机可读介质 | |
CN112785502A (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
CN113610912B (zh) | 三维场景重建中低分辨率图像单目深度估计系统及方法 | |
CN116757955A (zh) | 一种基于全维动态卷积多融合对比网络 | |
CN115496663A (zh) | 基于d3d卷积组内融合网络的视频超分辨率重建方法 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN111105354A (zh) | 基于多源深度残差网络的深度图像超分辨率方法及装置 | |
CN112598604A (zh) | 一种盲脸复原方法及系统 | |
CN115861062A (zh) | 多尺度学习小波注意力机制网络及图像超分辨率重建方法 | |
CN113674154B (zh) | 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |