CN112580473B

CN112580473B - 一种融合运动特征的视频超分辨率重构方法

Info

Publication number: CN112580473B
Application number: CN202011464000.9A
Authority: CN
Inventors: 付利华; 孙晓威; 姜涵煦; 章海涛; 陈人杰; 陈辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-05-28
Anticipated expiration: 2040-12-11
Also published as: CN112580473A

Abstract

本发明提供了一种融合运动特征的视频超分辨率重构方法，用于解决现阶段视频超分辨率重构方法重构精度不高，重构时间过长的问题。首先自适应关键帧判别子网自适应地从视频连续帧中判别出关键帧；关键帧经过高精度关键帧重构子网进行重构；对于非关键帧，则提取其与邻近关键帧之间的运动特征，并与邻近关键帧特征融合，再经过特征残差学习，得到非关键帧的特征，从而快速地获得非关键帧的重构结果。本发明能够自适应地判断视频中帧为关键帧或是非关键帧，并根据判断结果执行不同的重构策略，保证了视频整体重构结果的精准性；其次，本发明在图像特征层面进行运动信息的融合，避免了伪影的引入，减少了运动估计的提取时间。

Description

一种融合运动特征的视频超分辨率重构方法

技术领域

本发明属于图像处理和计算机视觉领域，涉及视频超分辨率重构的方法，尤其涉及一种融合运动特征的视频超分辨率重构方法。

背景技术

超分辨率重构技术为许多计算机图像处理任务提供了更多的发展可能，更高分辨率的图像或视频能够显著提升后续处理工作的精度。目前，超分辨率重构技术根据处理目标不同主要分为图像超分辨率重构技术和视频超分辨率重构技术，其中，图像超分辨率重构技术通过建立低分辨率图像与高分辨率图像之间的映射关系，还原高分辨率图像中的细节纹理。视频超分辨率重构技术则会利用视频帧间的相似信息与运动信息提升重构精度，并压缩重构时间。

在连续视频帧中，帧与帧之间的差异较小，存在大量重复的信息，若将每帧都作为独立的图像进行重构，则会浪费大量的计算资源和时间。因此，面向视频的超分辨率重构可以复用帧间的相似信息，压缩重构时间。现阶段主流的视频超分辨率重构技术利用卷积神经网络，提取帧间光流，并通过将光流与邻近帧融合的方式，将邻近帧信息映射至当前帧，作为当前帧的补充信息参与当前帧的重构。然而，上述方法依赖精准的光流估计，同时，在图像层面将光流与图像进行融合，会向图像引入伪影并使原图像中的部分细节信息丢失。此外，为降低视频的重构时间，上述方法往往采用网络结构简单的神经网络模型，导致模型无法很好地提取图像特征，重构精度较低。

为了解决上述问题，本发明提出了一种融合运动特征的视频超分辨率重构方法。

发明内容

本发明用于解决现阶段视频超分辨率重构方法重构精度不高，重构时间过长的问题。为了解决上述问题，本发明提供了一种融合运动特征的视频超分辨率重构方法。首先自适应关键帧判别子网自适应地从视频连续帧中判别出关键帧；关键帧经过高精度关键帧重构子网进行重构；对于非关键帧，则提取其与邻近关键帧之间的运动特征，并与邻近关键帧特征融合，再经过特征残差学习，得到非关键帧的特征，从而快速地获得非关键帧的重构结果。具体包括以下步骤：

1)自适应判断当前帧是否为新的关键帧；

2)如果当前帧为新的关键帧，则将其输入基于深度反向投影的高精度关键帧重构子网，获得该当前帧的特征和其重构结果；

3)如果当前帧被判别为非关键帧，则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网，输出该当前帧的重构结果。在面向非关键帧的运动特征提取及融合子网中，首先获得该当前帧和其邻近关键帧间的运动特征，然后将获得的运动特征和其邻近关键帧特征进行融合，最后再将融合后的特征经过与邻近帧特征残差学习获得当前帧特征，从而快速地获得非关键帧的重构结果；

步骤4)对整个视频的每一帧都进行上述步骤1)、步骤2)或步骤3)的处理，最终得到整个视频的重构结果。

进一步，所属步骤1)中的自适应关键帧判别子网，自适应地判别当前帧是否为新的关键帧，具体为：

1.1)如果当前帧为视频的第一帧，则其邻近关键帧为视频的第一帧；

1.2)如果当前帧不为视频的第一帧，则将当前帧和其邻近关键帧输入自适应关键帧判别子网，自适应关键帧判别子网的判断过程如下：

将当前帧输入一路为一个卷积核为3的卷积中提取底层特征，将其邻近关键帧输入另一路为一个卷积核为3的卷积中提取对应的底层特征；随后，将获得的两幅图像的底层特征通过一个64通道的卷积层，得到两幅图像的底层特征差异特征；再经过包含128个神经元的全连接层和全局平均池化，得到一个具有全局视野的两帧间差异值；最后将该帧间差异值经过Sigmoid函数，将其映射到[0,1]区间，得到当前帧作为新关键帧的概率；

1.3)最后，根据设定的新关键帧的判定阈值，当自适应关键帧判别子网输出的概率值超过阈值时，则将当前帧判别为新的关键帧；否则，将该当前帧作为非关键帧。

进一步，所属步骤2)中的基于深度反向投影的高精度关键帧重构子网，获得关键帧的重构特征和重构结果。其中，基于深度反向投影的高精度关键帧重构子网包含深度反向投影模块与通道注意力层。

2.1)首先，当前帧经过3×3的卷积层提取底层特征F_l；

2.2)然后，将获取的底层特征F_l输入深度反向投影模块，得到输出特征F_h。

首先将获取的底层特征F_l输入第一上采样单元，获得关键帧高分辨率空间特征F₀；随后将F₀输入至第一下采样单元，获得特征F₀的低分辨率空间特征F₁；再将F₁输入至第二上采样单元，获得特征F₁的高分辨率空间特征F₂；随后将F₀和F₂拼接后输入至第二下采样单元，获得低分辨率空间特征F₃；再将F₁与F₃拼接后输入至第三上采样单元，获得高分辨率空间特征F₄；最后，拼接所有高分辨率空间特征F₀、F₂和F₄，作为深度反向投影模块的输出特征F_h；

其中所述的第一、二、三上采样单元结构和处理过程相同，现以第一上采样单元的处理过程为例说明所述的上采样单元的处理过程具体如下：

首先，第一上采样单元的输入为特征F_l，经过一层3×3反卷积的上采样操作，得到特征F_l1；然后将得到的特征F_l1经过一层stride＝2的3×3卷积的下采样操作，得到特征F_l2，再将特征F_l2与输入特征F_l相减，得到特征F_l3；再将特征F_l3经过一层3×3反卷积的上采样操作，得到特征F_l4；最后融合特征F_l1和F_l4，得到第一上采样单元的输出特征F₀。

其中所述的第一、二下采样单元结构和处理过程相同，现以第一下采样单元的处理过程为例说明所述的下采样单元的处理过程具体如下：

首先，第一下采样单元的输入为特征F₀，经过一层stride＝2的3×3卷积的下采样操作，得到特征F₀₁；然后将得到的特征F₀₁经过一层3×3反卷积的上采样操作，得到特征F₀₂，再将特征F₀₂与输入特征F₀相减，得到特征F₀₃；再将特征F₀₃经过一层stride＝2的3×3卷积的下采样操作，得到特征F₀₄；最后融合特征F₀₁和F₀₄，得到第一下采样单元的输出特征F₁。

通过深度反向投影模块不断地上、下采样操作，模型可以学习到不同深度、不同尺度的低分辨率图像特征与高分辨率图像特征之间的映射关系，以此将图像上采样的任务，分散到多个上采样单元，提高模型的精准性和泛化性。同时，采用密集的层间连接模式，不断地复用浅层特征，能够有效缓解因为网络层数过深导致的梯度消失问题，并且后续提取的特征仍可以保留丰富的细节纹理信息，有助于高分辨率重构结果的细节还原。

2.3)将深度反向投影模块的输出特征F_h作为通道注意力层的输入，首先经过一个全局平均池化，将每个通道的二维特征压缩为一个具有全局感受野的实数，该实数代表了该通道上响应值的全局分布，实数值越高，说明该通道特征在重构过程中发挥着更大的作用；随后，通过Sigmoid函数将通道响应值映射为分布于[0,1]区间的通道权重W_k；再将W_k与特征F_h相乘，为特征F_h中各通道分配新的权重，获得最终的关键帧特征F_k；

2.4)最后将关键帧特征F_k经过3×3的卷积重构得到高分辨率的当前帧重构图像。

3)如果当前帧为非关键帧，则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网，获得两帧间的运动特征，将获得的运动特征和其邻近关键帧特征融合后，再经过邻近帧特征残差学习获得当前帧特征，从而快速地获得非关键帧的重构结果。

进一步，所属步骤3)中的运动特征提取及融合子网，获得非关键帧的重构结果。其中，运动特征提取及融合子网包括提取运动特征、关键帧特征融合映射、邻近帧特征残差学习三部分组成。

3.1)对于提取运动特征部分，将当前帧I_t与邻近关键帧I_k作为输入，经过两层Stride＝2的卷积和两层Stride＝1的卷积，再通过×4的亚像素卷积，获得两帧的粗糙光流估计F_c；之后，将F_c、I_t、I_k融合，经过三层Stride＝1的卷积后，获得与关键帧特征融合的运动特征F_f。

3.2)对于关键帧特征融合映射部分，将该当前帧的邻近关键帧特征F_k首先经过逆亚像素卷积降维至低分辨率空间，获得低分辨率空间的邻近关键帧精准特征使邻近关键帧特征/>与运动特征F_f对齐至同一特征空间，同时提高非关键帧的重构速度。随后，通过一层3×3卷积的warp操作，将/>与F_f融合，得到该当前帧的粗糙特征F_t ^c，通过将/>与F_f融合，关键帧特征F_f中的细节纹理信息可以映射至当前帧粗糙特征F_t ^c的对应位置。

3.3)对于邻近帧特征残差学习部分，将当前帧的粗糙特征F_t ^c与邻近帧精准特征相减，获得包含当前帧与前一帧之间差异的残差特征F_t ^r，再将该残差特征F_t ^r经过包含两层3×3卷积的残差块中进一步提取特征，提取的特征与F_t ^c融合后弥补关键帧特征中无法表示的当前帧信息，获得当前帧的精准特征F_t ^a。最后将F_t ^a经过亚像素卷积还原至高分辨率空间，并经过3×3卷积快速地获得当前帧的重构结果。其中，如果该当前帧的前一邻近帧为关键帧，则/>

本发明提供了一种融合运动特征的视频超分辨率重构方法，该方法能够将视频帧的重构自适应地分为关键帧的重构与非关键帧的重构。对于关键帧的重构，通过高精度关键帧重构子网获得高精准度的关键帧特征与重构结果；而对于非关键帧的重构，则通过关键帧特征与运动特征融合的方式，快速地获得非关键帧的重构结果。本发明能够快速、准确地完成视频超分辨率重构，具有良好的鲁棒性，并满足小分辨率输入视频实时重构的要求。

有益效果

首先，本发明能够自适应地判断视频中帧为关键帧或是非关键帧，并根据判断结果执行不同的重构策略，保证了视频整体重构结果的精准性；其次，本发明在图像特征层面进行运动信息的融合，对比以往方法在图像层面的运动信息融合，避免了伪影的引入，并减少了运动估计的提取时间。

附图说明

图1是本发明融合运动特征的视频超分辨率重构方法的流程图；

图2是本发明中自适应关键帧判别子网的结构图；

图3是本发明中高精度关键帧重构子网的结构图；

图4是本发明中面向非关键帧的运动特征提取及融合子网的结构图。

具体实施方式

本发明提出了一种融合运动特征的视频超分辨率重构方法，在视频超分辨率重构过程中，该方法首先会根据帧间差异判定当前帧是否为新的关键帧。对于关键帧会经过高精度关键帧重构子网获得关键帧特征和重构结果；对于非关键帧，则会经过面向非关键帧的运动特征提取及融合子网快速地获得非关键帧的重构结果。应用本发明，解决了现有面向视频的超分辨率方法无法在重构精度和重构时间上难以平衡的问题，还解决了以往方法在图像层面进行运动信息融合引入伪影的问题。本发明适用于视频的超分辨率重构，具有良好的鲁棒性，重构精度高。

下面结合具体实例以及附图对本发明进行更详细阐述。

本发明包括以下步骤：

1)获取DIV2K数据集作为关键帧重构子网的预训练模型的训练集，并获取Davis-2017、YouTube、SPMCS和Vid4数据集作为整体模型的训练集和测试集；

2)构建自适应关键帧判别子网，输入视频序列后，根据当前帧与邻近关键帧之间的特征差异自适应地判别当前帧是否为新的关键帧，其中，视频序列的第一帧自动判别为关键帧，具体为：

2.1)对于给定每帧分辨率为H×W的输入视频，当前帧大小为H×W×3,邻近关键帧大小为H×W×3，两幅图像分别经过通道数为32的3×3卷积提取底层特征，再将两幅图像的底层特征相减，得到两幅图像的底层特征差异特征，大小为H×W×32；经过池化、一层64通道的卷积、包含128个神经元的全连接层和全局平均池化后，得到两帧间的底层特征差异值；最后通过Sigmoid函数将差异值映射至[0,1]之间，子网的输出结果为当前帧为新的关键帧的概率。

2.2)设定网络损失函数及训练策略，由于连续视频帧中相近帧的差异一般比较小，而间隔较大的帧差异比较大，因此，在训练自适应关键帧判别子网模型时，首先随机选取训练集中任意视频的任意一帧及其相邻帧作为模型训练的负样本；随后，将该帧与其同一视频内间隔较大的一帧(帧间隔为8-12中的随机数)作为正样本，并采用正负样本交替输入的方式训练模型参数，并制定如下损失函数：

其中，n为负样本的数量，m为正样本的数量，x_i为输入负样本时模型的输出，y_j为输入正样本时模型的输出。同时，为避免正负样本的数量不均衡，在训练过程中，设置n＝m。

2.3)设定关键帧判定阈值，对于新关键帧的判别，自适应关键帧判别子网会根据当前帧与前一关键帧之间的底层特征差异，给出在区间[0,1]之间的预测值。当该预测值超过设定阈值时，则将当前帧判别为新关键帧，否则判别当前帧为非关键帧。理论上讲阈值设定越低，关键帧更替越频繁，视频重构结果越精确。特殊情况下，阈值设定为0，则每一帧均为关键帧；阈值设定为1，则除第一帧外其余视频帧均为非关键帧。本发明默认阈值为0.7。

3)构建高精度关键帧重构子网，并设定关键帧的放大倍数为2或4。视频重构过程中，若当前帧被判别为关键帧，则经过高精度关键帧重构子网获得重构特征与重构结果，具体为：

3.1)首先，对于给定大小为H×W×3的关键帧，首先经过一层通道数为12的3×3卷积提取底层特征F_l；

3.2)然后将底层特征F_l输入深度反向投影模块提取特征F_h，假定重构倍数为2。

首先，将底层特征F_l通过通道数为12的上采样单元，获得大小为2H×2W×12高分辨率空间特征F₀；随后将F₀输入通道数为12的下采样单元，获得大小为H×W×12的低分辨率空间特征F₁；再将F₁输入通道数为12的上采样单元，获得大小为2H×2W×12的高分辨率空间特征F₂；随后将F₀和F₂拼接后输入通道数为24的下采样单元，获得大小为H×W×24的低分辨率空间特征F₃；再将F₁与F₃拼接后输入通道数为24的上采样单元，获得2H×2W×24的高分辨率空间特征F₄；最后，拼接所有高分辨率空间特征F₀、F₂和F₄作为深度反向投影模块的输出特征F_h，特征大小为2H×2W×48。

3.3)将F_h作为通道注意力层的输入，经过一个全局平均池化获得大小为1×1×48通道全局响应值；随后，通过Sigmoid函数将通道全局响应值映射为分布于[0,1]区间的大小为1×1×48的通道权重W_k；然后根据权重W_k为特征F_h分配不同权重，获得最终关键帧特征F_k和高分辨率关键帧重构图像。获得关键帧特征F_k的数学表达式如下：

3.4)设定网络损失函数及训练策略，本发明中高精度关键帧重构子网采用超分辨重构方法中常用的逐像素均方误差(MSE，Mean-Square Error)作为主要的损失函数，同时加入系数为λ的L₁正则化损失，λ设置为0.1，整体损失函数的数学表示为：

其中，x为高精度关键帧重构子网输出的高分辨率重构图像，y为给定的对应高清图像，m×n为图像的总像素数。

在训练过程中，首先使用DIV2K数据集对高精度关键帧重构子网模型进行预训练，使模型能够获得比较精准的关键帧特征和重构结果，之后使用DAVIS-2017和SPMCS数据集对预训练模型进行微调，使网络模型能够在应对视频超分辨率重构任务具有更好的表现。

4)构建面向非关键帧的运动特征提取及融合子网，对于被自适应关键帧判别子网判别为非关键帧的图像，则将其和其邻近关键帧一同输入子网，快速地获得非关键帧的重构结果，具体为：

4.1)首先，将当前帧I_t和其邻近关键帧I_k进行拼接，大小变为H×W×6；

4.2)然后，将当前帧I_t和其邻近关键帧I_k拼接后的结果输入子网，输入大小为H×W×6，经过两层通道数为32、Stride＝2的卷积层和两层通道数为32、Stride＝1的卷积，获得大小为的运动特征，再通过×4的亚像素卷积层获得H×W×2的粗糙光流估计F_c；然后，将F_c、I_t、I_k融合为H×W×8的输入，经过三层通道数为16、Stride＝1的卷积层后，获得大小为H×W×16的两帧精准运动特征F_f。

4.3)将网络保存的大小为2H×2W×48的关键帧特征F_k首先经过逆亚像素卷积降维至低分辨率空间，获得大小为H×W×48的关键帧精准特征随后，通过一层3×3卷积的warp操作，将/>与F_f融合，得到大小为H×W×48的当前帧粗糙特征F_t ^c，通过/>与F_f的融合，可以将关键帧特征/>中的细节纹理信息映射至当前帧粗糙特征F_t ^c的对应位置。获得F_t ^c的数学表达式为：

4.4)将大小为H×W×48的当前帧粗糙特征F_t ^c和大小为H×W×48的其邻近帧精准特征相减，得到大小为H×W×48的残差特征F_t ^r；然后，将F_t ^r经过通道数为48的两层3×3卷积层的残差块后，再与F_t ^c进行相加，得到大小为H×W×48的当前帧精准特征F_t ^a。

4.5)最后将当前帧精准特征F_t ^a经过亚像素卷积还原至高分辨率空间，得到大小为2H×2W×48的高分辨率空间特征，并通过与高精度关键帧重构子网的最后一层共享权重的卷积层，获得非关键帧的重构结果。

4.6)设定网络损失函数及训练策略，本发明中面向非关键帧的运动特征提取及融合子网采用与高精度关键帧重构子网相同的损失函数，使用高清视频数据集DAVIS-2017和SPMCS对网络模型进行训练与测试，并通过已经训练好的高精度关键帧重构子网模型进行关键帧特征的提取与保存。训练过程中，随机选取训练集视频中的一帧作为关键帧，经过高精度关键帧重构子网模型提取关键帧特征，并将该帧后续的连续8帧作为一组，依次将该关键帧与其后第一帧、关键帧与其后第二帧直至关键帧与其后第八帧输入网络进行重构与模型训练。

5)对整个融合运动特征的视频超分辨率重构模型进行训练，本发明采取对三部分子网分别训练的方式进行训练。

5.1)首先训练高精度关键帧重构子网放大倍数为2的模型参数。首先选取DIV2K数据集对网络进行训练，训练过程中首先将DIV2K数据集中图像预处理至相同大小，随后将图像各边长缩小至原图的作为输入，原图作为label，每批次训练样本数batch-size设置为4，采用一阶动量动力β₁＝0.9和二阶动量动力β₂＝0.999的自适应矩估计(Adam,Adaptivemoment estimation)作为训练优化器，使用3.4)中的损失函数，并将初始学习率设定为1e-4，经过每十万次迭代后，学习率降为原来的一半，共进行30万次迭代。随后使用DAVIS-2017和SPMCS数据集对预训练模型进行微调，图像预处理方式与之前相同，初始学习率设置为1e-5，经过每十万次迭代后，学习率降为原来的一半，直至模型收敛。

5.2)然后，冻结高精度关键帧重构子网的参数，进一步训练面向非关键帧的运动特征提取及融合子网放大倍数为2的模型参数。选取DAVIS-2017和SPMCS数据集对模型进行训练，图像预处理方式与高精度关键帧重构子网相同。训练过程中冻结高精度关键帧重构子网的模型参数，采用一阶动量动力β₁＝0.9和二阶动量动力β₂＝0.999的自适应矩估计(Adam,Adaptive moment estimation)作为训练优化器，使用4.6)中损失函数，并将初始学习率设定为1e-4，经过每十万次迭代后，学习率降为原来的一半，共进行50万次迭代。

5.3)最后训练自适应关键帧判别子网的模型参数，获取DAVIS-2017和SPMCS数据集进行训练，训练过程中冻结高精度关键帧重构子网的模型参数和面向非关键帧的运动特征提取及融合子网的模型参数，使用2.2)中训练策略和损失函数，采用一阶动量动力β₁＝0.9和二阶动量动力β₂＝0.999的自适应矩估计(Adam,Adaptive moment estimation)作为训练优化器，并将初始学习率设定为1e-4，经过每十万次迭代后，学习率降为原来的一半，共进行50万次迭代。

5.4)根据5.1)、5.2)和5.3)中的步骤，训练放大倍数为4的模型参数。

本发明在GTX 1080Ti GPU和Ubuntu16.04 64位操作系统下，采用TensorFlow开源框架和Python语言实现该方法。

本发明提供了一种融合运动特征的视频超分辨率重构方法，适用于快速获得放大倍数为2或4的视频重构。根据实验结果表明，本发明鲁棒性好，重构结果清晰、准确，且对于小分辨率的视频能够实现实时重构。

Claims

1.一种融合运动特征的视频超分辨率重构方法，其特征在于，包括以下步骤：

步骤1)自适应判断当前帧是否为新的关键帧；

步骤2)如果当前帧被判别为新的关键帧，则将其输入基于深度反向投影的高精度关键帧重构子网，获得该当前帧的特征和其重构结果；

步骤3)如果当前帧被判别为非关键帧，则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网，输出该当前帧的重构结果；在面向非关键帧的运动特征提取及融合子网中，首先获得该当前帧和其邻近关键帧间的运动特征，然后将获得的运动特征和其邻近关键帧特征进行融合，最后再将融合后的特征经过与邻近帧特征残差学习获得当前帧特征，从而快速地获得非关键帧的重构结果；

步骤4)对整个视频的每一帧都进行上述步骤1)至步骤3)的处理，最终得到整个视频的重构结果；

其中，步骤2)对于关键帧，则将其输入基于深度反向投影的高精度关键帧重构子网，获得其特征和重构结果，具体为：

2.1)首先，当前帧经过3×3的卷积层提取底层特征F_l；

2.2)然后，将获取的底层特征F_l输入深度反向投影模块，得到输出特征F_h，具体过程如下：

2.3)将深度反向投影模块的输出特征F_h作为通道注意力层的输入，具体过程如下：首先，经过一个全局平均池化将每个通道的二维特征压缩为一个具有全局感受野的实数，该实数代表了该通道上响应值的全局分布，实数值越高，说明该通道特征在重构过程中发挥着更大的作用；随后，通过Sigmoid函数将通道响应值映射为分布于[0,1]区间的通道权重W_k；再将W_k与特征F_h相乘，为特征F_h中各通道分配新的权重，获得关键帧特征F_k；

2.4)最后将关键帧特征F_k经过3×3的卷积重构得到高分辨率的关键帧重构图像；

首先，第一上采样单元的输入为特征F_l，经过一层3×3反卷积的上采样操作，得到特征F_l1；然后将得到的特征F_l1经过一层stride＝2的3×3卷积的下采样操作，得到特征F_l2，再将特征F_l2与输入特征F_l相减，得到特征F_l3；再将特征F_l3经过一层3×3反卷积的上采样操作，得到特征F_l4；最后融合特征F_l1和F_l4，得到第一上采样单元的输出特征F₀；

2.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法，其特征在于，步骤1)自适应判别当前帧是否为关键帧，具体为：

1.1)如果当前帧为视频的第一帧，则将该当前帧判别为关键帧；

1.2)如果当前帧不为视频的第一帧，则将当前帧和其邻近关键帧输入自适应关键帧判别子网，自适应关键帧判别子网的判断过程如下：将当前帧输入一路为一个卷积核为3的卷积中提取底层特征，将其邻近关键帧输入另一路为一个卷积核为3的卷积中提取对应的底层特征；随后，将两幅图像的底层特征相减，得到两幅图像的底层特征差异特征；再依次通过一个卷积、池化获得帧间差异特征；然后依次经过一个全连接层和一个全局平均池化，得到一个具有全局视野的帧间差异值；最后经过Sigmoid函数将该差异值映射为[0,1]之间，即为当前帧为新的关键帧的概率；

1.3)设定关键帧判定阈值，当当前帧为新关键帧的概率值超过设定阈值时，则将当前帧判别为新关键帧，否则判别当前帧为非关键帧。

3.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法，其特征在于，步骤3)对于非关键帧，则将该当前帧和其邻近关键帧输入面向非关键帧的运动特征提取及融合子网，获得非关键帧的重构结果，具体为：

3.1)将当前帧I_t和其邻近关键帧I_k进行拼接，经过两层Stride＝2的卷积和两层Stride＝1的卷积，再通过×4的亚像素卷积，获得两帧的粗糙光流估计F_c；之后，将F_c、I_t、I_k融合，经过三层Stride＝1的卷积后，获得与关键帧特征融合的运动特征F_f；

3.2)然后将该当前帧的邻近关键帧特征F_k经过逆亚像素卷积降维至低分辨率空间，获得低分辨率空间的邻近关键帧精准特征使邻近关键帧特征/>与运动特征F_f对齐至同一特征空间；随后，通过一层3×3卷积的warp操作，将/>与F_f融合，得到该当前帧的粗糙特征F_t ^c，通过将/>与F_f融合，关键帧特征F_f中的细节纹理信息可以映射至当前帧粗糙特征F_t ^c的对应位置；

3.3)最后将当前帧粗糙特征F_t ^c和其邻近帧精准特征相减，获得包含当前帧与前一帧之间差异的残差特征F_t ^r，再将该残差特征F_t ^r经过包含两层3×3卷积的残差块中进一步提取特征，提取的特征与F_t ^c融合，获得当前帧的精准特征F_t ^a；最后将F_t ^a经过亚像素卷积还原至高分辨率空间，并通过与高精度关键帧重构子网的最后一层共享权重的卷积层获得当前帧的重构结果，其中，如果该当前帧的前一邻近帧为关键帧，则/>

4.根据权利要求1所述的一种融合运动特征的视频超分辨率重构方法，其特征在于所述步骤1中损失函数为正负样本数相同的正负样本损失；以及所述步骤2和步骤3中的构造损失函数包括两部分组成：第一部分是像素级损失函数；第二部分是L₁正则化损失。