CN116468605A

CN116468605A - 基于时空分层掩膜注意力融合的视频超分辨率重建方法

Info

Publication number: CN116468605A
Application number: CN202310391733.1A
Authority: CN
Inventors: 宁贝佳; 张延�; 李懋
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-21

Abstract

本发明公开了一种基于时空分层掩膜注意力融合的视频超分辨率重建方法，包括：获取训练数据集并对其进行增强处理；其中，训练数据集包括若干连续低分辨率图像序列；构建包括特征提取模块、特征对齐模块、时空分层掩膜注意力融合模块和图像重建模块的超分辨率重建网络；设置训练参数并以训练数据集作为超分辨率重建网络的输入，对该网络进行训练；利用训练好的超分辨率重建网络对待重建视频进行重建。该方法基于注意力机制增加了时空分层掩膜注意力融合模块，充分利用了帧间时间信息；同时更加专注利用帧内强相关像素点信息，从而使特征融合更加充分，最终提升了视频重建效果。

Description

基于时空分层掩膜注意力融合的视频超分辨率重建方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于时空分层掩膜注意力融合的视频超分辨率重建方法。

背景技术

视频超分辨率重建技术是指由一些低分辨率模糊视频序列来估计具有更高分辨率的视频序列，同时能够消除噪声以及由有限检验器尺寸和光学元件产生的模糊，是提高降质视频序列分辨率的有效手段。近些年，随着大量高清显示设备的涌现以及超高清分辨率的出现，进一步推动了视频超分辨率重建技术的发展。与此同时，它在卫星图像、视频监控、医学成像、军事科技也有很广泛的应用前景，已成为计算机视觉领域的热点研究问题之一。

视频超分辨率重建的一个重要特征是利用帧间帧内信息，其是否有效利用直接影响着模型的性能。

尽管基于深度学习的视频超分方法已经取得了很大的进展，但仍存在一些不足。例如，三维卷积和非局部模运算量大，光流估计的精度无法保证等。此外，现有的基于深度学习的方法在视频帧的特征融合过程中存在未能考虑时间信息与空间信息分布不均匀性，即不同时刻帧间与帧内不同位置对于参考帧贡献不一致的问题，从而影响了视频重建效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于时空分层掩膜注意力融合的视频超分辨率重建方法。本发明要解决的技术问题通过以下技术方案实现：

一种基于时空分层掩膜注意力融合的视频超分辨率重建方法，包括：

步骤1：获取训练数据集并对其进行增强处理；其中，所述训练数据集包括若干连续低分辨率图像序列；

步骤2：构建包括特征提取模块、特征对齐模块、时空分层掩膜注意力融合模块和图像重建模块的超分辨率重建网络；其中，

所述特征提取模块用于依次对输入的低分辨率图像序列进行特征提取，得到参考帧特征和相邻帧特征；

所述特征对齐模块用于对所述参考帧特征和相邻帧特征进行对齐操作，得到对齐后的参考帧特征和相邻帧特征；

所述时空分层掩膜注意力融合模块用于通过计算对齐后的参考帧特征和相邻帧特征的时间相关性以及帧内像素点之间的相关性来强调不同时刻帧间信息与不同像素点位置的空间信息，得到充分融合的参考帧特征；

所述图像重建模块用于根据所述充分融合的参考帧特征进行图像重建，得到当前参考帧对应的高分辨率图像；

步骤3：设置训练参数并以所述训练数据集作为所述超分辨率重建网络的输入，对该网络进行训练；

步骤4：利用训练好的超分辨率重建网络对待重建视频进行重建。

本发明的有益效果：

本发明提供的基于时空分层掩膜注意力融合的视频超分辨率重建方法基于注意力机制增加了时空掩膜注意力融合模块，通过计算相邻帧与参考帧对应位置的相似度，为不同时刻的相邻帧分配像素级相似度权值，充分利用了帧间时间信息；在此基础上，通过在空间不同尺度特征下计算特征中不同像素点之间的相关性，并运用掩膜函数来修正注意力结果，使得该方案更加专注利用帧内强相关像素点信息，从而使特征融合更加充分，最终提升了视频重建效果。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于时空分层掩膜注意力融合的视频超分辨率重建方法的流程示意图；

图2是本发明实施例提供的超分辨率重建网络的结构示意图；

图3是本发明实施例提供的特征对齐模块的结构示意图；

图4是本发明实施例提供的可变形卷积对齐块的结构示意图；

图5是本发明实施例提供的残差分层融合块的结构示意图；

图6是本发明实施例提供的时间注意力块的结构示意图；

图7是本发明实施例提供的空间分层掩膜注意力块的结构示意图；

图8是本发明实施例提供的掩膜注意力块的结构示意图；

图9是本发明实施例提供的掩膜函数图；

图10是本发明实施例提供的图像重建模块的结构示意图；

图11是本发明实施例提供的密集残差块的结构示意图；

图12是采用本发明的方法在Vid4数据集中“Calendar”序列4×倍重建结果视觉效果对比图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1是本发明实施例提供的一种基于时空分层掩膜注意力融合的视频超分辨率重建方法的流程示意图，其包括：

步骤1：获取训练数据集并对其进行增强处理；其中，所述训练数据集包括若干连续低分辨率图像序列。

可选的，在本实施例中，训练数据集可选取常用的Vimeo-90k数据进行构建。Vimeo-90k中包括64612个真实场景的视频序列，每个视频有7个分辨率为448×256的GT图像序列。

具体的，步骤1包括：

11)获取视频超分辨率重建的常用数据集Vimeo-90k，并对其所有视频的GT图像序列，使用双三次插值对其进行4倍下采样，得到LR连续低分辨率图像序列；

12)对每个视频的7帧LR序列进行增强操作，并将增强后的图像序列与第4帧对应的GT单帧图像作为一组训练数据，构建训练数据集。

在本实施例中，可通过对数据进行翻转、旋转或裁剪等方式实现数据增强，详细过程可参考现有相关技术实现，本发明不再具体说明。

需要说明的是，一般在深度学习算法中，在构建训练集时同时，还会构建测试数据集以在模型训练完成后，对网络进行测试评估。具体的，在本实施例中，测试数据集选取为Vid4。Vid4包括四个视频序列，分别为“Calendar”“City”“Foliage”和“Walk”。

本发明中的测试数据集是通过对Vid4中的所有视频序列进行4倍的双三次下采样得到的LR序列，并与原始视频序列GT组成的。

步骤2：构建包括特征提取模块、特征对齐模块、时空分层掩膜注意力融合模块和图像重建模块的超分辨率重建网络。

具体的，请参见图2，图2是本发明实施例提供的超分辨率重建网络的结构示意图，其以2N+1个连续低分辨率帧序列为输入，其中/>为参考帧，其余为相邻帧，记为/>首先，特征提取模块首先对输入低分辨率图像序列的参考帧/>和相邻帧/>进行特征提取，分别得到参考帧特征F_t和相邻帧特征F_i；然后，特征对齐模块对参考帧特征和相邻帧特征进行对齐操作，得到对齐后的参考帧特征/>与相邻帧特征接着，时空分层掩膜注意力融合模块通过计算相邻帧与参考帧的时间相关性以及帧内像素点之间的相关性来强调不同时刻帧间信息与不同像素点位置的空间信息，从而获得融合时空信息的参考帧特征/>最后通过图像重建模块，将参考帧特征重建为高分辨率图像/>

下面对步骤2的网络构建过程进行详细描述。

21)构建特征提取模块

在本实施例中，所述特征提取模块包括一个卷积核大小为3×3的卷积层和五个级联的残差块；其中，所述卷积层用于将输入图像序列的浅层特征通道维度C从3提升至64；

所述五个级联的残差块用于提取深层特征，且每个残差块串联两层卷积核大小为3×3的卷积层，中间用ReLU激活函数激活特征，输出通道维度C为64。

具体而言，神经网络中将输入的一张图片存储为一个四维度张量，即[B,C,H,W]，B表示批处理大小(batch_size)，即每批训练同时进入网络训练的视频序列组数，C表示输入图片的通道个数，H和W表示输入图片的高度和宽度。视频被转化为多帧图像序列输入网络进行处理，每批图像序列存储在[B,C,H,W]大小的张量中。针对输入的多帧序列图像，首先使用一个核大小为3×3的卷积层，将输入图像序列的浅层特征通道维度C为3提升至C为64；再通过五个级联的残差块来提取深层特征，每个残差块串联两层核大小为3×3的卷积层，中间用ReLU激活函数激活特征，输出通道维度C为64。

22)构建特征对齐模块

请参见图3，图3是本发明实施例提供的特征对齐模块的结构示意图，该模块包括多个可变形卷积对齐块，在特征对齐模块中输入参考帧特征F_t与其余相邻帧特征F_i，通过连续的几个可变形卷积对齐块，将每次输出对齐结果与参考帧多次进行对齐，使得在特征级别完成由粗到细的帧对齐，最终得到与参考帧特征F_t充分对齐后的相邻帧

进一步的，请参见图4，图4是本发明实施例提供的可变形卷积对齐块的结构示意图；其中，每个可变形卷积对齐块依次设置一个拼接层、一个卷积核大小为3×3的卷积层、一个残差分层融合块、一个卷积核大小为3×3的卷积层、以及一个可变形卷积层。

在本实施例中，可变形卷积对齐块则为特征对齐模块主要组成部分，如图4所示，输入参考帧F_t和第b-1次同相邻帧对齐的结果按通道维度进行拼接，再使用3×3卷积进行通道降维；进而为了扩大感受野，引入一个残差分层融合块；其次使用3×3卷积来获得可变形卷积核偏移量Δp_n与调制标量Δm_n；最终在变形卷积中，将预测的偏移量Δp_n和调制标量Δm_n添加到可变形卷积采样网格中，使可变形卷积的核发生空间变化，最终得到与参考帧对齐的相邻帧/>连续经过五个可变形卷积对齐块由粗到细的对齐操作后，获得最终完全对齐的相邻帧特征/>

需要说明的是，在可变形卷积对齐块中，为了扩大感受野范围，引入了残差分层融合块，具体结构如图5所示，通过使用五个不同膨胀速率的膨胀卷积级联，获得不同的感受野，并将不同感受野下获得的特征图在拼接之前跨层相加，获得更加充分的特征信息，因此可以充分地利用特征像素点的时间依赖性来获得可变形卷积对齐块中的采样参数偏移量Δp_n与调制标量Δm_n。

23)构建时空分层掩膜注意力融合模块

在本实施例中，所述时空分层掩膜注意力融合模块包括时间注意力块和空间分层掩膜注意力块；其中，

所述时间注意力块用于通过特征点积计算参考帧与相邻帧的时间相似度，从而对不同相似度大小的相邻帧进行不同权值的强调，从而实现参考帧与相邻帧的初步融合；

所述空间分层掩膜注意力块用于基于空间分层掩膜注意力机制将时间注意力块初步融合的特征在空间不同特征尺度上进行进一步融合。

具体而言，一方面，为了更有效充分地利用帧间相关特征信息，针对时间信息分布不均匀问题引入时间注意力块。通过特征点积计算参考帧与相邻帧的时间相似度，从而对不同相似度大小的相邻帧进行不同权值的强调。

请参见图6，图6是本发明实施例提供的时间注意力块的结构示意图，其包括两个3×3卷积层、sigmoid运算、点积运算、拼接层以及一个1×1卷积层，其具体处理过程为：

(a)利用两个3×3的卷积层分别对对齐后的相邻帧特征与参考帧特征/>进行处理，并通过特征点积运算来计算相邻帧特征与参考帧特征之间的相似度，用sigmoid函数对结果进行归一化，得到时间注意力图，公式表示为：

其中，表示时间注意力图，/>表示对齐后的相邻帧特征，/>表示对齐后的参考帧特征，θ表示嵌入层作用，通过卷积实现，φ表示嵌入层作用，通过卷积实现；

(b)将时间注意力图与对齐的相邻帧进行像素级相乘，并给不同的相邻帧赋予不同的权重，得到加权后的所有相邻帧特征，公式表示为：

其中，表示加权后的所有相邻帧特征，⊙表示点乘；

(c)将所有的加权相邻帧以及对齐后的参考帧/>按通道维度进行拼接，并通过一个1×1卷积层对拼接特征进行通道降维，得到时间注意力后的初步融合特征，公式表示为：

其中，F_f表示时间注意力后的初步融合特征，Conv表示卷积作用。

另一方面，在应用时间注意力后，将所有输入帧与参考帧进行初步融合，空间特征信息会包含冗余信息，针对这一问题，引入空间分层掩膜注意力机制，通过对注意力图使用掩膜函数来修正注意力结果，从而加强对有效特征利用，并且在不同尺度下应用注意力，融合不同感受野下的特征，充分利用特征信息。

具体的，空间分层掩膜注意力块具体结构如图7所示，由三阶段的上下采样层以及跳跃连接组成的对称结构，具体处理过程描述为：

(a)输入时间注意力作用后的浅层融合特征f_f∈R^C×H×W，并使用掩膜注意力块进行特征加强；

(b)加强后的特征经过一个由步长为2和核大小为4×4的卷积组成的下采样层，得到通道加倍、高宽减小为原来一半的特征，并对其使用掩膜注意力块进行特征加强，得到的特征大小为

(c)连续进行(b)操作两次，共3层处理，得到大小为的最底层特征；

(d)对大小为的最底层特征使用一个步长为2和核大小为2×2的转置卷积作为上采样层进行采样，得到减少了一半通道维度以及高宽扩大一倍的特征图，大小为通过跳跃连接将对应尺度上采样与下采样特征进行维度拼接，得到特征大小为使用核大小为1×1的卷积来融合通道信息，使通道维度减半，得到特征大小为

(e)连续进行(d)操作两次，共3层处理，得到融合各层的特征F_s∈R^C×H×W；

(f)使用跳跃连接，添加上时间注意力作用后的浅层融合特征F_f，得到最终的结果

进一步的，请参见图8，图8是本发明实施例提供的掩膜注意力块的结构示意图，其包括三个核大小为1×1卷积、掩膜运算、Softmax运算以及像素级求和运算，具体处理过程为：

(a)将输入掩膜注意力块的特征F_in∈R^C×H×W分别通过三个核大小为1×1卷积进行特征映射，生成三个新特征{F,G,H}∈R^C×H×W；

(b)分别对三个新特征进行重塑并对F进行转置，得到F∈R^HW×C，G∈R^C×HW，H∈R^C×HW；通过F与G特征点积来计算相关性，并利用掩膜函数来将两点相似度大小转化为[0,1]之间的掩膜值；

(c)利用Softmax函数进行归一化操作，使用掩膜值对各点进行调制，得到空间注意力图A∈R^HW×HW；通过H∈R^C×HW与A∈R^HW×HW转置进行特征点积来应用注意力，得到注意力之后的特征F_att∈R^C×HW，并将其重塑为F_att∈R^C×H×W；

(d)将初始输入特征F_in与F_att进行像素级求和，得到最终的融合特征F_out∈R^C×H×W。

常规的空间注意力是通过学习某一像素点与特征图上所有像素点之间的相关性，捕获long-range的关系，即利用所有位置的特征来帮助生成图片某一像素点。而本模块引入了掩膜函数，来对注意力范围进行选择，自变量为相关性大小，将相关性大小映射到[0,1]之间，对于相关性强的点函数值为1，即注意力计算时给予权重1，对于相关性逐渐弱的像素点在进行注意力权值计算时，注意力计算时权重随着相关性减弱而从1逐渐减小为0，从而使注意力充分关注强相关特征。结合图8所示，掩膜注意力块具体原理过程可以描述如下：

(1)将输入掩膜注意力块的特征F_in记作x，将x分别进行线性映射，分别得到映射特征f(x)，g(x)和h(x)，如下式所示：

f(x)＝W_f*x,g(x)＝W_g*x,h(x)＝W_h*x

其中，W_f，W_g和W_h表示线性映射。此过程对应图8中三个1×1的卷积操作。

(2)通过特征映射f(x)与g(x)的特征点积来计算相关性，进行归一化后，得到f(x)与g(x)特征注意力图，用如下公式表示：

其中，β_j,i表示特征图f(x)中的i点对特征图g(x)中生成的j位置的关系权重；N是特征像素点的数目。此过程对应图8中特征点积与Softmax归一化过程。

(3)经过掩膜函数调制后，得到的掩膜注意力图β′_j,i，用如下公式表示：

其中，δ_ij＝f(x_i)^Tg(x_j)，表示i与j两点之间的相似度值；m(·)表示掩膜函数，其图像如图9所示，用如下公式表示：

m(x)由s值参数化为如下表达：

其中，自变量x表示两像素点之间的点积大小，两点点积越大越相似。在点积值x≥s之后，注意力掩膜恒为1，两点注意力计算赋予权重1；而点积值s-R<x<s时，掩膜函数随着点积减小，掩膜函数值逐渐减小为0，即对此部分像素点注意力计算时赋予小于1的权重；最后x≤s-R时，掩膜函数为0，即注意力计算时赋予权重为0，因此筛选掉弱相关特征，减少计算量。实验中R设置为0.1，s设置为0。此过程对应图8中加上掩膜函数m(x)后的特征点积与Softmax归一化。

(4)将得到的掩膜注意力图β′_j,i与(1)中的初始映射特征h(x)进行特征点积，从而得到掩膜调制的注意力后的输出特征，用如下公式表示：

其中，o_j表示用特征图中所有i点加权生成某一点j，最终输出所有注意力加权后的特征为o＝{o₁,o₂,...,o_j,...,o_n}。此过程对应图8中第二次特征点积

(5)最后将(4)中的注意力加权后的特征结果o与原始的输入特征x相加，最终得到空间分层掩膜注意力块作用后的特征y，用如下公式表示：

y＝+x

此过程对应图8中的特征像素级求和过程

24)构建图像重建模块

请参见图10，图10是本发明实施例提供的图像重建模块的结构示意图，其中，所述重建模块包括一个密集残差块、一个跳跃连接层以及一个亚像素上采样层；

所述密集残差块由多个卷积与激活函数构成，如图11所示，用于对时空分层掩膜注意力融合模块输出的融合特征进行处理，以充分利用输入帧中的层次特征；

所述跳跃连接层用于将所述参考帧浅层特征与密集残差块处理后得到的特征像素级相加；

所述亚像素上采样层用于将上述相加后的特征还原特征通道维度C为3并生成高分辨率参考帧。

将上述四个网络进行联合，得到用于提升视频分辨率的视频超分辨率重建网络。

步骤3：设置训练参数并以所述训练数据集作为所述超分辨率重建网络中的输入，对该网络进行训练。

31)设置迭代周期、优化器及学习率，采用L1损失函数进行网络监督。

可选的，本实施例使用Adam优化器进行网络训练，其中，学习率β₁＝0.9、β₂＝0.999、∈＝10^-8；设置120个迭代周期(epoch)；训练时将网络的初始学习率设置为10^-4，训练至60个epoch后每隔20个epoch学习率减半；采用L1损失函数进行网络监督训练；网络模型默认卷积层的通道数为64、卷积核大小为3×3；本实施例设置输入帧数为7；块大小(patch_size)设置为48×48；批次大小(batch_size)设置为8；

32)将训练集中每个视频的7帧LR序列与第4帧对应的GT单帧图像作为一组训练数据，每批次同时输入8组进入网络。

33)将步骤(32)中的数据中输入到网络模型进行前向传播，网络生成8组第4帧的超分辨率重建结果SR，并与对应的第4帧的真实样本GT比较，用L1损失函数求出两者差异即损失值，再采用反向传播，更新网络模型的参数。

不断重复步骤三的网络模型训练步骤，一次epoch将所有训练集中所有视频数据训练一遍，直到完成设置的120个epoch，训练结束，保存效果最佳的网络模型。

可以理解的是，在得到训练好的网络模型之后，还包括：构建测试集对所述训练好的超分辨率重建网络进行测试，以对其性能进行评估。

首先，对于测试数据集的构建，可在构建训练数据集时一同实现，具体可参见上述步骤1。

然后，将测试数据集任一序列输入到步骤训练好的网络模型中进行测试，得到重建的视频序列SR，通过与原始视频序列GT客观评估，得到该模型的性能评价。

步骤4：利用训练好的超分辨率重建网络对待重建视频的图像帧进行重建。

具体的，可将待重建的视频以连续低分辨率图像序列的形式直接输入到网络中，依次获得对应帧的重建图像，从而完成视频重建。

以下结合仿真实验对本发明的效果做进一步的描述。

1、实验条件

硬件环境：NVIDIA GeForce RTX2080Ti

软件环境：python3.6、pytorch1.0.0、CUDA10.0

评价指标：峰值信噪比(Peak Signal to Noise Ratio，PSNR)、结构相似性(Structural Similarity Index Measure，SSIM)。

2、实验内容及结果分析

实验一、采用本发明的方法和现有的7种视频超分辨率重建方法进行比较，得到在YCbCr空间中Y通道(亮度)上的客观指标PSNR与SSIM对比，如表1所示：

表1 Vid4上各方法在4×倍重建PSNR(B)、SSIM客观指标结果

Method	Calendar	City	Foliage	Walk	Average
						Bicubic	20.39/0.5720	25.16/0.6028	23.47/0.5666	26.10/0.7974	23.78/0.6347
VESPCN	22.21/0.7160	26.76/0.7746	25.31/0.7118	29.02/0.8799	25.35/0.7557
						SPMC	22.16/0.7465	27.00/0.7573	25.43/0.7208	28.91/0.8761	25.88/0.7752
TOFlow	22.47/0.7318	26.78/0.7403	25.27/0.7092	29.05/0.8790	25.89/0.7651
						RCAN	22.33/0.7254	26.10/0.6960	24.74/0.6647	28.65/0.8719	25.46/0.7395
FRVSR	23.44/0.8146	27.65/0.8047	25.97/0.7529	29.70/0.8991	26.69/0.8222
						TDAN	22.98/0.7560	26.99/0.7570	25.51/0.7170	29.50/0.8900	26.24/0.7800
RBPN	23.99/0.8071	27.73/0.8030	26.21/0.7579	30.62/0.9111	27.12/0.8180
						Ours	24.04/0.8147	27.84/0.8057	26.28/0.7587	30.82/0.9190	27.25/0.8268

由上表可以看出，本发明的方法相比现有的7种方法在客观指标PSNR与SSIM上具有更好的表现。

实验二、采用本发明和现有的6种视频超分辨率重建方法进行重建比较，得到在Vid4数据集中“Calendar”序列的客观指标视觉效果对比，如图12所示。

从图12可以看出，本发明的方法相比现有的方法具有更好的重建效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，包括：

2.根据权利要求1所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，步骤1包括：

3.根据权利要求2所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，步骤2包括：

21)构建特征提取模块；

所述特征提取模块包括一个卷积核大小为3×3的卷积层和五个级联的残差块；其中，

所述卷积层用于将输入图像序列的浅层特征通道维度C从3提升至64；所述五个级联的残差块用于提取深层特征，且每个残差块串联两层卷积核大小为3×3的卷积层，中间用ReLU激活函数激活特征，输出通道维度C为64；

22)构建特征对齐模块；

所述对齐模块包括多个可变形卷积对齐块；每个可变形卷积对齐块依次包括一个拼接层、一个卷积核大小为3×3的卷积层、一个残差分层融合块、一个卷积核大小为3×3的卷积层、以及一个可变形卷积层；

23)构建时空分层掩膜注意力融合模块；

所述时空分层掩膜注意力融合模块包括时间注意力块和空间分层掩膜注意力块；其中，

所述空间分层掩膜注意力块用于基于空间分层掩膜注意力机制将时间注意力块初步融合的特征在空间不同特征尺度上进行进一步融合；

24)构建图像重建模块；

所述重建模块包括一个密集残差块、一个跳跃连接层以及一个亚像素上采样层；

所述密集残差块由多个卷积与激活函数构成，用于对时空分层掩膜注意力融合模块输出的融合特征进行处理，以充分利用输入帧中的层次特征；

4.根据权利要求3所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，在步骤22)构建的对齐模块中，所述残差分层融合块通过使用五个核大小为3×3膨胀速率不同的膨胀卷积级联，获得不同的感受野，并将不同感受野下获得的特征图在连接之前分层相加，从而得到可变形卷积对齐块中的采样参数偏移量和调制标量。

5.根据权利要求3所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，在步骤23)构建的时空分层掩膜注意力融合模块中，所述时间注意力块包括两个3×3卷积层、sigmoid运算、点积运算、拼接层以及一个1×1卷积层，其具体处理过程为：

(a)利用两个3×3的卷积层分别对对齐后的相邻帧特征与参考帧特征进行处理，并通过特征点积运算来计算相邻帧特征与参考帧特征之间的相似度，用sigmoid函数对结果进行归一化，得到时间注意力图，公式表示为：

(b)将时间注意力图与对齐的相邻帧进行像素级相乘，以给不同的相邻帧赋予不同的权重，得到加权后的所有相邻帧特征，公式表示为：

其中，表示加权后的所有相邻帧特征，⊙表示点乘；

(c)将所有的加权相邻帧以及对齐后的参考帧按通道维度进行拼接，并通过一个1×1卷积层对拼接特征进行通道降维，得到时间注意力后的初步融合特征，公式表示为：

6.根据权利要求3所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，在步骤23)构建的时空分层掩膜注意力融合模块中，所述空间分层掩膜注意力块为三阶段的上下采样层以及跳跃连接组成的对称结构，其具体处理过程为：

(a)输入时间注意力作用后的初步融合特征F_f∈R^C×H×W，并使用掩膜注意力块进行特征加强；

7.根据权利要求6所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，在步骤23)构建的时空分层掩膜注意力融合模块中，所述掩膜注意力块包括三个核大小为1×1卷积、掩膜运算、Softmax运算以及像素级求和运算，其具体处理过程为：

8.根据权利要求2所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，步骤3包括：

31)设置迭代周期、优化器及学习率，采用L1损失函数进行网络监督；

32)将训练集中每个视频的7帧LR序列与第4帧对应的GT单帧图像作为一组训练数据，每批次同时输入8组进入网络；

9.根据权利要求1所述的基于时空分层掩膜注意力融合的视频超分辨率重建方法，其特征在于，步骤3之后，步骤4之前还包括：

构建测试数据集对所述训练好的超分辨率重建网络进行测试，以对其性能进行评估。