CN115861068A

CN115861068A - 基于可变形注意力的时空混合视频超分辨率方法

Info

Publication number: CN115861068A
Application number: CN202211598046.9A
Authority: CN
Inventors: 丁勇; 陆晨燕; 汤峻; 刘郑学; 黄函
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-28

Abstract

本发明公开了一种基于可变形注意力的时空混合视频超分辨率方法，属于视频超分辨率技术领域。本发明主要包括如下步骤：1.将进行预处理后的低分辨率视频数据流进行局部特征提取；2.接着进一步进行全局特征提取，经过串联的块丢弃注意力模块和可变形注意力模块，获取集聚全局信息的视频帧特征向量；3.再次进行局部特征提取并通过跳跃连接结合浅层特征信息；4.利用时间轨迹提取每一个空间块向量在时间维度上的特征信息并完成特征对齐；5.将获取的前后向超分结果融合并通过重建模块输出最终的高分辨率帧结果。基于本发明所提出的视频超分辨率重建方法可以获取较高质量的高分辨率视频，较之前的方法可以恢复处更加清晰的图像边缘并减少重影。

Description

基于可变形注意力的时空混合视频超分辨率方法

技术领域

本发明属于视频超分辨率技术领域，尤其设计一种基于可变形注意力的时空混合超分辨率方法。

背景技术

高分辨率视频一直是日常生活中追求的目标，比如在医学影像领域，高清的视频流有利于更为精确的分析与诊断；在交通监测领域，高清的道路监控视频有利于对车流量与车流密集做出更为准确的分析与检测。视频超分辨率是一种将低分辨率视频转换为高分辨率视频的技术，近年来随着深度学习的发展，基于神经网络的超分辨率技术可以实现相较传统方法更高的视频重建质量。目前基于神经网络的主流视频超分辨率方法可大致分为三类：基于卷积神经网络(CNN)的视频超分方法、基于循环神经网络(RNN)的超分方法以及基于Transformer的视频超分方法。基于CNN的方法利用提取局部特征的卷积核完成特征对齐和特征融合；基于RNN的方法利用隐藏状态存储和传播过去或未来的时间信息；基于Transformer的方法利用自注意力机制并行化完成特征提取和特征对齐。

但是，现如今的视频超分辨率方法要么只用了视频中的空间或时间相关性，要么无法有效结合时空信息来完成视频的重建任务。现有的基于CNN的视频超分方法以窗口化的方式只对局部空间内和局部时间范围内的信息进行提取，缺少了长距离范围内的信息建模能力；现有的基于RNN的方法因为共用单个网络，故具有误差累积、噪声放大以及梯度消失/爆炸问题，故难以在长距离范围内实现有效的超分；现有的基于Transformer的方法对于时空信息的提取需要消耗非常多的计算资源，难以实现较为高效的计算效率。

发明内容

本发明公开了一种基于可变形注意力的时空混合视频超分方法，其目的是利用注意力机制，在多层级网络结构上实现有效且高效的时空信息提取，从而较好地完成对低分辨率视频的细节重建，从而为实际应用提供有效的增强手段。

本发明解决其技术问题所采用的技术方案如下：

一种基于可变形注意力的时空混合视频超分辨率方法，包括以下步骤：

步骤(1).获取低分辨率的视频数据流并进行图像增强；

步骤(2).获取视频中每一帧增强图像的浅层特征，得到浅层特征图；

步骤(3).对步骤(2)得到的浅层特征图进行局部特征提取并降采样，得到降采样后的局部特征图；

步骤(4).对步骤(3)得到的降采样后的局部特征图进行全局特征提取，通过串联的块丢弃注意力模块和可变形注意力模块，获取集聚全局信息的特征图；

步骤(5).对步骤(2)-(4)输出的特征图进行局部特征提取并上采样，得到上采样后的局部特征图；

步骤(6).在时间轨迹上对步骤(5)得到的局部特征图的每一个分块进行相似度计算并融合，得到对齐后的特征图；

步骤(7).重复步骤(2)至(6)，遍历视频中的每一帧增强图像，得到单方向的超分结果；

步骤(8).重复步骤(2)至(6)，反向处理视频中的每一帧增强图像，得到反方向的超分结果；

步骤(9).将步骤(7)输出的单方向的超分结果和步骤(8)输出的反方向的超分结果融合，再经过超分重建模块完成高分辨率帧图像的输出。

进一步地，所述的步骤(4)包括：

步骤(4.1).将步骤(3)输出的降采样后的局部特征图依次经过阶段三中的L₃个块丢弃注意力模块和L₃个可变形互注意力模块；

步骤(4.2).将步骤(4.1)输出的特征图进行降采样操作；

步骤(4.3).将步骤(4.2)输出的特征图依次经过阶段四中的L₄个块丢弃注意力模块和L₄个可变形互注意力模块；

步骤(4.4).将步骤(4.3)输出的特征图进行上采样操作；

步骤(4.5).将步骤(3)输出的降采样后的局部特征图和步骤(4.4)输出的上采样后的特征图相加后，依次经过阶段五中的L₅个块丢弃注意力模块和L₅个可变形互注意力模块；

步骤(4.6).将步骤(4.5)输出的特征图进行上采样操作，得到集聚全局信息的特征图。

进一步地，所述的阶段三、阶段四和阶段五中的块丢弃注意力模块中，仅保留重要的分块，能够提取出图像中重要区域的信息，从而减少非关键信息或干扰信息的参杂，获取集聚重要信息的特征图。

计算过程包括：

a.每个块丢弃注意力模块中包括M个TDB子块，每一个TDB子块设置丢弃率α_j；

b.对于每个TDB子块，其输入的特征图记为

表示阶段s中第l个块丢弃注意力模块的第j个子块输入的第i帧特征图；阶段三中第1个块丢弃注意力模块的第1个子块输入的第i帧特征图为步骤(3)输出的降采样后的局部特征图，且前一个TDB子块的输出作为后一个TDB子块的输入；

在每个TDB子块中，首先对输入的特征图

分块，计算特征图中各个分块之间的余弦相似度，得到注意力矩阵/>

其中，/>

为第l个块丢弃注意力模块的第j个子块的注意力矩阵；

c.每个TDB子块按照丢弃率α_j，将注意力矩阵

中相似度最低的α_j*N个特征图分块制作成掩码矩阵/>

供下一个TDB子块使用；

d.根据注意力矩阵

和注意力机制中的值，得到TDB子块的输出特征图；

e.在块丢弃注意力模块中，下一个TDB子块接受来自上一个TDB子块的掩码矩阵

并和当前TDB子块计算的注意力矩阵相结合，从而产生新的注意力矩阵/>

/>

f.根据新的注意力矩阵计算输出特征图

g.重复步骤a-f的过程，直到第l个块丢弃注意力模块中所有的M个子块全部完成输出，第l个块丢弃注意力模块中最后一个子块的输出即第l个块丢弃注意力模块的输出，记为

将其作为作为第l+1个块丢弃注意力模块的输入，记为/>

令l＝l+1，继续重复步骤a-f的过程，直至完成第L_s个块丢弃注意力模块的输出，记为

进一步地，所述的阶段三、阶段四和阶段五中的可变形互注意力模块中，利用可变形注意力预测光流引导下前后帧的偏移量，通过双线性插值产生前后帧的预测值，再利用互注意力机制将当前帧分别对齐到前后帧，最后使用局部注意力机制进行融合，能够提取前后帧的信息，用于缓解遮挡、图像边界带来的误差问题，获取集聚全局信息的特征图。

计算过程包括：

h.可变形互注意力模块接受来自于对应阶段s中第L_s个块丢弃注意力模块的输出特征图

作为输入，首先通过线性层输出注意力机制中的查询、键、值；

i.将第l个可变形互注意力模块注意力机制中的查询q^l通过偏移网络Θ(·)预测出输入特征图中的每个像素点对应的偏移量，产生前后项的偏移量：

j.利用偏移网络产生的偏移量对输入的特征图

进行变形，从而产生经过偏移之后的前后项特征图/>

和/>

k.利用预测出的前后项特征图

和/>

产生采样后的注意力机制中的查询、键、值；

l.将

和/>

和第l个可变形互注意力模块注意力机制中的查询、键、值(q^l,k^l,v^l)计算互注意力并进行融合；

m.通过简单通道合并以及卷积层来缩减通道，输出双向对齐的结果；

n.采用上述步骤h-m的方法，直至完成第l_s个可变形互注意力模块的输出，记为

所述步骤(3)(4)(5)中特征尺寸的变化为：通过三次下采样和三次上采样，特征尺寸经过64-32-16-8-16-32-64的变化过程，同时空间尺寸经过三次方法和缩小最后恢复到原大小。该步骤的目的一方面是为了在不同尺度下结合多感受野的方式有效的进行空间特征提取，另一方面为了适应块丢弃注意力模块和可变形注意力模块的全局计算，减小图像空间尺寸可以提高计算效率。此外，结合Swin-Transformer的局部特征提取和块丢弃注意力模块和可变形注意力模块两者的全局注意力计算能够同时聚集局部信息和空间信息。

所述步骤(6)中时间轨迹上每个空间块向量是通过位图迭代的方式，减少了大量重复性工作，减少了计算复杂度。每次只需要计算当前帧和前一帧的时间偏移量并同时处理前向所有的帧即可，反方向的时间帧同理。并且，步骤(6)中通过选取置信度最高的指定个数的空间块向量进行融合，减少了将时空块向量同时混合计算带来的高复杂度，也不会因过度依赖置信度最高的块向量选择的准确性。提高了隐式对齐的有效性和容错率。

本发明的有益效果：

本发明设计了一套完整的基于可变形注意力的时空混合视频超分辨率的网络结构，包括视频预处理模块、浅层特征提取模块、空间注意力模块、时间轨迹注意力模块、超分重建模块，属于一种多层次结构的网络架构，且结合了Swin-Transformer善于捕捉局部特征信息的特性，以及块注意力和可变形互注意力可提取全局特征信息的能力，从而可以有效的提取充分的特征信息来预测出足够的细节。此外，在时间特征信息的提取上，本发明基于时间轨迹的做法大大降低了计算复杂度；通过时间信息和空间信息的有效结合，可以最终完成高质量的超分效果。

附图说明

图1为本发明实施过程中采用的基于可变形注意力的时空混合视频超分辨率方法结构框图

图2为本发明实施过程中采用的空间注意力网络结构图。

图3为本发明实施过程中采用的整体流程图。

具体实施方式

下面结合附图对本发明方法作进一步说明。

本发明基于可变形注意力的时空混合超分辨率方法的结构框图如图1所示，整体包括四部分：视频预处理模块、浅层特征提取模块、空间注意力模块、时间轨迹注意力模块、超分重建模块。

其中，视频预处理模块用于对输入的原始视频数据流进行处理，执行下述步骤(1)中的方法。

步骤(1).获取低分辨率的视频数据流

并依次进行镜像、水平90°反转、垂直90°翻转实现增强，之后逐帧输入到浅层特征提取模块中。

浅层特征提取模块用于初步提取视频中每一帧增强图像的特征，执行下述步骤(2)中的方法。

步骤(2).对于视频中的第i帧增强图像

利用一层卷积层将输入帧的通道从3扩张成64且保持分辨率不变。

所述的浅层特征提取过程表示为：

其中f_SF(.)表示浅层特征提取，

表示浅层特征图。

空间注意力模块用于提取多尺度的空间信息。具体而言，通过高效的Swin-Transformer模块获得局部空间信息，按照重要性程度选择性保留全局空间信息并利用前后帧信息进行特征重填，执行下述步骤(3)-(5)中的方法。

在本发明的一项具体实施中，如图2所示，整个空间注意力模块为一个UNet结构，从左到右各层输出的分辨率逐渐降低，之后又逐渐升高。整体结构是一个多尺度且局部和全局信息相结合的信息提取网络，其中Swin-Transformer模块用于较大分辨率下的局部特征信息提取。在聚集局部信息的基础上，本发明使用块丢弃注意力模块和可变形互注意力模块抽取全局特征信息，并使用跳跃连接进一步结合局部与全局的特征信息。

步骤(3).将步骤(2)输出的浅层特征图

进行局部特征提取，具体为：

步骤(3.1).将步骤(2)输出的浅层特征图

经过阶段一，本实施例中，所述的阶段一由L₁个Swin-Transformer块组成，每个Swin-Transformer块由一个局部自注意力和滑窗自注意力串联而成，将相似度的计算限定在一个较小的窗口内，每个窗口共享参数，目的是在聚集特征图的局部空间信息的同时降低计算复杂度。

所述的阶段一的计算过程表示为：

其中，

表示阶段一输出的特征图，/>

表示阶段一的功能函数。

步骤(3.2).将步骤(3.1)输出的特征图

进行降采样操作，即空间尺寸减半，特征尺寸翻倍，得到降采样特征图/>

步骤(3.3).将步骤(3.2)输出的降采样特征图

经过阶段二，本实施例中，所述的阶段二由L₂个Swin-Transformer块组成，L₂＝L₁。

所述的阶段二的计算过程表示为：

其中，

表示阶段二输出的特征图，/>

表示阶段二的功能函数。

步骤(3.4).将步骤(3.3)输出的特征图

步骤(4).将步骤(3.4)输出的降采样特征图

进行全局特征提取，具体为：

步骤(4.1).将步骤(3.4)输出的降采样特征图

经过阶段三，本实施例中，所述的阶段三由L₃个块丢弃注意力模块(TDB)串联L₃个可变形互注意力模块(DMB)组成。

所述的阶段三的计算过程表示为：

其中，

表示阶段三输出的特征图，/>

表示阶段三中TDB块的功能函数，

表示阶段三中DMB块的功能函数。

在本发明的一项具体实施中，TDB块的计算步骤包括：

4.1.a.在每个TDB块中，本实施例中设置M个TDB子块，设置每一个TDB子块的丢弃率，记为：

其中，α_j是第j个TDB子块的丢弃率，特别的，第1个TDB子块默认不丢弃。

4.1.b.对于每个TDB子块，其输入为特征图

表示阶段s中第l个TDB块的第j个子块输入的第i帧特征图，其中/>

即阶段三中第1个TDB块的第1个子块输入的第i帧特征图为步骤(3)输出的/>

之后，阶段三中的L₃个TDB块串联，且每一个TDB块中的M个子块也串联，根据串联关系，前一个子块的输出作为后一个子块的输入。

对于TDB块中的每一个子块，首先对输入的特征图

分块，计算特征图中各个分块之间的余弦相似度，得到注意力矩阵：

其中，

为第l个TDB块的第j个子块的注意力矩阵，/>

为第l个TDB块的第j个子块的余弦相似度，/>

为第l个TDB块的第j个子块注意力机制中的查询、键，上角标T表示转置，N为输入的特征图分块的数量。

4.1.c.TDB块中的每一个子块按照丢弃率α_j，将注意力矩阵

中相似度最低的α_j*N个特征图分块制作成掩码矩阵/>

供下一个子块使用。

4.1.d.利用注意力矩阵

和注意力机制中的值相乘，得到TDB子块的输出特征图：

其中，

表示在阶段s中第l个TDB块的第j个子块输出的第i帧特征图，对应阶段s中第l个TDB块的第j+1个子块输入的第i帧特征图，/>

为第l个TDB块的第j个子块注意力机制中的值。

在本发明的一项具体实施中，公式(3)和(4)中注意力机制的查询、键、值的计算公式为：

其中，

分别是注意力机制中的查询、键、值的线性矩阵。

4.1.e.在TDB块中，下一个子块接受来自上一个子块的掩码矩阵

并和当前子块计算的注意力矩阵相结合，从而产生新的注意力矩阵：

4.1.f.类似于公式(3)，根据新的注意力矩阵计算输出特征图，公式为：

4.1.g.重复步骤4.1.a-4.1.f的过程，直到第l个TDB块中所有的M个子块全部完成输出，第l个TDB块中最后一个子块的输出即第l个TDB块的输出，记为

将其作为作为第l+1个TDB块的输入，记为/>

令l＝l+1，继续重复步骤4.1.a-4.1.f的过程，直至完成第L₃个TDB块的输出，记为

4.1.h.DMB块接受来自于第L₃个TDB块的输出特征图

作为输入，首先通过线性层输出注意力机制中的查询、键、值：

其中，q^l、k^l、v^l分别是第l个DMB块注意力机制中的查询、键、值，

是线性矩阵。

4.1.i.将q^l通过偏移网络Θ(·)预测出输入特征图中的每个像素点对应的偏移量。

本实施例中，DMB块可用于前后帧双向的预测，因此偏移网络有2个，分别产生前后项的偏移量：

偏移网络Θ(·)由不改变空间尺寸的卷积层堆积而成，为了减少计算复杂度，进行了分组的偏移量学习。

4.1.j.利用偏移网络产生的偏移量对输入的特征图

进行变形，从而产生经过偏移之后的前后项特征图/>

和/>

其中，

为线性矩阵，/>

为预训练得到的前向光流，/>

为预训练得到的后向光流，grid表示输入特征图中向量块的位置信息，/>

为预测出的前后项特征图；

本实施例中，为了稳定训练，本发明利用前后向光流来引导偏移网络的学习。

4.1.k.利用预测出的前后项特征图

和/>

产生采样后的注意力机制中的查询、键、值：

/>

其中，

分别为线性矩阵，

分别为前项特征图产生采样后的注意力机制中的查询、键、值，

分别为后项特征图产生采样后的注意力机制中的查询、键、值。

4.1.l.将

和/>

和(q^l,k^l,v^l)计算互注意力并进行融合。

前后帧之间的互注意力为：

其中，F^l表示融合后的前项特征图，B^l表示融合后的后项特征图。

4.1.m.通过简单通道合并以及卷积层来缩减通道，输出双向对齐的结果

其中，

为双向对齐后的特征图，作为第l+1个DMB块的输入；

4.1.n.采用上述步骤h-m的方法，直至完成第L₄个可变形互注意力模块的输出，记为

步骤(4.2).将步骤(4.1)输出的特征图

进行降采样操作，即空间尺寸减半，特征尺寸翻倍，记为降采样特征图/>

步骤(4.3).将步骤(4.2)输出的特征图经过阶段四，本实施例中，所述的阶段四由L₄个块丢弃注意力模块串联L₄个可变形互注意力模块组成。

本实施例中，步骤(4.3)的执行过程与步骤(4.1)相同，令s＝4，重复步骤(4.1)；

所述的阶段四的计算过程表示为：

其中，

表示阶段四输出的特征图，/>

表示阶段四中TDB块的功能函数，

表示阶段四中DMB块的功能函数。

步骤(4.4).将步骤(4.3)输出的特征图

进行上采样操作，即空间尺寸翻倍，特征尺寸减半，记为上采样特征图/>

步骤(4.5).将步骤(3.4)输出的降采样特征图

和步骤(4.4)输出的上采样特征图/>

相加，作为阶段五的输入特征图，本实施例中，所述的阶段五由L₅个块丢弃注意力模块串联L₅个可变形互注意力模块组成。

本实施例中，步骤(4.5)的执行过程与步骤(4.1)相同，令s＝5，重复步骤(4.1)；

所述的阶段五的计算过程表示为：

其中，

表示阶段五输出的特征图，/>

表示阶段五中TDB块的功能函数，

表示阶段五中DMB块的功能函数。

步骤(4.6).将步骤(4.5)输出的特征图

步骤(5).对步骤(2)-(4)输出的特征图进行局部特征提取并上采样，得到上采样后的局部特征图。

步骤(5.1).将步骤(3.2)输出的降采样特征图

和步骤(4.6)输出的上采样特征图/>

相加，作为阶段六的输入特征图，本实施例中，所述的阶段六由L₆个Swin-Transformer块组成。

所述的阶段六的计算过程表示为：

其中，

表示阶段六输出的特征图，/>

表示阶段六的功能函数。

步骤(5.2).将步骤(5.1)输出的特征图

步骤(5.3).将步骤(2)输出的浅层特征图

和步骤(5.2)输出的上采样特征图/>

相加，作为阶段七的输入特征图，本实施例中，所述的阶段七由L₇个Swin-Transformer块组成。

所述的阶段七的计算过程表示为：

其中，

表示阶段七输出的特征图，/>

表示阶段七的功能函数。

时间轨迹注意力模块用于提取同一个空间块向量在不同时间维度上的特征并完成基于轨迹的特征对齐，执行下述步骤(6)中的方法。

步骤(6).将步骤(5.3)输出的特征图

通过时间轨迹注意力模块来提取每一帧图像中的每一个分块在时间轨迹中最为相似的N*β的特征信息来作为其对齐的结果。

整个时间轨迹注意力模块可记为：

其中，

表示时间轨迹注意力模块输出的特征图，f_traj(.)表示时间轨迹注意力模块的功能函数。

在本发明的一项具体实施中，时间轨迹注意力模块的计算步骤包括：

6.a.将输入的特征图

进行分块，将当前帧的分块结果作为注意力机制中的查询Qⁱ；

将当前帧之前的所有帧的特征图

进行分块，将当前帧之前的所有帧的分块结果作为注意力机制中的键Kⁱ；

将当前帧之前的所有帧的特征图

进行分块，将当前帧之前的所有帧的分块结果作为注意力机制中的值Vⁱ。

所述的Qⁱ、Kⁱ、Vⁱ表示为：

其中，Qⁱ表示当前帧特征图

的分块结果对应的注意力机制中的查询，Kⁱ表示当前帧之前的所有帧特征图/>

的分块结果对应的注意力机制中的键，/>

为Qⁱ中的第n个分块，/>

表示Kⁱ中第t帧的第n个分块，Vⁱ表示当前帧之前的所有帧特征图

的分块结果对应的注意力机制中的键值，/>

表示Vⁱ中第t帧的第n个分块，N表示特征图的分块数。

用位图记录下每个特征图分块在时间轨迹上的坐标位置：

其中，

表示第t帧中第n个分块的横坐标/>

和纵坐标/>

W为特征图的宽，H为特征图的高，τ_n表示当前帧之前的所有帧对应的第n个分块的坐标集合，/>

表示当前帧之前的所有帧的分块的坐标集合。

故公式(13)可重新表示为轨迹的形式：

其中，

表示/>

位置对应的特征图/>

的分块，/>

表示/>

集合中的坐标位置对应的特征图分块，/>

表示/>

位置对应的特征图/>

的分块。

6.b.对于特征图分块

和轨迹Kⁱ集合中每一帧对应的分块进行余弦相似度计算，得到余弦相似度/>

其中，D为特征分块的特征维度，

为L2范数的平方，/>

为/>

与轨迹Kⁱ集合中每一帧对应的分块的余弦相似度。

6.c.对于特征图中的每个分块，根据注意力矩阵保留Kⁱ集合中相似度最高的N*β个分块：

其中，

为相似度最高的分块集合，β为比例系数。

6.d.将Kⁱ集合中相似度最低的N*(1-β)个分块集合

制成掩码，并通过softmax函数再一次输出轨迹注意力矩阵/>

其中，mask_fill(.)为掩码处理函数，

为轨迹注意力矩阵，/>

为加入掩码后的余弦相似度。

6.e.对于特征图中的每一个分块，根据简单的矩阵乘法就可以从轨迹中提取出时间特征信息：

其中，

表示/>

的集合，/>

表示/>

位置对应的特征图/>

的分块。

6.f.将步骤6.e输出的特征图

通过L₇个残差块进行特征校正，该过程记为：

其中，

表示残差块的功能函数，/>

表示残差块输出的特征图。本实施例中，残差块为本领域中的常规结构，例如可采用RestNet残差网络中的残差块结构。

步骤(7).对于视频中的每一帧增强图像

均执行步骤(2)-(6)，输出单方向的超分结果/>

步骤(8).对增强图像

进行反方向处理，即将第一帧增强图像/>

作为反向后的第T帧增强图像/>

通过步骤(2)-(6)的方法得到反方向的超分结果

超分重建模块用于聚合前述网络提取的空间特征信息和时间特征信息，通过像素级的特征排列，将通道特征信息扩展到空间维度上，从而完成了高效的上采样操作。执行下述步骤(9)中的方法。

步骤(9).将步骤(7)输出的单方向的超分结果

和步骤(8)输出的反方向的超分结果/>

融合，即通道合并，再经过超分重建模块来完成高分辨率帧的输出。

在本发明的一项具体实施中，所述的步骤(9)包括：

步骤(9.1).拼接步骤(7)和步骤(8)的输出结果，记为：

其中，Conv(.)表示卷积，[.；.]表示拼接操作，X¹⁰表示通道合并后的超分特征图。

步骤(9.2).通过亚像素卷积层来实现对X¹⁰中每一帧超分特征图的上采样，记为：

其中，f_pixelshuffle(.)表示亚像素卷积层，X¹¹表示亚像素卷积层输出的上采样特征图。

本实施例中，亚像素卷积层具体为：将X¹⁰中的每一帧特征图

在特征通道上缩减r²倍，并把特征图的分块平铺到空间维度上，再通过一层卷积层来恢复通道至3，得到亚像素卷积层输出的上采样特征图X¹¹。

步骤(9.3).将步骤(9.2)输出的上采样特征图X¹¹和步骤(1)获取的低分辨率的视频数据流X经过双三次插值之后的结果进行相加，从而输出最终的超分结果Y，记为：

Y＝X¹¹+f_upsampling(X)

其中，f_upsampling(.)表示双三次插值操作。

最终的超分结果Y就是低分辨率视频经过本发明基于可变形注意力的时空混合视频超分辨率方法输出的高分辨率视频。

以上描述仅为本申请的具体实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，包括以下步骤：

步骤(1).获取低分辨率的视频数据流并进行图像增强；

2.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(1)中，图像增强包括镜像、水平90°反转、垂直90°翻转。

3.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(2)中，将增强图像的通道从3扩张成64且保持分辨率不变，得到浅层特征图。

4.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(3)包括：

步骤(3.1).将步骤(2)输出的浅层特征图

经过阶段一中的L₁个Swin-Transformer块提取局部特征；

步骤(3.2).将步骤(3.1)输出的特征图进行降采样操作；

步骤(3.3).将步骤(3.2)输出的降采样后的特征图经过阶段二中的L₂个Swin-Transformer块提取局部特征；

步骤(3.4).将步骤(3.3)输出的特征图进行降采样操作，得到降采样后的局部特征图。

5.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(4)包括：

步骤(4.2).将步骤(4.1)输出的特征图进行降采样操作；

步骤(4.4).将步骤(4.3)输出的特征图进行上采样操作；

6.根据权利要求5所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的阶段三、阶段四和阶段五中的块丢弃注意力模块的计算过程包括：

a.每个块丢弃注意力模块中包括M个TDB子块，每一个TDB子块的丢弃率为：

其中，α_j是第j个TDB子块的丢弃率；

b.对于每个TDB子块，其输入的特征图记为

在每个TDB子块中，首先对输入的特征图

其中，/>

为第l个块丢弃注意力模块的第j个子块的注意力矩阵；

c.每个TDB子块按照丢弃率α_j，将注意力矩阵

中相似度最低的α_j*N个特征图分块制作成掩码矩阵/>

供下一个TDB子块使用；

d.根据注意力矩阵

和注意力机制中的值，得到TDB子块的输出特征图：

其中，

表示在阶段s中第l个块丢弃注意力模块的第j个子块输出的第i帧特征图，对应阶段s中第l个块丢弃注意力模块的第j+1个子块输入的第i帧特征图，/>

为第l个块丢弃注意力模块的第j个子块注意力机制中的值；

并和当前TDB子块计算的注意力矩阵相结合，从而产生新的注意力矩阵：

f.根据新的注意力矩阵计算输出特征图，公式为：

将其作为作为第l+1个块丢弃注意力模块的输入，记为/>

7.根据权利要求5所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的阶段三、阶段四和阶段五中的可变形互注意力模块的计算过程包括：

l∈[1,L_s],s∈[3,4,5]

其中，q^l、k^l、v^l分别是第l个可变形互注意力模块注意力机制中的查询、键、值，

是线性矩阵；

j.利用偏移网络产生的偏移量对输入的特征图

进行变形，从而产生经过偏移之后的前后项特征图/>

和/>

其中，

为线性矩阵，/>

为预训练得到的前向光流，/>

为预训练得到的后向光流，geid表示输入特征图中向量块的位置信息，/>

为预测出的前后项特征图；

k.利用预测出的前后项特征图

和/>

产生采样后的注意力机制中的查询、键、值：

其中，

分别为线性矩阵，

分别为后项特征图产生采样后的注意力机制中的查询、键、值；

l.将

和/>

和第l个可变形互注意力模块注意力机制中的查询、键、值(q^l,k^l,v^l)计算互注意力并进行融合；/>

前后帧之间的互注意力为：

其中，F^l表示融合后的前项特征图，B^l表示融合后的后项特征图；

8.根据权利要求4所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(5)包括：

步骤(5.1).将步骤(3.2)输出的降采样特征图和步骤(4)输出的集聚全局信息的特征图相加，通过阶段六中的L₆个Swin-Transformer块提取局部特征；

步骤(5.2).将步骤(5.1)输出的特征图进行上采样操作；

步骤(5.3).将步骤(2)输出的浅层特征图和步骤(5.2)输出的上采样后的特征图相加，通过阶段七中的L₇个Swin-Transformer块提取局部特征，得到上采样后的局部特征图。

9.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(6)包括：

步骤(6.1).将步骤(5)得到的上采样后的局部特征图进行分块，将当前帧的分块结果作为注意力机制中的查询Qⁱ；

将当前帧之前的所有帧对应的上采样后的局部特征图

进行分块，将当前帧之前的所有帧的分块结果作为注意力机制中的键Kⁱ；其中，/>

表示第t帧对应的上采样后的局部特征图；

将当前帧之前的所有帧的对齐后的特征图

进行分块，将当前帧之前的所有帧的分块结果作为注意力机制中的值Vⁱ；

用位图记录下每个特征图分块在时间轨迹上的坐标位置，得到Qⁱ、Kⁱ、Vⁱ的轨迹表达形式：

其中，

表示第t帧中第n个分块的横坐标/>

和纵坐标/>

W为特征图的宽，H为特征图的高；/>

表示/>

位置对应的特征图/>

的分块；/>

表示

集合中的坐标位置对应的特征图分块，/>

表示/>

位置对应的特征图/>

的分块；N表示特征图的分块数；

步骤(6.2).对于特征图分块

和轨迹Kⁱ集合中每一帧对应的分块进行余弦相似度计算，得到余弦相似度；

步骤(6.3).对于特征图中分块的余弦相似度，根据注意力矩阵保留Kⁱ集合中相似度最高的N*β个分块；

步骤(6.4).将Kⁱ集合中相似度最低的N*(1-β)个分块集合

制成掩码，并通过softmax函数再一次输出轨迹注意力矩阵/>

步骤(6.5).对于特征图中的每一个分块，从轨迹中提取出时间特征信息：

其中，

表示/>

的集合，/>

表示/>

位置对应的特征图/>

[1,i-1]的分块，τ_n表示当前帧之前的所有帧对应的第n个分块的坐标集合，/>

表示当前帧之前的所有帧的分块的坐标集合；

步骤(6.6).将步骤(6.5)输出的特征图

通过L₇个残差块进行特征校正，得到对齐后的特征图。

10.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法，其特征在于，所述的步骤(9)包括：

步骤(9.1).拼接单方向的超分结果和反方向的超分结果，得到通道合并后的超分特征图；

步骤(9.2).通过亚像素卷积层来实现对通道合并后的超分特征图中每一帧超分特征图的上采样，得到上采样特征图；

步骤(9.3).将步骤(9.2)输出的上采样特征图和步骤(1)获取的低分辨率的视频数据流经过双三次插值之后的结果进行相加，从而输出最终的超分结果，得到高分辨率帧图像。