CN115861068A - 基于可变形注意力的时空混合视频超分辨率方法 - Google Patents

基于可变形注意力的时空混合视频超分辨率方法 Download PDF

Info

Publication number
CN115861068A
CN115861068A CN202211598046.9A CN202211598046A CN115861068A CN 115861068 A CN115861068 A CN 115861068A CN 202211598046 A CN202211598046 A CN 202211598046A CN 115861068 A CN115861068 A CN 115861068A
Authority
CN
China
Prior art keywords
block
attention
output
feature map
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211598046.9A
Other languages
English (en)
Inventor
丁勇
陆晨燕
汤峻
刘郑学
黄函
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211598046.9A priority Critical patent/CN115861068A/zh
Publication of CN115861068A publication Critical patent/CN115861068A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于可变形注意力的时空混合视频超分辨率方法,属于视频超分辨率技术领域。本发明主要包括如下步骤:1.将进行预处理后的低分辨率视频数据流进行局部特征提取;2.接着进一步进行全局特征提取,经过串联的块丢弃注意力模块和可变形注意力模块,获取集聚全局信息的视频帧特征向量;3.再次进行局部特征提取并通过跳跃连接结合浅层特征信息;4.利用时间轨迹提取每一个空间块向量在时间维度上的特征信息并完成特征对齐;5.将获取的前后向超分结果融合并通过重建模块输出最终的高分辨率帧结果。基于本发明所提出的视频超分辨率重建方法可以获取较高质量的高分辨率视频,较之前的方法可以恢复处更加清晰的图像边缘并减少重影。

Description

基于可变形注意力的时空混合视频超分辨率方法
技术领域
本发明属于视频超分辨率技术领域,尤其设计一种基于可变形注意力的时空混合超分辨率方法。
背景技术
高分辨率视频一直是日常生活中追求的目标,比如在医学影像领域,高清的视频流有利于更为精确的分析与诊断;在交通监测领域,高清的道路监控视频有利于对车流量与车流密集做出更为准确的分析与检测。视频超分辨率是一种将低分辨率视频转换为高分辨率视频的技术,近年来随着深度学习的发展,基于神经网络的超分辨率技术可以实现相较传统方法更高的视频重建质量。目前基于神经网络的主流视频超分辨率方法可大致分为三类:基于卷积神经网络(CNN)的视频超分方法、基于循环神经网络(RNN)的超分方法以及基于Transformer的视频超分方法。基于CNN的方法利用提取局部特征的卷积核完成特征对齐和特征融合;基于RNN的方法利用隐藏状态存储和传播过去或未来的时间信息;基于Transformer的方法利用自注意力机制并行化完成特征提取和特征对齐。
但是,现如今的视频超分辨率方法要么只用了视频中的空间或时间相关性,要么无法有效结合时空信息来完成视频的重建任务。现有的基于CNN的视频超分方法以窗口化的方式只对局部空间内和局部时间范围内的信息进行提取,缺少了长距离范围内的信息建模能力;现有的基于RNN的方法因为共用单个网络,故具有误差累积、噪声放大以及梯度消失/爆炸问题,故难以在长距离范围内实现有效的超分;现有的基于Transformer的方法对于时空信息的提取需要消耗非常多的计算资源,难以实现较为高效的计算效率。
发明内容
本发明公开了一种基于可变形注意力的时空混合视频超分方法,其目的是利用注意力机制,在多层级网络结构上实现有效且高效的时空信息提取,从而较好地完成对低分辨率视频的细节重建,从而为实际应用提供有效的增强手段。
本发明解决其技术问题所采用的技术方案如下:
一种基于可变形注意力的时空混合视频超分辨率方法,包括以下步骤:
步骤(1).获取低分辨率的视频数据流并进行图像增强;
步骤(2).获取视频中每一帧增强图像的浅层特征,得到浅层特征图;
步骤(3).对步骤(2)得到的浅层特征图进行局部特征提取并降采样,得到降采样后的局部特征图;
步骤(4).对步骤(3)得到的降采样后的局部特征图进行全局特征提取,通过串联的块丢弃注意力模块和可变形注意力模块,获取集聚全局信息的特征图;
步骤(5).对步骤(2)-(4)输出的特征图进行局部特征提取并上采样,得到上采样后的局部特征图;
步骤(6).在时间轨迹上对步骤(5)得到的局部特征图的每一个分块进行相似度计算并融合,得到对齐后的特征图;
步骤(7).重复步骤(2)至(6),遍历视频中的每一帧增强图像,得到单方向的超分结果;
步骤(8).重复步骤(2)至(6),反向处理视频中的每一帧增强图像,得到反方向的超分结果;
步骤(9).将步骤(7)输出的单方向的超分结果和步骤(8)输出的反方向的超分结果融合,再经过超分重建模块完成高分辨率帧图像的输出。
进一步地,所述的步骤(4)包括:
步骤(4.1).将步骤(3)输出的降采样后的局部特征图依次经过阶段三中的L3个块丢弃注意力模块和L3个可变形互注意力模块;
步骤(4.2).将步骤(4.1)输出的特征图进行降采样操作;
步骤(4.3).将步骤(4.2)输出的特征图依次经过阶段四中的L4个块丢弃注意力模块和L4个可变形互注意力模块;
步骤(4.4).将步骤(4.3)输出的特征图进行上采样操作;
步骤(4.5).将步骤(3)输出的降采样后的局部特征图和步骤(4.4)输出的上采样后的特征图相加后,依次经过阶段五中的L5个块丢弃注意力模块和L5个可变形互注意力模块;
步骤(4.6).将步骤(4.5)输出的特征图进行上采样操作,得到集聚全局信息的特征图。
进一步地,所述的阶段三、阶段四和阶段五中的块丢弃注意力模块中,仅保留重要的分块,能够提取出图像中重要区域的信息,从而减少非关键信息或干扰信息的参杂,获取集聚重要信息的特征图。
计算过程包括:
a.每个块丢弃注意力模块中包括M个TDB子块,每一个TDB子块设置丢弃率αj
b.对于每个TDB子块,其输入的特征图记为
Figure BDA0003994105570000031
Figure BDA0003994105570000032
表示阶段s中第l个块丢弃注意力模块的第j个子块输入的第i帧特征图;阶段三中第1个块丢弃注意力模块的第1个子块输入的第i帧特征图为步骤(3)输出的降采样后的局部特征图,且前一个TDB子块的输出作为后一个TDB子块的输入;
在每个TDB子块中,首先对输入的特征图
Figure BDA0003994105570000033
分块,计算特征图中各个分块之间的余弦相似度,得到注意力矩阵/>
Figure BDA0003994105570000034
其中,/>
Figure BDA0003994105570000035
为第l个块丢弃注意力模块的第j个子块的注意力矩阵;
c.每个TDB子块按照丢弃率αj,将注意力矩阵
Figure BDA0003994105570000036
中相似度最低的αj*N个特征图分块制作成掩码矩阵/>
Figure BDA0003994105570000037
供下一个TDB子块使用;
d.根据注意力矩阵
Figure BDA0003994105570000038
和注意力机制中的值,得到TDB子块的输出特征图;
e.在块丢弃注意力模块中,下一个TDB子块接受来自上一个TDB子块的掩码矩阵
Figure BDA0003994105570000039
并和当前TDB子块计算的注意力矩阵相结合,从而产生新的注意力矩阵/>
Figure BDA00039941055700000310
/>
f.根据新的注意力矩阵计算输出特征图
Figure BDA00039941055700000311
g.重复步骤a-f的过程,直到第l个块丢弃注意力模块中所有的M个子块全部完成输出,第l个块丢弃注意力模块中最后一个子块的输出即第l个块丢弃注意力模块的输出,记为
Figure BDA00039941055700000312
将其作为作为第l+1个块丢弃注意力模块的输入,记为/>
Figure BDA00039941055700000313
Figure BDA00039941055700000314
令l=l+1,继续重复步骤a-f的过程,直至完成第Ls个块丢弃注意力模块的输出,记为
Figure BDA00039941055700000315
进一步地,所述的阶段三、阶段四和阶段五中的可变形互注意力模块中,利用可变形注意力预测光流引导下前后帧的偏移量,通过双线性插值产生前后帧的预测值,再利用互注意力机制将当前帧分别对齐到前后帧,最后使用局部注意力机制进行融合,能够提取前后帧的信息,用于缓解遮挡、图像边界带来的误差问题,获取集聚全局信息的特征图。
计算过程包括:
h.可变形互注意力模块接受来自于对应阶段s中第Ls个块丢弃注意力模块的输出特征图
Figure BDA0003994105570000041
作为输入,首先通过线性层输出注意力机制中的查询、键、值;
i.将第l个可变形互注意力模块注意力机制中的查询ql通过偏移网络Θ(·)预测出输入特征图中的每个像素点对应的偏移量,产生前后项的偏移量:
Figure BDA0003994105570000042
j.利用偏移网络产生的偏移量对输入的特征图
Figure BDA0003994105570000043
进行变形,从而产生经过偏移之后的前后项特征图/>
Figure BDA0003994105570000044
和/>
Figure BDA0003994105570000045
k.利用预测出的前后项特征图
Figure BDA0003994105570000046
和/>
Figure BDA0003994105570000047
产生采样后的注意力机制中的查询、键、值;
l.将
Figure BDA0003994105570000048
和/>
Figure BDA0003994105570000049
和第l个可变形互注意力模块注意力机制中的查询、键、值(ql,kl,vl)计算互注意力并进行融合;
m.通过简单通道合并以及卷积层来缩减通道,输出双向对齐的结果;
n.采用上述步骤h-m的方法,直至完成第ls个可变形互注意力模块的输出,记为
Figure BDA00039941055700000410
所述步骤(3)(4)(5)中特征尺寸的变化为:通过三次下采样和三次上采样,特征尺寸经过64-32-16-8-16-32-64的变化过程,同时空间尺寸经过三次方法和缩小最后恢复到原大小。该步骤的目的一方面是为了在不同尺度下结合多感受野的方式有效的进行空间特征提取,另一方面为了适应块丢弃注意力模块和可变形注意力模块的全局计算,减小图像空间尺寸可以提高计算效率。此外,结合Swin-Transformer的局部特征提取和块丢弃注意力模块和可变形注意力模块两者的全局注意力计算能够同时聚集局部信息和空间信息。
所述步骤(6)中时间轨迹上每个空间块向量是通过位图迭代的方式,减少了大量重复性工作,减少了计算复杂度。每次只需要计算当前帧和前一帧的时间偏移量并同时处理前向所有的帧即可,反方向的时间帧同理。并且,步骤(6)中通过选取置信度最高的指定个数的空间块向量进行融合,减少了将时空块向量同时混合计算带来的高复杂度,也不会因过度依赖置信度最高的块向量选择的准确性。提高了隐式对齐的有效性和容错率。
本发明的有益效果:
本发明设计了一套完整的基于可变形注意力的时空混合视频超分辨率的网络结构,包括视频预处理模块、浅层特征提取模块、空间注意力模块、时间轨迹注意力模块、超分重建模块,属于一种多层次结构的网络架构,且结合了Swin-Transformer善于捕捉局部特征信息的特性,以及块注意力和可变形互注意力可提取全局特征信息的能力,从而可以有效的提取充分的特征信息来预测出足够的细节。此外,在时间特征信息的提取上,本发明基于时间轨迹的做法大大降低了计算复杂度;通过时间信息和空间信息的有效结合,可以最终完成高质量的超分效果。
附图说明
图1为本发明实施过程中采用的基于可变形注意力的时空混合视频超分辨率方法结构框图
图2为本发明实施过程中采用的空间注意力网络结构图。
图3为本发明实施过程中采用的整体流程图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
本发明基于可变形注意力的时空混合超分辨率方法的结构框图如图1所示,整体包括四部分:视频预处理模块、浅层特征提取模块、空间注意力模块、时间轨迹注意力模块、超分重建模块。
其中,视频预处理模块用于对输入的原始视频数据流进行处理,执行下述步骤(1)中的方法。
步骤(1).获取低分辨率的视频数据流
Figure BDA0003994105570000051
并依次进行镜像、水平90°反转、垂直90°翻转实现增强,之后逐帧输入到浅层特征提取模块中。
浅层特征提取模块用于初步提取视频中每一帧增强图像的特征,执行下述步骤(2)中的方法。
步骤(2).对于视频中的第i帧增强图像
Figure BDA0003994105570000052
利用一层卷积层将输入帧的通道从3扩张成64且保持分辨率不变。
所述的浅层特征提取过程表示为:
Figure BDA0003994105570000053
其中fSF(.)表示浅层特征提取,
Figure BDA0003994105570000054
表示浅层特征图。
空间注意力模块用于提取多尺度的空间信息。具体而言,通过高效的Swin-Transformer模块获得局部空间信息,按照重要性程度选择性保留全局空间信息并利用前后帧信息进行特征重填,执行下述步骤(3)-(5)中的方法。
在本发明的一项具体实施中,如图2所示,整个空间注意力模块为一个UNet结构,从左到右各层输出的分辨率逐渐降低,之后又逐渐升高。整体结构是一个多尺度且局部和全局信息相结合的信息提取网络,其中Swin-Transformer模块用于较大分辨率下的局部特征信息提取。在聚集局部信息的基础上,本发明使用块丢弃注意力模块和可变形互注意力模块抽取全局特征信息,并使用跳跃连接进一步结合局部与全局的特征信息。
步骤(3).将步骤(2)输出的浅层特征图
Figure BDA0003994105570000061
进行局部特征提取,具体为:
步骤(3.1).将步骤(2)输出的浅层特征图
Figure BDA0003994105570000062
经过阶段一,本实施例中,所述的阶段一由L1个Swin-Transformer块组成,每个Swin-Transformer块由一个局部自注意力和滑窗自注意力串联而成,将相似度的计算限定在一个较小的窗口内,每个窗口共享参数,目的是在聚集特征图的局部空间信息的同时降低计算复杂度。
所述的阶段一的计算过程表示为:
Figure BDA0003994105570000063
其中,
Figure BDA0003994105570000064
表示阶段一输出的特征图,/>
Figure BDA0003994105570000065
表示阶段一的功能函数。
步骤(3.2).将步骤(3.1)输出的特征图
Figure BDA0003994105570000066
进行降采样操作,即空间尺寸减半,特征尺寸翻倍,得到降采样特征图/>
Figure BDA0003994105570000067
步骤(3.3).将步骤(3.2)输出的降采样特征图
Figure BDA0003994105570000068
经过阶段二,本实施例中,所述的阶段二由L2个Swin-Transformer块组成,L2=L1
所述的阶段二的计算过程表示为:
Figure BDA0003994105570000069
其中,
Figure BDA00039941055700000610
表示阶段二输出的特征图,/>
Figure BDA00039941055700000611
表示阶段二的功能函数。
步骤(3.4).将步骤(3.3)输出的特征图
Figure BDA00039941055700000612
进行降采样操作,即空间尺寸减半,特征尺寸翻倍,得到降采样特征图/>
Figure BDA00039941055700000613
步骤(4).将步骤(3.4)输出的降采样特征图
Figure BDA00039941055700000614
进行全局特征提取,具体为:
步骤(4.1).将步骤(3.4)输出的降采样特征图
Figure BDA00039941055700000615
经过阶段三,本实施例中,所述的阶段三由L3个块丢弃注意力模块(TDB)串联L3个可变形互注意力模块(DMB)组成。
所述的阶段三的计算过程表示为:
Figure BDA00039941055700000616
其中,
Figure BDA00039941055700000617
表示阶段三输出的特征图,/>
Figure BDA00039941055700000618
表示阶段三中TDB块的功能函数,
Figure BDA0003994105570000071
表示阶段三中DMB块的功能函数。
在本发明的一项具体实施中,TDB块的计算步骤包括:
4.1.a.在每个TDB块中,本实施例中设置M个TDB子块,设置每一个TDB子块的丢弃率,记为:
Figure BDA0003994105570000072
其中,αj是第j个TDB子块的丢弃率,特别的,第1个TDB子块默认不丢弃。
4.1.b.对于每个TDB子块,其输入为特征图
Figure BDA0003994105570000073
Figure BDA0003994105570000074
表示阶段s中第l个TDB块的第j个子块输入的第i帧特征图,其中/>
Figure BDA0003994105570000075
即阶段三中第1个TDB块的第1个子块输入的第i帧特征图为步骤(3)输出的/>
Figure BDA0003994105570000076
之后,阶段三中的L3个TDB块串联,且每一个TDB块中的M个子块也串联,根据串联关系,前一个子块的输出作为后一个子块的输入。
对于TDB块中的每一个子块,首先对输入的特征图
Figure BDA0003994105570000077
分块,计算特征图中各个分块之间的余弦相似度,得到注意力矩阵:
Figure BDA0003994105570000078
其中,
Figure BDA0003994105570000079
为第l个TDB块的第j个子块的注意力矩阵,/>
Figure BDA00039941055700000710
为第l个TDB块的第j个子块的余弦相似度,/>
Figure BDA00039941055700000711
为第l个TDB块的第j个子块注意力机制中的查询、键,上角标T表示转置,N为输入的特征图分块的数量。
4.1.c.TDB块中的每一个子块按照丢弃率αj,将注意力矩阵
Figure BDA00039941055700000712
中相似度最低的αj*N个特征图分块制作成掩码矩阵/>
Figure BDA00039941055700000713
供下一个子块使用。
4.1.d.利用注意力矩阵
Figure BDA00039941055700000714
和注意力机制中的值相乘,得到TDB子块的输出特征图:
Figure BDA00039941055700000715
其中,
Figure BDA00039941055700000716
表示在阶段s中第l个TDB块的第j个子块输出的第i帧特征图,对应阶段s中第l个TDB块的第j+1个子块输入的第i帧特征图,/>
Figure BDA00039941055700000717
为第l个TDB块的第j个子块注意力机制中的值。
在本发明的一项具体实施中,公式(3)和(4)中注意力机制的查询、键、值的计算公式为:
Figure BDA0003994105570000081
其中,
Figure BDA0003994105570000082
分别是注意力机制中的查询、键、值的线性矩阵。
4.1.e.在TDB块中,下一个子块接受来自上一个子块的掩码矩阵
Figure BDA0003994105570000083
并和当前子块计算的注意力矩阵相结合,从而产生新的注意力矩阵:
Figure BDA0003994105570000084
4.1.f.类似于公式(3),根据新的注意力矩阵计算输出特征图,公式为:
Figure BDA0003994105570000085
4.1.g.重复步骤4.1.a-4.1.f的过程,直到第l个TDB块中所有的M个子块全部完成输出,第l个TDB块中最后一个子块的输出即第l个TDB块的输出,记为
Figure BDA0003994105570000086
将其作为作为第l+1个TDB块的输入,记为/>
Figure BDA0003994105570000087
令l=l+1,继续重复步骤4.1.a-4.1.f的过程,直至完成第L3个TDB块的输出,记为
Figure BDA0003994105570000088
4.1.h.DMB块接受来自于第L3个TDB块的输出特征图
Figure BDA0003994105570000089
作为输入,首先通过线性层输出注意力机制中的查询、键、值:
Figure BDA00039941055700000810
Figure BDA00039941055700000811
其中,ql、kl、vl分别是第l个DMB块注意力机制中的查询、键、值,
Figure BDA00039941055700000812
Figure BDA00039941055700000813
是线性矩阵。
4.1.i.将ql通过偏移网络Θ(·)预测出输入特征图中的每个像素点对应的偏移量。
本实施例中,DMB块可用于前后帧双向的预测,因此偏移网络有2个,分别产生前后项的偏移量:
Figure BDA00039941055700000814
偏移网络Θ(·)由不改变空间尺寸的卷积层堆积而成,为了减少计算复杂度,进行了分组的偏移量学习。
4.1.j.利用偏移网络产生的偏移量对输入的特征图
Figure BDA00039941055700000815
进行变形,从而产生经过偏移之后的前后项特征图/>
Figure BDA0003994105570000091
和/>
Figure BDA0003994105570000092
Figure BDA0003994105570000093
其中,
Figure BDA0003994105570000094
为线性矩阵,/>
Figure BDA0003994105570000095
为预训练得到的前向光流,/>
Figure BDA0003994105570000096
为预训练得到的后向光流,grid表示输入特征图中向量块的位置信息,/>
Figure BDA0003994105570000097
为预测出的前后项特征图;
本实施例中,为了稳定训练,本发明利用前后向光流来引导偏移网络的学习。
4.1.k.利用预测出的前后项特征图
Figure BDA0003994105570000098
和/>
Figure BDA0003994105570000099
产生采样后的注意力机制中的查询、键、值:
Figure BDA00039941055700000910
/>
Figure BDA00039941055700000911
其中,
Figure BDA00039941055700000912
分别为线性矩阵,
Figure BDA00039941055700000913
分别为前项特征图产生采样后的注意力机制中的查询、键、值,
Figure BDA00039941055700000914
分别为后项特征图产生采样后的注意力机制中的查询、键、值。
4.1.l.将
Figure BDA00039941055700000915
和/>
Figure BDA00039941055700000916
和(ql,kl,vl)计算互注意力并进行融合。
前后帧之间的互注意力为:
Figure BDA00039941055700000917
其中,Fl表示融合后的前项特征图,Bl表示融合后的后项特征图。
4.1.m.通过简单通道合并以及卷积层来缩减通道,输出双向对齐的结果
Figure BDA00039941055700000918
Figure BDA00039941055700000919
其中,
Figure BDA00039941055700000920
为双向对齐后的特征图,作为第l+1个DMB块的输入;
4.1.n.采用上述步骤h-m的方法,直至完成第L4个可变形互注意力模块的输出,记为
Figure BDA0003994105570000101
步骤(4.2).将步骤(4.1)输出的特征图
Figure BDA0003994105570000102
进行降采样操作,即空间尺寸减半,特征尺寸翻倍,记为降采样特征图/>
Figure BDA0003994105570000103
步骤(4.3).将步骤(4.2)输出的特征图经过阶段四,本实施例中,所述的阶段四由L4个块丢弃注意力模块串联L4个可变形互注意力模块组成。
本实施例中,步骤(4.3)的执行过程与步骤(4.1)相同,令s=4,重复步骤(4.1);
所述的阶段四的计算过程表示为:
Figure BDA0003994105570000104
其中,
Figure BDA0003994105570000105
表示阶段四输出的特征图,/>
Figure BDA0003994105570000106
表示阶段四中TDB块的功能函数,
Figure BDA0003994105570000107
表示阶段四中DMB块的功能函数。
步骤(4.4).将步骤(4.3)输出的特征图
Figure BDA0003994105570000108
进行上采样操作,即空间尺寸翻倍,特征尺寸减半,记为上采样特征图/>
Figure BDA0003994105570000109
步骤(4.5).将步骤(3.4)输出的降采样特征图
Figure BDA00039941055700001010
和步骤(4.4)输出的上采样特征图/>
Figure BDA00039941055700001011
相加,作为阶段五的输入特征图,本实施例中,所述的阶段五由L5个块丢弃注意力模块串联L5个可变形互注意力模块组成。
本实施例中,步骤(4.5)的执行过程与步骤(4.1)相同,令s=5,重复步骤(4.1);
所述的阶段五的计算过程表示为:
Figure BDA00039941055700001012
其中,
Figure BDA00039941055700001013
表示阶段五输出的特征图,/>
Figure BDA00039941055700001014
表示阶段五中TDB块的功能函数,
Figure BDA00039941055700001015
表示阶段五中DMB块的功能函数。
步骤(4.6).将步骤(4.5)输出的特征图
Figure BDA00039941055700001016
进行上采样操作,即空间尺寸翻倍,特征尺寸减半,记为上采样特征图/>
Figure BDA00039941055700001017
步骤(5).对步骤(2)-(4)输出的特征图进行局部特征提取并上采样,得到上采样后的局部特征图。
步骤(5.1).将步骤(3.2)输出的降采样特征图
Figure BDA00039941055700001018
和步骤(4.6)输出的上采样特征图/>
Figure BDA00039941055700001019
相加,作为阶段六的输入特征图,本实施例中,所述的阶段六由L6个Swin-Transformer块组成。
所述的阶段六的计算过程表示为:
Figure BDA00039941055700001020
其中,
Figure BDA0003994105570000111
表示阶段六输出的特征图,/>
Figure BDA0003994105570000112
表示阶段六的功能函数。
步骤(5.2).将步骤(5.1)输出的特征图
Figure BDA0003994105570000113
进行上采样操作,即空间尺寸翻倍,特征尺寸减半,记为上采样特征图/>
Figure BDA0003994105570000114
步骤(5.3).将步骤(2)输出的浅层特征图
Figure BDA0003994105570000115
和步骤(5.2)输出的上采样特征图/>
Figure BDA0003994105570000116
相加,作为阶段七的输入特征图,本实施例中,所述的阶段七由L7个Swin-Transformer块组成。
所述的阶段七的计算过程表示为:
Figure BDA0003994105570000117
其中,
Figure BDA0003994105570000118
表示阶段七输出的特征图,/>
Figure BDA0003994105570000119
表示阶段七的功能函数。
时间轨迹注意力模块用于提取同一个空间块向量在不同时间维度上的特征并完成基于轨迹的特征对齐,执行下述步骤(6)中的方法。
步骤(6).将步骤(5.3)输出的特征图
Figure BDA00039941055700001110
通过时间轨迹注意力模块来提取每一帧图像中的每一个分块在时间轨迹中最为相似的N*β的特征信息来作为其对齐的结果。
整个时间轨迹注意力模块可记为:
Figure BDA00039941055700001111
其中,
Figure BDA00039941055700001112
表示时间轨迹注意力模块输出的特征图,ftraj(.)表示时间轨迹注意力模块的功能函数。
在本发明的一项具体实施中,时间轨迹注意力模块的计算步骤包括:
6.a.将输入的特征图
Figure BDA00039941055700001113
进行分块,将当前帧的分块结果作为注意力机制中的查询Qi
将当前帧之前的所有帧的特征图
Figure BDA00039941055700001114
进行分块,将当前帧之前的所有帧的分块结果作为注意力机制中的键Ki
将当前帧之前的所有帧的特征图
Figure BDA00039941055700001115
进行分块,将当前帧之前的所有帧的分块结果作为注意力机制中的值Vi
所述的Qi、Ki、Vi表示为:
Figure BDA00039941055700001116
其中,Qi表示当前帧特征图
Figure BDA00039941055700001117
的分块结果对应的注意力机制中的查询,Ki表示当前帧之前的所有帧特征图/>
Figure BDA00039941055700001118
的分块结果对应的注意力机制中的键,/>
Figure BDA00039941055700001119
为Qi中的第n个分块,/>
Figure BDA0003994105570000121
表示Ki中第t帧的第n个分块,Vi表示当前帧之前的所有帧特征图
Figure BDA0003994105570000122
的分块结果对应的注意力机制中的键值,/>
Figure BDA0003994105570000123
表示Vi中第t帧的第n个分块,N表示特征图的分块数。
用位图记录下每个特征图分块在时间轨迹上的坐标位置:
Figure BDA0003994105570000124
其中,
Figure BDA0003994105570000125
表示第t帧中第n个分块的横坐标/>
Figure BDA0003994105570000126
和纵坐标/>
Figure BDA0003994105570000127
Figure BDA0003994105570000128
W为特征图的宽,H为特征图的高,τn表示当前帧之前的所有帧对应的第n个分块的坐标集合,/>
Figure BDA0003994105570000129
表示当前帧之前的所有帧的分块的坐标集合。
故公式(13)可重新表示为轨迹的形式:
Figure BDA00039941055700001210
其中,
Figure BDA00039941055700001211
表示/>
Figure BDA00039941055700001212
位置对应的特征图/>
Figure BDA00039941055700001213
的分块,/>
Figure BDA00039941055700001214
表示/>
Figure BDA00039941055700001215
集合中的坐标位置对应的特征图分块,/>
Figure BDA00039941055700001216
表示/>
Figure BDA00039941055700001217
位置对应的特征图/>
Figure BDA00039941055700001218
的分块。
6.b.对于特征图分块
Figure BDA00039941055700001219
和轨迹Ki集合中每一帧对应的分块进行余弦相似度计算,得到余弦相似度/>
Figure BDA00039941055700001220
Figure BDA00039941055700001221
其中,D为特征分块的特征维度,
Figure BDA00039941055700001222
为L2范数的平方,/>
Figure BDA00039941055700001223
为/>
Figure BDA00039941055700001224
与轨迹Ki集合中每一帧对应的分块的余弦相似度。
6.c.对于特征图中的每个分块,根据注意力矩阵保留Ki集合中相似度最高的N*β个分块:
Figure BDA00039941055700001225
其中,
Figure BDA00039941055700001226
为相似度最高的分块集合,β为比例系数。
6.d.将Ki集合中相似度最低的N*(1-β)个分块集合
Figure BDA00039941055700001227
制成掩码,并通过softmax函数再一次输出轨迹注意力矩阵/>
Figure BDA00039941055700001228
Figure BDA0003994105570000131
其中,mask_fill(.)为掩码处理函数,
Figure BDA0003994105570000132
为轨迹注意力矩阵,/>
Figure BDA0003994105570000133
为加入掩码后的余弦相似度。
6.e.对于特征图中的每一个分块,根据简单的矩阵乘法就可以从轨迹中提取出时间特征信息:
Figure BDA0003994105570000134
其中,
Figure BDA0003994105570000135
表示/>
Figure BDA0003994105570000136
的集合,/>
Figure BDA0003994105570000137
表示/>
Figure BDA0003994105570000138
位置对应的特征图/>
Figure BDA0003994105570000139
Figure BDA00039941055700001310
的分块。
6.f.将步骤6.e输出的特征图
Figure BDA00039941055700001311
通过L7个残差块进行特征校正,该过程记为:
Figure BDA00039941055700001312
其中,
Figure BDA00039941055700001313
表示残差块的功能函数,/>
Figure BDA00039941055700001314
表示残差块输出的特征图。本实施例中,残差块为本领域中的常规结构,例如可采用RestNet残差网络中的残差块结构。
步骤(7).对于视频中的每一帧增强图像
Figure BDA00039941055700001315
均执行步骤(2)-(6),输出单方向的超分结果/>
Figure BDA00039941055700001316
步骤(8).对增强图像
Figure BDA00039941055700001317
进行反方向处理,即将第一帧增强图像/>
Figure BDA00039941055700001318
作为反向后的第T帧增强图像/>
Figure BDA00039941055700001319
通过步骤(2)-(6)的方法得到反方向的超分结果
Figure BDA00039941055700001320
超分重建模块用于聚合前述网络提取的空间特征信息和时间特征信息,通过像素级的特征排列,将通道特征信息扩展到空间维度上,从而完成了高效的上采样操作。执行下述步骤(9)中的方法。
步骤(9).将步骤(7)输出的单方向的超分结果
Figure BDA00039941055700001321
和步骤(8)输出的反方向的超分结果/>
Figure BDA00039941055700001322
融合,即通道合并,再经过超分重建模块来完成高分辨率帧的输出。
在本发明的一项具体实施中,所述的步骤(9)包括:
步骤(9.1).拼接步骤(7)和步骤(8)的输出结果,记为:
Figure BDA00039941055700001323
其中,Conv(.)表示卷积,[.;.]表示拼接操作,X10表示通道合并后的超分特征图。
步骤(9.2).通过亚像素卷积层来实现对X10中每一帧超分特征图的上采样,记为:
Figure BDA0003994105570000141
其中,fpixelshuffle(.)表示亚像素卷积层,X11表示亚像素卷积层输出的上采样特征图。
本实施例中,亚像素卷积层具体为:将X10中的每一帧特征图
Figure BDA0003994105570000142
在特征通道上缩减r2倍,并把特征图的分块平铺到空间维度上,再通过一层卷积层来恢复通道至3,得到亚像素卷积层输出的上采样特征图X11
步骤(9.3).将步骤(9.2)输出的上采样特征图X11和步骤(1)获取的低分辨率的视频数据流X经过双三次插值之后的结果进行相加,从而输出最终的超分结果Y,记为:
Y=X11+fupsampling(X)
其中,fupsampling(.)表示双三次插值操作。
最终的超分结果Y就是低分辨率视频经过本发明基于可变形注意力的时空混合视频超分辨率方法输出的高分辨率视频。
以上描述仅为本申请的具体实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,包括以下步骤:
步骤(1).获取低分辨率的视频数据流并进行图像增强;
步骤(2).获取视频中每一帧增强图像的浅层特征,得到浅层特征图;
步骤(3).对步骤(2)得到的浅层特征图进行局部特征提取并降采样,得到降采样后的局部特征图;
步骤(4).对步骤(3)得到的降采样后的局部特征图进行全局特征提取,通过串联的块丢弃注意力模块和可变形注意力模块,获取集聚全局信息的特征图;
步骤(5).对步骤(2)-(4)输出的特征图进行局部特征提取并上采样,得到上采样后的局部特征图;
步骤(6).在时间轨迹上对步骤(5)得到的局部特征图的每一个分块进行相似度计算并融合,得到对齐后的特征图;
步骤(7).重复步骤(2)至(6),遍历视频中的每一帧增强图像,得到单方向的超分结果;
步骤(8).重复步骤(2)至(6),反向处理视频中的每一帧增强图像,得到反方向的超分结果;
步骤(9).将步骤(7)输出的单方向的超分结果和步骤(8)输出的反方向的超分结果融合,再经过超分重建模块完成高分辨率帧图像的输出。
2.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(1)中,图像增强包括镜像、水平90°反转、垂直90°翻转。
3.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(2)中,将增强图像的通道从3扩张成64且保持分辨率不变,得到浅层特征图。
4.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(3)包括:
步骤(3.1).将步骤(2)输出的浅层特征图
Figure FDA0003994105560000011
经过阶段一中的L1个Swin-Transformer块提取局部特征;
步骤(3.2).将步骤(3.1)输出的特征图进行降采样操作;
步骤(3.3).将步骤(3.2)输出的降采样后的特征图经过阶段二中的L2个Swin-Transformer块提取局部特征;
步骤(3.4).将步骤(3.3)输出的特征图进行降采样操作,得到降采样后的局部特征图。
5.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(4)包括:
步骤(4.1).将步骤(3)输出的降采样后的局部特征图依次经过阶段三中的L3个块丢弃注意力模块和L3个可变形互注意力模块;
步骤(4.2).将步骤(4.1)输出的特征图进行降采样操作;
步骤(4.3).将步骤(4.2)输出的特征图依次经过阶段四中的L4个块丢弃注意力模块和L4个可变形互注意力模块;
步骤(4.4).将步骤(4.3)输出的特征图进行上采样操作;
步骤(4.5).将步骤(3)输出的降采样后的局部特征图和步骤(4.4)输出的上采样后的特征图相加后,依次经过阶段五中的L5个块丢弃注意力模块和L5个可变形互注意力模块;
步骤(4.6).将步骤(4.5)输出的特征图进行上采样操作,得到集聚全局信息的特征图。
6.根据权利要求5所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的阶段三、阶段四和阶段五中的块丢弃注意力模块的计算过程包括:
a.每个块丢弃注意力模块中包括M个TDB子块,每一个TDB子块的丢弃率为:
Figure FDA0003994105560000021
其中,αj是第j个TDB子块的丢弃率;
b.对于每个TDB子块,其输入的特征图记为
Figure FDA0003994105560000022
Figure FDA0003994105560000023
表示阶段s中第l个块丢弃注意力模块的第j个子块输入的第i帧特征图;阶段三中第1个块丢弃注意力模块的第1个子块输入的第i帧特征图为步骤(3)输出的降采样后的局部特征图,且前一个TDB子块的输出作为后一个TDB子块的输入;
在每个TDB子块中,首先对输入的特征图
Figure FDA0003994105560000024
分块,计算特征图中各个分块之间的余弦相似度,得到注意力矩阵/>
Figure FDA0003994105560000025
其中,/>
Figure FDA0003994105560000026
为第l个块丢弃注意力模块的第j个子块的注意力矩阵;
c.每个TDB子块按照丢弃率αj,将注意力矩阵
Figure FDA0003994105560000027
中相似度最低的αj*N个特征图分块制作成掩码矩阵/>
Figure FDA0003994105560000031
供下一个TDB子块使用;
d.根据注意力矩阵
Figure FDA0003994105560000032
和注意力机制中的值,得到TDB子块的输出特征图:
Figure FDA0003994105560000033
其中,
Figure FDA0003994105560000034
表示在阶段s中第l个块丢弃注意力模块的第j个子块输出的第i帧特征图,对应阶段s中第l个块丢弃注意力模块的第j+1个子块输入的第i帧特征图,/>
Figure FDA0003994105560000035
为第l个块丢弃注意力模块的第j个子块注意力机制中的值;
e.在块丢弃注意力模块中,下一个TDB子块接受来自上一个TDB子块的掩码矩阵
Figure FDA0003994105560000036
并和当前TDB子块计算的注意力矩阵相结合,从而产生新的注意力矩阵:
Figure FDA0003994105560000037
f.根据新的注意力矩阵计算输出特征图,公式为:
Figure FDA0003994105560000038
g.重复步骤a-f的过程,直到第l个块丢弃注意力模块中所有的M个子块全部完成输出,第l个块丢弃注意力模块中最后一个子块的输出即第l个块丢弃注意力模块的输出,记为
Figure FDA0003994105560000039
将其作为作为第l+1个块丢弃注意力模块的输入,记为/>
Figure FDA00039941055600000310
Figure FDA00039941055600000311
令l=l+1,继续重复步骤a-f的过程,直至完成第Ls个块丢弃注意力模块的输出,记为
Figure FDA00039941055600000312
7.根据权利要求5所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的阶段三、阶段四和阶段五中的可变形互注意力模块的计算过程包括:
h.可变形互注意力模块接受来自于对应阶段s中第Ls个块丢弃注意力模块的输出特征图
Figure FDA00039941055600000313
作为输入,首先通过线性层输出注意力机制中的查询、键、值;
Figure FDA00039941055600000314
Figure FDA00039941055600000315
Figure FDA00039941055600000316
l∈[1,Ls],s∈[3,4,5]
其中,ql、kl、vl分别是第l个可变形互注意力模块注意力机制中的查询、键、值,
Figure FDA00039941055600000317
是线性矩阵;
i.将第l个可变形互注意力模块注意力机制中的查询ql通过偏移网络Θ(·)预测出输入特征图中的每个像素点对应的偏移量,产生前后项的偏移量:
Figure FDA00039941055600000318
j.利用偏移网络产生的偏移量对输入的特征图
Figure FDA0003994105560000041
进行变形,从而产生经过偏移之后的前后项特征图/>
Figure FDA0003994105560000042
和/>
Figure FDA0003994105560000043
Figure FDA0003994105560000044
Figure FDA0003994105560000045
其中,
Figure FDA0003994105560000046
为线性矩阵,/>
Figure FDA0003994105560000047
为预训练得到的前向光流,/>
Figure FDA0003994105560000048
为预训练得到的后向光流,geid表示输入特征图中向量块的位置信息,/>
Figure FDA0003994105560000049
为预测出的前后项特征图;
k.利用预测出的前后项特征图
Figure FDA00039941055600000410
和/>
Figure FDA00039941055600000411
产生采样后的注意力机制中的查询、键、值:
Figure FDA00039941055600000412
Figure FDA00039941055600000413
Figure FDA00039941055600000414
Figure FDA00039941055600000415
Figure FDA00039941055600000416
Figure FDA00039941055600000417
其中,
Figure FDA00039941055600000418
分别为线性矩阵,
Figure FDA00039941055600000419
分别为前项特征图产生采样后的注意力机制中的查询、键、值,
Figure FDA00039941055600000420
分别为后项特征图产生采样后的注意力机制中的查询、键、值;
l.将
Figure FDA00039941055600000421
和/>
Figure FDA00039941055600000422
和第l个可变形互注意力模块注意力机制中的查询、键、值(ql,kl,vl)计算互注意力并进行融合;/>
前后帧之间的互注意力为:
Figure FDA00039941055600000423
Figure FDA00039941055600000424
其中,Fl表示融合后的前项特征图,Bl表示融合后的后项特征图;
m.通过简单通道合并以及卷积层来缩减通道,输出双向对齐的结果;
n.采用上述步骤h-m的方法,直至完成第Ls个可变形互注意力模块的输出,记为
Figure FDA00039941055600000425
8.根据权利要求4所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(5)包括:
步骤(5.1).将步骤(3.2)输出的降采样特征图和步骤(4)输出的集聚全局信息的特征图相加,通过阶段六中的L6个Swin-Transformer块提取局部特征;
步骤(5.2).将步骤(5.1)输出的特征图进行上采样操作;
步骤(5.3).将步骤(2)输出的浅层特征图和步骤(5.2)输出的上采样后的特征图相加,通过阶段七中的L7个Swin-Transformer块提取局部特征,得到上采样后的局部特征图。
9.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(6)包括:
步骤(6.1).将步骤(5)得到的上采样后的局部特征图进行分块,将当前帧的分块结果作为注意力机制中的查询Qi
将当前帧之前的所有帧对应的上采样后的局部特征图
Figure FDA0003994105560000051
进行分块,将当前帧之前的所有帧的分块结果作为注意力机制中的键Ki;其中,/>
Figure FDA0003994105560000052
表示第t帧对应的上采样后的局部特征图;
将当前帧之前的所有帧的对齐后的特征图
Figure FDA0003994105560000053
进行分块,将当前帧之前的所有帧的分块结果作为注意力机制中的值Vi
用位图记录下每个特征图分块在时间轨迹上的坐标位置,得到Qi、Ki、Vi的轨迹表达形式:
Figure FDA0003994105560000054
Figure FDA0003994105560000055
Figure FDA0003994105560000056
其中,
Figure FDA0003994105560000057
表示第t帧中第n个分块的横坐标/>
Figure FDA0003994105560000058
和纵坐标/>
Figure FDA0003994105560000059
Figure FDA00039941055600000510
W为特征图的宽,H为特征图的高;/>
Figure FDA00039941055600000511
表示/>
Figure FDA00039941055600000512
位置对应的特征图/>
Figure FDA00039941055600000513
的分块;/>
Figure FDA00039941055600000514
表示
Figure FDA00039941055600000515
集合中的坐标位置对应的特征图分块,/>
Figure FDA00039941055600000516
表示/>
Figure FDA00039941055600000517
位置对应的特征图/>
Figure FDA00039941055600000518
的分块;N表示特征图的分块数;
步骤(6.2).对于特征图分块
Figure FDA00039941055600000519
和轨迹Ki集合中每一帧对应的分块进行余弦相似度计算,得到余弦相似度;
步骤(6.3).对于特征图中分块的余弦相似度,根据注意力矩阵保留Ki集合中相似度最高的N*β个分块;
步骤(6.4).将Ki集合中相似度最低的N*(1-β)个分块集合
Figure FDA00039941055600000520
制成掩码,并通过softmax函数再一次输出轨迹注意力矩阵/>
Figure FDA0003994105560000061
步骤(6.5).对于特征图中的每一个分块,从轨迹中提取出时间特征信息:
Figure FDA0003994105560000062
其中,
Figure FDA0003994105560000063
表示/>
Figure FDA0003994105560000064
的集合,/>
Figure FDA0003994105560000065
表示/>
Figure FDA0003994105560000066
位置对应的特征图/>
Figure FDA0003994105560000067
[1,i-1]的分块,τn表示当前帧之前的所有帧对应的第n个分块的坐标集合,/>
Figure FDA0003994105560000068
表示当前帧之前的所有帧的分块的坐标集合;
步骤(6.6).将步骤(6.5)输出的特征图
Figure FDA0003994105560000069
通过L7个残差块进行特征校正,得到对齐后的特征图。
10.根据权利要求1所述的一种基于可变形注意力的时空混合视频超分辨率方法,其特征在于,所述的步骤(9)包括:
步骤(9.1).拼接单方向的超分结果和反方向的超分结果,得到通道合并后的超分特征图;
步骤(9.2).通过亚像素卷积层来实现对通道合并后的超分特征图中每一帧超分特征图的上采样,得到上采样特征图;
步骤(9.3).将步骤(9.2)输出的上采样特征图和步骤(1)获取的低分辨率的视频数据流经过双三次插值之后的结果进行相加,从而输出最终的超分结果,得到高分辨率帧图像。
CN202211598046.9A 2022-12-12 2022-12-12 基于可变形注意力的时空混合视频超分辨率方法 Pending CN115861068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211598046.9A CN115861068A (zh) 2022-12-12 2022-12-12 基于可变形注意力的时空混合视频超分辨率方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211598046.9A CN115861068A (zh) 2022-12-12 2022-12-12 基于可变形注意力的时空混合视频超分辨率方法

Publications (1)

Publication Number Publication Date
CN115861068A true CN115861068A (zh) 2023-03-28

Family

ID=85672508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211598046.9A Pending CN115861068A (zh) 2022-12-12 2022-12-12 基于可变形注意力的时空混合视频超分辨率方法

Country Status (1)

Country Link
CN (1) CN115861068A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN116596779B (zh) * 2023-04-24 2023-12-01 天津大学 基于Transformer的Raw视频去噪方法

Similar Documents

Publication Publication Date Title
Liu et al. Video super-resolution based on deep learning: a comprehensive survey
Qin et al. Multi-scale feature fusion residual network for single image super-resolution
CN113362223B (zh) 基于注意力机制和双通道网络的图像超分辨率重建方法
CN108259994B (zh) 一种提高视频空间分辨率的方法
CN110689482B (zh) 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法
CN105741252A (zh) 基于稀疏表示与字典学习的视频图像分级重建方法
CN109035146A (zh) 一种基于深度学习的低质量图像超分方法
Zhu et al. Stacked U-shape networks with channel-wise attention for image super-resolution
CN112102163A (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN115861068A (zh) 基于可变形注意力的时空混合视频超分辨率方法
CN115953582B (zh) 一种图像语义分割方法及系统
CN117274047A (zh) 双路卷积与自注意力结合的红外图像超分辨率重建方法
Wang et al. Multi-frame super-resolution of remote sensing images using attention-based GAN models
Sun et al. Video super-resolution via mixed spatial-temporal convolution and selective fusion
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN113610707A (zh) 一种基于时间注意力与循环反馈网络的视频超分辨率方法
US20240062347A1 (en) Multi-scale fusion defogging method based on stacked hourglass network
CN116385265A (zh) 一种图像超分辨率网络的训练方法及装置
Yeh et al. VDNet: video deinterlacing network based on coarse adaptive module and deformable recurrent residual network
Sun et al. Attention-guided video super-resolution with recurrent multi-scale spatial–temporal transformer
Li et al. Super-resolution of fisheye rectified image based on deep multi-path cascaded network
Hua et al. An Efficient Multiscale Spatial Rearrangement MLP Architecture for Image Restoration
CN116452420B (zh) 一种基于Transformer与CNN分组融合的高光谱图像超分辨方法
Sun et al. Ddan: A Deep Dual Attention Network For Video Super-Resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination