CN115082308A

CN115082308A - 基于多尺度局部自注意力的视频超分辨率重建方法及系统

Info

Publication number: CN115082308A
Application number: CN202210564009.XA
Authority: CN
Inventors: 郭锴凌; 黄寅; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-09-20
Anticipated expiration: 2042-05-23
Also published as: CN115082308B

Abstract

本发明公开了基于多尺度局部自注意力的视频超分辨率重建方法和系统。所述方法包括：S1:构建低分辨率视频帧序列数据集；S2:通过光流预测网络预测低分辨率视频帧序列输入中相邻帧之间的双向光流信息；S3:构建视频超分辨率重建网络，视频超分辨率重建网络包括特征提取模块、多尺度深层特征提取模块和上采样重建模块；S4:基于数据集和所述双向光流信息训练视频超分辨率重建网络；S5:将需要超分辨率重建的视频序列输入到训练后得到的视频超分辨率重建网络中，即可得到超分辨率重建后的视频序列。本发明能够减少网络的整体计算量，并通过光流预测网络强化信息融合，具备良好的重建效果。

Description

基于多尺度局部自注意力的视频超分辨率重建方法及系统

技术领域

本申请属于计算机视觉技术领域，具体涉及一种视频超分辨率重建方法及其系统。

背景技术

视频超分辨率重建技术广泛应用于视频直播、安防监控、卫星遥感等众多场景，具有重大现实意义。随着终端显示设备分辨率的不断提升和视频传输需求的快速发展，现有的海量视频数据亟待寻找一种低成本高效率的重建方案，以期在高分辨率显示设备上获得更好的显示效果。

视频超分辨率重建任务的关键是对视频帧间冗余信息的利用。视频采集设备在时序上的密集采样能够捕捉到物体的亚像素位移，为超分辨率提供了必要的信息。针对视频超分辨率重建的方案有很多，当下主流的解决方案多基于深度学习。主要流程是利用深度学习模型提取视频特征、对齐帧间冗余信息、重建高分辨率视频。处理思路大致划分为滑窗法和循环法。滑窗法将视频重建任务划分为多个多帧重建的子任务，利用多帧低分辨率图像重建出一帧高分辨率图像；循环法一般只需要输入一帧图像，然后参考前序重建图像的输出结果。前者存在冗余计算，但好处是子任务间互不影响。后者效率更高，但存在循环结构差错累积的通病，在针对真实环境的复杂视频的时候性能下降明显。

目前，深度学习中的Transformer结构在自然语言处理领域取得了巨大的成功，在图像的处理分析领域也开始崭露头角。值得注意的是，Transformer结构的自注意力机制也能够很好地契合视频超分辨率任务中融合相似模式的需求。Transformer结构能够长距离聚合特征图的信息，理论上而言，相对于卷积神经网络，Transformer结构的感受野更加大，能够看到更多信息，效果更好。但这需要付出二次计算复杂度和超高内存占用的代价。因此，图像领域会将图块作为计算自注意力的最小单元(token)，而非像素。但是，视频中物体像素的移动并不一定与其所在图块一致，导致无法通过图块级的自注意力融合实现精细的融合。另一方面，为了“看到更多信息”而采用的全局自注意力机制，丢弃了图像数据局部强相关的先验信息，因而额外需要很长的训练时间和参数量重新“学会”这个信息。Cao J等在《Video super-resolution transformer[J].arXiv preprint arXiv:2106.06847,2021》中借鉴Transformer结构，设计了一种基于全局自注意力的视频超分辨率重建网络,称作VSR-Transformer。一方面，该网络采用了全局自注意力，资源占用巨大，所以对输入的待处理视频帧的分辨率有严格约束。在计算全局自注意力之前,需要先将视频帧分割成网络能够处理的最大分辨率，并在该分辨率约束下对分割出来的多个视频帧分别计算全局自注意力，最后将各自的结果拼接在一起。为了防止拼接出现的网格效应，分割视频帧时还需要有部分重叠，这导致大量计算冗余。该网络在计算全局自注意力时，还会再次对满足分辨率约束的视频帧进行分割，将分割得到的小图块作为自注意力的最小单元。另一方面，该网络在处理时维持特征图的空间分辨率不变，不利于应对大幅度光流变化，且计算量需求高。该超分网络虽然能够取得很好的效果，但参数量、计算量庞大，训练所需迭代次数过多、硬件要求高，可操作性不足。

发明内容

针对现有技术的上述不足，本发明提出了一种基于多尺度局部自注意力的视频超分辨重建方法。该方法构建了多尺度深层特征提取模块以减少网络的整体计算量，并基于光流预测网络实现了帧间对齐，强化了局部信息融合。同时，本发明将Transformer结构的自注意力从全局约束到局部，使其能够更加专注于信息相关性更高的局部区域，排除了噪声干扰。

为了实现本发明目的，本发明提供了一种基于多尺度局部自注意力的视频超分辨率重建方法，包括以下步骤：

S1:对高分辨率视频数据进行下采样处理得到对应的低分辨率视频帧序列，对帧序列进行划分，构成训练集和测试集；

S2:通过光流预测网络预测低分辨率视频帧序列输入中相邻帧之间的双向光流信息。

S3:构建视频超分辨率重建网络，视频超分辨率重建网络包括特征提取模块、多尺度深层特征提取模块和上采样重建模块，其中，特征提取模块用于从输入的低分辨率视频帧序列中提取视频帧的浅层特征，多尺度深层特征提取模块用于基于浅层特征得到深层特征图，上采样重建模块用于重建低分辨率视频序列，得到高分辨率视频序列；

S4:基于数据集和所述双向光流信息训练视频超分辨率重建网络；

S5:将需要超分辨率重建的视频序列输入到训练后得到的视频超分辨率重建网络中，即可得到超分辨率重建后的视频序列。

在步骤S1的其中一种实施方式中，对高分辨率视频帧进行下采样，以连续5帧作为一个单位输入。

在步骤S2的其中一种实施方式中，采用预训练的光流预测网络来提取相邻帧间的光流变化。

进一步地，步骤S2中，将低分辨率视频帧序列以正向和反向分别输入光流预测网络，得到双向光流信息flow_forward，flow_backward，flow_forward代表序列中未来时刻指向过去时刻的光流信息，flow_backward则代表过去指向未来的光流信息，并且通过下采样输出多个尺度的光流信息。

进一步地，多尺度深层特征提取模块包括级联的多个编码器和与编码器数量相等的多个解码器，编码器逐步下采样获取多尺度的特征图，而后解码器逐步上采样恢复特征图的大小。

进一步地，编码器和解码器都由局部自注意力模块(Local Self-Attention，LSA)和光流对齐模块(Flow Alignment，FA)级联组成。LSA模块先将输入特征图分割为多个图块，而后将Transformer的自注意力机制的注意力范围约束到局部，融合局部区域内的相似图块；FA模块利用前述光流预测网络提取的相邻帧的双向的光流信息，首先分两条支路分别前向和反向扭曲视频帧，实现相邻帧对齐，然后将对齐的结果分别输入并行的两个残差网络处理，最后通过卷积操作融合。

每个编码器和解码器均包括局部自注意力模块和光流对齐模块，局部自注意力模块中的操作步骤包括：

将输入的视频帧浅层特征图分为p_H×p_W分辨率且不重叠的小图像块，得到：

式中，x_unfold代表分割后的不同时间和空间上的小图像块构成的张量，H，W分别代表高度和宽度，B代表并行处理批次大小，T代表单次输入视频序列长度，C代表通道数；

将相邻小图块划分到数个不重叠的局部窗口，得到：

式中，x_local代表分割后的局部窗口构成的张量，L_T代表时间维度上的窗口范围，L_H、L_W分别代表空间窗口的高度和宽度；

将张量x_local分别输入三个独立的线性层Query，Key，Value，得到三个特征图：

Q＝Query(x_local)，K＝Key(x_local)，V＝Value(x_local)

式中，

且分别代表经过对应线性层线性变换后的特征图，

代表线性变换后的特征图批次大小，N′＝L_T×L_H×L_W表局部窗口内的小图块数目，C′＝C×p_H×p_W代表线性变换后特征图的通道数；

计算局部区域内的小图块自注意力，并融合相似图块：

式中，x_sa代表经过局部自注意力融合后得到的特征图。

将融合后得到的特征图x_sa重组拼接成原来的分辨率，得到恢复分辨率后的特征图x_fold。

进一步地，光流对齐模块包括前向对齐模块和后向对齐模块，光流对齐模块中的操作包括：

利用双向光流信息flow_forward，flow_backward对恢复分辨率后的特征图x_fold分别进行相邻帧对齐操作；

将对齐后的结果分别通过残差模块进行处理；

融合前向对齐模块和后向对齐模块的结果。对齐操作warp通过反向对齐实现。

进一步地，步骤S4包括以下子步骤：

步骤S41：从训练集中抽取多组低分辨率视频序列样本和对应的原始高分辨率视频序列样本作为单次的训练数据；

步骤S42：将从训练集中采样得到的低分辨率视频序列以及所述双向光流信息输入至视频超分辨率重建网络中进行训练，并利用损失函数计算重建得到的高分辨率视频帧和对应的真实视频帧样本之间的差异，根据差异调整网络参数，直至视频超分辨率重建网络收敛。

S4中所述损失函数为：

其中，N代表每一步训练时采样的样本数目，I(x，y，c)代表对应的高分辨率图像的强度值，

代表重建图像中的x行y列c通道的强度值，H代表视频帧的高度，W代表视频帧的宽度，ε为一个小常数，防止计算结果为0。

进一步地，利用峰值信噪比(PSNR)评判重建效果。峰值信噪比表示信号最大可能功率与噪声功率之间的比值，常用作信号重建质量的客观评估指标。峰值信噪比的值越大，表明重建的效果越好。

其中n代表色彩通道强度的表示位数。PSNR代表峰值信噪比的值，单位是dB。

本发明还提供基于多尺度局部自注意力的视频超分辨率重建系统，包括：

光流信息预测模块，用于通过光流预测网络预测低分辨率视频帧序列输入中相邻帧之间的双向光流信息；

视频超分辨率重建网络训练模块，用于基于数据集和所述双向光流信息训练视频超分辨率重建网络；

重建模块，用于将需要超分辨率重建的视频序列输入到训练后得到的视频超分辨率重建网络中，即可得到超分辨率重建后的视频序列。

本发明所构思的上述技术方案，至少能够取得以下有益的效果：

1.本发明中提及的编码器和解码器组成的多尺度深层特征提取模块中逐步下采样的过程同时也在逐步提高网络的感受野，强化了网络捕捉帧间不同幅度的光流变化的能力，提升了网络的性能。同时特征图大小下降也大大降低了网络的计算量。

2.本发明采用的将自注意力限制在局部的方法，一则能够为网络加入图像数据中存在的局部强相关的先验信息，加速了网络模型的收敛速度，提高了网络性能；二则能够避免自注意力机制本身存在的二次复杂度所带来的大量计算量和内存占用。采用局部自注意力能够实现对视频帧的整体重建，也即网络不需对输入的待处理视频序列的分辨率进行严格约束，在计算自注意力之前不需要对视频帧进行分割。该操作避免了视频帧分割处理带来的潜在网格效应以及为了弥补而引入的冗余计算。

3.本发明采用的像素级的光流对齐模块能够更加细粒度地实现帧间对齐，从而解决将图块作为自注意力最小单元带来的拼接问题。

附图说明

图1为本发明实施例提供的流程示意图；

图2为本发明实施例提供的整体网络结构示意图；

图3为本发明实施例中局部自注意模块的示意图；

图4为本发明实施例中光流对齐(FA)模块示意图；

图5-1和图5-2是本发明方法与现有技术的视频重建结果对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

请参阅图1，本发明提供的一种基于多尺度局部自注意力的视频超分辨率重建方法，包括的步骤如下：

步骤S1:制作超分辨率重建数据集。

本发明中，制作数据集的具体步骤包括：

步骤S11:给定高分辨率视频数据，从多个原始高分辨率视频中截取高分辨率视频序列；

步骤S12:对高分辨率视频序列进行下采样得到低分辨率视频序列，使原图像在空间上缩小4倍，然后取10％低分辨率视频序列划分为测试集，其余90％划分为训练集。

在本发明的其中一些实施例中，低分辨率视频帧序列由中心帧和前后相邻的若干辅助帧构成。

在本发明的其中一些实施例中，具体采用双三次下采样来得到低分辨率视频序列，当然，在其他实施例中，也可以采用其他的下采样方法。

步骤S2：预采集帧间光流信息。将低分辨率视频序列输入光流预测网络，通过光流预测网络预测低分辨率视频帧序列中相邻帧之间的双向光流信息。

在本发明的其中一些实施例中，采用光流预测网络SPyNet进行预测，光流预测网络SPyNet为现有网络(Ranian A，Black M J.Optical flow estimation using a spatialpyramid network[C]//Proceedinigs of the IEEE conference on computer visionand pattern recognition.2017：4161-4170)，初始化预训练光流预测网络SPyNet，该网络的主体是卷积神经网络，能够预测任意两相邻视频帧之间的像素移动，并将结果以通道数为2的特征图形式输出。这两个通道分别代表二维平面上的横向和纵向运动，代表两相邻帧之间的光流信息。将低分辨率视频帧序列以正向和反向分别输入该网络，得到双向光流信息flow_forward，flow_backward。flow_forward代表序列中未来时刻指向过去时刻的光流信息，flow_backward则代表过去指向未来的光流信息。然后，下采样改变光流信息，也即输出特征图的空间分辨率，得到多个尺度的光流信息。将此步得到的光流信息保存用作后续训练使用。

步骤S3：构建视频超分辨率重建网络，视频超分辨率重建网络包括特征提取模块、多尺度深层特征提取模块和上采样重建模块。其中，特征提取模块用于从输入的低分辨率视频帧序列中提取视频帧的浅层特征；多尺度深层特征提取模块用于基于浅层特征得到深层特征图；上采样重建模块用于重建低分辨率视频序列，得到高分辨率视频序列。具体地，上采样重建模块将未经处理的原始低分辨率视频序列的中心帧图通过双线性插值×4上采样，将深层特征图通过卷积层改变通道数至与上采样中心帧一致，再通过PixelShuffle×4上采样，最后将中心帧和深层特征图二者相加得到重建结果。

本发明中，多尺度深层特征提取模块包括级联的多个编码器和与编码器数量相等的多个解码器，编码器逐步下采样获取多尺度的特征图，而后解码器逐步上采样恢复特征图的大小。同时，解码器融合编码器输出的同尺度特征图，上采样后作为下一级的解码器的输入。其中，每个编码器和解码器均包括局部自注意力模块和光流对齐模块。

具体地，图2所示，为本发明涉及的视频超分辨率重建网络的整体结构，包括特征提取模块、多尺度深层特征提取模块和上采样重建模块。

设输入的低分辨率视频帧序列

B代表并行处理批次大小，T代表单次输入视频序列长度，C代表通道数，H，W分别代表高度和宽度。本实施例中，T＝5，C＝3，H＝64，W＝64。

特征提取模块包括残差网络，利用残差网络初步提取输入的低分辨率视频序列的特征信息，并提高输入的通道数目至64，得到浅层特征图。然后将浅层特征图输入到多尺度深层特征提取模块中，先逐步下采样而后逐步上采样恢复分辨率。

在本发明的其中一些实施例中，多尺度深层特征提取模块包括6个由局部自注意力(LSA)模块和光流对齐(FA)模块级联组成的相同的处理单元，且每个处理单元会根据所在位置增加上采样或者下采样操作。该6个处理单元中，按特征图流向顺序，前3个均为编码器，后3个均为解码器。编码器还会对输入的特征图进行下采样，达到编码的效果。该举措能够减少重建时的噪声。解码器则还会对输入特征图进行上采样，恢复特征图的分辨率，以达到输出分辨率的要求。如图2所示，深层的处理单元会先融合浅层的处理单元的输出结果，而后上采样作为下一级处理单元的输入。更进一步，上述融合操作通过3×3卷积层实现。

在本发明的其中一些实施例中，多尺度深层特征提取模块中的上采样利用PixelShuffle[Shi W，Caballero J，Huszár F，et al.Real-time single image andvideo super-resolution using an efficient sub-pixel convolutional neuralnetwork[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016：1874-188]方法实现。该方法首先利用卷积层将特征图的通道数目提升至4倍，而后将通道内的信息重排到空间维度，实现×4上采样；下采样利用步长为2的3×3卷积层实现。

本发明中，请参阅图3，局部自注意力(LSA)模块的操作包括：

首先将输入的视频帧浅层特征图分为p_H×p_W分辨率且不重叠的小图像块，得到：

其中x_unfold代表分割后的不同时间和空间上的小图像块构成的张量。

在本发明的其中一些实施例中，p_H＝p_W＝8，分割的操作通过Pytorch的unfold函数实现。

其次，用相同的操作将相邻小图块划分到数个不重叠的局部窗口，得到：

其中x_local代表分割后的局部窗口构成的张量，L_T代表时间维度上的窗口范围，L_H、L_W分别代表空间窗口的高度和宽度。在本发明的其中一些实施例中，L_T＝3，L_H＝4，L_W＝4，表示在时间维度上取相邻3个小图块，空间维度上取4×4范围内的小图块构建窗口。

再次，将张量x_local分别输入三个独立的线性层Query，Key，Value，得到三个特征图：

Q＝Query(x_local)，K＝Key(x_local)，V＝Value(x_local)

其中

且分别代表经过对应线性层线性变换后的特征图，

代表线性变换后的特征图批次大小，N′＝L_T×L_H×L_W表局部窗口内的小图块数目，C′＝C×p_H×p_W代表线性变换后特征图的通道数。

随后，计算局部区域内的小图块自注意力，并融合相似图块。如图3所示，在本发明的其中一些实施例中，还采用了多头注意力机制，该方法会计算多组Q，K，V，通过卷积融合多个注意力头的结果。

其中x_sa代表经过局部自注意力融合后得到的特征图。

随后利用fold操作将x_sa重组拼接成原来的分辨率，并通过3×3卷积得到x_fold。此处卷积操作能够一定程度上平滑拼接带来的边界不一致的问题。

其中

代表恢复分辨率后的特征图。

为了防止训练时数值差异过大导致梯度无法正常传递，需要对特征图的H和W维度进行LayerNorm归一化操作。最后将归一化后的特征图与输入相加得到局部自注意模块的输出。

具体地，光流对齐(FA)模块如图4所示。根据光流对齐的方向，光流对齐模块包括前向对齐模块和后向对齐模块。首先，利用上述步骤获取的双向光流信息flow_forward，flow_backward对恢复分辨率后的特征图x_fold分别进行相邻帧对齐操作。在本实施例中，为了避免空洞效应，对齐操作warp实际通过反向对齐实现。

x_{forwara_align}＝warp(x_fold，flow_forward)

x_{backward_align}＝warp(x_fold，flow_backward)

warp操作示例：输入的光流信息指示了A帧内所有像素对齐到B帧的所需的移动。一般情况下应当将A帧内像素坐标加上像素移动，得到A帧向B帧对齐的结果。但是，因为遮挡或者视角变换等原因，A帧的多个像素可能需要对齐到B帧中相同的位置，导致B帧中部分位置没有对应的像素。所以操作上，实际会利用B帧反向对齐到A帧，以避免出现空洞。

x_{forwara_align}由前向对齐模块得到，代表从视频序列的未来时刻向过去时刻对齐的特征图。x_{backward_align}则由后向对齐模块得到，代表从过去向未来对齐的特征图。

随后，为了防止双向光流信息因为视频内物体的遮挡等原因出错，进而令对齐操作失败，对齐之后的结果x_{forwara_align}，x_{backwara_align}还需要分别通过由数个残差层构成的残差模块处理，得到修正后的前后向对齐结果。最后由卷积层融合前向和后向对齐的结果，融合操作能够综合前后向的信息，让对齐的结果更加精确。同样为了训练时不出现梯度消失等异常现象，本模块也采用了与LSA模块相同的归一化操作。

步骤S4：基于数据集和所述双向光流信息训练视频超分辨率重建网络。

本发明中，步骤S4包括以下子步骤：

步骤S41：从训练集中抽取多组低分辨率视频序列样本和对应的原始高分辨率视频序列样本作为单次的训练数据。

在本发明的其中一些实施例中，从训练集中随机抽取以5帧为一组的数组低分辨率视频序列样本和对应的原始高分辨率视频序列样本作为单次的训练数据。本实施例还将训练数据裁剪为64×64分辨率大小，并进行随机旋转、翻转操作。

步骤S42：将从训练集中采样得到的低分辨率视频序列以及步骤S2中预先计算的双向光流信息输入至视频超分辨率重建网络中进行训练，并利用损失函数计算重建得到的高分辨率视频帧和对应的真实视频帧样本之间的差异，根据差异调整网络参数，直至视频超分辨率重建网络收敛。

在本发明的其中一些实施例中，所述损失函数为：

在本发明的其中一些实施例中，采用峰值信噪比(PSNR)来评判重建效果，峰值信噪比表示信号最大可能功率与噪声功率之间的比值，用于本申请信号重建质量的客观评估指标。峰值信噪比的值越大，表明重建的效果越好。网络收敛时峰值信噪比PSNR上升幅度趋于平稳。

步骤S5:利用训练完成的视频超分辨率重建网络重建低分辨率视频序列。将需要超分辨率重建的视频序列输入到视频超分辨率重建网络中，即可得到超分辨率重建后的视频序列。

本发明还提供用于实现前述方法的系统。

基于多尺度局部自注意力的视频超分辨率重建系统，包括：

为了验证本发明实施例提出方法的有效性，表1对比了本实施例与背景技术提及的VSR-Transformer方法。从表1可见，本发明方法与VSR-Transformer方法相比，峰值信噪比仅仅下降了0.26dB，但所需的参数量仅为后者的54.6％，计算量为后者的47.0％。图5-1和5-2则从视觉角度对二者进行了对比，从视觉角度来看，本发明实施例提供的方法能够获得良好的重建效果。

表1.在REDS4数据集上4×SR任务参数量、计算量、性能指标对比

	VSR-Transformer方法	本发明方法
			Params(M)	32.6	17.8
FLOPs(G)	570	268
			PSNR(dB)	31.19	30.93

其中Params代表模型参数量，M代表10⁶；FLOPs代表浮点运算数，用于指示计算量，G代表10⁹；PSNR代表峰值信噪比。Nah S等人在《Ntire 2019challenge on videodeblurring and super-resolution:Dataset and study[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern RecognitionWorkshops.2019:0-0.》提出了REDS4数据集。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于多尺度局部自注意力的视频超分辨率重建方法，其特征在于，包括以下步骤：

S1:构建低分辨率视频帧序列数据集，并划分为训练集和测试集；

S2:通过光流预测网络预测低分辨率视频帧序列输入中相邻帧之间的双向光流信息；

2.根据权利要求1所述的基于多尺度局部自注意力的视频超分辨率重建方法，其特征在于，步骤S2中，将低分辨率视频帧序列以正向和反向分别输入光流预测网络，得到双向光流信息flow_forward，flow_backward，flow_forward代表序列中未来时刻指向过去时刻的光流信息，flow_backward则代表过去指向未来的光流信息，并且通过下采样输出多个尺度的光流信息。

3.根据权利要求1所述的基于多尺度局部自注意力的视频超分辨率重建方法，其特征在于，多尺度深层特征提取模块包括级联的多个编码器和与编码器数量相等的多个解码器，编码器逐步下采样获取多尺度的特征图，而后解码器逐步上采样恢复特征图的大小。

4.根据权利要求3所述的基于多尺度局部自注意力的视频超分辨率重建方法，其特征在于，每个编码器和解码器均包括局部自注意力模块和光流对齐模块，局部自注意力模块中的操作步骤包括：