CN112991183A

CN112991183A - 一种基于多帧注意力机制渐进式融合的视频超分辨率方法

Info

Publication number: CN112991183A
Application number: CN202110381167.7A
Authority: CN
Inventors: 刘文顺; 王恺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-06-18
Anticipated expiration: 2041-04-09
Also published as: CN112991183B

Abstract

本发明公开了一种基于多帧注意力机制渐进式融合的视频超分辨率方法，首先对视频数据集进行抽帧以生成训练集；然后连接多帧注意力机制渐进式融合模块、特征提取模块和重建模块来搭建视频超分网络，再利用低冗余度训练策略在训练集上对网络进行训练，即只对目标帧进行学习，前后帧仅作为辅助信息而不再作为目标帧进行训练，大大提高了学习效率；最后使用训练得到的视频超分模型对待放大的视频进行重建，最终得到高分辨率视频。本发明可以充分利用前后帧的信息来帮助目标帧重建，有效提高视频超分辨率效果。

Description

一种基于多帧注意力机制渐进式融合的视频超分辨率方法

技术领域

本发明涉及基于深度学习的图像超分辨率(SISR)技术、视频超分辨率(VSR)技术领域，特别是一种基于多帧注意力机制渐进式融合的视频超分辨率方法。

背景技术

基于深度学习的图像超分辨率(SISR)技术，主要以卷积神经网络(CNN)为学习模型，通过大量数据学习低分辨率图像缺失的纹理细节等高频信息，实现低分辨率图像到高分辨率图像端到端的转换。相比传统的插值方法，深度学习的方法表现出很大的优势，在PSNR、SSIM等效果评价指标上实现了显著的提升，近年来涌现出了一大批优秀的基于深度学习的图像超分辨率算法。

Dong等人2014年提出的SRCNN是第一个基于卷积神经网络的图像超分辨率算法，将深度学习引入到图像超分领域，利用三个卷积层完成图像块提取、非线性映射和图像重建等操作，训练了一个端到端的图像超分辨率模型，即输入一个低分辨率图像可以输出对应高分辨率图像的估计，虽然网络只有三层，但相比于传统的插值方法，SRCNN输出的高分辨率图像更清晰。然而SRCNN在预处理时需要先对低分辨率图像通过双三次(Bicubic)插值，放大得到目标图像大小后作为网络的输入，即在高维度空间进行学习，计算复杂度比较高。于是SRCNN的作者Dong又提出了FSRCNN，将网络最后一层改为反卷积(Deconvolution)层，这样网络就可以直接从原始的低分辨率图像直接进行学习，并且使用了更小的卷积核但是了更多的映射层，减少学习的参数，极大的提升了学习效率。除了使用反卷积的方法，ESPCN给出了另一种避免在高维空间学习的方法，即亚像素卷积层(Sub-pixelConvolution)，输入为原始的低分辨率图像(H×W×C)，上一层的卷积层不改变图像大小但通道数变为r²C(r为放大倍数，此时特征图为(H×W×r²C)，在网络最后一层才对特征图进行放大，即将学习到的特征图重新排列得到高分辨率图像(rH×rW×C)，通过使用亚像素卷积层，图像从低分辨率到高分辨率放大的插值函数被隐含地包含在前面的卷积层中，可以自动学习到，而前面的卷积运算都在低分辨率图像上进行，因此大大降低了计算复杂度，之后的图像超分辨率方法图像重建环节基本都是采用亚像素卷积操作。

在深度学习中，网络越深一般拟合能力越强，但是随着网络的加深会带来梯度消失或梯度爆炸等问题，训练比较困难，为了搭建更深的网络，VDSR将残差学习引入超分领域，并使用梯度裁剪来解决网络加深带来的训练难的问题，将网络增加到20层卷积层，每层卷积滤波器尺寸较小数量较多，能够增加图像局部感受野，超分效果得到了进一步提升。在RCAN中，Yulun Zhang等人提出了一种基于通道注意力机制(Channel Attention)的残差结构，将注意力机制引入到残差块中，来捕获通道间的相互联系，对不同通道特征区别对待，进一步增强了网络的特征学习能力，并且RCAN采用分组的形式，利用长、短跳跃连接让网络更加专心学习高频信息而让大部分冗余的低频信息从旁路通过，提高了网络的学习效率，RCAN将网络深度提高到了近1000层，获得了更好的超分辨率效果和精度。

尽管上述图像超分辨率方法可以用来处理视频超分辨率任务，但是它们只考虑了单张图像里的自然先验和自我相似性，忽略了视频序列里丰富的时序信息，因此直接使用图像超分辨率来对视频进行超分显得并不够高效。基于在实际生活中高质量视频的大量需求(如高清电视、网络视频、视频监控等)，视频超分辨率算法发挥着越来越大的作用，但目前视频超分辨率的效果在视觉质量和计算复杂度方面还不够令人满意。对于视频超分辨率任务，由于要考虑前后帧的时序信息，时间对齐和融合起着十分关键的作用，如何有效地融合相邻帧的信息成为了大家的关注点，根据聚合方式的不同可将目前的视频超分辨率方法分为三类：

第一类方法是没有对视频序列进行任何精确的对齐，比如直接采用3D卷积直接从多帧图片里提取特征。这种方法虽然简单，但是计算复杂度很大，训练成本很高。

第二类方法是利用光流去补偿帧间的运动信息来处理时间对齐问题。然而，这种方法需要处理估计光流信息和高分辨率图像重建这两个相对独立的问题，其中光流的估计精度严重影响着视频重建质量，而光流估计本身也是个具有挑战性的任务，尤其在大运动场景情况下精确的流信息是很难估计的。

第三类方法则是采用可变形卷积(Deformable Convolution)网络来处理视频超分辨率任务，比如在DUF和TDAN中通过隐藏的运动补偿来解决光流估计问题并且效果超越了基于流信息估计的方法，但这类方法所用的可变形卷积对输入比较敏感，容易因为不合理的偏置生成明显的重建伪影。

可见，现有的视频超分辨率方法均存在着不足之处，如何有效提高视频超分效果及效率是目前需要解决的技术问题。

发明内容

本发明的目的在于解决现有技术的不足，提出一种基于多帧注意力机制渐进式融合的视频超分辨率方法，可以充分利用前后帧的信息来帮助目标帧重建并且没有使用计算复杂度较高的3D卷积，有效提高了视频超分辨率效率和增强了图片的重建效果。

本发明的目的通过下述技术方案实现：一种基于多帧注意力机制渐进式融合的视频超分辨率方法，包括如下步骤：

S1、对视频数据集进行抽帧处理，得到训练集；

S2、将多帧注意力机制渐进式融合模块、特征提取模块以及重建模块连接，从而搭建得到初始网络；

S3、利用低冗余度训练策略对初始网络进行训练，即只对训练集中的目标帧进行学习，训练集中目标帧的前、后帧仅作为辅助信息不再作为目标帧进行训练，训练完成后得到视频超分辨率模型；

其中，多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合，融合后得到的特征图作为特征提取模块的输入，特征提取模块提取出特征图的特征并输入到重建模块，重建模块输出像素重排列后的图像；

S4、对于待放大的低于目标分辨率的低分辨率视频，使用训练好的视频超分辨率模型对该视频的每一帧进行重建，最终生成放大若干倍数后达到目标分辨率的高分辨率视频。

优选的，在步骤S1中，将达到目标分辨率的高分辨率视频、低于目标分辨率的低分辨率视频的全部帧保留，每一张低分辨率视频图像都有对应的一张视频内容相同的高分辨率视频图像，构成初始训练集；初始训练集共有N对图像：{(x_1L,x_1H),(x_2L,x_2H),…,(x_NL,x_NH)}，其中，x_NL代表第N对图像中的低分辨率视频图像；x_NH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像，N是正整数；

在训练初始网络之前，低分辨率视频不需要抽帧，即将初始训练集中的低分辨率视频的全部帧都保留，而对应的高分辨率视频图像，从第

帧开始，从每M帧抽取出一帧中间帧，M为大于2的正奇数，使得每M帧连续的低分辨率视频图像对应一帧从每M帧抽取出来的高分辨率视频图像，最终整个训练集的输入形式为：

其中，每M帧连续的低分辨率视频图像作为多帧注意力机制渐进式融合模块的输入，且多帧注意力机制渐进式融合模块以M帧中的中间帧即第

帧作为目标帧进行重建，目标帧的前

帧、后

帧作为辅助帧，用于帮助目标帧重建；

为向上取整函数，

为向下取整函数；对应的一帧高分辨率视频图像作为目标帧的标签。

更进一步的，多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合的过程如下：

(1)根据前

帧、后

帧与目标帧的时序距离，将前

帧和后

帧进行分组，即分为

和

和

和

共

组，t表示目标帧的帧序号；

(2)根据时序距离的远近将目标帧与前、后帧进行融合：

首先将距离目标帧最近的

和

与目标帧

通过多帧注意力机制进行第一次融合：

其中，H_conv、H_MFAB分别代表卷积操作和多帧注意力机制；

然后将得到的特征图

与

通过多帧注意力机制进行第二次融合：

以此类推，再将第

次融合得到的特征图

与

和

通过多帧注意力机制进行第

次融合，得到最终的

即是融合了目标帧前、后各

帧信息的特征图。

更进一步的，多帧注意力机制的处理过程如下：

首先，将需要融合的3个特征图分别转换成一个一维向量，即特征图F的维度由3×H×W×C变为3×HWC：

F＝H_reshape(F_t-1,F_t,F_t+1)

其中，H_reshape表示变形操作，用一个一维向量来代表每一帧的信息压缩；H表示特征图的高；W表示特征图的宽；C表示特征图的通道数；

然后，将F和它的转置矩阵F^T进行相乘，并在横向维度上使用softmax函数处理得到3×3的相关系数矩阵：

M_correlation＝f_softmax(F×F^T)

其中，f_softmax代表softmax函数，对于相关系数矩阵M_correaltion里的每一个相关系数w_ij：

式中，F×F^T是3×3的矩阵，i、j分别是该矩阵某个位置的横坐标和纵坐标；这里其实就是对矩阵每一行做归一化处理，相关系数矩阵代表了原始多帧输入之间的相关性，即时间维度上的注意力；

接着，将相关系数矩阵M_correaltion和特征图F相乘得到3×HWC的特征矩阵，经变形后和原始的特征图进行相加，最后变成H×W×3C的特征图

更进一步的，初始网络训练过程中使用L1损失函数和L2损失函数作为目标函数：

其中，I^SR表示网络生成的高分辨率图像；I^HR表示真实的高分辨率图像，也即标签；在训练开始阶段使用L1损失函数进行学习，等到网络接近收敛的时候再使用L2损失函数继续优化，以使模型收敛到更优的值。

更进一步的，在步骤S4中，低分辨率视频的每一帧均作为目标帧，当视频头部的

帧和尾部的

帧作为目标帧时，还需要进行补帧处理，具体是将离补帧位置最近的图像作为该补帧位置的值；

补帧处理后，原低分辨率视频的每一帧在作为目标帧时都能够组成M帧的输入形式。

优选的，特征提取模块以通道注意力机制残差块作为基本单元；在特征提取模块中，每B个通道注意力机制残差块依次连接来组成一个残差组，一共组成G个残差组，每个残差组的输入与输出进行跳跃连接；G个残差组依次堆叠，且第一个残差组的输入与最后一个残差组的输出进行跳跃连接。

更进一步的，特征提取模块中的通道注意力机制残差块的处理过程如下：

假设输入的特征图为X∈R^H×W×C，首先经过通道注意力机制残差块原来的卷积、ReLU得到特征图F′：

F′＝W_3×3(δ(W_3×3X))

其中，W_3×3代表卷积操作，δ代表ReLU函数；H表示特征图的高；W表示特征图的宽；C表示特征图的通道数；

接着，通道注意力机制先在空间维度对特征图F′的通道信息进行压缩，得到每个特征通道的描述，具体是采用全局平均池化来完成：

其中，F′_c(i,j)代表特征图F′的第c个特征通道在位置(i,j)处值，H_GP()代表全局平均池化函数，得到的z_c作为第c个特征通道信息的一个表征；

然后使用一种Sigmoid形式的门机制将上一步得到的通道全局描述生成每个通道的注意力信息表示F′_s：

F′_s＝f_sigmoid(W_Uδ(W_Dz))

其中，z代表平均池化后的通道描述，形状为1×1×C；W_D代表

的卷积核，即对z的通道数下采样转换为

的形式，r为下采样倍数；δ代表非线性激活函数ReLU；W_U代表1×1×C的卷积核，即对通道上采样转换为形状1×1×C的形式，其实就是将通道数目恢复到原来的大小；f_sigmoid代表Sigmoid函数，能够将输入映射到0、1之间，这里作为每个通道的注意力系数；

最后将得到的通道注意力表示F′_s乘以特征图F′并加上输入X得到最终的输出Y：

Y＝F′_sF′+X。

优选的，重建模块由相连接的亚像素卷积层和卷积层构成。

优选的，在步骤S1中，利用ffmpeg工具对视频数据集进行抽帧处理；

在步骤S4中，利用ffmpeg工具将低分辨率视频所有帧的重建结果编码成视频的形式，得到最终的高分辨率视频。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明针对目前基于深度学习的视频超分辨率技术中存在的计算复杂度高、时间对齐和视频帧融合困难的问题，提出一种基于多帧注意力机制渐进式融合的视频超分辨率方法，多帧注意力机制可以使网络充分学习多帧输入之间的时间相关性，即对前后帧学习不同的权重，从而实现融合时对前后帧的区别对待，使得前后帧的信息更好地和目标帧进行融合。而渐进式的融合方式可以使前后帧的有用信息更高效地聚合到目标帧，降低融合难度。网络训练时使用了一种低冗余度的训练策略来提高学习效率，加速网络的收敛，进一步增强了超分效果和提高了超分效率。

(2)本发明多帧注意力机制渐进式融合模块将时间注意力机制引入视频超分辨率任务中，利用时序距离对输入的连续帧进行分组实现渐进式地融合，这样可以让网络集中注意力学习重要的信息，忽略对目标帧重建没有帮助的冗余信息。

(3)本发明特征提取模块以通道注意力机制残差块作为基本单元，既可以方便地插入到卷积神经网络中，堆叠成较深的模型结构，且可以通过通道注意力机制实现区别对待特征通道间的信息，更多地关注更有用的特征通道。

(4)本发明重建模块采用亚像素卷积层，不涉及到卷积运算，可实现高效、快速、无参的像素重排列的上采样操作，进而可以提高图像重建效率。

附图说明

图1为本发明基于多帧注意力机制渐进式融合的视频超分辨率方法的流程图。

图2为视频超分辨率模型的示意图。

图3为特征提取模块的示意图。

图4为多帧注意力机制渐进式融合模块的融合过程示意图。

图5为多帧注意力机制的示意图。

图6为通道注意力机制残差块的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例提供了一种基于多帧注意力机制渐进式融合的视频超分辨率方法，如图1所示，包括如下步骤：

S1、视频解码：利用ffmpeg工具对视频数据集进行抽帧并保存为图片，以生成训练集。

这里，视频数据集含有视频内容相同的高分辨率视频和低分辨率视频，高分辨率视频是指达到目标分辨率的视频，低分辨率视频是指低于目标分辨率的视频。

将高、低分辨率视频的全部帧保留，每一张低分辨率视频图像都有对应的一张高分辨率视频图像，构成初始训练集；初始训练集共有N对图像：{(x_1L,x_1H),(x_2L,x_2H),…,(x_NL,x_NH)}，其中，x_NL代表第N对图像中的低分辨率视频图像；x_NH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像，N是正整数。高分辨可以是低分辨率的2倍、4倍、8倍等，为方便描述，假设目标分辨率为低分辨率的4倍，本实施例方法以分辨率增大4倍为例进行说明。

为方便后续的低冗余度训练，在训练之前，低分辨率视频不需要抽帧，即将初始训练集中的低分辨率视频的全部帧都保留，而对应的高分辨率视频图像，从第4帧开始，从每7帧抽取出一帧中间帧，使得每7帧连续的低分辨率视频图像与每7帧中的第4帧高分辨率视频图像相对应，最终整个训练集的输入形式为：

{([x_1L,x_2L,x_3L,x_4L,x_5L,x_6L,x_7L],x_4H),([x_8L,x_9L,x_10L,x_11L,x_12L,x_13L,x_14L],x_11H),...}

其中，每7帧连续的低分辨率视频图像作为多帧注意力机制渐进式融合模块的输入，且多帧注意力机制渐进式融合模块以7帧中的中间帧即第4帧作为目标帧进行重建，目标帧的前3帧、后3帧作为辅助帧，用于帮助目标帧重建；对应的一帧高分辨率视频图像作为目标帧的标签。

当然，为方便后续验证网络模型效果，本实施例还可以利用视频数据集生成验证集，验证集视频不需抽帧处理，验证集也含有多对高分辨率视频图像和低分辨率视频图像。

S2、搭建网络：将多帧注意力机制渐进式融合模块、特征提取模块以及重建模块连接，从而搭建得到初始网络，可参见图2。

为了搭建更深的网络结构，本实施例特征提取模块(Feature Extractor)是通过分组的形式来搭建的。如图3所示，每B个(B为大于1的正整数)通道注意力机制残差块(Residual Channel Attention Block,RCAB)组成一个残差组(Residual Group,RG)，一共组成G个(G为大于1的正整数)残差组，每个残差组的输入与输出进行跳跃连接。G个RG依次堆叠来形成较深的特征提取模块，且第一个残差组的输入与最后一个残差组的输出进行跳跃连接，使得随着网络加深时也能够利用上浅层学习到的特征，进而提高学习效率。

重建模块(Upscale Module)由相连接的亚像素卷积层(Sub-Pixel Convolution)和卷积层构成。虽然称为亚像素卷积，但是实际上并不涉及到卷积运算，是一种高效、快速、无参的像素重排列的上采样方式，这种方式只需要保证在模型倒数第二层学习对应的通道数为r²C(此时特征图形状为H×W×r²C)，其中r为放大倍数，C为最终的通道数，如输出是RGB图，则C为3，最后对这些特征通道的像素重新排列就可以得到放大r倍的高分辨率图像(rH×rW×C)，像素重排列的方式是每连续r²个通道的像素点重新排列成rH×rH的形状。

S3、模型训练：利用低冗余度训练策略对初始网络进行训练，即只对训练集中的目标帧进行学习，训练集中目标帧的前、后帧仅作为辅助信息不再作为目标帧进行训练，训练网络的目的就是让生成的图像尽可能和标签图像一样，训练完成后得到视频超分辨率模型。

这种低冗余度训练策略可以提高网络的表征能力和学习效率。这是因为视频相邻帧之间的冗余度通常是很高的，若对每一帧都进行学习的话，会影响网络的学习效果，达到局部收敛，为了使得网络能够学习到最有代表性的特征，避免重复学习一些相同的特征，在训练时只使用前后帧来辅助目标帧重建，而不再将前后帧作为目标帧进行学习，而在实际应用时才需要将每一帧当作目标帧来处理。

这里，多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧图像与其前、后帧进行融合，融合后得到的特征图作为特征提取模块的输入，特征提取模块提取出特征图的特征并输入到重建模块，重建模块输出像素重排列后的图像。

在本实施例中，为了充分利用相邻帧之间的时序信息，多帧注意力机制渐进式融合模块采用连续7帧图片作为输入，中间帧

为目标帧，前三帧和后三帧用于帮助目标帧重建。如图4所示，多帧注意力机制渐进式融合模块的融合过程具体如下：

(1)为了更好的融合前后帧的运动信息，采用渐进式的融合方式来吸收前后帧的信息，将前3帧和后3帧根据与目标帧的时序距离进行分组，即分为

和

和

和

共3组，t表示目标帧的帧序号；

(2)根据时序距离的远近将目标帧与前、后帧进行融合：

首先将距离目标帧最近的

和

与目标帧

通过多帧注意力机制(MFAB)进行第一次融合：

其中，H_conv、H_MFAB分别代表卷积操作和多帧注意力机制；

然后将第1次融合得到的特征图

与

通过多帧注意力机制进行第二次融合：

再将第2次融合得到的特征图

与

和

通过多帧注意力机制进行第3次融合，得到最终的

即是融合了目标帧前、后各3帧信息的特征图，将作为后续特征提取模块的输入。

其中，多帧注意力机制可参见图5，其处理过程具体是：

1)首先，将需要融合的3个特征图分别转换成一个一维向量，即特征图F的维度由3×H×W×C变为3×HWC：

F＝H_reshape(F_t-1，F_t，F_t+1)

H_reshape表示变形操作，用一个一维向量来代表每一帧的信息压缩；H表示特征图的高；W表示特征图的宽；C表示特征图的通道数。

2)然后，将F和它的转置矩阵FT进行相乘，并在横向维度上使用softmax函数处理得到3×3的相关系数矩阵：

M_correlation＝f_softmax(F×F^T)

f_softmax代表softmax函数，对于相关系数矩阵M_correaltion里的每一个相关系数W_ij：

式中，F×F^T是3×3的矩阵，i、j分别是该矩阵某个位置的横坐标和纵坐标，这里其实就是对矩阵每一行做归一化处理。这里得到的相关系数矩阵代表了原始多帧输入之间的相关性，即时间维度上的注意力。

3)接着，将相关系数矩阵M_correaltion和特征图F相乘得到3×HWC的特征矩阵，经变形后和原始的特征图进行相加，最后变成H×W×3C的特征图

融合完成：

上述三次融合过程中使用的多帧注意力机制其实是一种时间注意力机制。由于不同帧包含的信息有差异，对目标帧重建起的作用也不同，因此应该对这些帧有区别地进行学习，保留更多对目标帧重建有用的关键信息，而忽略那些不重要的信息，提高学习效率。本实施例的多帧注意力机制渐进式融合模块将时间注意力机制引入视频超分辨率任务中，对输入的多帧图像按权重进行融合，权重系数通过学习的方式得到，这样可以让网络集中注意力学习重要的信息，忽略对目标帧重建没有帮助的冗余信息。

本实施例的通道注意力机制残差块将通道注意力机制引入残差块，使得特征通道间的信息能够被有差别地对待，更有用的特征通道会被关注更多。其处理过程可参见图6，具体如下：

1)假设输入的特征图为X∈R^H×W×C，首先经过通道注意力机制残差块原来的卷积层、ReLU函数得到特征图F′：

F′＝W_3×3(δ(W_3×3X))

其中，W_3×3代表卷积操作，δ代表ReLU函数；特征图

输入到第一个残差块之前可通过一层卷积层将其通道数变换成残差块需要的通道数。

2)接着，通道注意力机制先在空间维度对特征图F′的通道信息进行压缩，得到每个特征通道的描述，具体是采用全局平均池化来完成：

F′_c(i，j)代表特征图F′的第c个特征通道在位置(i，j)处值，H_GP()代表全局平均池化函数，得到的z_c作为第c个特征通道信息的一个表征。

3)然后使用一种Sigmoid形式的门机制将上一步得到的通道全局描述生成每个通道的注意力信息表示F′_s：

F′_s＝f_sigmoid(W_Uδ(W_Dz))

z代表平均池化后的通道描述，形状为1×1×C；W_D代表

的卷积核，即对z的通道数下采样转换为

的形式，r为下采样倍数；δ代表非线性激活函数ReLU；W_U代表1×1×C的卷积核，即对通道上采样转换为形状1×1×C的形式，其实就是将通道数目恢复到原来的大小；f_sigmoid代表Sigmoid函数，能够将输入映射到0、1之间，这里作为每个通道的注意力系数。

4)最后将得到的通道注意力表示F′_s乘以特征图F′并加上输入X得到最终的输出Y：

Y＝F′_sF′+X。

在本实施例中，整个初始网络在训练的过程中使用了L1损失函数和L2损失函数作为目标函数：

S4、视频预测及编码：对于待放大的低于目标分辨率的低分辨率视频，使用训练好的视频超分辨率模型对该视频的每一帧进行重建，再利用ffmpeg工具将低分辨率视频所有帧的重建结果编码成视频的形式，得到最终的放大若干倍数后达到目标分辨率的高分辨率视频。

其中，由于低分辨率视频的每一帧都会作为目标帧，而当视频头部的3帧和尾部的3帧作为目标帧时，会出现辅助帧数量不足的情况，因此还需要进行补帧处理，补帧处理后，原低分辨率视频的每一帧在作为目标帧时都能够组成7帧的输入形式。

补帧处理具体是将离补帧位置最近的图像作为该补帧位置的值。例如，当视频头部的第一帧作为目标帧时，由于缺少前三帧，因此需要复制三张第一帧作为第一帧的前三帧辅助帧；当视频头部的第二帧作为目标帧时，由于前面只有一帧辅助帧，因此需要复制两张图像以凑齐前三帧，此时可以复制视频头部的第一帧，也可以复制视频头部的第二帧；当视频头部的第三帧作为目标帧时，由于前面只有两帧辅助帧，因此需要复制一张图像以凑齐前三帧，此时可以复制视频头部的第二帧，也可以复制视频头部的第三帧。尾部的3帧作为目标帧时以此类推进行补帧。

为更好地描述本实施例，下面以一具体实例加以说明。

以阿里巴巴2019年提出的优酷视频增强和超分数据集作为视频数据集，该数据集的生成模型完全是模拟实际业务中的噪声模式，包括不同内容品类和噪声模型。目前公布的数据集有1000个视频，每个视频时间长度为5秒左右，低质视频分辨率为270P，高清视频分辨率为1080P。

这里，使用其中的600个视频作为训练集，共60000张视频图像，采用上述的低冗余度训练策略后，最终用于训练的低分辨率图像为59990张，高分辨率图像8570张，即共有8570个低冗余度训练对。取其中7570对图像作为训练集，1000对图像作为验证集。视频超分辨率模型训练过程采用的深度学习框架为Pytorch，模型放大倍数为4，学习率设置为10^-5，batchsize为64，共训练了100个epoch。

通过仿真实验，对本实施例方法与图像超分辨率算法RCAN进行了超分效果对比，评价指标采用超分辨率领域常用的峰值信噪比(PSNR)，PSNR越大，说明生成的图像质量越好，其计算方法如下：

其中，MSE为均方误差。

最终实验结果如表1所示：

表1

方法	平均PSNR(dB)
		图像超分辨率算法RCAN	35.594
本实施例方法	35.740

由上述实验结果可知，本实施例方法相比图像超分辨率方法RCAN，在PSNR上得到了提升，说明本实施例方法可以有效增强视频超分辨率重建的效果。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在硬件、固件、软件或其组合中。对于硬件实施方案，处理模块可实施在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)、现场可编辑逻辑门阵列(FPGA)、处理器、控制器、微控制器、电子装置、其他经设计以执行本发明所描述的功能的电子单元或其组合内。对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于多帧注意力机制渐进式融合的视频超分辨率方法，其特征在于，包括如下步骤：

S1、对视频数据集进行抽帧处理，得到训练集；

2.根据权利要求1所述的视频超分辨率方法，其特征在于，在步骤S1中，将达到目标分辨率的高分辨率视频、低于目标分辨率的低分辨率视频的全部帧保留，每一张低分辨率视频图像都有对应的一张视频内容相同的高分辨率视频图像，构成初始训练集；初始训练集共有N对图像：{(x_1L,x_1H),(x_2L,x_2H),…,(x_NL,x_NH)}，其中，x_NL代表第N对图像中的低分辨率视频图像；x_NH代表第N对图像中与低分辨率视频图像内容相同的高分辨率视频图像，N是正整数；

帧作为目标帧进行重建，目标帧的前

帧、后

帧作为辅助帧，用于帮助目标帧重建；对应的一帧高分辨率视频图像作为目标帧的标签。

3.根据权利要求2所述的视频超分辨率方法，其特征在于，多帧注意力机制渐进式融合模块通过多帧注意力机制将目标帧与其前、后帧进行融合的过程如下：

(1)根据前

帧、后

帧与目标帧的时序距离，将前

帧和后

帧进行分组，即分为

和

和

……、

和

共

组，t表示目标帧的帧序号；

(2)根据时序距离的远近将目标帧与前、后帧进行融合：

首先将距离目标帧最近的

和

与目标帧

通过多帧注意力机制进行第一次融合：

其中，H_conv、H_MFAB分别代表卷积操作和多帧注意力机制；

然后将得到的特征图

与

通过多帧注意力机制进行第二次融合：

以此类推，再将第

次融合得到的特征图

与

和

通过多帧注意力机制进行第

次融合，得到最终的

即是融合了目标帧前、后各

帧信息的特征图。

4.根据权利要求3所述的视频超分辨率方法，其特征在于，多帧注意力机制的处理过程如下：

F＝H_reshape(F_t-1,F_t,F_t+1)

M_correlation＝f_softmax(F×F^T)

5.根据权利要求4所述的视频超分辨率方法，其特征在于，初始网络训练过程中使用L1损失函数和L2损失函数作为目标函数：

6.根据权利要求2所述的视频超分辨率方法，其特征在于，在步骤S4中，低分辨率视频的每一帧均作为目标帧，当视频头部的

帧和尾部的

7.根据权利要求1所述的视频超分辨率方法，其特征在于，特征提取模块以通道注意力机制残差块作为基本单元；在特征提取模块中，每B个通道注意力机制残差块依次连接来组成一个残差组，一共组成G个残差组，每个残差组的输入与输出进行跳跃连接；G个残差组依次堆叠，且第一个残差组的输入与最后一个残差组的输出进行跳跃连接。

8.根据权利要求7所述的视频超分辨率方法，其特征在于，特征提取模块中的通道注意力机制残差块的处理过程如下：

F′＝W_3×3(δ(W_3×3X))

F′_s＝f_sigmoid(W_Uδ(W_Dz))

其中，z代表平均池化后的通道描述，形状为1×1×C；W_D代表

的卷积核，即对z的通道数下采样转换为

Y＝F′_sF′+X。

9.根据权利要求1所述的视频超分辨率方法，其特征在于，重建模块由相连接的亚像素卷积层和卷积层构成。

10.根据权利要求1所述的视频超分辨率方法，其特征在于，在步骤S1中，利用ffmpeg工具对视频数据集进行抽帧处理；