CN114511485A

CN114511485A - 一种循环可变形融合的压缩视频质量增强方法

Info

Publication number: CN114511485A
Application number: CN202210110450.0A
Authority: CN
Inventors: 叶茂; 彭柳寒
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-17
Anticipated expiration: 2042-01-29
Also published as: CN114511485B

Abstract

本发明公开了一种循环可变形融合的压缩视频质量增强方法，属于视频图像增强处理技术领域。本发明提供了一种有效的利用相邻帧的时空信息进行特征级对齐的压缩视频多帧质量增强方法，通过循环可变形融合网络更有效的融合目标帧与相邻帧的时空信息实现更准确的对齐，多尺度注意力模块融合视频帧不同尺度的上下文信息，使得压缩视频的主观和客观质量都得到明显的增强。

Description

一种循环可变形融合的压缩视频质量增强方法

技术领域

本发明属于视频图像增强处理技术领域，具体涉及一种循环可变形融合的压缩视频质量增强方法。

背景技术

HEVC编码技术自2013年正式成为视频编码技术国际认证的新标准以来，就得到了国内外的广泛研究，并出现了大量改善压缩视频质量的方法。在深度学习被提出之前，主要使用空域法和频域法对图像进行增强。随着深度学习的发展，出现了各种基于神经网络的压缩视频质量增强方法，并且都取得了不错的效果

目前最常用的是H.265/HEVC标准，HEVC标准采用基于块的混合编码框架，利用视频空域、时域信息的冗余设计了相应的压缩技术，通过对原始视频压缩达到节省带宽和存储的目的。其核心过程包括：预测编码、变换和量化、熵编码以及基于块的预测。变换和量化过程忽略了块与块之间的相关性，使视频或图像呈现块效应。同时，量化是基于变换域中的块扩展，并且量化过程是不可逆的。另外，运动补偿中的高精度插值很容易产生振铃效应(对于图像里的强边缘，由于高频交流系数的量化失真，解码后会在边缘周围产生波纹现象，这种失真被称为振铃效应)。由于帧间编码过程中误差的积累，上述振铃效应也会影响后续视频帧的编码质量。因此压缩视频不可避免的会造成严重的失真、产生伪影、导致视频的主观和客观质量下降。

CN107481209A的中国专利申请公开了一种基于卷积神经网络的图像或视频质量增强方法，该方案首先设计了两个用于视频(或图像)质量增强的卷积神经网络，两个网络具有不同的计算复杂度；然后选择若干个训练图像或视频对两个卷积神经网络中的参数进行训练；根据实际需要，选择一个计算复杂度较为合适的卷积神经网络，将质量待增强的图像或视频输入到选择的网络中；最后，该网络输出经过质量增强的图像或视频。该方案可以有效增强视频质量；用户可以根据设备的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质量增强。该方案设计了两个不同复杂度的卷积神经网络，由用户根据设备的情况来选择网络，两个网络的区别只是卷积神经网络的深度不同，但是仅仅通过加深网络深度来提高质量增强效果的方案是不可行的，而且没有针对图像视频的特点设计网络，即网络未能利用视频帧与帧之间的时间相关性，因此该方法质量增强的效果有限。

公开号为CN108900848A的中国专利申请公开了一种基于自适应可分离卷积的视频质量增强方法，该方案将自适应可分离卷积作为第一个模块应用于网络模型当中，将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核，参数量由n²变为n+n。第二，利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢量的估计，通过选取连续的两帧作为网络输入，对于每两张连续输入可以得到一对可分离的二维卷积核，而后该2维卷积核被展开成四个1维卷积核，得到的1维卷积核随输入的改变而改变，提高网络自适应性。该方案用一维卷积核取代二维卷积核，使得网络训练模型参数减少，执行效高。该方案使用五个编码模块和四个解码模块、一个分离卷积模块和一个图像预测模块，其结构是在传统的对称编解码模块网络的基础上，把最后一个解码模块替换为一个分离卷积模块，虽然有效的降低了模型的参数，但是质量增强的效果还有待进一步的提高。

公开号为CN108307193A的中国专利申请公开了一种有损压缩视频的多帧质量增强方法及装置，包括：针对解压缩的视频流的第i帧，采用所述第i帧关联的m个帧对所述第i帧进行质量增强，以播放质量增强后的第i帧；所述m个帧属于所述视频流中的帧，且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像素数量大于预设阈值；m为大于1的自然数。在具体应用中，可利用峰值质量帧增强两个峰值质量帧之间的非峰值质量帧。该方案减轻了视频流播放过程中多帧之间的质量波动，同时使得有损压缩后视频中的各帧质量得到增强。虽然该方案考虑到了相邻帧间的时间信息，但设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网(QE-subenet)，其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之间的运动以实现对齐，光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪影。然而精确的光流估计本身就是具有挑战性的和耗时的，因此该方案质量增强的效果仍有限。

发明内容

本发明提供了一种循环可变形融合的压缩视频质量增强方法，可用于减小压缩视频产生的伪影，提升压缩视频质量增强性能。

本发明采用的技术方案为：

一种循环可变形融合的压缩视频质量增强方法，包括下列步骤：

获取待处理的压缩视频帧序列X_t＝{x_t-R,…,x_t-1,x_t,x_t+1,…,x_t+R}，其中，x_t表示目标帧，压缩视频帧序列X_t中的非目标帧为参考帧x_i，R为指定的正整数；

依次遍历压缩视频帧序列X_t的参考帧x_i，将视频帧对(x_t,x_i)依次输入可变形对齐模块，所述可变形对齐模块为神经网络，用于融合目标帧x_t和参考帧x_i的时间信息得到对齐特征y_i，并将对齐特征y_i输入循环融合模块；

所述循环融合模块为神经网络，用于将循环融合模块在上一次执行时输出的隐藏状态特征h减去当前对应的对齐特征y_i，得到目标帧x_t待改进的特征u_i，并将特征u_i经第一卷积网络后再与隐藏状态特征h相加得到融合特征l_i，所述融合特征l_i经第二卷积网络产生循环融合模块输出的新的隐藏状态；其中，隐藏状态特征h的初始特征为：目标帧x_t经特征提取网络得到的目标帧的初始特征；所述循环融合模块循环执行2R次，得到2R个融合特征l_i；

将所有融合特征l_i在通道维度上拼接后，经1×1的卷积得到最终的融合特征F_fuse，并将融合特征F_fuse输入多尺度注意力重建模块；所述多尺度注意力重建模块为神经网络，用于预测村增强残差F_enc；

将增强残差F_enc和目标帧x_t逐元素(像素)相加得到目标帧x_t的增强帧

进一步的，所述可变形对齐模块依次包括两层3×3的卷积、至少一个U-net网络和一个可变形卷积，其中，第一个3×3的卷积的输入为视频帧对(x_t，x_i)，第一个3×3的卷积的输出分别与每个U-net网络的输入相连，且前一个U-net网络的输出与后一个U-net网络的输入相连，所有U-net网络的输出相加后接入第二个3×3的卷积，该第二个3×3的卷积的输出与可变形卷积的输入相连，且可变形卷积的输入还包括视频帧对(x_t，x_i)。

进一步的，所述循环融合模块的第一卷积网络与第二卷积网络的网络结构相同，包括至少两层顺次连接的3×3的卷积。优选与特征提取网络的结构相同。

进一步的，所述特征提取网络包括至少两层顺次连接的3×3的卷积。

所述多尺度注意力重建模块依次包括多个多尺度注意力块和一个3×3的卷积。

所述多尺度注意力重建模块的多尺度注意力块的网络结构相同，包括四个顺次连接的 3×3的卷积，以及一个金字塔拆分注意力模块，前三个3×3的卷积后设置有非线性激活函数，所述金字塔拆分注意力模块用于将第四个卷积的输出特征在通道维度平均分为四组，每组使用不同大小卷积核进行卷积，并通过注意力机制模块预测每组的权重值，再通过Softmax对各组的权重值进行校准，得到多尺度通道校准后的权重值，将校准后的权重值与每组相应的特征图逐元素相乘，得到多尺度注意力块的输出。

进一步的，采用端到端的方式联合训练获取增强帧

的所有网络的网络参数，且训练时采用的损失函数为：

其中，

表示增强帧，X表示原始视频帧，∈表示预置的常数。

本发明提供的技术方案至少带来如下有益效果：

本发明提供了一种有效的利用相邻帧的时空信息进行特征级对齐的压缩视频多帧质量增强方法，通过循环可变形融合网络(包括可变形对齐模块和循环融合模块)更有效的融合目标帧与相邻帧的时空信息实现更准确的对齐，多尺度注意力模块融合视频帧不同尺度的上下文信息，使得压缩视频的主观和客观质量都得到明显的增强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的循环可变形融合的压缩视频质量增强方法采用的网络总体框架图；

图2是本发明实施例中，采用的可变形对齐模块的网络结构示意图；

图3是本发明实施例中，采用的多尺度注意块的网络结构示意图；

图4是本发明实施例中，序列RaceHorses、BasketballPass和PartyScene在QP＝37时的主观质量比较示意图；

图5是本发明实施例中，视频序列BasketballPass中第100-125帧的PSNR波动曲线对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在过去的几年里，视频的数量呈现指数增长，在宽带有限的Internet上传输这些未压缩的视频必然花费大量的时间，在存储空间受限的设备上存储这些视频也必然会出现巨大的问题。因此通过视频压缩技术来显著节省视频编码比特率是主流趋势。然而，压缩视频不可避免地会产生压缩伪影，这将严重影响用户的体验质量。同时，现有的对基于压缩视频质量增强深度神经网络方法的发展趋势可以看出，视频内容在互联网上越来越流行，但是视频内容与宽带有限之间不可避免会产生矛盾，对原始视频进行压缩后传输以及对压缩视频进行质量增强是一个有效的解决方案，既能保证高清视频在相同的码率下经过压缩后在网络中正常传输，也能保证压缩视频更好的主观和客观质量。

本发明实施例基于一种多帧质量增强的循环可变形融合的方式，通过渐进的融合目标帧缺失的信息，并从融合后的帧间信息中集成不同尺度的上下文信息，然后选择有用的信息来提高压缩视频的主观和客观质量，减小压缩视频产生的伪影，恢复视频帧中的结构细节。

本发明实施例提供的一种循环可变形融合的压缩视频质量增强方法中，采用的压缩视频质量增强网络(即一种时空融合特征引导可变形对齐的压缩视频质量增强网络)如图1所示，它由两个部分组成：循环可变形融合模块(Recurrent Deformable FusionModule)、多尺度注意力重建模块(Multi-Scale Attention Reconstruction Module)。其中循环可变形融合模块又由两个子模块组成：可变形对齐模块(Deformable AlignmentModule，DA Module)、循环融合模块(Recurrent Fusion Module)组成。给定一个含有2R+1视频帧的压缩序列 X_t＝{x_t-R，...，x_t-1，x_t，x_t+1，...，x_t+R}序列，其中x_t是目标帧，其他帧是其相邻帧，即参考帧x_i。本发明实施例的目的是在t时刻选择这2R+1的视频帧来恢复高质量的视频帧

即增强帧。

如图1所示，本发明实施例首先将压缩序列输入到循环可变形融合模块，其中可变形对齐模块融合来自目标帧和其中一个参考帧的时间信息并产生对齐后的对齐特征y_i，从而可以得到2R个对齐特征；之后循环融合模块渐进的融合目标帧缺失的有用信息，多次迭代，产生最终融合后的特征，从而得到融合后的帧间信息。之后输入到多尺度注意力重建模块产生增强残差F_enc，多尺度注意力重建模块作用是从融合后的帧间信息中集成不同尺度的上下文信息，然后选择有用的信息，产生增强残差F_enc。最后增强残差F_enc和目标帧x_t逐元素相加得到增强帧

作为一种可能的实现方式，参见图2，本发明实施例采用的循环可变形融合模块包括可变形对齐模块和循环融合模块。其中，可变形对齐模块被用来获得目标帧与参考帧对齐后的特征，可变形对齐模块包括两层3×3的卷积、至少一个U-net(U型网络，包括编码模块和解码模块)和一个可变形卷积(Deformable Convolution，即在每一个卷积核的每一个元素上额外添加一个方向向量)，其中，可变形对齐模块的输入图像对(目标帧和其中一个参考帧) 首先经过一层3×3的卷积，接着依次经过每个U-net，其中，后一级的U-net的输入包括第一个3×3的卷积的输出特征图，和上一级的U-net的输出特征图，将所有U-net的输出特征图融合后再经过一层3×3的卷积后输入可变形卷积，同时将可变形对齐模块的输入图像对输入可变形卷积，基于可变形卷积的输出得到对齐特征yi，即应用可变形卷积将相邻(参考帧) 特征与目标特征对齐。

优选的，本发明实施例中，U-net的数量为2，如图2所示。通过一个迭代残差求精的U-net来估计光流，迭代残差求精的U-net由多个U-net网络组成，这些U-net共享参数，在不添加参数的情况下通过多次迭代来改进先前的估计，在本发明实施例中，只迭代两次。最后使用一个3×3卷积预测可变形偏移量

Δp_k＝F_offset(t_i，θ)

共甲，t_i表示输入的视频帧对(x_t，x_i)，θ表示可学习的参数，F_offset()表示偏移映射，即多个U-net和最后一个3×3卷积构成的偏移预测网络。其中K表示卷积核的大小，H×W分别表示输入帧的高和宽。即本发明实施例中，可变形偏移量以目标帧和参考帧作为输入，通过U-net经过两次迭代和一个3×3的卷积来预测Δp_k。

最后通过可变形偏移量指导可变形卷积来实现{x_t，x_t-R：t≠R}特征级对齐，得到对齐特征yi，即在可变形卷积的每一个卷积核的每一个元素上额外添加对应的可变形偏移量元素，从而基于可变形卷积的输出得到对齐特征yi。

在循环融合模块，首先使用两个3×3的卷积来提取目标帧的初始特征：h′＝Conv₁(x_t)，其中Conv₁表示特征提取网络(至少一个3×3的卷积，本发明实施例中采用两个3×3的卷积)， x_t表示目标帧，h′表示初始的隐藏状态特征，即目标帧的初始特征。

循环融合模块通过渐进的融合对齐后的特征来改进目标帧的特征。它主要由四个3×3卷积组成。如图1所示，首先将初始的隐藏状态特征h′减去对齐特征y₁产生目标帧待改进的特征u₁：u₁＝h′-y₁，即在循环融合模块中，首先将上一次得到的隐藏状态特征(用符号h表示，其初始值为h′)减去当前对应的对齐特征，产生目标帧待改进的特征u_i；然后用两个3×3的卷积进一步学习待改进的特征u_i，将隐藏状态h和学习后的待改进的特征相加得到融合后的特征l₁，最后再使用两个3×3的卷积产生新的隐藏状态h：

l₁＝h+Conv₂(u₁)

h＝Conv₃(l₁)

其中，Cony₂和Conv₃分别表示两个不同的3×3卷积，即Cony₂表示循环融合模块的前面两个3×3卷积，Conv₃表示循环融合模块的后面两个3×3卷积。

对于输入的2R+1帧，由于一次只融合一个参考帧和目标帧对，所以上述过程需要循环的执行2R次。每次都会生成一个新的隐藏状态h和一个融合后的特征l_i(l_i＝h+Conv₂(u_i))，最后将所有融合后的特征{l₁，l₂，...，l_2R}在通道维度上拼接并使用一个1×1的卷积降维生成最终融合后的特征。

F_fuse＝Conv₄(Concat(l₁，l₂，...，l_2R))

其中Concat表示对融合后的特征在通道维度拼接的操作，Conv₄表示1×1的卷积，F_fuse代表最终融合后的特征。

参见图1，本发明实施例中，多尺度注意力重建模块包括一定数量的多尺度注意力块(MSA Block)和一个3×3的卷积，本发明实施例中，MSA Block的数量为7。多尺度注意力重建模块将最终融合后的特征作为输入，通过这些多尺度注意力块来预测增强残差，最后一个3×3 的卷积输出增强残差F_enc＝F_msar(F_fuse)，最终生成的增强帧为：

其中，F_msar()表示多尺度注意力重建模块的输出。

作为一种可能的实现方式，本发明实施例中，采用的多尺度注意力块的结构如图3所示，它由四个3×3卷积和一个金字塔拆分注意力(PSA)模块组成，其中，前三个3×3的卷积后设置有非线性激活函数(如Relu)，PSA模块的具体结构可采用文献《H.Zhang，K.Zu，J.Lu， Y.Zou，and D.Meng，″EPSANet：An Effificient Pyramid Split Attention Blockon Convolutional Neural Network，”arXiv preprint arXiv：2105.14447，2021》所给出的结构。采用的PSA模块将经过卷积后的特征在通道维度平均分为四组，每组使用不同大小卷积核进行卷积，本发明实施例中，各组的卷积核大小分别为{3，5，7，9}，以实现对不同运动的信息根据不同距离处的框架对齐进行提取，通过这种方式选择时间相关补偿信息。然后，通过SE权重模块(注意力机制模块)预测每组的权重值，本发明实施例中，SE权重模块包括一个全局平均池化层、两个全连接层和一个Relu函数，之后通过Softmax对各组的权重重新校准(即通过Softmax函数进行归一化)，得到多尺度通道校准后的权重，即SE权重模块包括依次连接的全局平均池化层、全连接层一、Relu函数、全连接层二和Softmax函数。最后将得到的权重与每组相应的特征图逐元素相乘，所以多尺度注意力块能够从融合后的特征中集成了不同尺度的上下文信息，然后选择有用的信息产生更好的恢复效果。

由于循环可变形融合模块和多尺度注意力重建模块都是完全卷积的，所以本发明实施例中采用端到端的方式联合训练，并采用Charbonnier Loss优化网络参数：

其中，

表示增强帧，X表示原始视频帧，即目标帧压缩之前的原始帧，∈表示预置的常数，本发明实施例中设置为10^-6。

为了证明本发明实施例的有效性，在HEVC标准测试序列上的数据集上进行了定性和定量评估。

定量评估：与最近几年最先进的方法DnCNN(具体可参考文献《Zhang K，Zuo W，Chen Y，et al.Beyond a Gaussian Denoiser：Residual Learning of Deep CNN forImage Denoising[J].IEEE Transactions on Image Processing，2016，26(7)：3142-3155》)、Li et al(具体可参考文献《K.Li，B.Bare，and B.Yan，“An efficient deepconvolutional neural networks model for compressed image deblocking，”in2017IEEE International Conference on Multimedia and Expo(ICME).IEEE，2017，pp.1320-1325》)、DCAD(具体可参考文献《Wang T,Chen M,Chao H.A Novel DeepLearning-Based Method of Improving Coding Efficiency from the Decoder-end forHEVC[C]//Data Compression Conference(DCC) 2017.IEEE,2007》)、DS-CNN(具体可参考文献《Ren Y,Mai X,Tie L,et al.Enhancing Quality for HEVC Compressed Videos[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,PP:1-1》)、MFQE(具体可参考文献《Yang R,Xu M,Wang Z,et al.Multi-frame QualityEnhancement for Compressed Video[C]//2018IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2018》)、MFQE2.0 (具体可参考文献《GuanZ,Xing Q,Xu M,et al.MFQE 2.0:A New Approach for Multi-frame QualityEnhancement on Compressed Video[J].IEEE Transactions on Pattern Analysis andMachine Intelligence,2019:1-1》)、STDF-R3L(具体可参考文献《Deng J,Wang L, Pu S,et al.Spatio-temporal deformable convolution for compressed video qualityenhancement[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2020, 34(07):10696-10703》)、RFDA(具体可参考文献《M.Zhao,Y.Xu,andS.Zhou,“Recursive Fusion and Deformable Spatiotemporal Attention for VideoCompression Artifact Reduction,”in Proceedings of the 29th ACM InternationalConference on Multimedia, 2021》)比较改进的PSNR和SSIM(ΔPSNR和ΔSSIM)以此评估本发明实施例提供的增强方法的性能。其中，PSNR指峰值信噪比，一种评价图像的客观标准。SSIM指结构相似性，是一种全参考的图像质量评价指标，其分别从亮度、对比度、结构三方面度量图像相似性，ΔPSNR 和ΔSSIM分别表示PSNR和SSIM的差量。

表1给出了ΔPSNR和ΔSSIM在每个测试视频的所有帧上的平均结果。可以看出，本发明实施例提供的增强方法(Ours)一致优于目前最先进的方法。在QP＝37时，与STDF方法相比，发明实施例提供的增强方法获得了平均25％的ΔPSNR提升，与RFDA相比，本发明实施例提供的增强方法获得了平均14％的提升，其他QP(Quantization Parameter)也有类似的结果。

表1五个QP点上HEVC标准测试序列的ΔPSNR(dB)和ΔSSIM((×10^-2)的总体比较

此外，还使用BD-rate(用于评价不同的视频编码方式的率失真性能)的减少来评估本发明实施例提供的增强方法的性能，如表2所示，本发明实施例提供的增强方法的BD-rate平均降低了26.47％，优于目前先进的方法STDF(21.61％)

表2在HEVC标准测试数据集上比较BD-rate(％)降低结果。

定性评估：图4展示了序列RaceHorses、BasketballPass和PartyScene在QP＝37时的主观质量表现。从图中可以看出，与目前最先进的STDF和RFDA方法相比，本发明实施例提供的增强方法可以更好地恢复视频的结构细节。

文献《Guan Z,Xing Q,Xu M,et al.MFQE 2.0:A new approach for multi-framequality enhancement on compressed video[J].IEEE transactions on patternanalysis and machine intelligence,2019》指出：原始视频经过压缩过后，视频帧之间会存在一定的质量波动，如图5所示，经过压缩后的视频产生严重的质量波动。对于视频序列BasketballPass中的第100-125帧，RFDA增强过后的PSNR波动如图5所示，可以看到帧与帧之间的PSNR波动依然非常明显。图5中的Ours表示本发明实施例所提供的增强方法在增强后的PSNR波动，图5 中的虚线为HM16.5在LDP(Low Delay P，只有第一帧是I帧编码，而其他的都是P帧编码) 下QP＝37时压缩后的PSNR波动；中间的曲线为压缩视频经过RFDA增强后的PSNR波动。可以看出本发明实施例所提出的增强方法比现有的RFDA更好地利用了相邻帧间的时间信息，减小压缩视频严重的质量波动。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种循环可变形融合的压缩视频质量增强方法，其特征在于，包括下列步骤：

获取待处理的压缩视频帧序列X_t＝{X_t-R，...，x_t-1，x_t，x_t+1，...，x_t+R}，其中，x_t表示目标帧，压缩视频帧序列X_t中的非目标帧为参考帧x_i，R为指定的正整数；

依次遍历压缩视频帧序列X_t的参考帧x_i，将视频帧对(x_t，x_i)依次输入可变形对齐模块，所述可变形对齐模块为神经网络，用于融合目标帧x_t和参考帧x_i的时间信息得到对齐特征y_i，并将对齐特征y_i输入循环融合模块；

将增强残差F_enc和目标帧x_t逐元素相加得到目标帧x_t的增强帧

2.如权利要求1所述的方法，其特征在于，所述可变形对齐模块依次包括两层3×3的卷积、至少一个U-net网络和一个可变形卷积，其中，第一个3×3的卷积的输入为视频帧对(x_t，x_i)，第一个3×3的卷积的输出分别与每个U-net网络的输入相连，且前一个U-net网络的输出与后一个U-net网络的输入相连，所有U-net网络的输出相加后接入第二个3×3的卷积，该第二个3×3的卷积的输出与可变形卷积的输入相连，且可变形卷积的输入还包括视频帧对(x_t，x_i)。

3.如权利要求2所述的方法，其特征在于，所述U-net网络的数量为2。

4.如权利要求1所述的方法，其特征在于，所述循环融合模块的第一卷积网络与第二卷积网络的网络结构相同，包括至少两层顺次连接的3×3的卷积。

5.如权利要求1所述的方法，其特征在于，所述特征提取网络包括至少两层顺次连接的3×3的卷积。

6.如权利要求1所述的方法，其特征在于，所述多尺度注意力重建模块依次包括多个多尺度注意力块和一个3×3的卷积。

7.如权利要求6所述的方法，其特征在于，所述多尺度注意力重建模块的多尺度注意力块的网络结构相同，包括四个顺次连接的3×3的卷积，以及一个金字塔拆分注意力模块，前三个3×3的卷积后设置有非线性激活函数，所述金字塔拆分注意力模块用于将第四个卷积的输出特征在通道维度平均分为四组，每组使用不同大小卷积核进行卷积，并通过注意力机制模块预测每组的权重值，再通过Softmax对各组的权重值进行校准，得到多尺度通道校准后的权重值，将校准后的权重值与每组相应的特征图逐元素相乘，得到多尺度注意力块的输出。

8.如权利要求7所述的方法，其特征在于，所述多尺度注意力块的数量为7。

9.如权利要求1至8任一项所述的方法，其特征在于，采用端到端的方式联合训练获取增强帧

的所有网络的网络参数，且训练时采用的损失函数为：

其中，

表示增强帧，X表示原始视频帧，∈表示预置的常数。

10.如权利要求9述的方法，其特征在于，常数∈的取值为10^-6。