CN114651270A

CN114651270A - 通过时间可变形卷积进行深度环路滤波

Info

Publication number: CN114651270A
Application number: CN202180006326.3A
Authority: CN
Inventors: 蒋薇; 王炜; 李泽强; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-10-09
Filing date: 2021-08-18
Publication date: 2022-06-21
Also published as: EP4052214A4; US11601661B2; US20220116633A1; WO2022076085A1; KR20220107028A; EP4052214A1; JP2023509395A

Abstract

提供了用于执行视频编码的方法、装置和存储介质。该方法包括：获取视频序列中的多个图像帧；确定多个图像帧中的每个图像帧的特征图，并基于特征图来确定偏移图；通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图；以及基于对齐特征图来生成多个对齐帧。

Description

通过时间可变形卷积进行深度环路滤波

相关申请的交叉引用

本申请基于并要求于2020年10月9日向美国专利商标局提交的美国临时申请第63/090,126号以及于2021年8月5日向美国专利商标局提交的美国申请第17/394,504号的优先权，这两个申请的公开内容通过引用以其全部内容并入本文中。

背景技术

1.技术领域

本公开内容涉及视频编码领域，尤其涉及使用环路滤波器来基于具有时间可变形卷积(TDC)的深度神经网络(DNN)处理经解码的视频的设备和方法。

2.相关技术的描述

传统的视频编码标准例如H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC)共享类似(递归)基于块的混合预测/变换框架，在该基于块的混合预测/变换框架中，各个编码工具例如帧内/帧间预测、整数变换和上下文自适应熵编码被仔细地手工制作以优化整体效率。基本上，时空像素邻域被用于预测信号结构，以获取用于随后的变换、量化和熵编码的相应残差。另一方面，深度神经网络(DNN)的性质是通过分析来自邻近像素的感受野的时空信息来提取不同水平的时空刺激。探索高度非线性和非局部时空相关性的能力为大大改善压缩质量提供了有希望的机会。

然而，压缩的视频不可避免地遭受压缩伪像，这严重降低了体验质量(QoE)。已经开发了基于DNN的方法来提高压缩的图像的视觉质量，例如图像去噪、超分辨率、去模糊等。当这些方法被应用于视频时，基于图像的方法遭受由改变压缩的视频质量、视频场景和视频中的对象运动而引起的不稳定和波动。因此，重要的是，利用来自视频中的邻近帧的信息来稳定和改善提高的视觉质量。

利用来自多个邻近视频帧的信息的一个注意事项是由移动相机和动态场景而引起的复杂运动。传统的基于块的运动向量不适用于非平移运动。此外，虽然基于学习的光流方法可以在像素级提供更准确的运动信息，但这些方法仍然容易出错，尤其是沿着移动对象的边界容易出错。

因此，本公开内容的一个或更多个实施方式提供了一种具有时间可变形卷积(TDC)的基于DNN的模型，以在无需显式的运动估计的情况下以数据驱动的方式处理任意运动和复杂运动。

发明内容

根据实施方式，提供了一种使用一个或更多个神经网络利用环路滤波器执行视频编码的方法。该方法包括：获取视频序列中的多个图像帧；确定多个图像帧中的每个图像帧的特征图，并且基于特征图来确定偏移图；通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图；以及生成多个对齐帧。

根据实施方式，提供了一种装置，该装置包括：至少一个存储器，所述至少一个存储器存储计算机程序代码；以及至少一个处理器，所述至少一个处理器被配置成访问至少一个存储器并按照计算机程序代码的指示进行操作。计算机程序代码包括：获取代码，其被配置成使至少一个处理器获取视频序列中的多个图像帧；确定代码，其被配置成使至少一个处理器：确定多个图像帧中的每个图像帧的特征图，并且基于特征图来确定偏移图，通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图；以及生成代码，其被配置成使至少一个处理器生成多个对齐帧。

根据实施方式，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序代码，当由至少一个处理器执行所述计算机程序代码时，所述至少一个处理器被配置成：获取视频序列中的多个图像帧；确定多个图像帧中的每个图像帧的特征图，并且基于特征图来确定偏移图；通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图；以及生成多个对齐帧。

附图说明

下面的描述简要介绍了附图，附图示出了本公开内容的一个或更多个实施方式。

图1是示出了根据实施方式的视频编码系统的图；

图2是示出了根据实施方式的包括编码器和解码器的计算设备的示例的图；

图3是示出了根据实施方式的训练DNN LF模块的方法的图；

图4是示出了根据实施方式的使用2D TDC的DNN LF模块的操作的图；

图5是示出了根据实施方式的使用3D TDC的DNN LF模块的操作的图；以及

图6是根据实施方式的用于使用具有TDC的DNN处理视频数据的装置的框图。

具体实施方式

在本文中参照附图详细描述了示例实施方式。应当理解的是，本文中描述的本公开内容的一个或更多个实施方式仅是示例实施方式，并且不应被解释为限制本公开内容的范围。

图1是示出了根据实施方式的视频编码系统的图。

参照图1，视频编码系统100可以包括通过网络130彼此连接的编码器110和解码器120。编码器110可以被配置成对图像数据或视频数据进行压缩。编码器110可以设置在视频编码系统100的服务器侧上。服务器可以是云服务器或者包括多个服务器的服务器集群。服务器可以包括处理器、通信接口和数据库。处理器可以被配置成对视频序列的一个或更多个图像帧进行编码。通信接口可以被配置成发送和接收视频序列的一个或更多个图像帧或者可能与对视频序列进行编码有关的其他数据。数据库可以被配置成存储视频序列的一个或更多个图像、经编码的数据和经解码的数据。然而，一个或更多个实施方式不限于此。例如，编码器110可以在连接至网络130的计算设备(例如，台式计算机、膝上型计算机、平板计算机、移动设备、个人数字助理(PDA)、控制台、可穿戴设备等)中被实现。编码器110可以是在计算设备上运行的软件。

图2是示出了根据实施方式的被实现为编码器和/或解码器的计算设备的示例的图。计算设备200可以被实现为图1中所示的编码器110和/或解码器120。

参照图2，计算设备200可以包括处理器210、存储器220、存储设备230、输入接口240、输出接口250、通信接口260和总线270。

处理器210以硬件、固件或硬件和软件的组合来实现。处理器210是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现中，处理器210包括能够被编程成执行功能的一个或更多个处理器。

存储器220包括存储用于由处理器210使用的信息和/或指令的随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如，闪速存储器、磁存储器和/或光学存储器)。

存储设备230存储与计算设备200的操作和使用相关的信息和/或软件。例如，存储设备230可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、致密盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。

输入接口240包括允许计算设备200例如经由用户输入接收信息的部件(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。另外地或替选地，输入接口240可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出接口250包括从计算设备200提供输出信息的部件(例如，显示器、扬声器以及/或者一个或更多个发光二极管(LED))。

通信接口260包括类似收发器的部件(例如，收发器和/或单独的接收器和发送器)，该部件使得计算设备200能够例如经由有线连接、无线连接或者有线连接和无线连接的组合与其他设备进行通信。通信接口260可以允许计算设备200从另一设备接收信息以及/或者向另一设备提供信息。例如，通信接口260可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

总线270包括允许计算设备200的部件之间进行通信的部件。

计算设备200可以执行本文中描述的一个或更多个操作。计算设备200可以响应于处理器210执行存储在非暂态计算机可读介质例如存储器220和/或存储设备230中的软件指令而执行本文中描述的操作。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备可以包括单个物理存储设备内的存储器空间或跨多个物理存储设备分布的存储器空间。

软件指令可以经由通信接口260从另一个计算机可读介质或从另一设备被读取到存储器220和/或存储设备230中。当被执行时，存储在存储器220和/或存储设备230中的软件指令可以使处理器210执行本文中描述的一个或更多个过程。另外地或替选地，可以使用硬连线电路系统来代替软件指令或者硬连线电路系统与软件指令的组合，以执行本文中描述的一个或更多个过程。因此，本文中描述的实现不限于硬件电路系统和软件的任何特定组合。

提供图2中所示的部件的数目和布置作为示例。在实践中，计算设备200可以包括附加部件、更少的部件、不同的部件或者与图2中所示的那些部件相比不同布置的部件。另外地或替选地，计算设备200的一组部件(例如，一个或更多个部件)可以执行被描述为由计算设备200的另一组部件执行的一个或更多个功能。

图3是示出了根据实施方式的训练DNN LF模块的方法的图。

首先，将在本文中描述典型的视频压缩框架。假设输入视频x包括多个原始图像帧x₁，...，x_t。在第一运动估计步骤中，多个原始图像帧被划分成空间块，每个空间块可以迭代地被进一步划分成更小的块，并且针对每个空间块计算当前原始图像帧x_t与先前重构帧的集合

之间的运动向量m_t的集合。在此，下标t表示当前第t编码周期，其可能与图像帧的时间戳不匹配。此外，先前重构帧的集合

可以包括来自多个先前编码周期的帧。在第二运动补偿步骤中，通过基于运动向量m_t复制先前重构帧

的相应像素来获取预测帧

并且通过

获取当前原始图像帧x_t与预测帧

之间的残差r_t。在第三估计步骤中，在对空间块执行离散余弦变换(DCT)之后，残差r_t的DCT系数被量化以获取量化残差

由此，运动向量m_t和量化残差

两者通过熵编码被编码为比特流，并且比特流被发送到一个或更多个解码器。在解码器侧上，量化残差

首先被去量化(例如，通过逆变换，例如离散余弦逆变换(IDCT))，以获取恢复残差

然后通过

将恢复残差

加回到预测帧

以获取重构帧。

此外，还可以使用附加部件来改善重构帧

的视觉质量。可以选择诸如去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)、跨部件自适应滤波器(CCALF)等的增强模块中的一个或更多个来处理重构帧

例如，去块滤波器(DF)是如下视频滤波器，该视频滤波器可以应用于经解码的视频以通过平滑在使用块编码技术时宏块之间形成的尖锐边缘来改善视觉质量和预测性能。样本自适应偏移(SAO)是通过将偏移值与每个样本相加来减少平均样本失真的环路内滤波技术。SAO包括两种类型的偏移技术，这两种类型的偏移技术是边缘偏移(EO)和带偏移(BO)。EO由要滤波的图像帧中的局部方向性结构来驱动，BO修改图像帧的强度值但不依赖于领域。自适应环路滤波器(ALF)可以用于使原始样本图像与经解码的样本图像之间的均方误差最小化。可以根据用户设置对增强模块的处理顺序和对增强模块的选择进行各种修改。

根据实施方式，提供了训练DNN LF的整体方法。参照图3，N个先前重构帧的集合

作为输入被提供给DNN LF模块310。DNN LF模块310可以通过使用端到端(E2E)LF DNN网络来生成高质量帧

然后，由重构质量计算模块320计算生成的高质量帧

以评估原始图像帧x_t的重构质量。然后，重构质量计算模块320将重构质量

输出至反向传播模块330。反向传播模块330将重构质量

反馈至DNN LF模块310，以根据由重构质量计算模块320评估的重构质量来训练DNN LF模块310。

另外，由DNN LF模块310输出的N个先前重构帧的集合的对齐损失

可以被馈送至反向传播模块330，该对齐损失

然后通过反向传播模块330被反馈至DNN LF模块310以训练DNN LF模块310。将在下面参照图4来描述对齐损失的更详细描述。

此外，高质量帧

和原始图像帧x_t可以被输入至判别模块340，以便识别和检测高质量帧

与原始图像帧x_t之间的差异。也就是说，判别模块340可以基于

和x_t来计算判别损失

并将判别损失发送至反向传播模块330。判别损失

可以通过反向传播模块330被反馈至DNN LF模块310和判别模块340，以训练DNN LF模块310和判别模块340。

判别DNN可以是使用

和x_t中的至少一个作为输入来计算判别特征图

或d(x_t)的分类网络。基于判别特征图

或d(x_t)，判别DNN对输入是原始图像帧x_t还是生成的(或合成的)高质量帧

进行分类。可以计算分类损失

以测量误分类损失，例如分类交叉熵损失。此外，可以计算特征判别损失

以测量基于生成的高质量图像帧

计算的判别特征图与基于原始图像帧x_t计算的判别特征图之间的差异。

总判别损失

可以是

和

的线性组合，根据下面的等式(1)来计算该总判别损失

在此，γ是与判别特征图

和d(x_t)相关联的权重。

如上所述，由重构质量计算模块320输出的重构质量

由DNN LF310输出的对齐损失

由判别模块340输出的判别损失

被发送到反向传播模块330。基于从各个模块接收这些计算，反向传播模块330可以计算联合损失L_joint的梯度，该联合损失L_joint的梯度可以被反馈至DNN LF模块310和判别模块340。可以根据下面的等式(2)来计算联合损失L_joint的梯度：

在此，λ是与对齐损失相关联的权重，β是与判别损失相关联的权重。

可以通过反向传播模块330反向传播联合损失L_joint的梯度，以更新LF DNN(例如，特征提取DNN、偏移生成DNN、TDC DNN、帧重构DNN、帧合成DNN、判别DNN以及TDC和特征融合DNN)中的DNN权重系数。

基于将联合损失L_joint反馈至上面的一个或更多个DNN，预测帧

被添加以更新N个先前重构帧的集合

例如，可以从N个先前重构帧的集合中移除距当前帧最远距离处的最老帧，并且可以添加预测帧

以代替移除的最老帧。此后，编码器可以进入从t到t+1的下一个编码周期。

根据实施方式，DNN LF模块310可以与上述附加部件(例如，DF、SAO、ALF、CCALF等)中的一个或更多个组合使用，以改善重构帧

的视觉质量。例如，可以通过DF、DNN LF模块、SAO和ALF依次处理重构帧

然而，一个或更多个实施方式不限于此，并且可以不同地配置处理附加部件的顺序。在实施方式中，DNN LF模块310可以单独用作对所有其他附加部件的替代，以提高重构帧

的视觉质量。

图4是示出了根据实施方式的使用2D TDC的DNN LF模块的操作的图。

参照图4，DNN LF模块400可以包括特征提取模块410、偏移生成模块420、TDC模块430、帧重构模块440、帧合成模块450和对齐误差计算模块460。

特征提取模块410可以接收N个先前重构帧的集合

作为输入，并且特征提取模块410可以被配置成通过使用特征提取DNN经过前向推理来计算特征图

例如，假设帧

被用作所有其他帧必须与其对齐的参考帧，偏移生成模块420可以经过偏移生成DNN通过连接特征图

和

并传递所连接的特征图基于

和

来计算偏移图ΔP_j→i，t。在此，帧

可以是N个先前重构帧的集合

中的任何一个帧。不失一般性，N个先前重构帧的集合

限据其时间戳以升序排列。因此，可以基于N个重构帧

的时间戳来选择提高视觉质量的帧。例如，当目标是要提高当前重构帧

时，则

也就是说，所有其他先前重构的邻近帧可以在

之前。在另一个实施方式中，先前重构的邻近帧的一部分可以在

之前，并且其余帧可以在

之后。

由偏移生成模块420生成的偏移图ΔP_j→i，t可以被输入至TDC模块430。在图4中，TDC DNN可以通过堆叠几个TDC层来形成，每个层之后是非线性激活层例如整流线性单元(ReLU)以及其他DNN层(例如，瓶颈层)。TDC模块430使用TDC DNN来基于由特征提取模块410输出的特征图

和由偏移生成模块420输出的偏移图ΔP_j→i，t计算对齐特征图

根据实施方式，TDC DNN可以包括二维(2D)TDC层。例如，假设w_k表示2D TDC核的权重系数，其中k是大于或等于1的自然数(例如，k＝1，...，K)，并且p_k表示核中的第k位置的预定偏移(例如，用K＝9和p_k∈{(-1，-1)，(-1，0)，...，(1，1)}来定义3x3的核)。2D TDC层可以基于输入特征f_in和可学习偏移ΔP来计算输出特征f_out，其中，基于下面的等式来确定采样位置p₀处的特征：

在此，偏移的总和(p₀+p_k+Δp_k)可以是不规则的并且可以不是整数，TDC操作可以执行插值(例如，双线性插值)以纠正(p₀+p_k+Δp_k)的不规则位置。

此外，对齐误差计算模块460可以被配置成：计算对齐损失

以测量

与

之间未对齐的误差。例如，可以使用L₁范数(或绝对误差的平均值)或L₂范数(平方根误差的平均值)来计算未对齐。帧重构模块440可以使用通过前馈推理计算的帧重构DNN来基于由特征提取模块410输出的特征图

和由TDC模块430输出的对齐特征图

生成对齐帧

对齐帧

可以被用作到帧合成模块450的输入，并且帧合成模块450可以使用帧合成DNN来生成合成的高质量帧

虽然上面已经描述了DNN LF模块的一些具体实施方式，但是应当理解，本公开内容的一个或更多个实施方式不限于此。例如，可以针对特征提取DNN、偏移生成DNN、TDCDNN、帧重构DNN和帧合成DNN中的每一个不同地配置层的类型、层的数目、核尺寸等。例如，任何骨干网络例如ResNET可以被用作特征合成DNN。例如，正则卷积的集合和瓶颈层可以被堆叠为偏移生成DNN。例如，TDC层的集合可以被堆叠为TDC DNN，并且利用跳过连接的一些卷积层可以被堆叠在一起作为帧重构DNN。例如，一些残差块层可以被堆叠在一起作为帧合成DNN。

图5是示出了根据实施方式的使用3D TDC的DNN LF模块的操作的图。

参照图5，DNN LF模块500可以包括特征提取模块510、TDC和特征融合模块520以及特征重构模块530。应当理解的是，上面参照图4描述了DNN LF模块500的部件的特征或功能中的一些。因此，可以省略对其的重复描述。

根据实施方式，输入帧

可以被堆叠在一起以获取尺寸的4D输入张量(n，c，h，w)，其中c是通道的数目(例如，用于彩色帧的三个通道)，并且(h，w)提供了视频帧的分辨率。特征提取模块510可以被配置成：使用特征提取DNN通过前向推理来计算特征图

的4D特征张量。在实施方式中，特征提取DNN使用3D卷积层(例如，C3D)来计算特征图

并捕获视频的时空特性。在另一个实施方式中，可以使用如参照图4描述的2D卷积层来计算每个单独的特征图。在此，在计算每个单独的输入帧的特征图

之后，可以将特征图

连接成4D张量。因此，特征提取模块510可以输出4D特征张量。

例如，假设W_k表示3D TDC核的权重系数并且pk表示核中的第k位置的预定偏移，其中k是大于或等于1的自然数(例如，k＝1，...，K)。3D TDC核可以被定义为K＝27并且p_k∈{(-1，-1，-1)，(-1，-1，0)，...，(1，1，1)}。3D TDC层可以基于输入特征f_in和可学习偏移ΔP来计算输出特征f_out，其中使用上面提供的同一等式(3)给出采样位置p₀处的特征。

在图5中，TDC和特征融合DNN可以通过堆叠一个或更多个3D TDC层来形成，其中每个层之后是非线性激活层，例如ReLU。另外地或替选地，每个3D TDC层之后可以是其他DNN层，例如瓶颈层。例如，假设帧

是所有其他帧需要与其对齐的参考帧，那么TDC和特征融合模块520使用TDC和特征融合DNN来基于4D特征张量

计算融合的对齐特征图

帧重构模块530使用帧重构DNN来基于融合的对齐特征图

计算重构的高质量帧

在此，在训练DNN LF模块500时没有执行显式的空间对齐。反而，3D可变形卷积直接学习时空偏移以生成对齐融合特征。

虽然上面已经描述了DNN LF模块的一些具体实施方式，但是应当理解，本公开内容的一个或更多个实施方式不限于此。例如，可以针对特征提取DNN、TDC和特征融合DNN以及帧重构DNN中的每一个不同地配置层的类型、层的数目、核尺寸等。

图6是根据实施方式的用于使用具有TDC的DNN LF处理视频数据的装置的框图。应当理解的是，上面参照图4和图5描述了装置600的部件的特征或功能中的一些。因此，可以省略对其的重复描述。

装置600可以包括：存储计算机程序代码的至少一个存储器；以及至少一个处理器，所述至少一个处理器被配置成访问至少一个存储器并按照计算机程序代码的指示进行操作。计算机程序代码600可以包括获取代码610、确定代码620和生成代码630。

获取代码610可以被配置成获取视频序列中的重构的图像帧的集合。根据实施方式，获取代码610可以被配置成执行上面关于图4和图5描述的特征提取模块410和510的操作。

确定代码620可以被配置成：确定多个图像帧中的每个图像帧的特征图，基于特征图来确定偏移图，并且通过对特征图和偏移图执行时间可变形卷积(TDC)来确定对齐特征图。根据实施方式，确定代码620可以被配置成：执行上面关于图4描述的偏移生成模块420、TDC 430和对齐误差计算模块460以及上面关于图5描述的TDC和特征融合模块520的操作。

生成代码630可以被配置成：生成多个对齐帧并且对多个对齐帧进行合成以输出与多个图像帧相对应的多个高质量帧。根据实施方式，生成代码630可以被配置成：执行图4的帧重构模块430和帧合成模块450以及图5的帧重构模块530的操作。

尽管将装置600描述为仅包括获取代码610、确定代码620和生成代码630，但是本公开内容的一个或更多个实施方式不限于此。一个或更多个实施方式可以包括比图6中所示的那些更多或更少的部件或部分。

在本公开内容的一个或更多个实施方式中使用的术语例如“单元”或“模块”指示用于处理至少一个功能或操作的单元，并且可以在硬件、软件中或者在硬件和软件的组合中被实现。

术语“单元”、“代码”或“模块”可以由存储在可寻址存储介质中并能够由处理器执行的程序来实现。

例如，术语“单元”、“代码”或“模块”可以包括软件组件、面向对象的软件组件、类组件和任务组件、进程、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路系统、数据、数据库、数据结构、表、数组和/或变量。

上面已经示出和描述了本公开内容的实施方式中的一些。然而，本公开内容的一个或更多个实施方式不限于前述具体实施方式。应当理解，在不脱离本公开内容的精神和范围的情况下，可以进行各种修改、替换、改进及其等同物。应当理解，这样的修改、替换、改进及其等同物应当落入本公开内容的保护范围内，并且不应被解释为独立于本公开内容的发明构思或前景。

Claims

1.一种使用一个或更多个神经网络利用环路滤波器执行视频编码的方法，所述方法包括：

获取视频序列中的多个图像帧；

确定所述多个图像帧中的每个图像帧的特征图；

基于所述特征图来确定偏移图；

通过对所述特征图和所述偏移图执行时间可变形卷积(TDC)来确定对齐特征图；以及

基于所述对齐特征图来生成多个对齐帧。

2.根据权利要求1所述的方法，还包括：

对所述多个对齐帧进行合成，以输出与所述多个图像帧相对应的多个高质量帧。

3.根据权利要求1所述的方法，还包括：

确定指示所述特征图与所述对齐特征图之间未对齐的误差的对齐损失，

其中，通过所述对齐损失来训练所述一个或更多个神经网络。

4.根据权利要求1所述的方法，其中，获取所述多个图像帧包括：堆叠所述多个图像帧以获取4维(4D)输入张量。

5.根据权利要求1所述的方法，其中，确定所述偏移图包括：根据偏移生成深度神经网络(DNN)来连接多个特征图。

6.根据权利要求1所述的方法，其中，还使用去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)或跨部件自适应滤波器(CCALF)中的至少一个来处理所述多个图像帧。

7.根据权利要求2所述的方法，其中，评估所述多个高质量图像帧以确定所述多个图像帧的重构质量，

其中，在所述一个或更多个神经网络中反向传播所述多个图像帧的重构质量，以及

其中，通过所述多个图像帧的重构质量来训练所述一个或更多个神经网络。

8.根据权利要求1所述的方法，还包括确定判别损失，所述判别损失指示所述多个图像帧中的每个图像帧是原始图像帧还是高质量帧的分类中的误差，以及

其中，通过所述判别损失来训练在装置中实现的一个或更多个神经网络。

9.根据权利要求1所述的方法，其中，确定所述对齐特征图包括：使用时间可变形卷积深度神经网络(TDC DNN)，

其中，所述TDC DNN包括堆叠中的多个TDC层，以及

其中，所述多个TDC层中的每个TDC层之后是包括整流线性单元(ReLU)的非线性激活层。

10.一种装置，包括：

至少一个存储器，所述至少一个存储器存储计算机程序代码；以及

至少一个处理器，所述至少一个处理器被配置成访问所述至少一个存储器并按照所述计算机程序代码的指示进行操作，所述计算机程序代码包括：

获取代码，所述获取代码被配置成使所述至少一个处理器获取视频序列中的多个图像帧；

确定代码，所述确定代码被配置成使所述至少一个处理器：

确定所述多个图像帧中的每个图像帧的特征图，并基于所述特征图来确定偏移图；

生成代码，所述生成代码被配置成使所述至少一个处理器生成多个对齐帧。

11.根据权利要求10所述的装置，其中，所述生成代码还被配置成：使所述至少一个处理器对所述多个对齐帧进行合成，以输出与所述多个图像帧相对应的多个高质量帧。

12.根据权利要求10所述的装置，其中，所述确定代码还被配置成：使所述至少一个处理器确定对齐损失，所述对齐损失指示所述特征图与所述对齐特征图之间未对齐的误差，以及

其中，通过所述对齐损失来训练在所述装置中实现的一个或更多个神经网络。

13.根据权利要求10所述的装置，其中，所述获取代码还被配置成：使所述至少一个处理器以堆叠布置所述多个图像帧以获取4维(4D)输入张量。

14.根据权利要求10所述的装置，其中，所述确定代码还被配置成：使所述至少一个处理器通过根据偏移生成深度神经网络(DNN)连接多个特征图来确定所述偏移图。

15.根据权利要求10所述的装置，还包括：

处理代码，所述处理代码被配置成：使所述至少一个处理器使用去块滤波器(DF)、样本自适应偏移(SAO)、自适应环路滤波器(ALF)或跨部件自适应滤波器(CCALF)中的至少一个来处理所述多个图像帧。

16.根据权利要求11所述的装置，其中，所述多个高质量图像帧被评估，以确定所述多个图像帧的重构质量，

其中，所述多个图像帧的重构质量被反向传播到一个或更多个神经网络，以及

17.根据权利要求10所述的装置，其中，所述确定代码还被配置成：使所述至少一个处理器确定判别损失，所述判别损失指示所述多个图像帧中的每个图像帧是原始图像帧还是高质量帧的分类中的误差，以及

其中，通过所述判别损失来训练在所述装置中实现的一个或更多个神经网络。

18.根据权利要求10所述的装置，其中，所述确定代码还被配置成：使所述至少一个处理器使用时间可变形卷积深度神经网络(TDC DNN)来确定所述对齐特征图，

其中，所述TDC DNN包括堆叠中的多个TDC层，以及

19.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序代码，当由至少一个处理器执行所述计算机程序代码时，所述至少一个处理器被配置成：

获取视频序列中的多个图像帧；

确定所述多个图像帧中的每个图像帧的特征图，并且基于所述特征图来确定偏移图；

生成多个对齐帧。

20.根据权利要求19所述的非暂态计算机可读存储介质，其中，所述至少一个处理器还被配置成：