CN107925762B

CN107925762B - 基于神经网络的视频编解码处理方法和装置

Info

Publication number: CN107925762B
Application number: CN201680049982.0A
Authority: CN
Inventors: 黄毓文; 孙域晨; 庄子德; 林建良; 陈庆晔
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2015-09-03
Filing date: 2016-08-29
Publication date: 2020-11-27
Anticipated expiration: 2036-08-29
Also published as: EP3342164B1; KR20180052651A; EP3342164A4; US20180249158A1; US11589041B2; CN107925762A; CA2997193C; KR102124714B1; EP3342164A1; CA2997193A1; WO2017036370A1; PH12018500454A1; US11196992B2; US20220078418A1

Abstract

本发明公开了一种结合深度神经网络的视频编解码的方法和装置，使用DNN(Deep Neural Network，深度神经网络)处理目标信号，其中提供给DNN输入的目标信号对应于重建残差，预测过程、重建过程、一个或多个过滤过程或其组合的输出。来自DNN输出的输出数据被提供用于编码处理或解码处理。DNN可用于复原目标信号的像素值或预测目标信号与原始信号之间的一个或多个残差像素的符号。一个或多个残差像素的绝对值可以在视频比特流中通过信号发送，并与符号一起使用以减少目标信号的残差。

Description

基于神经网络的视频编解码处理方法和装置

优先权声明

本发明要求于2015年9月3日提交的申请号为62/214,121的美国临时专利申请的优先权，其整体以引用的方式并入本文。

技术领域

本发明涉及视频编解码的一般领域。特别地，涉及在视频编解码系统中将深度神经网络(Deep Neural Network，DNN)应用于目标信号，其中提供给DNN输入端的目标信号对应于重建残差、来自预测过程、重建过程、所述至少一个过滤过程、或者它们的任何组合的输出。

背景技术

神经网络，也被称为“人工”神经网络(Artificial Neural Network，ANN)，是一种信息处理系统，其具有与生物神经网络相同的某些性能特征。神经网络系统由许多简单且高度互连的处理部件组成，以通过这些处理部件的对应于外部输入的动态信息来处理信息。处理部件可以被认为是人脑中的神经元，其中每个感知器(perceptron)接收多个输入并且计算输入的加权和。在神经网络领域，感知器被认为是生物神经元的数学模型。此外，这些互联的处理部件通常集结成层。对于识别应用，外部输入可以对应于网络中展示的模式，网络与一个或多个中间层(也被称为“隐藏层”)通信，其中实际过程是通过加权“连接”的系统完成。

人工神经网络可以使用不同的架构来指定网络中包括哪些变量以及它们之间的拓扑关系。例如神经网络中包括的变量可以是神经元之间连接的权重，其随着神经元的活动而变化。前馈网络是神经网络拓扑结构中的一种类型，其中每层中的节点被馈送到下一级，并且在同一层中的节点之间存在连接。大多数人工神经网络包含某种形式的“学习规则”，其根据所提出的输入模式修改连接的权重。在某种意义上，人工神经网络和他们类似的生物神经网络一样，都是通过示例学习的。反向传播神经网络是一个更为先进的神经网络，其允许权重调整的反向错误传播。因此，反向传播神经网络能够通过将向神经网络反馈的误差最小化来改善性能。

深度多层神经网络或深度神经网络(deep neural network，DNN)对应于具有多层互连节点的神经网络，允许其简洁地(compactly)表示高度非线性和高度变化的功能。然而，DNN的计算复杂度随着与大量的层相关的节点的数量的增加而急剧增加。直到最近，开发了一些有效的计算方法来训练这样的深度神经网络。其中，Hinton等人提出了一种逐层贪婪无监督学习过程，其依赖于受限玻尔兹曼机(restricted Boltzmann machines，RBM)训练算法来初始化深度信念网络(deep belief network，DBN)的参数。(Hinton等人“Afast learning algorithm for deep belief nets”，Neural Computation，第18卷，第1527-1554页，2006年)。Bengio等人提出了另一种逐层贪婪无监督学习过程。(“Greedylayer-wise training of deep networks”，Advances in Neural InformationProcessing Systems 19，作者：

等，153-160页，MIT出版，2007年)。Ranzato等人开发了另一种有效的训练算法。(“Efficient learning of sparse representationswith an energy-based model”，Advances in Neural Information Processing Systems19，作者：

等，153-160页，MIT出版，2007年)。

因为在DNN训练方面取得突破性进展，DNN已成功应用于诸如语音识别、图片分割、物体检测、面部识别等各种复杂任务。随着DNN在各个领域的成功，希望探索将DNN应用于视频编解码的潜力。具体而言，期望进一步改进诸如高效视频编解码(High EfficiencyVideo Coding，HEVC)的新兴视频编解码标准的性能。

高效视频编解码(High Efficiency Video Coding，HEVC)标准是在ITU-T视频编解码专家组(Video Coding Experts Group，VCEG)和ISO/IEC移动图片专家组(MovingPicture Experts Group，MPEG)标准化组织的联合视频项目下开发的，其合作关系被称为视频编解码联合合作小组(Joint Collaborative Team on Video Coding，JCT-VC)。

在HEVC中，一个片被划分为多个编码树单元(CTU)。CTU被进一步划分为多个编码单元(coding unit，CU)以适应各种局部特征。HEVC支持多种帧内预测模式，且对于帧内预测编解码CU，所选择的帧内预测模式通过信号传递。除了编码单元的概念之外，HEVC中还引入了预测单元(prediction unit，PU)的概念。一旦CU分层树的划分完成，根据预测类型和PU(prediction unit，预测单元)分区将每一个叶CU进一步划分成一个或多个预测单元(prediction unit，PU)。在预测之后，将与CU相关的残差划分为转换块，其被称为用于转换过程的转换单元(Transform Unit，TU)。

图1A是基于HEVC的自适应帧内/帧间视频编码器的实施例。当采用帧间模式时，帧内/帧间预测单元110基于运动估计(Motion Estimation，ME)/运动补偿(MotionCompensation，MC)生成帧间预测。当采用帧内模式时，帧内/帧间预测单元110生成帧内预测。帧内/帧间预测数据(即，帧内/帧间预测信号)被提供给减法器116以通过从与输入图片相关的信号中减去帧内/帧间预测信号来生成预测误差，其也被称为残差。生成帧内/帧间预测数据的过程在本发明中被认为是预测过程。随后在对预测误差(即，残差)进行转换(T)过程，随后经过量化(Q)过程(T+Q，120)。经过转换和量化过程的残差随后被熵编解码单元122编码，存储对应压缩视频数据的视频比特流中。然后，将与转换系数相关联的比特流与诸如运动、编解码模式以及其他与图片区域相关的信息之类的边信息一起打包。边信息也可以通过熵编解码来压缩以减少所需的带宽。由于重建的图片可以作为帧间预测的参考图片使用，参考图片也必须在编码器端重建。因此，经过转换和量化过程的残差经过反向量化(IQ)过程和反向转换(IT)(IQ+IT，124)过程以重建残差。重建残差随后被加回重建器(REC)128中的帧内/帧间预测数据以重建视频数据。在本发明中向帧内/帧间预测信号加上重建残差的过程被认为是重建处理。来自重建处理的输出图片被认为是重建图片。为了减少重建图片中的伪影，使用包括去块滤波器(Deblocking Filter，DF)130和采样自适应偏移(Sample Adaptive Offset，SAO)132的环路内滤波器。在本发明中，所有滤波处理的输出处的滤波的重构图片被称为解码图片。解码图片储存于帧缓冲器140中，并用于其他帧的预测。图1B是基于HEVC的自适应帧内/帧间视频解码器的实施例。因为编码器还包括用于重建视频数据的本地解码器，除了熵解码器210，一些解码器组件已经在编码器中被使用。在解码器侧，熵解码单元160被用于复原比特流中的编解码码元或语法。在本发明中，由输入比特流生成重建残差的过程称为残差解码过程。用于生成帧内/帧间预测数据的预测过程也被应用在解码器侧，然而，由于帧间预测仅需要使用由比特流推导出的运动信息来执行运动补偿，帧内/帧间预测单元150与编码器侧的帧内/帧间预测单元不同。此外，加法器114用于向帧内/帧间预测数据加上重建残差。

在HEVC标准发展的期间，还公开了称为自适应环路滤波器(Adaptive LoopFilter，ALF)的另一个环路内滤波器，但其未被采纳到主标准中。ALF可以用来进一步提高视频质量。例如，可以在SAO 132之后使用ALF 210，以及，如图2A中的编码器侧和图2B中的解码器侧中所示，来自ALF 210的输出存储在帧缓冲器140中。对于解码器侧，来自ALF 210的输出也可以用作用于显示或其他过程的解码器输出。在本发明中，去块滤波器SAO和ALF都被称为滤波处理。

发明内容

本发明公开了一种结合深度神经网络的视频编码或解码的方法和装置。根据该方法，使用深度神经网络(Deep Neural Network，DNN)处理目标信号，其中提供给DNN输入端的目标信号对应于重建残差、来自来自预测过程、重建过程、所述至少一个过滤过程、或者它们的任何组合的输出。在编码器侧，来自DNN输出的输出数据被提供用于编码处理。在解码器侧，来自DNN输出的输出数据被提供给解码处理。DNN可用于复原目标信号的像素值或预测目标信号与原始信号之间的一个或多个残余像素的符号。一个或多个残差像素的绝对值可以在视频比特流中通过信号发送，并与符号一起使用以减少目标信号的残差。

滤波处理可以包括去块滤波器，采样自适应偏移(Sample Adaptive Offset，SAO)，自适应环路滤波器(Adaptive Loop Filter，ALF)以及它们的任何组合。提供给DNN输入的目标信号可对应于来自重建过程、去块滤波器、SAO或ALF的输出。另一方面，可以将来自DNN输出的输出数据作为解码图片提供或者作为输入提供给解块滤波器、SAO或ALF。

可以为视频编解码系统预先定义DNN的参数。此外，视频编码系统可以对多组DNN参数进行选择。多组DNN参数中的选择可以取决于视频比特流，或者由解码器处隐性决定。可以在视频比特流中的序列级、图片级、片级、编码树单元(Coding Tree Unit，CTU)级或编码单元(CU)级中确定多组DNN参数中的选择。此外，可以使用开/关控制标志来指示DNN是否被启用。

在一个实施例中，DNN可以具有包括重建残差作为一个DNN输入的多个DNN输入。例如，多个DNN输入对应于重建残差和预测信号，并且DNN提供重建图片作为用于滤波处理的DNN输出。

在基于块的编解码中，用于DNN处理的相邻样本可能不可用。不可用的样本可以通过填充生成，也可以不使用DNN处理。每个图片也可以被划分成区域，使得可以将具有DNN的编解码处理并行应用于多个区域。对于靠近区域边界的不可用样本，可以通过填充生成不可用样本。

在又一个实施例中，目标信号与多个图片相关联。在使用DNN处理目标信号之前对齐多个图片。在这种情况下，来自多个图片的对应单元的像素基于与多个图片的对应单元有关的运动信息对齐。

在又一个实施例中，当图片包括不同的颜色分量时，使用DNN的处理目标信号可以共同地或独立地处理不同的颜色分量。

附图说明

图1A是基于高效视频编解码(High Efficiency Video Coding，HEVC)标准的自适应帧内/帧间视频编码器的实施例。

图1B是基于高效视频编解码(High Efficiency Video Coding，HEVC)标准的自适应帧内/帧间视频解码器的实施例。

图2A是具有添加的ALF处理的与图1A中所示的自适应帧内/帧间视频编码器类似的自适应帧内/帧间视频编码器的实施例。

图2B是具有添加的ALF处理的与图1B中所示的自适应帧内/帧间视频编码器类似的自适应帧内/帧间视频编码器的实施例。

图3是本发明提供的一实施例的视频编码器的示意图，其中将深度神经网络(DeepNeural network，DNN)应用于残差信号。

图4是本发明提供的一实施例的视频编码器的示意图，其中深度神经网络(DeepNeural network，DNN)具有包括残差信号的多个输入。

图5是本发明提供的一实施例中结合了深度神经网络(Deep Neural network，DNN)的视频解码器的工作流程示意图。

图6是本发明提供的一实施例中结合了深度神经网络(Deep Neural network，DNN)的视频编码器工作的流程示意图。

具体实施方式

以下描述是实施本发明的最佳预期模式。这个描述是为了说明本发明的一般原理而做出的，且不应该认为是限制性的。本发明的范围是通过参考所附的权利要求来准确确定。

在不同的图片复原或处理方法中，基于神经网络，尤其是深度神经网络(DeepNeural network，DNN)的方法，近年来已被证实是有希望的。其已被应用于图片去噪、图片超分辨率以及其他各种复杂的图片过程任务中。在各种研究中，与传统的图片处理方法相比，DNN已经展示出了其具有更好的性能。因此，在本发明中，DNN被用作为视频编解码中的图片复原方法以提高主观质量或编解码效率。

根据本发明，DNN被作为视频编解码系统中的图片复原技术使用。本发明还公开了另一种类型的DNN应用，其中DNN被用作是分类器，用于将底层的像素分为不同的类别。可选地，DNN被用于对每个环路内滤波器使能区域进行逐像素的环路内滤波器开/关判定。DNN可以应用于视频编解码链中视频信号受失真影响的点。例如，如图2A和图2B分别所示的，DNN可以应用于编码器和解码器中ALF(标记为点A)的输出。如图2A和图2B所示，在具备或者不具备其他复原方法的视频编解码系统中，可以在SAO(标记为点B)、DF(标记为点C)或REC(标记为点D)之后应用DNN。当DNN用于信号复原时，DNN输出被提供给下一级。例如，DNN在图2A和图2B中的信号点A处的情况下，DNN输入对应于来自ALF 210的输出，且DNN输出被存储在帧缓冲器140中。DNN在信号点B处的情况下，DNN输入对应于来自SAO 132的输出，并且DNN输出被提供给ALF 210。DNN所处理的信号可以对应于不同类型的信号，例如图2A和图2B的示例中所示的复原图片(点D)、DF处理(点C)、SAO处理(点B)和ALF处理(点A)。为了方便，在本发明中将由DNN处理的信号称为目标信号。

根据本发明的另一实施例，DNN被用于重建残差信号。例如，对于图2A中的编码器，DNN 310可以被应用于如图3所示的来自IQ+IT 124的重建残差。在这种情况下，目标信号对应于来自IQ+IT 124的输出(即重建残差)。重建残差在被DNN复原后被提供给重建处理(即，REC 128)以生成重建图片。

根据本发明的又一个实施例，DNN可以使用多个输入。其中一个输入可以是重建残差。例如，如图4所示，帧内/帧间预测信号和重建残差信号都是DNN 410的输入，且输出是DNN滤波的重建像素。在这种情况下，DNN也被用于重建处理(即，直接复原重建像素)。来自DNN的重建图片被提供给DF 130以进一步处理。

如前文中所述，在DNN中有许多参数或变量，例如层数或深度、滤波器系数、滤波器占用空间(filter footprint)，非线性运算等等。解码器使用的参数应与编码器使用的参数相同。这些参数可能必须从编码器通过信号发送到解码器。为了减少DNN的边信息，在视频编解码系统中可以标准化一些预定义的参数。因此，输出比特流中没有加入额外的信息。

然而，为了适应不同的输入图片的特征，视频编解码系统可以支持多组预定义的参数。预定义的参数组的选择可以明确地通过信号发送给解码器，或者由解码器隐性决定。明确地选择可以发信于序列级、图片级、片级、CTU(Coding Tree Unit，编码树单位)行级、CTU级或CU(Coding Unit，编码单元)级中。隐性选择可以取决于切片类型、量化参数、预测模式、量化系数、重建残差、预测器、重建像素或运动信息。

除了预先定义的参数之外，DNN参数也可以在比特流中发信以概括该框架。参数可以在序列级、图片级、片级、CTU行级、CTU级或CU级被编码。此外，用于指示是否启用DNN的开/关控制标志可以通过发信给解码器以进一步改善该框架的性能。该开/关控制标志可以发信于序列级、图片级、片级、CTU行级、CTU级或CU级中。在另一个实施例中，DNN参数可以基于传输的比特流中即时自适应更新。例如，编解码图片的最终重建像素可以被用作为训练数据，以针对连续编解码的图片更新即时的DNN参数。

在另一实施例中，在REC、DF、SAO或ALF之后应用DNN以预测目标信号与原始信号之间的一个或多个残差像素的符号。该残差是从原始输入图片减去帧内/帧间预测数据生成的残差(即，图2A中的减法器116的输出)的差值。为了清楚起见，此处的残差被认为是第二残差，指的是编解码链中的信号以及与其对应的原始信号之间的差。例如，重建处理(即，REC 128)的输出处的第二残差对应于重建处理的输出与原始输入图片之间的差。在另一个示例中，SAO132的输出处的第二残差对应于SAO132的输出与DF130的输出之间的差。绝对值被进一步传输并与由DNN预测的符号组合，以减少像素或一组像素的残差误差。该方法可以是环路内或者环路外过程。如果该方法是环路外过程，则解码器可以选择性地应用该方法。编码器不会使用复原帧来预测后续帧。因此，如果解码器不对帧应用该方法，则不使用该方法的结果是编码器和解码器之间的失配不会传播到随后的帧。

在又一个实施例中，在DF、SAO、ALF或其他环路内滤波器之后应用DNN以确定环路内滤波器使能区域内的像素是否应由环路内滤波器修改。例如，如图2A和图2B所示，DNN可以分别应用于编码器中的SAO 132的输出以及解码器中SAO 132的输出。当为了当前CTU启用SAO 132时，DNN用于确定当前CTU中的每个像素是否应该由SAO 132修改。根据DNN做出的决定，当前CTU中的一些像素可以保持与DF130输出的像素相同的像素强度，而当前CTU中的其他像素可由SAO 132修改。

DNN的主要过程本质上类似于滤波。因此，对于图片边界处的那些像素，有一些不可用的像素却被DNN处理所需要。有两个解决方案来解决这个问题。一个解决方案是使用填充技术来生成对应的像素。填充技术可以是最近的像素复制、奇数镜像或者偶数镜像。另一个解决方案是跳过这些像素的DNN处理。此外，为了实现DNN的并行过程，可以将类似的填充技术应用于一些可以由DNN并行处理的预定义的区域。预定义的区域可以是一个图片、一个片、一个CTU行、一个CTU、一个编码单元、一个预测单元、一个变换单元或一个块。预定义的区域可以通过发信给解码器。可以通过一个处于序列级、图片级、片级或CTU行级的编码标志来启用或停用DNN的并行处理。

在另一个实施例中，DNN的输入可以是来自多个帧的像素，在本发明中其被称为多帧DNN。当应用多帧DNN时，首先将来自多个帧的输入像素与运动信息对齐。对齐的精度可以是整数或分数样本精度。对应的单元可以是一个帧、一个片、一个CTU行、一个CTU、一个编码单元、一个预测单元、一个变换单元、一个预定义的块或一个像素。相关的运动信息可以是平移模型(translational model)，各向同性模型(isotropic model)，仿射模型(affinemodel)，透视模型(perspective model)，抛物线模型(parabolic model)或其他高阶多项式运动模型。当使用多帧DNN时，在比特流中编解码的运动信息可以被重新使用以执行对齐。

在另一个实施例中，当将DNN应用于视频编解码时，，可以在一个DNN系统中一起处理不同的颜色分量，或者单独处理不同的颜色分量。此外，DNN可以首先应用于亮度分量。然后使用亮度分量来修改色度分量，或者可以直接跳过色度的处理。一个DNN系统的位深度可以取决于输入像素的位深度。

图5是本发明提供的一实施例中结合了深度神经网络(Deep Neural network，DNN)的视频解码器的工作流程示意图。该方法在步骤510中接收对应于视频序列中的一个或多个图片的视频比特流。在步骤520中使用解码处理对每个图片进行解码，解码处理包括以下处理的一个或组合：从视频比特流生成重建的残差的残差解码处理，生成与每个图片相关的预测信号的预测处理，根据重建残差和预测信号生成重建图片的重建处理，以及至少一个用于重建图片的滤波处理。在步骤530中，使用DNN(Deep Neural Network，深度神经网络)处理目标信号，其中提供给DNN输入的目标信号对应于重建残差，来自预测处理、重建处理或上述至少一个滤波处理或其组合的输出。在步骤540中将来自DNN输出的输出数据提供给解码处理。

图6是本发明提供的一实施例中结合了深度神经网络(Deep Neural network，DNN)的视频编码器工作的流程示意图。该方法在步骤610中接收对应于视频序列中的一个或多个图片的输入数据。在步骤620中使用编码处理对每个图片进行编码，编码处理包括以下处理的一个或组合：生成与每个图片相关的预测信号的预测处理，根据重建残差和预测信号生成重建图片的重建处理，以及应用于重建图片的至少一个滤波处理。在步骤630中，使用DNN(Deep Neural Network，深度神经网络)处理目标信号，其中提供给DNN输入的目标信号对应于重建残差、来自预测处理、重建处理或上述至少一个滤波处理或其组合的输出。在步骤640中将来自DNN输出的输出数据提供给编码处理。

所示的流程图用于说明本发明的视频编解码的示例。本领域技术人员可以对本申请的各个步骤进行修改、重新排列、拆分或组合以在不脱离本发明的精发明的实施例的示例。本领域技术人员可以通过在不脱离本发明的精神的情况下用等同的语法和语义进行替换来实践本发明。

提出以上描述是为了使本领域普通技术人员能够在提供的特定的应用及其要求的情况下能够实施本申请。对所描述的实施例的各种修改对于本领域技术人员而言是显而易见的，并且本文中定义的基本原理可以应用于其他实施例。因此，本申请不限于所示出和描述的特定实施例，而是应被赋予与本文公开的原理和新颖特征相一致的最宽范围。在上文的详细描述中，为了提供对本申请的全面理解，示出了各种具体细节。然而，本领域技术人员将会理解，可以在没有这些具体细节的情况下实践本申请。

本申请中如上所述的实施例可以以各种硬件、软件代码或两者的组合来实现。例如，本申请的实施例可以是集成到视频压缩芯片中的一个或多个电路或集成到视频压缩软件中的程序代码，以执行本文中描述的处理。本申请的实施例还可以是要在数字信号处理器(Digital Signal Processor，DSP)上执行的程序代码，以执行本文中描述的处理。本申请还可涉及由计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(fieldprogrammable gate array，FPGA)执行的多个功能。这些处理器可以被配置为通过执行机器可读软件代码或固件代码来执行根据本申请的特定任务，该软件代码或固件代码定义了本申请中所体现的特定方法。软件代码或固件代码可以用不同的编程语言和不同的格式或呈现方式来开发。软件代码也可以针对不同的目标平台进行编译。然而，根据本申请的软件代码的不同代码格式、呈现方式和语言以及配置代码以执行任务的其他手段不会背离本申请的精神和范围。

在不脱离本申请的精神或基本特征的情况下，可以以其他特定形式来实施本申请。所描述的示例在所有方面都被认为是说明性的而不是切片性的。因此，本申请的范围由所附权利要求而不是由之前的描述来指示。在权利要求的等同的含义和范围内的所有变化都将被包括在其范围内。

Claims

1.一种用于视频解码器的视频解码方法，其特征在于，所述方法包括：

接收视频序列中对应于一个或多个图片的视频比特流；

使用解码处理对每个所述图片进行解码，所述解码处理包括以下处理：从所述视频比特流生成重建的残差的残差解码处理，生成与每个所述图片相关的预测信号的预测处理，根据所述重建残差和所述预测信号生成重建图片的重建处理，以及/或者至少一个用于所述重建图片的滤波处理；

使用深度神经网络处理目标信号，其中被提供给所述深度神经网络输入的所述目标信号对应于所述重建残差，为所述重建处理提供来自深度神经网络输出的输出数据；以及/或者

被提供给所述深度神经网络输入的所述目标信号对应于所述预测处理的输出以及所述重建处理的输出，为所述滤波处理提供来自深度神经网络输出的输出数据；以及/或者

被提供给所述深度神经网络输入的所述目标信号对应于所述至少一个滤波处理，为所述至少一个滤波处理的下一级滤波处理提供来自深度神经网络输出的输出数据，或为解码图片提供来自深度神经网络输出的输出数据；

其中所述一个或多个图片包括不同的色彩分量，所述使用所述深度神经网络处理所述目标信号包括对不同的所述色彩分量一同处理或者对不同的所述色彩分量分别处理。

2.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述至少一个滤波处理包括去块滤波器、取样自适应偏移、自适应环路滤波器或者其组合。

3.根据权利要求2所述的用于视频解码器的视频解码方法，其特征在于，

被提供给所述深度神经网络输入的所述目标信号对应于所述去块滤波器、所述取样自适应偏移或者所述自适应环路滤波器的输出。

4.根据权利要求2所述的用于视频解码器的视频解码方法，其特征在于，

来自所述深度神经网络输出的所述输出数据被作为解码图片或者提供给所述去块滤波器、所述取样自适应偏移或者所述自适应环路滤波器作为输入。

5.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络被用于复原所述目标信号的像素值。

6.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络被用于预测所述目标信号和原始信号之间的一个或多个残差像素的符号。

7.根据权利要求6所述的用于视频解码器的视频解码方法，其特征在于，

所述一个或多个残差像素的绝对值取决于所述视频比特流，其中所述绝对值和所述一个或多个残差像素的符号被用于减少所述一个或多个残差像素的残差误差。

8.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络的深度神经网络参数针对所述视频解码器预先设置。

9.根据权利要求8所述的用于视频解码器的视频解码方法，其特征在于，

多组所述深度神经网络参数可供所述视频解码器选择。

10.根据权利要求9所述的用于视频解码器的视频解码方法，其特征在于，

在所述多组深度神经网络参数中的选择取决于所述视频比特流或者隐性取决于所述视频解码器。

11.根据权利要求10所述的用于视频解码器的视频解码方法，其特征在于，

在所述多组深度神经网络参数中的所述选择取决于视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。

12.根据权利要求10所述的用于视频解码器的视频解码方法，其特征在于，

在所述多组深度神经网络参数中的所述选择是由所述视频解码器侧决定，所述选择取决于片类型、量化参数、预测模式、量化系数、所述重建残差、预测器、重建像素、运动信息，或其任意组合。

13.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络的所述深度神经网络参数取决于所述视频比特流。

14.根据权利要求13所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络参数取决于视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。

15.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

开/关控制标记被用于指示所述深度神经网络是被启用或停用。

16.根据权利要求15所述的用于视频解码器的视频解码方法，其特征在于，

所述开/关控制标记取决于所述视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。

17.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络输入对应于所述重建残差且所述深度神经网络输出被提供给所述重建处理。

18.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述深度神经网络具有多个深度神经网络输入且将所述重建残差作为一个深度神经网络输入。

19.根据权利要求18所述的用于视频解码器的视频解码方法，其特征在于，

所述多个深度神经网络输入对应于所述重建残差和所述预测信号，以及所述深度神经网络向所述至少一个滤波处理提供所述重建图片作为所述深度神经网络输出。

20.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

每个图片被划分为块以用于解码处理，所述使用深度神经网络处理目标信号包括使用用于处理所述目标信号的至少一个样本的一个或多个相邻样本，以及如果当前块的所述一个或多个相邻样本中的任何一个在块的边界处不可用，则不可用的所述相邻样本是由使用填充技术生成的或者跳过所述使用深度神经网络处理所述目标信号。

21.根据权利要求20所述的用于视频解码器的视频解码方法，其特征在于，

每一个区域对应于一个图片、一个片、一个编码树单元行、一个编码树单元、一个编码单元、一个预测单元、一个变换单元或者一个块。

22.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述目标信号与多个图片相关。

23.根据权利要求22所述的用于视频解码器的视频解码方法，其特征在于，

在所述使用深度神经网络处理目标信号之前所述多个图片预先对齐，来自所述多个图片的对应的单元的像素基于与所述多个图片的所述对应单元的运动信息对齐。

24.根据权利要求23所述的用于视频解码器的视频解码方法，其特征在于，

每个所述对应单元对应于一个图片、一个片、一个编码树单元行、一个编码树单元、一个编码单元、一个预测单元、一个变换单元、一个块或者一个像素。

25.根据权利要求23所述的用于视频解码器的视频解码方法，其特征在于，

所述运动信息与变换模型、各向同性模型、仿射模型、抛物线模型或者高阶多项式模型相关。

26.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述使用深度神经网络处理目标信号包括首先对亮度分量进行处理，然后被处理的所述亮度分量被作为用于处理一个或多个色度分量的所述深度神经网络处理的输入或者所述一个或多个色度分量不被所述深度神经网络处理。

27.根据权利要求1所述的用于视频解码器的视频解码方法，其特征在于，

所述使用深度神经网络处理目标信号所使用的位深度取决于所述目标信号的像素的位深度。

28.一种用于用于视频解码器的视频解码装置，其特征在于，所述装置包括一个或多个电子元件或处理器，用于：

接收视频序列中对应于一个或多个图片的视频比特流；

使用深度神经网络处理目标信号，其中被提供给深度神经网络输入的所述目标信号对应于所述重建残差，为所述重建处理提供来自深度神经网络输出的输出数据；以及/或者

29.一种用于视频编码器的视频编码方法，其特征在于，所述方法包括：

接收视频序列中对应于一个或多个图片的输入数据；

使用编码处理对每个所述图片进行编码，所述编码处理包括以下处理：生成与每个所述图片相关的预测信号的预测处理，根据重建残差和所述预测信号生成重建图片的重建处理，以及/或者至少一个用于所述重建图片的滤波处理；

被提供给所述深度神经网络输入的所述目标信号对应于所述至少一个滤波处理，为所述至少一个滤波处理的下一级滤波处理提供来自深度神经网络输出的输出数据，或为编码图片提供来自深度神经网络输出的输出数据；

30.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

31.根据权利要求30所述的用于视频编码器的视频编码方法，其特征在于，

提供给所述深度神经网络输入的所述目标信号对应于所述去块滤波器、所述取样自适应偏移或者所述自适应环路滤波器的输出。

32.根据权利要求30所述的用于视频编码器的视频编码方法，其特征在于，

33.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

所述深度神经网络被用于复原所述目标信号的像素值。

34.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

所述深度神经网络被用于预测所述目标信号的一个或多个像素的重建残差有关的符号。

35.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

所述深度神经网络使用包括所述重建残差和预测信号的多个深度神经网络输入，以及所述深度神经网络向所述至少一个滤波处理提供所述重建图片作为所述深度神经网络输出。

36.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

每个图片被划分为块以用于所述编码处理以及所述使用深度神经网络处理目标信号包括使用一个或多个相邻样本来处理所述目标信号的至少一个样本，其中，如果当前块中的所述一个或多个相邻样本中的任何一个在块的边界处不可用，则不可用的所述相邻样本是由使用填充技术生成或者跳过所述使用深度神经网络处理所述目标信号。

37.根据权利要求29所述的用于视频编码器的视频编码方法，其特征在于，

所述目标信号与多个所述图片相关。

38.根据权利要求37所述的用于视频编码器的视频编码方法，其特征在于，

在所述使用深度神经网络处理目标信号之前所述多个图片预先对齐，以及来自所述多个图片的对应的单元的像素基于与所述多个图片的所述对应单元的运动信息对齐。

39.一种用于用于视频编码器的视频编码装置，其特征在于，所述装置包括一个或多个电子元件或处理器，用于：

接收视频序列中对应于一个或多个图片的输入数据；

使用深度神经网络处理目标信号，其中提供给深度神经网络输入的所述目标信号对应于所述重建残差，为所述重建处理提供来自深度神经网络输出的输出数据；以及/或者