CN111133756B

CN111133756B - 用于视频编码的神经网络方法和装置

Info

Publication number: CN111133756B
Application number: CN201880060786.2A
Authority: CN
Inventors: 苏郁琪; 柯扬; 陈庆晔; 庄子德; 黄毓文
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-10-12
Filing date: 2018-09-28
Publication date: 2022-04-19
Anticipated expiration: 2038-09-28
Also published as: US11363302B2; EP3685577A1; WO2019072097A1; TW201924342A; TWI709329B; US20200252654A1; CN111133756A; EP3685577A4

Abstract

本申请提供了一种使用神经网络(Neural Network,NN)对视频编码器或解码器进行视频编解码的视频编解码方法和装置。根据一种方法，接收输入数据或视频比特流用于一个或多个图像中的块，其包括一个或多个颜色分量。针对所述一个或多个图像的一个或多个块导出残差数据，预测数据，重建数据，滤波重建数据或其组合。使用神经网络处理与一个或多个信号类型相对应的目标信号，并且神经网络的输入或神经网络的输出包括两个或更多个颜色分量。根据另一种方法，使用神经网络处理与一个或多个约信号类型相对应的目标信号，并且神经网络的输入或神经网络的输出包括两个或更多个颜色分量。

Description

用于视频编码的神经网络方法和装置

交叉申请

本发明主张在2017年10月12日提出的第62/571,347号的美国临时专利申请、在2017年10月12日提出的第62/571,350号的美国临时专利申请、在2017年10月12日提出的第62/571,352号的美国临时专利申请以及在2017年11月20日提出的第62/588,493号的美国临时专利申请的优先权。美国临时专利申请的全部内容在此引入作为参考。

技术领域

本发明涉及视频编码。具体而言，本发明涉及一种编码系统中将神经网络(NeuralNetwork,以下简称为NN)应用于一个或多个目标信号的装置和方案，其中提供给神经网络输入的目标信号对应于重建残差，来自预测过程的输出，重建过程或所述至少一个过滤过程，或它们的任何组合。

背景技术

神经网络(Neural Network,NN)，也称为“人工”神经网络('Artificial'NeuralNetwork,ANN)，是具有与生物神经网络共同的某些性能特征的信息处理系统。神经网络系统由许多简单且高度互连的处理组件组成，透过对外部输入的动态状态响应来处理信息。处理组件可以被认为是人脑中的神经元，其中每个感知器接受多个输入并计算输入的加权和。在神经网络领域，感知器被认为是生物神经元的数学模型。此外，这些互连的处理组件通常以层的形式组织。对于识别应用，外部输入可以对应于呈现给网络的模式，该模式与一个或多个中间层通信，也称为“隐藏层”，其中实际处理是透过加权“连接”系统完成的。

人工神经网络可以使用不同的架构来指定网络中涉及哪些变量及其拓扑关系。例如，神经网络中涉及的变量可能是神经元之间连接的权重，以及神经元的活动。前馈网络是一种神经网络拓扑，其中每层中的节点被馈送到下一级，并且同一层中的节点之间存在连接。大多数人工神经网络都包含某种形式的“学习规则”，它根据所呈现的输入模式修改连接的权重。从某种意义上说，人工神经网络就像他们的生物学对像一样透过实例来学习。向后传播神经网络是一种更先进的神经网络，允许权重调整(weight adjustments)的向后误差传播。因此，后向传播神经网络能够透过最小化向后馈送到神经网络的误差来改善性能。

神经网络可以是深度神经网络(deep neural network,DNN)，卷积神经网络(convolutional neural network,CNN)，递归神经网络(recurrent neural network,RNN)或其他神经网络变体。深度多层神经网络或深度神经网络(DNN)对应于具有多级互连节点的神经网络，其允许它们紧凑地表示高度非线性和高度变化的函数。然而，DNN的计算复杂度随着与大量层相关联的节点数量的增加而迅速增长。

CNN是一类前馈人工神经网络，其最常用于分析视觉图像。递归神经网络(RNN)是一类人工神经网络，其中节点之间的连接形成沿序列的有向图。与前馈神经网络不同，RNN可以使用其内部状态(存储器)来处理输入序列。RNN可以在其中具有循环以允许信息持续存在。RNN允许对矢量序列进行操作，例如输入，或输出，或输入和输出中的序列。

高效视频编码(HEVC)标准是在ITU-T视频编码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)标准化组织的联合视频项目下开发的，尤其与合作伙伴视频编码联合协作小组(JCT-VC)一起开发的。

在HEVC中，一个片被划分为多个编码树单元(coding tree units,CTU)。CTU进一步划分为多个编码单元(coding units,CU)以适应各种局部特性。HEVC支持多个画面内预测模式，并且对于画面内编码CU，用信号通知所选择的画面内预测模式。除了编码单元的概念之外，还在HEVC中引入了预测单元(prediction unit,PU)的概念。一旦完成CU分层树的分割，则根据预测类型和PU分区将每个叶CU进一步分割成一个或多个预测单元(PU)。在预测之后，与CU相关联的残差被划分为变换块，称为变换单元(transform units,TU)，以用于变换过程。

图1A示出了基于HEVC的示例性自适应画面内/画面间视频编码器。当使用画面间模式时，画面内/画面间预测单元110基于运动估计(ME)/运动补偿(MC)生成画面间预测。画面内/画面间预测单元110在使用画面内模式时生成画面内预测。透过从与输入图像相关联的信号中减去画面内/画面间预测信号，将画面内/画面间预测数据(即，画面内/画面间预测信号)提供给减法器116以形成预测误差，也称为残差(residues)或残差(residual)。产生画面内/画面间预测数据的过程被称为本公开中的预测过程(prediction process)。然后透过变换(Transform，T)随后的量化(Q)，即(T+Q)120处理预测误差(即，残差)。然后，透过熵编码单元122对经变换和量化的残差进行编码，以将其包括在与压缩视频数据相对应的视频比特流中。然后，将与变换系数相关联的比特流与辅助信息(诸如，运动，编码模式和与图像区域相关联的其他信息的辅助信息)一起封装。还可以透过熵编码来压缩辅助信息以减少所需带宽。由于重建的图像可以用作用于画面间预测的参考图像，所以也必须在编码器端重建参考图像。因此，透过逆量化(Inverse Quantization,IQ)和逆变换(InverseTransformation，IT)，即(IQ+IT)124处理已变换和已量化的残差以恢复残差。然后将重构的残差加回到重建单元(REC)128处的画面内/画面间预测数据以重建视频数据。将重构残差添加到画面内/画面间预测信号的过程称为本公开中的重建过程(reconstructionprocess)。来自重建过程的输出图像被称为重建图像。为了减少重建图像中的伪像，使用包括去块滤波器(Deblocking Filter,DF)130和样本自适应偏移(Sample Adaptive Offset,SAO)132的环路滤波器。在本公开中，在所有滤波处理的输出处的已滤波的重构图像被称为解码图像。解码图像存储在帧缓冲器140中并用于预测其他帧。

图1B示出了基于HEVC的示例性自适应画面内/画面间视频解码器。由于编码器还包含用于重建视频数据的本地解码器，因此除了熵解码器之外，在编码器中已经使用了一些其他解码器组件。在解码器侧，熵解码单元160用于从比特流中恢复编码的符号或语法。从输入比特流生成重构残差的过程在本公开中称为残差解码过程。用于生成画面内/画面间预测数据的预测处理也在解码器侧应用，然而，画面内/画面间预测单元150与编码器侧的预测处理不同，因为画面间预测仅需要使用自比特流导出的运动信息来执行运动补偿。此外，加法器114用于将重构的残差添加到画面内/画面间预测数据。

在HEVC标准的开发期间，还公开了另一种称为自适应环路滤波器(ALF)的环路滤波器，但未在主要标准中采用。如用于编码器侧的图2A所示以及如用于解码器侧的图2B所示，ALF可用于进一步改善视频质量。例如，ALF 210可以在SAO 132之后使用，并且来自ALF210的输出存储在帧缓冲器140中。对于解码器侧，来自ALF 210的输出也可以用作解码器输出以用于显示或其他处理。在本公开中，去块滤波器，SAO和ALF都被称为滤波处理(filtering process)。

在不同的图像恢复或处理方法中，基于神经网络的方法，例如深度神经网络(deepneural network,DNN)或卷积神经网络(convolution neural network,CNN)，近年来是一种很有前景的方法。它已经应用于各种图像处理应用，例如图像去噪，图像超分辨率等，并且已经证明，与传统的图像处理方法相比，DNN或CNN可以实现更好的性能。因此，在下文中，我们建议在一个视频编码系统中利用CNN作为一种图像恢复方法，以提高主观质量或编码效率。期望利用神经网络作为视频编码系统中的图像恢复方法，以改善新兴视频编码标准(例如高效视频编码(HEVC))的主观质量或编码效率。

发明内容

本发明公开了一种使用神经网络(NN)对视频编码器或解码器进行视频编解码的视频编解码方法和装置。根据该方法，接收编码器侧的输入数据或解码器侧的视频比特流，其中输入数据包括视频序列中的一个或多个图像，或者视频比特流包括在视频序列中与所述一个或多个图像相关联的压缩数据，并且其中每个图像包括一个或多个颜色分量。针对所述一个或多个图像的一个或多个块导出残差数据，预测数据，重建数据，滤波重建数据或其组合。使用神经网络处理目标信号，其中提供给神经网络的输入的目标信号对应于残差数据，预测数据，重建数据，滤波重建数据或其组合，并且其中神经网络的输入或神经网络的输出包括两个或更多个颜色分量。

在上述方法中，颜色分量可以对应于两个色度分量、或亮度分量和两个色度分量。在一个实施例中，神经网络被设计用于处理亮度分量，并且神经网络的输入包括亮度分量的一个或多个块以及色度分量对应的一个或多个块。可以对色度分量进行上采样以匹配亮度分量的采样率。在另一实施例中，神经网络被设计用于处理色度分量，并且神经网络的输入包括色度分量的一个或多个块以及亮度分量对应的一个或多个块。可以对亮度分量进行下采样以匹配色度分量的采样率。

在上述方法中，神经网络可以对应于CNN(convolutional neural network，卷积神经网络)，DNN(deep fully-connected feed-forward neural network，深度全连接前馈神经网络)，RNN(recurrent neural network，递归神经网络)或GAN(generativeadversarial network，生成性对抗网络)。当神经网络的输出包括两个或更多个颜色分量时，可以为所述两个或更多个颜色分量组合或共享用于启用或禁用各个颜色分量的神经网络的控制标志。

根据另一种方法，接收编码器侧的输入数据或解码器侧的视频比特流，其中输入数据包括视频序列中的一个或多个图像，或者视频比特流包括视频序列中的一个或更多图像相关联的压缩数据。针对该一个或多个图像的一个或多个块导出残差数据、预测数据、重建数据、滤波重建数据或其组合。使用神经网络处理目标信号，其中目标信号对应于残差数据、预测数据、重建数据、滤波重建数据或其组合，以及该一个或多个图像中的该一个或多个块中的至少一个用于导出多个子块，并且将多个子块作为神经网络的输入。

对于第二种方法，子采样可以应用于该一个或多个图像的该一个或多个块中的至少一个以导出多个子块，并且多个子块对应于与子采样相关联的不同相位。

在第二方法的一个实施例中，神经网络被设计用于处理亮度分量，并且神经网络的输入包括亮度分量的一个或多个块以及色度分量对应的一个或多个块。可以对色度分量进行上采样以匹配亮度分量的采样率。在另一示例中，亮度分量的一个或多个块可用于导出要输入到神经网络的多个子块，并且神经网络的输出包括亮度分量的多个输出子块。

在第二方法的一个实施例中，神经网络被设计用于处理多于一个分量。神经网络的输入包括与亮度分量相关联的数据和与色度分量相关联的对应数据，其中亮度分量的一个或多个块可用于导出要输入到神经网络的多个子块。神经网络的输出包括亮度分量的多个输出子块和色度分量的一个或多个输出块。

在另一实施例中，神经网络被设计用于处理色度分量，并且神经网络的输入包括色度分量的一个或多个块以及亮度分量的对应的一个或多个块。可以对亮度分量进行下采样以匹配色度分量的采样率。

在第二方法的一个实施例中，神经网络的输入包括从包括残差数据、预测数据、重建数据和经滤波的重建数据的组中选择第一类型信号和第二类型信号的一个或多个块，并且其中第一类型信号和第二类型信号的该一个或多个块用于导出多个子块。在第二方法的另一实施例中，神经网络的输入包括从包括残差数据、预测数据、重建数据和经滤波的重建数据的组中选择的第一类型信号和第二类型信号的一个或多个块，并且其中仅第一类型信号或第二类型信号的所述一个或多个块用于导出多个子块。

在第二方法中，神经网络可以对应于CNN(卷积神经网络)，DNN(深度全连接前馈神经网络)，RNN(递归神经网络)或GAN(生成性对抗网络)。当神经网络的输出包括两个或更多个颜色分量时，可以为所述两个或更多个颜色分量组合或共享用于启用或禁用各个颜色分量的神经网络的控制标志。

附图说明

图1A标出了基于高效视频编码(HEVC)标准的示例性自适应画面内/画面间视频编码器。

图1B标出了基于高效视频编码(HEVC)标准的示例性自适应画面内/画面间视频解码器。

图2A示出了类似于图1A中的具有额外的ALF过程的示例性自适应画面内/画面间视频编码器。

图2B示出了类似于图1B中的具有额外的ALF过程的示例性自适应画面内/画面间视频解码器。

图3示出了将神经网络应用于重构残差以将神经网络滤波后的残差提供给重建模块以生成重建信号的示例。

图4示出了将神经网络应用于预测子的示例，其中神经网络的输入是来自画面内/画面间预测单元的预测子，并且神经网络的输出是神经网络滤波的预测子。

图5示出了将神经网络应用于重建信号的示例，其中神经网络的输入是来自重建模块(REC)的重建像素，并且神经网络的输出是神经网络滤波的重建像素。

图6示出了多输入神经网络的示例，其中两种类型的输入信号用于神经网络，包括预测子和残差，并且神经网络的输出是神经网络滤波的重建像素。

图7示出了多输入神经网络的另一示例，其中神经网络具有包括预测子和残差的多个输入，并且神经网络的输出是神经网络滤波的预测子。

图8示出了双输入神经网络的又一示例，其中神经网络的多个输入包括预测子和重建像素，并且神经网络的输出是神经网络滤波的重建像素。

图9示出了双输入神经网络的又一示例，其中神经网络的多个输入包括残差和重建的像素，并且神经网络的输出是神经网络滤波的重建像素。

图10示出了双输入神经网络的又一示例，其中神经网络的多个输入包括预测子，残差和重建像素以及神经网络的输出是神经网络滤波的重建像素。

图11示出了根据本发明一个实施例的包含神经网络的视频编码器或解码器的视频编解码的示例性流程图。

图12示出了根据本发明一个实施例的包含神经网络的视频编码器或解码器的视频编解码的示例性流程图。

具体实施方式

以下描述是实现本发明的最佳方案。进行该描述是为了说明本发明的一般原理，而不应被视为具有限制意义。透过参考所附请求项能最好地确定本发明的范围。

依据本发明的一实施方式，公开了一种利用神经网络(例如CNN)作为视频编码系统中的图像恢复方法的方法。例如，如图2A和图2B所示，神经网络在ALF上输出图像并产生最终的解码图像。或者，神经网络可以直接应用于图1A/图1B或图2A/图2B的视频编码系统中的SAO，DF或REC之后，其可与其他重建方法一起或者不与其他重建方法一起。在另一实施例中，神经网络可用于直接恢复量化误差或仅用于改善预测子质量。在前一种情况下，在逆量化和变换之后应用神经网络以恢复重建的残差。在后一种情况下，神经网络应用于由画面间或画面内预测生成的预测子。

当神经网络应用于视频编码时，可以联合或独立地处理不同的颜色分量。例如，在一个实施例中，可以独立地应用不同颜色分量的不同神经网络。因此，在一个视频编码系统中，三个颜色分量总共可以有三个神经网络。在另一实施例中，在一个视频编码系统中存在两个神经网络，一个设计用于亮度分量而另一个设计用于色度分量。在为色度分量设计的神经网络中，U和V可以独立或联合处理。当独立处理U和V时，神经网络一次输出一个颜色分量，并且U和V分量共享神经网络参数。如果可以联合处理U和V，则该神经网络的输入包括U和V分量，并且该神经网络同时生成U和V数据。在另一实施例中，在视频编码系统中仅存在一个神经网络，其中神经网络的输入同时是三个颜色分量，并且输出也是三个颜色分量。

在另一实施例中，为亮度分量设计的神经网络的输入可以仅是亮度分量或者俱有对应的色度部分的亮度分量。为色度分量设计的神经网络的输入可以仅是色度分量，或者是具有相应亮度部分的色度分量。此外，如果YUV采样率对于不同颜色分量是不同的，则可以使用子采样或上采样滤波器来生成相应的部分。例如，当视频格式是YUV420时，为亮度分量设计的神经网络的输入包括亮度分量和上采样的色度数据。或者，为亮度分量设计的神经网络的输入包括下采样的亮度数据和原始的色度数据。在为色度分量设计的神经网络中，输入可以包括两个色度分量和下采样的亮度数据。

当一个神经网络同时处理多于一个颜色分量时，用于启用或禁用不同颜色分量的神经网络的控制标志可以由这些组件联合使用或共享。例如，如果神经网络同时处理两个色度分量，则一个开/关标志可被编解码并由U和V分量来共享。在另一个实施例中，如果神经网络同时处理三个颜色分量，则一个开/关标志可被编解码并由三个颜色分量来共享。

当神经网络应用于视频编码时，一个颜色分量可以是神经网络的一个输入分量。替代地，可以将一个颜色分量进一步划分为多个子块，并且每个子块是神经网络的一个输入分量。例如，由神经网络处理的当前区域的大小是M×N像素。在一个实施例中，如果一个颜色分量是神经网络的一个输入分量，则神经网络的输入可以是具有M×N个像素的一个分量。在另一个实施例中，当前区域可以被划分为四个子块，其大小等于(M/2)x(N/2)，其中这些子块透过用四个不同的相位进行二次采样来生成。在神经网络过程中，每个子块是一种输入分量，因此神经网络的输入包括四个分量，每个分量的大小仅为(M/2)×(N/2)个像素。

在一些神经网络架构中，为亮度分量设计的神经网络的输入可以包括具有对应色度部分的亮度分量。为色度分量设计的神经网络的输入可以包括具有相应亮度部分的色度分量。当YUV采样率对于不同的颜色分量是不同的时，可以处理不同的颜色分量以使得不同输入分量的块大小相等。例如，当视频格式是YUV420时，为亮度分量设计的神经网络的输入可以包括亮度分量和色度分量。基于亮度和色度分量之间的采样比率将亮度分量划分为四个子块。因此，具有与U或V分量相同大小的Y分量的一个子块是神经网络的一个输入分量。因此，对于四个亮度子块有四个输入分量，并且为亮度分量设计的神经网络中的U和V分量有两个输入分量。这六个输入分量的大小是相同的。如果在一种颜色分量中多种类型的数据被使用，则该提出的方法可以应用于所有类型的数据或其中之一。例如，对于一个颜色分量，预测子，残差和重建像素可以用作神经网络的输入。所提出的方法可以用于将所有类型的数据分别分成四个子块，使得神经网络的输入数量从一个分量中大小等于MxN的3个分量增加到每一个分量中大小等于(M/2x N/2)的3x4＝12个分量。在另一个例子中，只有一种类型数据的块(例如重建像素)被划分为四个子块，而另外两种类型的数据在水平和垂直方向上被下采样两倍。然后，神经网络的输入数量从每个分量中尺寸等于MxN的3个组件增加到每个分量中尺寸等于(M/2x N/2)的六个组件。

在上述方法中，所提到的神经网络可以是任何变化的神经网络，例如CNN(卷积神经网络)，DNN(深度全连接前馈神经网络)，RNN(递归神经网络)或GAN(生成对抗性网络)。

根据一个实施例，神经网络的输入可以是单个或多个输入。神经网络的输入可以是残差，预测值，重建像素或这些项的任何组合。例如，如图3所示，神经网络310被应用于来自IQ+IT 124的重建残差。换句话说，残差被用作神经网络的输入，并且神经网络的输出是神经网络滤波后的残差。然后将神经网络滤波后的残差提供给重建模块(即REC 128)以产生重建信号。图3是在视频编码器中应用神经网络310的示例，然而，神经网络310可以以类似的方式应用于相应的视频解码器中。

图4示出了将神经网络410应用于预测子的示例。在这种情况下，神经网络的输入是来自画面内/画面间预测单元110的预测子，并且神经网络的输出是神经网络滤波的预测子。然后将神经网络滤波的预测子残差提供给重建模块(即，REC 128)以生成重建信号。图4是在视频编码器中应用神经网络410的示例。然而，神经网络410可以以类似的方式应用于相应的视频解码器中。

图5示出了将神经网络510应用于重建信号的示例。在图5中，神经网络510的输入是来自REC 128的重建像素。神经网络的输出是神经网络滤波的重建像素，其可以透过去块滤波器(即，DF 130)进一步处理。图5是在视频编码器中应用神经网络510的示例。然而，神经网络510可以以类似的方式应用于相应的视频解码器中。

图6示出了多输入神经网络610的示例，其中两种类型的输入信号用于神经网络。图6示出了神经网络具有多个输入的示例，包括预测子(即，来自画面内/画面间预测子单元110的信号)和残差(即，来自IQ+IT 124的信号)。神经网络的输出是神经网络滤波的重建像素，其可以透过去块滤波器(即，DF 130)进一步处理。图6是在视频编码器中应用神经网络610的示例。然而，神经网络610可以以类似的方式应用于相应的视频解码器中。

图7示出了多输入神经网络710的另一示例，其类似于图6中的系统。在图7中，神经网络具有包括预测子的多个输入(即，来自画面内/画面间预测子单元110的信号)和残差(即来自IQ+IT 124的信号)。然而，神经网络生成神经网络滤波的预测子，而不是如图6所示的神经网络滤波的重建像素。然后，将神经网络滤波的预测子提供给重建模块(即，REC128)以生成重构信号。图7是在视频编码器中应用神经网络710的示例。然而，神经网络710可以以类似的方式应用于相应的视频解码器中。

图8示出了双输入神经网络810的又一示例。在图8中，神经网络的多个输入包括预测子(即，来自画面内/画面间预测子单元110的信号)和来自REC 128的重建像素。神经网络的输出是神经网络滤波的重建像素，其可以透过去块滤波器(即，DF 130)进一步处理。图8是在视频编码器中应用神经网络810的示例。然而，神经网络810可以以类似的方式应用于相应的视频解码器中。

图9示出了双输入神经网络910的又一示例。在图9中，神经网络的多个输入包括残差(即，来自IQ+IT 124的信号)和来自REC 128的重建像素。神经网络的输出是神经网络滤波的重建像素，其可以透过去块滤波器(即，DF 130)进一步处理。图9是在视频编码器中应用神经网络910的示例。然而，神经网络910可以以类似的方式应用于相应的视频解码器中。

图10示出了三输入神经网络1010的又一示例。在图10中，神经网络的多个输入包括预测子(即，来自画面内/画面间预测子单元110的信号)，残差(即，来自IQ+IT 124的信号)和来自REC 128的重建像素。神经网络的输出是神经网络滤波的重建像素，其可以透过去块滤波器(即，DF 130)进一步处理。图10是在视频编码器中应用神经网络1010的示例。然而，神经网络1010可以以类似的方式应用于相应的视频解码器中。

对于重构像素是神经网络的单个输入或多个输入中的一个的上述情况，基于编码器和解码器处的神经网络的位置，输入重建像素可以来自不同模块。例如，在图5，图8，图9和图10中，由于在REC 128之后且在DF 130之前施加神经网络，因此作为神经网络的输入的重建像素来自REC 128。由于神经网络可以应用于REC 128，DF 130，SAO 132或ALF 210之后(在图2A/图2B中)，因此重建的输入可以相应地来自REC 128，DF 130，SAO 132或ALF 210。在上面的附图中，仅示出了编码器侧的系统框图。可以相应导出解码器侧的系统框图。

本发明的实施方式还公开了使用神经网络进行编码模式决策的方法。在一个实施例中，深度学习用于决定编码结构。在HEVC中，一个切片被划分为多个CTU。CTU进一步划分为多个CU以适应各种本地特性。表示为编码树的四叉树用于将CTU划分为多个CU。根据该实施例，深度学习网络将输出给定块的四叉树决策(例如，分割或不分割)。对于下一代视频编码标准，已经提出了其他编码树分区(例如QTBT(四叉树二叉树)和TT(三元树)分区)以改善编码性能。在另一实施例中，深度学习网络将输出给定块的树分区决策(例如，QT或BT，水平BT或垂直BT，BT或TT，水平TT或垂直TT)。

在另一实施例中，深度学习用于决定画面内或画面间模式。深度学习网络将输出给定块的画面内或画面间模式决策。

在另一实施例中，深度学习用于确定亮度分量的画面内模式。在HEVC中，亮度分量有35种画面内模式，包括DC，平面和角度模式。对于下一代视频编码标准，提出了更多画面内模式(例如67种模式)以改善编码性能。深度学习网络将输出给定块的亮度画面内模式。

在另一实施例中，深度学习用于确定色度分量的画面内模式。在HEVC中，色度分量有5种画面内模式，包括DM，DC，平面，垂直和水平模式。对于下一代视频编码标准，可以添加附加的色度模式(例如LM模式和其他融合模式)。深度学习网络将输出给定块的色度画面内模式。

在另一实施例中，深度学习用于决定用于画面间模式的合并或AMVP(高级运动矢量预测)模式。用于画面间预测的合并和AMVP模式在本领域中是已知的，并且这里不再重复细节。深度学习网络将输出给定块的合并或AMVP决策。

在另一实施例中，深度学习用于决定用于画面间模式的合并候选者。在HEVC中，存在空间和时间合并Merge候选者。对于下一代视频编码标准，可以添加额外的合并候选者(例如，仿射合并候选者)，或者额外的解码侧操作(例如，基于模式的运动矢量推导(Pattern-Based Motion Vector Derivation,PMVD)，解码器侧运动矢量细化(Decoder-side Motion Vector Refinement,DMVR))可以被执行以完善合并候选者。深度学习网络将输出合并候选者和给定块的细化决策。

在另一实施例中，深度学习用于决定画面间模式的运动向量分辨率。在HEVC中，仅存在四分之一像素运动矢量分辨率。对于下一代视频编码标准，可以添加额外的分辨率(例如，整数像素或4像素)。深度学习网络将输出给定块的运动矢量分辨率。

在另一实施例中，深度学习用于决定块的多个核心变换。在HEVC中，DCT-II或DST可用作核心变换。对于下一代视频编码标准，可以添加额外的核心变换(例如DCT-IV，DCT-VII，DCT-VIII)。深度学习网络将输出给定块的核心变换决策。

在另一实施例中，深度学习用于决定块的多个二次变换。对于下一代视频编码标准，可以添加额外的二次变换。深度学习网络将输出给定块的二次变换决策。

在另一实施例中，使用深度学习来确定块的量化参数。在HEVC以及各种高级视频编码系统中，引入量化以实现速率控制的失真和比特率之间的折衷。深度学习网络将输出给定块的量化参数。

在另一实施例中，深度学习用于确定块的解块参数。深度学习网络将输出给定块的解块参数。

在另一实施例中，深度学习用于确定块的SAO类型。深度学习网络将输出给定块的SAO类型。

在另一实施例中，深度学习用于决定给定块的修改的重建像素。深度学习网络将输出给定块的修改的重建像素。

在与上面公开的编码决定相关的所有实施例中，深度学习网络的输入可以是块的未压缩源，或来自空间或时间帧的重建像素，或可以在编码过程中获取或生成的任何信息(例如，源方差，直方图，梯度，运动场，预测和残差)。

在与上面公开的编码决策相关的所有实施例中，输出还可以包含关于决策的置信度值，以指示深度学习网络做出的决策是否可信。

图11示出了根据本发明一个实施例的包含神经网络的视频编码器或解码器的视频编解码的示例性流程图。流程图中示出的步骤可以实现为在编码器侧或解码器侧的一个或多个处理器(例如，一个或多个CPU)上可执行的程序代码。流程图中示出的步骤还可以基于诸如被布置为执行流程图中的步骤的一个或多个电子设备或处理器的硬件来实现。该方法在步骤1110中在编码器侧接收输入数据或在解码器侧接收视频比特流，其中输入数据包括视频序列中的一个或多个图像，或者视频比特流包括与在视频序列中的一个或多个图像相关的压缩数据，并且其中每个图像包括一个或多个颜色分量。在步骤1120中，为一个或多个图像的一个或多个块导出残差数据、预测数据、重建数据、滤波重建数据或其组合。在步骤1130中使用神经网络处理目标信号，其中，提供给神经网络的输入的目标信号对应于残差数据，预测数据，重建数据，滤波重建数据或其组合，以及神经网络的输入或神经网络的输出包括两个或者更多颜色成分。

图12示出了根据本发明一个实施例的包含神经网络的视频编码器或解码器的视频编解码的示例性流程图。该方法在步骤1210中在编码器侧接收输入数据或在解码器侧接收视频比特流，其中输入数据包括视频序列中的一个或多个图像，或者视频比特流包括与视频序列中的一个或多个图像相关联的压缩数据。在步骤1220中，为所述一个或多个图像的一个或多个块导出残差数据、预测数据、重建数据、滤波重建数据或其组合。在步骤1230中使用神经网络处理目标信号，其中，提供给神经网络的输入的目标信号对应于残差数据，预测数据，重建数据，滤波重建数据或其组合，以及所述一个或多个图像的所述一个或多个块的至少一个用于导出多个子块，并且多个子块被提供作为神经网络的输入。

所示的流程图旨在示出根据本发明的视频编码的示例。在不脱离本发明的精神的情况下，本领域普通技术人员可以修改每个步骤，重新安排步骤，分割步骤，或组合步骤以实施本发明。在本公开中，已经使用特定语法和语义来说明用于实现本发明的实施例的示例。本领域普通技术人员可以透过用等同的语法和语义替换语法和语义来实践本发明而不脱离本发明的精神。

呈现以上描述以使得本领域普通技术人员能够实践在特定应用及其要求的上下文中提供的本发明。对所描述的实施例的各种修改对于本领域普通技术人员来说是显而易见的，并且本文定义的一般原理可以应用于其他实施例。因此，本发明不限于所示出和描述的特定实施例，而是与符合本文所公开的原理和新颖特征的最宽范围相一致。在以上详细描述中，示出了各种具体细节以便提供对本发明的透彻理解。然而，本领域普通技术人员将理解，可以实施本发明。

如上所述的本发明的实施例可以以各种硬件，软件代码或两者的组合来实现。例如，本发明的实施例可以是集成到视频压缩芯片中的一个或多个电路或集成到视频压缩软件中的程序代码，以执行本文所述的处理。本发明的实施例还可以是要在数字信号处理器(DSP)上执行的程序代码，以执行这里描述的处理。本发明还可以涉及由计算器处理器，数字信号处理器，微处理器或现场可编程门数组(FPGA)执行的许多功能。这些处理器可以被配置为透过执行定义本发明所体现的特定方法的机器可读软件代码或固件代码来执行根据本发明的特定任务。软件代码或固件代码可以用不同的编程语言和不同的格式或样式开发。还可以针对不同的目标平台编译软件代码。然而，软件代码的不同代码格式，样式和语言以及配置代码以执行根据本发明的任务的其他方式将不脱离本发明的精神和范围。

在不脱离本发明的精神或基本特征的情况下，本发明可以以其他特定形式实施。所描述的示例在所有方面都应被视为仅是说明性的而非限制性的。因此，本发明的范围由所附权利要求而不是前面的描述表示。在权利要求的含义和等同范围内的所有变化都包含在其范围内。

Claims

1.一种用于视频编码器或解码器的视频编解码方法，其中，该方法包括：

在编码器侧接收输入数据或在解码器侧接收视频比特流，其中该输入数据包括视频序列中的一个或多个图像，或者该视频比特流包括与该视频序列中的该一个或多个图像相关联的压缩数据，以及其中每个图像包括一个或多个颜色分量；

为该一个或多个图像的一个或多个块导出残差数据、预测数据、重建数据、滤波重建数据或其组合；以及

使用神经网络处理目标信号，其中提供给神经网络的输入的目标信号对应于残差数据、预测数据、重建数据、滤波重建数据或其组合，并且其中该神经网络的输入或神经网络的输出同時包括两个或更多个颜色分量，其中该神经网络的目标信号中多个颜色分量经过上采样或下采样，作为该神经网络的输入进行神经网络处理，以使得不同输入颜色分量的大小相等。

2.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该两个或更多个颜色分量对应于两个色度分量。

3.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络被设计用于处理亮度分量，并且该神经网络的输入包括该亮度分量的一个或多个块以及色度分量对应的一个或多个块。

4.根据权利要求3所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该色度分量被上采样以匹配该亮度分量的采样率。

5.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该两个或更多个颜色分量对应于一个亮度分量和两个色度分量。

6.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络被指定用于处理色度分量，并且该神经网络的输入包括色度分量的一个或多个块以及亮度分量对应的一个或多个块。

7.根据权利要求6所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该亮度分量被下采样以匹配该色度分量的采样率。

8.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络对应于卷积神经网络，深度全连接前馈神经网络，递归神经网络或生成性对抗网络。

9.根据权利要求1所述的用于视频编码器或解码器的视频编解码方法，其特征在于，当该神经网络的输出包括两个或更多个颜色分量时，启用或禁用用于各个颜色分量的神经网络的多个控制标志被组合以用于该两个或更多个颜色分量或被共享以用于该两个或更多个颜色分量。

10.一种在视频编码器或解码器中的用于视频编解码的装置，其中，该装置包括一个或多个电子器件或处理器，用于：

使用神经网络处理目标信号，其中提供给神经网络的输入的目标信号对应于残差数据、预测数据、重建数据、滤波重建数据或其组合，并且其中该神经网络的输入或神经网络的输出同时包括两个或更多个颜色分量，其中该神经网络的目标信号中的多个颜色分量经过上采样或下采样，作为该神经网络的输入进行神经网络处理，以使得不同输入颜色分量的大小相等。

11.一种用于视频编码器或解码器的视频编解码方法，其中，该方法包括：

在编码器侧接收输入数据或在解码器侧接收视频比特流，其中输入数据包括视频序列中的一个或多个图像，或者该视频比特流包括与该视频序列中的该一个或多个图像相关联的压缩数据；

使用神经网络处理目标信号，其中该目标信号对应于残差数据，预测数据，重建数据，滤波重建数据或其组合，并且其中该一个或多个图像的该一个或多个块作为该神经网络的目标信号，其中该一个或多个图像的该一个或多个块的至少一个被用于导出多个子块，并且该多个子块被提供作为该神经网络的输入，以使得不同输入分量的子块大小相等，其中该神经网络的输入数量增加。

12.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，子采样被应用于该一个或多个图像的该一个或多个块中的至少一个以导出该多个子块，并且该多个子块对应于与该子采样相关联的多个不同相位。

13.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络对应于卷积神经网络，深度全连接前馈神经网络，递归神经网络或生成性对抗网络。

14.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络被设计用于处理亮度分量，并且该神经网络的输入包括与该亮度分量相关联的数据和与色度分量相关联的对应数据。

15.根据权利要求14所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该色度分量被上采样以匹配该亮度分量的采样率。

16.根据权利要求14所述的用于视频编码器或解码器的视频编解码方法，其特征在于，用于导出该多个子块的该一个或多个块中的该至少一个块对应于该亮度分量。

17.根据权利要求16所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络的输出包括该亮度分量的多个输出子块。

18.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络被设计用于处理多于一个分量，该神经网络的输入包括与亮度分量相关联的数据和与色度分量相关联的对应数据，该一个或多个块的至少一个被用于导出对应于该亮度分量的多个子块，以及该神经网络的输出包括该亮度分量的多个输出子块和该色度分量的一个或多个输出块。

19.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络被设计用于处理色度分量，并且该神经网络的输入包括色度分量的一个或多个块以及亮度分量的对应的一个或多个块。

20.根据权利要求19所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该亮度分量被下采样以匹配该色度分量的采样率。

21.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，神经网络的输入包括选自一个组的第一类型信号和第二类型信号，该组包括残差数据、预测数据、重建数据和滤波重建数据，以及其中该第一类型信号和该第二类型信号的该一个或多个块被用于导出该多个子块。

22.根据权利要求11所述的用于视频编码器或解码器的视频编解码方法，其特征在于，该神经网络的输入包括选自一个组的第一类型信号和第二类型信号的一个或多个块，该组包括残差数据、预测数据、重建数据和滤波重建数据，以及其中该第一类型信号或该第二类型信号的该一个或多个块被使用以导出多个子块。

23.一种在视频编码器或解码器中的视频编解码装置，其中，该装置包括一个或多个电子器件或处理器，被布置成：

使用神经网络处理目标信号，其中目标信号对应于残差数据，预测数据，重建数据，滤波重建数据或其组合，并且其中该一个或多个图像的该一个或多个块作为该神经网络的目标信号，其中该一个或多个图像的该一个或多个块的至少一个被用于导出多个子块，并且提供多个子块作为该神经网络的输入，以使得不同输入分量的子块大小相等，其中该神经网络的输入数量增加。