CN114946182A

CN114946182A - 生成边信息的深度帧内预测器

Info

Publication number: CN114946182A
Application number: CN202080079694.6A
Authority: CN
Inventors: T·杜马斯; F·加尔平; J·贝盖特; F·拉卡佩
Original assignee: Interactive Digital Vc Holdings France Ltd
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2019-10-11
Filing date: 2020-10-09
Publication date: 2022-08-26
Also published as: EP4042681A1; WO2021069688A1; US20230254507A1

Abstract

本发明至少提出了用于高效地编码或解码视频的方法和装置。例如，使用来自包括包围图像块的像素的上下文的至少一个神经网络来确定图像块的帧内预测和边信息。边信息允许解码器确定帧内预测，并且被发信号通知以用于解码。

Description

生成边信息的深度帧内预测器

技术领域

本实施方案中的至少一个一般涉及一种用于视频编码或解码的方法或装置，并且更具体地涉及一种方法或装置，其使用神经网络从至少一个输入数据获得神经网络帧内预测和边信息；以及使用神经网络帧内预测对边信息和图像块进行编码或解码。

背景技术

为了实现高压缩效率，图像和视频编码方案通常采用包括运动维度预测在内的预测以及转化来利用视频内容中的空间和时间冗余。一般来讲，帧内或帧间预测用于利用帧内或帧间相关，然后对在原始图像块与其预测之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重建视频，通过对应于熵编码、量化、转化和预测的逆过程对压缩数据进行解码。

对视频压缩技术的最近添加包括各种行业标准、参考软件的版本和/或文档，诸如由JVET(联合视频探索团队)组开发的联合探索模型(JEM)和后续的VTM(多功能视频编码(VVC)测试模型)。其目的是进一步改进现有HEVC(高效视频编码)标准。

最近的工作在比特率节省方面引入深度神经网络以改善视频压缩效率。例如，深度帧内预测器从包围要被预测的当前块的上下文推断该块的预测。根据与用于图像和视频压缩的深度帧内预测器的学习有关的先前工作，当所学习的深度帧内预测器被插入视频编解码器中，例如HEVC时，其始终是与现有模式竞争的至少一个另外的帧内预测模式。实际上，由于“故障情况”，视频编解码器的帧内预测部件不能单独依赖于深度帧内预测器。与感兴趣的视频编解码器中由常规帧内预测模式提供的预测中具有最佳质量的预测相比，“故障情况”是指学习的深度帧内预测器推断当前块的预测质量相对较低的情况。一般来讲，当上下文中的信息不足以推断当前块的预测质量良好或粗略地说，上下文与当前块不太相关时，就会发生“故障情况”。

发明内容

现有技术的缺陷和缺点通过本文所述的一般方面解决和处理，该一般方面涉及生成边信息的深度帧内预测器。根据至少一个实施方案，深度帧内预测器在编码器侧生成边信息，边信息被写入比特流，并且深度帧内预测在解码器侧读取边信息。这样，可以将信息从编码器传输到解码器以补充包围待预测的当前块的上下文中所包含的信息。

根据第一方面，提供了一种方法。该方法包括：对于被编码的块，使用来自至少一个输入数据的神经网络来确定神经网络帧内预测和边信息；基于神经网络帧内预测对块进行编码；以及对边信息进行编码。

根据另一方面，提供了第二方法。该方法包括对于被解码的块，获得关于神经网络帧内预测的边信息；对于被解码的块，使用应用于至少一个输入数据的神经网络和边信息来确定神经网络帧内预测；以及使用所述确定的神经网络帧内预测对块进行解码。

根据另一方面，提供了一种装置。该装置包括一个或多个处理器，其中，一个或多个处理器被配置为：对于被编码的块，使用神经网络从至少一个输入数据来确定神经网络帧内预测和边信息；基于神经网络帧内预测对块进行编码；以及编码边信息。

根据另一方面，提供了另一种装置。该装置包括一个或多个处理器，其中一个或多个处理器被配置为：对于被解码的块，获得关于神经网络帧内预测的边信息；对于被解码的块，使用应用于至少一个输入数据的神经网络和边信息来确定神经网络帧内预测；以及使用确定的神经网络帧内预测对块进行解码。

根据至少一个实施方案的另一一般方面，神经网络是完全连接的，边信息Z是系数属于[0,1]的向量。在变体中，通过将0.5的元素方式阈值应用于向量Z而将向量Z转化为位的向量。在另一变体中，元素方式阈值不同于0.5。

根据至少一个实施方案的另一一般方面，神经网络是卷积，并且其中边信息Z是系数属于[0,1]的特征图堆叠。在变体中，通过将0.5的元素方式阈值应用于Z而将特征图堆叠Z转化为位的特征图堆叠。在另一变体中，元素方式阈值不同于0.5。

根据至少一个实施方案的另一一般方面，边信息Z是系数属于R的向量或特征图堆叠，并且通过标量量化或向量量化来量化边信息的系数。然后，通过算术编码对每个量化系数的绝对值进行编码。CABAC上下文可用于每个量化系数的绝对值的算术编码。

根据至少一个实施方案的另一一般方面，边信息Z是其系数属于[-1，1]的向量或特征图堆叠，并且边信息的系数被映射到{0，1}。

根据至少一个实施方案的另一一般方面，对于亮度块Y，编码的输入数据包括X_c包围当前亮度块Y的上下文和亮度块Y。

根据至少一个实施方案的另一一般方面，对于亮度块Y，解码的输入数据包括包围当前亮度块Y的上下文X_c和解码的边信息。

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，编码的输入数据包括包围色度块Y^CbCr的上下文X_c ^CbCr、包围与色度块并置的亮度块Y^Y的上下文X_c ^Y和当前的色度块Y^CbCr。

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，编码的输入数据包括包围与色度块并置的亮度块Y^Y的上下文X_c ^Y和当前的色度块Y^CbCr。

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，编码的输入数据包括包围色度块Y^CbCr的上下文X_c ^CbCr、包围与色度块并置的亮度块Y^Y的上下文X_c ^Y、当前色度块Y^CbCr和重建的亮度块

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，解码的输入数据包括包围色度块Y^CbCr的上下文X_c ^CbCr、包围与色度块并置的亮度块Y^Y的上下文X_c ^Y和解码的边信息。

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，解码的输入数据包括包围与色度块并置的亮度块Y^Y的上下文X_c ^Y和解码的边信息。

根据至少一个实施方案的另一一般方面，对于色度块Y^CbCr，解码的输入数据包括包围色度块Y^CbCr的上下文X_c ^CbCr、包围与色度块并置的亮度块Y^Y的上下文X_c ^Y、重建的亮度块

以及解码的边信息。

根据至少一个实施方案的另一一般方面，输入数据进一步包括位于被编码/解码的块左侧的块的帧内预测模式L和位于被编码/解码的块上方的块的帧内预测模式A。

根据至少一个实施方案的另一一般方面，对于亮度块的帧内预测，在帧内预测的语元素中对表示基于神经网络的帧内预测模式的语法元素DeepFlag(即，选择基于神经网络的帧内预测模式以预测当前块)进行编码。

根据至少一个实施方案的另一一般方面，对于亮度块的帧内预测，始终选择基于神经网络的帧内预测模式。这意味着不存在亮度帧内预测和DeepFlag的所有常规语法元素。

根据至少一个实施方案的另一一般方面，对于亮度块的帧内预测，对表示基于神经网络的帧内预测模式的语法元素DeepFlag进行编码，并且如果将DeepFlag设置为一，则使用基于神经网络的帧内预测模式进行帧内预测，否则如果将DeepFlag设置为零，则使用平面模式对亮度块进行帧内预测。

根据至少一个实施方案的另一一般方面，对于色度块的帧内预测，始终选择基于神经网络的帧内预测模式。

根据至少一个实施方案的另一一般方面，对于色度块的帧内预测，在帧内预测的语法元素中对表示基于神经网络的帧内预测模式的语法元素DeepFlag进行编码。

根据至少一个实施方案的另一一般方面，提供了一种设备，该设备包括：根据解码实施方案中的任一实施方案的装置；以及以下项中的至少一者：(i)天线，该天线被配置为接收信号，该信号包括视频块；(ii)频带限制器，该频带限制器被配置为将所接收到的信号限制为包括该视频块的频带；或(iii)显示器，该显示器被配置为显示表示视频块的输出。

根据至少一个实施方案的另一一般方面，提供了一种非暂态计算机可读介质，该非暂态计算机可读介质包含根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。

根据至少一个实施方案的另一一般方面，提供了一种信号，该信号包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的视频数据。

根据至少一个实施方案的另一一般方面，比特流被格式化以包括根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。

根据至少一个实施方案的另一一般方面，提供了一种计算机程序产品，该计算机程序产品包括指令，该指令在由计算机执行时使该计算机执行所描述的编码实施方案或变体中的任一实施方案或变体。

通过将结合附图阅读的示例性实施方案的以下详细描述，一般方面的这些和其它方面、特征和优点将变得显而易见。

附图说明

在附图中，示出了若干实施方案的示例。

图1示出了VVC中用于帧内预测的参考样本的示例。

图2示出了VCC中用于方形块的预测方向。

图3示出了VVC中用于导出不同块形状的帧内MPM列表的顶部和左侧CU位置的示例。

图4表示示出VVC中用于亮度的帧内预测信令的决策树。

图5表示示出VVC中用于色度的帧内预测信令的决策树。

图6a示出了要使用神经网络预测的当前块的上下文的示例。

图6b示出了可以实现实施方案的各个方面的通过完全连接的神经网络进行的帧内预测的示例。

图6c示出了可以实现实施方案的各个方面的通过卷积神经网络进行的帧内预测的示例。

图7示出了根据至少一个实施方案的通用编码方法。

图8示出了根据至少一个实施方案的通用解码方法。

图9、图10、图12、图13、图14、图15、图16、图17、图18示出了根据至少一个实施方案的使用视频编码器和视频解码器中的边信息的基于神经网络的帧内预测方法的不同变体。

图11示出了根据至少一个实施方案的位的特征图堆叠到比特流的转换操作的非限制性示例。

图19和20示出了根据至少一个实施方案的示出帧内预测信令的决策树的不同变体。

图21示出了可以实现实施方案的各个方面的视频编码器的实施方案的框图。

图22示出了可以实现实施方案的各个方面的视频解码器的实施方案的框图。

图23示出在其中可以实现各种方面和实施方案的示例装置的框图。

具体实施方式

我们首先引入视频编解码器的帧内预测分量，然后公开根据本发明原理的在编码器或解码器中实现的深度帧内预测器的各种实施方案。最后，呈现了实现本发明原理的编码器或解码器的各种实施方案。

在关于视频编解码器H.266/VVC的上下文中描述了本发明原理，因为其在压缩性能方面当前被视为最佳视频编解码器。然而，本发明原理与任何编解码器兼容。

H.266/VVC中的帧内预测过程由以下组成：采集参考样本，处理参考样本，导出当前块的样本的实际预测，以及最后对预测的样本进行后处理。

图1说明在方形当前块的情况下，H.266/VVC中用于帧内预测的参考样本(W＝H＝N)，坐标处的像素值(x，y)在图1中由P指示(x，y)。从先前重建的顶部和右上方像素到当前块形成顶部的2W个样本的阵列，W表示块宽度。类似地，从重建的左侧和左下方像素形成左侧2H个样本，H表示块高度。左上方位置处的角像素也用于填充顶部行和左列参考之间的间隙。如果顶部或左侧的一些样本不可用，由于对应的编码单元(CU)不在相同的切片中或者当前CU处于帧边界，然后执行称为参考样本取代的方法，其中缺失的样本按顺时针方向从可用样本复制。然后，根据当前CU大小和预测模式，使用指定的滤波器对参考样本进行滤波。

H.266/VVC包括源自H.265/HEVC中的那些的预测模型的范围。平面和DC预测模式用于预测平滑且逐渐变化的区域，而角度预测模式用于捕获不同的定向结构。存在65个方向预测模式，对于每个矩形块形状，这些方向预测模式被不同地组织。图2示出了H.266/VCC中用于方形块的预测方向。预测模式对应于不同预测方向，如图2所示。

利用如具有多个参考线(MRL)的帧内预测、具有子分区的帧内预测(ISP)和Matrix帧内预测(MIP)等工具来进一步扩展帧内预测。MIP是一组帧内预测模式，每个帧内预测模式通过线性变换推断来自重建像素的当前块的预测。对于4×4块，存在35个模式。对于4×8块、8×4块和8×8块，存在19个模式。对于其它块，使用11个模式。

从编码器向解码器发信号通知帧内预测模式。对于亮度通道，首先描述平面模式、DC模式和65个方向模式的信令，省略了MRL的信令、ISP的信令和MIP的信令。然后将详细描述这最后三个。

在编码器侧，根据速率失真准则选择例如属于包括平面模式、DC模式和65个方向模式的集合的最佳帧内预测模式，并且将其索引从编码器传输到解码器。为了通过熵编码执行所选模式索引的信令，建立最大可能模式(MPM)的列表。

在VTM中，MPM列表包含6个帧内预测模式，用于发信号通知当前块的帧内预测模式。MPM列表由当前CU的顶部和左侧的帧内编码CU的预测模式和一些默认模式创建。图3示出当前块右侧和底部边缘处的顶部和左侧CU，用于导出MPM列表，其中：

L是左侧CU的预测模式(范围为[0-66]的值)

A是上方CU的预测模式(范围为[0-66]的值)。

MPM列表的导出如下(其中2个变量offset＝61和mod＝64)：

MPM列表的初始化：

在范围[2-66]内使用圆形邻接，可以等效地写作

((L+offset)％mod)+2≡L-1

((L+offset-1)％mod)+2≡L-2

((L-1)％mod)+2≡L+1

((L-0)％mod)+2≡L+2

使用上述关系，可以显示MPM列表推导是表1中的内容。

表1：VTM中的MPM推导。A和L分别表示CU上方和左侧的预测模式

在用于预测当前块的帧内预测对应于六个MPM模式中的一个MPM模式，则这通过具有值1的mpmFlag来发信号通知，并且随后通过表2中所示的可变长度编码方案来发信号通知MPM列表中的候选模式。否则，mpmFlag等于0，并且剩余61个模式的集合中的候选索引用5个位或6个位进行截断二进制编码。

表2：VTM中的MPM信令

候选索引	代码
		MPM[0]	0
MPM[1]	10
		MPM[2]	110
MPM[3]	1110
		MPM[4]	11110
MPM[5]	11111

对于利用MRL的帧内预测，用于预测的参考行用标记multiRefIdx发信号通知。multiRefIdx的有效值为0、1和3，其分别发信号通知第一参考行、第二参考行和第四参考行。当multiRefIdx为非零时(意味着使用第二参考行或第四参考行)，预测模式始终属于MPM列表。因此，mpmFlag没有被编码。此外，平面被从列表中排除。这意味着当multiRefIdx为非零，只有五个预测模式作为可能的候选者可用。因此，当multiRefIdx为非零时，发信号通知预测模式，如表3所示。

表3：当在VTM中multiRefIdx>0时的MPM信令

候选索引	代码
		MPM[1]	0
MPM[2]	10
		MPM[3]	110
MPM[4]	1110
		MPM[5]	1111

对于ISP，用称为ispMode的标记发信号通知用于CU的划分类型。仅当multiRefIdx等于0时，对ispMode进行编码。ispMode的有效值为0、1和2，分别发信号通知没有划分、水平划分和垂直划分。

现在关于MIP，首先用称为mipFlag的标记发信号通知MIP模式，值1意味着MIP模式用于预测当前块，并且0意味着使用67个帧内预测模式中的一个模式。当mipFlag等于1时，multiRefIdx必然等于0，意味着使用第一参考线，并且ispMode等于0，即不存在目标CU分区。因此，当mipFlag等于1时，multiRefIdx和ispMode不写入比特流。如果mipFlag等于1，则在最新版本的VTM中对所选择的MIP模式的索引进行截断二进制编码。

为了处理用于预测当前块的帧内预测模式是67个帧内预测模式中的一个模式和用于预测顶部CU的所选模式或用于预测左侧CU的所选模式是MIP模式的情况，每个MIP模式和常规模式中的一个模式之间的映射使得能够用其映射的常规模式来替换此MIP模式。在最新版本的VTM中，任何MIP模式被映射到平面。

图4表示示出VVC中用于亮度的帧内预测信令的决策树。

在图4中，浅灰色的标记指示标记的值从写入编码器侧的比特流并从解码器侧的比特流读取的先前标记的值推导出。这意味着浅灰色的标记不写入编码器侧的比特流；不从解码器侧的比特流读取这些标记。

至关重要的是，一些标记是CU级，而其它标记是PU级。对于CU级标记，标记的值适用于CU中的PU。对于PU级标记，CU中的每个PU具有其自己的标记值。如果标记是PU级的，在图4中，当决策树到达与该标记相关联的二进制决策时，在移动到后续的二进制决策之前，每个PU的该标记的值被写入比特流。表4示出了图4中表示的每个标记的等级。

表4：VTM中的帧内预测信令中涉及的每个标记的等级

标记	等级
		mipFlag	CU
multiRefIndex	PU
		ispMode	CU
mpmFlag	PU

对于两个色度通道，既不使用MRL、ISP，也不使用MIP。然而，使用两种特定工具：直接模式和分量间线性模型(CCLM)。

图5表示示出VVC中用于色度的帧内预测信令的决策树。直接模式对应于将用于预测并置的亮度块的所选模式应用于当前色度块的预测。如果directFlag等于1，择选择直接模式以用于预测当前色度块。否则，directFlag等于0，并且选择列表L＝[平面，垂直，水平，DC]中的一个模式。如果L中的模式等于直接模式，该模式由索引66的模式替换。在CCLM中，线性模型预测来自包围并置亮度块的重建亮度参考样本的当前色度块。线性模型的参数源自重建的参考样本。存在三个CCLM模式，每个模式与参数的不同推导相关联。如果cclmFlag等于1，择选择三个CCLM模式中的一个CCLM模式。在这种情况下，directFlag不写入比特流。否则，cclmFlag等于0，并且选择直接模式或L中的一个模式。

如先前所解释的，最近的视频编解码器引入基于神经网络的帧内预测。深度帧内预测器推断来自包围要预测的当前块的上下文的预测。图6a示出了包围要使用神经网络来预测的当前块的上下文的示例。上下文X_c由当前块Y的顶部和右上方以及其左侧和左下方的重建像素构成，类似于H.266/VVC中的用于帧内预测的一组重建参考样本。但是，与它不同，上下文X_c朝向左侧和顶部延伸，如图6a所示。由于该延伸，深度帧内预测器可以学习其输入上下文中的空间相关性与其给出的预测之间的关系。注意，X_c中的下标“c”指示上下文中的重建像素已经被预处理，如稍后详述。

图6b示出了可以实现实施方案的各个方面的通过完全连接的神经网络进行的帧内预测的示例。如果深度帧内预测器完全连接，则上下文通常被平坦化为向量，并且将所得向量馈送到神经网络中。然后，由神经网络提供的向量被重新成形为当前块的形状，从而产生预测

如图6b所示。注意，

中的下标“c”指示预测的像素尚未被后处理，这将稍后解释。

图6c示出了可以实现实施方案的各个方面的通过卷积神经网络进行的帧内预测的示例。如果深度帧内预测因子是卷积，则上下文可分成两个部分。然后，将每个部分馈送到卷积层堆叠中。在两个卷积层堆叠的输出处的两个特征图堆叠通过完全连接合并。最后，将合并的结果插入到转置卷积层堆叠中，从而产生预测

在预处理步骤期间，上下文X_c可通过从重建像素的原始上下文X中减去平均像素强度α获得。

X_c＝X-α

然后，在后处理步骤期间，当前块Y的后处理预测Y通过向预测

添加平均像素强度和剪辑来计算，

b表示像素位深度。作为替代方案，α也可以是训练图像的大集合上的平均像素强度。

在诸如H.265/HEVC和H.266/VVC的视频编解码器中，图像被分成编码树单元(ctu)。以光栅扫描顺序，一次处理一个CTU。每个CTU可分层分成编码单元(CU)。CTU中的CU以Z扫描顺序处理。因此，例如，在H.265/HEVC中，要预测的块的大小可以是64×64、32×32、16×16、8×8或4×4。这意味着需要5个神经网络，每个神经网络用于每个待预测的块大小。因此，深度帧内预测器模式由5个神经网络组成。在H.266/VVC中，当分层分开更复杂时，待预测的块的大小为128×128、64×64、32×32、16×16、8×8或4×4。此外，块也可以是矩形，例如尺寸为4×8。在这种情况下，解决方案是每个块大小分配一个神经网络以建立深度神经网络模式。

在将深度帧内预测模式整合到视频编解码器的不同工作中，通常为H.265/HEVC，深度帧内预测模式与现有模式系统性地竞争。对于待预测的当前块，在用于帧内预测的所有其它标记之前将标记写入比特流。值1指示选择深度帧内预测模式以预测当前块。在这种情况下，不将用于帧内预测的其它标记写入比特流。值0意味着选择常规帧内预测中的一个预测。在这种情况下，用于帧内预测的常规标记则写入比特流。

注意，上文提到的信令已在H.265/HEVC中实现。在H.266/VVC中尚未提出方法。值得注意的是，尚不清楚当选择深度神经网络模式时，如何处理标记mipFlag、multiRefIdx和ispMode。

根据本发明原理的至少一个通用实施方案，代替具有与现有帧内预测模式竞争的深度神经网络模式，深度神经网络模式单独接管视频编解码器的帧内预测部件。根据特定特征，深度神经网络生成从编码器传输到解码器的边信息。根据另一特定特征，在解码器侧，深度帧内预测器从包围待预测的当前块的上下文和边信息推断当前块的预测。

图7示出了根据至少一个实施方案的通用编码方法。如在下文中详细描述的各种实施方案，一旦视频的图片被划分为块以进行编码，则编码方法10包括使用神经网络从至少一个输入数据确定12神经网络帧内预测和边信息。在编码处，神经网络不仅使用包围被编码的块的上下文作为输入，而且使用块本身作为输入。然后，基于神经网络帧内预测，对块进行编码16，其中作为步骤的非限制性示例，编码进一步包括获得随后被转换和量化的残差块。在步骤14中，还对帧内预测神经网络的边信息进行编码并将其传输到解码器，因此有利地使解码器避免神经网络帧内预测中的“故障情况”。步骤14和16以任何顺序或并行执行。

图8示出了根据至少一个实施方案的通用解码方法。如在下文中述详细描述的各种实施方案，解码方法20包括对于在视频的图片中解码的块，获得22用于神经网络帧内预测的边信息。根据非限制性示例，使用任选地变换和量化作为块数据来接收和解码边信息。然后，在步骤24中，使用神经网络确定神经网络帧内预测，该神经网络将边信息与其它输入数据(例如包围被解码的块的上下文)一起用作输入，其中上下文包括先前在视频图片中重建的可用像素。与经典解码方法一样，基于神经网络帧内预测对块进行重建26。

在下文中，提出了根据至少一个实施方案的基于视频编码器和视频解码器中的边信息的基于神经网络的帧内预测方法的不同变体。因此，图7的编码方法的不同变体和图8的解码方法因此在下面示出。神经网络架构被分成两个部分：编码器部分和解码器部分。在编码器部分中，神经网络不仅可以访问包围当前亮度块Y的上下文X_c，还可以访问Y。也就是说，编码器架构将它们视为输入以生成边信息。将边信息写入比特流。在解码器部分中，神经网络采用从比特流读取的边信息和上下文X_c以提供当前亮度块的预测

图9和图10分别示出了针对完全连接架构和卷积架构的上述提议的实例化的两个非限制性示例。在两种情况下，编码器架构的最后一层都含有s形非线性。

图9示出了使用完全连接架构生成边信息以用于预测亮度块的深度帧内预测器。水平虚线描绘了架构的编码器部分和解码器部分。当上下文在两侧可用时，断开虚线穿过编码器侧与解码器侧之间的边界。因此，对于完全连接架构，边信息是系数属于[0，1]的向量Z。通过将0.5元素方式阈值应用于Z，将该向量转换为被写入比特流的位向量。

图10示出了使用卷积架构生成边信息以用于预测亮度块的深度帧内预测器。水平虚线描绘了架构的编码器部分和解码器部分。当上下文在两侧可用时，断开虚线穿过编码器侧与解码器侧之间的边界。对于卷积架构，Z是系数属于[0，1]的特征图堆叠。相同的阈值使得能够将其转换为位的特征图堆叠，以光栅扫描顺序将该特征图堆叠写入比特流。图11示出了位的特征图堆叠到的比特流的转换操作的非限制性示例，其中以光栅扫描顺序从比特流写入或读取这些位。在这种情况下，在解码器侧，当读取比特流时，以光栅扫描顺序重建位的特征图堆叠。

根据第一变体，输出向量Z的值不受限制，并且属于R。图12示出了在第一变体的情况下使用完全连接架构生成边信息的深度帧内预测器的示例。图13示出了在第一变体的情况下使用卷积架构生成边信息的深度帧内预测器的示例。在该变体中，从生成边器信息的深度帧内预测器的编码器部分的最后一层中去除s形非线性。由于该层没有非线性，因此其输出Z中的系数属于R。对于H.265/HEVC和H.266/VVC中的变换系数，Z中的系数通过均匀标量量化来量化，如图12和13所示。然后，每个量化系数的符号进行无损编码，并且绝对值通过二进制算术编码进行无损编码。CABAC上下文模型可用于量化系数的绝对值的二进制算术编码。

根据第二变体，输出向量的值Z被二值化并且属于[-1，1]。在该第二变体中，架构的编码器部分的最后一层中的s形非线性由切线双曲线非线性替换。其输出Z中的系数因此属于[-1，1]。根据又另一第二变体，通过将0.5的元素方式阈值应用于向量来将输出向量转换成位向量。在这种情况下，将0处的元素方式阈值应用于Z，对于完全连接架构产生在{-1，1}中向量，对于卷积架构，产生系数属于{-1，1}的特征图堆叠。当写入比特流和从比特流读取时，每个等于-1的系数被映射到0，反之亦然。

图14示出了使用完全连接架构生成边信息以用于预测色度块的深度帧内预测器。图15示出了使用卷积架构生成边信息以用于预测色度块的深度帧内预测器。注释与先前实施方案相同。向深度神经网络的编码器部分馈送包围当前色度块Y^CbCr的上下文X_c ^CbCr、包围与当前色度块并置的亮度块Y^Y的上下文X_c ^Y和当前色度块Y^CbCr，以生成边信息。深度神经网络的解码器部分采用从比特流读取的边信息、X_c ^CbCr和X_c ^Y以提供Y^CbCr的预测

图14中示出了图9对要在4：2：0中预测的给定色度块的情况的适应。图15中描绘了图10对要在4：2：0中预测的给定色度块的情况的适应。

根据对色度块的预测的第一变体，对色度块的预测仅依赖于亮度上下文。在第一变体中，仅将包围与当前色度块和当前色度块Y^CbCr并置的亮度块Y^Y的上下文X_c ^Y馈送到深度神经网络的编码器部分中。深度神经网络的解码器部分采用从比特流读取的边信息和X_c ^Y，以给出Y^CbCr的预测

根据对色度块的预测的第二变体，色度块的预测依赖于重建的亮度块。当预测当前色度块时，已对与当前色度块并置的亮度块进行编码和解码。图16示出了当将与当前色度块并置的亮度块馈送到编码器侧和解码器侧的深度帧内预测器时，使用完全连接架构生成边信息以用于预测当前色度块的深度帧内预测器的示例。在该第二变体中，深度帧内预测器的编码器部分采取包围当前色度块的上下文X_c ^CbCr、包围与当前色度块并置的亮度块的上下文X_c ^CbCr、当前色度块Y^CbCr和此亮度块的重建

以生成边信息。深度神经网络的解码器部分采用从比特流读取的边信息，X_c ^CbCr、X_c ^Y和

以提供Y^CbCr的预测

根据又另一变型，顶部和左侧CU的帧内预测模式也用作预测亮度块或色度块的输入数据。在此变体中，将位于被编码或解码的块左侧的块的帧内预测模式(L)和位于被编码或解码的块上方的块的帧内预测模式(A)用作神经网络的输入数据。可以将位于当前CU左侧的CU的帧内预测模式和位于当前CU上方的CU的帧内预测模式(其在图3中表示为L和A)插入图9和10中呈现的架构中。

图17示出了当将位于当前CU的左侧的CU的帧内预测模式和位于当前CU上方的CU的帧内预测模式馈送到深度帧内预测器中时，使用完全连接架构生成边信息以用于预测色度块的深度帧内预测器的示例。

图18示出了当将位于当前CU的左侧的CU的帧内预测模式和位于当前CU上方的CU的帧内预测模式馈送到深度帧内预测器中时，使用卷积架构生成边信息以用于预测色度块的深度帧内预测器的示例。

将这两个帧内预测模式L和A馈送到编码器侧和解码器侧的架构中。以这种方式，在编码器侧，深度神经网络可通过从其移除它在计算的边信息和{A，L}之间的一些冗余来生成更多可压缩的边信息。

根据又另一有利特征，从编码器向解码器发信号通知生成边信息的深度帧内预测器的启用/禁用。当生成边信息的深度帧内预测器有利地允许单独处理帧内预测时，它替换67个帧内预测模式、MRL、ISP和MIP。这意味着在编码器侧，根据速率失真标准，没有更多选择最佳帧内预测模式。在此变体中，始终根据深度帧内预测模式确定预测。在H.266/VVC中的分层分区的给定步骤中，对于待预测的给定亮度块，系统地选择深度帧内预测器以用于预测当前亮度块。帧内预测的信令成本来自深度帧内预测器专门生成的边信息。

在上述方法的第一变体中，深度帧内预测模式仍与H.266/VVC中的帧内预测模式竞争。其将替换H.266/VVC中的MIP。这意味着MIP被抑制并且mipFlag变为deepFlag。图19示出了根据至少一个实施方案的示出帧内预测信令的决策树的非限制性示例。如果deepFlag等于1，则选择深度帧内预测器以用于预测当前亮度块。否则，deepFlag等于0，并且使用67个帧内预测模式中的一个模式。当deepFlag等于1时，multiRefIdx必然等于0，意味着使用第一参考线，并且ispMode等于0，即不存在目标CU分区。因此，当deepFlag等于1，不将multiRefIdx和ispMode写入比特流。deepFlag具有CABAC上下文模型，该模型具有两个邻域：所选择的用于预测左侧PU的帧内预测模式和用于选择上述PU的帧内预测模式。图19总结了通过决策树进行帧内预测信令的决策序列。这里，deepFlag是CU级。

在上述方法的第二变体中，H.266/VVC中的帧内预测基于深度帧内预测器并且平面唯一的。图20示出了根据该变体的示出帧内预测信令的决策树的非限制性示例。这时候，保持速率失真优化，但是其候选被限于平面和深度帧内预测模式。在速率失真优化期间，快速通过被抑制，这意味着对待预测的当前亮度块系统地测试两个候选。将deepFlag写入比特流以指示选择用于预测当前亮度块的深度帧内预测模式。如果deepFlag等于1，选择深度帧内预测器。然后，将其生成的边信息写入比特流。否则，如图20所示选择平面。注意，在该第二变体中，去除MRL和ISP。与第一变体一样，deepFlag具有带有两个邻域的CABAC上下文模型。

对于亮度，当生成边信息的深度帧内预测器有利地允许单独处理帧内预测时，它替换CCLM、直接模式和四个其它模式。在H.266/VVC中的分层分区的给定步骤中，对于待预测的给定色度块，系统地选择深度帧内预测器以用于预测当前色度块。帧内预测的信令成本来自深度帧内预测器专门生成的边信息。

在第一变体中，深度帧内预测模式仍然与H.266/VVC中用于色度帧内预测的其它工具竞争。用于色度的帧内预测信令是图5中的一个。在用于色度预测L的四个模式的列表中，水平模式由深度神经网络模式替换。如果直接模式等于L中四个模式中的一个模式，择该模式用水平模式替换。

本申请描述了各个方面，包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面，

并且至少示出个体特性，通常以可能听起来有限的方式描述。然而，这是为了描述清楚，并不限制这些方面的应用或范围。实际上，所有不同的方面可组合和互换以提供进一步的方面。此外，这些方面也可与先前提交中描述的方面组合和互换。

本专利申请中描述和设想的方面可以许多不同的形式实现。下文的图21、图22和图23提供了一些实施方案，但是设想了其他实施方案，并且图21、图22和图23的讨论不限制具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码，并且至少一个其他方面通常涉及发射生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据编码或解码的指令的计算机可读存储介质，和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。

在本申请中，术语“重建”和“解码”可以互换使用，术语“像素”和“样本”可以互换使用，术语“图像”、“图片”和“帧”可以互换使用。通常，但不一定，术语“重建”在编码端使用，而“解码”在解码端使用。

本文描述了各种方法，并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作，否则可修改或组合特定步骤和/或动作的顺序和/或用途。

本专利申请中所述的各种方法和其他方面可用于修改视频编码器100和解码器200的模块(例如，帧内预测、熵编码和/或解码模块(160、360、145、330))，如图21和图22所示。此外，本发明方面不限于VVC或HEVC，并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外，否则本申请中所述的方面可单独或组合使用。

在本申请中使用各种数值，例如，帧内预测模式的数目、神经网络的参数(层、输出范围、阈值)。具体值是为了示例目的，并且所述方面不限于这些具体值。

图21示出了编码器100。设想了这一编码器100的变型，但是为了清楚起见，下文描述了编码器100而不描述所有预期的变型。

在编码之前，视频序列可经过预编码处理(101)，例如，将颜色变换应用于输入彩色图片(例如，从RGB 4:4:4到YCbCr 4:2:0的转换)，或执行输入图片分量的重新映射，以便获得对压缩更具弹性的信号分布(例如，使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附加到比特流。

在编码器100中，图片由编码器元件进行编码，如下所述。以例如CU为单位对要编码的图片进行分区(102)和处理。例如，使用帧内模式或帧间模式对每个单元进行编码。当单元以帧内模式进行编码时，其执行帧内预测(160)。在帧间模式中，执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对单元进行编码，并且通过例如预测模式标记来指示帧内/帧间决策。例如通过从原始图像块减去(110)预测块来计算预测残差。

然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145)，以输出比特流。编码器可跳过变换，并对未变换的残余信号直接应用量化。编码器可绕过变换和量化两者，即，在不应用变换或量化过程的情况下直接对残差进行编码。

编码器对编码块进行解码以提供用于进一步预测的参考。对经量化的变换系数进行去量化(140)和逆变换(150)以解码预测残差。组合(155)经解码的预测残差和预测块，重建图像块。向重建图片应用环路滤波器(165)以执行例如解块/SAO(样本自适应偏移)滤波，以减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。

图22示出了视频解码器200的框图。在解码器200中，比特流由解码器元件进行解码，如下所述。视频解码器200一般执行与如图21所述的编码过程相反的解码过程。编码器100通常还执行视频解码作为对视频数据编码的一部分。

具体地，解码器的输入包括视频比特流，该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此，解码器可以根据经解码的图片分区信息划分(235)图片。对变换系数进行去量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块，重建图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。向重建图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。

经解码的图片还可经过解码后处理(285)，例如，逆颜色变换(例如，从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。

图23示出了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可体现为包括下文所述的各个部件的设备，并且被配置为执行本文档中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统1000的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如，在至少一个实施方案中，系统1000的处理元件和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中，系统1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到一个或多个其他系统或其他电子设备。在各种实施方案中，系统1000被配置为实现本文档中描述的一个或多个方面。

系统1000包括至少一个处理器1010，该至少一个处理器被配置为执行加载到其中的指令，以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统1000包括至少一个存储器1020(例如，易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040，该存储设备可包括非易失性存储器和/或易失性存储器，包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备1040可包括内部存储设备、附接存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。

系统1000包括编码器/解码器模块1030，该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频，并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知，设备可包括编码模块和解码模块中的一者或两者。此外，编码器/解码器模块1030可实现为系统1000的独立元件，或者可结合在处理器1010内作为本领域技术人员已知的硬件和软件的组合。

要加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中，并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案，处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。

在一些实施方案中，处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而，在其他实施方案中，处理设备外部的存储器(例如，处理设备可以是处理器1010或编码器/解码器模块1030)用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040，例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中，外部非易失性闪存存储器用于存储例如电视机的操作系统。在至少一个实施方案中，快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器，诸如MPEG-2(MPEG是指运动图片专家组，MPEG-2也称为ISO/IEC 13818，并且13818-1也称为H.222，13818-2也称为H.262)、HEVC(HEVC是指高效视频编码，也称为H.265和MPEG-H部分2)或VVC(通用视频编码，由联合视频专家小组(JVET)开发的新标准)。

对系统1000的元件的输入可通过如框1130中所示的各种输入设备提供。此类输入设备包括但不限于：(i)射频(RF)部分，其接收例如由广播器通过空中发射的RF信号；(ii)分量(COMP)输入端子(或一组COMP输入端子)；(iii)通用串行总线(USB)输入端子；和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图23中未示出的其他示例包括复合视频。

在各种实施方案中，框1130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如，RF部分可与适用于以下的元件相关联：(i)选择所需的频率(也称为选择信号，或将信号频带限制到一个频带)，(ii)下变频选择的信号，(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带，(iv)解调下变频和频带限制的信号，(v)执行纠错，以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件，例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器，这些功能包括例如下变频接收信号至更低频率(例如，中频或近基带频率)或至基带。在一个机顶盒实施方案中，RF部分及其相关联的输入处理元件接收通过有线(例如，电缆)介质发射的RF信号，并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序，移除这些元件中的一些元件，和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件，例如，插入放大器和模数变换器。在各种实施方案中，RF部分包括天线。

此外，USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应接口处理器。应当理解，输入处理(例如Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器1010内实现。类似地，USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器1010内实现。将经解调、纠错和解复用的流提供给各种处理元件，包括例如处理器1010以及编码器/解码器1030，该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。

系统1000的各种元件可设置在集成外壳内。在集成外壳内，各种元件可使用合适的连接布置1140(例如，如本领域已知的内部总线，包括IC间(I2C)总线、布线和印刷电路板)互连并且在其间传输数据。

系统1000包括能够经由通信信道1060与其他设备通信的通信接口1050。通信接口1050可包括但不限于被配置为通过通信信道1060发射和接收数据的收发器。通信接口1050可包括但不限于调制解调器或网卡，并且通信信道1060可例如在有线和/或无线介质内实现。

在各种实施方案中，使用无线网络诸如Wi-Fi网络例如IEEE 802.11(IEEE是指电气和电子工程师协会)将数据流式发射或以其他方式提供给系统1000。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道1060和通信接口1050接收。这些实施方案的通信信道1060通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以用于允许流式应用和其他云上通信。其他实施方案使用机顶盒向系统1000提供流式数据，该机顶盒通过输入块1130的HDMI连接递送数据。还有其他实施方案使用输入块1130的RF连接向系统1000提供流式数据。如上所述，各种实施方案以非流式的方式提供数据。此外，各种实施方案使用除了Wi-Fi以外的无线网络，例如蜂窝网络或蓝牙网络。

系统1000可将输出信号提供到各种输出设备，包括显示器1100、扬声器1110和其他外围设备1120。各种实施方案的显示器1100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器1100可用于电视机、平板电脑、膝上型计算机、蜂窝电话(移动电话)或其他设备。显示器1100还可与其他部件集成在一起(例如，如在智能电话中)，或者是单独的(例如，膝上型计算机的外部监视器)。在实施方案的各种示例中，其他外围设备1120包括独立数字视频光盘(或数字多功能光盘，两个术语都是DVR)、光盘播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用提供基于系统1000的输出的功能的一个或多个外围设备1120。例如，盘播放器执行播放系统1000的输出的功能。

在各种实施方案中，控制信号使用诸如AV.Link、消费电子产品控制(CEC)或其他通信协议的信令在系统1000与显示器1100、扬声器1110或其他外围设备1120之间传送，该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。输出设备可通过相应接口1070、1080和1090经由专用连接通信地耦接到系统1000。另选地，输出设备可使用通信信道1060经由通信接口1050连接到系统1000。显示器1100和扬声器1110可与电子设备(诸如例如，电视机)中的系统1000的其他部件集成在单个单元中。在各种实施方案中，显示接口1070包括显示驱动器，诸如例如定时控制器(T Con)芯片。

另选地，如果输入1130的RF部分是单独机顶盒的一部分，则显示器1100和扬声器1110可选地与其他部件中的一个或多个部件分开。在显示器1100和扬声器1110为外部部件的各种实施方案中，输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)提供。

这些实施方案可由处理器1010或由硬件或由硬件和软件的组合实现的计算机软件执行。作为非限制性示例，这些实施方案可由一个或多个集成电路实现。作为非限制性示例，存储器1020可以是适合于技术环境的任意类型，并且可使用任何适当的数据存储技术实现，诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例，处理器1010可以是适合于技术环境的任意类型，并且可包括微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。

各种具体实施参与解码。如本申请中所用，“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分，以便产生适于显示的最终输出。在各种实施方案中，此类过程包括通常由解码器执行的一个或多个过程，例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中，此类过程还或可替代地包括由本申请中描述的各种实施方式的解码器执行的过程，例如，对于当前块，使用神经网络从至少一个输入数据的来确定神经网络帧内预测和边信息，基于神经网络帧内预测对当前块进行编码；以及对边信息进行编码。

作为进一步的示例，在一个实施方案中，“解码”仅是指熵解码，在另一个实施方案中，“解码”仅是指差分解码，并且在又一个实施方案中，“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式，如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。在各种实施方案中，此类过程包括通常由编码器执行的一个或多个过程，例如，分区、差分编码、变换、量化和熵编码。在各种实施方案中，此类过程还或可替代地包括由本申请中描述的各种实施方式的编码器执行的过程，例如，对于当前块，接收涉及神经网络帧内预测的边信息的信息；使用应用于至少一个输入数据的神经网络和边信息来确定用于当前块的神经网络帧内预测；以及使用确定的神经网络帧内预测对块进行解码。

作为进一步的示例，在一个实施方案中，“编码”仅是指熵编码，在另一个实施方案中，“编码”仅是指差分编码，并且在又一个实施方案中，“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的，并且据信将被本领域的技术人员很好地理解。

注意，本文所使用的语法元素(例如，deepFlag)是描述性术语。因此，它们不排除使用其他语法元素名称。

当附图呈现为流程图时，应当理解，其还提供了对应装置的框图。类似地，当附图呈现为框图时，应当理解，其还提供了对应的方法/过程的流程图。

各种实施方案是指速率失真优化。具体地，在编码过程期间，通常考虑速率和失真之间的平衡或权衡，这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数，该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如，这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试，并且完整评估其编码成本以及重建信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性，特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合，诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真，而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地，许多方法采用各种技术中任一种来执行优化，但是优化不一定是对编码成本和相关失真两者的完整评估。然而，根据至少一个实施方案，由于深度帧内预测模式是用于帧内预测的唯一可用模式时，去除了编码中的速率失真优化。

本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如，仅作为方法讨论)，讨论的特征的具体实施也可以其他形式(例如，装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现，该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。

提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型，意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此，短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。

另外，本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。

此外，本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如，从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。

另外，本申请可涉及“接收”各种信息。与“访问”一样，接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如，从存储器)中的一者或多者。此外，在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间，“接收”通常以一种方式或另一种方式参与。

应当理解，例如，在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下，使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或选择两个选项(A和B)。作为进一步的示例，在“A、B和/或C”和“A、B和C中的至少一者”的情况下，此类短语旨在涵盖仅选择第一列出的选项(A)，或仅选择第二列出的选项(B)，或仅选择第三列出的选项(C)，或仅选择第一列出的选项和第二列出的选项(A和B)，或仅选择第一列出的选项和第三列出的选项(A和C)，或仅选择第二列出的选项和第三列出的选项(B和C)，或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是，这可扩展到所列出的尽可能多的项目。

而且，如本文所用，词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如，在某些实施方案中，编码器发信号通知多个参数中的特定一个参数以进行深度帧内预测。这样，在一个实施方案中，在编码器侧和解码器侧两者均使用相同的参数。因此，例如，编码器可将特定参数发射(显式信令)到解码器，使得解码器可使用相同的特定参数。相反，如果解码器已具有特定参数以及其他，则可在不发射(隐式信令)的情况下使用信令，以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能，在各种实施方案中实现了位节省。应当理解，信令可以各种方式实现。例如，在各种实施方案中，使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式，但是词语“signal(信号)”在本文也可用作名词。

对于本领域的普通技术人员将显而易见的是，具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如，可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如，使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是，信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。

我们描述了多个实施方案。这些实施方案的特征可在各种权利要求类别和类型中单独地或以任何组合提供。此外，实施方案可包括以下特征、设备或方面中的一个或多个，单独地或以任何组合，跨各种权利要求类别和类型：

·修改应用于解码器和/或编码器中的帧内预测过程。

·在应用于解码器和/或编码器的帧内预测过程中使用神经网络。

·使用神经网络从编码器中的至少一个输入数据确定神经网络帧内预测和边信息；

·使用应用于至少一个输入数据的神经网络和解码器中接收的边信息来确定神经网络帧内预测；

·编码由编码器中的帧内深度预测器生成的边信息；

·解码要由解码器中的帧内深度预测器使用的边信息；

·对于亮度块，编码器中的神经网络帧内预测器的输入数据包括包围亮度块的上下文和亮度块；

·对于亮度块，解码器中的神经网络帧内预测器的输入数据包括包围亮度块的上下文和经解码的边信息；

·对于色度块，编码器中的神经网络帧内预测器的输入数据包括包围色度块的上下文，包围与色度块并置的亮度块的上下文和色度块。

·对于色度块，解码器中的神经网络帧内预测器的输入数据包括包围色度块的上下文，包围与色度块并置的亮度块的上下文和所生成的边信息。

·对于色度块，编码器中的神经网络帧内预测器的输入数据包括包围与色度块并置的亮度块的上下文和色度块。

·对于色度块，解码器中的神经网络帧内预测器的输入数据包括包围与色度块并置的亮度块的上下文和所生成的边信息。

·对于色度块，编码器中的神经网络帧内预测器的输入数据包括包围色度块的上下文、包围与色度块并置的亮度块的上下文、色度块和重建的亮度块。

·对于色度块，解码器中的神经网络帧内预测器的输入数据包括包围色度块的上下文、包围与色度块并置的亮度块的上下文、重建的亮度块和所生成的边信息。

·亮度和色度块的输入数据的变体中的任一个进一步包括位于该块左侧的块的帧内预测模式L和位于该块上方的块的帧内预测模式A作为输入数据。

·在信令中插入使得解码器能够识别要使用的帧内预测方法的语法元素。

·基于这些语法元素选择要在解码器处应用的帧内预测方法。

·在信令中插入帧内预测模式的语法元素中表示基于神经网络的帧内预测模式的语法元素DeepFlag。

·从语法元素启用基于神经网络的帧内预测模式以及平面帧内预测模式中的仅一个以进行用亮度帧内预测。

·仅启用基于神经网络的帧内预测模式。

·包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号。

·一种比特流或信号，该比特流或信号包括传递根据所述实施方案中任一项生成的信息的语法。

·在信令中插入使得解码器能够确定编码器中使用的深度帧内预测的语法元素。

·对包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号进行创建和/或传输和/或接收和/或解码。

·根据所述实施方案中任一项所述的创建和/或发射和/或接收和/或解码。

·根据所述实施方案中任一项所述的方法、过程、装置、存储指令的介质、存储数据的介质或信号。

·根据所描述的实施方案中的任一实施方案执行帧内预测的电视机、机顶盒、移动电话、平板电脑或其他电子设备。

·根据所描述的实施方案中的任一实施方案执行帧内预测并(例如，使用监视器、屏幕或其他类型的显示器)显示所得图像的电视机、机顶盒、移动电话、平板电脑或其他电子设备。

·选择(例如，使用调谐器)信道以接收包括编码图像的信号并且执行根据所述实施方案中任一项的帧内预测的电视机、机顶盒、蜂窝电话、平板或其他电子设备。

·通过无线电(例如，使用天线)接收包括编码图像的信号并根据所描述的实施方案中任一实施方案执行帧内预测的电视机、机顶盒、移动电话、平板电脑或其他电子设备。

Claims

1.一种用于视频解码的方法，所述方法包括：

-对于在视频的图片中解码的块，获得用于神经网络帧内预测的边信息；

-对于所述被解码的块，使用应用于至少一个输入数据的神经网络和所述边信息来确定神经网络帧内预测；

-使用所述确定的神经网络帧内预测对所述块进行解码。

2.一种用于视频解码的装置，包括一个或多个处理器，其中所述一个或多个处理器被配置为：

-使用所述确定的神经网络帧内预测对所述块进行解码。

3.一种用于视频编码的方法，所述方法包括：

-对于在视频的图片中编码的块，使用神经网络从至少一个输入数据确定神经网络帧内预测和边信息；

-基于神经网络帧内预测对所述块进行编码；以及

-对所述边信息进行编码。

4.一种用于视频编码的装置，包括一个或多个处理器，其中所述一个或多个处理器被配置为：

-对于在视频的图片中编码的块，使用神经网络从至少一个输入数据来确定神经网络帧内预测和边信息；

-基于神经网络帧内预测对所述块进行编码；以及

-对所述边信息进行编码。

5.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置，其中，所述神经网络是完全连接的，并且所述边信息是系数属于[0，1]的向量(Z)。

6.根据权利要求5所述的方法或根据权利要求5所述的装置，其中，通过将0.5的元素方式阈值应用于所述向量来将所述向量转换为位向量。

7.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置，其中，所述神经网络是卷积的，并且其中所述边信息是系数属于[0，1]的特征图堆叠(Z)。

8.根据权利要求7所述的方法或根据权利要求7所述的装置，其中通过将0.5的元素方式阈值应用于所述特征图堆叠的系数来将所述特征图堆叠转换为位的特征图堆叠。

9.根据权利要求1、3中任一项所述的方法或根据权利要求2、4中任一项所述的装置，其中边信息(Z)是系数属于R的向量或特征图堆叠，并且其中边信息的系数通过标量量化或向量量化来量化，并且其中量化系数的绝对值通过算术编码进行无损编码。

10.根据权利要求1、3中任一项所述的方法或根据权利要求2、4中任一项所述的装置，其中边信息是系数属于[-1，1]的向量或特征图堆叠，并且其中边信息的系数被映射到{0，1}。

11.根据权利要求3和5至10中任一项所述的方法或根据权利要求4和5至10中任一项所述的装置，其中对于亮度块(Y)，所述编码的输入数据包括包围所述亮度块(Y)的上下文(X_c)以及所述亮度块(Y)。

12.根据权利要求1和5至11中任一项所述的方法或根据权利要求2和5至11中任一项所述的装置，其中对于亮度块(Y)，所述解码的输入数据包括包围所述亮度块(Y)的上下文(X_c)。

13.根据权利要求3和5至12中任一项所述的方法或根据权利要求4和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述编码的输入数据包括包围所述色度块(Y^CbCr)的上下文(X_c ^CbCr)、包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)以及所述色度块(Y^CbCr)。

14.根据权利要求3和5至12中任一项所述的方法或根据权利要求4和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述编码的输入数据包括包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)，以及所述色度块(Y^CbCr)。

15.根据权利要求3和5至12中任一项所述的方法或根据权利要求4和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述编码的输入数据包括包围所述色度块(Y^CbCr)的上下文(X_c ^CbCr)、包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)、所述色度块(Y^CbCr)和所述重建的亮度块

16.根据权利要求1和5至12中任一项所述的方法或根据权利要求3和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述解码的输入数据包括包围所述色度块(Y^CbCr)的上下文(X_c ^CbCr)、包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)。

17.根据权利要求1和5至12中任一项所述的方法或根据权利要求3和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述解码的输入数据包括包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)。

18.根据权利要求1和5至12中任一项所述的方法或根据权利要求3和5至12中任一项所述的装置，其中对于色度块(Y^CbCr)，所述解码的输入数据包括包围所述色度块(Y^CbCr)的上下文(X_c ^CbCr)、包围与所述色度块并置的所述亮度块(Y^Y)的所述上下文(X_c ^Y)以及所述重建的亮度块

19.根据权利要求1、3或5至18中任一项所述的方法或根据权利要求2、4至18中任一项所述的装置，其中所述输入数据进一步包括位于被编码或解码的所述块左侧的所述块的所述帧内预测模式(L)和位于被编码或解码的所述块上方的所述块的所述帧内预测模式(A)。

20.根据权利要求1、3或5至19中任一项所述的方法或根据权利要求2、4至19中任一项所述的装置，其中对于亮度块的帧内预测，在帧内预测的语法元素中对表示基于神经网络的帧内预测模式的语法元素DeepFlag进行编码。

21.根据权利要求1、3或5至19中任一项所述的方法或根据权利要求3、4至19中任一项所述的装置，其中对于亮度块的帧内预测，始终选择基于神经网络的帧内预测模式。

22.根据权利要求1、3或5至19中任一项所述的方法或根据权利要求2、4至19中任一项所述的装置，其中对于亮度块的帧内预测，对表示基于神经网络的帧内预测的语法元素DeepFlag进行编码，并且如果将DeepFlag设置为一，则使用基于神经网络的帧内预测对所述亮度块进行帧内预测，否则如果将DeepFlag设置为零，则使用平面模式对所述亮度块进行帧内预测。

23.根据权利要求1、3或5至19中任一项所述的方法或根据权利要求2、4至19中任一项所述的装置，始终选择基于神经网络的帧内预测模式。

24.根据权利要求1、3或5至15中任一项所述的方法或根据权利要求2、4至15中任一项所述的设备，其中对于色度块的帧内预测，在帧内预测的语法元素中对表示基于神经网络的帧内预测模式的语法元素DeepFlag进行编码。

25.一种非暂态计算机可读介质，所述非暂态计算机可读介质包含数据内容，所述数据内容由根据权利要求3和5至24中任一项所述的方法生成或者由根据权利要求4和5至24中任一项所述的装置生成。

26.一种计算机程序产品，所述计算机程序产品包括用于在由多个处理器中的一个处理器执行时执行根据权利要求1、2和5-24中任一项所述的方法的指令。

27.一种信号，所述信号包括视频数据，所述视频数据由根据权利要求3和5至24中任一项所述的方法生成或者由根据权利要求4和5至24中任一项所述的装置生成。