CN116601945A

CN116601945A - 基于dnn的交叉分量预测

Info

Publication number: CN116601945A
Application number: CN202280008144.4A
Authority: CN
Inventors: 林晟; 蒋薇; 王炜; 王力强; 刘杉; 许晓中
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-06-15
Filing date: 2022-05-31
Publication date: 2023-08-15
Also published as: EP4133417A4; US11909956B2; WO2022265847A1; EP4133417A1; JP2023542333A; US20240155112A1; KR20230152752A; US20220400249A1

Abstract

提供了用于基于深度神经网络(DNN)的交叉分量预测的系统和方法。一种方法包括：将图像或视频的重构的亮度块输入到DNN中；以及由DNN基于输入的重构的亮度块来预测图像或视频的重构的色度块。亮度和色度参考信息以及辅助信息也可以输入到DNN中，以预测重构的色度块。也可以使用诸如下采样和变换等过程来生成各种输入。

Description

基于DNN的交叉分量预测

相关申请的交叉引用

本申请要求2021年6月15日提交的美国临时申请号63/210，741和2022年5月20日提交的美国申请号17/749，730的优先权，其公开内容通过引用整体结合于此。

技术领域

本公开的实施例涉及基于DNN的交叉分量预测的方法和系统。

背景技术

传统的视频编码标准(例如，H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC))都是在类似的(递归的)基于块的混合预测/变换框架上设计的，其中，各种编码工具(例如，帧内/帧间预测、整数变换和上下文自适应熵编码)都是精心制作的，以优化整体效率。基本上，时空像素邻域用于预测信号构造，以获得用于后续变换、量化和熵编码的相应残差。另一方面，深度神经网络(DNN)的本质是通过分析来自相邻像素的感受野的时空信息来提取不同水平的时空刺激。探索高度非线性和非局部时空相关性的能力为大大提高压缩质量提供了有希望的机会。

视频编码和解码的一个目的是通过压缩减少输入视频信号中的冗余。压缩有助于降低上述带宽或存储空间需求，在某些情况下可降低两个数量级或更多。可以采用无损和有损压缩及其组合。无损压缩是指这样的技术，其中，可以从压缩的原始信号中重构原始信号的精确副本。当使用有损压缩时，重构的信号可能与原始信号不相同，但是原始信号和重构的信号之间的失真足够小，使得重构的信号对于预期的应用是有用的。在视频的情况下，广泛采用有损压缩。容许的失真量取决于应用；例如，某些消费者流应用的用户可能比电视贡献应用的用户容忍更高的失真。可实现的压缩比可以反映出：更高的容许/可容忍失真可以产生更高的压缩比。

发明内容

利用来自不同分量的信息和其他辅助信息，传统编码器可以预测其他分量，以实现更好的压缩性能。然而，与基于DNN的方法相比，帧内预测中的交叉分量线性预测模式不能很好地工作。DNN的本质是提取不同的高水平刺激，并且探索高度非线性和非局部相关性的能力为高压缩质量提供了有希望的机会。本公开的实施例使用基于DNN的模型来处理任意形状的亮度分量、参考分量和辅助信息，以预测重构的色度分量，从而实现更好的压缩性能。

本公开的实施例通过使用深度神经网络(DNN)提供交叉分量预测(CCP)模型，作为帧内预测中的新模式。该模型使用编码器提供的信息，例如，亮度分量、量化参数(QP)值、块深度等，来预测色度分量，以实现更好的压缩性能。先前的基于NN的帧内预测方法仅针对亮度分量的预测，或者对所有三个信道生成预测，而不考虑色度分量和其他额外信息之间的相关性。

根据实施例，提供了一种由至少一个处理器执行的方法。该方法包括：获得图像或视频的重构的亮度块；将重构的亮度块输入到DNN中；获得与重构的亮度块相关联的参考分量和辅助信息；将参考分量和辅助信息输入到DNN中；以及由DNN基于重构的亮度块、参考分量和辅助信息来预测图像或视频的重构的色度块。

根据实施例，提供了一种系统。该系统包括：至少一个存储器，存储器被配置为存储计算机程序代码；以及至少一个处理器，处理器被配置为访问计算机程序代码，并按照计算机程序代码的指示操作。计算机程序代码包括：输入代码，输入代码被配置为使得至少一个处理器将图像或视频的重构的亮度块、与重构的亮度块相关联的参考分量以及辅助信息输入到由至少一个处理器实现的深度神经网络DNN中；以及预测代码，预测代码被配置为使得至少一个处理器由DNN基于重构的亮度块、参考分量和辅助信息来预测图像或视频的重构的色度块。

根据实施例，提供了一种存储计算机代码的非暂时性计算机可读介质。该计算机代码被配置为当由至少一个处理器执行时，使得至少一个处理器：实现DNN；将图像或视频的重构的亮度块、与重构的亮度块相关联的参考分量以及辅助信息输入DNN中；以及由DNN基于输入的重构的亮度块、参考分量和辅助信息来预测图像或视频的重构的色度块。

附图说明

从以下详细描述和附图中，所公开主题的进一步特征、性质和各种优点将变得更加明显，其中：

图1是根据一个实施例的通信系统的简化框图的示意图；

图2是根据一个实施例的通信系统的简化框图的示意图；

图3是根据一个实施例的解码器的简化框图的示意图；

图4是根据一个实施例的编码器的简化框图的示意图；

图5是根据一个实施例的输入生成过程的简化框图的示意图；

图6是根据一个实施例的交叉分量预测过程的简化框图的示意图；

图7是根据实施例的计算机代码的框图；

图8是适于实现本公开的实施例的计算机系统的示意图。

具体实施方式

图1示出了根据本公开的实施例的通信系统100的简化框图。通信系统100可以包括经由网络150互连的至少两个终端110、120。对于数据的单向传输，第一终端110可以在本地位置对视频数据进行编码，以便经由网络150传输到另一终端120。第二终端120可以从网络150接收另一终端的编码视频数据，解码经编码的数据并显示恢复的视频数据。单向数据传输在媒体服务应用等中是常见的。

图1示出了第二对终端130、140，提供第二对终端，以支持例如在视频会议期间可能发生的编码视频的双向传输。对于数据的双向传输，每个终端130、140可以对在本地位置捕捉的视频数据进行编码，以便经由网络150传输到另一个终端。每个终端130、140还可以接收由另一个终端传输的编码视频数据，可以解码经编码的数据，并且可以在本地显示设备上显示恢复的视频数据。

在图1中，终端110-140可以被示为服务器、个人计算机和智能电话和/或任何其他类型的终端。例如，终端110-140可以是膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络150表示在终端110-140之间传送编码视频数据的任意数量的网络，包括例如有线和/或无线通信网络。通信网络150可以在电路交换和/或分组交换的信道中交换数据。代表性的网络包括电信网络、局域网、广域网，和/或国际互联网。出于当前讨论的目的，网络150的架构和拓扑对于本公开的操作可能是不重要的，除非在下文中解释。

作为所公开的主题的应用的示例，图2示出了视频编码器和解码器在流环境中的放置。所公开的主题可以同样适用于其他支持视频的应用，包括例如视频会议、数字电视、在包括CD、DVD、记忆棒等的数字媒体上存储压缩视频等。

如图2所示，流系统200可以包括捕捉子系统213，该捕捉子系统可以包括视频源201和编码器203。视频源201可以是例如数码相机，并且可以被配置为创建未压缩的视频样本流202。与编码视频比特流相比，未压缩视频样本流202可以提供高数据量，并且可以由耦合到视频源201的编码器203处理。编码器203可以包括硬件、软件或其组合，以实现或实施所公开主题的各方面，如下面更详细描述的。与样本流相比，编码视频比特流204可以包括较低的数据量，并且可以存储在流服务器205上，以供将来使用。一个或多个流客户端206可以访问流服务器205，以检索视频比特流209，视频比特流可以是编码视频比特流204的副本。

在实施例中，流服务器205也可以用作媒体感知网络元件(MANE)。例如，流服务器205可以被配置为修剪编码视频比特流204，以便为一个或多个流客户端206定制潜在不同的比特流。在实施例中，MANE可以与流系统200中的流服务器205分开提供。

流客户端206可以包括视频解码器210和显示器212。视频解码器210可以例如解码视频比特流209，该视频比特流是编码视频比特流204的输入副本，并且创建可以在显示器212或另一呈现设备(未示出)上呈现的输出视频样本流211。在一些流系统中，视频比特流204、209可以根据特定的视频编码/压缩标准进行编码。这种标准的示例包括但不限于ITU-T建议H.265。正在开发的是非正式地称为通用视频编码(VVC)的视频编码标准。本公开的实施例可以用在VVC的环境中。

图3示出了根据本公开的实施例的连接到显示器212的视频解码器210的示例功能框图。

视频解码器210可以包括信道312、接收机310、缓冲存储器315、熵解码器/解析器320、定标器/逆变换单元(Scaler/Inverse Transform)351、帧内图片预测单元352、运动补偿预测单元353、聚集器355、环路滤波器单元356、参考图片存储器357和当前图片存储器。在至少一个实施例中，视频解码器210可以包括集成电路、一系列集成电路和/或其他电子电路。视频解码器210也可以部分或全部体现在一个或多个具有相关存储器的CPU上运行的软件中。

在该实施例和其他实施例中，接收机310可以接收将由解码器210解码的一个或多个编解码器视频序列，一次一个编码视频序列，其中，每个编码视频序列的解码独立于其他编码视频序列。可以从信道312接收编码视频序列，该信道可以是到存储编码视频数据的存储设备的硬件/软件链接。接收机310可以接收编码视频数据和其他数据，例如，编码的音频数据和/或辅助数据流，其可以被转发到其相应的使用实体(未示出)。接收机310可以从其他数据中分离出编码的视频序列。为了对抗网络抖动，缓冲存储器315可以耦合在接收机310和熵解码器/解析器320(下文称为“解析器”)之间。当接收机310从具有足够带宽和可控性的存储/转发设备或者从同步网络接收数据时，缓冲存储器315可以是不需要的，或者可以是小的。为了尽力在分组网络(例如，因特网)上使用，可能需要缓冲存储器315，该缓冲存储器可能相对较大，并且可能有利地具有自适应大小。

视频解码器210可以包括解析器320，以从熵编码的视频序列中重构符号321。这些符号的类别包括例如用于管理解码器210的操作的信息以及潜在地控制呈现设备(例如，显示器212)的信息，该呈现设备可以耦合到解码器，如图2所示。用于呈现设备的控制信息可以是例如补充增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未示出)的形式。解析器320可以对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循本领域技术人员已知的原理，包括可变长度编码、Huffman编码、具有或不具有上下文敏感性的算术编码等。解析器320可以基于对应于该组的至少一个参数，从编码视频序列中提取视频解码器中的至少一个像素子组的一组子组参数。子组可以包括图片组(GOP)、图片、图块、切片、宏块、编码单元(CU)、块、变换单元(TU)、预测单元(PU)等。解析器320还可以从编码的视频序列中提取信息，例如，变换系数、量化器参数值、运动矢量等。

解析器320可以对从缓冲存储器315接收的视频序列执行熵解码/解析操作，从而创建符号321。

根据编码视频图片或其部分的类型(例如：帧间和帧内图片、帧间和帧内块)以及其他因素，符号321的重构可以涉及多个不同的单元。可以通过由解析器320从编码视频序列中解析的子组控制信息来控制涉及哪些单元以及如何涉及。为了清楚起见，没有描述解析器320和下面的多个单元之间的这种子组控制信息流。

除了已经提到的功能块之外，解码器210可以在概念上细分成如下所述的多个功能单元。在商业限制下操作的实际实现中，许多这些单元彼此紧密交互，并且可以至少部分地彼此集成。然而，为了描述所公开的主题，在概念上细分成以下功能单元是合适的。

一个单元可以是定标器/逆变换单元351。定标器/逆变换单元351可以接收量化的变换系数以及控制信息，包括使用哪个变换、块大小、量化因子、量化缩放矩阵等，作为来自解析器320的符号321。定标器/逆变换单元351可以输出包括样本值的块，这些块可以被输入到聚集器355中。

在一些情况下，定标器/逆变换单元351的输出样本可以属于帧内编码块；即，没有使用来自先前重构图像的预测信息但是可以使用来自当前图片的先前重构部分的预测信息的块。这种预测信息可以由帧内图片预测单元352提供。在一些情况下，帧内图片预测单元352使用从来自当前图片存储器358的当前的(部分重构的)图片获取的周围已经重构的信息，生成与重构中的块具有相同大小和形状的块。在一些情况下，聚集器355基于每个样本将帧内图片预测单元352已经生成的预测信息添加到由定标器/逆变换单元351提供的输出样本信息。

在其他情况下，定标器/逆变换单元351的输出样本可以属于帧间编码的并且可能是运动补偿的块。在这种情况下，运动补偿预测单元353可以访问参考图片存储器357，以获取用于预测的样本。在根据与该块有关的符号321对提取的样本进行运动补偿之后，这些样本可以由聚集器355添加到定标器/逆变换单元351的输出(在这种情况下称为残差样本或残差信号)，以便生成输出样本信息。运动补偿预测单元353从中获取预测样本的参考图片存储器357内的地址可以由运动矢量来控制。运动补偿预测单元353可以符号321的形式获得这些运动矢量，这些符号可以具有例如X、Y和参考图片组件。当使用子采样精确运动矢量时，运动补偿还可以包括从参考图片存储器357获取的采样值的插值、运动矢量预测机制等。

聚集器355的输出样本可以在环路滤波器单元356中经受各种环路滤波技术。视频压缩技术可以包括环路滤波技术，这些技术由编码视频比特流中包含的参数控制，并且作为来自解析器320的符号321可用于环路滤波单元356，但是也可以响应于在编码图片或编码视频序列的先前(按照解码顺序)部分的解码期间获得的元信息以及响应于先前重构的和环路滤波的样本值。

环路滤波器单元356的输出可以是样本流，该样本流可以输出到呈现设备(例如，显示器212)以及存储在参考图片存储器357中，以用于将来的帧间图片预测。

一旦完全重构，某些编码图片可以用作未来预测的参考图片。一旦编码图片被完全重构，并且编码图片已经被识别为参考图片(例如，通过解析器320)，当前参考图片可以成为参考图片缓冲存储器357的一部分，并且在开始下一个编码图片的重构之前，可以重新分配新的当前图片存储器。

视频解码器210可以根据预定的视频压缩技术执行解码操作，该预定的视频压缩技术可以在诸如ITU-T Rec.H.265等标准中记载。编码的视频序列可以符合由所使用的视频压缩技术或标准指定的语法，在某种意义上，符合视频压缩技术或标准的语法，如在视频压缩技术文档或标准中，特别是在其中的简档文档中所指定的。此外，为了符合一些视频压缩技术或标准，编码视频序列的复杂度可以在视频压缩技术或标准的水平所定义的范围内。在某些情况下，级别限制了最大图片大小、最大帧速率、最大重构采样率(例如，以每秒兆样本为单位测量)、最大参考图片大小等。在某些情况下，由级别设置的限制可以通过假设参考解码器(HRD)规范和编码视频序列中信令的HRD缓冲管理的元数据来进一步限制。

在一个实施例中，接收机310可以接收具有编码视频的额外(冗余)数据。可以包括额外数据，作为编码视频序列的一部分。视频解码器210可以使用额外数据来正确解码数据和/或更准确地重构原始视频数据。额外数据可以是例如时间、空间或SNR增强层、冗余切片、冗余图片、前向纠错码等形式。

图4示出了根据本公开的实施例的与视频源201相关联的视频编码器203的示例功能框图。

视频编码器203可以包括例如作为源编码器430的编码器、编码引擎432、(本地)解码器433、参考图片存储器434、预测器435、发射机440、熵编码器445、控制器450和信道460。

编码器203可以从视频源201(不是编码器的一部分)接收视频样本，该视频源可以捕捉要由编码器203编码的视频图像。

视频源201可以以数字视频样本流的形式提供要由编码器203编码的源视频序列，该数字视频样本流可以具有任何合适的比特深度(例如：8比特、10比特、12比特、…)、任何颜色空间(例如，BT.601Y CrCB、RGB、…)和任何合适的采样结构(例如，Y CrCb 4:2:0、YCrCb 4:4:4)。在媒体服务系统中，视频源201可以是存储先前准备的视频的存储设备。在视频会议系统中，视频源203可以是捕捉本地图像信息作为视频序列的相机。可以提供视频数据，作为多个单独的图片，当按顺序观看时，这些图片赋予运动。图片本身可以被组织为像素的空间阵列，其中，每个像素可以包括一个或多个样本，这取决于使用中的采样结构、颜色空间等。本领域技术人员可以容易地理解像素和样本之间的关系。下面的描述集中在样本上。

根据一个实施例，视频编码器203可以实时地或者在应用所需的任何其他时间约束下，将源视频序列的图片编码和压缩成编码的视频序列443。实施适当的编码速度是控制器450的一个功能。控制器450还控制如下所述的其他功能单元，并且在功能上可以耦合到这些单元。为了清楚起见，没有描述耦合。控制器450设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…)、图片大小、图片组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器450的其他功能，因为它们可能与针对特定系统设计而优化的视频编码器203有关。

一些视频编码器在本领域技术人员容易识别的“编码循环”中操作。作为一个过于简化的描述，编码循环可以由源编码器430的编码部分(负责基于要编码的输入图片和参考图片创建符号)和嵌入在编码器203中的(本地)解码器433组成，在特定的视频压缩技术中，符号和编码的视频比特流之间的压缩是无损的时，该解码器重构符号，以创建(远程)解码器也将创建的样本数据。该重构的样本流可以输入到参考图片存储器434。由于符号流的解码导致独立于解码器位置(本地或远程)的比特精确的结果，所以参考图片存储器内容在本地编码器和远程编码器之间也是比特精确的。换言之，当在解码期间使用预测时，编码器的预测部分作为参考图片样本“看到”与解码器“看到”的样本值完全相同的样本值。参考图片同步性(以及由此产生的漂移，如果不能保持同步性，例如，由于信道误差)的基本原理对于本领域技术人员来说是公知的。

“本地”解码器433的操作可以与“远程”解码器210的操作相同，这已经在上面结合图3进行了详细描述。然而，由于符号是可用的，并且熵编码器445和解析器320对编码视频序列的符号的编码/解码可以是无损的，所以解码器210的熵解码部分(包括信道312、接收机310、缓冲存储器315和解析器320)可以不完全在本地解码器433中实现。

在这一点上可以观察到，除了解码器中存在的解析/熵解码之外，任何解码器技术需要以基本相同的功能形式存在于相应的编码器中。为此，公开的主题集中在解码器操作上。编码器技术的描述可以简化，因为这些技术可以是全面描述的解码器技术的逆。仅在某些领域需要更详细的描述，并在下面提供。

作为其操作的一部分，源编码器430可以执行运动补偿预测编码，其参考来自视频序列的被指定为“参考帧”的一个或多个先前编码的帧来预测性地编码输入帧。以这种方式，编码引擎432对输入帧的像素块和可以被选为输入帧的预测参考的参考帧的像素块之间的差异进行编码。

本地解码器433可以基于由源编码器430创建的符号，对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎432的操作可以有利地是有损过程。当编码的视频数据可以在视频解码器(图4中未示出)处被解码时，重构的视频序列通常可以是具有一些误差的源视频序列的副本。本地解码器433复制可以由视频解码器对参考帧执行的解码过程，并且可以使得重构的参考帧存储在参考图片存储器434中。以这种方式，编码器203可以本地存储重构的参考帧的副本，这些副本具有与将由远端视频解码器获得的重构的参考帧相同的内容(不存在传输误差)。

预测器435可以对编码引擎432执行预测搜索。也就是说，对于要编码的新帧，预测器435可以在参考图片存储器434中搜索样本数据(作为候选参考像素块)或某些元数据，例如，参考图片运动矢量、块形状等，其可以用作新图片的适当预测参考。预测器435可以在逐个样本块-像素块的基础上操作，以找到合适的预测参考。在一些情况下，如由预测器435获得的搜索结果所确定的，输入图片可以具有从存储在参考图片存储器434中的多个参考图片中提取的预测参考。

控制器450可以管理源编码器430的编码操作，包括例如用于编码视频数据的参数和子组参数的设置。

所有前述功能单元的输出可以在熵编码器中经历熵编码445。熵编码器根据本领域技术人员已知的技术，例如，Huffman编码、可变长度编码、算术编码等，通过无损压缩符号，将各种功能单元生成的符号转换成编码的视频序列。

发射机440可以缓冲由熵编码器445创建的编码视频序列，以准备经由通信信道460传输，通信信道可以是到将存储编码视频数据的存储设备的硬件/软件链接。发射机440可以将来自源编码器430的编码视频数据与要传输的其他数据合并，例如，编码音频数据和/或辅助数据流(源未示出)。

控制器450可以管理编码器203的操作。在编码期间，控制器450可以向每个编码图片分配特定的编码图片类型，这可以影响可以应用于相应图片的编码技术。例如，图片通常可以被指定为帧内图片(I图片)、预测图片(P图片)或双向预测图片(B图片)。

帧内图片(I图片)可以是不使用序列中的任何其他帧作为预测源而被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新(IDR)图片。本领域技术人员知道I图片的那些变体以及其相应的应用和特征。

预测图片(P图片)可以是使用最多一个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。

双向预测图片(B图片)可以是使用最多两个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。类似地，多预测图片可以使用两个以上的参考图片和相关元数据来重构单个块。

源图片通常可以在空间上被细分成多个样本块(例如，每个样本块为4×4、8×8、4×8或16×16个样本块)，并且在分块的基础上编码。可以参考由应用于块的相应图片的编码分配所确定的其他(已经编码的)块来预测性地编码块。例如，I图片的块可以被非预测性地编码，或者可以参考同一图片的已经编码的块被预测性地编码(空间预测或帧内预测)。参考一个先前编码的参考图片，经由空间预测或经由时间预测，P图片的像素块可以非预测性地编码。参考一个或两个先前编码的参考图片，经由空间预测或经由时间预测，可以预测性地编码B图片的块。

视频编码器203可以根据预定的视频编码技术或标准(例如，ITU-TRec.H.265)来执行编码操作。在其操作中，视频编码器203可以执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，编码的视频数据可以符合由正在使用的视频编码技术或标准指定的语法。

在一个实施例中，发射机440可以与编码视频一起传输额外数据。源编码器430可以包括这样的数据，作为编码视频序列的一部分。额外数据可以包括时间/空间/SNR增强层、其他形式的冗余数据(例如，冗余图片和切片)、补充增强信息(SEI)消息、视觉可用性信息(VUI)参数集片段等。

本公开的实施例提供了基于DNN的交叉分量预测。下面参考图5-6描述示例实施例。

根据本公开的实施例，如下描述视频压缩框架。假设输入视频包括等于视频中总帧数的多个图像帧。帧被分割成空间块，每个块可以迭代地分割成更小的块。该块包含亮度分量510y和包括色度信道520u和520t的色度分量520。在帧内预测过程中，可以首先预测亮度分量510y，然后可以稍后预测两个色度信道520u和520t。色度信道520u和520t的预测可以联合或单独执行。

在本公开的一个实施例中，重构的色度分量520由编码器和解码器中的基于DNN的模型生成，或者仅在解码器中生成。两个色度信道520u和520t可以与单个网络一起生成，或者与不同的网络分开生成。对于每个色度信道，可以基于块大小使用不同的网络来生成色度信道。在基于DNN的交叉分量预测中，包括信号处理、空间或时间滤波、缩放、加权平均、上/下采样、汇集、具有存储器的递归处理、线性系统处理、非线性系统处理、神经网络处理、基于深度学习的处理、AI处理、预训练网络处理、基于机器学习的处理或其组合的一个或多个过程可以用作本公开的实施例中的模块。为了处理重构的色度分量520，一个重构的色度信道(例如，色度信道520u和520t中的一个)可以用于生成另一个重构的色度信道(例如，色度信道520u和520t中的另一个)。

根据本公开的实施例，可提供基于DNN的交叉分量预测模型，该模型基于块的重构的亮度分量510y、参考分量和由编码器提供的其他辅助信息来增强块的重构的色度信道520u和520t的压缩性能。根据实施例，4:2:0可以用于对色度信道520u和520t进行二次采样。因此，色度信道520u和520t可以具有比亮度分量510y更低的分辨率。

参考图5，下面描述过程500。过程500包括根据本公开的实施例在通用混合视频编码系统中生成用于训练和/或预测的输入样本580的工作流程。

重构的亮度分量510y可以是亮度块，该亮度块是2N×2M块，其中，2N是亮度块的宽度，2M是亮度块的高度。根据实施例，还可以提供作为2N×2K块的第一亮度参考512y和作为2K×2M块的第二亮度参考514y，其中，2K代表亮度参考中的行数或列数。为了使亮度大小与预测的输出大小相同，对亮度分量510y、第一亮度参考512y和第二亮度参考514y应用下采样过程591。下采样过程530可以是传统方法(例如，双三次和双线性的)，或者可以是基于NN的下采样方法。在下采样之后，亮度分量510y可变成块大小为N×M的下采样的亮度分量530y，第一亮度参考512y可变成块大小为N×K的下采样的第一亮度参考532y，并且第二亮度参考514y可变成块大小为K×M的下采样的第二亮度参考534y。下采样的第一亮度参考532y和下采样的第二亮度参考534y可以变换(在步骤592)，以分别变成与下采样的亮度分量530y(也称为亮度块)的大小匹配的第一变换亮度参考552y和第二变换亮度参考554y，第一变换亮度参考552y、第二变换亮度参考554y以及下采样的亮度分量530y可以连接在一起(在步骤592)。例如，可以通过将下采样的第一亮度参考532y和下采样的第二亮度参考534y的值复制若干次来执行变换，直到其大小与输出块大小(例如，下采样的亮度分量530y的大小)相同。

为了预测色度分量520，也可以添加色度分量520的相邻参考(例如，第一色度参考522和第二色度参考524)，作为用于生成更好的色度分量的可选参考。参考图5，色度分量520可以是大小为N×M的块，其是可以在本公开的实施例中生成/预测的重构的色度块。色度分量520具有两个色度信道520u和520t，并且两个信道520u和520t可以联合使用。可以获得可以分别具有N×K和K×M的块大小的第一色度参考522和第二色度参考524(在步骤593)。根据实施例，可以获得两次第一色度参考522和第二色度参考524，以对应于两个色度信道520u和520t。可将第一色度参考522和第二色度参考524分别变换(在步骤594)为与N×M大小匹配的第一变换色度参考542和第二变换色度参考544。可以将所有基于图像的信息(例如，下采样的亮度分量530y、第一变换亮度参考552y、第二变换亮度参考554y、第一变换色度参考542和第二变换色度参考544)连接在一起(在步骤595)，以获得输入样本580，用于训练DNN和/或使用DNN进行预测。除了亮度和色度分量之外，可以将辅助信息添加到输入中，用于训练神经网络和/或预测。例如，QP值和块分割深度信息可用于生成大小为N×M的特征图，并且可与基于图像的特征图(例如，下采样的亮度分量530y、第一变换亮度参考552y、第二变换亮度参考554y、第一变换色度参考542和第二变换色度参考544)连接在一起(在步骤595)，以生成输入样本580，用于训练和/或预测。

下面参考图6描述通用混合视频编码系统中的过程600的工作流程。

一组重构的亮度块610(也称为亮度分量)、辅助信息612、亮度块610的相邻亮度参考614以及要重构的色度块的相邻色度参考616可以用作DNN 620的输入，使得本公开的实施例的模型可以执行训练和预测。DNN 620的输出630可以是预测的色度分量，并且可以使用不同的DNN模型或相同的DNN模型来预测两个色度信道。

根据实施例，DNN 620的输入可以是参考图5描述的输入样本580。例如，重构的亮度块610可为下采样的亮度分量530y，相邻亮度参考614可为第一变换亮度参考552y和第二变换亮度参考554y中的一个或多个，并且相邻色度参考616可为第一变换色度参考542和第二变换色度参考544中的一个或多个(针对色度信道520u和520t中的一个或两个)。根据实施例，辅助信息可以包括例如QP值和块分割深度信息。

如何将重构的亮度块610、辅助信息612、相邻亮度参考614和相邻色度参考616用作输入的组合、连接或顺序可以不同地改变。根据实施例，基于本公开的实施例的编码系统的决定，辅助信息612、相邻亮度参考614和/或相邻色度参考616可以是DNN 620的可选输入。

根据实施例，本公开的编码系统可以通过例如将DNN 620的输出630(例如，预测色度分量)与原始色度块660进行比较，并且将来自其他预测模式的一个或多个色度块(步骤650)与原始色度块660进行比较，来计算重构质量(步骤640)。基于从输出630(例如，预测色度分量)和来自其他预测模式的一个或多个色度块(步骤650)中确定一个具有最高重构质量(例如，最接近原始色度块660)，编码系统可以选择这样的块(或模式)作为重构的色度块670。

根据实施例，可以提供至少一个处理器和存储计算机程序指令的存储器。当由至少一个处理器执行时，计算机程序指令可以实现执行本公开中描述的任意数量的功能的系统。例如，参考图7，至少一个处理器可以实现系统700。系统700可以包括DNN及其至少一个模型。计算机程序指令可以包括例如DNN代码710、输入生成代码720、输入代码730、预测代码740、重构质量代码750和图像获得代码760。

根据本公开的实施例，DNN代码710可以被配置为使得至少一个处理器实现DNN(及其模型)。

根据本公开的实施例(例如，参考图5的描述)，输入生成代码720可以被配置为使得至少一个处理器生成针对DNN的输入。例如，输入生成代码720可以使得执行参考图5描述的过程。

根据本公开的实施例，输入代码730可以被配置为使得至少一个处理器将输入输入到DNN中(例如，参考到图6所示的DNN 620中的输入的描述)。例如，参看图6，输入可包含重构的亮度块610、辅助信息612、亮度参考614和/或色度参考616。

根据本公开的实施例，预测代码740可以被配置为使得至少一个处理器由DNN预测重构的色度块(例如，参考图6中示出的输出630的描述)。

根据本公开的实施例，重构质量代码750可以被配置为使得至少一个处理器计算由DNN预测的重构的色度块的重构质量以及使用不同预测模式预测的另一重构的色度块的重构质量(例如，参考图6中示出的步骤640和650的描述)。

根据本公开的实施例，图像获得代码760可以被配置为使得至少一个处理器使用由DNN预测的重构的色度块或者使用不同预测模式预测的另一重构的色度块来获得图像(例如，参考图6中示出的步骤640和重构的色度块670的描述)。例如，图像获得代码760可以被配置为使得至少一个处理器基于具有最高计算的重构质量的一个，从重构的色度块和另一个重构的色度块中选择一个，并且使用这样的重构的色度块来获得图像。根据实施例，图像获得代码760可以被配置为使得至少一个处理器使用由DNN预测的重构的色度块来获得图像，而无需计算重构质量和/或用于在重构的色度块之间进行选择。根据实施例，重构的亮度块也可用于获得图像。

与帧内预测模式中的现有交叉分量预测方法相比，本公开的实施例提供了多种益处。例如，本公开的实施例提供了适应各种形状的重构块的灵活且通用的框架。此外，本公开的实施例包括利用具有各种输入信息的变换机制的方面，从而优化DNN模型的学习能力，以便提高编码效率。此外，辅助信息可以与DNN一起使用，以改善预测结果。

上述本公开的实施例的技术可以被实现为使用计算机可读指令的计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图8示出了适于实现所公开主题的实施例的计算机系统900。

计算机软件可以使用任何合适的机器代码或计算机语言来编码，其可以经受汇编、编译、链接或类似机制，来创建包括指令的代码，这些指令可以由计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行，或者通过解释、微代码执行等来执行。

指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板计算机、服务器、智能手机、游戏设备、物联网设备等。

图8中所示的计算机系统900的组件本质上是示例性的，并不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。组件的配置也不应被解释为对计算机系统900的示例性实施例中示出的任何一个组件或组件组合有任何依赖性或要求。

计算机系统900可以包括某些人机接口输入设备。这种人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如：语音、鼓掌)、视觉输入(例如：手势)、嗅觉输入(未示出)进行的输入。人机接口设备还可以用于捕捉不一定与人的有意识输入直接相关的某些介质，例如，音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静止图像相机获得的照片图像)、视频(例如，二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下一个或多个(每一个仅示出一个)：键盘901、鼠标902、轨迹板903、触摸屏910、数据手套、操纵杆905、麦克风906、扫描仪907和相机908。

计算机系统900还可以包括某些人机接口输出设备。这种人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如，触摸屏910、数据手套或操纵杆905的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)。例如，这样的设备可以是音频输出设备(例如：扬声器909、耳机(未示出))、视觉输出设备(例如，屏幕910，包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕，每个都具有或不具有触摸屏输入能力，每个都具有或不具有触觉反馈能力，其中一些能够通过诸如立体输出等手段输出二维视觉输出或多于三维的输出；虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出))以及打印机(未示出)。

计算机系统900还可以包括人类可访问的存储设备及其相关联的介质，例如，包括具有CD/DVD或类似介质921的CD/DVD ROM/RW 920的光学介质921、拇指驱动器922、可移动硬盘驱动器或固态驱动器923、诸如磁带和软盘(未示出)之类的传统磁介质、诸如安全加密狗(未示出)之类的基于专用ROM/ASIC/PLD的设备等。

本领域技术人员还应该理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其他瞬时信号。

计算机系统900还可以包括到一个或多个通信网络的接口。网络例如可以是无线的、有线的、光学的。网络还可以是局域的、广域的、城市的、车辆的和工业的、实时的、延迟容忍的等。网络的示例包括局域网，例如，以太网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络、包括CANBus的车辆和工业网络等。某些网络通常需要连接到某些通用数据端口或外围总线949(例如，计算机系统900的USB端口)的外部网络接口适配器；其他的通常通过连接到如下所述的系统总线而集成到计算机系统900的核心中(例如，以太网接口集成到PC计算机系统中或蜂窝网络接口集成到智能电话计算机系统中)。使用这些网络中的任何一个，计算机系统900可以与其他实体通信。这种通信可以是单向只接收的(例如，广播电视)、单向只发送的(例如，到某些CANbus设备的CANbus)或者是双向的，例如，到使用局域网或广域网的其他计算机系统。这种通信可以包括到云计算环境955的通信。如上所述，某些协议和协议栈可以用在这些网络和网络接口的每一个上。

前述人机接口设备、人类可访问的存储设备和网络接口954可以连接到计算机系统900的核心940。

核心940可以包括一个或多个中央处理单元(CPU)941、图形处理单元(GPU)942、现场可编程门区域(FPGA)943形式的专用可编程处理单元、用于特定任务的硬件加速器944等。这些设备连同只读存储器(ROM)945、随机存取存储器946、诸如内部非用户可访问硬盘驱动器、SSD等内部大容量存储器947可以通过系统总线948连接。在一些计算机系统中，系统总线948可以以一个或多个物理插头的形式访问，以允许额外CPU、GPU等的扩展。外围设备可以直接连接到核心的系统总线948，或者通过外围总线949连接。外围总线的架构包括PCI、USB等。图形适配器950可以包括在核心940中。

CPU 941、GPU 942、FPGA 943和加速器944可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM 945或RAM 946中。过渡数据也可以存储在RAM 946中，而永久数据可以存储在例如内部大容量存储器947中。可以通过使用高速缓冲存储器来实现对任何存储设备的快速存储和检索，高速缓冲存储器可以与一个或多个CPU 941、GPU 942、大容量存储器947、ROM 945、RAM 946等紧密关联。

计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的，或者可以是计算机软件领域的技术人员公知和可获得的类型。

作为示例而非限制，具有架构的计算机系统900(特别是核心940)可以提供作为处理器(包括CPU、GPU、FPGA、加速器等)执行包含在一个或多个有形的计算机可读介质中的软件的结果的功能。这种计算机可读介质可以是与如上所述的用户可访问的大容量存储器相关联的介质以及具有非暂时性的核心940的某些存储器，例如，核心内部大容量存储器947或ROM 945。实现本公开的各种实施例的软件可以存储在这样的设备中并由核心940执行。根据特定需要，计算机可读介质可以包括一个或多个存储设备或芯片。该软件可以使核心940(特别是其中的处理器(包括CPU、GPU、FPGA等))执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM 946中的数据结构以及根据软件定义的过程修改这样的数据结构。此外或作为替代，计算机系统可以作为硬连线或以其他方式包含在电路中的逻辑(例如：加速器944)的结果来提供功能，其可以代替软件或与软件一起操作，来执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可以包括存储用于执行的软件的电路(例如，集成电路(IC))、包含用于执行的逻辑的电路或者这两者。本公开包含硬件和软件的任何合适的组合。

虽然本公开已经描述了几个示例性实施例，但是存在落入本公开范围内的变更、置换和各种替代等同物。因此，应当理解，本领域技术人员将能够设计出许多系统和方法，尽管在此没有明确示出或描述，但是这些系统和方法体现了本公开的原理，并且因此在本公开的精神和范围内。

Claims

1.一种由至少一个处理器执行的方法，其特征在于，所述方法包括：

获得图像或视频的重构的亮度块；

将所述重构的亮度块输入到深度神经网络DNN中；

获得与所述重构的亮度块相关联的参考分量和辅助信息；

将所述参考分量和所述辅助信息输入到所述DNN中；以及

由所述DNN基于所述重构的亮度块、所述参考分量和所述辅助信息来预测所述图像或所述视频的重构的色度块。

2.根据权利要求1所述的方法，其特征在于，

所述参考分量包括所述重构的亮度块的相邻亮度参考和待预测的所述重构的色度块的相邻色度参考中的至少一个，以及

所述预测所述图像或所述视频的重构的色度块还包括由所述DNN基于输入的所述重构的亮度块以及所述相邻亮度参考和所述相邻色度参考中的所述至少一个来预测所述重构的色度块。

3.根据权利要求1所述的方法，其特征在于，

所述参考分量包括所述重构的亮度块的相邻亮度参考和待预测的所述重构的色度块的相邻色度参考，以及

所述预测所述图像或所述视频的重构的色度块还包括由所述DNN基于输入的所述重构的亮度块、所述相邻亮度参考和所述相邻色度参考来预测所述重构的色度块。

4.根据权利要求1所述的方法，其特征在于，还包括基于所述辅助信息生成特征图，并且将所生成的特征图与其他基于图像的特征图进行连接，用于DNN训练。

5.根据权利要求1所述的方法，其特征在于，所述辅助信息包括量化参数QP值和块分割深度信息中的至少一个。

6.根据权利要求1所述的方法，其特征在于，还包括：

计算由所述DNN预测的所述重构的色度块的重构质量以及使用不同预测模式预测的另一重构的色度块的重构质量；以及

基于所计算的重构质量中最高的一个，使用由所述DNN预测的所述重构的色度块和使用所述不同预测模式预测的所述另一个重构的色度块中的一个来获得所述图像或所述视频。

7.根据权利要求1所述的方法，其特征在于，还包括：

生成所述DNN的输入，

其中，所述预测所述图像或所述视频的重构的色度块包括由所述DNN基于所述输入预测所述图像或所述视频的所述重构的色度块，

其中，所述生成所述DNN的输入包括：

重构亮度块并获得所述亮度块的相邻亮度参考；

对所述亮度块进行下采样，以获得作为所述输入之一的所述重构的亮度块；

对所述亮度块的所述相邻亮度参考进行下采样；以及

对下采样的所述相邻亮度参考进行变换，以具有与下采样的所述亮度块相同的大小，以及

其中，所述DNN的输入包括下采样的所述亮度块和变换的所述相邻亮度参考。

8.根据权利要求7所述的方法，其特征在于，所述亮度块为2N×2M的块，并且所述相邻亮度参考包括用于参考的2N×2K的第一亮度参考块和2K×2M的第二亮度参考块，其中，N、K和M为整数，2N为宽度，2M为高度，2K为亮度参考中的行数或列数。

9.根据权利要求8所述的方法，其特征在于，

通过对所述亮度块进行下采样而获得的所述重构的亮度块的大小为N×M，并且

对所述相邻亮度参考进行下采样后，所述第一亮度参考块的大小为N×K，所述第二参考亮度块的大小为K×M。

10.根据权利要求7所述的方法，其特征在于，

所述生成所述DNN的输入还包括将待预测的所述重构的色度块的相邻色度参考变换为具有与下采样的所述亮度块相同的大小，

其中，所述DNN的输入包括下采样的所述亮度块、变换的所述相邻亮度参考和变换的所述相邻色度参考。

11.一种系统，其特征在于，包括：

至少一个存储器，所述存储器被配置为存储计算机程序代码；以及

至少一个处理器，所述处理器被配置为访问所述计算机程序代码，并按照所述计算机程序代码的指示操作，所述计算机程序代码包括：

输入代码，所述输入代码被配置为使得所述至少一个处理器将图像或视频的重构的亮度块、与所述重构的亮度块相关联的参考分量以及辅助信息输入到由所述至少一个处理器实现的深度神经网络DNN中；以及

预测代码，所述预测代码被配置为使得所述至少一个处理器由所述DNN基于所述重构的亮度块、所述参考分量和所述辅助信息来预测所述图像或所述视频的重构的色度块。

12.根据权利要求11所述的系统，其特征在于，

所述预测代码进一步被配置为使得所述至少一个处理器由所述DNN基于输入的所述重构的亮度块以及所述相邻亮度参考和所述相邻色度参考中的所述至少一个来预测所述重构的色度块。

13.根据权利要求11所述的系统，其特征在于，

所述预测代码进一步被配置为使得所述至少一个处理器由所述DNN基于输入的所述重构的亮度块、所述相邻亮度参考和所述相邻色度参考来预测所述重构的色度块。

14.根据权利要求11所述的系统，其特征在于，所述计算机程序代码还包括输入生成代码，所述输入生成代码被配置为使得所述至少一个处理器基于所述辅助信息生成特征图，并且将所生成的特征图与其他基于图像的特征图进行连接，用于DNN训练。

15.根据权利要求11所述的系统，其特征在于，所述辅助信息包括量化参数QP值和块分割深度信息中的至少一个。

16.根据权利要求11所述的系统，其特征在于，所述计算机程序代码还包括：

重构质量代码，所述重构质量代码被配置为使得所述至少一个处理器计算由所述DNN预测的所述重构的色度块的重构质量以及使用不同预测模式预测的另一重构的色度块的重构质量；以及

图像获得代码，所述图像获得代码被配置为使得所述至少一个处理器基于所计算的重构质量中最高的一个，使用由所述DNN预测的所述重构的色度块和使用所述不同预测模式预测的所述另一个重构的色度块中的一个来获得所述图像或所述视频。

17.根据权利要求11所述的系统，其特征在于，所述计算机程序代码还包括：

输入生成代码，所述输入生成代码被配置为使得所述至少一个处理器生成所述DNN的输入，

其中，所述预测代码还被配置为使得所述至少一个处理器由所述DNN基于所述输入预测所述图像或所述视频的所述重构的色度块，

其中，所述输入生成代码被配置为使得所述至少一个处理器通过执行以下操作来生成所述DNN的所述输入：

重构亮度块并获得所述亮度块的相邻亮度参考；

对所述亮度块的所述相邻亮度参考进行下采样；以及

18.根据权利要求17所述的系统，其特征在于，所述亮度块为2N×2M的块，并且所述相邻亮度参考包括用于参考的2N×2K的第一亮度参考块和2K×2M的第二亮度参考块，其中，N、K和M为整数，2N为宽度，2M为高度，2K为亮度参考中的行数或列数。

19.根据权利要求18所述的系统，其特征在于，通过对所述亮度块进行下采样而获得的所述重构的亮度块的大小为N×M，并且

20.一种存储计算机代码的非暂时性计算机可读介质，其特征在于，所述计算机代码被配置为当由至少一个处理器执行时，使得所述至少一个处理器：

实现深度神经网络DNN；

将图像或视频的重构的亮度块、与所述重构的亮度块相关联的参考分量以及辅助信息输入所述DNN中；以及

由所述DNN基于输入的所述重构的亮度块、所述参考分量和所述辅助信息来预测所述图像或所述视频的重构的色度块。