CN116670686A

CN116670686A - 用于以低比特精度进行基于dnn的交叉分量预测的内容自适应在线训练

Info

Publication number: CN116670686A
Application number: CN202280008626.XA
Authority: CN
Inventors: 林晟; 蒋薇; 王炜; 刘杉; 许晓中
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-06-15
Filing date: 2022-05-31
Publication date: 2023-08-29
Also published as: KR20230156789A; EP4128051A4; JP2023542029A; WO2022265849A1; US11949892B2; US20220400273A1; EP4128051A1

Abstract

一种用于在图像帧或视频序列的编码或解码期间以低比特精度进行基于神经网络的交叉分量预测的方法和装置，其可以包括：使用用于色度预测的预训练的深度神经网络DNN交叉分量预测CCP模型基于接收的亮度分量来重构色度分量；以及以低比特精度更新预训练的DNN CCP模型的一组参数。该方法还可以包括：基于至少一个视频序列生成更新的DNN CCP模型，其中，更新的DNN CCP模型用于以低比特精度进行色度预测；以及以减少的处理时间使用该更新的DNN CCP模型进行至少一个视频序列的交叉分量预测。

Description

用于以低比特精度进行基于DNN的交叉分量预测的内容自适应在线训练

相关申请的交叉引用

本申请基于2021年6月15日提交的美国临时专利申请号63/210,751，并要求其优先权，其公开内容通过引用整体结合于此。

技术领域

本公开的实施例涉及在编码或解码图像和/或视频序列期间基于神经网络的交叉分量预测(Cross Component Prediction，或称为，跨分量预测)。

背景技术

视频编码和解码通过压缩减少了输入视频信号中的冗余。无损和有损压缩都有助于减少带宽或存储空间需求，在某些情况下可降低两个数量级或更多。无损压缩是指可以从压缩的原始信号中重构原始信号的精确副本的技术。当使用有损压缩时，重构信号可能与原始信号不相同，但是原始信号和重构信号之间的失真足够小，使得重构信号对预期应用有用。有损压缩广泛应用于视频编码或解码。容许的失真量可能取决于应用。例如，某些消费者流应用的用户可能比电视贡献应用的用户容忍更高的失真。

传统的视频编码标准(例如，H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)和通用视频编码(VVC))都是在类似的(递归的)基于块的混合预测/变换框架上设计的，其中，各种编码工具(例如，帧内/帧间预测、整数变换和上下文自适应熵编码)都是精心制作的，以优化整体效率。本质上，时空像素邻域用于预测信号构造，以获得用于后续变换、量化和熵编码的相应残差。然而，这种方法不能通过分析不同层的时空信息来提取不同水平的时空刺激。因此，为了更好的压缩效率和更好的压缩质量，需要探索非线性和非局部时空相关性的方法和装置。

发明内容

根据本公开的一个方面，可以提供一种用于在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的方法。该方法可以包括：使用用于色度预测的预训练的深度神经网络DNN交叉分量预测CCP模型，基于接收的亮度分量来重构色度分量；以低比特精度更新预训练的DNN CCP模型的一个或多个参数；基于至少一个视频序列生成更新的DNNCCP模型，其中，更新的DNN CCP模型用于以低比特精度进行色度预测；以及以减少的处理时间使用更新的DNN CCP模型进行至少一个视频序列的交叉分量预测。

根据本公开的一个方面，可以提供一种用于在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的装置。该装置可以包括：至少一个存储器，该存储器被配置为存储程序代码；以及至少一个处理器，该处理器被配置为读取程序代码并按照程序代码的指示进行操作。程序代码可以包括：重构代码，该重构代码被配置为使得至少一个处理器使用用于色度预测的预训练的DNN CCP模型，基于接收的亮度分量来重构色度分量；更新代码，该更新代码被配置为使得至少一个处理器以低比特精度更新预训练的DNN CCP模型的一个或多个参数；生成代码，该生成代码被配置为使得至少一个处理器基于至少一个视频序列生成更新的DNN CCP模型，其中，更新的DNN CCP模型用于以低比特精度进行色度预测；以及预测代码，该预测代码被配置为使得至少一个处理器以减少的处理时间使用更新的DNN CCP模型进行至少一个视频序列的交叉分量预测。

根据本公开的一个方面，可以提供一种用于储存在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的指令的非暂时性计算机可读介质。指令在执行时可以使得至少一个处理器：使用用于色度预测的预训练的DNN CCP模型，基于接收的亮度分量来重构色度分量；以低比特精度更新预训练的DNN CCP模型的一个或多个参数；基于至少一个视频序列生成更新的DNN CCP模型，其中，更新的DNN CCP模型用于以低比特精度进行色度预测；以及以减少的处理时间使用更新的DNN CCP模型进行至少一个视频序列的交叉分量预测。

附图说明

从以下详细描述和附图中，所公开主题的进一步特征、性质和各种优点将变得更加明显，其中：

图1是根据一个实施例的通信系统的简化框图；

图2是图1的一个或多个设备的示例组件的框图；

图3是根据实施例的在编码或解码期间以低比特精度进行示例性基于深度神经网络DNN的交叉分量预测的示图；

图4示出了根据一个实施例的用于在编码或解码期间以低比特精度进行基于深度神经网络DNN的交叉分量预测的方法的流程图；

图5是根据一个实施例的流环境的示图；

图6是根据实施例的视频解码器的框图；

图7是根据实施例的视频编码器的框图。

具体实施方式

如上所述，相关技术中的方法可以利用时空像素邻域来构建预测信号，以获得用于后续变换、量化和熵编码的相应残差。然而，这种方法不能通过分析不同层的时空信息来提取不同水平的时空刺激。因此，为了更好的压缩效率和更好的压缩质量，需要探索非线性和非局部时空相关性的方法和装置。

利用来自不同分量的信息和额外的辅助信息，基于非神经网络的编码器可以预测其他分量，以实现更好的压缩性能。然而，其性能不如基于神经网络的编码器。作为一个示例，当与基于深度神经网络DNN的方法相比时，帧内预测中的交叉分量线性预测模式不能很好地执行和有效。

DNN基本上被编程为提取不同水平的刺激，并且具有探索高度非线性和非局部相关性的能力。这为高压缩质量提供了有希望的机会。

根据本公开的实施例，可以提供用于交叉分量预测CCP的低比特精度的内容自适应在线训练方法。在线训练可以包括一个或多个模型的实时训练。实施例可以基于深度神经网络DNN，用于处理视频，在在线训练阶段调整模型的精度，通过一系列处理提高不同视频输入的视频压缩质量。

图1示出了根据本公开的实施例的通信系统(100)的简化框图。通信系统(100)可以包括经由网络(150)互连的至少两个终端(140-130)。对于数据的单向传输，第一终端(140)可以在本地位置对视频数据进行编码，以便经由网络(150)传输到另一终端(130)。第二终端(130)可以从网络(150)接收另一终端的编码视频数据，解码经编码的数据并显示恢复的视频数据。单向数据传输在媒体服务应用等中是常见的。

图1示出了第二对终端(110、120)，提供第二对终端，以支持例如在视频会议期间可能发生的编码视频的双向传输。对于数据的双向传输，每个终端(110、120)可以对在本地位置捕捉的视频数据进行编码，以便经由网络(150)传输到另一个终端。每个终端(110、120)还可以接收由另一个终端传输的编码视频数据，可以解码经编码的数据，并且可以在本地显示设备上显示恢复的视频数据。

在图1中，终端(140-120)可以被示为服务器、个人计算机和智能电话，但是本公开的原理不限于此。本公开的实施例适用于膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络(150)表示在终端(140-120)之间传送编码视频数据的任意数量的网络，包括例如有线和/或无线通信网络。通信网络(150)可以在电路交换和/或分组交换的信道中交换数据。代表性的网络包括电信网络、局域网、广域网和/或互联网。出于当前讨论的目的，网络(150)的架构和拓扑对于本公开的操作可能是不重要的，除非在下文中解释。

图2是图1的一个或多个设备的示例组件的框图。

设备200可以对应于终端(110-140)中的任何一个。如图2所示，设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。

总线210包括允许设备200的组件之间通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类型的处理组件。在一些实现方式中，处理器220包括能够被编程以执行功能的一个或多个处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储供处理器220使用的信息和/或指令的另一种类型的动态或静态存储设备(例如，闪存、磁存储器和/或光存储器)。

存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如，存储组件240可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带和/或另一种类型的非暂时性计算机可读介质以及相应的驱动器。

输入组件250包括允许设备200例如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的组件。附加地或替代地，输入组件250可以包括用于感测信息的传感器(例如，全球定位系统(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件(例如，显示器、扬声器和/或一个或多个发光二极管(LED))。

通信接口270包括类似收发器的组件(例如，收发器和/或单独的接收机和发射机)，其使得设备200能够例如经由有线连接、无线连接或有线和无线连接的组合与其他设备通信。通信接口270可以允许设备200从另一个设备接收信息和/或向另一个设备提供信息。例如，通信接口270可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备200可以执行本文描述的一个或多个过程。设备200可以响应于处理器220执行由诸如存储器230和/或存储组件240等非暂时性计算机可读介质存储的软件指令来执行这些过程。计算机可读介质在本文被定义为非暂时性存储设备。存储设备包括单个物理存储设备内的存储空间或者分布在多个物理存储设备上的存储空间。

软件指令可以经由通信接口270从另一计算机可读介质或另一设备读入存储器230和/或存储组件240。当被执行时，存储在存储器230和/或存储组件240中的软件指令可以使得处理器220执行本文描述的一个或多个过程。附加地或替代地，可以使用硬连线电路来代替软件指令或者与软件指令相结合，以执行本文描述的一个或多个过程。因此，本文描述的实现方式不限于硬件电路和软件的任何特定组合。

提供图2中所示的组件的数量和布置，作为示例。在实践中，设备200可以包括比图2所示更多的组件、更少的组件、不同的组件或不同布置的组件。附加地或替代地，设备200的一组组件(例如，一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。

可以如下描述视频压缩框架。输入视频x可以包括多个图像帧x1，…，xT，其中，T代表视频中的总帧数。可以将帧分割成空间块，每个块可以迭代地分割成更小的块。可以使用任何合适的分割方法。作为一个示例，可以使用3D树编码(例如，八叉树分割)。经分割的块可包含亮度分量和色度分量。在帧内预测过程中，可以首先预测亮度分量，然后可以稍后预测两个色度信道。根据实施例，可以共同或单独生成两个色度信道的预测。重构的色度分量可以由编码器和解码器中的基于DNN的模型生成。在一些实施例中，重构的色度分量可以仅在解码器中由基于DNN的模型生成。

根据实施例，包括信号处理、空间或时间滤波、缩放、加权平均、上/下采样、汇集、具有存储器的递归处理、线性系统处理、非线性系统处理、神经网络处理、基于深度学习的处理、AI处理、预训练网络处理、基于机器学习的处理或其组合的一个或多个过程测可以用作模块，用于预处理图像帧和/或后处理图像帧。

图3是根据实施例的在编码或解码期间以低比特精度进行示例性基于深度神经网络(DNN)的交叉分量预测过程(300)的示图。如图3所示，过程300可以包括神经网络模型(302)和重构质量计算(304)。

考虑到亮度分量(例如，在编码期间)或重构的亮度分量(例如，在解码期间)、某些辅助信息或与相邻亮度参考块和相邻色度参考块相关联的信息作为神经网络模型(302)的输入，神经网络模型(302)可以被训练并联合执行推理。

在一些实施例中，神经网络模型(302)可以是预先训练的模型，该模型在使用神经网络模型(302)进行编码或解码之前或之后进行微调。在一些实施例中，神经网络模型(302)可以是预训练的，但是可以在相应的编码或解码期间通过利用推理加速和连续调整来连续更新。对于连续更新，在一些实施例中，神经网络模型(302)可以由定制的硬件处理器支持，并且也可以由在训练期间使用的较低精度的浮点表示支持。

根据实施例，额外辅助信息可以包括由编码器提供的图像属性和信息，包括但不限于亮度分量、块大小、块分量、量化参数(QP)值等。

神经网络模型(302)的输出可以是预测的色度分量。这两个色度信道可以使用不同的基于神经网络的模型，或者使用相同的模型。本公开的实施例允许可以任意改变如何将这些组件用作输入的组合、连接或顺序。

预测的色度分量可以用作重构质量计算(304)的输入，以生成重构的色度块。在一些实施例中，重构质量计算(304)也可以使用来自其他预测模式的色度块，作为输入。在一些实施例中，重构质量计算(304)可以接收与重构色度块相关联的原始色度块，以确定压缩质量，并确定是否需要或可以更新神经网络模型的一个或多个参数，从而更新神经网络模型。

根据一个实施例，通过以低比特精度更新预训练的基于神经网络的模型的部分(或全部)参数，可以为输入视频优化一个或几个重构分量的更好压缩性能。虽然当前大多数神经网络的默认模型参数精度是FP32(某些硬件可能支持FP64模型训练)，但在推理阶段，特定硬件平台可能支持低比特精度，例如，FP16、INT8、INT4、INT2和INT1。低比特精度可能是压缩性能和总处理时间之间的折衷。

为了提高基于神经网络的交叉分量预测模型的学习速度和精度，可以将一些额外参数添加到本文公开的基于神经网络的交叉分量预测模型中。这些一个或多个额外参数可以在初始训练、微调或连续调整期间作为可学习参数添加。在训练期间，可以通过基于输入视频序列优化率失真损失来学习额外参数。

根据一个实施例，用于交叉分量预测的基于神经网络的模型可以被微调或者可以基于单个视频序列连续更新。根据一个实施例，用于交叉分量预测的基于神经网络的模型可以微调，或者可以基于一组视频序列连续更新。

根据实施例，基于神经网络的模型可以预训练。在一个实施例中，可以更新仅在神经网络模型的一层或某些类型的层中的一个或多个参数，并且生成新的模型。在其他优选实施例中，在神经网络模型的多层或所有层上更新参数。在一个实施例中，只有一个或多个偏置项/参数可以以低比特精度进行优化和更新。在一个实施例中，一个或多个权重(系数)项/参数可以以低比特精度优化和更新。在一个实施例中，一个或多个偏置参数和一个或多个加权项/参数可以联合优化或与低比特精度一起优化。

在训练和/或微调结束时，可以计算更新的参数。在一个实施例中，可以在更新的参数和现有的预训练参数之间计算压缩性能。在一个实施例中，更新的参数是微调的参数，即，神经网络模型用微调的参数更新，并且可以替换现有的预训练参数。在其他优选实施例中，更新的参数是微调参数的一些特定变换。

根据一个实施例，可以对更新的参数执行数据压缩，例如，LZMA2算法可以用于压缩更新的参数。在一个实施例中，可以不执行压缩。

当与本文描述的基于神经网络的交叉分量预测方法相比时，帧内预测模式中的交叉分量预测方法可以具有更好的压缩质量。根据一些实施例，待优化的一个或多个参数可以被更新为低比特精度，以提高具有特定视频的压缩性能，作为在线训练输入。此外，通过更新和/或微调具有低比特精度的参数，更新的参数处于低比特精度，这可以加速推断过程并减少处理时间。

图4示出了用于在编码或解码期间以低比特精度进行基于深度神经网络(DNN)的交叉分量预测的过程400的流程图。可以使用编码器或解码器或两者来执行过程400。

在操作405，可以使用用于色度预测的预训练的深度神经网络(DNN)交叉分量预测(CCP)模型，基于接收的亮度分量来重构色度分量。可以使用用于色度预测的预训练的神经网络模型，基于亮度分量来重构色度分量。在一些实施例中，在操作405，可以接收亮度分量。在一些示例中，可能已经重构亮度分量。

在操作410，可以以低比特精度更新预训练的DNN CCP模型的一个或多个参数。

在操作415，用于色度预测的预训练的神经网络模型可以以低比特精度来更新。在一些实施例中，更新预训练的神经网络模型可以包括以低比特精度优化预训练的神经网络模型的一个或多个参数。在一些实施例中，更新用于以低比特精度进行色度预测的预训练的神经网络模型还可以包括基于单个视频序列或一组视频序列更新预训练的神经网络模型的一个或多个参数。

可以基于预测的色度分量和使用一组预测模式编码的一个或多个色度分量来生成重构的色度分量。根据实施例，生成重构色度分量可以基于预测的色度分量的质量计算(quality computation)，其中，预测的色度分量的质量计算可以基于来自其他预测模式的一个或多个色度分量以及与预测的色度分量相关联的原始色度分量。

在操作420，更新的DNN CCP模型可以用于以减少的处理时间进行至少一个视频序列的交叉分量预测。

在一些实施例中，更新预训练的神经网络模型可以包括以低比特精度优化来自预训练的神经网络模型的一层或多层的一个或多个参数。在一些实施例中，以低比特精度优化的一个或多个参数可以包括一个或多个偏置参数。在一些实施例中，以低比特精度优化的一个或多个参数可以包括一个或多个权重参数。在一些实施例中，以低比特精度优化的一个或多个参数可以包括联合优化的一个或多个偏置参数和一个或多个权重参数，一个或多个偏置参数和一个或多个权重参数是被联合更新的参数。

在一些实施例中，一层或多层可以包括预训练的神经网络模型的一个或多个卷积层。在一些实施例中，一层或多层可以包括预训练的神经网络模型的一组最终层。

在一些实施例中，更新可以包括计算更新的神经网络模型的第一压缩性能，更新的DNN CCP模型可以包括以低比特精度更新的一个或多个参数，然后计算预训练的神经网络模型的第二压缩性能，预训练的DNN CCP模型可以包括一个或多个相关参数；以及基于高于阈值的第一压缩性能和第二压缩性能的比较，确定是否更新预训练的神经网络模型，以包括用一个或多个缩放因子优化的一个或多个参数。第一压缩性能和第二压缩性能高于阈值。

作为所公开的主题的应用的示例，图5示出了视频编码器和解码器在流环境中的放置。所公开的主题可以同样适用于其他支持视频的应用，包括例如视频会议、数字电视、在包括CD、DVD、记忆棒等的数字媒体上存储压缩视频等。

流系统可以包括捕捉子系统(513)，其可以包括视频源(501)，例如，数码相机，创建例如未压缩的视频样本流(502)。该采样流(502)被描绘为粗线，以强调与编码视频比特流相比时的高数据量，可以由耦合到相机(501)的编码器(503)来处理。编码器(503)可以包括硬件、软件或其组合，以实现或实施如下面更详细描述的所公开主题的各方面。编码的视频比特流(504)被描绘为细线，以强调与样本流相比较低的数据量，可以被存储在流服务器(505)上，以供将来使用。一个或多个流客户端(506、508)可以访问流服务器(505)，以检索编码视频比特流(504)的副本(507、509)。客户端(506)可以包括视频解码器(510)，该视频解码器对编码视频比特流(507)的输入副本进行解码，并创建可以在显示器(512)或其他呈现设备(未示出)上呈现的输出视频样本流(511)。在一些流系统中，视频比特流(504、507、509)可以根据特定的视频编码/压缩标准进行编码。这些标准的示例包括H.265HEVC。正在开发的视频编码标准被非正式地称为通用视频编码(VVC)。所公开的主题可以在VVC的环境中使用。

图6可以是根据本发明的实施例的视频解码器(510)的功能框图。

接收机(610)可以接收将由解码器(610)解码的一个或多个编解码器视频序列；在同一个或另一个实施例中，一次一个编码视频序列，其中，每个编码视频序列的解码独立于其他编码视频序列。可以从信道(612)接收编码视频序列，该信道可以是到存储编码视频数据的存储设备的硬件/软件链接。接收机(610)可以接收编码视频数据和其他数据，例如，编码的音频数据和/或辅助数据流，其可以被转发到其相应的使用实体(未示出)。接收机(610)可以从其他数据中分离出编码的视频序列。为了对抗网络抖动，缓冲存储器(615)可以耦合在接收机(610)和熵解码器/解析器(620)(下文称为“解析器”)之间。当接收机(610)从具有足够带宽和可控性的存储/转发设备或者从同步网络接收数据时，缓冲器(615)可以是不需要的，或者可以是小的。为了尽力在分组网络(例如，因特网)上使用，可能需要缓冲器(615)，该缓冲器可能相对较大，并且可能有利地具有自适应大小。

视频解码器(510)可以包括解析器(620)，以从熵编码的视频序列中重构符号(621)。这些符号的类别包括用于管理解码器(510)的操作的信息以及潜在地控制呈现设备(例如，显示器(512))的信息，该呈现设备不是解码器的组成部分，但是可以耦合到解码器，如图6所示。用于呈现设备的控制信息可以是补充增强信息(SEI消息)或视频可用性信息(VUI)参数集片段(未示出)的形式。解析器(620)可以对接收到的编码视频序列进行解析/熵解码。编码视频序列的编码可以根据视频编码技术或标准，并且可以遵循本领域技术人员已知的原理，包括可变长度编码、Huffman编码、具有或不具有上下文敏感性的算术编码等。解析器(620)可以基于对应于该组的至少一个参数，从编码视频序列中提取视频解码器中的至少一个像素子组的一组子组参数。子组可以包括图片组(GOP)、图片、图块、切片、宏块、编码单元(CU)、块、变换单元(TU)、预测单元(PU)等。熵解码器/解析器还可以从编码的视频序列中提取信息，例如，变换系数、量化器参数(QP)值、运动矢量等。

解析器(620)可以对从缓冲器(615)接收的视频序列执行熵解码/解析操作，从而创建符号(621)。解析器(620)可以接收编码数据，并选择性地解码特定符号(621)。此外，解析器(620)可以确定特定符号(621)是否将被提供给运动补偿预测单元(653)、定标器/逆变换单元(651)、帧内预测单元(652)或环路滤波器(656)。

根据编码视频图片或其部分的类型(例如：帧间和帧内图片、帧间和帧内块)以及其他因素，符号(621)的重构可以涉及多个不同的单元。可以通过由解析器(620)从编码视频序列中解析的子组控制信息来控制涉及哪些单元以及如何涉及。为了清楚起见，没有描述解析器(620)和下面的多个单元之间的这种子组控制信息流。

除了已经提到的功能块之外，解码器(510)可以在概念上细分成如下所述的多个功能单元。在商业限制下操作的实际实现中，许多这些单元彼此紧密交互，并且可以至少部分地彼此集成。然而，为了描述所公开的主题，在概念上细分成以下功能单元是合适的。

第一单元是定标器/逆变换单元(651)。定标器/逆变换单元(651)接收量化的变换系数以及控制信息，包括使用哪个变换、块大小、量化因子、量化缩放矩阵等，作为来自解析器(620)的符号(621)。定标器/逆变换单元可以输出包括样本值的块，这些块可以被输入到聚集器(655)中。

在一些情况下，定标器/逆变换单元(651)的输出样本可以属于帧内编码块；即，没有使用来自先前重构图像的预测信息但是可以使用来自当前图片的先前重构部分的预测信息的块。这种预测信息可以由帧内图片预测单元(652)提供。在一些情况下，帧内图片预测单元(652)使用从当前的(部分重构的)图片(666)获取的周围已经重构的信息，生成与重构中的块具有相同大小和形状的块。在一些情况下，聚集器(655)基于每个样本将帧内预测单元(652)已经生成的预测信息添加到由定标器/逆变换单元(651)提供的输出样本信息。

在其他情况下，定标器/逆变换单元(651)的输出样本可以属于帧间编码的并且可能是运动补偿的块。在这种情况下，运动补偿预测单元(653)可以访问参考图片存储器(657)，以获取用于预测的样本。在根据与该块有关的符号(621)对提取的样本进行运动补偿之后，这些样本可以由聚集器(655)添加到定标器/逆变换单元的输出(在这种情况下称为残差样本或残差信号)，以便生成输出样本信息。运动补偿单元从中获取预测样本的参考图片存储器内的地址可以由运动矢量来控制，运动补偿单元可以符号(621)的形式获得这些地址，这些符号可以具有例如X、Y和参考图片组件。当使用子采样精确运动矢量时，运动补偿还可以包括从参考图片存储器获取的采样值的插值、运动矢量预测机制等。

聚集器(655)的输出样本可以在环路滤波器单元(656)中经受各种环路滤波技术。视频压缩技术可以包括环路滤波技术，这些技术由编码视频比特流中包含的参数控制，并且作为来自解析器(620)的符号(621)可用于环路滤波单元(656)，但是也可以响应于在编码图片或编码视频序列的先前(按照解码顺序)部分的解码期间获得的元信息以及响应于先前重构的和环路滤波的样本值。

环路滤波器单元(656)的输出可以是样本流，该样本流可以输出到呈现设备(512)以及存储在参考图片存储器(666)中，以用于将来的帧间图片预测。

一旦完全重构，某些编码图片可以用作未来预测的参考图片。一旦编码图片被完全重构，并且编码图片已经被识别为参考图片(例如，通过解析器(620))，当前参考图片(666)可以成为参考图片缓冲器(657)的一部分，并且在开始下一个编码图片的重构之前，可以重新分配新的当前图片存储器。

视频解码器(510)可以根据预定的视频压缩技术执行解码操作，该预定的视频压缩技术可以在诸如H.265HEVC等标准中记载。编码的视频序列可以符合由所使用的视频压缩技术或标准指定的语法，在某种意义上，符合视频压缩技术或标准的语法，如在视频压缩技术文档或标准中，特别是在其中的简档文档中所指定的。符合标准还需要编码视频序列的复杂度在视频压缩技术或标准的水平所定义的范围内。在某些情况下，级别限制了最大图片大小、最大帧速率、最大重构采样率(例如，以每秒兆样本为单位测量)、最大参考图片大小等。在某些情况下，由级别设置的限制可以通过假设参考解码器(HRD)规范和编码视频序列中信令的HRD缓冲管理的元数据来进一步限制。

在一个实施例中，接收机(610)可以接收具有编码视频的额外(冗余)数据。可以包括额外数据，作为编码视频序列的一部分。视频解码器(510)可以使用额外数据来正确解码数据和/或更准确地重构原始视频数据。额外数据可以是例如时间、空间或信噪比(SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图7可以是根据本公开实施例的视频编码器(503)的功能框图。

编码器(503)可以从视频源(501)(不是编码器的一部分)接收视频样本，该视频源可以捕捉要由编码器(503)编码的视频图像。

视频源(501)可以以数字视频样本流的形式提供要由编码器(503)编码的源视频序列，该数字视频样本流可以具有任何合适的比特深度(例如：8比特、10比特、12比特、…)、任何颜色空间(例如，BT.601Y CrCB、RGB、…)和任何合适的采样结构(例如，Y CrCb 4:2:0、Y CrCb 4:4:4)。在媒体服务系统中，视频源(501)可以是存储先前准备的视频的存储设备。在视频会议系统中，视频源(503)可以是捕捉本地图像信息作为视频序列的相机。可以提供视频数据，作为多个单独的图片，当按顺序观看时，这些图片赋予运动。图片本身可以被组织为像素的空间阵列，其中，每个像素可以包括一个或多个样本，这取决于使用中的采样结构、颜色空间等。本领域技术人员可以容易地理解像素和样本之间的关系。下面的描述集中在样本上。

根据一个实施例，视频编码器(503)可以实时地或者在应用所需的任何其他时间约束下，将源视频序列的图片编码和压缩成编码的视频序列(743)。实施适当的编码速度是控制器(750)的一个功能。控制器(750)控制如下所述的其他功能单元，并且在功能上耦合到这些单元。为了清楚起见，没有描述耦合。控制器设置的参数可以包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值、…等)、图片大小、图片组(GOP)布局、最大运动矢量搜索范围等。本领域技术人员可以容易地识别控制器(750)的其他功能，因为它们可能与针对特定系统设计而优化的视频编码器(503)有关。

一些视频编码器在本领域技术人员容易识别的“编码循环”中操作。作为一个过于简化的描述，编码循环可以由编码器(730)(在下文称为“源编码器”)的编码部分(负责基于要编码的输入图片和参考图片创建符号)和嵌入在编码器(503)中的(本地)解码器(733)组成，该解码器重构符号，以创建(远程)解码器也将创建的样本数据(因为在所公开的主题中考虑的视频压缩技术中，符号和编码的视频比特流之间的任何压缩都是无损的)。该重构的样本流被输入到参考图片存储器(734)。由于符号流的解码导致独立于解码器位置(本地或远程)的比特精确的结果，所以参考图片缓冲器内容在本地编码器和远程编码器之间也是比特精确的。换言之，当在解码期间使用预测时，编码器的预测部分作为参考图片样本“看到”与解码器“看到”的样本值完全相同的样本值。参考图片同步性(以及由此产生的漂移，如果不能保持同步性，例如，由于信道误差)的基本原理对于本领域技术人员来说是公知的。

“本地”解码器(733)的操作可以与“远程”解码器(510)的操作相同，这已经在上面结合图6进行了详细描述。然而，还简要参考图6，由于符号是可用的，并且熵编码器(745)和解析器(620)对编码视频序列的符号的编码/解码可以是无损的，所以解码器(510)的熵解码部分(包括信道(612)、接收机(610)、缓冲器(615)和解析器(620))可以不完全在本地解码器(733)中实现。

在这一点上可以观察到，除了解码器中存在的解析/熵解码之外，任何解码器技术也必须以基本相同的功能形式存在于相应的编码器中。编码器技术的描述可以简化，因为这些技术是全面描述的解码器技术的逆。仅在某些领域需要更详细的描述，并在下面提供。

作为其操作的一部分，源编码器(730)可以执行运动补偿预测编码，其参考来自视频序列的被指定为“参考帧”的一个或多个先前编码的帧来预测性地编码输入帧。以这种方式，编码引擎(732)对输入帧的像素块和可以被选为输入帧的预测参考的参考帧的像素块之间的差异进行编码。

本地视频解码器(733)可以基于由源编码器(730)创建的符号，对可以被指定为参考帧的帧的编码视频数据进行解码。编码引擎(732)的操作可以有利地是有损过程。当编码的视频数据可以在视频解码器(图7中未示出)处被解码时，重构的视频序列通常可以是具有一些误差的源视频序列的副本。本地视频解码器(733)复制可以由视频解码器对参考帧执行的解码过程，并且可以使得重构的参考帧存储在参考图片高速缓存(734)中。以这种方式，编码器(503)可以本地存储重构的参考帧的副本，这些副本具有与将由远端视频解码器获得的重构的参考帧相同的内容(不存在传输误差)。

预测器(735)可以对编码引擎(732)执行预测搜索。也就是说，对于要编码的新帧，预测器(735)可以在参考图片存储器(734)中搜索样本数据(作为候选参考像素块)或某些元数据，例如，参考图片运动矢量、块形状等，其可以用作新图片的适当预测参考。预测器(735)可以在逐个样本块-像素块的基础上操作，以找到合适的预测参考。在一些情况下，如由预测器(735)获得的搜索结果所确定的，输入图片可以具有从存储在参考图片存储器(734)中的多个参考图片中提取的预测参考。

控制器(750)可以管理视频编码器(730)的编码操作，包括例如用于编码视频数据的参数和子组参数的设置。

所有前述功能单元的输出可以在熵编码器中经历熵编码(745)。熵编码器根据本领域技术人员已知的技术，例如，Huffman编码、可变长度编码、算术编码等，通过无损压缩符号，将各种功能单元生成的符号转换成编码的视频序列。

发射机(740)可以缓冲由熵编码器(745)创建的编码视频序列，以准备经由通信信道(760)传输，通信信道可以是到将存储编码视频数据的存储设备的硬件/软件链接。发射机(740)可以将来自视频编码器(730)的编码视频数据与要传输的其他数据合并，例如，编码音频数据和/或辅助数据流(源未示出)。

控制器(750)可以管理编码器(503)的操作。在编码期间，控制器(750)可以向每个编码图片分配特定的编码图片类型，这可以影响可以应用于相应图片的编码技术。例如，图片通常可以被指定为以下帧类型之一：

帧内图片(I图片)可以是不使用序列中的任何其他帧作为预测源而被编码和解码的图片。一些视频编解码器允许不同类型的帧内图片，包括例如独立解码器刷新图片。本领域技术人员知道I图片的那些变体以及其相应的应用和特征。

预测图片(P图片)可以是使用最多一个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。

双向预测图片(B图片)可以是使用最多两个运动矢量和参考索引来预测每个块的样本值，使用帧内预测或帧间预测来编码和解码的图片。类似地，多预测图片可以使用两个以上的参考图片和相关元数据来重构单个块。

源图片通常可以在空间上被细分成多个样本块(例如，每个样本块为4×4、8×8、4×8或16×16个样本块)，并且在分块的基础上编码。可以参考由应用于块的相应图片的编码分配所确定的其他(已经编码的)块来预测性地编码块。例如，I图片的块可以被非预测性地编码，或者可以参考同一图片的已经编码的块被预测性地编码(空间预测或帧内预测)。参考一个先前编码的参考图片，经由空间预测或经由时间预测，P图片的像素块可以非预测性地编码。参考一个或两个先前编码的参考图片，经由空间预测或经由时间预测，可以预测性地编码B图片的块。

视频编码器(503)可以根据预定的视频编码技术或标准(例如，H.265HEVC)来执行编码操作。在其操作中，视频编码器(503)可以执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，编码的视频数据可以符合由正在使用的视频编码技术或标准指定的语法。

在一个实施例中，发射机(740)可以与编码视频一起传输额外数据。视频编码器(730)可以包括这样的数据，作为编码视频序列的一部分。额外数据可以包括时间/空间/SNR增强层、其他形式的冗余数据(例如，冗余图片和切片)、补充增强信息(SEI)消息、视觉可用性信息(VUI)参数集片段等。

本公开涉及几种块分割方法，其中，在用于视频编码的树分裂期间考虑运动信息。更具体地，本公开中的技术涉及基于运动场信息的灵活树结构的树分裂方法。本公开中提出的技术可以应用于同质和异质导出运动场。

如果推导出的运动场对块中的所有子块都可用，并且推导出的运动场中的所有运动矢量都相似，例如，运动矢量共享相同的参考帧，并且运动矢量之间的绝对差都低于某个阈值，则块的推导出的运动场被定义为同质的。可以在比特流中信令或者预先定义阈值。

如果推导出的运动场对于块中的所有子块都可用，并且推导出的运动场中的运动矢量不相似，例如，至少一个运动矢量参考没有被其他运动矢量参考的参考帧，或者场中的两个运动矢量之间的至少一个绝对差大于信令的或预定义的阈值，则块的推导出的运动场被定义为异类的。

虽然本公开已经描述了几个示例性实施例，但是存在落入本公开范围内的变更、置换和各种替代等同物。因此，应当理解，本领域技术人员将能够设计出许多系统和方法，尽管在此没有明确示出或描述，但是这些系统和方法体现了本公开的原理，并且因此在本公开的精神和范围内。

Claims

1.一种用于在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的方法，所述方法由一个或多个处理器执行，其特征在于，所述方法包括：

使用用于色度预测的预训练的深度神经网络DNN交叉分量预测CCP模型，基于接收的亮度分量来重构色度分量；

以低比特精度更新所述预训练的DNN CCP模型的一个或多个参数；

基于至少一个视频序列生成更新的DNN CCP模型，其中，所述更新的DNN CCP模型用于以低比特精度进行色度预测；以及

以减少的处理时间使用所述更新的DNN CCP模型进行所述至少一个视频序列的交叉分量预测。

2.根据权利要求1所述的方法，其特征在于，更新所述预训练的DNN CCP模型的所述一个或多个参数包括以低比特精度更新所述预训练的DNNCCP模型的一个或多个参数。

3.根据权利要求2所述的方法，其特征在于，更新所述预训练的DNN CCP模型的所述一个或多个参数包括以低比特精度更新来自所述预训练的DNN CCP模型的一层或多层的所述一个或多个参数。

4.根据权利要求1所述的方法，其特征在于，更新所述预训练的DNN CCP模型的所述一个或多个参数还包括基于多个视频序列更新所述预训练的DNN CCP模型的所述一个或多个参数，其中，所述预训练的DNNCCP模型用于以低比特精度进行色度预测。

5.根据权利要求2所述的方法，其特征在于，以低比特精度更新的所述一个或多个参数包括一个或多个偏置参数。

6.根据权利要求2所述的方法，其特征在于，以低比特精度更新的所述一个或多个参数包括一个或多个权重参数。

7.根据权利要求2所述的方法，其特征在于，以低比特精度更新的所述一个或多个参数包括一个或多个偏置参数和一个或多个权重参数，所述一个或多个偏置参数和所述一个或多个权重参数是被联合更新的参数。

8.根据权利要求3所述的方法，其特征在于，所述一层或多层包括所述预训练的DNNCCP模型的一个或多个卷积层。

9.根据权利要求3所述的方法，其特征在于，所述一层或多层包括所述预训练的DNNCCP模型的一组最终层。

10.根据权利要求3所述的方法，其特征在于，所述一层或多层包括所述预训练的DNNCCP模型中具有相同层属性的所有层。

11.根据权利要求1所述的方法，其特征在于，所述重构的色度分量的质量计算基于来自其他预测模式的一个或多个色度分量以及与所述重构的色度分量相关联的原始色度分量。

12.根据权利要求1所述的方法，其特征在于，所述更新所述预训练的DNNCCP模型的一个或多个参数还包括：

计算所述更新的DNN CCP模型的第一压缩性能，其中，所述更新的DNN CCP模型包括以低比特精度更新的一个或多个参数；

计算所述预训练的DNN CCP模型的第二压缩性能，其中，所述预训练的DNN CCP模型包括一个或多个相关参数；以及

基于所述第一压缩性能和所述第二压缩性能的比较，确定是否更新所述预训练的DNNCCP模型，以包括以低比特精度更新的所述一个或多个参数，其中，所述第一压缩性能和所述第二压缩性能高于阈值。

13.一种用于在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的装置，其特征在于，所述装置包括：

至少一个存储器，所述存储器被配置为存储程序代码；以及

至少一个处理器，所述处理器被配置为读取所述程序代码并按照所述程序代码的指示进行操作，所述程序代码包括：

重构代码，所述重构代码被配置为使得所述至少一个处理器使用用于色度预测的预训练的DNN CCP模型，基于接收的亮度分量来重构色度分量；

更新代码，所述更新代码被配置为使得所述至少一个处理器以低比特精度更新所述预训练的DNN CCP模型的一个或多个参数；

生成代码，所述生成代码被配置为使得所述至少一个处理器基于至少一个视频序列生成更新的DNN CCP模型，所述更新的DNN CCP模型用于以低比特精度进行色度预测；以及

预测代码，所述预测代码被配置为使得所述至少一个处理器以减少的处理时间使用所述更新的DNN CCP模型进行所述至少一个视频序列的交叉分量预测。

14.根据权利要求13所述的装置，其特征在于，更新所述预训练的DNNCCP模型的所述一个或多个参数包括以低比特精度更新所述预训练的DNN CCP模型的一个或多个参数。

15.根据权利要求14所述的装置，其特征在于，更新所述预训练的DNNCCP模型的所述一个或多个参数包括以低比特精度更新来自所述预训练的DNN CCP模型的一层或多层的所述一个或多个参数。

16.根据权利要求14所述的装置，其特征在于，以低比特精度更新的所述一个或多个参数包括一个或多个偏置参数和一个或多个权重参数，其中，所述一个或多个偏置参数和一个或多个权重参数是被联合更新的参数。

17.根据权利要求15所述的装置，其特征在于，所述一层或多层包括一个或多个卷积层、一组最终层或所述预训练的DNN CCP模型中具有相同层属性的所有层。

18.根据权利要求13所述的装置，其特征在于，所述重构的色度分量的质量计算基于来自其他预测模式的一个或多个色度分量以及与所述重构的色度分量相关联的原始色度分量。

19.一种存储指令的非暂时性计算机可读介质，其特征在于，当由用于在编码或解码期间以低比特精度进行基于神经网络NN的交叉分量预测的至少一个处理器执行所述指令时，使得所述至少一个处理器：

使用用于色度预测的预训练的DNN CCP模型，基于接收的亮度分量来重构色度分量；

20.根据权利要求19所述的非暂时性计算机可读介质，其特征在于，更新所述预训练的DNN CCP模型的所述一个或多个参数包括以低比特精度更新来自所述预训练的DNN CCP模型的一层或多层的一个或多个参数。