CN114845116B

CN114845116B - 在多层视频码流中支持在接入单元内包括混合irap图像和非irap图像

Info

Publication number: CN114845116B
Application number: CN202210445764.6A
Authority: CN
Inventors: 王业奎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-24
Filing date: 2020-09-16
Publication date: 2023-03-03
Anticipated expiration: 2040-09-16
Also published as: JP2022553128A; CA3152298A1; US20220217386A1; EP4018665A4; MX2022003362A; AU2020372257A8; IL291614A; CN114845117A; CN114424564A; WO2021080710A1; EP4018665A1; CL2022000689A1; AU2020352446A1; BR122022009501A2; CL2022000700A1; CN114845116A; KR20220058961A; US20220217369A1; BR112022005632A2; AU2020372257A1

Abstract

提供了一种视频解码器实现的解码方法。所述方法包括：接收包括编码视频序列起始(coded video sequence start，CVSS)接入单元(access unit，AU)的码流，其中，所述CVSS AU包括每个层的图像单元(picture unit，PU)，每个PU中的编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像；根据图像顺序编号(picture ordercount，POC)值从所述层中的一个层中标识所述编码图像；对所述编码图像进行解码，以获得解码图像。

Description

在多层视频码流中支持在接入单元内包括混合IRAP图像和非 IRAP图像

相关申请案交叉申请

本申请是分案申请，原申请的申请号是202080066450.4，原申请日是2020年9月16日，原申请的全部内容通过引用结合在本申请中。

技术领域

本发明大体上涉及视频译码中的多层视频码流。更具体地，本发明涉及支持包括帧内随机接入点(intra random access point，IRAP)图像和非IRAP图像的多层视频码流。

背景技术

即使视频较短，也需要大量的视频数据来描述，当数据要在带宽容量受限的通信网络中流式传输或以其它方式传输时，这样可能会造成困难。因此，视频数据通常要先压缩，然后通过现代电信网络进行传输。由于内存资源有限，当在存储设备中存储视频时，需要考虑该视频的大小。视频压缩设备通常在信源侧使用软件和/或硬件对视频数据进行编码，然后传输或存储视频数据，从而减少表示数字视频图像所需的数据量。然后，对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下，需要改进压缩和解压缩技术，这些改进的技术在几乎不影响图像质量的情况下能够提高压缩比。

发明内容

第一方面涉及一种视频解码器实现的解码方法，包括：所述视频解码器接收包括编码视频序列起始(coded video sequence start，CVSS)接入单元(access unit，AU)的码流，其中，所述CVSS AU包括每个层的图像单元(picture unit，PU)，每个PU中的编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像；所述视频解码器根据图像顺序编号(picture order count，POC)值从所述层中的一个层中标识所述编码图像；所述视频解码器对所述编码图像进行解码，以获得解码图像。

所述方法提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CLVSS图像是帧内随机接入点(intra random access point，IRAP)图像。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CLVSS图像是逐步解码刷新(gradual decoding refresh，GDR)图像。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CLVSS图像与设置在所述PU的图像参数集(picture parameter set，PPS)中的恢复前无输出标志相关联，所述恢复前无输出标志等于1。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CVSS AU的每个层由视频参数集(video parameter set，VPS)表示。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CVSS AU是编码视频序列(coded video sequence，CVS)的初始AU。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述PU被称为层接入单元。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CVSS AU被称为完整AU，因为所述CVSS AU的每个层都包括一个PU。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，在电子设备的显示器上显示所述解码图像。

第二方面涉及一种视频编码器实现的编码方法，所述方法包括：所述视频编码器在编码视频序列起始(coded video sequence start，CVSS)接入单元(access unit，AU)的每个层中插入包括编码图像的图像单元(picture unit，PU)，其中，所述视频编码器被约束，使得所述编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像；所述视频编码器将包括所述CVSS AU的编码层视频序列(coded layer videosequence，CLVS)编码到码流中；所述视频编码器存储所述码流，用于传输到视频解码器。

第三方面涉及解码设备，包括：接收器，用于接收包括编码视频序列起始(codedvideo sequence start，CVSS)接入单元(access unit，AU)的码流，其中，所述CVSS AU包括每个层的图像单元(picture unit，PU)，每个PU中的编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像；耦合到所述接收器的存储器，所述存储器存储指令；耦合到所述存储器的处理器，所述处理器用于执行所述指令以使所述解码设备执行以下操作：根据图像顺序编号(picture order count，POC)值从所述层中的一个层中标识所述编码图像；对所述编码图像进行解码，以获得解码图像。

所述解码设备提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

第四方面涉及一种编码设备，包括：包括指令的存储器；耦合到所述存储器的处理器，所述处理器用于执行所述指令，以使所述编码设备执行以下操作：在编码视频序列起始(coded video sequence start，CVSS)接入单元(access unit，AU)的每个层中插入包括编码图像的图像单元(picture unit，PU)，其中，所述编码设备被约束，使得所述编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像；将包括所述CVSSAU的编码层视频序列(coded layer video sequence，CLVS)编码到码流中；耦合到所述处理器的发送器，所述发送器用于向视频解码器发送所述视频码流。

所述编码设备提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，所述CLVSS图像是帧内随机接入点(intra random access point，IRAP)图像或逐步解码刷新(gradualdecoding refresh，GDR)图像。

第五方面涉及一种译码装置。所述译码装置包括：接收器，用于接收用于编码的图像或接收用于解码的码流；耦合到所述接收器的发送器，所述发送器用于将所述码流发送到解码器或将解码图像发送到显示器；耦合到所述接收器和所述发送器中的至少一个的存储器，所述存储器用于存储指令；耦合到所述存储器的处理器，所述处理器用于执行存储在所述存储器中的所述指令，以执行本文公开的任一方法。

所述译码装置提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

可选地，根据上述任一方面，在所述方面的另一种实现方式中，包括用于显示所述解码图像的显示器。

第六方面涉及一种系统。所述系统包括编码器；与所述编码器通信的解码器，其中，所述编码器或所述解码器包括本文公开的解码设备、编码设备或译码装置。

所述系统提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

第七方面涉及一种译码模块。所述译码模块包括：接收模块，用于接收用于编码的图像或接收用于解码的码流；耦合到所述接收模块的发送模块，所述发送模块用于将所述码流发送到解码模块或将解码图像发送到显示模块；耦合到所述接收模块或所述发送模块中的至少一个的存储模块，所述存储模块用于存储指令；耦合到所述存储模块的处理模块，所述处理模块用于执行存储在所述存储模块中的所述指令，以执行本文公开的任一方法。

所述译码模块提供了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

为了清楚起见，上述任一实施例可以与上述其它实施例中任何一个或多个组合以创建本发明范围内的新实施例。

从结合附图和权利要求书的以下详细描述中，将更清楚地理解这些和其它特征。

附图说明

为了更完整地理解本发明，结合附图和具体实施方式，参考以下简要描述，其中，相同的附图标记表示相同的部件。

图1为对视频信号进行译码的示例性方法的流程图。

图2为用于视频译码的示例性编码和解码(编解码)系统的示意图。

图3为示例性视频编码器的示意图。

图4为示例性视频解码器的示意图。

图5示出了用于空间可适性的多层译码的示例。

图6为在解码顺序和呈现顺序中IRAP图像相对于前置图像和后置图像之间的关系的表示。

图7示出了用于实现逐步解码刷新(gradual decoding refresh，GDR)技术的视频码流。

图8为在使用编码器限制来支持GDR时不期望的运动搜索的示意图。

图9示出了视频码流的实施例。

图10为对编码视频码流进行解码的方法的实施例。

图11为对译码视频码流进行编码的方法的实施例。

图12为视频译码设备的示意图。

图13为译码模块的实施例的示意图。

具体实施方式

首先应理解，尽管下文提供了一个或多个实施例的说明性实现方式，但所公开的系统和/或方法可以使用任何数量的技术来实现，无论该技术是当前已知的技术还是现有的技术。本发明不应限于下文所说明的说明性实现方式、附图和技术，包括本文所说明和描述的示例性设计和实现方式，而是可在所附权利要求书的范围以及其等效部分的完整范围内修改。

以下术语的定义如下所述，除非在本文相反的上下文中使用。具体地，以下定义旨在更加清晰地描述本发明。但是，术语在不同的上下文中可能会有不同的描述。因此，以下定义应当视为补充信息，不应当视为对此处为这些术语提供的描述的任何其它定义进行限制。

码流是包括视频数据的位序列，这些视频数据被压缩以在编码器和解码器之间传输。编码器是一种采用编码过程将视频数据压缩到码流中的设备。解码器是一种采用解码过程从码流中重建视频数据进行显示的设备。图像是创建帧或其场的亮度样本和/或色度样本组成的阵列。为了清楚论述，正在编码或解码的图像可以称为当前图像。参考图像是包括可以在根据帧间预测和/或层间预测通过参考对其它图像进行译码时使用的参考样本的图像。参考图像列表是用于帧间预测和/或层间预测的一列参考图像。一些视频译码系统使用两个参考图像列表，这两个参考图像列表可以表示为参考图像列表1和参考图像列表0。参考图像列表结构是包括多个参考图像列表的可寻址语法结构。帧间预测是通过参考与当前图像不同的参考图像中的指示样本对当前图像中的样本进行译码的机制，其中，参考图像和当前图像位于同一层中。参考图像列表结构条目是参考图像列表结构中的可寻址位置，该可寻址位置表示与参考图像列表相关联的参考图像。条带头是译码条带(slice)的一部分，该译码条带包括与条带中表示的分块(tile)中的所有视频数据相关的数据元素。序列参数集(sequence parameter set，SPS)是包括与图像序列相关的数据的参数集。图像参数集(picture parameter set，PPS)是一种包括语法元素的语法结构，这些语法元素应用于如由每个图像头中的语法元素确定的0个或0个以上完整译码图像。

视频参数集(video parameter set，VPS)包括用于增强层的参考图像集构建的解码依赖关系或信息。VPS提供了可扩展序列的整体视角或视图，包括提供了哪些类型的操作点、这些操作点的档次、层次和级别，以及码流的一些其它高级属性，这些属性可以用作会话协商和内容选择等的基础。

标志是一个变量或单比特语法元素，可以取两个可能的值(0和1)之一。接入单元(access unit，AU)是与相同显示时间(例如，相同图像顺序编号)相关联的一个或多个译码图像的集合，这些译码图像用于从解码图像缓冲区(decoded picture buffer，DPB)中输出(例如，显示给用户)。接入单元分隔符(access unit delimiter，AUD)是一种指示符或数据结构，用于指示AU的开始或AU之间的边界。解码视频序列是由解码器重建的准备向用户显示的图像序列。

编码视频序列(coded video sequence，CVS)是接入单元(access unit，AU)组成的序列，该序列包括解码顺序中的编码视频序列起始(coded video sequence start，CVSS)AU，后面接着包括0个或0个以上不是CVSS AU的AU。不是CVSS AU的AU包括下一CVSSAU之前的所有后续AU(但不包括下一CVSS AU)。CVSS AU是视频参数集(video parameterset，VPS)表示的每个层都有预测单元(prediction unit，PU)并且每个PU中的编码图像为编码层视频序列起始(coded layer video sequence start，CLVSS)图像的AU。在一个实施例中，每个图像都在AU内。PU是网络抽象层(network abstraction layer，NAL)单元的集合，这些NAL单元根据指定的分类规则彼此相关联，按解码顺序连续，并且只包括一个编码图像。

帧内随机接入点(intra random access point，IRAP)图像是一种编码图像，其所有VCL NAL单元在IDR_W_RADL至CRA_NUT的范围内(包括端值)具有相同的nal_unit_type值。编码视频序列的解码过程始终从IRAP开始。IRAP图像提供随机接入点(random accesspoint，RAP)。

逐步解码刷新(gradual decoding refresh，GDR)图像是每个VCL NAL单元的nal_unit_type等于GDR_NUT的图像。GDR图像也可被视为IRAP图像。GDR图像被称为CVS起始(CVSstarting，CVSS)图像。

图像顺序编号(picture order count，POC)是与每个图像相关联的变量，该变量唯一地标识CLVS中的所有图像中的相关联的图像。当相关联的图像要从DPB输出时，POC表示相关联的图像在输出顺序中相对于同一CLVS中的要从DPB输出的其它图像在输出顺序中的位置的位置。

本文中采用以下缩略词：接入单元(access unit，AU)、编码树块(coding treeblock，CTB)、编码树单元(coding tree unit，CTU)、编码单元(coding unit，CU)、编码层视频序列(coded layer video sequence，CLVS)、编码层视频序列起始(coded layer videosequence start，CLVSS)、编码视频序列(coded video sequence，CVS)、编码视频序列起始(coded video sequence start，CVSS)、联合视频专家组(joint video experts team，JVET)、运动约束分块集(motion-constrained tile set，MCTS)、最大传输单元(maximumtransfer unit，MTU)、网络抽象层(network abstraction layer，NAL)、输出层集(outputlayer set，OLS)、图像顺序编号(picture order count，POC)、图像参数集(pictureparameter set，PPS)、随机接入点(random access point，RAP)、原始字节序列载荷(rawbyte sequence payload，RBSP)、序列参数集(sequence parameter set，SPS)、视频参数集(video parameter set，VPS)、通用视频编码(versatile video coding，VVC)和工作草稿(working draft，WD)。

图1为对视频信号进行译码的示例性操作方法100的流程图。具体地，在编码器侧对视频信号进行编码。编码过程通过使用各种机制对视频信号进行压缩，以减小视频文件大小。较小的文件大小有利于在减少相关联的带宽开销的同时，将压缩的视频文件发送给用户。然后，解码器对压缩的视频文件进行解码，以重建原始视频信号，用于向终端用户显示。解码过程通常与编码过程对应，便于解码器一致地重建视频信号。

在步骤101中，将视频信号输入编码器。例如，视频信号可以是存储在存储器中的未压缩的视频文件。又例如，视频文件可以由视频捕获设备(例如摄像机)捕获，并进行编码以支持视频的直播。视频文件可以包括音频分量和视频分量。视频分量包括一系列图像帧，当按顺序观看时，这些图像帧会产生运动的视觉效果。这些帧包括根据光(本文称为亮度分量(或亮度样本))和颜色(称为色度分量(或色度样本))表示的像素。在一些示例中，这些帧还可以包括深度值以支持三维观看。

在步骤103中，将视频分割为块。分割包括将每个帧中的像素细分为方块和/或矩形块，用于进行压缩。例如，在高效视频编码(High Efficiency Video Coding，HEVC)(还称为H.265和MPEG-H第2部分)中，可以首先将帧划分成编码树单元(coding tree unit，CTU)，它们是预定义大小(例如，64个像素×64个像素)的块。CTU包括亮度样本和色度样本。可以使用编码树将CTU划分为块，然后递归细分这些块，直到获得支持进一步编码的配置。例如，帧的亮度分量可以细分，直到各个块包括相对均匀的亮度值。此外，帧的色度分量可以细分，直到各个块包括相对均匀的颜色值。因此，分割机制根据视频帧的内容而不同。

在步骤105中，使用各种压缩机制来压缩在步骤103中分割的图像块。例如，可以使用帧间预测和/或帧内预测。帧间预测旨在利用公共场景中的对象往往出现在连续帧中这一事实。因此，无需在相邻帧中对参考帧中描述对象的块进行重复描述。具体地，一个对象(如一张桌子)可以在多个帧中保持在恒定的位置。因此，只描述一次桌子，相邻帧可以重新参考参考帧。模式匹配机制可以用于匹配多个帧中的对象。此外，由于对象移动或摄像机移动等，移动对象可以通过多个帧表示。在一个具体的示例中，视频可以通过多个帧显示在屏幕上移动的汽车。运动矢量可以用于描述这种移动。运动矢量是一个二维矢量，提供从帧中对象的坐标到参考帧中该对象的坐标的偏移。因此，帧间预测可以将当前帧中的图像块编码为运动矢量集，表示相对于参考帧中对应块的偏移。

帧内预测对公共帧中的块进行编码。帧内预测利用亮度分量和色度分量往往在帧中聚集这一事实。例如，一棵树的一部分中的一片绿色往往与几片类似的绿色相邻。帧内预测使用多种方向预测模式(例如，HEVC中有33种模式)、平面模式和直流(direct current，DC)模式。方向模式表示当前块与对应方向的邻块的样本类似/相同。平面模式表示可以根据行边缘处的邻块对行/列(例如平面)上的一系列块进行插值。实际上，平面模式通过使用变化值的相对恒定的斜率来表示光/颜色在行/列上的平滑转变。DC模式用于边界平滑，表示块和与所有邻块的样本相关联的平均值类似/相同，所述邻块与方向预测模式的角方向相关联。因此，帧内预测块可以将图像块表示为各种关系预测模式值而非实际值。此外，帧间预测块可以将图像块表示为运动矢量值而非实际值。在任一种情况下，预测块在一些情况下可能无法精确地表示图像块。所有差值都存储在残差块中。可以对残差块进行变换以进一步压缩文件。

在步骤107中，可以应用各种滤波技术。在HEVC中，根据环内滤波方案应用滤波器。上文描述的基于块的预测可能使得在解码器侧创建块状图像。此外，基于块的预测方案可以对块进行编码，然后重建编码块，以供以后用作参考块。环内滤波方案迭代地将噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和样本自适应偏移(sample adaptiveoffset，SAO)滤波器用于块/帧。这些滤波器减少了此类块伪影，从而可以准确地重建编码文件。此外，这些滤波器减少了重建参考块中的伪影，使得伪影不太可能在根据重建参考块编码的后续块中产生其它伪影。

在步骤109中，一旦对视频信号进行了分割、压缩和滤波，则将所得数据编码到码流中。所述码流包括上述数据以及支持在解码器侧进行适当的视频信号重建所需要的任何指示(signal)数据。例如，此类数据可以包括分割数据、预测数据、残差块和向解码器提供译码指令的各种标志。码流可以存储在存储器中，用于在请求时传输到解码器。还可以向多个解码器广播和/或组播所述码流。创建码流是一个迭代过程。因此，步骤101、103、105、107和109可以在多个帧和块中连续和/或同时执行。图1所示的顺序是为了清楚和便于描述而呈现的，并非旨在将视频译码过程限制于特定顺序。

在步骤111中，解码器接收码流并开始解码过程。具体地，解码器使用熵解码方案将码流转换为对应的语法数据和视频数据。在步骤111中，解码器使用码流中的语法数据来确定帧的分割部分。分割应与步骤103中的块分割结果匹配。这里描述了步骤111中使用的熵编码/熵解码。编码器在压缩过程中进行许多选择，例如根据一个或多个输入图像中值的空间定位从多个可能选择中选择块分割方案。指示确切的选择可能会使用大量的位元。如本文使用的，位元是被视为变量的二进制值(例如，可以根据上下文变化的位值)。熵编码使得编码器可以丢弃任何明显不适合特定情况的选项，从而留下一组可使用的选项。然后，为每个可使用的选项分配码字。码字的长度取决于可使用的选项的数量(例如，一个位元对应两个选项，两个位元对应三个或四个选项等)。然后，编码器对所选选项的码字进行编码。该方案减小了码字的大小，因为码字的大小与唯一表示从可使用的选项的小子集中的一个选项，而非唯一表示从所有可能选项的潜在大集中的选项所需要的码字一样大。然后，解码器通过以与编码器类似的方式确定可使用的选项集来对该选择进行解码。通过确定可使用的选项集，解码器可以读取码字并确定编码器做出的选择。

在步骤113中，解码器执行块解码。具体地，解码器进行逆变换来生成残差块。然后，解码器使用残差块和对应的预测块，根据分割重建图像块。预测块可以包括在步骤105中编码器侧生成的帧内预测块和帧间预测块。然后，根据在步骤111中确定的分割数据将重建图像块定位到重建视频信号的帧中。步骤113的语法还可以通过上文描述的熵编码在码流中指示。

在步骤115中，以类似于步骤107的方式在编码器侧对重建视频信号的帧进行滤波。例如，可以对帧应用噪声抑制滤波器、去块效应滤波器、自适应环路滤波器和SAO滤波器以去除块伪影。一旦对帧进行滤波，在步骤117中，可以将视频信号输出到显示器以供终端用户观看。

图2为用于视频译码的示例性编码和解码(编解码)系统200的示意图。具体地，编解码系统200能够实现操作方法100。编解码系统200广义地描述编码器和解码器中使用的组件。编解码系统200接收视频信号并对视频信号进行分割，如操作方法100中的步骤101和103所描述，从而产生分割视频信号201。然后，当作为编码器时，编解码系统200将分割视频信号201压缩到编码码流中，如方法100中的步骤105、107和109所描述。当作为解码器时，编解码系统200从码流中生成输出视频信号，如操作方法100中的步骤111、113、115和117所描述。编解码系统200包括通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、帧内预测组件217、运动补偿组件219、运动估计组件221、缩放和逆变换组件229、滤波器控制分析组件227、环内滤波器组件225、解码图像缓冲区组件223、标头格式和上下文自适应二进制算术编码(context adaptive binary arithmetic coding，CABAC)组件231。这些组件如图所示耦合。在图2中，黑线表示待编码/解码数据的移动，而虚线表示控制其它组件操作的控制数据的移动。编解码系统200的组件都可以在编码器中使用。解码器可以包括编解码系统200的组件的子集。例如，解码器可以包括帧内预测组件217、运动补偿组件219、缩放和逆变换组件229、环内滤波器组件225和解码图像缓冲区组件223。这里对这些组件进行描述。

分割视频信号201是已通过编码树分割为像素块的捕获的视频序列。编码树使用各种划分模式将像素块细分为更小的像素块。然后这些块还可以细分为更小的块。这些块可以称为编码树上的节点。较大的父节点被划分为较小的子节点。节点被细分的次数称为节点/编码树的深度。在一些情况下，编码单元(coding unit，CU)中可以包括划分的块。例如，CU可以是CTU的子部分，CTU包括亮度块、红差色度(Cr)块和蓝差色度(Cb)块以及CU的对应语法指令。划分模式可以包括二叉树(binary tree，BT)、三叉树(triple tree，TT)和四叉树(quad tree，QT)，用于根据所使用的划分模式，分别将节点分割为不同形状的两个、三个或四个子节点。将分割视频信号201转发到通用译码器控制组件211、变换缩放和量化组件213、帧内估计组件215、滤波器控制分析组件227和运动估计组件221进行压缩。

通用译码器控制组件211用于根据应用约束做出与将视频序列的图像编码到码流中相关的决策。例如，通用译码器控制组件211管理码率/码流大小相对于重建质量的优化。此类决策可以根据存储空间/带宽可用性和图像分辨率请求做出。通用译码器控制组件211还根据传输速度管理缓冲区使用率，以缓解缓冲区欠载和超载问题。为了解决这些问题，通用译码器控制组件211管理由其它组件进行的分割、预测和滤波。例如，通用译码器控制组件211可以动态地提高压缩复杂度以提高分辨率和提高带宽使用率，或者降低压缩复杂度以降低分辨率和带宽使用率。因此，通用译码器控制组件211控制编解码系统200的其它组件，以平衡视频信号重建质量与码率问题。通用译码器控制组件211创建控制数据，这些控制数据控制其它组件的操作。控制数据还被转发到标头格式和CABAC组件231，以编码到码流中，从而指示用于在解码器中进行解码的参数。

分割视频信号201还被发送至运动估计组件221和运动补偿组件219，用于进行帧间预测。分割视频信号201的帧或条带可以划分为多个视频块。运动估计组件221和运动补偿组件219相对于一个或多个参考帧中的一个或多个块对接收到的视频块进行帧间预测译码以提供时间预测。编解码系统200可以执行多个译码过程，以便为每个视频数据块选择适当的译码模式等等。

运动估计组件221和运动补偿组件219可以高度集成，但出于概念目的分开示出。运动估计组件221执行的运动估计是生成运动矢量的过程，其中，这些运动矢量用于估计视频块的运动。例如，运动矢量可以表示译码对象相对于预测块的位移。预测块是被发现在像素差方面与待译码块高度匹配的块。预测块也可以称为参考块。此类像素差可以通过绝对差和(sum of absolute difference，SAD)、平方差和(sum of square difference，SSD)或其它差值度量来确定。HEVC使用几种译码对象，包括CTU、编码树块(coding tree block，CTB)和CU。例如，CTU可以划分为多个CTB，然后CTB可以划分为多个CB，多个CB用于包括在CU中。CU可以编码为包括预测数据的预测单元(prediction unit，PU)和/或包括CU的变换残差数据的变换单元(transform unit，TU)。运动估计组件221使用率失真分析作为率失真优化过程的一部分来生成运动矢量、PU和TU。例如，运动估计组件221可以确定当前块/帧的多个参考块、多个运动矢量等，并且可以选择具有最佳率失真特性的参考块、运动矢量等。最佳率失真特性平衡视频重建的质量(例如，压缩造成的数据丢失量)与译码效率(例如，最终编码的大小)。

在一些示例中，编解码系统200可以计算存储在解码图像缓冲区组件223中的参考图像的子整数像素位置的值。例如，视频编解码系统200可以对参考图像的四分之一像素位置、八分之一像素位置或其它分数像素位置的值进行插值。因此，运动估计组件221可以执行相对于全像素位置和分数像素位置的运动搜索，并输出具有分数像素精度的运动矢量。运动估计组件221通过将PU的位置与参考图像的预测块的位置进行比较来计算帧间译码条带中视频块的PU的运动矢量。运动估计组件221将计算的运动矢量作为运动数据输出到标头格式和CABAC组件231以进行编码，并将运动输出到运动补偿组件219。

运动补偿组件219执行的运动补偿可以涉及根据运动估计组件221所确定的运动矢量获取或生成预测块。另外，在一些示例中，运动估计组件221和运动补偿组件219可以在功能上集成。在接收到当前视频块的PU的运动矢量之后，运动补偿组件219可以定位运动矢量指向的预测块。然后，通过从正被译码的当前视频块的像素值中减去预测块的像素值，形成像素差值，从而形成残差视频块。通常，运动估计组件221相对于亮度分量执行运动估计，运动补偿组件219将根据亮度分量计算的运动矢量用于色度分量和亮度分量。将预测块和残差块转发到变换缩放和量化组件213。

分割视频信号201也被发送到帧内估计组件215和帧内预测组件217。如同运动估计组件221和运动补偿组件219，帧内估计组件215和帧内预测组件217可以高度集成，但出于概念目的分开示出。帧内估计组件215和帧内预测组件217相对于当前帧中的块对当前块进行帧内预测，以替代如上所述的由运动估计组件221和运动补偿组件219在各帧之间执行的帧间预测。具体地，帧内估计组件215确定帧内预测模式，用于对当前块进行编码。在一些示例中，帧内估计组件215从多个测试的帧内预测模式中选择适当的帧内预测模式来对当前块进行编码。然后，将所选择的帧内预测模式转发到标头格式和CABAC组件231用于进行编码。

例如，帧内估计组件215使用对各种测试的帧内预测模式的率失真分析来计算率失真值，并在测试的模式中选择具有最佳率失真特性的帧内预测模式。率失真分析通常确定编码块与经编码以产生编码块的原始未编码块之间的失真(或误差)量，以及用于生成编码块的码率(例如，位数)。帧内估计组件215根据各种编码块的失真和速率计算比率，以确定哪种帧内预测模式表现出块的最佳率失真值。此外，帧内估计组件215可以用于根据率失真优化(rate-distortion optimization，RDO)，使用深度建模模式(depth modelingmode，DMM)对深度图的深度块进行译码。

当在编码器上实现时，帧内预测组件217可以根据由帧内估计组件215确定的所选帧内预测模式从预测块生成残差块，或者当在解码器上实现时，从码流读取残差块。残差块包括预测块与原始块之间的值差，表示为矩阵。然后，残差块被转发到变换缩放和量化组件213。帧内估计组件215和帧内预测组件217可以对亮度分量和色度分量进行操作。

变换缩放和量化组件213用于进一步压缩残差块。变换缩放和量化组件213对残差块应用变换，如离散余弦变换(discrete cosine transform，DCT)、离散正弦变换(discrete sine transform，DST)或概念上类似的变换，从而产生包括残差变换系数值的视频块。还可以使用小波变换、整数变换、子带变换或其它类型的变换。变换可以将残差信息从像素值域转换到变换域，如频域。变换缩放和量化组件213还用于根据频率等对变换的残差信息进行缩放。这种缩放涉及对残差信息应用缩放因子，以便在不同粒度下量化不同的频率信息，这可能会影响重建视频的最终视觉质量。变换缩放和量化组件213还用于对变换系数进行量化以进一步降低码率。量化过程可以降低与一些或全部系数相关联的位深度。量化程度可以通过调整量化参数来修改。在一些示例中，变换缩放和量化组件213随后可以对包括量化变换系数的矩阵进行扫描。量化变换系数被转发到标头格式和CABAC组件231，以编码到码流中。

缩放和逆变换组件229应用变换缩放和量化组件213的逆操作以支持运动估计。缩放和逆变换组件229应用逆缩放、逆变换和/或反量化以重建像素域中的残差块，例如，以供以后用作参考块，参考块可成为另一当前块的预测块。运动估计组件221和/或运动补偿组件219可以通过将残差块添加回对应的预测块来计算参考块，以用于后续块/帧的运动估计。滤波器用于重建参考块，以减少在缩放、量化和变换期间产生的伪影。当对后续块进行预测时，此类伪影可能导致预测不准确(并产生其它伪影)。

滤波器控制分析组件227和环内滤波器组件225将滤波器用于残差块和/或重建图像块。例如，缩放和逆变换组件229的变换残差块可以与帧内预测组件217和/或运动补偿组件219的对应的预测块合并以重建原始图像块。然后，滤波器可以用于重建图像块。在一些示例中，滤波器可以转而用于残差块。如同图2中的其它组件，滤波器控制分析组件227和环内滤波器组件225高度集成，可以一起实现，但出于概念目的分开示出。用于重建参考块的滤波器用于特定空间区域，包括多个参数以调整应用此类滤波器的方式。滤波器控制分析组件227对重建参考块进行分析，以确定应应用此类滤波器的位置并设置对应的参数。此类数据作为滤波器控制数据被转发到标头格式和CABAC组件231用于进行编码。环内滤波器组件225根据滤波器控制数据应用此类滤波器。滤波器可以包括去块效应滤波器、噪声抑制滤波器、SAO滤波器和自适应环路滤波器。此类滤波器可以根据示例用于空域/像素域(例如，针对重建像素块)或频域中。

当作为编码器时，将滤波重建图像块、残差块和/或预测块存储在解码图像缓冲区组件223中，以供以后用于运动估计，如上所述。当作为解码器时，解码图像缓冲区组件223存储经重建和滤波的块并将其作为输出视频信号的一部分向显示器转发。解码图像缓冲区组件223可以是能够存储预测块、残差块和/或重建图像块的任何存储设备。

标头格式和CABAC组件231从编解码系统200的各组件接收数据并将此类数据编码到编码码流中，用于传输到解码器。具体地，标头格式和CABAC组件231生成各种标头以对控制数据(如通用控制数据和滤波器控制数据)进行编码。此外，预测数据(包括帧内预测)和运动数据，以及量化变换系数数据形式的残差数据均编码在码流中。最终码流包括解码器重建原始的分割视频信号201所需要的所有信息。此类信息还可以包括帧内预测模式索引表(也称为码字映射表)、各种块的编码上下文的定义、最可能的帧内预测模式的表示、分割信息的表示等。此类数据可以使用熵编码进行编码。例如，可以使用上下文自适应可变长度编码(context adaptive variable length coding，CAVLC)、CABAC、基于语法的上下文自适应二进制算术编码(syntax-based context-adaptive binary arithmetic coding，SBAC)、概率区间分割熵(probability interval partitioning entropy，PIPE)编码或其它熵编码技术对信息进行编码。在熵编码之后，可以将编码码流发送到另一设备(例如，视频解码器)或存档以供后续发送或检索。

图3为示例性视频编码器300的框图。视频编码器300可以用于实现编解码系统200的编码功能和/或实现操作方法100的步骤101、103、105、107和/或109。编码器300对输入视频信号进行分割，从而产生分割视频信号301，其中，分割视频信号301实质上类似于分割视频信号201。然后，通过编码器300的组件压缩分割视频信号301并将其编码到码流中。

具体地，分割视频信号301被转发到帧内预测组件317用于进行帧内预测。帧内预测组件317实质上可以类似于帧内估计组件215和帧内预测组件217。分割视频信号301还被转发到运动补偿组件321，用于根据解码图像缓冲区组件323中的参考块进行帧间预测。运动补偿组件321实质上可以类似于运动估计组件221和运动补偿组件219。帧内预测组件317和运动补偿组件321的预测块和残差块被转发到变换和量化组件313以用于对残差块进行变换和量化。变换和量化组件313实质上可以类似于变换缩放和量化组件213。变换和量化残差块和对应的预测块(连同相关联控制数据)被转发到熵编码组件331用于编码到码流中。熵编码组件331可以实质上类似于标头格式和CABAC组件231。

变换和量化残差块和/或对应的预测块也从变换和量化组件313转发到逆变换和反量化组件329以重建成参考块供运动补偿组件321使用。逆变换和反量化组件329实质上可以类似于缩放和逆变换组件229。根据示例，环内滤波器组件325中的环内滤波器还用于残差块和/或重建参考块。环内滤波器组件325实质上可以类似于滤波器控制分析组件227和环内滤波器组件225。如关于环内滤波器组件225所描述，环内滤波器组件325可以包括多个滤波器。然后，滤波块存储在解码图像缓冲区组件323中，以供运动补偿组件321用作参考块。解码图像缓冲区组件323实质上可以类似于解码图像缓冲区组件223。

图4为示例性视频解码器400的框图。视频解码器400可以用于实现编解码系统200的解码功能和/或实现操作方法100的步骤111、113、115和/或117。例如，解码器400从编码器300接收码流，并根据该码流生成重建输出视频信号，用于向终端用户显示。

该码流由熵解码组件433接收。熵解码组件433用于实现熵解码方案，如CAVLC、CABAC、SBAC、PIPE译码或其它熵译码技术。例如，熵解码组件433可以使用标头信息来提供上下文以解释在码流中编码为码字的其它数据。解码信息包括对视频信号进行解码所需的任何信息，如通用控制数据、滤波器控制数据、分割信息、运动数据、预测数据和残差块中的量化变换系数。量化变换系数被转发到逆变换和反量化组件429以重建成残差块。逆变换和反量化组件429可以类似于逆变换和反量化组件329。

重建残差块和/或预测块被转发到帧内预测组件417，以根据帧内预测操作重建成图像块。帧内预测组件417可以类似于帧内估计组件215和帧内预测组件217。具体地，帧内预测组件417使用预测模式来定位帧中的参考块，并将残差块用于结果以重建帧内预测图像块。重建帧内预测图像块和/或残差块以及对应的帧间预测数据通过环内滤波器组件425转发到解码图像缓冲区组件423。解码图像缓冲区组件423和环内滤波器组件425实质上可以分别类似于解码图像缓冲区组件223和环内滤波器组件225。环内滤波器组件425对重建图像块、残差块和/或预测块进行滤波，并且此类信息存储在解码图像缓冲区组件423中。解码图像缓冲区组件423的重建图像块被转发到运动补偿组件421进行帧间预测。运动补偿组件421实质上可以类似于运动估计组件221和/或运动补偿组件219。具体地，运动补偿组件421使用参考块的运动矢量来生成预测块，并将残差块用于结果以重建图像块。所得重建块还可以通过环内滤波器组件425转发到解码图像缓冲区组件423。解码图像缓冲区组件423继续存储其它重建图像块，这些重建图像块可以通过分割信息重建成帧。这些帧还可以放置在一个序列中。该序列作为重建输出视频信号向显示器输出。

考虑到上述情况，视频压缩技术执行空间(帧内)预测和/或时间(帧间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码，可以将视频条带(例如，视频图像或视频图像的一部分)分割为视频块，视频块也可以称为树块、编码树块(coding treeblock，CTB)、编码树单元(coding tree unit，CTU)、编码单元(coding unit，CU)和/或编码节点。参照同一图像的相邻块中的参考样本使用空间预测对图像内的帧内编码(I)条带中的视频块进行编码。图像内的帧间编码(P或B)条带中的视频块参照同一图像的相邻块中的参考样本使用空间预测，或者参照其它参考图像中的参考样本使用时间预测。图像可以称为帧，参考图像可以称为参考帧。

通过空间预测或时间预测，产生待编码块的预测块。残差数据表示待编码的原始块与预测块之间的像素差。根据运动矢量和残差数据对帧间译码块进行编码，其中，运动矢量指向构成预测块的参考样本的块，残差数据表示编码块与预测块之间的差值。根据帧内编码模式和残差数据对帧内编码块进行编码。为了进一步压缩，可以将残差数据从像素域变换到变换域，从而产生接着进行量化的残差变换系数。可以扫描最初以二维阵列排列的量化变换系数以生成变换系数的一维矢量，并且可以应用熵编码以实现进一步压缩。

图像和视频压缩发展迅速，编码标准多样化。这些视频编码标准包括ITU-TH.261、国际标准化组织/国际电工委员会(international organization forstandardization/international electrotechnical commission，ISO/IEC)MPEG-1第2部分、ITU-T H.262或ISO/IEC MPEG-2第2部分、ITU-T H.263、ISO/IEC MPEG-4第2部分、高级视频编码(advanced video coding，AVC)(也称为ITU-T H.264或ISO/IEC MPEG-4第10部分)，以及高效视频编码(high efficiency video coding，HEVC)(也称为ITU-T H.265或MPEG-H第2部分)。AVC包括可适性视频编码(scalable video coding，SVC)、多视点视频编码(multiview video coding，MVC)和多视图加深度视频编码(multiview video codingplus depth，MVC+D)以及3DAVC(3D-AVC)等扩展版。HEVC包括可适性HEVC(scalable HEVC，SHVC)、多视点HEVC(multiview HEVC，MV-HEVC)和3D HEVC(3D-HEVC)等扩展版。

通用视频编码(versatile video coding，VVC)是ITU-T和ISO/IEC联合视频专家组(joint video experts team，JVET)开发的一种新的视频编码标准。虽然VVC标准有几个工作草案(working draft，WD)，但本文特别参考VVC中的一个工作草案，即B.Bross、J.Chen和S.Liu的“通用视频编码(草案5)(Versatile Video Coding(Draft 5))”JVET-N1001-v3，第13次JVET会议，2019年3月27日(VVC草案5)。

分层视频编码也被称为可适性视频编码或具有可适性的视频编码。视频译码中的可适性通常通过多层译码技术来支持。多层码流包括基本层(base layer，BL)和一个或多个增强层(enhancement layer，EL)。可适性的示例包括空间可适性、质量/信噪比(signal-to-noise，SNR)可适性、多视图可适性等。当使用的是多层译码技术时，图像或其一部分可以在以下情况下进行译码：(1)不使用参考图像，即，使用帧内预测，(2)参考同一层中的参考图像，即，使用帧间预测，或(3)参考其它层中的参考图像，即，使用层间预测。用于当前图像的层间预测的参考图像称为层间参考图像(inter-layer reference picture，ILRP)。

图5为基于层的预测500的示例的示意图。例如，在块压缩步骤105、块解码步骤113、运动估计组件221、运动补偿组件219、运动补偿组件321和/或运动补偿组件421处执行基于层的预测500来确定运动矢量(motion vector，MV)。基于层的预测500与单向帧间预测和/或双向帧间预测共存，但也在不同层中的图像之间执行。

基于层的预测500应用于不同层中的图像511、513和图像515、517之间。在所示示例中，图像511和513是层N+1 532的一部分，图像515、516、517和518是层N 531的一部分。层(例如层N 531和/或层N+1 532)是一组图像，这些图像都与类似的大小、质量、分辨率、信噪比、能力等类似的特征值相关联。在所示示例中，与层N 531相比，层N+1 532与更大的图像大小相关联。因此，在本示例中，层N+1 532中的图像511和513比层N 531中的图像515、516、517和518大(例如，高度和宽度大，因此样本更多)。但是，这些图像可以通过其它特征划分为层N+1 532和层N 531。虽然只示出了两层：层N+1 532和层N531，但一组图像可以根据相关联的特征划分为任意数量的层。层N+1 532和层N 531也可以用层标识符(identifier，ID)表示。层ID是与图像相关联的数据项，并表示该图像是表示的层的一部分。因此，图像511、513和515至518中的每个图像可以与对应的层ID相关联，以表示层N+1 532或层N 531中的哪个层包括对应的图像。

不同的层531和532中的图像511、513和515至518交替显示。因此，不同层531和532中的图像511、513和515至518可以共享相同的时间标识符(identifier，ID)，并且可以包括在同一AU中。如本文使用的，AU是与用于从DPB输出的同一显示时间相关联的一个或多个译码图像的集合。例如，如果需要较小的图像，则解码器可以在当前显示时间对图像515进行解码并显示，或者如果需要较大的图像，则解码器可以在当前显示时间对图像511进行解码并显示。因此，高层N+1 532中的图像511和513与低层N 531中的对应图像515至517包括基本上相同的图像数据(尽管图像大小不同)。具体地，图像511与图像515包括基本上相同的图像数据，图像513与图像517包括基本上相同的图像数据，以此类推。

图像511、513和515至518可以通过参考同一层(N 531或N+1 532)中的其它图像511、513至518进行译码。参考同一层中的一个图像对另一个图像进行译码即为帧间预测523，帧间预测523与单向帧间预测和/或双向帧间预测共存。帧间预测523由实线箭头表示。例如，图像516可以通过将层N+1 532中的图像515和/或517中的一个或两个图像用作参考的帧间预测523来译码，其中，单向帧间预测使用一个图像作为参考，和/或双向帧间预测使用两个图像作为参考。在执行帧间预测523时，当将一个图像用作同一层中另一个图像的参考时，该图像可以称为参考图像。例如，图像511可以是用于根据帧间预测523对图像513进行译码的参考图像。帧间预测523也可以称为多层上下文中的层内预测。因此，帧间预测523是通过参考与当前图像不同的参考图像中的指示样本对当前图像中的样本进行译码的机制，其中，参考图像和当前图像位于同一层中。

图像511、513和515至518也可以通过参考不同层中的其它图像511、513和515至518进行译码。这个过程称为层间预测521，由虚线箭头表示。层间预测521是通过参考参考图像中的指示样本对当前图像中的样本进行译码的机制，其中，当前图像和参考图像位于不同的层中，因此具有不同的层ID。例如，低层N 531中的图像可以用作对高层N+1 532中的对应图像进行译码的参考图像。在一个具体的示例中，图像511可以根据层间预测521通过参考图像515进行译码。在这种情况下，图像515被用作层间参考图像。层间参考图像是用于层间预测521的参考图像。在大多数情况下，对层间预测521进行约束，使得当前图像(例如图像511)只能使用同一AU中包括的且位于低层中的一个或多个层间参考图像，例如图像515。当多个层(例如，两层以上)可用时，层间预测521可以根据层级比当前图像低的多个层间参考图像对当前图像进行编码/解码。

视频编码器可以使用基于层的预测500来通过帧间预测523和层间预测521的许多不同组合和/或排列对图像511、513和515至518进行编码。例如，图像515可以根据帧内预测进行译码。然后，通过将图像515用作参考图像，图像516至518可以根据帧间预测523进行译码。此外，通过将图像515用作层间参考图像，图像511可以根据层间预测521进行译码。然后，通过将图像511用作参考图像，图像513可以根据帧间预测523进行译码。因此，参考图像可以作为不同译码机制的单层参考图像和层间参考图像。通过根据低层N 531图像对高层N+1 532图像进行译码，高层N+1 532可以避免使用帧内预测，帧内预测的译码效率比帧间预测523和层间预测521的译码效率低得多。因此，帧内预测译码效率低下，只适用于最小/最低质量的图像，因此只适用于对最少量的视频数据进行译码。用作参考图像和/或层间参考图像的图像可以在参考图像列表结构中包括的一个或多个参考图像列表的条目中表示。

图5中的每个AU 506可以包括一个或几个图像。例如，一个AU 506可以包括图像511和515。另一个AU 506可以仅包括图像516。事实上，每个AU 506是与相同显示时间(例如，相同时间ID)相关联的一个或多个译码图像的集合，这些译码图像用于从解码图像缓冲区(decoded picture buffer，DPB)中输出(例如，显示给用户)。每个接入单元分隔符(access unit delimiter，AUD)508是用于指示AU(例如，AU 506)的开始或AU之间的边界的指示符或数据结构。

在一个实施例中，在每个层中包括图像的AU 506被称为完整AU。完整AU的示例是包括图像511和515的AU 506或包括图像513和517的AU 506。在一个实施例中，每个层中不包括图像的AU 506被称为不完整AU。不完整AU的示例是包括图像516的AU 506或包括图像518的AU 506。在CLVS 540中同时使用完整AU和不完整AU使得不同的层具有不同的码率。例如，层532具有两个图像511、513，层531具有四个图像515至518。因此，层531相对于层532具有更高的码率。在实际应用中，CLVS 540中可以包括不同数量的层，并且不同的层可以具有不同数量的图像，以便支持不同的码率。

在一个实施例中，编码层视频序列(coded layer video sequence，CLVS)540的起始或开始处的AU 506被称为编码视频序列起始(coded video sequence start，CVSS)AU。也就是说，CVS 540中的初始AU 506或第一AU 506是CVSS AU。在一个实施例中，指定为CVSSAU的AU 506的每个层531、532中的图像511、515是编码层视频序列起始(coded layervideo sequence start，CLVSS)图像。也就是说，CVSS AU在一个层(例如，层N 531)中包括CLVSS图像(例如，图像515)，在另一个层(例如，层N+1 532)中包括另一个CLVSS图像(例如，图像511)。例如，CLVSS图像是帧内随机接入点(intra random access point，IRAP)图像、逐步解码刷新图像、清理随机接入(clean random access，CRA)图像、即时解码刷新(instantaneous decoder refresh，IDR)图像、断点连接接入(broken link access，BLA)图像，或其它类型的随机接入点图像。

在一个实施例中，AU 506中的一些(不包括CVSS AU)可以在一个层(例如，层N531)中包括IRAP图像(例如，图像517)，在另一个层(例如，层N+1 532)中包括非IRAP图像(例如，图像513)。也就是说，同一AU在不同的层中同时包括IRAP图像和非IRAP图像。虽然图5中的AU 506中的一个AU 506被示出为包括一个IRAP图像和一个非IRAP图像，但当AU包括两层以上时，在实际应用中，AU中可以包括不同数量的IRAP图像和非IRAP图像。下面进一步详细论述IRAP图像。

H.26x视频编标准系列可以支持从用于单层译码的档次(profile)中分离出来的一个或多个档次中的可适性。可适性视频编码(scalable video coding，SVC)是AVC/H.264的可扩展版，支持空间可适性、时间可适性和质量可适性。对于SVC，在EL图像的每个宏块(macroblock，MB)中指示了一个标志，用于表示EL MB是否使用较低层中的并置块进行预测。根据并置块进行的预测可以包括纹理、运动矢量和/或译码模式。SVC的实现方式不能在其设计中直接重用未修改的H.264/AVC实现方式。SVC EL宏块语法和解码过程与H.264/AVC语法和解码过程不同。

可适性HEVC(scalable HEVC，SHVC)是HEVC/H.265标准的扩展版，支持空间可适性和质量可适性；多视图HEVC(multiview HEVC，MV-HEVC)是HEVC/H.265的扩展版，支持多视图可适性；3D HEVC(3D-HEVC)是HEVC/H.264的扩展版，支持比MV-HEVC更高级、更高效的三维(three dimensional，3D)视频译码。需要说明的是，时间可适性是单层HEVC编解码器的组成部分。HEVC的多层扩展版本的设计采用了如下理念：用于层间预测的经解码图像仅来自同一接入单元(access unit，AU)，并作为长期参考图像(long-term referencepicture，LTRP)，而且分配有一个或多个参考图像列表中的参考索引和当前层中的其它时间参考图像。层间预测(inter-layer prediction，ILP)是在预测单元(prediction unit，PU)级通过将参考索引的值设置为参考一个或多个参考图像列表中的一个或多个层间参考图像而实现的。

需要说明的是，参考图像重采样和空间可适性特征都需要对参考图像或其一部分进行重采样。参考图像重采样(reference picture resampling，RPR)可以在图像级或编码块级实现。但是，当RPR称为译码特征时，它是单层译码的特征。即便如此，从编解码器设计的角度来看，可以或甚至优选使用相同的重采样滤波器，以实现单层译码的RPR特征和多层译码的空间可适性特征。

最新的VVC草案支持分层视频编码。VVC码流可以包括多个层。这些层可以相互独立，即，每个层都是在不使用层间预测(inter-layer prediction，ILP)的情况下编码的。在这种情况下，这些层也被称为同播层。也可以使用ILP对一些层进行编码。VPS中的标志用于表示这些层是否是同播层或一些层是否使用ILP。当一些层使用ILP时，层之间的层依赖关系也会在VPS中进行指示。

与SHVC和MV-HEVC不同，最新的VVC草案没有指定OLS。OLS是层集合，其中，一个或多个层被指定为输出层。输出层是输出层集中被输出的层。

在最新的VVC草案中，当这些层为同播层时，规定只能选择一层进行解码和输出。在最新的VVC草案中，当一些层使用ILP时，码流中的所有层都被指定为待解码，但只有一些层被指定为输出层。输出层可以被指示为(1)仅最高层，(2)所有层，或(3)最高层加上指示的较低层集合。

图6为在解码顺序608和呈现顺序610(又称为输出顺序)中帧内随机接入点(intrarandom access point，IRAP)图像602相对于前置图像604和后置图像606之间的关系的表示600。在一个实施例中，IRAP图像602被称为清理随机接入(clean random access，CRA)图像或伴随随机接入可解码(random access decodable，RADL)图像的即时解码刷新(instantaneous decoder refresh，IDR)图像。在HEVC中，IDR图像、CRA图像和断点连接接入(broken link access，BLA)图像都被认为是IRAP图像602。对于VVC，在2018年10月的第12次JVET会议上，同意将IDR图像和CRA图像作为IRAP图像。在一个实施例中，断点连接接入(broken link access，BLA)图像和逐步解码器刷新(gradual decoder refresh，GDR)图像也可以被认为是IRAP图像。编码视频序列的解码过程始终从IRAP开始。IRAP图像提供随机接入点(random access point，RAP)。

如图6所示，前置图像604(例如，图像2和图像3)在解码顺序608中在IRAP图像602之后，但在呈现顺序610中在IRAP图像602之前。后置图像606在解码顺序608和呈现顺序610中都在IRAP图像602之后。虽然图6中示出了两个前置图像604和一个后置图像606，但本领域技术人员将理解，在实际应用中，更多或更少的前置图像604和/或后置图像606可以在解码顺序608和呈现顺序610中存在。

图6中的前置图像604分为两种类型，即跳过随机接入前置(random accessskipped leading，RASL)图像和RADL前置图像。当从IRAP图像602(例如，图像1)开始解码时，RADL图像(例如，图像3)可以被正确解码；但是，RASL图像(例如，图像2)不能被正确解码。因此，RASL图像被丢弃。鉴于RADL图像与RASL图像之间的区别，与IRAP图像602相关联的前置图像604的类型应该被标识为RADL或RASL，以便高效和正确地编码。在HEVC中，当RASL图像和RADL图像存在时，受到如下约束：对于与同一IRAP602图像相关联的RASL图像和RADL图像，RASL图像在呈现顺序610中应在RADL图像之前。

IRAP图像602提供了以下两个重要的功能/益处。第一，IRAP图像602的存在表示解码过程可以从该图像开始。该功能支持随机接入特性，其中，解码过程从码流中的某个位置开始，而不一定是从码流起始处开始，只要IRAP图像602在该位置存在。第二，IRAP图像602的存在刷新了解码过程，使得从IRAP图像602开始的编码图像(不包括RASL图像)在没有对之前图像的参考的情况下被编码。因此，IRAP图像602在码流中存在可以防止在对IRAP图像602之前的编码图像进行解码期间可能发生的任何错误传播到IRAP图像602以及解码顺序608中在IRAP图像602之后的那些图像。

虽然IRAP图像602提供了重要功能，但IRAP图像可能会影响压缩效率。IRAP图像602的存在导致码率激增。两个原因造成压缩效率效率低下。第一，由于IRAP图像602是帧内预测图像，当与作为帧内预测图像的其它图像(例如，前置图像604、后置图像606)相比时，该图像将需要相对更多的位来表示。第二，因为IRAP图像602的存在破坏了时间预测(这是因为解码器会刷新解码过程，其中，解码过程的动作之一是删除解码图像缓冲区(decodedpicture buffer，DPB)中的之前的参考图像)，所以IRAP图像602导致在解码顺序608中在IRAP图像602之后的图像的译码效率较低(即，需要更多的位来表示)，这是因为这些图像具有较少参考图像来进行其帧间预测译码。

在被认为是IRAP图像602的图像类型中，HEVC中的IDR图像与其它图像类型相比具有不同的指示和推导。其中一些区别如下：

为了指示和推导IDR图像的图像顺序编号(picture order count，POC)值，POC的最高有效位(most significant bit，MSB)部分不是从之前的关键图像推导的，而是被简单地设置为0。

对于参考图像管理所需的指示信息，IDR图像的条带头不包括需要被指示来辅助参考图像管理所需的信息。对于其它图像类型(即CRA、后置、时间子层接入(temporal sub-layer access，TSA)等)，参考图像标识过程(即，确定解码图像缓冲区(decoded picturebuffer，DPB)中用于参考和不用于参考的参考图像的状态的过程)需要下面描述的参考图像集(reference picture set，RPS)等信息或其它形式的类似信息(例如参考图像列表)。但是，对于IDR图像，不需要指示这样的信息，因为IDR的存在表示解码过程应该简单地将DPB中的所有参考图像标识为不用于参考。

在HEVC和VVC中，IRAP图像和前置图像被赋予不同的NAL单元类型(NAL unittype，NUT)，使得这些图像可以很容易地由系统级应用程序标识。例如，视频条带器需要理解编码图像类型而不必理解编码码流中语法元素的太多细节，特别是需要从非IRAP图像中标识IRAP图像，并从后置图像中标识前置图像，包括确定RASL图像和RADL图像。后置图像是与IRAP图像相关联并且在输出顺序中在IRAP图像之后的图像。与特定IRAP图像相关联的图像按解码顺序在特定IRAP图像之后，并按解码顺序在任何其它IRAP图像之前。为此，赋予IRAP图像和前置图像NAL单元类型可以有助于此类应用。

在HEVC中，每个图像都被分配有一个POC值，表示为PicOrderCntVal。POC有三个主要作用：唯一地标识图像，指示相对于同一CVS中其它图像的输出位置，以及在较低级别视频编码层(video coding layer，VCL)解码过程中执行运动矢量缩放。同一CVS中的所有图像都有唯一的POC值。来自不同CVS的图像可以共享相同的POC值，但这些图像仍然可以唯一地标识，因为不能将来自一个CVS的图像与另一个CVS的任何图像混合。CVS中允许POC值不连续。也就是说，在输出顺序上连续的两个图像之间的POC值差可以相差一个以上(事实上，连续图像的POC值差的量可以任意变化)。

在HEVC中，图像的POC值使用条带头中的码字指示。允许的POC值的范围为-2³¹至2³¹-1，因此为了节省条带头中的位，仅指示POC值的最低有效位(POC LSB)。用于POC LSB的位数可以在4至16之间，并在SPS中指示。其余位是POC值的最高有效位(POC MSB)。由于在条带头中仅指示POC LSB，因此当前图像的POC MSB是从先前的图像推导的，称为prevTid0Pic。为了在图像被删除时也能以相同的方式进行POC推导，prevTid0Pic被设置为时间层0的最近的前一个图像，该图像不是RASL图像、RADL图像，或子层非参考图像。解码器通过将当前图像的POC值与prevTid0Pic图像的POC值进行比较，推导POC MSB值。

不幸的是，现有的译码设计有缺点。例如，在SHVC和MV-HEVC中，混合IRAP图像和非IRAP图像可以包括在同一接入单元中(例如，图5中AU 506中的图像511和515)，但设计非常复杂。事实上，在SHVC和MV-HEVC中，使用最新HEVC标准第F.8.1条的几页文本规定了这种设计的一般解码过程。文本涉及许多全局标志/变量/列表的使用，包括NoClrasOutputFlag、LayerInitializedFlag、LayerResetFlag、FirstPicInLayerDecodedFlag、NumPredictedLayers、IdPredictedLayer、IdDirectRefLayer、NumDirectRefLayers、NumActiveRefLayerPics、NumActiveRefLayerPics0、NumActiveRefLayerPics1等。SHVC和MV-HEVC中的许多其它地方，在接入单元内提供对混合IRAP图像和非IRAP图像的支持也很复杂。这包括POC推导过程。

本文公开了通过使用被约束的码流来简化译码的技术，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

图7示出了用于实现逐步解码刷新(gradual decoding refresh，GDR)技术700的视频码流750。如本文使用的，视频码流750也可以称为编码视频码流、码流或其变体。如图7所示，码流750包括序列参数集(sequence parameter set，SPS)752、图像参数集(pictureparameter set，PPS)754、条带头756和图像数据758。

SPS 752包括对图像序列(sequence of picture，SOP)中所有图像通用的数据。相比之下，PPS 754包括对完整图像通用的数据。条带头756包括当前条带的信息，例如条带类型、待使用的参考图像等。SPS 752和PPS 754可以统称为参数集。SPS 752、PPS 754和条带头756是网络抽象层(network abstraction layer，NAL)单元的类型。NAL单元是一种语法结构，包括待遵循的数据类型(例如，编码视频数据)的表示。NAL单元分为视频编码层(video coding layer，VCL)NAL单元和非VCL NAL单元。VCL NAL单元包括表示视频图像中样本值的数据，非VCL NAL单元包括任何相关联的附加信息，如参数集(可应用于多个VCLNAL单元的重要数据)和补充增强信息(定时信息和其它补充数据，可用于增强解码视频信号的可用性，但不是解码视频图像中样本的值所必需的)。本领域技术人员将理解，码流750在实际应用中可以包括其它参数和信息。

图7的图像数据758包括与所编码或解码的图像或视频相关联的数据。图像数据758可以简单地称为码流750中携带的载荷或数据。在一个实施例中，图像数据758包括CVS708(或CLVS)，该CVS 708(或CLVS)包括GDR图像702、一个或多个后置图像704和恢复点图像706。在一个实施例中，GDR图像702被称为CVS开始(CVS starting，CVSS)图像。CVS 708是视频码流750中的每个编码层视频序列(coded layer video sequence，CLVS)的编码视频序列。需要说明的是，当视频码流750包括单个层时，CVS和CLVS相同。CVS和CLVS仅在视频码流750包括多个层时才不同。在一个实施例中，后置图像704可以被视为GDR图像的一种形式，因为它们在GDR周期中在恢复点图像706之前。

在一个实施例中，GDR图像702、后置图像704和恢复点图像706可以定义CVS 708中的GDR周期。在一个实施例中，解码顺序依次是GDR图像702、后置图像704、恢复点图像706。

CVS 708是从GDR图像702开始的一系列图像(或其部分)，并包括下一个GDR图像前(但不包括下一个GDR图像)或码流750结束前的所有图像(或其部分)。GDR周期是从GDR图像702开始的一系列图像，并包括恢复点图像706前(包括恢复点图像706)的所有图像。CVS708的解码过程总是从GDR图像702开始。

如图7所示，GDR技术700或原理是针对以GDR图像702开始并以恢复点图像706结束的一系列图像。GDR图像702包括刷新/干净区域710和未刷新/脏区域712，其中，该刷新/干净区域710包括所有已使用帧内预测进行译码的块(即，帧内预测块)，该未刷新/脏区域712包括所有已使用帧间预测进行译码的块(即，帧间预测块)。

紧邻GDR图像702的后置图像704包括刷新/干净区域710，该刷新/干净区域710具有使用帧内预测进行译码的第一部分710A和使用帧间预测进行译码的第二部分710B。第二部分710B通过参考例如CVS 708的GDR周期内的前一图像的刷新/干净区域710来译码。如图所示，随着译码过程沿一致方向(例如，从左到右)进行，后置图像704的刷新/干净区域710扩展，而未刷新/脏区域712相应地变小。最终，通过译码过程获得仅包括刷新/干净区域710的恢复点图像706。需要说明的是，并且如下文将进一步描述的，被译码为帧间预测块的刷新/干净区域710的第二部分710B可以仅参考参考图像中的刷新/干净区域710。

如图7所示，CVS 708中的GDR图像702、后置图像704和恢复点图像706的条带各自包括在自己的VCL NAL单元730中。

在一个实施例中，CVS 708中包括GDR图像702的VCL NAL单元730具有GDR NAL单元类型(GDR_NUT)。即，在一个实施例中，CVS 708中包括GDR图像702的VCL NAL单元730相对于后置图像704和恢复点图像706具有自己唯一的NAL单元类型。在一个实施例中，GDR_NUT支持码流750从GDR图像702开始，而不是码流750必须从帧内随机接入点(intra randomaccess point，IRAP)图像开始。例如，将GDR图像702的VCL NAL单元730指定为GDR_NUT可以向解码器指示CVS 708中的初始VCL NAL单元730包括GDR图像702。在一个实施例中，GDR图像702是CVS 708中的初始图像。在一个实施例中，GDR图像702是GDR周期中的初始图像。

图8为在使用编码器限制来支持GDR时不期望的运动搜索800的示意图。如图所示，运动搜索800描述当前图像802和参考图像804。当前图像802和参考图像804各自包括用帧内预测进行译码的刷新区域806、用帧间预测进行译码的刷新区域808，和未刷新区域810。刷新区域806、刷新区域808和未刷新区域810类似于图7中的刷新/干净区域710的第一部分710A、刷新/干净区域710的第二部分710B，以及未刷新/脏区域712。

在运动搜索过程800中，编码器受到约束或被防止选择导致参考块814的一些样本位于刷新区域806之外的任何运动矢量812。即使当参考块814在预测当前图像802中的当前块816时提供最佳率失真成本标准时，也会发生这种情况。因此，图8示出了当使用编码器限制来支持GDR时，运动搜索800的非最佳性的原因。

图9示出了视频码流900的实施例。如本文使用的，视频码流900也可以称为编码视频码流、码流或其变体。如图9所示，码流900包括至少一个图像单元(picture unit，PU)901。PU 901也可以被称为层接入单元。虽然图9中示出了三个PU 901，但在实际应用中，不同数量的PU 901可以在码流900中存在。每个PU 901是根据指定的分类规则彼此相关联的NAL单元的集合，按解码顺序连续，并且正好包括一个译码图像(例如，图像914)。

在一个实施例中，每个PU 901包括以下中的一个或多个：解码能力信息(decodingcapability information，DCI)902、视频参数集(video parameter set，VPS)904、序列参数集(sequence parameter set，SPS)906、图像参数集(picture parameter set，PPS)908、图像头(picture header，PH)912和图像914。DCI 902、VPS 904、SPS 906和PPS 908中的每一个都可以统称为参数集。在一个实施例中，图9中未示出的其它参数集(例如，自适应参数集(adaption parameter set，APS))也可以包括在码流900中，该参数集是一种包括语法元素的语法结构，这些语法元素应用于如由条带头中的0个或0个以上语法元素确定的0个或0个以上条带。

DCI 902也可以称为解码参数集(decoding parameter set或decoder parameterset，DPS)，是包括应用于完整码流的语法元素的语法结构。DCI 902包括在视频码流(例如，码流900)的生存期内保持恒定的参数，该生存期可以转换为会话的生存期。DCI 902可以包括档次、级别和子档次信息，以确定保证永远不会被超过(即使会话中发生视频序列的拼接)的最大复杂性互操作点。该DCI还可选地包括约束标志，这些约束标志指示视频码流将受如这些标志的值所指示的某些特征的使用的约束。这样，码流可以被标记为不使用某些工具，这允许在解码器实现中分配资源。与所有参数集一样，DCI 902在第一次被参考，并由视频序列中的第一个图像参考时存在，这意味着DCI 902必须在码流中的第一NAL单元之间发送。虽然码流中可以有多个DCI 902，但其中的语法元素的值在被参考时不能不一致。

VPS 904包括用于增强层的参考图像集构建的解码依赖关系或信息。VPS 904提供了可扩展序列的整体视角或视图，包括提供了哪些类型的操作点、这些操作点的档次、层次和级别，以及码流的一些其它高级属性，这些属性可以用作会话协商和内容选择等的基础。

SPS 906包括对图像序列(sequence of picture，SOP)中所有图像通用的数据。SPS 906是包括语法元素的语法结构，这些语法元素应用于如由PPS中的语法元素的内容确定的0个或0个以上完整CLVS，PPS由每个图像头中的语法元素参考。相比之下，PPS 908包括对完整图像通用的数据。PPS 908是一种包括语法元素的语法结构，这些语法元素应用于如由每个图像头(例如，PH 912)中的语法元素确定的0个或0个以上完整译码图像。

在一个实施例中，SPS 906包括第一标志930，第一标志930是指定为sps_poc_msb_cycle_flag的POC MSB标志。当第一标志930具有第一值(例如，1)时，第一标志930表示标头(例如，图像头912)包括第二标志940，第二标志940是指定为ph_poc_msb_cycle_present_flag的另一个POC MSB标志。当第一标志930具有第二值(例如，0)时，第一标志930表示标头(例如，图像头912)不包括第二标志940。如本文使用的，第二标志940可以被称为ph_poc_msb_cycle_present_flag语法元素。

当POC MSB值包括在参考SPS 906的标头中时，PPS 908还包括POC MSB值的长度的指示符950。在一个实施例中，长度的指示符950指定为sps_poc_msb_cycle_len_minus1。在一个实施例中，sps_poc_msb_cycle_len_minus1+1表示当POC MSB值在参考SPS的标头中存在时POC MSB值的长度，以比特为单位。在一个实施例中，指示符的值在零(0)至32-sps_log2_max_pic_order_cnt_lsb_minus4-5的范围内(包括端值)。sps_log2_max_pic_order_cnt_lsb_minus4表示用于图像顺序编号的解码过程中的变量MaxPicOrderCntLsb的值(最大图像顺序编号LSB)，如下所述：MaxPicOrderCntLsb＝2^{(sps_log2_max_pic_order_cnt_lsb_minus4+4)}，其中，sps_log2_max_pic_order_cnt_lsb_minus4的值应在0至12的范围内(包括端值)。

第二标志940表示POC MSB值960在标头中是否存在。当第二标志940具有第一值(例如，1)时，第二标志940表示POC MSB值960在标头(例如，图像头912)中存在。当第二标志940具有第二值(例如，0)时，第二标志940表示POC MSB值960在标头中不存在。在一个实施例中，POC MSB值960可以被称为POC MSB值语法元素。

POC MSB值960表示当前图像(例如，图像914)的POC MSB周期的值。在一个实施例中，POC MSB值960指定为ph_poc_msb_cycle_val。因此，POC MSB值960在码流900中显式地指示，而不是根据前一个图像推导。在一个实施例中，码流中指示的POC MSB值用于获得POC值。在一个实施例中，POC值是通过级联POC MSB值和POC LSB来确定的，POC LSB也可以在码流900中指示。

每个编码图像与图像顺序编号变量(表示为PicOrderCntVal)相关联。PicOrderCntVal推导如下：PicOrderCntVal＝PicOrderCntMsb+ph_pic_order_cnt_lsb，其中PicOrderCntMsb是POC MSB，ph_pic_order_cnt_lsb是POC LSB。

正如下面将更全面地解释的那样，使用上述标志支持跨层的不同步的IRAP图像。本文描述的POC处理确保了AU内所有图像的POC值相同。为了实现这一目标，将为IRAP图像(即IDR图像、CRA图像和GDR图像)指示(而不是推导)POC MSB值。与SHVC和MV-HEVC中的混合POC重置和POC MSB指示机制相比，这使得POC推导的设计明显简单。

DCI 902、VPS 904、SPS 906和PPS 908包括在不同类型的网络抽象层(networkabstraction layer，NAL)单元中。NAL单元是一种语法结构，包括待遵循的数据类型(例如，编码视频数据)的表示。NAL单元分为视频编码层(video coding layer，VCL)NAL单元和非VCL NAL单元。VCL NAL单元包括表示视频图像中样本值的数据，非VCL NAL单元包括任何相关联的附加信息，如参数集(可应用于多个VCL NAL单元的重要数据)和补充增强信息(定时信息和其它补充数据，可用于增强解码视频信号的可用性，但不是解码视频图像中样本的值所必需的)。

在一个实施例中，DCI 902包括在指定为DCI NAL单元或DPS NAL单元的非VCL NAL单元中。也就是说，DCI NAL单元具有DCI NAL单元类型(NUT)，DPS NAL单元具有DPS NUT。在一个实施例中，VPS 904包括在指定为VPS NAL单元的非VCL NAL单元中。因此，VPS NAL单元具有一个VPS NUT。在一个实施例中，SPS 906是指定为SPS NAL单元的非VCL NAL单元。因此，SPS NAL单元具有SPS NUT。在一个实施例中，PPS908包括在指定为PPS NAL单元的非VCLNAL单元中。因此，PPS NAL单元具有一个PPS NUT。

PH 912是包括应用于译码图像(例如，图像914)的所有条带(例如，条带918)的语法元素的语法结构。在一个实施例中，PH 912是被指定为PH NAL单元的新型非VCL NAL单元。因此，PH NAL单元具有PH NUT(例如，PH_NUT)。在一个实施例中，每个PU901中包括一个且仅一个PH 912。也就是说，PU 901包括单个或单独的PH 912。在一个实施例中，码流900中的每个图像914正好存在一个PH NAL单元。

在一个实施例中，与PH 912相关联的PH NAL单元具有时间ID和层ID。时间ID指示PH NAL单元相对于码流(例如，码流900)中的其它PH NAL单元在时间上的位置。层ID指示包括PH NAL单元的层(例如，层531或层532)。在一个实施例中，时间ID类似于POC，但不同于POC。POC按顺序唯一地标识每个图像。在单层码流中，时间ID和POC将是相同的。在多层码流中(例如，见图5)，同一AU中的图像将具有不同的POC，但具有相同的时间ID。

在一个实施例中，PH NAL单元在包括相关联的图像914的第一条带918的VCL NAL单元之前。这建立了PH 912和与PH 912相关联的图像914的条带918之间的关联，而不需要在PH 912中指示并从条带头920中参考的图像头ID。因此，可以推断，两个PH 912之间的所有VCL NAL单元属于同一图像914，并且图像914与两个PH 912之间的第一PH912相关联。在一个实施例中，PH 912之后的第一VCL NAL单元包括与PH 912相关联的图像914的第一条带918。

在一个实施例中，PH NAL单元遵循图像级别参数集(例如，PPS)或更高级别参数集，例如DCI(又称为DPS)、VPS、SPS、PPS等，这些参数集的时间ID和层ID分别小于PH NAL单元的时间ID和层ID。因此，这些参数集不会在图像或接入单元中重复。由于此顺序，PH 912可以立即解析。也就是说，包括与完整图像相关的参数的参数集位于PH NAL单元之前的码流中。任何包括部分图像的参数的部分都位于PH NAL单元之后。

在一个替代方案中，PH NAL单元遵循图像级别参数集和前缀补充增强信息(supplemental enhancement information，SEI)消息，或更高级别参数集，例如DCI(又称为DPS)、VPS、SPS、PPS、APS、SEI消息等。

在一个实施例中，PH 912可以包括表示与PH 912相关联的图像914的图像类型的语法元素(例如标志等)。图像类型可以包括但不限于以下类型：即时解码器刷新(instantaneous decoder refresh，IDR)图像，清理随机接入(clean random access，CRA)图像，GDR图像，只包括帧内预测条带(I条带)且为非GDR图像的非IRAP图像，只包括单向帧间预测条带(P条带)和I条带且为非GDR图像的非IRAP图像，以及只包括双向帧间预测条带(B条带)、P条带和I条带且为非GDR图像的非IRAP图像。因此，PH 912中的单个标志能够表示图像(例如图像914)中的所有条带(例如条带918)是否是GDR图像(例如GDR图像702)中的条带等。这样还支持在PH 912中指示GDR图像的恢复点图像顺序编号(picture order count，POC)一次，而不是在每个条带头(例如条带头920)中指示。

在一个实施例中，一个或多个语法元素在PH 912中指示，而不是在与PH 912相关联的图像914的条带头920中指示。这些语法元素是由图像914参考的PPS ID、表示图像914是否是参考图像的标志、图像914的颜色平面、图像914的POC最低有效位(leastsignificant bit，LSB)、图像914是GDR图像(例如GDR图像702)时的恢复点POC、表示是否输出图像914之前的图像的标志以及表示图像914是否是输出图像的标志。PPS ID是标识图像914的特定PPS的标识符。图像914的颜色平面包括图像914的亮度分量和色度分量(例如，Y、Cb和Cr等)。POC LSB是标识POC的一个比特(或多个比特)。POC是与每个图像(例如图像914)相关联的变量，该变量唯一地标识CLVS中的所有图像中的相关联的图像。当相关联的图像要从DPB输出时，POC表示相关联的图像在输出顺序中相对于同一CLVS中的要从DPB输出的其它图像在输出顺序中的位置的位置。恢复点POC是标识恢复点(因此标识恢复点图像)的POC。

将这些语法元素从条带头920移动到PH 912中可以为完整图像914指示一次语法元素，而不是在每个条带头920中重复这些语法元素。这减少了冗余，提高了译码效率。

例如，图像914为黑白格式的亮度样本阵列或4:2:0、4:2:2和4:4:4彩色格式的亮度样本阵列和两个对应的色度样本阵列。在一个实施例中，每个PU 901中包括一个且仅一个图像914。因此，在每个PU 901中只有一个PH 912，并且只有一个对应于该PH 912的图像914。也就是说，PU 901包括单个或单独的图像914。

图像914可以是帧或字段。但是，在一个CVS 916中，所有图像914都是帧，或所有图像914都是字段。CVS 916是视频码流900中的每个编码层视频序列(coded layer videosequence，CLVS)的编码视频序列。需要说明的是，当视频码流900包括单个层时，CVS916和CLVS相同。CVS 916和CLVS仅在视频码流900包括多个层时才不同(例如，如图5所示)。

PU 901可以共同组成CLVS。CLVS是具有相同nuh_layer_id值的PU 901组成的序列，该序列包括解码顺序中的编码层视频序列起始(coded layer video sequence start，CLVSS)PU，后面接着包括0个或0个以上不是CLVSS PU的PU 901。不是CLVSS PU的PU 901包括下一CLVSS PU之前的所有后续PU 901(但不包括下一CLVSS PU)。CLVSS PU是编码图像(例如图像914)为CLVSS图像的PU 901。CLVSS图像是编码图像，即NoOutputBeforeRecoveryFlag等于1的IRAP图像或NoOutputBeforeRecoveryFlag等于1的GDR图像(例如GDR图像702)。在一个实施例中，图像的NoOutputBeforeRecoveryFlag设置在PPS 908或PU 901的另一部分中。

每个图像914包括一个或多个条带918。条带918是图像(例如，图像914)的整数个完整分块或分块内的整数个连续完整CTU行。每个条带918仅包括在单个NAL单元(例如，VCLNAL单元)中。分块(未示出)是图像(例如，图像914)中的特定分块列和特定分块行内的CTU的矩形区域。CTU(未示出)是具有三个样本阵列的图像中的亮度样本的CTB、色度样本的两个对应的CTB，或是黑白图像或使用三个单独的颜色平面和用于对样本进行译码的语法结构译码的图像中的样本的CTB。CTB(未示出)是N×N的样本块，其中，N可以设为某个值以将分量分割为CTB，这是一种分割。块(未示出)是M×N(M列×N行)个样本(例如，像素)阵列，或M×N个变换系数阵列等。

在一个实施例中，每个条带918包括条带头920。条带头920是译码条带918的一部分，包括与条带918中表示的所有分块或一个分块中的CTU行相关联的数据元素。也就是说，条带头920包括条带918的信息，例如条带类型、待使用的参考图像等。

图像914及其条带918包括与所编码或解码的图像或视频相关联的数据。因此，图像914及其条带918可以简单地称为码流900中携带的载荷或数据。

在一个实施例中，与图9中所示的图像914相同或相似，图5中的每个图像511、513、515至518是PU(例如PU 901)的一部分或包括在PU中。因此，图5中的每个AU 506在每个层中都包括PU。但是，为了便于说明，图9的完整PU 901没有在图5中示出。相反，图5中仅示出了来自这些PU的图像(例如，图像511、513、515至518)。

在一个实施例中，图5中的CLVS 540的第一或初始AU 506指定为CVSS AU，包括用于每个层(例如，层531和532)的PU(例如，PU 901)。此外，CVSS AU中的每个PU中的编码图像(例如，图像511、513)是CLVSS图像。如上所述，CLVSS图像可以是IRAP图像、GDR图像或其它随机接入点图像。在一个实施例中，CLVSS图像具有设置为等于一(1)的恢复前无输出标志(又称为NoOutputBeforeRecovery标志)，以指示一些图像(例如，RASL图像)不由解码器输出，因为它们可能不可解码。事实上，这些图像可以包括对码流中不存在的图像的参考。

在一个实施例中，CVSS AU和/或CLVS(例如，CLVS 540)中的层数由VPS(例如，904)表示。

本领域技术人员将理解，码流900在实际应用中可以包括其它参数和信息。

图10为视频解码器(例如视频解码器400)实现的解码方法1000的一个实施例。方法1000可以在直接或间接从视频编码器(例如，视频编码器300)接收到码流之后执行。方法1000通过使用被约束的码流来改进解码过程，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像，这相对于当前标准简化了译码过程。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

在框1002中，视频解码器接收包括编码视频序列起始(coded video sequencestart，CVSS)接入单元(access unit，AU)(例如，指定为CVSS AU的AU 506)的码流(例如，码流901)。在一个实施例中，CVSS AU包括每个层(例如，层531和层532)的图像单元(pictureunit，PU)(例如，PU 901)。在一个实施例中，每个PU中的编码图像(例如，编码图像511和515)是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。

在一个实施例中，视频解码器期望每个PU中的编码图像为CLVSS图像。但是，如果解码器确定此条件不成立，则解码器可以检测错误、发送错误、请求重新发送修订后的码流(或其一部分)，或采取一些其它纠正措施以确保接收到一致的码流。

在一个实施例中，CLVSS图像是帧内随机接入点(intra random access point，IRAP)图像。在一个实施例中，CLVSS图像是逐步解码刷新(gradual decoding refresh，GDR)图像。在一个实施例中，CLVSS图像具有等于1的恢复前无输出标志。

在一个实施例中，CVSS AU的每个层由视频参数集(video parameter set，VPS)表示。也就是说，VPS表示CLVS的每个AU中包括的层数。在一个实施例中，CVSS AU是编码视频序列(coded video sequence，CVS)的初始AU。

在一个实施例中，PU被称为层接入单元。在一个实施例中，CVSS AU被称为完整AU，因为CVSS AU的每个层都包括一个PU。

在框1004中，视频解码器根据图像顺序编号(picture order count，POC)值从这些层中的一个层中标识编码图像(例如，图像914)。在框1006中，视频解码器对编码图像进行解码，以获得解码图像。在图像被解码之后，该解码图像可以用于生成或产生图像或视频序列，以便在电子设备(例如智能手机、平板电脑、膝上型电脑、个人电脑等)的显示器或屏幕上显示给用户。

图11为视频编码器(例如，视频编码器300)实现的对视频码流进行编码的方法1100的实施例。当图像(例如，视频中的图像)需要编码到视频码流中并且发送到视频解码器(例如，视频解码器400)时，可以执行方法1100。方法1100通过使用被约束的码流来改进编码过程，其中，所述码流被约束为使得每个编码视频序列起始(CVSS)接入单元(AU)是完整AU，并且所述CVSS AU中的每个图像是编码层视频序列起始(coded layer videosequence start，CLVSS)图像，这相对于当前标准简化了译码过程。这确保在每个编码视频序列(coded video sequence，CVS)开始时，为所述多层码流的每个层提供随机接入点(random access point，RAP)。因此，视频译码中的编码器/解码器(又称为编解码器)相对于现有的编解码器有所改进。实际上，改进的视频译码过程在发送、接收和/或观看视频时为用户提供更好的体验。

在框1102中，视频编码器在编码视频序列起始(coded video sequence start，CVSS)接入单元(access unit，AU)(例如，指定为CVSS AU的AU 506)的每个层(例如，层531和层532)中插入包括编码图像(例如编码图像511和515)的图像单元(picture unit，PU)(例如，PU 901)。在一个实施例中，编码图像是编码层视频序列起始(coded layer videosequence start，CLVSS)图像。在一个实施例中，视频编码器被约束，使得编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。也就是说，视频编码器需要使编码图像是编码层视频序列起始(coded layer video sequence start，CLVSS)图像。这样的约束或要求确保码流符合VVC或一些其它标准，如本文所示进行修改。但是，编码器也能够在不受这种约束的其它模式下操作，例如在不同标准或同一标准的不同版本下操作。

在框1104中，视频编码器将包括CVSS AU的编码层视频序列(coded layer videosequence，CLVS)(例如，CLVS 540)编码到码流中。在步骤1106中，视频编码器存储码流，用于传输到视频解码器。视频码流传输到视频解码器之前，可以存储在存储器中。所述视频解码器接收到视频码流之后，可以对编码视频码流进行解码(例如，如以上所描述)，以生成或产生用于在电子设备(例如，智能手机、平板电脑、膝上型电脑、个人电脑等)的显示器或屏幕上向用户显示的图像或视频序列。

需要说明的是，本文描述的方案仍然支持跨层的不同步的IRAP图像。但是，为了简单起见，从在最低层中包括IRAP图像但其它层中包括非IRAP图像的AU开始的解码过程并没有规范地规定。但是，只要设计允许跨层的不同步的IRAP图像，这种允许的技术好处仍然可以通过这些实现方式在实践中实现。

以下语法和语义可用于实现本文公开的实施例。以下描述是相对于基础文本的，该文本是最新的VVC草案规范。

在一个实施例中，(nuh_layer_id等于特定值layerId的特定图像的)相关联的IRAP图像是解码顺序中的nuh_layer_id等于layerId(当存在时)的前一个IRAP图像，IRAP图像之间没有nuh_layer_id等于layerId的GDR图像。nuh_layer_id表示VCL NAL单元所属的层的标识符或非VCL NAL单元应用的层的标识符。nuh_layer_id的值应在0至55的范围内(包括端值)。nuh_layer_id的其它值被保留，供ITU-T|ISO/IEC将来使用。

如本文使用的，PU也可以被称为层接入单元。在一个实施例中，清理随机接入(clean random access，CRA)层接入单元是编码图像为CRA图像的层接入单元。在一个实施例中，清理随机接入(clean random access，CRA)图像是每个VCL NAL单元的nal_unit_type等于CRA_NUT的IRAP图像。在一个实施例中，CRA图像在其解码过程中不使用帧间预测，并且可以是解码顺序中码流中的第一个图像，也可以出现在码流中的稍后位置。在一个实施例中，CRA图像可以具有相关联的RADL图像或RASL图像。当CRA图像的NoOutputBeforeRecoveryFlag等于1时，解码器不会输出相关联的RASL图像，因为相关联的RASL图像可能包括对码流中不存在的图像的参考而不可解码。

在一个实施例中，编码层视频序列(coded layer video sequence，CLVS)是具有相同nuh_layer_id值的PU组成的序列，该序列包括解码顺序中的CLVSS PU，后面接着包括0个或0个以上不是CLVSS PU的PU。不是CLVSS PU的PU包括下一CLVSS PU之前的所有后续PU(但不包括下一CLVSS PU)。在一个实施例中，CLVSS PU可以是IDR PU、CRA PU或GDR PU。对于每个IDR PU、每个CRA PU(具有等于1的HandleCraAsClvsStartFlag)、每个CRA PU或GDRPU(其为解码顺序中的码流层中的第一PU，或解码顺序中的EOS NAL单元之后的码流层中的第一PU)，NoOutputBeforeRecoveryFlag的值等于1。

在一个实施例中，编码层视频序列起始(coded layer video sequence start，CLVSS)层接入单元是编码图像为CLVSS图像的层接入单元。编码层视频序列起始(codedlayer video sequence start，CLVSS)图像是编码图像，即NoIncorrectPicOutputFlag等于1的IRAP图像或NoIncorrectPicOutputFlag等于1的GDR图像。

在一个实施例中，编码视频序列(coded video sequence，CVS)：即接入单元序列，该序列包括解码顺序中的CVSS接入单元，后面接着包括0个或0个以上不是CVSS接入单元的接入单元。不是CVSS接入单元的接入单元包括下一CVSS接入单元之前的所有后续接入单元(但不包括下一CVSS接入单元)。

在一个实施例中，编码视频序列起始(coded video sequence start，CVSS)接入单元：即CVS中的每个层都有层接入单元，并且每个层接入单元中的编码图像是CLVSS图像的接入单元。需要说明的是，这要求每个CVSS AU都是完整AU，CVSS AU中的每个图像都是CLVSS图像。在一个实施例中，逐步解码刷新(gradual decoding refresh，GDR)接入单元：即每个当前层接入单元中的编码图像是GDR图像的接入单元。在一个实施例中，逐步解码刷新(gradual decoding refresh，GDR)层接入单元：即编码图像是GDR图像的层接入单元。在一个实施例中，逐步解码刷新(gradual decoding refresh，GDR)图像：即每个VCL NAL单元的nal_unit_type等于GDR_NUT的图像。

SPS语法如下。

在一个实施例中，上述粗体语法元素可以包括在VPS中。

条带头语法如下。

在一个实施例中，语法条件部分“&&nal_unit_type>＝IDR_W_RADL&&nal_unit_type<＝GDR_NUT”可以删除。也就是说，当poc_msb_in_rap_pics_flag等于1时，为具有任何nal_unit_type值的条带指示poc_msb_val。

在一个实施例中，添加一个图像级别标志以决定语法元素poc_msb_val的存在。也就是说，当poc_msb_in_rap_pics_flag等于1时，编码器可以决定为IRAP图像或GDR图像的每个条带单独指示或不指示poc_msb_val。

在一个实施例中，应用上述两种替代方案。在一个实施例中，使用se(v)或ue(v)指示poc_msb_val，并从SPS语法中删除poc_msb_len_minus1语法元素。

下面描述NAL单元头语义。

nuh_layer_id表示VCL NAL单元所属的层的标识符或非VCL NAL单元应用的层的标识符。

对于编码图像的所有VCL NAL单元，nuh_layer_id的值应相同。编码图像或层接入单元的nuh_layer_id的值是编码图像或层接入单元的VCL NAL单元的nuh_layer_id的值。

nal_unit_type表示NAL单元类型，即NAL单元中包括的RBSP数据结构的类型。

对于图像的所有编码条带NAL单元，nal_unit_type的值应相同。图像或层接入单元被称为具有与图像或层接入单元的编码条带NAL单元相同的NAL单元类型。需要说明的是，上述两个段落允许AU内的VCL NAL单元具有不同的NAL单元类型，这允许AU内包括混合RAP图像和非RAP图像。RAP图像是IDR图像、CAR图像或GDR图像。

对于CVSS接入单元的图像，nal_unit_type的值应相同。

提供了接入单元的顺序和与CVS的关联。

符合标准的码流包括一个或多个CVS。CVS包括一个或多个接入单元。CVS的第一接入单元是CVSS接入单元，其中，每个当前层接入单元是CLVSS层接入单元，CLVSS层接入单元是NoIncorrectPicOutputFlag等于1的IRAP层接入单元，或NoIncorrectPicOutputFlag等于1的GDR层接入单元。每个CVSS接入单元应在CVS中存在的每个层中具有图像。码流一致性的要求是，当存在时，包括序列NAL单元的结尾或码流NAL单元结尾的接入单元之后的下一个接入单元中的每个层接入单元应为IRAP层接入单元，可以是IDR层接入单元、CRA层接入单元或GDR层接入单元。

下面描述SPS语义。

log2_max_pic_order_cnt_lsb_minus4表示用于图像顺序编号的解码过程中的变量MaxPicOrderCntLsb的值，如下所述：

MaxPicOrderCntLsb＝2(log2_max_pic_order_cnt_lsb_minus4+4)

log2_max_pic_order_cnt_lsb_minus4的值应在0至12的范围内(包括端值)。

poc_msb_in_rap_pics_flag等于1表示为参考SPS的图像指示poc_msb_val语法元素，并且VCL NAL单元的nal_unit_type在IDR_W_RADL至GDR_NUT的范围内(包括端值)。poc_msb_in_rap_pics_flag等于0表示不为参考SPS的图像指示poc_msb_val语法元素。

poc_msb_len_minus1+1表示poc_msb_val语法元素(如果存在)的长度(以比特为单位)。poc_msb_len_minus1的值应在0至32-log2_max_pic_order_cnt_lsb_minus4-5的范围内(包括端值)。

下面描述条带头语义。

slice_pic_order_cnt_lsb表示当前图像的图像顺序编号对MaxPicOrderCntLsb取模。语法元素slice_pic_order_cnt_lsb的长度为log2_max_pic_order_cnt_lsb_minus4+4个比特。slice_pic_order_cnt_lsb的值应在0至MaxPicOrderCntLsb-1的范围内(包括端值)。

poc_msb_val表示当前图像的POC MSB值。语法元素poc_msb_val的长度为(poc_msb_len_minus1+1)个比特。

下面描述编码图像的解码过程。

PictureOutputFlag设置如下：

–如果以下条件之一为真，则PictureOutputFlag设置为0。

–当前图像为RASL图像，且相关联的IRAP图像的NoIncorrectPicOutputFlag等于1。

–gdr_enabled_flag等于1，且当前图像是NoIncorrectPicOutputFlag等于1的GDR图像。

–gdr_enabled_flag等于1，当前图像与NoIncorrectPicOutputFlag等于1的GDR图像相关联，且当前图像的PicOrderCntVal小于相关联的GDR图像的RpPicOrderCntVal。

–当前图像不属于输出层。

–否则，PictureOutputFlag设置为pic_output_flag。

下面提供图像顺序编号的解码过程。

该过程的输出为PicOrderCntVal，即当前图像的图像顺序编号。

每个编码图像与图像顺序编号变量(表示为PicOrderCntVal)相关联。

当图像不存在poc_msb_val且当前图像不是CLVSS图像时，变量prevPicOrderCntLsb和prevPicOrderCntMsb推导如下：

–假设prevTid0Pic是解码顺序中的前一个图像，该图像的nuh_layer_id等于当前图像的nuh_layer_id、该图像的TemporalId等于0，并且该图像不是RASL图像或RADL图像。

–将变量prevPicOrderCntLsb设置为prevTid0Pic的slice_pic_order_cnt_lsb。

–将变量prevPicOrderCntMsb设置为prevTid0Pic的PicOrderCntMsb。

当前图像的变量PicOrderCntMsb如下推导。

–如果图像存在poc_msb_val，则PicOrderCntMsb设置为等于poc_msb_val*MaxPicOrderCntLsb。

–否则(图像不存在poc_msb_val)，如果当前图像是CLVSS图像，则PicOrderCntMsb设置为0。

–否则，PicOrderCntMsb如下推导。

if((slice_pic_order_cnt_lsb<prevPicOrderCntLsb)&&

((prevPicOrderCntLsb-slice_pic_order_cnt_lsb)>＝(MaxPicOrderCntLsb/2)))

PicOrderCntMsb＝prevPicOrderCntMsb+MaxPicOrderCntLsb (8-1)

else if((slice_pic_order_cnt_lsb>prevPicOrderCntLsb)&&

((slice_pic_order_cnt_lsb-prevPicOrderCntLsb)>(MaxPicOrderCntLsb/2)))

PicOrderCntMsb＝prevPicOrderCntMsb-MaxPicOrderCntLsb

else

PicOrderCntMsb＝prevPicOrderCntMsb

PicOrderCntVal is derived as follows.

PicOrderCntVal＝PicOrderCntMsb+slice_pic_order_cnt_lsb (8-2)

说明–所有不存在poc_msb_val的CLVSS图像的PicOrderCntVal等于slice_pic_order_cnt_lsb，因为对于这些图像，PicOrderCntMsb设置为0。

PicOrderCntVal的值应在-231至231-1的范围内(包括端值)。

在一个CVS中，任意两个具有相同nuh_layer_id值的译码图像的PicOrderCntVal值应不相同。

任何特定接入单元中的所有图像应都可以具有相同的PicOrderCntVal值。

函数PicOrderCnt(picX)表示如下：

PicOrderCnt(picX)＝PicOrderCntVal of the picture picX (8-3)

函数DiffPicOrderCnt(picA,picB)表示如下：

DiffPicOrderCnt(picA,picB)＝PicOrderCnt(picA)-PicOrderCnt(picB) (8-4)

码流应不包括使解码过程中使用的DiffPicOrderCnt(picA,picB)的值不在-215至215-1的范围内(包括端值)的数据。

说明：假设X为当前图像，Y和Z为同一个CVS中的另外两个图像，当DiffPicOrderCnt(X,Y)和DiffPicOrderCnt(X,Z)都为正或都为负时，认为Y和Z相对于X处于相同的输出顺序方向上。

图12为根据本发明实施例的视频译码设备1200(例如视频编码器300或视频解码器400)的示意图。视频译码设备1200适合于实现如本文所描述的公开实施例。视频译码设备1200包括：用于接收数据的入端口1210和接收单元(Rx)1220；用于处理数据的处理器、逻辑单元或中央处理单元(central processing unit，CPU)1230；用于发送数据的发送单元(Tx)1240和出端口1250；用于存储数据的存储器1260。视频译码设备1200还可以包括耦合到入端口1210、接收单元1220、发送单元1240和出端口1250的光电(optical-to-electrical，OE)组件和电光(electrical-to-optical，EO)组件，用作光信号或电信号的出口或入口。

处理器1230通过硬件和软件实现。处理器1230可以实现为一个或多个CPU芯片、核(例如，多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application specific integrated circuit，ASIC)和数字信号处理器(digitalsignal processor，DSP)。处理器1230与入端口1210、接收单元1220、发送单元1240、出端口1250和存储器1260通信。处理器1230包括译码模块1270。译码模块1270实现以上所描述的公开实施例。例如，译码模块1270实现、处理、准备或提供各种编解码功能。因此，将译码模块1270包括在内，这为视频译码设备1200的功能提供了实质性的改进，并且影响了视频译码设备1200到不同状态的转换。或者，以存储在存储器1260中并由处理器1230执行的指令来实现译码模块1270。

视频译码设备1200还可以包括用于与用户进行数据通信的输入和/或输出(I/O)设备1280。I/O设备1280可以包括输出设备，例如用于显示视频数据的显示器、用于输出音频数据的扬声器等。I/O设备1280还可以包括键盘、鼠标、轨迹球等输入设备和/或用于与这些输出设备交互的对应接口。

存储器1260包括一个或多个磁盘、磁带机和固态硬盘，并且可以用作溢出数据存储设备，以在选择此类程序用于执行时存储程序，以及存储在程序执行期间读取的指令和数据。存储器1260可以是易失性和/或非易失性的，并且可以是只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、三态内容寻址存储器(ternary content-addressable memory，TCAM)和/或静态随机存取存储器(staticrandom-access memory，SRAM)。

图13为译码模块1300的一个实施例的示意图。在一个实施例中，译码模块1300在视频译码设备1302(例如，视频编码器300或视频解码器400)中实现。视频译码设备1302包括接收模块1301。接收模块1301用于接收用于进行编码的图像，或接收用于进行解码的码流。视频译码设备1302包括耦合到接收模块1301的发送模块1307。发送模块1307用于将码流发送到解码器或将解码图像发送到显示模块(例如，I/O设备1280中的一个)。

视频译码设备1302包括存储模块1303。存储模块1303耦合到接收模块1301或发送模块1307中的至少一个。存储模块1303用于存储指令。视频译码设备1302还包括处理模块1305。处理模块1305耦合到存储模块1303。处理模块1305用于执行存储在存储模块1303中的指令以执行本文公开的方法。

还应理解，本文中阐述的示例性方法的步骤不一定需要按照所描述的顺序执行，并且这些方法的步骤的顺序应理解为仅仅是示例性的。同样地，在与本发明各种实施例相一致的方法中，这些方法可以包括其它步骤，并且某些步骤可以省略或组合。

尽管本发明中已经提供了几个实施例，但应理解的是，在不偏离本发明的精神或范围的情况下，所公开的系统和方法可以以许多其它特定形式实现。当前的这些示例被认为是说明性的而非限制性的，并且意图不限于本文给出的细节。例如，各种元件或组件可以组合或集成在另一个系统中，或者可以省略或不实现一些特征。

此外，在不偏离本发明范围的情况下，在各种实施例中描述和示出为分立的或独立的技术、系统、子系统和方法，可以与其它系统、模块、技术或方法组合或集成。示出或论述为相互耦合、直接耦合或通信的其它项目可以通过电、机械或其它方式通过一些接口、设备或中间组件间接耦合或通信。改变、替换和更改的其它示例可以由本领域技术人员确定，并且可以在不偏离本文所公开的精神和范围的情况下进行。

Claims

1.一种视频解码器实现的解码方法，其特征在于，包括：

所述视频解码器接收包括编码视频序列起始CVSS接入单元AU的码流，其中，所述CVSSAU包括每个层的图像单元PU，每个PU中的编码图像是编码层视频序列起始CLVSS图像，所述CLVSS图像具有等于1的恢复前无输出标志；

所述视频解码器根据图像顺序编号POC值从所述层中的一个层中标识所述编码图像；

所述视频解码器对所述编码图像进行解码，以获得解码图像。

2.根据权利要求1所述的方法，其特征在于，所述CLVSS图像是帧内随机接入点IRAP图像。

3.根据权利要求1所述的方法，其特征在于，所述CLVSS图像是逐步解码刷新GDR图像。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述恢复前无输出标志设置在所述PU的图像参数集PPS中。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述CVSS AU的每个层由视频参数集VPS表示。

6.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

所述视频解码器接收包括第二CVSS AU的第二视频码流，其中，所述第二CVSS AU包括每个层的图像单元PU，每个PU中的编码图像不是CLVSS图像；

在所述第二视频码流被接收到之后，采取一些其它纠正措施，以确保在对所述编码图像进行解码之前，对应于所述第二视频码流的一致性码流被接收到。

7.一种视频编码器实现的编码方法，其特征在于，所述方法包括：

所述视频编码器在编码视频序列起始CVSS接入单元AU的每个层中插入包括编码图像的图像单元PU，其中，所述视频编码器被约束，使得每个层中的所述编码图像是编码层视频序列开始CLVSS图像，所述CLVSS图像具有等于1的恢复前无输出标志；

所述视频编码器将包括所述CVSS AU的编码层视频序列CLVS编码到码流中；

所述视频编码器存储所述码流，用于传输到视频解码器。

8.根据权利要求7所述的方法，其特征在于，所述CLVSS图像是帧内随机接入点IRAP图像。

9.根据权利要求7所述的方法，其特征在于，所述CLVSS图像是逐步解码刷新GDR图像。

10.根据权利要求7至9中任一项所述的方法，其特征在于，所述CVSS AU的每个层由视频参数集VPS表示。

11.一种解码设备，其特征在于，包括：

接收器，用于接收包括编码视频序列起始CVSS接入单元AU的码流，其中，所述CVSS AU包括每个层的图像单元PU，每个PU中的编码图像是编码层视频序列起始CLVSS图像，所述CLVSS图像具有等于1的恢复前无输出标志；

耦合到所述接收器的存储器，所述存储器存储指令；

耦合到所述存储器的处理器，所述处理器用于执行所述指令以使所述解码设备执行根据权利要求1至6任一所述的方法。

12.一种编码设备，其特征在于，包括：

包括指令的存储器；

耦合到所述存储器的处理器，所述处理器用于执行所述指令，以使所述编码设备执行根据权利要求7至10任一所述的方法。