CN105981387A

CN105981387A - 使用可分级嵌套sei消息的视频编码和解码

Info

Publication number: CN105981387A
Application number: CN201480068076.6A
Authority: CN
Inventors: M·M·安尼克塞拉
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 2013-10-15
Filing date: 2014-10-14
Publication date: 2016-09-28
Anticipated expiration: 2034-10-14
Also published as: EP3058734A4; EP3058734B1; EP3058747B1; US10205965B2; EP3058747A4; US20190174144A1; CN105981387B; EP3058734A2; EP3058747A1; WO2015056179A1; WO2015056182A3; US20150103927A1; US9641862B2; WO2015056182A2; US20150103926A1

Abstract

公开了用于视频编码的各种方法、装置和计算机程序产品。在一些实施例中，图片被编码到比特流中。比特流包括与访问单元相关联的至少两个可分级性层和图片。第一指示和第二指示被编码到比特流中。第一指示被配置成指示输出层。并且第二指示被配置成指示至少一个替选输出层。当输出层的图片不在包含所述至少一个替选输出层的所述第一图片的访问单元中时，通过比特流的解码过程来输出所述至少一个替选输出层的第一图片。

Description

使用可分级嵌套SEI消息的视频编码和解码

技术领域

本申请总体上涉及对数字视频材料的编码和解码。特别地，本申请涉及可分级编码。

背景技术

本节旨在提供权利要求书中记载的本发明的背景或上下文。本文中的描述可以包括能够寻求的概念，但是不一定是之前已经设想或寻求的概念。因此，除非本文中另行指示，在本节中描述的内容不是本申请中的描述和权利要求的现有技术并且不会通过包含在本节中而被承认为是现有技术。

视频编码系统可以包括编码器和解码器，编码器将输入视频变换成适合于存储/传输的经压缩的表示，解码器能够将经压缩的视频表示解压回到可观看的形式。编码器可以丢弃原始视频序列中的一些信息以便以更紧凑的形式来表示视频，例如以使得能够以比可能需要的比特率更低的比特率来存储/传输视频信息。

发明内容

一些实施例提供了一种用于对视频信息进行编码和解码的方法。在一些实施例中，提供了用于视频编码的方法、装置和计算机程序产品。

具体实施方式中提供了本发明的示例的各个方面。

根据第一方面，提供了一种方法，包括：

-将图片编码到比特流中，比特流包括与访问单元相关联的至少两个可分级性层和图片；

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

-其中第一指示和第二指示联合地具有以下影响：当在包含第一图片的访问单元中没有输出层的图片时，通过比特流的解码过程输出至少一个替选输出层的第一图片。

根据实施例，方法还包括将层与一个或多个可分级性尺寸相关联；并且将层与一个或多个可分级性尺寸的不同值集合相关联；其中第二指示独立于一个或多个可分级性尺寸。

根据第二方面，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

根据装置的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：将层与一个或多个可分级性尺寸相关联；并且将层与一个或多个可分级性尺寸的不同值集合相关联；其中第二指示独立于一个或多个可分级性尺寸。

根据第三方面，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

根据计算机程序产品的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：将层与一个或多个可分级性尺寸相关联；并且将层与一个或多个可分级性尺寸的不同值集合相关联；其中第二指示独立于一个或多个可分级性尺寸。

根据第四方面，提供了一种方法，包括：

-从比特流解码图片，比特流包括与访问单元相关联的至少两个可分级性层和图片；

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

-当在包含第一图片的访问单元中没有输出层的图片时，输出至少一个替选输出层的第一图片。

根据实施例，方法还包括输出输出层的第二图片，第二图片与第二访问单元相关联。

根据实施例，方法还包括：

-将层与一个或多个可分级性尺寸相关联；以及

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第五方面，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

根据装置的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：输出输出层的第二图片，第二图片与第二访问单元相关联。

根据装置的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：将层与一个或多个可分级性尺寸相关联；以及将层与一个或多个可分级性尺寸的不同值集合相关联；其中第二指示独立于一个或多个可分级性尺寸。

根据第六方面，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

根据计算机程序产品的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：输出输出层的第二图片，第二图片与第二访问单元相关联。

根据计算机程序产品的实施例，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：将层与一个或多个可分级性尺寸相关联；以及将层与一个或多个可分级性尺寸的不同值集合相关联；其中第二指示独立于一个或多个可分级性尺寸。

根据第七方面，提供了一种方法，包括：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将至少一个第一指示编码到比特流中，至少一个第一指示提供输出层集合的一个或多个属性并且关联输出层集合的索引；

-将第一层的第一图片编码到比特流中；

-将至少一个第二指示编码到比特流内的图片级结构中，至少一个第二指示将第一图片关联到输出层集合；

-将第二层的第二图片编码到比特流中；

-将至少一个第三指示编码到比特流内的图片级结构中，至少一个第三指示将第二图片关联到输出层集合；

-其中第一指示、第二指示和第三指示联合地具有以下影响：通过在其中已经选择输出层集合的比特流的解码过程来输出与输出层集合相关联的图片。

根据第八方面，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将第一层的第一图片编码到比特流中；

-将第二层的第二图片编码到比特流中；

根据第九方面，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将第一层的第一图片编码到比特流中；

-将第二层的第二图片编码到比特流中；

根据第十方面，提供了一种方法，包括：

-从比特流解码图片，比特流包括至少两个可分级性层；

-从比特流解码至少一个第一指示，至少一个第一指示提供输出层集合的一个或多个属性并且关联输出层集合的索引；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流内的图片级结构解码至少一个第二指示，至少一个第二指示将第一图片关联到输出层集合；

-从比特流解码第二层的第二图片；

-从比特流内的图片级结构解码至少一个第三指示，至少一个第三指示将第二图片关联到输出层集合；

-输出第一图片和第二图片，因为它们是与输出层集合相关联的图片。

根据第十一方面，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-从比特流解码图片，比特流包括至少两个可分级性层；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流解码第二层的第二图片；

根据第十二方面，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-从比特流解码图片，比特流包括至少两个可分级性层；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流解码第二层的第二图片；

附图说明

为了更完整地理解本发明的示例实施例，现在结合附图对下面的描述进行参考，在附图中：

图1示出了根据实施例的视频编码系统的框图；

图2示出了根据实施例的用于视频编码的装置；

图3示出了包括多个装置的用于视频编码的布置；

图4示出了可分级视频编码的示例；

图5示出了根据实施例的编码方法的高级流程图；

图6示出了根据实施例的解码方法的高级流程图；

图7示出了根据实施例的编码方法的高级流程图；以及

图8示出了根据实施例的解码方法的高级流程图。

具体实施方式

下面，将在一个视频编码布置的上下文中描述本发明的若干实施例。然而，应当注意，本发明不限于这一特定布置。实际上，不同实施例在其中需要可分级(scalable)和/或多视图视频编码的改进的任何环境中具有广泛的应用。例如，本发明可以适用于视频编码系统，如流送系统、DVD播放器、数字电视接收器、个人视频记录仪、在个人计算机、手持式计算机和通信设备上的系统和计算机程序，以及网络元件(诸如其中处理视频数据的代码转换器和云计算布置)。

图1示出了根据示例实施例的视频编码系统的方框图作为示范性装置或电子装置50的示意性方框图，所述示范性装置或电子装置50可以包含根据本发明的实施例的编解码器。图2示出了根据示例实施例的装置的布局。接下来将解释图1和图2的元件。

电子装置50可以例如是移动终端或无线通信系统的用户设备。然而，将认识到，本发明的实施例可以被实施在可以要求编码和解码或对视频图像进行编码和解码的任何电子设备或装置内。

装置50可以包括用于包含和保护设备的壳体30。装置50还可以包括形式为液晶显示器的显示器32。在本发明的其他实施例中，显示器可以是适合于显示图像或视频的任何适当的显示技术。装置50还可以包括小键盘34。在本发明的其他实施例中，可以采用任何适当的数据或用户接口机构。例如，用户接口可以被实施为作为触敏显示器的一部分的虚拟键盘或数据输入系统。装置可以包括麦克风36或可以为数字或模拟信号输入的任何适当的音频输入。装置50还可以包括音频输出设备，所述音频输出设备在本发明的实施例中可以为以下的任何一个：耳机38、扬声器或任何模拟音频或数字音频输出连接。装置50还可以包括电池40(或在本发明的其他实施例中，设备可以由诸如太阳能电池、燃料电池或时钟机构发生器的任何适当的移动能量设备来供电)。装置还可以包括能够记录或捕获图像和/或视频的相机42。在一些实施例中，装置50还可以包括用于到其他设备的短程视影通信的红外端口。在其他实施例中，装置50还可以包括任何适当的短程通信解决方案，诸如举例而言蓝牙无线连接或USB/火线有线连接。

装置50可以包括控制器56或用于控制装置50的处理器。控制器56可以被连接到存储器58，所述存储器58在本发明的实施例中可以存储以图像和音频数据的形式的两种数据和/或还可以存储用于实施在控制器56上的指令。控制器56还可以被连接到适合于执行对音频和/或视频数据的编码和解码或辅助由控制器56执行的编码和解码的编解码器电路54。

装置50还可以包括读卡器48和智能卡46，例如用于提供用户信息并且适合于提供用于在网络处对用户的认证和授权的认证信息的UICC和UICC阅读器。

装置50可以包括连接到控制器并且适合于生成无线通信信号例如以用于与蜂窝通信网络、无线通信系统或无线局域网的通信的无线电接口电路52。装置50还可以包括连接到射频接口电路52以用于向其他装置传输在无线电接口电路52处生成的射频信号并且用于从其他装置接收射频信号的天线44。

在本发明的一些实施例中，装置50包括能够记录或检测单个帧的相机，这些帧之后被传递到编解码器54或控制器以用于处理。在本发明的一些实施例中，装置可以在传输和/或存储视频图像数据之前从另一设备接收该视频图像数据以用于处理。在本发明的一些实施例中，装置50可以无线地或通过有线连接接收图像以用于编码/解码。

图3示出了根据示例实施例的包括多个装置、网络和网络元件的用于视频编码的布置。参考图3，示出了其内能够利用本发明的实施例的系统的示例。系统10包括多个通信设备，所述多个通信设备能够通过一个或多个网络通信。系统10可以包括有线网络或无线网络的任何组合，包括但不限于无线蜂窝电话网络(诸如，GSM、UMTS、CDMA网络等)、诸如由IEEE 802.x标准中的任何标准限定的无线局域网(WLAN)、蓝牙个人局域网、以太网局域网、令牌环局域网、广域网以及互联网。

系统10可以包括适合于实施本发明的实施例的有线和无线通信设备或装置50两者。例如，图3中示出的系统示出了移动电话网络11和互联网28的表示。到互联网28的连接性可以包括但不限于远程无线连接、短程无线连接以及各种有线连接，包括但不限于电话线、线缆线、电力线和类似的通信通路。

系统10中示出的示例通信设备可以包括但不限于电子设备或装置50、个人数字助理(PDA)和移动电话14的组合、PDA 16、集成消息设备(IMD)18、台式计算机20、笔记本电脑22。装置50当由正在移动的个人携带时可以是固定的或移动的。装置50还可以位于交通工具中，交通工具包括但不限于汽车、卡车、出租车、公交车、火车、轮船、飞机、自行车、摩托车或任何类似的交通工具。

一些或另外的装置可以通过到基站24的无线连接25发送和接收呼叫和消息并与服务提供商通信。基站24可以被连接到网络服务器26，所述网络服务器26允许移动电话网络11和互联网28之间的通信。系统可以包括附加的通信设备和各种类型的通信设备。通信设备可以使用各种传输技术来通信，包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议-互联网协议(TCP-IP)、短消息服务(SMS)、多媒体消息服务(MMS)、电子邮件、即时消息服务(IMS)、蓝牙、IEEE 802.11以及任何类似的无线通信技术。在实施本发明的各种实施例中涉及的通信设备可以使用各种介质来通信，包括但不限于无线电、红外、激光、线缆连接以及任何适当的连接。

H.264/AVC标准由国际电信联盟(ITU-T)的电信标准化部门的视频编码专家组(VCEG)和国际标准化组织(ISO)/国际电工委员会(IEC)的运动图片专家组(MPEG)的联合视频团队(JVT)开发。H.264/AVC标准由两个母标准化组织发布，并且它被称为ITU-T推荐H.264和ISO/IEC国际标准14496-10，也称为MPEG-4部分10高级视频编码(AVC)。已经有H.264/AVC标准的多个版本，每个版本向规范集成新扩展或者特征。这些扩展包括可分级视频编码(SVC)和多视图视频编码(MVC)。

VCEG和MPEG的视频编码联合校准组(JCT-VC)开发了H.265/HEVC标准。H.265/HEVC标准将由两个母标准化组织来发布，并且称为ITU-T推荐H.265和ISO/IEC国际标准23008-2，也称为MPEG-H部分2高效视频编码(HEVC)。当前有正在进行的标准化项目以开发对H.265/HEVC的扩展，包括可分级扩展、多视图扩展、三维扩展和保真度范围扩展。

可以实施用于品质可分级性(也称为信噪比或者SNR)和/或空间可分级性的可分级视频编码器如下。对于基础层，可以使用常规的非可分级视频编码器和解码器。在用于增强层的参考画面缓冲器和/或参考画面列表中包括基础层的重建/解码画面。在空间可分级性的情况下，重建/解码基础层画面可以在它插入到用于增强层画面的参考画面列表中之前被上采样。基础层解码画面可以与增强层的解码参考画面相似地被插入到用于对增强层画面进行编码/解码的参考画面列表中。因而，编码器可以选择基础层参考画面作为帧间预测参考并且指示它与在编码比特流中的参考画面索引一起使用。解码器从比特流(例如从参考画面索引)解码出基础层画面用作用于增强层的帧间预测参考。在解码基础层画面用作用于增强层的预测参考时，它称为层间参考画面。

当前研究和开发用于提供三维(3D)视频内容的各种技术。特别地，主要研究各种多视图应用，其中查看者从特定视角能够仅看到一对立体视频并且从不同的视角仅能够看到另一对立体视频。已经证明用于这样的多视图应用的最可行的方法之一是：其中仅有限数目的视图(例如单声道或立体视图加上一些补充数据)被提供给解码器侧并且所有所需要的视图然后被解码器本地渲染(及合成)以在显示器上显示。

这一部分描述H.264/AVC和HEVC的一些关键定义、比特流和编码结构以及概念，作为其中可以实现实施例的视频编码器、解码器、编码方法、解码方法和比特流结构的示例。H.264/AVC的关键定义、比特流和编码结构以及概念中的一些与HEVC中一样——因此，下面对其进行联合描述。本发明的各个方面不限于H.264/AVC或HEVC，描述被给出用于一个可能的基础，基于该基础能够部分或完全认识本发明。

在描述H.264/AVC和HEVC时以及在示例实施例中，可以使用例如H.264/AVC或HEVC中规定的用于算法运算符、逻辑运算符、关系运算符、按位运算符、赋值运算符和范围符号的一般符号。另外，可以使用例如H.264/AVC或HEVC中规定的一般数学函数，并且可以使用例如H.264/AVC或HEVC中规定的一般顺序或优先级以及运算符的执行顺序(从左到右或从右到左)。

在描述H.264/AVC和HEVC时以及在示例实施例中，可以使用以下描述来规定每个句法元素的解析过程。

-b(8)：具有位串的任何图案的字节(8比特)。

-se(v)：有符号整数Exp-Golomb编码的句法元素，左侧比特优先。

-u(n)：使用n个比特的无符号整数。当n是句法表格中的“v”时，

比特的数目按照取决于其他句法元素的值的方式变化。这一描述

符的解析过程由从被解释为无符号整数的二进制表示的比特流开

始的接下来n个比特来规定，其中首先写入最高有效位。

-ue(v)：无符号整数Exp-Golomb编码的句法元素，左侧比特优先。

可以例如使用以下表格将Exp-Golomb位串变换成码编号(codeNum)：

可以例如使用以下表格将对应于Exp-Golomb位串的码编号变换成se(v)：

codeNum	句法元素值
		0	0
1	1
		2	-1
3	2
		4	-2
5	3
		6	-3
…	…

在描述H.264/AVC和HEVC时以及在示例实施例中，可以如下来规定句法结构、句法元素的语义以及解码过程。比特流中的句法元素用粗体类型表示。每个句法元素用其名称(全部小写字母具有下划线特性)、可选地其一个或两个句法种类以及用于其已编码表示的方法的一个或两个描述符来描述。解码过程根据句法元素的值以及先前已解码句法元素的值来运作。当在句法表格或文本中使用句法元素的值时，用小写字母和大写字母的混合来命名并且没有任何下划线字符。得到具有大写字母的变量，用于当前句法结构和所有依赖性句法结构的解码。以大写字母开始的变量可以用在后面的句法结构的解码过程中而没有提及变量的起源句法结构。以小写字母开始的变量仅用在其中得到它们的上下文内。在一些情况下，句法元素值或变量值的“助记符”名称与其数值可互换地使用。有时，使用“助记符”名称而没有任何相关联的数值。文本中规定了值与名称的关联关系。名称由以下划线字符分离的一组或多组字母构成。每组以大写字母开始并且可以包含更多大写字母。

在描述H.264/AVC和HEVC时以及在示例实施例中，可以使用以下方式来规定句法结构。波形括号中包括的一组语句是复合语句并且在功能上被视为单个语句。“while”结构规定条件是否为真的测试，并且如果为真，则重复地规定语句(或者复合语句)的求值直到条件不再为真。“do…while”结构规定语句的一次求值，之后是条件是否为真的测试，并且如果为真，则规定语句的重复求值直到条件不再为真。“if…else”结构规定条件是否为真的测试，并且如果条件为真，则规定主要语句的求值，否则规定替选语句的求值。这一结构的“else”部分以及相关联的替选语句在不需要替选语句求值的情况下被省略。“for”结构规定初始语句的求值，之后是条件的测试，并且如果条件为真，则规定主要语句的重复求值，之后是随后的语句，直到条件不再为真。

在现有标准的描述中以及在示例实施例的描述中，可以使用短语“通过(by)外部手段”或“通过(through)外部手段”。例如，实体、诸如解码过程中使用的变量的句法结构或值可以“通过解码过程的外部手段”来提供。短语“通过外部手段”可以表示实体没有被包括在由编码器产生的比特流中，而是例如使用控制协议从比特流在外部传达。替选地或者另外地，其可以表示，实体没有由编码器产生，但是可以例如在使用解码器的层或解码控制逻辑等中产生。解码器可以具有用于输入外部手段(诸如变量值)的接口。

类似于很多早先的视频编码标准，H.264/AVC和HEVC中规定了比特流句法和语义以及用于无误差比特流的解码过程。没有规定编码过程，但是编码器必须生成一致的比特流。比特流和已解码一致性可以通过假设参考解码器损失来验证，但是工具在编码时的使用是可选的，并且没有规定错误比特流的解码过程。

分别用于到H.264/AVC或HEVC编码器的输入以及H.264/AVC或HEVC解码器的输出的基本单元是图片。图片可以是帧或字段。帧包括亮度样本以及对应色度样本的矩阵。当源信号交织时，字段是帧的交替的样本行的集合，并且可以用作编码器输入。色度图片在与亮度图片相比较时可以被子采样。例如，在4:2:0采样图案中，色度图片的空间分辨率沿着两个坐标轴是亮度图片的空间分辨率的一半。

在H.264/AVC中，宏块是16x16亮度样本块以及对应色度样本块。例如，在4:2:0采样图案中，宏块包含每个色度分量一个8x8色度样本块。在H.264/AVC中，图片被分割成一个或多个切片组，并且切片组包含一个或多个切片。在H.264/AVC中，切片包括在特定切片组内的光栅扫描中连续排序的整数数目个宏块。

在HEVC中，视频图片分为覆盖图片区域的编码单元(CU)。CU包括针对CU内的样本定义预测过程的一个或多个预测单元(PU)以及针对CU中的样本定义预测误差编码过程的一个或多个变换单元(TU)。通常，CU包括大小从可能的CU大小的预定义集合可分级的样本的正方形块。具有最大允许大小的CU通常称为CTU(编码树单元)，并且视频图片分为非交叠CTU。例如通过递归地划分CTU以及所得到的CU，还可以将CTU划分为更小的CU的组合。每个所得到的CU通常具有至少一个PU和至少一个与其相关联的TU。每个PU和TU还可以划分成更小的PU和TU，以便分别增加预测和预测误差解码过程的粒度。PU划分可以通过按照对称或非对称方式竖直地或者水平地将CU划分成4个相等大小的正方形PU或者将CU划分成2个矩形PU来实现。图像分为CU、CU分为PU和TU通常在比特流中被信号传输，以使得解码器能够再现这些单元的意图结构。

在HEVC中，可以用瓦片来分割图片，瓦片是矩形并且包含整数个CTU。在HEVC中，分割成瓦片形成规则网格，其中瓦片的高度和宽度彼此不同并且最大相差一个CTU。

在HEVC中，切片定义为相同的访问单元内一个独立性的切片分段以及在下一独立性切片分段(如果存在)之前的全部随后的依赖性切片分段(如果存在)中所包含的整数个编码树单元。在HEVC中，切片分段定义为瓦片扫描中连续排序的并且在单个NAL单元中包含的整数个编码树单元。每个图片分为切片分段是分割。在HEVC中，独立性切片分段定义为其切片分段首部的句法元素的值没有从在前切片分段的值来推断的切片分段，并且依赖性切片分段定义为其切片分段首部的某些句法元素的值从按照解码顺序在前的独立性切片分段的值来推断的切片分段。在HEVC中，切片首部被定义为作为当前切片分段或者在当前依赖性切片分段前面的独立性切片分段的独立性切片分段的切片分段首部，并且切片分段首部被定义为包含从属于切片分段中表示的第一或全部编码树单元的数据元素的已编码切片分段的部分。如果没有使用瓦片，则CU按照瓦片内或图片内的LCU的光栅扫描顺序被扫描。在LCU内，CU具有特定的扫描顺序。

在HEVC的工作草案(WD)5中，如下定义了用于图片分割的一些关键定义和概念。分割被定义为集合分为子集使得集合的每个元素仅为子集之一。

HEVC WD5中的基本编码单元是树块。树块是具有三个样本阵列的图片的NxN亮度样本块以及两个对应色度样本块，或者单色图片或使用三个单独的颜色平面编码的图片的NxN样本块。可以针对不同的编码和解码过程来分割树块。对于具有三个样本阵列的图片，树块分割是由于树块的分割而产生的亮度样本块以及两个对应色度样本块，或者对于单色图片或使用三个单独的颜色平面编码的图片，树块分割是由于树块的分割而产生的亮度样本块。每个树块被分配分割信令以识别用于帧内或帧间预测的块大小以及用于变换编码的块大小。分割是递归四叉树分割。四叉树的根与树块相关联。四叉树被划分直到到达叶子，叶子也称为编码节点。编码节点是两个树(预测树和变换树)的根节点。预测树规定预测块的位置和大小。预测树和相关联的预测数据被称为预测单元。变换树规定变换块的位置和大小。变换树和相关联的变换数据被称为变换单元。针对亮度和色度的划分信息对于预测树而言相同，并且对于变换树而言可以相同或可以不同。编码节点以及相关联的预测单元和变换单元一起形成编码单元。

在HEVC WD5中，图片分为切片和瓦片。切片可以是树块的序列，但是(在提及所谓的细粒度切片时)其边界也可以在树块内在其中变换单元和预测单元一致的位置处。切片内的树块按照光栅扫描顺序被编码和解码。对于主要已编码图片，每个图片分为切片是分割。

在HEVC WD5中，瓦片定义为瓦片内在光栅扫描中被连续排序的在一列和一行中同时出现的整数个树块。对于主要已编码图片，每个图片分为瓦片是分割。瓦片在图片内在光栅扫描中被连续排序。虽然切片包含在瓦片内在光栅扫描中连续的树块，但是这些树块在图片内在光栅扫描中不一定连续。切片和瓦片不需要包含相同的树块序列。瓦片可以包括被包含在多于一个切片中的树块。类似地，切片可以包括被包含在若干瓦片中的树块。

在H.264/AVC和HEVC中，图片内预测可以在切片边界上被停用。因此，可以认为切片是将已编码图片划分为独立可解码的片的一种方式，并且切片因此被认为是用于传输的基本单元。在很多情况下，编码器可以在比特流中指示在切片边界上关闭哪些种类的图片内预测，并且解码器操作例如在总结哪些预测源可用时将这一信息考虑在内。例如，如果相邻宏块或CU驻留在不同切片中，则可以认为来自相邻宏块或CU的样本不可用于帧内预测。

句法元素可以定义为在比特流中表示的数据的元素。句法结构可以定义为按照规定的顺序一起存在于比特流中的零个或多个句法元素。

分别用于H.264/AVC或HEVC编码器的输出以及H.264/AVC或HEVC解码器的输入的基本单元是网络抽象层(NAL)单元。对于数据包取向的网络上的传输或者到结构化文件中的存储，可以将NAL单元封装成数据包或类似结构。H.264/AVC和HEVC中已经规定了用于没有提供成帧结构的传输或存储环境的字节流格式。字节流格式通过在每个NAL单元前面附接开始代码来将NAL单元彼此分离。为了避免NAL单元边界的错误检测，编码器可以运行字节取向开始代码仿真预防算法，其在出现开始代码的情况下向NAL单元净荷添加仿真预防字节。为了在数据包取向系统与流取向系统之间实现直接网关操作，通常可以执行开始代码仿真预防而不管是否使用字节流格式。

NAL单元包括首部和净荷。在H.264/AVC中，NAL单元首部表示NAL单元的类型以及NAL单元中包含的已编码切片是参考图片还是非参考图片的部分。H.264/AVC包括2比特nal_ref_idc句法元素，其在等于0时表示NAL单元中包含的已编码切片是非参考图片的部分，而在大于0是表示NAL单元中包含的已编码切片是参考图片的部分。SVC和MVC NAL单元的首部还可以包含与可分级性和多视图层级相关的各种指示。

在HEVC中，2字节NAL单元首部用于所有规定的NAL单元类型。NAL单元首部包含一个预留位、6比特的NAL单元类型指示、6比特的预留字段(称为nuh_layer_id)以及用于时间级的3比特的temporal_id_plus1指示。temporal_id_plus1句法元素可以被认为是NAL单元的时间标识符，并且基于零的TemporalId变量可以如下来得到：TemporalId＝temporal_id_plus1-1。TemporalId等于0对应于最低时间级。temporal_id_plus1的值必须为非零以避免开始代码仿真涉及两个NAL单元首部字节。通过排除TemporalId大于或等于所选择的值的所有VCL NAL单元并且包括所有其他VCL NAL单元产生的比特流保持一致。因此，TemporalId等于TID的图片没有使用TemporalId大于TID的任何图片作为帧间预测参考。子层或时间子层可以定义为时间可分级比特流的时间可分级层，包括TemporalId变量为特定值的VCL NAL单元以及相关联的非VCL NAL单元。在不失一般性的情况下，在一些示例实施例中，例如如下根据nuh_layer_id的值得到变量LayerId：LayerId＝nuh_layer_id。下面，可互换地使用LayerId、nuh_layer_id和layer_id，除非另外指出。

期望的是，NAL单元首部中的nuh_layer_id和/或类似的句法元素携带与可分级性层级有关的信息。例如，LayerId值可以被映射到描述不同可分级性尺寸的变量或句法元素的值，诸如quality_id等、dependency_id等，任何其他类型的层标识符、视图顺序索引等、视图标识符、NAL单元是否涉及深度或纹理的指示(即depth_flag等)、或者类似于在所有大于特定标识符值的NAL单元从比特流中被去除的情况下指示有效子比特流提取的SVC的priority_id的标识符。例如，nuh_layer_id和/或类似句法元素中某个数目的比特可以用于 dependency_id等，而nuh_layer_id和/或类似句法元素中另一某个数目的比特可以用于quality_id等。替选地，例如可以在视频参数集合、序列参数集合或另一句法结构中提供LayerId值或者类似于描述不同可分级性尺寸的变量或句法元素的值的映射。

NAL单元可以分类成视频编码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元通常是已编码切片NAL单元。在H.264/AVC中，已编码切片NAL单元包含表示一个或多个已编码宏块的句法元素，每个已编码宏块对应于未压缩图片中的样本的块。在HEVC中，已编码切片NAL单元包含表示一个或多个CU的句法元素。

在H.264/AVC中，已编码切片NAL单元可以被表示为瞬时解码刷新(IDR)图片中的已编码切片或者非IDR图片中的已编码切片。

在HEVC中，已编码切片NAL单元可以被表示为以下类型之一：

在草拟HEVC标准中，图片类型的缩写可以如下定义：拖尾(TRAIL)图片、时间子层访问(TSA)、按步时间子层访问(STSA)、随机访问可解码前导(RADL)图片、随机访问跳跃前导(RASL)图片、中断链路访问(BLA)图片、瞬时解码刷新(IDR)图片、清洁随机访问(CRA)图片。

也或者替选地可以称为帧内随机访问点(IRAP)图片的随机访问点(RAP)图片是其中每个切片或切片分段的nal_unit_type在16到23(含)的范围内的图片。RAP图片仅包含帧内编码切片，并且可以是BLA图片、CRA图片或IDR图片。比特流中的第一图片是RAP图片。假设必要的参数集合在它们需要被激活时可用，则RAP图片以及按照解码顺序在后的所有的非RASL图片可以被正确地解码而不执行按照解码顺序在RAP图片前面的任何图片的解码过程。比特流中可以存在仅包含不是RAP图片的帧内编码切片的图片。

在HEVC中，CRA图片可以是比特流中按照解码顺序的第一图片，或者在比特流中可以稍后出现。HEVC中的CRA图片实现了所谓的前导图片，前导图片按照解码顺序在CRA图片之后但是按照输出顺序在CRA图片之前。前导图片中的一些图片(所谓的RASL图片)可以使用在CRA图片之前解码的图片作为参考。如果在CRA图片处执行随机访问，则按照解码顺序和输出顺序都在CRA图片之后的图片可解码，并且因此类似于IDR图片的清洁随机访问功能实现了清洁随机访问。

CRA图片可以具有相关联的RADL或RASL图片。当CRA图片是比特流中按照解码顺序的第一图片时，CRA图片是已编码视频序列按照解码顺序的第一图片，并且任何相关联的RASL图片没有被解码器输出并且不可以是可解码的，因为它们可以包含对不存在于比特流中的图片的引用。

前导图片是按照输出顺序在相关联的RAP图片之前的图片。相关联的RAP图片是按照解码顺序的在前RAP图片(如果存在)。前导图片可以是RADL图片或RASL图片。

所有的RASL图片是相关联的BLA或CRA图片的前导图片。当相关联的RAP图片是BLA图片或者是比特流中的第一已解码图片时，RASL图片没有被输出并且不可以正确地可解码，因为RASL图片可以包含对没有存在于比特流中的图片的引用。然而，如果解码已经从在RASL图片的相关联的RAP图片前面的RAP图片开始，则可以正确地解码RASL图片。RASL图片没有用作用于非RASL图片的解码过程的参考图片。如果存在，则所有的RASL图片按照解码顺序在相同的相关联的RAP图片的所有拖尾图片的前面。在HEVC标准的一些草案中，RASL图片称为标记以丢弃(TFD)图片。

所有的RADL图片是前导图片。RADL图片没有用作用于相同的相关联的RAP图片的拖尾图片的解码过程的参考图片。如果存在，则所有的RADL图片按照解码顺序在相同的相关联的RAP图片的所有拖尾图片前面。RADL图片没有涉及按照解码顺序在相关联的RAP图片前面的任何图片，并且因此在解码从相关联的RAP图片开始时可以被正确地解码。在HEVC标准的一些草案中，RADL图片称为可解码前导图片(DLP)。

可解码前导图片可以使得在解码从CRA图片开始时能够被正确解码。换言之，可解码前导图片仅使用初始CRA图片或按照解码顺序随后的图片作为帧间预测中的参考。非可解码前导图片使得在解码从CRA图片开始时不能够被正确解码。换言之，非可解码前导图片使用按照解码顺序在初始CRA图片前面的图片作为帧间预测中的参考。

可以出现也可以称为切片的已编码视频数据的连结，例如，已编码视频序列连结成被广播或流送或者存储在海量存储器中的比特流。例如，可以将表示商业或广告的已编码视频序列与电影或其他“主要”内容连结。切片比特流可以定义为在第一比特流之后添加的比特流，并且第一比特流和切片比特流的连结形成新的比特流。如果切片比特流仅包含一个已编码视频序列，则其可以称为切片已编码视频序列。类似地，切片比特流的第一已编码视频序列可以称为切片已编码视频序列。执行比特流的连结的实体可以称为切片器。

当从CRA图片开始的比特流的部分被包括在另一比特流中时，与CRA图片相关联的RASL图片不可以正确地可解码，因为其参考图片中的一些图片可能没有存在于组合比特流中。为了使得这样的切片操作简单直接，可以改变CRA图片的NAL单元类型以表示其是BLA图片。与BLA图片相关联的RASL图片不可以正确地可解码，因此没有被输出/显示。另外，与BLA图片相关联的RASL图片可以从解码中被省去。

BLA图片可以是比特流中按照解码顺序的第一图片，或者可以出现在比特流中的后部。每个BLA图片开始新的已编码视频序列，并且对解码过程具有与IDR图片类似的影响。然而，BLA图片包含规定非空参考图片集合的句法元素。当BLA图片的nal_unit_type等于BLA_W_LP时，其可以具有相关联的RASL图片，这些图片没有被解码器输出并且不可以是可解码的，因为它们可以包含对没有存在于比特流中的图片的引用。当BLA图片的nal_unit_type等于BLA_W_LP时，其还可以具有相关联的RADL图片，这些图片被规定为待解码。当BLA图片的nal_unit_type等于BLA_W_DLP时，其没有相关联的RASL图片，但是可以具有相关联的RADL图片，这些图片被规定为待解码。BLA_W_DLP也可以称为BLA_W_RADL。当BLA图片的nal_unit_type等于BLA_N_LP时，其没有任何相关联的前导图片。

nal_unit_type等于IDR_N_LP的IDR图片没有存在于比特流中的相关联的前导图片。nal_unit_type等于IDR_W_DLP的IDR图片没有存在于比特流中的相关联的RASL图片，但是可以具有在比特流中的相关联的RADL图片。IDR_W_DLP也可以称为IDR_W_RADL。

当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14时，已解码图片没有用作相同的时间子层的任何其他图片的参考。也就是说，在HEVC中，当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14时，已解码图片没有被包括在TemporalId的值相同的任何图片的RefPicSetStCurrBefore、RefPicSetStCurrAfter和RefPicSetLtCurr中的任何一项中。nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14的已编码图片可以被丢弃而不影响TemporalId的值相同的其他图片的可解码性。

拖尾图片可以定义为按照输出顺序在相关联的RAP图片之后的图片。作为拖尾图片的任何图片的nal_unit_type的值都不等于RADL_N、RADL_R、RASL_N或RASL_R。作为前导图片的任何图片可以被约束为按照解码顺序在与相同的RAP图片相关联的所有拖尾图片前面。比特流中不存在任何与nal_unit_type等于BLA_W_DLP或BLA_N_LP的BLA图片相关联的RASL图片。比特流中不存在与nal_unit_type等于BLA_N_LP的BLA图片相关联或者与nal_unit_type等于IDR_N_LP的IDR图片相关联的任何RADL图片。与CRA或 BLA图片相关联的任何RASL图片可以被约束为按照输出顺序在与CRA或BLA图片相关联的任何RADL图片前面。与CRA图片相关联的任何RASL图片可以被约束为按照输出顺序在按照解码顺序在CRA图片前面的任何其他RAP图片的后面。

在HEVC中，有两种图片类型(TSA和STSA图片类型)，其可以用于表示时间子层切换点。如果TemporalId最高达N的时间子层已经被解码直到TSA或STSA图片(排他性地)并且TSA或STSA图片的TemporalId等于N+1，则TSA或STSA图片实现TemporalId等于N+1的所有随后的图片(按照解码顺序)的解码。TSA图片类型可以对TSA图片本身以及相同子层中按照解码顺序在TSA图片之后的所有图片强加约束。这些图片中没有一个图片被允许使用相同的子层中按照解码顺序在TSA图片之前的任何图片的帧间预测。TSA定义还可以对更高子层中按照解码顺序在TSA图片之后的图片强加约束。这些图片中没有一个图片被允许引用按照解码顺序在TSA图片之前的图片(如果该图片属于与TSA图片相同或更高的子层)。TSA图片的TemporalId大于0。STSA类似于TSA图片，但是没有对更高子层中按照解码顺序在STSA图片之后的图片强加约束，并且因此仅实现了到STSA图片驻留在其中的子层上的向上切换。

非VCL NAL单元可以是例如以下类型之一：序列参数集合、图片参数集合、补充增强信息(SEI)NAL单元、访问单元定界符、序列NAL单元的端部、流NAL单元的端部或者填充数据NAL单元。可能需要已解码图片的重构的参数集合，而其他非VCL NAL单元中的很多单元不一定用于已解码样本值的重构。

在已编码视频序列中保持不变的参数可以被包括在序列参数集合(SPS)中。除了对于解码过程可能很重要的参数，序列参数集合可选地可以包含视频可用性信息(VUI)，其包括对于缓冲、图片输出定时、渲染和资源预留可能很重要的参数。H.264/AVC中规定了3个NAL单元以携带序列参数集合：包含序列中的H.264/AVC VCL NAL的所有数据的序列参数集合NAL单元、包含辅助已编码图片的数据的序列参数集合扩展NAL单元、以及MVC和SVC VCLNAL单元的子集序列参数集合。图片参数集合(PPS)包含很有可能在若干已编码图片中不变的参数。

参数集合句法结构可以具有扩展机制，其例如可以用于包括特定于编码标准的扩展的参数。下面针对SPS提供扩展机制的示例句法：

编码标准或编码方案的特定版本的解码器可以忽略sps_extension_data_flag，而在编码标准或编码方案的另一版本中，可以规定扩展句法结构并且其可以出现在sps_extension_data_flag比特内。也可以针对其他类型的参数集合规定类似的扩展机制。

在HEVC的草拟版本中，还有第三类型的参数集合，其在此称为自适应参数集合(APS)，其包括很有可能在若干已编码切片中不变的参数。在HEVC的草拟版本中，APS句法结构包括与基于上下文的自适应二进制算术编码(CABAC)、自适应样本偏移、自适应回路滤波以及解块滤波相关的参数或句法元素。在HEVC的草拟版本中，APS是NAL单元并且被编码而没有来自任何其他NAL单元的参考或预测。被称为aps_id句法元素的标识符被包括在APSNAL单元中，并且被包括在切片首部中并且在切片首部中使用以指代特定APS。然而，APS没有被包括在最终的H.265/HEVC标准中。

H.265/HEVC还包括另一类型的参数集合，其称为视频参数集合(VPS)。视频参数集合RBSP可以包括可以被一个或多个序列参数集合RBSP引用的参数。

VPS、SPS和PPS之间的关系和层级可以如下描述。VPS在参数集合层级中并且在可分级性和/或3DV的上下文中驻留在SPS之上一个级别上。VPS可以包括对于整个已编码视频序列中的所有(可分级性或视图)层上的所有切片公共的参数。SPS包括对于整个已编码视频序列中的特定(可分级性或视图)层中的所有切片公共的参数，或者可以由多个(可分级性或视图)层共享。PPS包括对于特定层表示(一个访问单元中的一个可分级性或视图层的表示)中的所有切片公共的参数，并且很有可能被多个层表示中的全部切片共享。

VPS可以提供与比特流中的层的依赖性关系有关的信息以及适用于整个已编码视频序列中的所有(可分级性或视图)层上的所有切片的很多其他信息。在HEVC的可分级扩展中，VPS例如可以包括从NAL单元首部得到的LayerId值到一个或多个可分级性尺寸值的映射，例如对应于类似于SVC和MVC定义的层的dependency_id、quality_id、view_id和depth_flag。VPS可以包括一个或多个层的简档和级别信息以及层表示的一个或多个时间子层(包括在某些TemporalId值处以及以下的VCL NAL单元)的简档和/或级别。VPS还可以提供比特流中存在的层的最大数目。例如，句法元素vps_max_layers_minus1可以被包括在句法中，并且vps_max_layer_minus1+1可以表示比特流中存在的层的最大数目。比特流中的层的实际数目可以小于或等于vps_max_layer_minus1+1。

下面提供意图作为VPS的部分的VPS扩展的示例句法。所呈现的VPS扩展提供依赖性关系等。应当理解，VPS扩展句法被提供作为示例，其他类似的和/或扩展的句法结构可以等同地应用于不同示例。

可以如下面段落中描述的那样来规定所呈现的VPS扩展的语义。

vps_extension_byte_alignment_reserved_one_bit等于1，并且用于实现下一句法元素与字节边界的对准。

scalability_mask[i]等于1表示存在对应于第i可分级性尺寸的dimension_id句法元素。scalability_mask[i]等于0表示不存在对应于第i可分级性尺寸的dimension_id句法元素。例如可以将对应于scalability_mask[i]中的i的每个值的可分级性尺寸规定为包括以下内容或其任何子集连同其他可分级性尺寸。

dimension_id_len_minus1[j]加上1规定dimension_id[i][j]句法元素的以比特为单位的长度。vps_nuh_layer_id_present_flag规定是否存在layer_id_in_nuh[i]句法。layer_id_in_nuh[i]规定第i层的VCL NAL单元中nuh_layer_id句法元素的值。如果不存在，则推断layer_id_in_nuh[i]的值等于i。layer_id_in_nuh[i]大于layer_id_in_nuh[i-1]。变量LayerIdxInVps[layer_id_in_nuh[i]]被设置为等于i。dimension_id[i][j]规定第i层的第j可分级性尺寸类型的标识符。如果不存在，则推断dimension_id[i][j]的值等于0。用于dimension_id[i][j]的表示的比特的数目是dimension_id_len_minus1[j]+1比特。

direct_dependency_flag[i][j]等于0规定索引为j的层不是索引为i的层的直接参考层。direct_dependency_flag[i][j]等于1规定索引为j的层可以是索引为i的层的直接参考层。当direct_dependency_flag[i][j]对于在0到vps_max_num_layers_minus1的范围内的i和j不存在时，推断其等于0。

可以如下得到变量NumDirectRefLayers[i]和RefLayerId[i][j]：

direct_dep_type_len_minus2加上2规定direct_dependency_type[i][j]句法元素的比特数目。direct_dependency_type[i][j]等于0表示可以会用样本预测并且运动预测没有用于来自用j识别的层的用i识别的层。direct_dependency_type[i][j]等于1表示可以使用运动预测并且样本预测没有用于来自用j识别的层的用i识别的层。 direct_dependency_type[i][j]等于2表示样本和运动预测都可以用于来自用j识别的层的用i识别的层。

可以如下得到变量NumSamplePredRefLayers[i]、NumMotionPredRefLayers[i]、SamplePredEnabledFlag[i][j]、MotionPredEnabledFlag[i][j]、NumDirectRefLayers[i]、RefLayerId[i][j]、MotionPredRefLayerId[i][j]和SamplePredRefLayerId[i][j]：

H.264/AVC和HEVC句法实现了参数集合的很多实例，并且每个实例用唯一的标识符识别。在H.264/AVC中，每个切片首部包括对于包含切片的图片的解码有效的图片参数集合的标识符，并且每个图片参数集合包含有效序列参数集合的标识符。因此，图片和序列参数集合的传输不一定实际上与切片的传输同步。相反，在引用之前的任何时刻接收到有效序列和图片参数集合即可，这使得能够使用与用于切片数据的协议相比更可靠的传输机制“在带外”传输参数集合。例如，参数集合可以被包括作为实时传输协议(RTP)会话的会话描述中的参数。如果参数集合在带内传输，则可以对其进行重复以改善错误鲁棒性。

SEI NAL单元可以包含一个或多个SEI消息，其不需要用于输出图片的解码但是帮助相关处理，诸如图片输出定时、渲染、错误检测、错误隐藏和资源预留。H.264/AVC和HEVC中规定了若干SEI消息，并且用户数据SEI消息使得组织和公司能够规定SEI消息用于其自身使用。H.264/AVC和HEVC包含规定的SEI消息的句法和语义，但是没有定义用于处理接受者的消息的过程。因此，当编码器产生SEI消息时，要求编码器符合H.264/AVC标准或HEVC标准，并且分别不要求符合H.264/AVC标准或HEVC标准的解码器处理SEI消息以获得输出顺序一致性。在H.264/AVC或HEVC中包括SEI消息的句法和语义的原因之一是使得不同的系统规范能够一致地解释补充信息并且因此交互操作。意图在于，系统规范可能需要在编码端和解码端二者使用特定SEI消息，并且可选地，可能规定了用于处理接受者的特定SEI消息的过程。

AVC和HEVC标准中已经规定或提出了若干嵌套SEI消息。嵌套SEI消息的思想是在嵌套SEI消息内包含一个或多个SEI消息并且提供用于使得所包含的SEI消息与比特流的子集和/或已解码数据的子集相关联的机制。可能要求嵌套SEI消息包含不是嵌套SEI消息本身的一个或多个SEI消息。嵌套SEI消息中包含的SEI消息可以称为嵌套式SEI消息。没有包含在嵌套SEI消息中的SEI消息可以称为非嵌套式SEI消息。HEVC的可分级嵌套SEI消息使得能够识别嵌套式SEI消息应用于其的比特流子集(由于子比特流提取过程)或者层的集合。比特流子集也可以称为子比特流。

已编码图片是图片的已编码表示。H.264/AVC中的已编码图片包括图片的解码所需要的VCL NAL单元。在H.264/AVC中，已编码图片可以是主要已编码图片或冗余已编码图片。主要已编码图片用在有效比特流的解码过程中，而冗余已编码图片是应当仅在主要已编码图片不能成功解码时被解码的冗余表示。在HEVC中，没有规定冗余已编码图片。

在H.264/AVC和HEVC中，访问单元包括主要已编码图片和与其相关联的NAL单元。在HEVC中，访问单元定义为根据规定的分类规则彼此相关联的NAL单元的集合，这些NAL单元按照解码顺序连续并且仅包含一个已解码图片。在H.264/AVC中，访问单元内的NAL单元的呈现顺序如下约束。可选的访问单元界定符NAL单元可以表示访问单元的开始。之后是零个或多个SEI NAL单元。接下来是主要已编码图片的已编码切片。在H.264/AVC中，主要已编码图片的已编码切片之后可以是零个或多个冗余已编码图片的已编码切片。冗余已编码图片是图片或者图片的部分的已编码表示。如果解码器由于例如传输中的损失或者物理存储介质中的错误而没有接收到主要已编码图片，则可以解码冗余已编码图片。

在H.264/AVC中，访问单元还可以包括辅助已编码图片，其是补充主要已编码图片的图片并且可以例如用在显示过程中。辅助已编码图片例如可以用作规定已解码图片中的样本的透明级别的阿尔法通道或阿尔法平面。阿尔法通道或平面可以用在分层组合或渲染系统中，其中输出图片由在彼此之上至少部分透明的交叠的图片形成。辅助已编码图片与单色冗余已编码图片具有相同的句法和语义约束。在H.264/AVC中，辅助已编码图片包含与主要已编码图片相同的数目的宏块。

在HEVC中，访问单元可以定义为根据规定的分类规则彼此相关联的NAL单元的集合，这些NAL单元按照解码顺序连续，并且包含仅一个已编码图片。除了包含已编码图片的VCL NAL单元，访问单元还可以包含非VCL NAL单元。在HEVC中，访问单元的解码产生已解码图片。

在H.264/AVC中，已编码视频序列定义为从IDR访问单元(含)到下一IDR访问单元(不含)或者到比特流的结尾的按照解码顺序的出现较早的连续的访问单元的序列。在HEVC中，已编码视频序列定义为按照解码顺序包括作为比特流中的第一访问单元的CRA(清洁随机访问)访问单元以及IDR访问单元或BLA(中断链路访问)访问单元(之后是零个或多个非IDR和非BLA访问单元，包括最高达但是不包括任何随后的IDR或BLA访问单元的所有随后的访问单元)的访问单元的序列。

图片组(GOP)及其特性可以如下定义。GOP可以被解码而不管任何在前图片是否被解码。开放式GOP是其中按照输出顺序在初始帧内图片之前的图片在解码从开放式GOP的初始帧内图片开始时不能正确可解码的图片组。换言之，开放式GOP的图片可以指代(在帧间预测中)属于在前GOP的图片。H.264/AVC解码器可以从H.264/AVC比特流中的恢复点SEI消息认识到开始开放式GOP的帧内图片。HEVC解码器可以辨识开始开放式GOP的帧内图片，因为特定的NAL单元类型、CDR NAL单元类型用于其已编码切片。封闭式GOP是其中全部图片在解码从封闭式GOP的初始帧内图片开始时都可以正确解码的图片组。换言之，封闭式GOP中没有任何图片涉及在前GOP中的任何图片。在H.264/AVC和HEVC中，封闭式GOP从IDR访问单元开始。在HEVC中，封闭式GOP也可以从BLA W DLP或者BLA N LP图片开始。因此，封闭式GOP图片与开放式GOP图片相比具有更大的错误恢复潜力，然而是以压缩效率的可能降低为代价。由于在参考图片的选择方面的更大灵活性，开放式GOP编码结构在压缩方面有可能更高效。

H.264/AVC和HEVC的比特流句法表示特定图片是否是用于任何其他图片的帧间预测的参考图片。任何编码类型(I，P，B)的图片可以是H.264/AVC和HEVC中的参考图片或非参考图片。NAL单元首部表示NAL单元的类型以及NAL单元中包含的已编码切片是参考图片还是非参考图片。

很多混合视频编解码器(包括H.264/AVC和HEVC)分两个阶段对视频信息进行编码。在第一阶段，应用预测编码，例如作为所谓的样本预测和/或所谓的句法预测。

在样本预测中，预测某个图片区域或“块”中的像素或样本值。例如可以使用以下方式中的一个或多个方式预测这些像素或样本值：

-运动补偿机制(其也可以称为时间预测或运动补偿时间预测或运动补偿预测或MCP)，其涉及在紧密对应于被编码的块的在前已编码视频帧之一中寻找和指示区域。

-视图间预测，其涉及在紧密对应于被编码的块的在前已编码视图组成之一中寻找和指示区域。

-视图合成预测，其涉及合成其中基于已重构/已解码测距信息来得到预测块的预测块或图像区域。

-层间预测，其使用已重构/已解码样本，诸如所谓的IntraBL(基本层)模式SVC。

-层间残差预测，其中例如可以使用参考层的已编码残差或者来自已重构/已解码参考层图片与对应已重构/已解码增强层图片的差异的所得残差用于预测当前增强层块的残差块。残差块例如可以被添加至运动补偿预测块以获得当前增强层块的最终预测块。

-帧内预测，其中可以通过涉及寻找和指示空间区域关系的空间机制预测像素或样本值。

在也可以称为参数预测的句法预测中，根据早先解码(编码)的句法元素和/或早先得到的变量来预测句法元素和/或句法元素值和/或根据句法元素得到的变量。下面提供句法预测的非限制性示例：

-在运动矢量预测中，可以关于块特定的预测运动矢量不同地对例如帧间和/或视图间预测的运动矢量编码。在很多视频编解码器中，用预定义的方式产生预测运动矢量，例如通过计算相邻块的已编码或已解码运动矢量的中间矢量。产生运动矢量预测(有时称为先进的运动矢量预测(AMVP))的另一方式是根据时间参考图片中的相邻块和/或共同定位的块来生成候选预测的列表并且将所选择的候选作为运动矢量预测符进行信号传输。除了预测运动矢量值，还可以预测先前编码/解码的图片的参考索引。参考索引通常根据时间参考图片中的相邻块和/或共同定位的块来预测。运动矢量的不同编码通常在切片边界上被停用。

-可以预测例如从CTU到CU并且直至PU的块分割。

-在滤波参数预测中，可以预测例如样本自适应偏移的滤波参数。

使用来自先前已编码图像的图像信息的预测方法也可以称为帧间预测方法，其也可以称为时间预测和运动补偿。使用相同图像内的图像信息的预测方法也可以称为帧内预测方法。

第二阶段是对像素或样本的预测块与像素或样本的原始块之间的误差进行编码之一。这可以通过使用规定的变换对像素或样本值的差异进行变换来实现。这一变换可以是例如离散余弦变换(DCT)或其变型。在对差异进行变换之后，对变换后的差异进行量化并且对其进行熵编码。

通过改变量化过程的保真度，编码器可以控制像素或样本表示的准确性(即图片的视觉质量)与所得到的已编码视频表示的大小(即文件大小或传输比特率)之间的平衡。

解码器通过应用类似于编码器所使用的机制的预测机制来重构输出视频以便形成像素或样本块的预测表示(使用由编码器产生并且包括在图像的压缩表示中的运动或空间信息)以及预测误差解码(预测误差编码在空间域中恢复量化后的预测误差信号的逆操作)。

在应用像素或样本预测和误差解码过程之后，解码器将预测和预测误差信号(像素或样本值)组合以形成输出视频帧。

解码器(和编码器)还可以应用另外的滤波处理以便在传递输出视频用于显示和/或存储输出视频作为视频序列中即将到来的图片的预测参考之前改善输出视频的质量。

在很多视频编解码器(包括H.264/AVC和HEVC)中，运动信息用与每个运动压缩图像块相关联的运动矢量来表示。这些运动矢量中的每个运动矢量表示要编码(在编码器中)或解码(在解码器处)的图片中的图像块的位移以及先前已编码或已解码图像(或图片)之一中的预测源块。与很多其他视频压缩标准一样，H.264/AVC和HEVC将图片分为矩形网格，对于每个矩形，参考图片之一中的类似块被表示用于帧间预测。预测块的位置被编码为表示预测块相对于被编码的块的位置的运动矢量。

H.264/AVC和HEVC包括图片顺序计数(POC)的概念。POC的值针对每个图片被得到并且按照输出顺序随着图片位置的增加而不减小。POC因此表示图片的输出顺序。POC可以用在解码过程中例如用于暗示双向预测切片的时间直接模式下的运动矢量的分级，用于加权预测中隐含地得到的权重，并且用于参考图片列表初始化。另外，POC可以用在输出顺序一致性的验证中。在H.264/AVC中，POC相对于在前IDR图片或者包含将所有图片标记为“没有用于参考”的存储器管理控制操作的图片来规定。

帧间预测过程可以使用以下因素中的一个或多个因素被特征化。

运动矢量表示的准确性。例如，运动矢量可以具有四分之一像素准确性，并且可以使用有限脉冲响应(FIR)滤波器获得分数像素位置的样本值。

帧间预测的块分割。很多编码标准(包括H.264/AVC和HEVC)使得能够选择其运动矢量在编码器中应用于运动补偿预测的块的大小和形状，并且在比特流中指示所选择的大小和形状以使得解码器能够再现在编码器中进行的运动补偿预测。

帧间预测的参考图片的数目。帧间预测的源是先前已解码图片。很多编码标准(包括H.264/AVC和HEVC)使得能够存储用于帧间预测的多个参考图片并且使得能够基于块选择所使用的参考图片。例如，在H.264/AVC中可以基于宏块或宏块分割并且在HEVC中可以基于PU或CU选择参考图片。很多编码标准(诸如H.264/AVC和HEVC)在比特流中包括使得解码器能够产生一个或多个参考图片列表的句法结构。到参考图片列表的参考图片索引可以用于表示多个参考图片中的哪个参考图片用于特定块的帧间预测。参考图片索引在某些帧间编码模式下可以被编码器编码到比特流中，或者其在某些其他帧间编码模式下可以(由编码器和解码器)使用例如相邻块来得到。

运动矢量预测。为了在比特流中高效地表示运动矢量，可以关于块特定的预测运动矢量不同地编码运动矢量。在很多视频编解码器中，按照预定义方式产生预测运动矢量，例如通过计算相邻块的已编码或已解码运动矢量的中间矢量。产生运动矢量预测(有时称为先进的运动矢量预测(AMVP))的另一方式是根据时间参考图片中的相邻块和/或共同定位的块来生成候选预测的列表并且将所选择的候选作为运动矢量预测符进行信号传输。除了预测运动矢量值，还可以预测先前编码/解码的图片的参考索引。参考索引通常根据时间参考图片中的相邻块和/或共同定位的块来预测。运动矢量的不同编码通常在切片边界上被停用。

多假设运动补偿预测。H.264/AVC和HEVC使得能够使用P切片(本文中称为单向预测切片)中的单个预测块或者双向预测切片(其也称为B切片)的两个运动补偿预测块的线性组合。B切片中的各个块可以被双向预测、单向预测或者帧内预测，并且P切片中的各个块可以被单向预测或者帧内预测。双向预测图片的参考图片可以不限于按照输出顺序的在后的图片和在前的图片，而可以使用任何参考图片。在很多编码标准(诸如H.264/AVC和HEVC)中，针对P切片构造被称为参考图片列表0的一个参考图片列表，并且针对B切片构造2个参考图片列表(列表0和列表1)。对于B切片，当正向上的预测可以涉及来自参考图片列表0中的参考图片的预测，并且反向上的预测可以涉及来自参考图片列表1中的参考图片的预测时，即使用于预测的参考图片可以关于彼此或者关于当前图片具有任何解码或输出顺序。

加权预测。很多编码标准使用预测权重1用于帧间(P)图片的预测块并且使用预测权重0.5用于B图片的每个预测块(得到平均值)。H.264/AVC使得能够对P切片和B切片二者进行加权预测。在隐含加权预测中，权重与图片顺序计数(POC)成比例，而在明确加权预测中，预测权重被明确指出。

在很多视频编解码器中，运动补偿之后的预测残差首先通过变换核(如DCT)被变换并且然后被编码。这一操作的原因在于，残差之间通常仍然存在某种关联关系并且变换在很多情况下能够帮助减小关联关系并且提供更高效的编码。

在HEVC中，每个PU具有与其相关联的预测信息，其定义要针对PU内的像素应用哪种预测(例如用于帧间预测PU的运动矢量信息以及用于帧内预测PU的帧内预测方向性信息)。类似地，每个TU与描述TU内的样本的预测误差解码过程的信息(包括例如DCT系数信息)相关联。可以在CU级信号传输针对每个CU是否应用预测误差编码。如果没有与CU相关联的预测误差残差，则可以认为没有用于CU的TU。

在一些编码格式和编解码器中，在所谓的短期参考图片和长期参考图片之间做出区分。这一区分可能影响一些解码过程，诸如时间直接模式下的运动矢量分级或者隐含加权预测。如果用于时间直接模式的参考图片都是短期参考图片，则可以根据当前图片与参考图片中的每个图片之间的图片顺序计数差异来对预测中使用的运动矢量进行分级。然而，如果用于时间直接模式的至少一个参考图片是长期参考图片，则可以使用运动矢量的默认分级，可以使用例如将运动分级到一半。类似地，如果使用短期参考图片用于隐含加权预测，则可以根据当前图片的POC与参考图片的POC之间的POC差异对预测权重进行分级。然而，如果使用长期参考图片用于隐含加权预测，则可以使用默认预测权重，诸如用于双向预测块的隐含加权预测的0.5。

一些视频编码格式(诸如H.264/AVC)包括frame_num句法元素，其用于与多个参考图片相关的各种解码过程。在H.264/AVC中，IDR图片的frame_num为0。非IDR图片的frame_num的值等于按照解码顺序增加1的在前参考图片的frame_num(在模运算中，即frame_num的值在frame_num的最大值之后绕至0)。

用于(已解码)参考图片标记的句法结构可以存在于视频编码系统中。例如，当完成图片的解码时，已解码参考图片标记句法结构(如果存在)可以用于自适应地将图片标记为“未用于参考”或者“用于长期参考”。如果已解码参考图片标记句法结构不存在并且被标记为“用于参考”的图片的数目可以不再增加，则可以使用滑动窗口参考图片，其基本上将最早(按照解码顺序)的已解码参考图片标记为未用于参考。

H.264/AVC规定了用于已解码参考图片标记的过程以便控制解码器中的存储器消耗。被称为M的用于帧间预测的参考图片的最大数目在序列参数集合中被确定。当参考图片被解码时，其被标记为“用于参考”。如果参考图片的解码造成多于M个图片被标记为“用于参考”，则至少一个图片被标记为“未用于参考”。有两种类型的用于已解码参考图片标记的操作：自适应存储器控制和滑动窗口。用于已解码参考图片标记的操作模式基于图片来选择。自适应存储器控制实现了明确的信令，其图片被标记为“未用于参考”，并且还向短期参考图片分配长期索引。自适应存储器控制可以要求比特流中存在存储器管理控制操作(MMCO)参数。MMCO参数可以被包括在已解码参考图片标记句法结构中。如果使用滑动窗口操作模式并且有M个图片被标记为“用于参考”，则将作为被标记为“用于参考”的短期参考图片中的第一已解码图片的短期参考图片标记为“未用于参考”。换言之，滑动窗口操作模式在短期参考图片中产生先入先出缓冲操作。

H.264/AVC中的存储器管理控制操作之一造成除当前图片以外的所有参考图片被标记为“未用于参考”。瞬时解码刷新(IDR)图片仅包含帧内编码切片并且造成参考图片的类似“重置”。

在HEVC中，使用参考图片集合(RPS)句法结构取代参考图片标记句法结构和相关的解码过程，并且取而代之出于类似目的使用解码过程。对于图片有效或活动的参考图片包括针对图片用作参考的所有参考图片以及针对按照解码顺序的任何随后图片保持被标记为“用于参考”的所有参考图片。有参考图片集合的6个子集，其被称为RefPicSetStCurr0(又称RefPicSetStCurrBefore)、RefPicSetStCurr1(又称RefPicSetStCurrAfter)、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll。RefPicSetStFoll0和RefPicSetStFoll1也可以被认为联合形成一个子集RefPicSetStFoll。6个子集的注释如下。“Curr”指被包括在当前图片的参考图片列表中并且因此可以用作当前图片的帧间预测参考的参考图片。“Foll”指没有被包括在当前图片的参考图片列表中但是可以在按照解码顺序的在后图片中用作参考图片的参考图片。“St”指短期参考图片，其通常可以通过其POC值的某个数目的最低有效位来识别。“Lt”指长期参考图片，其具体地被识别并且通常与可以用所提及的某个数目的最低有效位表示的相比关于当前图片具有更大的POC值差异。“0”指比当前图片具有更小的POC值的参考图片。“1”指比当前图片具有更大POC值的参考图片。RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0和RefPicSetStFoll1统称为参考图片集合的短期子集。RefPicSetStCurr和RefPicSetStFoll统称为参考图片集合的长期子集。

在HEVC中，可以在图片参数集合中规定参考图片集合并且通过到参考图片集合的索引将其用在切片首部中。参考图片集合也可以在切片首部中规定。参考图片集合的长期子集通常仅在切片首部中规定，而相同的参考图片集合的短期子集可以在图片参数集合或切片首部中规定。参考图片集合可以独立地被编码或者可以根据另一参考图片集合来预测(被称为帧间RPS预测)。当参考图片集合被独立编码时，句法结构总共包括在不同类型的参考图片上迭代的3个回路——POC值比当前图片低的短期参考图片、POC值比当前图片高的短期参考图片以及长期参考图片。每个回路条目规定要被标记为“用于参考”的图片。通常，图片用不同的POC值来规定。帧间RPS预测采用以下事实：可以根据先前已解码图片的参考图片集合来预测当前图片的参考图片集合。这是因为当前图片的所有参考图片是在前图片的参考图片或者是先前已解码图片本身。仅需要表明这些图片中的哪些图片应当是参考图片以及用于当前图片的预测。在两种类型的参考图片集合编码中，针对每个参考图片另外发送指示参考图片是(被包括在*Curr列表中)否(被包括在*Foll列表中)用于当前图片的参考的标记(used_by_curr_pic_X_flag)。被包括在由当前切片使用的参考图片集合中的图片被标记为“用于参考”，而没有在由当前切片使用的参考图片集合中的图片被标记为“未用于参考”。如果当前图片是IDR图片，则RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll全部设置为空。

已解码图片缓冲器(DPB)可以用在编码器和/或解码器中。缓冲已解码图片的原因有两个：为了帧间预测中的参考以及用于将已解码图片重新排序成输出顺序。由于H.264/AVC和HEVC提供参考图片标记和输出重新排序的更大的灵活性，所以用于参考图片缓冲和输出图片缓冲的单独的缓冲器可能浪费存储器资源。因此，DPB可以包括用于参考图片和输出重新排序的统一的已解码图片缓冲过程。当已解码图片不再用作参考并且不需要用于输出时，可以将已解码图片从DPB去除。

在H.264/AVC和HEVC的很多编码模式中，用到参考图片列表的索引来指示帧间预测的参考图片。索引可以用CABAC或可变长度编码来进行编码。通常，索引越小，对应句法元素可以变得越短。在H.264/AVC和HEVC中，针对每个双向预测(B)切片生成2个参考图片列表(参考图片列表0和参考图片列表1)，并且针对每个帧间编码(P)切片形成1个参考图片列表(参考图片列表0)。另外，对于HEVC标准的草拟版本中的B切片，可以在构造最终参考图片列表(列表0和列表1)之后构造组合列表(列表C)。组合列表可以用于B切片内的单向预测(也称为单方向预测)。然而，在最终H.265/AVC标准中，没有构造组合列表。

参考图片列表(诸如参考图片列表0和参考图片列表1)可以用两个步骤来构造：首先，生成初始参考图片列表。初始参考图片列表例如可以基于frame_num、POC、temporal_id或者与预测层级有关的信息(诸如GOP结构)、或者其任意组合来生成。其次，可以通过参考图片列表记录(RPLR)命令来记录初始参考图片列表，RPLR命令也称为参考图片列表修改句法结构，其可以被包含在切片首部中。RPLR命令表示被排序为相应参考图片列表的开始的图片。这一第二步骤也可以称为参考图片列表修改过程，并且RPLR命令可以被包括在参考图片列表修改句法结构中。如果使用参考图片集合，则参考图片列表0可以被初始化以首先包含RefPicSetStCurr0，之后是RefPicSetStCurr1、之后是RefPicSetLtCurr。参考图片列表1可以被初始化以首先包含RefPicSetStCurr1，之后是RefPicSetStCurr0。可以通过参考图片列表修改句法结构来修改初始参考图片列表，其中可以通过到列表的条目索引来识别初始参考图片列表中的图片。

由于多视图视频向编码器和解码器提供使用视图间冗余的可能性，所以可以将已解码视图间帧也包括在参考图片列表中。

下面的段落中提供运动矢量预测方案和相关编码模式的示例。

除了差分运动矢量被编码的运动补偿宏块模式，在H.264/AVC中，P宏块也可以在所谓的P_Skip类型中被编码。对于这一编码类型，没有不同的运动矢量、参考索引或量化预测误差信号被编码到比特流中。使用P_Skip类型被编码的宏块的参考图片在参考图片列表0中的索引为0。用于重构P_Skip宏块的运动矢量使用宏块的中间运动矢量预测来获得而没有添加任何不同的运动矢量。P_Skip特别是在其中运动场平滑的区域中可以有益于压缩效率。

在H.264/AVC的B切片中，支持4种不同类型的帧间预测：来自参考图片列表0的单向预测、来自参考图片列表1的单向预测、双向预测、直接预测和B_skip。可以针对每个宏块分割单独地选择帧间预测的类型。B切片使用与P切片类似的宏块分割。对于双向预测宏块分割，预测信号由运动补偿列表0和1预测信号的加权平均来形成。可以针对单向预测和双向预测B宏块分割对参考索引、运动矢量差异以及量化预测误差信号进行编码。

H.264/AVC中包括2个直接模式：时间直接和空间直接，并且其中之一可以被选择用于切片首部中的切片，然而其使用例如在配置文件等中可以被进一步约束。在时间直接模式下，参考图片列表1的参考索引设置为0，并且参考图片列表0的参考索引设置为指向在参考图片列表1中索引为0的参考图片的共同定位的块(与当前块cb相比较)中使用的参考图片(如果该参考图片可用)，或者被设置为0(如果该参考图片不可用)。cb的运动矢量预测符基本上通过将参考图片列表1中索引为0的参考图片的共同定位的块内的运动信息考虑在内来得到。时间直接块的运动矢量预测符通过分级来自共同定位的块的运动矢量来得到。分级与当前图片和与列表0和列表1中的推断参考索引相关联的参考图片之间的图片排序计数差异成比例，并且通过取决于其使用的参考图片列表选择运动矢量预测符的符号来实现。

在H.264/AVC的空间直接模式下，采用空间上相邻的块的运动信息。可以将空间直接模式下的运动矢量预测分为三个步骤：参考索引确定、单向或双向预测的确定以及运动矢量预测。在第一步骤中，从相邻的块A、B和C(其中A是在当前块的左侧的相邻块，B是在当前块的上方的相邻块，C是在当前块的右上方的相邻块)的参考图片列表0和参考图片列表1中的每个参考图片列表中选择具有最小非负参考索引的参考图片(即非帧内块)。如果相邻块A、B和C的参考图片列表0中不存在任何非负参考索引，并且相邻块A、B和C的参考图片列表1中同样不存在非负参考索引，则选择参考索引0用于两个参考图片列表。

如下来确定用于H.264/AVC空间直接模式的单向或双向预测的使用：如果在参考索引确定步骤找到用于两个参考图片列表的最小非负参考索引，则使用双向预测。如果在参考索引确定步骤中找到用于参考图片列表0或参考图片列表1中的一者而非两者的最小非负参考索引，则相应地使用来自参考图片列表0或参考图片列表1的单向预测。

在用于H.264/AVC空间直接模式的运动矢量预测中，检查某些条件(诸如在第一步骤中是否得出负的参考索引)，并且如果满足，则确定零运动矢量。否则，类似于P块的运动矢量预测符使用空间上相邻的块A、B和C的运动矢量得到运动矢量预测符。

H.264/AVC中的直接模式块的比特流中不存在任何运动矢量差异或参考索引，而可以对量化预测误差信号编码并且其因此存在于比特流中。H.264/AVC中的B_skip宏块模式类似于直接模式，但是没有对预测误差信号编码并且其也没有被包括在比特流中。

H.265/AVC包括2个运动矢量预测方案，即先进的运动矢量预测(AMVP)和合并模式。在AMVP或合并模式下，针对PU得到运动矢量候选的列表。有两种候选：空间候选和时间候选，其中时间候选也可以称为TMVP候选。

例如可以如下执行候选列表的取得，然而应当理解，存在用于候选列表取得的其他可能性。如果候选列表的占用不是最大，则在空间候选可用并且没有存在于候选列表中的情况下首先将空间候选包括在候选列表中。之后，如果候选列表的占用尚未最大，则在候选列表中包括时间候选。如果候选的数目仍然没有达到最大允许数目，则添加组合的双向预测候选(用于B切片)和零运动矢量。在构造候选列表之后，编码器例如基于速率失真优化(RDO)决定来决定来自候选的最终运动信息并且将所选择的候选的索引编码到比特流中。同样，解码器从比特流中解码所选择的候选的索引，构造候选列表，并且使用已解码索引从候选列表中选择运动矢量预测符。

在H.265/AVC中，AMVP和合并模式可以如下被特征化。在AMVP中，编码器指示使用单向预测还是双向预测以及使用哪些参考图片并且对运动矢量差异进行编码。在合并模式下，仅将来自候选列表的所选择的候选编码到比特流中，以指示当前预测单元与所指示的预测符具有相同的运动信息。因此，合并模式产生包括共享相同的运动信息(其针对每个区域仅被信号传输一次)的相邻预测块的区域。在H.265/AVC中，AMVP与合并模式之间的另一差异在于，AMVP的最大候选数目为2，而合并模式的最大候选数目为5。

先进的运动矢量预测例如可以如下操作，然而先进的运动矢量预测的其他类似的实现也是可能的，例如候选位置集合不同以及具有候选位置集合的候选位置不同。可以得到2个空间运动矢量预测符(MVP)，并且可以得到时间运动矢量预测符(TMVP)。它们可以在以下位置之间进行选择：位于当前预测块上方的3个空间运动矢量预测符候选位置(B0，B1，B2)以及在左侧的两个空间运动矢量预测符候选位置(A0，A1)。可以选择按照每个候选位置集合(B0，B1，B2)或(A0，A1)的预定义的顺序可用(例如驻留在相同的切片中，被帧间编码等)的第一运动矢量预测符以表示运动矢量竞争中的预测方向(向上或者向左)。时间运动矢量预测符的参考索引可以由编码器在切片首部中表示(例如作为collocated_ref_idx句法索引)。可以根据时间运动矢量预测符的参考图片、共同定位的图片和当前图片的图片顺序计数差异的比例来对从共同定位的图片获得的运动矢量进行分级。另外，可以在候选之间执行冗余校验以去除相同的候选，这可以产生将零运动矢量包括在候选列表中。例如可以通过表示空间运动矢量预测符的方向(向上或者向左)或者时间运动矢量预测符候选的选择来在比特流中表示运动矢量预测符。

合并/合并模式/过程/机制例如可以如下操作，然而合并模式的其他类似的实现也是可能的，例如候选位置集合不同以及具有候选位置集合的候选位置不同。

在合并/合并模式/过程/机制中，其中块/PU的所有运动信息被预测并且被使用而没有任何修改/校正。前述PU的运动信息可以包括以下各项中的一项或多项：1)关于“仅使用参考图片列表0来单向预测PU”还是“仅使用参考图片列表1来单向预测PU”还是“使用参考图片列表0和列表1二者来双向预测PU”的信息；2)对应于参考图片列表0的运动矢量值，其可以包括水平和竖直运动矢量分量；3)参考图片列表0中的参考图片索引和/或由对应于参考图片列表0的运动矢量指向的参考图片的标识符，其中参考图片的标识符可以是例如图片顺序计数值、层标识符值(对于层间预测)、或者一对图片顺序计数值和层标识符值；4)参考图片的参考图片标记的信息，例如关于参考图片被标记为“用于短期参考”还是“用于长期参考”的信息；5)-7)分别与2)-4)相同，但是用于参考图片列表1。

类似地，使用时间参考图片的相邻块和/或共同定位的块的运动信息来执行运动信息。可以通过包括与可用的相邻的/共同定位的块相关联的运动预测候选来构造通常称为合并列表的列表，并且列表中的所选择的运动预测候选的索引被信号传输并且所选择的候选的运动信息被复制到当前PU的运动信息。当合并机制用于整个CU并且用于CU的预测信号用作重构信号(即没有处理预测残差)时，对CU的这种类型的编码/解码通常称为跳跃模式或者基于合并的跳跃模式。除了跳跃模式，合并机制也可以用于各个PU(不一定是如跳跃模式下的整个CU)，并且在这种情况下，可以使用预测残差来改善预测质量。这种类型的预测模式通常称为帧间合并模式。

用于AMVP的合并列表和/或候选列表或者任何类似运动矢量候选列表中的候选之一可以是TMVP候选等，其可以从所指示或者所推断的参考图片(诸如例如在切片首部中指示的参考图片)内的共同定位的块来得到。在HEVC中，根据切片首部中的collocated_from_10_flag句法元素选择要用于获取共同定位的分割的参考图片列表。当标志等于1时，其规定从列表0得到包含共同定位的分割的图片，否则从列表1得到图片。当collocated_from_10_flag不存在时，推断其等于1。切片首部中的collocated_ref_idx规定包含共同定位的分割的图片的参考索引。在当前切片为P切片时，collocated_ref_idx指列表0中的图片。在当前切片为B切片时，collocated_ref_idx在collocated_from_10为1的情况下指列表0中的图片，否则指列表1中的图片。collocated_ref_idx通常指有效列表条目，并且所得到的图片对于已编码图片的所有切片而言是相同的。当collocated_ref_idx不存在时，推断其等于0。

在HEVC中，当运动编码模式是合并模式时，合并列表中的时间运动矢量预测的所谓的目标参考索引设置为0。当使用时间运动矢量预测的HEVC中的运动编码模式是先进的运动矢量预测模式时，明确地指示目标参考索引值(例如每个PU)。

在HEVC中，可以如下确定候选预测运动矢量(PMV)的可用性(用于空间候选和时间候选二者)(SRTP＝短期参考图片，LRTP＝长期参考图片)：

在HEVC中，如果已经确定目标参考索引值，则可以如下得到时间运动矢量预测的运动矢量值：获取与当前预测单元的右下侧邻居共同定位的块处的运动矢量PMV。例如可以根据切片首部中的信号传输的参考索引来确定共同定位的块驻留在其中的图片，如以上所描述的。如果位置C0处的PMV不可用，则获得共同定位的图片的位置C1处的运动矢量PMV。关于第一图片顺序计数差异和第二图片顺序计数差异的比例对共同定位的块处的所确定的可用运动矢量PMV进行分级。第一图片顺序计数差异在包含共同定位的块的图片与共同定位的块的运动矢量的参考图片之间来得到。第二图片顺序计数差异在当前图片与目标参考图片之间来得到。如果目标参考图片和共同定位的块的运动矢量的参考图片中的一者而非两者是长期参考图片(而另一者为短期参考图片)，则可以认为TMVP候选不可用。如果目标参考图片和共同定位的块的运动矢量的参考图片二者均为长期参考图片，则可以不应用基于POC的运动矢量分级。

运动参考类型或运动信息可以包括但不限于以下类型中的一个或多个类型：

-预测类型的指示(例如帧内预测、单向预测、双向预测)和/或参考图片的数目；

-预测方向的指示，诸如帧间(又称时间)预测、层间预测、视图间预测、视图合成预测(VSP)和组成间预测(其可以每个参考图片和/或每个预测类型被指示并且其中在一些实施例中可以将视图间预测和视图合成预测联合当作一个预测方向)，和/或参考图片类型的指示，诸如短期参考图片和/或长期参考图片和/或层间参考图片(其可以例如每个参考图片被指示)

-到参考图片列表的参考索引和/或参考图片的任何其他标识符(其可以例如每个参考图片被指示并且其类型可以取决于预测方向和/或参考图片类型并且其可以伴随有其他相关信息，诸如参考索引应用于其的参考图片列表等)；

-水平运动矢量分量(其可以例如每个预测块或者每个参考索引等被指示)；

-竖直运动矢量分量(其可以例如每个预测块或者每个参考索引等被指示)；

-一个或多个参数，诸如图片顺序计数差异和/或包含运动参数的图片或者与运动参数相关联的图片与其参考图片之间的相关相机分离，其可以用于在一个或多个运动矢量预测过程中分级水平运动矢量分量和/或竖直运动矢量分量(其中所述一个或多个参数可以例如每个参考图片或者每个参考索引等被指示)；

-运动参数和/或运动信息应用于其的块的坐标，例如以量度样本为单位的块的左上侧样本的坐标；

-运动参数和/或运动信息应用于其的块的范围(例如宽度和高度)。

通常，运动矢量预测机制(诸如以上被呈现作为示例的运动矢量预测机制)可以包括某些预定义的或者所指示的运动参数的预测或继承。

可以认为与图片相关联的运动场包括针对图片的每个已编码块产生的运动信息的集合。运动场例如可以通过块的坐标可访问。运动场例如可以用在TMVP中或者其中使用用于预测而非当前已编码(已解码)图片的源或参考的任何其他运动预测机制中。

可以应用不同的空间粒度或单元来表示和/或存储运动场。例如，可以使用空间单元的规则网格。例如，可以将图片分为某个大小的矩形块(可能的例外的块在图片的边缘处，诸如在右侧边缘和底部边缘上)。例如，空间单元的大小可以等于编码器能够在比特流中表示的不同运动的最小大小，诸如亮度样本单元中的4x4块。例如，可以使用所谓的已压缩运动场，其中空间单元可以等于预定义的或者所表示的大小，诸如亮度样本单元中的16x16块，其大小可以大于用于表示不同运动的最小大小。例如，可以用如下方式实现HEVC编码器和/或解码器：该方式使得能够针对每个已解码运动场执行运动数据存储减小(MDSR)或运动场压缩(先于使用运动场用于图片之间的任何预测)。在HEVC实现中，MDSR可以通过将运动保持可用于已压缩运动场中的16x16块的左上侧样本来将运动数据的粒度减小为亮度样本单元中的16x16块。编码器可以将与已压缩运动场的空间单元相关的指示编码为例如序列级句法结构中的一个或多个句法元素和/或句法元素值，诸如视频参数集合或序列参数集合。在一些编码(解码)方法和/或设备中，可以根据运动预测的块分割(例如根据HEVC标准的预测单元)来表示和/或存储运动场。在一些编码(解码)方法和/或设备中，可以应用规则网格和块分割的组合使得分割大于预定义的或者所指示的空间单元大小的运动能够与这些分割相关联地被表示和/或存储，而与分割小于预定义的或者所指示的空间单元大小或者未与其对准的运动能够针对预定义的或者所指示的单元被表示和/或存储。

在HEVC中，已经做出若干改进以使得编解码器能够更好地使用并行性，即编码和/或解码任务的并行处理，从而更可靠地使用现代多核处理器架构。虽然切片原则上可以用于并行化解码器，然而采用切片用于并行性通常产生相对较差的编码效率。已经向HEVC引入波前处理的概念以改善并行性的使用。

为了实现波前处理，编码器和/或解码器使用在前CTU行中的第二CTU的CABAC状态作为当前CTU行的初始CABAC状态。因此，可以在在前CTU的第二CTU的处理完成之后开始当前CTU行的处理。由于这一属性，可以用并行方式来处理CTU行。通常，例如可以在编码标准中预先定义哪个CTU用于传递CTU的在前行的熵编码(解码)状态，或者可以由编码器在比特流中确定和指示和/或由解码器从比特流解码。

HEVC中的波前处理可以在两个并行化方法(波前并行处理(WPP)和交叠的波前(OWF))中使用。WPP使得能够产生可以并行处理而没有出现高的编码损失的图片分割。

WPP并行地处理编码树单元(CTU)的行，同时保留所有的编码依赖性。在WPP中，可以在单个处理步骤中应用熵编码、预测编码以及回路内滤波，其使得WPP的实现更加直接。OWF使得能够将连续图片的执行交叠。在当前图片中的编码树单元的当前处理已经完成并且没有另外的行可用时，可以开始下一图片的处理而非等待当前图片完成。

当已经针对波前处理约束了已编码图片时或者当已经使用瓦片时，可以在比特流中将CTU行或瓦片(分别)字节对准并且可以在其之前放置开始代码。另外地，可以在比特流中(例如在切片首部中)和/或在外部(例如在包含文件中)提供进入点。进入点是到CTU行(用于波前实现的已编码图片)或瓦片的开始的字节指针或者字节计数或者类似的直接参考机制。在HEVC中，可以使用切片首部的entry_point_offset_minus1[i]来规定进入点。在HEVC文件格式(ISO/IEC 14496-15)中，子样本信息盒可以提供进入点的信息。在一些场景中，依赖性切片分段的使用可以很有用，其取代或者补充进入点。例如可以在已编码图片被约束用于波前处理时针对CTU行形成依赖性切片分段，并且因此可以使用依赖性切片分段NAL单元的开始来确定CTU行边界。

很多视频编码标准规定了比特流的缓冲模型和缓冲参数。这样的缓冲模型可以称为假设参考解码器(HRD)或视频缓冲验证器(VBV)。标准的符合比特流兼容缓冲参数的集合在对应标准中规定的缓冲模型。用于比特流的这样的缓冲参数可以被明确地或者隐含地信号传输。“隐含地信号传输”表示例如默认缓冲参数值符合配置文件和级别应用。使用HRD/VBV参数等对符合比特流的比特率变化强加约束。

视频编码标准使用可变比特率编码，其例如由编码器在用于压缩视频帧的帧内和帧间编码技术之间自适应地选择的灵活性造成。为了处理已压缩视频的比特率变化的波动，可以在编码器和解码器侧使用缓冲。可以将假设参考解码器(HRD)认为是规定对编码过程可以产生的符合比特流、符合NAL单元流或符合类型流中的可变性的约束的假设解码器模型。

如果比特流能够被HRD解码而没有缓冲器上溢或者在某些情况下下溢，则比特流是兼容的。如果在缓冲器满时要向缓冲器中放置更多比特，则发生缓冲器上溢。如果在要从缓冲器取回一些比特用于解码/回放时缓冲器中没有所述比特，则发生下溢。

HRD可以是编码器的部分或者在操作上连接至编码器的输出。可以使用缓冲占用和可能的其他HRD信息来控制编码过程。例如，如果HRD中的已编码数据缓冲器可能要上溢，则例如可以通过增加量化器步长来减小编码比特率。

HRD的操作可以用HRD参数来控制，诸如缓冲器大小和初始延迟。可以产生HRD参数值作为被包括或者在操作上连接至编码的HRD过程的部分。替选地，可以与编码单独地生成HRD参数，例如在HRD验证器中，HRD验证器通过所规定的HRD过程来处理输入比特流并且生成比特流符合的这样的HRD参数值。HRD验证器的另一使用是验证给定的比特流以及给定的HRD参数实际上产生符合的HRD操作和输出。

HRD一致性检查可以涉及例如以下两种类型的比特流：第一种类型的比特流(称为类型I比特流)是仅包含比特流中的所有访问单元的VCL NAL单元和滤波数据NAL单元的NAL单元流。第二类型的比特流(称为类型II比特流)除了比特流中的所有访问单元的VCL NAL单元和滤波数据NAL单元还包含另外的非VCL NAL单元而非滤波数据NAL单元和/或根据NAL单元流形成字节流的句法元素、诸如leading_zero_8bits、zero_byte、start_code_prefix_one_3bytes和trailing_zero_8bits。

可以使用两种类型的HRD参数(NAL HRD参数和VCL HRD参数)。HRD参数可以通过被包括在序列参数集合句法结构中的视频可用性信息来表示。HRD参数例如可以包括缓冲器大小和输入比特率。

可以在比特流中(通过非VCL NAL单元)或者通过带外手段从比特流外部(例如使用信令机制，诸如被包括在例如根据会话描述协议(SDP)格式化的会话描述的介质行中的介质参数)来将缓冲和图片定时参数(例如被包括在VCL NAL单元中提及的序列参数集合和图片参数集合中或者在缓冲周期和图片定时SEI消息中)及时地传达给HRD。出于对HRD中的比特进行计数的目的，可以仅对比特流中实际存在的适当比特进行计数。当借助于除比特流内的存在之外的其他手段来针对应用传达非VCL NAL单元的内容时，非VCL NAL单元的内容的表示可以或者可以不使用在比特流中存在非VCL NAL单元的情况下所使用的相同的句法。

HRD可以包含已编码图片缓冲器(CPB)、瞬时解码过程、已解码图片缓冲器(DPB)和输出剪裁(cropping)。

CPB可以基于解码单元来操作。解码单元可以是访问单元或者可以是访问单元的子集，诸如整数个NAL单元。编码器可以确定解码单元例如是瓦片或CTU行(当应用实现波前处理的编码约束时)。当解码单元是图片的子集时，可以实现编码和解码中的更低延迟(latency)。解码单元的选择可以由编码器在比特流中表示。例如，解码单元SEI消息可以如下表示解码单元：与解码单元信息SEI消息相关联的NAL单元的集合按照解码顺序包括包含解码单元信息SEI消息的SEI NAL单元以及访问单元中的所有随后的NAL单元最高达而不包括任何随后的包含解码单元信息SEI消息的SEI NAL单元。可以要求每个解码单元包括至少一个VCL NAL单元。与VCL NAL单元相关联的所有非VCL NAL单元可以被包括在包含VCLNAL单元的解码单元中。

HRD可以如下操作。可以通过假设流调度器(HSS)来递送与根据规定的到达调度流入CPB中的解码单元相关联的数据。到达调度可以由编码器来确定并且例如通过图片定时SEI消息来表示，和/或到达调度可以例如基于比特率来得到，其例如可以被表示为视频可用性信息(其可以被包括在序列参数集合中)中的HRD参数的部分。视频可用性信息中的HRD参数可以包含很多参数集合，每个集合用于不同的比特率或者递送调度。与每个解码单元相关联的数据可以在CPB去除时间通过瞬时解码过程被瞬时去除和解码。CPB去除时间例如可以使用初始CPB缓冲延迟来确定，初始CPB缓冲延迟可以由编码器确定并且通过例如缓冲周期SEI消息表示，并且例如通过图片定时SEI消息针对每个图片表示不同的去除延迟。每个第一解码单元的初始到达时间(即第一比特的到达时间)可以确定为0。任何随后的解码单元的到达时间可以确定为等于在前解码单元的最终到达时间。每个已解码图片可以放置在DPB中。可以在DPB输出时间或者其变得不再需要用于帧间预测参考的稍后将已解码图片从DPB去除。因此，HRD的CPB的操作可以包括：解码单元初始到达的定时(当解码单元的第一比特进入CPB时)、解码单元去除的定时以及解码单元的解码，而HRD的DPB的操作可以包括图片从DPB的去除、图片输出以及当前已解码图片标记和存储。

可以如下用简化方式来描述HRD中基于AU的已编码图片缓冲的操作。假定比特以恒定的到达比特率到达CPB中(当没有使用所谓的低延迟模式时)。因此，已编码图片或访问单元与初始到达时间相关联，初始到达时间表示已编码图片或者访问单元的第一比特何时进入CPB。另外，在低延迟模式下，假定已编码图片或访问单元在已编码图片或访问单元的最后比特被插入到CPB中并且相应已解码图片因此被插入DPB中时瞬时被去除，从而模拟瞬时解码。这一时间称为已编码图片或访问单元的去除时间。已编码视频序列的第一已编码图片的去除时间通常例如通过缓冲周期补充增强信息(SEI)消息来控制。这一所谓的初始已编码图片去除延迟确保了关于用于填充CPB的恒定比特率的已编码比特率的任何变化不会造成CPB的饥饿或上溢。应当理解，CPB的操作在某种程度上比这里所描述的更复杂，例如具有低延迟操作模式以及在很多不同的恒定比特率下操作的能力。另外，在不同的标准中可以不同地规定CPB的操作。

当比特流在IRAP图片处开始时，例如由于随机地访问文件或流并且从IRAP图片开始解码或者变为广播，按照解码顺序在IRAP图片之后并且按照输出顺序在其之前可以存在前导图片(RADL和/或RASL图片)。能够丢弃或者省略在RAP图片之后的这些前导图片的解码而没有影响解码操作，因为这些前导图片对任何其他图片的解码过程没有任何影响。

HEVC的缓冲周期SEI消息支持表示初始缓冲延迟和初始缓冲延迟偏移参数的两个集合，其可以例如在IRAP图片处信号传输。一个值集合规定在比特流中存在与IRAP图片(缓冲周期SEI消息与其相关联)相关联的前导图片时所需要的初始缓冲。其他值集合规定先于通过HSS调度和/或将其输入CPB当比特流中不存在前导图片时所需要的初始缓冲。可以要求通过用于在缓冲周期SEI消息中提供的缓冲参数的两个集合的HRD来验证HRD操作。

使用DPB等来控制解码一致比特流所需要的存储器资源。缓冲已解码图片有两个原因：用于在预测中参考以及用于将已解码图片重新排序成输出顺序。由于H.264/AVC和HEVC提供参考图片标记和输出重新排序二者的灵活性的详细细节，所有用于参考图片缓冲和输出图片缓冲的单独的缓冲器浪费存储器资源。因此，DPB包括用于参考图片和输出重新排序的统一的已解码图片缓冲过程。可以在已解码图片不再用作参考并且不再需要用于输出时将已解码图片从DPB去除。

在输出裁剪中，可以根据裁剪矩形从已解码图片去除样本的行和/或列以形成输出图片。在HEVC中，基于在由对应已编码图片引用的SPS中规定的一致性裁剪窗口来定义已裁剪已解码图片作为已解码图片的裁剪的结果。如在HEVC中规定的解码过程，一致解码器需要产生在数字上相同的已裁剪已解码图片。HEVC的输出裁剪产生已裁剪已解码图片。

HRD可以用于检查比特流和解码器的一致性。

HRD的比特流一致性要求可以包括例如以下内容等。要求CPB不上溢(相对于例如库在视频可用性信息的HRD参数中表示的大小)或下溢(即解码单元的去除时间不能小于该解码单元的最后比特的到达时间)。可以要求DPB中图片的数目小于或等于某个最大数目，最大数目可以例如在序列参数集合中规定。可以要求所有用作预测参考的图片存在于DPB中。可以要求用于从DPB输出连续图片的间隔不小于某个最小值。

HRD的解码器一致性要求可以包括例如以下内容等。可以要求与特定配置文件和级别的解码器声明一致性以成功解码针对解码器一致性规定的所有一致比特流，假定在VCL NAL单元中提及的所有序列参考集合和图片参考集合以及适当的缓冲周期和图片定时SEI消息在比特流中(通过非VCL NAL单元)或者通过外部手段被及时地传达给解码器。解码器可以声明的有两种类型的一致性：输出定时一致性和输出顺序一致性。

为了检查解码器的一致性，可以由假设流调度器(HSS)向HRD和待测解码器(DUT)二者递送符合声明的配置文件和级别的测试比特流。也可以要求HRD输出的所有图片由DUT输出，并且对于由HRD输出的每个图片，还可以要求由DUT输出用于对应图片的所有样本的值等于由HRD输出的样本的值。

对于输出定时解码器一致性，HSS可以例如通过从视频可用性信息的HRD参数中表示的递送调度中选择的递送调度或者通过“内插的”递送调度来操作。可以针对HRD和DUT二者使用相同的递送调度。对于输出定时解码器一致性，可以要求图片输出的定时(相对于第一比特的递送时间)对于HRD和DUT相同最高达固定延迟。

对于输出顺序解码器一致性，HSS可以根据来自DUT的“需求”向DUT递送比特流，表示HSS仅在DUT需要更多比特以继续进行其处理时递送比特(按照解码顺序)。HSS可以通过比特流中规定的调度之一向HRD递送比特流以使得比特率和CPB大小受到限制。可以要求图片输出的顺序对于HRD和DUT相同。

在可分级视频编码中，可以将视频信号编码到基本层以及一个或多个增强层中。增强层可以增强时间分辨率(即帧速率)、空间分辨率，或者简单地增强由另一层或者其部分表示的视频内容的质量。每个层连同其所有依赖性层是视频信号在某个空间分辨率、时间分辨率和质量水平下的一个表示。在本文档中，将可分级层连同其所有依赖性层称为“可分级层表示”。可以提取对应于可分级层表示的可分级比特流的部分并且对其进行解码以产生原始信号在某个保真度下的表示。

下面，在任何类型的可分级性的上下文中使用术语层，包括视图可分级性和深度增强。增强层是指任何类型的增强，诸如SNR、空间、多视图、深度、比特深度、色度格式和/或颜色饱和度增强。基本层也指任何类型的基本操作点，诸如基本视图、SNR/空间可分级性的基本层、或者深度增强的视频编码的纹理基本视图。

可分级视频编码(解码)可以通过被称为单回路解码的概念来实现，其中仅针对最高层重构已解码参考图片而更低层的图片可以完全不解码或者可以在使用其用于层间预测之后将其丢弃。在单回路解码中，解码器仅针对期望用于回放的可分级层(称为“期望层”或“目标层”)执行运动补偿和全图片表示，从而与多回路解码相比减小解码复杂性。除了期望层之外的所有层不需要完全解码，因为已编码图片数据的全部或部分不需要用于期望层的重构。然而，更低层(与目标层相比)可以用于层间句法或参数预测，诸如层间运动预测。另外地或者替选地，更低层可以用于层间帧内预测并且因此可能必须解码更低层的帧内编码块。另外地或者替选地，可以映射层间残差预测，其中更低层的残差信息可以用于目标层的解码并且可能需要对残差信息解码或重构。在一些编码布置中，需要单个解码回路用于解码多数图片，而第二解码回路可以选择性地应用以重构所谓的基本表示(即已解码基本层图片)，其可能被需要作为预测参考而不用于输出或显示。

下面描述H.264/AVC标准的SVC扩展的一些方面作为可分级视频编码标准的示例。

SVC包括支持粗粒度质量和空间可分级性(CGS)、中间粒度质量可分级性(MGS)和时间可分级性。在一些可分级视频编码方案中，可以在某个位置之后或者甚至在任意位置处截短增强层中的数据，其中每个截短位置可以包括表示增加的增强的视觉质量的另外的数据。这样的可分级性称为细粒度(间隔尺寸)可分级性(FGS)。FGS包括在SVC标准的一些草拟版本中，但是其实际上从最终SVC标准排除。FGS基本上在SVC标准的一些草拟版本的上下文中讨论。由不能截短的增强层提供的可分级性称为粗粒度(间隔尺寸)可分级性(CGS)。其笼统包括传统的质量(SNR)可分级性和空间可分级性。SVC标准支持所谓的中间粒度可分级性(MGS)，其中质量增强图片类似于SNR可分级层图片被编码但是类似于FGS层图片用高层句法元素来表示(通过使得quality_id句法元素大于0)。

SVC使用层间预测机制，其中可以根据除了当前已重构层或下一更低层之外的层来预测某些信息。可以层间预测的信息包括帧内纹理、运动和残差数据。层间运动预测包括块编码模式的预测、首部信息等，其中来自更低层的运动可以用于更高层的预测。如果是帧内编码，则来自周围宏块或者来自更低层的共同定位的宏块的预测是可能的。这些预测技术没有采用来自更早的已编码访问单元的信息，并且因此被称为帧内预测技术。另外，也可以采用来自更低层的残差数据用于当前层的预测。

SVC使得能够使用单回路解码。通过使用受约束的帧内纹理预测模式来实现，从而能够将层间帧内纹理预测用于基本层的对应块位于帧内MB内的宏块(MB)。同时，基本层中的这些帧内MB使用受约束的帧内预测(例如句法元素“constrained_intra_pred_flag”等于1)。在单回路解码中，解码器仅针对期望用于回放的可分级层(称为“期望层”或“目标层”)执行运动补偿和全图片重构，从而极大地减小解码复杂性。除了期望层之外的所有其他层不需要完全解码，因为没有用于层间预测的MB的数据的全部或部分(不管是层间帧内纹理预测、层间运动预测还是层间残差预测)不需要用于期望层的重构。需要单个解码回路用于多数图片的解码，而选择性地应用第二解码回路以重构基本表示，基本表示需要作为预测参考但是没有用于输出或显示，并且仅针对所谓的关键图片(其“store_ref_base_pic_flag”等于1)被重构。

SVC草案中的可分级性结构的特征在于3个句法元素：“temporal_id”、“dependency_id”和“quality_id”。句法元素“temporal_id”用于表示时间可分级性层级或者间接地表示帧速率。包括更小的最大“temporal_id”值的图片的可分级层表示的帧速率小于包括更大最大“temporal_id”的图片的可分级层表示。给定时间层通常取决于更低时间层(即“temporal_id”值更小的时间层)但是不取决于任何更高时间层。句法元素“dependency_id”用于表示CGS层间编码依赖性层级(其如早先提及的包括SNR和空间可分级性二者)。在任何时间级别位置，更小“dependency_id”值的图片可以用于层间预测以解码“dependency_id”值更大的图片。句法元素“quality_id”用于表示FGS或MGS层的质量水平层级。在任何时间位置，并且在“dependency_id”值相同的情况下，“quality_id”等于QL的图片使用“quality_id”等于QL-1的图片用于层间预测。可以将“quality_id”大于0的已编码切片编码为可截短FGS切片或非可截短MGS切片。

为了简单起见，将一个访问单元中“dependency_id”的值相同的所有数据单元(例如SVC上下文中的网络抽象层单元或NAL单元)称为依赖性单元或依赖性表示。在一个依赖性单元内，“quality_id”的值相同的所有数据单元称为质量单元或层表示。

也称为已解码基本图片的基本表示是由于对“quality_id”等于0并且“store_ref_base_pic_flag”设置为等于1的依赖性单元的视频编码层(VCL)NAL单元解码而得到的已解码图片。也称为已解码图片的增强表示是由于解码对于最高依赖性表示存在的所有层表示的规则的解码过程而产生的。

如早先所提及的，CGS包括空间可分级性和SNR可分级性。空间可分级性初始被设计成支持具有不同分辨率的视频的表示。对于每个时刻，在相同的访问单元中编码VCL NAL单元并且这些VCL NAL单元可以对应于不同分辨率。在解码期间，低分辨率VCL NAL单元提供可选地通过高分辨率图片的最终解码和重构来继承的运动场和残差。与旧的视频压缩标准相比，SVC的空间可分级性被一般化，以使得基本层能够成为增强层的裁剪和分级版本。

MGS质量层用“quality_id”表示。在SVC的草拟版本中，quality_id还用于表示FGS质量层。对于每个依赖性单元(具有相同的“dependency_id”)，存在“quality_id”等于0的层并且可以有其他“quality_id”大于0的层。“quality_id”大于0的这些层是MGS层，并且在SVC的草拟版本中，它们是MGS层或FGS层，这取决于切片是否被编码为可截短切片。

在基本形式的FGS增强层中，仅使用层间预测。因此，可以自由地截短FGS增强层而没有在已解码序列中造成任何误差传播。然而，基本形式的FGS遭受低压缩效率的问题。这一问题是由于仅使用低质量UTP用于帧间预测参考而造成的。因此已经提出了使用FGS增强的图片作为层间预测参考。然而，这在一些FGS数据被丢弃时可能造成编码解码失配，也称为漂移。

草拟SVC标准的一个特征在于，可以自由地丢弃或截短FGS NAL单元，并且SVC标准的特征在于，可以自由地丢弃MGS NAL单元(但是不能截短)而不影响比特流的可解码性。如以上讨论的，当这些FGS或MGS数据在编码期间用于帧间预测参考时，数据的丢弃或截短可能导致解码器侧与编码器侧的已解码图片之间的失配。这一失配也称为漂移。

为了控制由于FGS或MGS数据的丢弃或截短而产生的漂移，SVC适用于以下情况：在某个依赖性单元中，将基本表示(通过仅解码具有等于零的“quality_id”以及所有依赖的较低层数据的CGS图片)存储在已解码图片缓冲器中。在解码“dependency_id”值相同的随后的依赖性单元时，所有NAL单元(包括FGS或NGS NAL单元)使用基本表示用于帧间预测参考。因此，由于早先访问单元中的FGS或MGS NAL单元的丢弃或截短而产生的所有漂移在这一访问单元处被停止。对于“dependency_id”值相同的其他依赖性单元，所有的NAL单元使用已解码图片用于帧间预测参考，以实现高的编码效率。

每个NAL单元在NAL单元首部中包括句法元素“use_ref_base_pic_flag”。当这一元素的值等于1时，NAL单元的解码在帧间预测过程期间使用参考图片的基本表示。句法元素“store_ref_base_pic_flag”规定是(如果等于1)否(如果等于0)为未来的图片存储当前图片的基本表示以用于在帧间预测时使用。

“quality_id”大于0的NAL单元不包含与参考图片列表约束和加权预测有关的句法元素，即句法元素“num_ref_active_1x_minus1”(x＝0或1)，不存在参考图片列表记录句法表格和加权预测句法表格。因此，MGS层或FGS层必须根据需要从相同的依赖性单元的“quality_id”等于0的NAL单元继承这些句法元素。

在SVC中，参考图片列表包括仅基本表示(当“use_ref_base_pic_flag”等于1时)或者仅没有被标记为“基本表示”的已解码图片(当“use_ref_base_pic_flag”等于0时)，但是这二者不同时存在。

在H.264/AVC比特流中，一个已编码视频序列中的已编码图片使用相同的序列参数集合，并且在解码过程期间的任何时刻，仅一个序列参数集合有效。在SVC中，来自不同可分级层的已编码图片可以使用不同的序列参数集合。如果使用不同的序列参数集合，则在解码过程期间的任何时刻，可以有多于一个的有效序列图片参数集合。在 SVC规范中，用于顶部层的序列图片参数集合被表示为有效序列图片参数集合，而其余序列图片参数集合被称为层有效序列图片参数集合。任何给定有效序列参数集合在有效序列参数集合所涉及的层中的已编码视频序列中保持不变。

如早先指出的，MVC是H.264/AVC的扩展。H.264/AVC的定义、概念、句法结构、语义和解码过程中的很多也适用于MVC，或者具有某些一般性或约束。下面描述MVC的一些定义、概念、句法结构、语义和解码过程。

MVC中的访问单元定义为按照解码顺序连续的NAL单元的集合并且仅包含包括一个或多个视图组成的一个主要已编码图片。除了主要已编码图片，访问单元还可以包含一个或多个冗余已编码图片、一个辅助已编码图片或者包含已编码图片的切片或切片数据分割的其他NAL单元。如果没有发生解码误差、比特流误差或者可能影响解码的其他误差，则访问单元的解码产生包括一个或多个已解码视图组成的一个已解码图片。换言之，MVC中的访问单元针对一个输出时刻包含视图的视图组成。

MVC中的视图组成称为单个访问单元中的视图的已编码表示。

视图间预测可以用在MVC中并且指来自相同访问单元的不同视图组成的已解码样本的视图组成的预测。在MVC中，视图间预测类似于帧间预测来实现。例如，视图间参考图片放置在与用于帧间预测的参考图片相同的参考图片列表中，并且类似地针对视图间和帧间参考图片来编码或推断参考索引以及运动矢量。

锚定图片是其中所有切片可以仅涉及相同的访问单元内的切片的已编码图片，即可以使用视图间预测，但是不使用帧间预测，并且按照输出顺序的所有随后的已编码图片不使用来自按照解码顺序先于已编码图片的任何图片的帧间预测。可以使用视图间预测用于作为非基本视图的部分的IDR视图组成。MVC中的基本视图是已编码视频序列中视图顺序索引的值最大的视图。基本视图可以独立于其他视图被解码并且不使用视图间预测。基本视图可以由仅支持单视图配置文件(诸如H.264/AVC的基线配置文件或高配置文件)的H.264/AVC解码器来解码。

在MVC标准中，通过分别使用“视图组成”、“帧视图组成”和“场视图组成”来代替H.264/AVC标准的子过程规范中的术语“图片”、“帧”和“场”，MVC解码过程的子过程中的很多子过程使用H.264/AVC标准的相应子过程。同样，下面通常使用术语“图片”、“帧”和“场”来分别表示“视图组成”、“帧视图组成”和“场视图组成”。

在可分级多视图编码中，相同的比特流可以包含多个视图的已编码视图组成，并且可以使用质量和/或空间可分级性对至少一些已编码视图组成进行编码。

很多视频编码器使用拉格朗日代价函数来求解速率失真最佳编码模式，例如期望的宏块模式和相关联的运动矢量。这种类型的代价函数使用加权因子或λ(拉姆达)将由于有损编码方法而产生的准确或估计图像失真以及表示图像区域中的像素/样本值所需要的准确或估计信息量绑在一起。拉格朗日代价函数可以用以下等式表示：

C＝D+λR

其中C是要最小化的拉格朗日代价，D是在考虑到当前模式和运动矢量的情况下的图像失真(例如原始图像块和已编码图像块中像素/样本值之间的均方差)，λ是拉格朗日系数，R是表示在解码器中重构图像块所需要的数据所需的比特的数目(包括表示候选运动矢量的数据的量)。

当前的标准化活动规定HEVC的多视图扩展(其可以称为MV-HEVC)、HEVC的深度增强的多视图扩展(其可以称为3D-HEVC)、以及HEVC的可分级版本(其可以称为SHVC)。预想能够在所有这些规范中使用多回路解码操作。

在使用多回路编码(解码)的可分级视频编码方案中，可以在已解码图片缓冲器(DPB)中维持每个已编码(已解码)层的已解码参考图片。DPB的存储器消耗因此明显高于使用单回路编码(解码)操作的可分级视频编码方案。然而，多回路编码(解码)可以具有其他优点，诸如与单层编码相比相对较少的另外的部分。

在使用多回路解码的可分级视频编码中，可以根据已经在基本(参考)层解码的图片来预测增强层。这样的图片可以存储在基本层的DPB中并且可以标记为用于参考。在某些情况下，标记为用于参考的图片可以存储在快速存储器中，以便提供对其样本的快速随机访问，并且可以在认为要显示图片之后保持存储以便用作用于预测的参考。这对存储器组织强加要求。为了释放这样的存储器要求，多回路多视图视频编码方案(诸如MVC)中的传统设计假定层间预测的受限的使用。允许来自位于相同访问单元的基本视图的已解码图片的用于增强的视图的层间/视图间预测，换言之，表示在相同的时间实体处的场景。在这样的设计中，可用于预测增强视图的参考图片的数目针对每个参考视图增加1。

已经提出，在使用多回路编码(解码)操作的可分级视频编码中，被标记为用于参考的图片不需要源自于所有层中的相同的访问单元。例如，与基本层相比，可以在增强层中维持更少数目的参考图片。在一些实施例中，可以使用也可以称为对角层间预测或对角预测的时间层间预测来改善这样的编码场景中的压缩效率。通常，对角预测可以指其中预测跨过多于一个的可分级性域或可分级性类型的任何预测。例如，对角预测可以指从不同的组成类型(例如从深度到纹理)以及从不同的时刻(例如从按照编码(解码)顺序在前的访问单元的图片到当前访问单元中的图片)发生的预测。

解码过程可以参考层标识符列表TargetDecLayerIdList来规定，层标识符列表TargetDecLayerIdList规定了层标识符值的列表，诸如nuh_layer_id值。层标识符值可以按照要解码的NAL单元的升序在TargetDecLayerIdList中。TargetDecLayerIdList可以包括意图由解码器来输出的层的层标识符以及输出层在解码过程中取决于其的所有层的层标识符。

工作继续进行以规定HEVC标准的可分级和多视图扩展。被称为 MV-HEVC的HEVC的多视图扩展类似于H.264/AVC的MVC扩展。类似于MVC，在MV-HEVC中，视图间参考图片可以被包括在被编码或解码的当前图片的参考图片列表中。计划规定被称为SHVC的HEVC的可分级版本使得其使用多回路解码操作(不同于H.264/AVC的SVC扩展)。SHVC使用基于参考索引的设计，其中层间参考图片可以被包括在被编码或解码的当前图片的一个或多个参考图片列表中(如以上描述的)。在SHVC的较早草案中，还研究另一设计，其可以称为IntraBL或TextureRL，其中使用如CU级的特定编码模式用于使用参考层图片的已解码/已重构样本值用于增强层图片的预测。SHVC开发专注于空间和粗粒度质量可分级性的开发。

MV-HEVC和SHVC都使用基于参考索引的可分级性并且因此类似于彼此。MV-HEVC和SHVC的高级句法、语义和解码操作已经在很大程度上对准。SHVC与MV-HEVC之间的差异在于，SHVC实现空间可分级性并且因此包括样本阵列的上采样以及运动场映射或上采样。

能够使用相同的句法结构、语义和解码过程中的很多用于MV-HEVC和基于参考索引的SHVC。另外，也能够使用相同的句法结构、语义和解码过程用于深度编码。下文中，使用术语HEVC的可分级多视图扩展(SMV-HEVC)来指其中很大地使用相同的编码(解码)工具而不管可分级性类型并且其中使用在切片首部下在句法、语义或解码过程中没有变化的基于参考索引的方法的编码过程、解码过程、句法和语义。SMV-HEVC可以不限于多视图、空间和粗粒度质量可分级性，而是也可以支持其他类型的可分级性，诸如深度增强的视频。

对于增强层编码，可以在SHVC、MV-HEVC和/或SMV-HEVC中使用HEVC的相同概念和编码工具。然而，可以向SHVC、MV-HEVC和/或SMV-HEVC编解码器集成另外的层间预测工具，其在采用参考层中的已经编码的数据(包括已重构图片样本和运动参数(又称运动信息))用于对增强层高效地编码。

SHVC、MV-HEVC和SMV-HEVC中的访问单元可以定义为根据规定的分类规则彼此相关联的NAL单元的集合，这些NAL单元按照解码顺序连续并且包含与相同的输出时间相关联的所有已编码图片的VCL NAL单元及其相关联的非VCL NAL单元。

在MV-HEVC、SMV-HEVC和基于参考索引的SHVC解决方案中，块级句法和解码过程不变以支持层间纹理预测。仅修改高级句法(与HEVC相比)使得来自相同的访问单元的参考层的已重构图片(根据需要被上采样)可以用作用于编码当前增强层图片的参考图片。层间参考图片以及时间参考图片被包括在参考图片列表中。信号传输的参考图片索引用于表示根据时间参考图片还是层间参考图片来预测当前预测单元(PU)。这一特征的使用可以由编码器来控制并且在比特流中表示，例如在视频参数集合、序列参数集合、图片参数和/或切片首部中。表示例如可以特定于增强层、参考层、一对增强层和参考层、特定的TemporalId值、特定的图片类型(例如IRAP图片)、特定的切片类型(例如P切片和B切片而非I切片)、特定的POC值的图片和/或特定的访问单元。

MV-HEVC、SMV-HEVC和基于参考索引的SHVC解决方案中的参考列表可以使用其中层间参考图片(如果存在)可以被包括在初始参考图片列表中的特定过程来初始化，如以下构造的。例如，可以首先按照与HEVC中的参考列表构造相同的方式将时间参考添加到参考列表(L0，L1)中。之后，可以在时间参考后面添加层间参考。层间参考图片例如可以根据层依赖性信息来得到，诸如以上描述的从VPS扩展得到的RefLayerId[i]变量。如果当前增强层切片是P切片，则可以将层间参考图片添加到初始参考图片列表L0，如果当前增强层切片是B切片，则可以将层间参考图片添加到初始参考图片列表L0和L1二者。可以按照特定顺序将层间参考图片添加到参考图片列表，所述顺序对于两个参考图片列表可以但不一定相同。例如，与初始参考图片列表0相比，可以使用相反的顺序向初始参考图片列表1添加层间参考图片。例如，可以按照nuh_layer_id的顺序向初始参考图片0中插入层间参考图片，而可以使用相反的顺序来初始化初始参考图片列表1。

在编码和/或解码过程中，可以将层间参考图片视为长期参考图片。

在SMV-HEVC和基于参考索引的SHVC解决方案中，可以通过将层间参考图片设置为用于TMVP推导的共同定位的图片来执行层间运动参数预测。例如可以执行两个层之间的运动场映射过程以避免TMVP推导中的块级解码过程修改。也可以针对多视图编码执行运动场映射，但是MV-HEVC的当前草案(JCT-3V文档JCT3V-E1004)没有包括这样的过程。运动场映射特征的使用可以由编码器来控制并且在比特流中表示，例如在视频参数集合、序列参数集合、图片参数和/或切片首部中。表示例如可以特定于增强层、参考层、一对增强层和参考层、特定的TemporalId值、特定的图片类型(例如RAP图片)、特定的切片类型(例如P切片和B切片而非I切片)、特定的POC值的图片、和/或特定的访问单元。可以指示表示的范围和/或一致性连同表示本身和/或可以对其进行推断。

在空间可分级性的运动场映射过程中，基于相应参考层图片的运动场得到上采样后的层间参考图片的运动场。可以根据参考层图片中的共同定位的块的对应运动参数和/或预测模式得到上采样后的层间参考图片的每个块的运动参数(其可以包括例如水平和/或竖直运动矢量值和参考索引)和/或预测模式。用于得到上采样后的层间参考图片中的运动参数和/或预测模式的块大小可以是例如16x16。16x16块大小与其中使用参考图片的压缩运动场的HEVC TMVP取得过程相同。

在H.265/HEVC中，sps_temporal_mvp_enabled_flag表示在HEVC基本层/视图(nuh_layer_id等于0)中是(当标志等于1时)否(当标志等于0时)使用TMVP机制。当sps_temporal_mvp_enabled_flag等于1时，slice_temporal_mvp_enabled_flag存在于切片首部中并且表示TMVP机制是否用于当前图片。

可以有HEVC的可分级性扩展的“黑盒”实现，其中基本层解码 /编码使用现有的HEVC v1实现来实现而没有变化。基本层解码/编码的这样的实现仅在sps_temporal_mvp_enabled_flag等于1的情况下存储运动场。

基本层运动场可以用于以下两个目的之一或二者：基本层的图片之间的时间运动矢量预测以及层间运动预测。如果基本层运动场仅用于层间运动预测，则用于基本层运动场的存储器在访问单元的解码完成之后(或者更准确地说，在可以使用基本层作为运动预测参考的访问单元内的所有层的解码完成之后)可以被解除分配或者用于其他目的。然而，当sps_temporal_mvp_enabled_flag用于控制基本层运动场的存储时，其不能用于表示基本层运动场仅用于层间运动预测而不用于基本层内的时间运动矢量预测。

在基于textureRL的SHVC解决方案中，可以在引入新的预测模式(即textureRL模式)的CU层执行层间纹理预测。使用共同定位的上采样后的基本层块作为用于以textureRL模式编码的增强层CU的预测。对于增强层编码器的输入CU，可以确定CU模式等，例如是层间模式和textureRL模式。textureRL特征的使用可以由编码器来控制并且在比特流中表示，例如在视频参数集合、序列参数集合、图片参数和/或切片首部中。表示例如可以特定于增强层、参考层、一对增强层和参考层、特定的TemporalId值、特定的图片类型(例如RAP图片)、特定的切片类型(例如P切片和B切片而非I切片)、特定的POC值的图片和/或特定的访问单元。可以指示表示的范围和/或一致性连同表示本身和/或可以对其进行推断。另外，textureRL可以由编码器在CU级进行选择并且可以每个CU例如使用CU级标签(texture_rl_flag)在比特流中表示，该标签可以例如使用上下文自适应算法编码(例如CABAC)进行熵编码。

textureRL预测的CU的其余部分可以被如下编码。textureRL预测的CU的变换过程可以与帧内预测的CU相同，其中向亮度组成的大小为4x4的TU应用离散正弦变换(DST)并且向其他类型的TU应用离散余弦变换(DCT)。textureRL预测的CU的变换系数可以与帧间预测的CU相同，其中可以使用no_residue_flag来表示是否跳过整个CU的系数。

在基于textureRL的SHVC解决方案中，除了空间和时间相邻的PU，也可以使用共同定位的参考层块的运动参数来形成合并候选列表。基本层合并候选可以在与当前PU的中央位置共同定位的位置来得到并且可以被插入在合并列表的特定位置，诸如作为合并列表中的第一候选。在空间可分级性的情况下，可以根据两个层之间的空间分辨率比率来对参考层运动矢量进行分级。可以通过共同定位的基本层候选来针对每个空间相邻的候选执行修剪(双倍候选检查)。对于共同定位的基本层合并候选和空间合并候选取得，可以使用某个最大数目的合并候选；例如，可以在位于6个不同位置的候选中选择4个合并候选。可以按照与HEVC合并列表相同的方式来得到时间合并候选。当候选的数目没有到达最大合并候选数目(其可以由编码器确定或者可以在比特流中表示并且可以向变量MaxNumMergeCand分配)时，与HEVC合并列表构造类似地或者相同地，可以在合并列表的末尾生成和添加另外的候选，包括组合双向预测候选和零合并候选。

在一些编码和/或解码布置中，可以组合基于参考索引的可分级性和块级可分级性方法，诸如基于textureRL的方法。例如，可以如下执行多视图视频加深度编码和/或解码。可以在相同视图的组成之间使用textureRL方法。例如，深度视图组成可以使用textureRL方法根据相同视图的纹理视图组成来层间预测。可以使用基于参考索引的方法用于视图间预测，并且在一些实施例中，可以仅在相同组成类型的视图组成之间应用视图间预测。

工作继续进行以规定HEVC标准的深度增强的视频编码扩展，其可以称为3D-HEVC，其中可以将纹理视图和深度视图编码到其中纹理视图中的一些与HEVC兼容的单个比特流中。换言之，HEVC解码器可以能够解码这样的比特流的纹理视图中的一些并且可以省略其余纹理视图和深度视图。

其他类型的可分级性和可分级视图编码包括：比特深度可分级性，其中每个亮度和/或色度以比增强层图片(例如10或12比特)更低的比特深度(例如8比特)对基本层图片编码；色度格式可分级性，其中增强层图片在色度方面比基本层图片(例如4:2:0格式)提供更高的保真度和/或更高的空间分辨率(例如用4:4:4色度格式编码)；以及颜色饱和度可分级性，其中增强层图片比基本层图片具有更丰富/更宽广的颜色表示范围，例如增强层可以具有UHDTV(ITU-R BT.2020)颜色饱和度，基本层可以具有ITU-ER BT.709颜色饱和度。另外地或者替选地，可以提供深度增强层或视图(提供距离和/或差异信息)、和/或具有阿尔法图片的层(提供透明信息)、和/或其他类型的辅助图片层作为可分级层。任何数目的这样的其他类型的可分级性例如可以通过如以上描述的基于参考索引的方法或者基于块的方法来实现。

可分级编码的另一分类基于使用相同还是不同的编码标准或技术作为基本层和增强层的基础。术语混合编解码器可分级性或标准可分级性可以用于表示其中使用一个编码标准或系统用于一些层而使用另一编码标准或系统用于某些其他层的场景。例如，基本层可以ACV编码，而一个或多个增强层可以通过HEVC扩展来编码，诸如SHVC或MV-HEVC。多于一个层可以属于第一编码标准或系统，诸如AVC或其扩展(如MVC)，并且多于一个的层可以是第二表面标准。层可以表示多于两个的编码标准。例如，基本层可以通过AVC编码，增强层可以通过MVC编码并且表示非基本视图，并且在前的层中的一者或二者可以通过使用SHVC编码的空间或质量可分级层来增强。

在很多视频通信或传输系统、传送机制和多媒体包含文件格式中，存在与增强层单独地传输或存储基本层的机制。可以认为，层存储在单独的逻辑通道中并且通过单独的逻辑通道来传输。下面提供示例：

1.ISO基本媒体文件格式(ISOBMFF，ISO/IEC国际标准14496-12)：基本层可以存储为轨迹并且每个增强层可以存储在另一轨迹中。类似地，在混合编解码器可分级性情况下，非HEVC编码的基本层可以存储为轨迹(例如样本输入类型“avc1”的轨迹)，而增强层可以存储为另一轨迹，其使用所谓的轨迹参考链接至基本层轨迹。

2.实时传输协议(RTP)：可以使用RTP会话复用或同步源(SSRC)复用在逻辑上分离不同的层。

3.MPEG-2传输流(TS)：每个层可以具有不同的数据包标识符(PID)值。

很多视频通信或传输系统、传送机制和多媒体包含文件格式提供使得诸如不同轨迹或会话的单独的逻辑通道的已编码数据彼此相关联的方法。例如，存在使得相同的访问单元的已编码数据关联在一起的机制。例如，可以在包含文件格式或传送机制中提供解码或输出时间，并且可以认为具有相同解码或输出时间的已编码数据形成访问单元。

一种对不同类型的预测分类的方式是：考虑预测跨哪些领域或可分级性类型。这一分类可以产生以下类型的预测中的一项或多项，其有时也可以称为预测方向：

-通常根据相同的可分级性层、视图和组成类型(纹理或深度)的较早图片的例如样本值或运动矢量的时间预测。

-视图间预测(其也可以称为跨视图预测)，指通常在相同时刻或访问单元以及相同组成类型的视图组成之间进行的预测。

-层间预测，指通常在相同时刻、相同组成类型和相同视图的层之间进行的预测。

-组成间预测，可以定义为包括从一种类型的组成图片到另一类型的组成图片预测句法元素值、样本值、在解码过程中使用的变量值等。例如，组成间预测可以包括根据深度视图组成预测纹理视图组成，反之亦然。

使用来自先前已编码图像的图像信息的预测方法也可以称为帧间预测方法。帧间预测有时可以被认为仅包括运动补偿后的时间预测，而其有时也被认为包括其中使用样本的已重构/已解码块作为预测源的所有类型的预测(因此包括传统的视图间预测)。可以认为帧间预测仅包括样本预测，但是替选地可以认为其包括样本预测和句法预测二者。由于句法和样本预测，可以获得样本的像素的预测块。

如果编码器没有使用任何形式的预测误差或残差编码来对预测进行细化，诸如预测的变量值和/或预测块，则预测可以称为继承。例如，在合并模式的HEVC中，例如没有通过编码(解码)预定矢量差异来细化预测运动信息，并且因此可以认为合并模式是运动信息继承的示例。

视频编码方案可以在图片之间使用预测方案。如所讨论的，可以在编码器中例如通过当前图片中的当前已编码块(Cb)与被选择为参考的图片中的参考块(Rb)之间的块分割和块匹配过程来执行预测。因此，可以将这样的预测的参数定义为包括例如以下各项中的一项或多项的运动信息(MI)：Cb的空间坐标(例如Cb的左上方像素的坐标)；规定被选择为参考图片的参考图片列表中的图片的参考索引refIdx等；规定参考图片中Cb和Rb的空间坐标之间的位移的运动矢量(MV)；以及运动分割的大小和形状(匹配块的大小和形状)。

可以认为与图片相关联的运动场包括针对图片的每个已编码块产生的运动信息的集合。运动场可以通过例如块的坐标可访问。运动场可以用在例如时间运动矢量预测或者其中使用用于预测的参考而非当前已解码/已编码图片的任何其他运动预测机制中。

视频编码方案可以使用时间运动矢量预测方案，诸如H.264/AVC中的时间直接模式或者H.265/HEVC的合并和AVMP模式中的时间运动矢量预测符(TMVP)。在时间运动矢量预测方案中，至少使用另一图片的运动信息的子集来得到当前图片的运动信息或运动信息预测符。时间运动矢量预测因此需要存储参考图片的运动信息。

在H.265/HEVC中，序列参数集合包括sps_temporal_mvp_enabled_flag句法元素，其表示切片首部是否包括sps_temporal_mvp_enabled标签。如果sps_temporal_mvp_enabled_flag等于0，则在已编码视频序列中不使用时间运动矢量预测符。 slice_temporal_mvp_enabled_flag规定时间运动矢量预测符是否可以用于帧间预测。当slice_temporal_mvp_enabled_flag等于1时，切片首部中存在识别用于得到时间运动矢量预测符的共同定位的图片的句法元素。

当使用层间参考图片的运动场来预测或得到当前图片的运动信息时，在可分级视频编码中也可以使用时间运动矢量预测。

例如当层间参考图片与当前图片具有不同的空间分辨率时，可以使用运动场映射。在空间可分级性的运动场映射过程中，基于相应参考层图片的运动场得到上采样后的层间参考图片的运动场。运动参数(其例如可以包括水平和/或竖直运动矢量值和参考索引)和/或上采样后的层间参考图片的每个块的预测模式可以根据参考层图片中的共同定位的块的对应运动参数和/或预测模式来得到。

例如可以基于运动分割的最小大小(例如在H.264/AVC的情况下为4x4(个亮度样本))来执行运动信息的存储。在另一示例中，运动信息的空间粒度例如可以在编码标准中预定义并且可以将已编码运动信息重新采样或者变换成该空间粒度。例如，在H.265/HEVC中可以针对16x16块(亮度样本)存储运动信息。

可分级视频比特流的HRD可以类似于单层比特流的HRD来操作。然而，可能需要或者期望一些变化，特别是在其到达可分级比特流的多回路解码中的DPB操作时。能够用多种方式针对可分级比特流的多回路解码规定DPB操作。在按层方法中，每个层可以在概念上具有其自身的DPB，其否则可以独立地操作，但是可以针对所有的按层DPB联合地提供一些DPB参数并且图片输出可以同时操作，使得具有相同输出时间的图片同时地或者按照输出顺序一致性检查来输出，来自相同访问单元的图片一个接一个地输出。在被称为分辨率特定的方法的另一方法中，具有相同关键属性的层共享相同的子DPB。关键属性可以包括以下各项中的一项或多项：图片宽度、图片高度、色度格式、比特深度、颜色格式/粒度。

可以能够使用可以称为子DPB模型的相同DPB模型来支持按层和分辨率特定的DPB方法二者。DPB分割成若干子DPB，并且每个子DPB单独地被管理，但是可以针对所有子DPB联合地提供一些DPB参数，并且图片输出可以同时操作，使得具有相同输出时间的图片可以同时或者按照输出顺序一致性检查来输出，来自相同访问单元的图片一个接一个地输出。

编码标准可以包括子比特流提取过程，并且例如在SVC、MVC和HEVC中规定了这样的过程。子比特流提取过程涉及通常通过去除NAL单元来将比特流变换成子比特流，子比特流也可以称为比特流子集。子比特流仍然保持一致标准。例如，在HEVC中，通过排除TemporalId值大于所选择的值的所有VCL NAL单元并且包括所有其他VCL NAL单元产生的比特流保持一致。在HEVC中，子比特流提取过程将TemporalId和/或nuh_layer_id值的列表作为输入并且通过从比特流中去除TemporalId大于输入的TemporalId值或者nuh_layer_id值不在nuh_layer_id值的输入列表中的所有NAL单元来得到子比特流(也称为比特流子集)。

编码标准或系统可以涉及术语操作点等，其可以表示解码操作在其下可以与包括被解码的可分级层和/或子层子比特流相关联的可分级层和/或子层。下面提供操作点的一些非限制性定义。

在HEVC中，操作点定义为通过使用另一比特流、目标最高TemporalId和目标层标识符列表作为输入的子比特流提取过程的操作从另一比特流产生的比特流。

在SHVC和MV-HEVC中，操作点定义可以包括目标输出层集合的考虑。在SHVC和MV-HEVC中，操作点可以定义为通过使用另一比特流、目标最高TemporalId和目标层标识符列表作为输入的子比特流提取过程的操作从另一比特流产生的并且与目标输出层的集合相关联的比特流。

在MVC中，操作点可以被如下定义：操作点可以用表示目标时间级别的temporal_id值以及表示目标输出视图的view_id值的集合来识别。一个操作点与比特流子集相关联，比特流子集包括目标输出视图以及目标输出视图取决于其的所有其他视图，比特流子集以tIdTarget等于temporal_id值并且viewIdTargetList包括view_id值的集合作为输入使用子比特流提取过程来得到。多于一个的操作点可以与相同的比特流子集相关联。当“对操作点解码”时，可以解码对应于操作点的比特流子集并且随后可以输出目标输出视图。

当比特流(诸如HEVC比特流)在CRA或BLA图片处开始时，不能够正确地解码与CRA或BLA图片相关联的RASL图片，因为这些RSAL图片的一些参考图片尚未解码。这些RASL图片因此没有通过解码过程和/或HRD被输出。还可以能够提供影响解码过程的外部手段，诸如到解码器的接口或API，解码器通过其能够被控制成类似于BLA图片或CRA图片来处理CRA图片，以开始比特流，并且因此省略相关联的RASL图片的输出。解码过程例如可以使得变量NoRaslOutputFlag与每个IRAP图片相关联并且例如如下得到变量的值：

-如果当前图片是IDR图片、BLA图片、按照解码顺序的比特流中的第一图片、或者按照解码顺序在序列NAL单元的端部之后的第一图片，则变量NoRaslOutputFlag设置为等于1。

-否则，如果相同的外部手段可用于将变量HandleCraAsBlaFlag设置为当前图片的值，则变量HandleCraAsBlaFlag设置为等于由外部手段提供的值并且变量NoRaslOutputFlag设置为等于HandleCraAsBlaFlag。

变量媒体文件格式标准包括ISO基本媒体文件格式(ISO/IEC 14496-12，其可以简写为ISOBMFF)、MPEG-4文件格式(ISO/IEC 14496-14，也称为MP4格式)、用于NAL单元构造的视频的文件格式(ISO/IEC 14496-15)以及3GPP文件格式(3GPP TS 26.244，也称为3GP格式)。SVC和MVC文件格式规定为对AVC文件格式的修改。ISO文件格式是得到所有以上提及的文件格式(排除ISO文件格式本身)的基础。这些文件格式(包括ISO文件格式本身)通常称为ISO文件格式家族。

ISO基本媒体文件格式的基本构建块称为盒子。每个盒子具有首部和净荷。盒子首部表示盒子的类型和以字节表示的盒子的大小。盒子可以封装其他盒子，并且ISO文件格式规定在某种类型的盒子中允许哪些盒子类型。另外，某些盒子的存在在每个文件中可以是强制性的，而其他盒子的存在可以是可选的。另外地，对于一些盒子类型，可以允许文件中存在多于一个的盒子。因此，可以认为ISO基本媒体文件格式规定了盒子的分层结构。

根据ISO文件格式家族，文件包括媒体数据以及封装在单独的盒子中的元数据。在示例实施例中，可以在媒体数据(mdat)盒子中提供媒体数据，并且可以使用电影(moov)来封装元数据。在一些情况下，对于要可操作的文件，必须存在mdat和moov盒子二者。电影(moov)盒子可以包括一个或多个轨迹，并且每个轨迹可以驻留在一个对应轨迹盒子中。轨迹可以是以下类型之一：媒体、提示、定时的元数据。媒体轨迹是指根据媒体压缩格式(及其成为ISO基本媒体文件格式的封装)格式化的样本。提示轨迹是指提示样本，包含用于构造数据包以通过专用通信协议来传输的食谱(cookbook)指令。食谱指令可以包括数据包首部构造的说明并且包括数据包净荷构造。在数据包净荷构造中，可以参考驻留在其他轨迹或条目中的数据。这样，例如可以通过关于特定轨迹或项目中的哪条数据在数据包构造过程期间被指令为被复制到数据包中的参考来表示驻留在其他轨迹或项目中的数据。定时的元数据轨迹可以是指描述推断的媒体的样本和/或提示样本。为了呈现一个媒体类型，通常选择一个媒体轨迹。轨迹的样本可以隐含地与按照样本的所表示的解码顺序增加1的样本数相关联。轨迹中的第一样本可以与样本数1相关联。

可以如下来描述根据ISO基本媒体文件格式的简化的样本结构的示例。文件可以包括moov盒子和mdat盒子，并且moov盒子可以包括分别对应于视频和音频的一个或多个轨迹。

ISO基本媒体文件格式没有将呈现限制为包含在一个文件中。这样，呈现可以被包括在若干文件中。作为示例，一个文件可以包括用于整个呈现的元数据并且从而可以包括所有媒体数据以做出自包含的呈现。其他文件(如果使用)可以不需要被格式化为ISO基本媒体格式，并且可以用于包括媒体数据，并且还可以包括未使用的媒体数据或者其他信息。ISO基本媒体文件格式仅涉及呈现文件的结构。媒体数据文件的格式可能受到ISO基本媒体文件格式或其推导格式的约束，原因仅在于，媒体文件中的媒体数据如ISO基本媒体文件格式或其推导格式中所规定地被格式化。

指代外部文件的能力可以通过数据引用来实现。在一些示例中，被包括在每个轨迹中的样本描述盒子可以提供样本条目的列表，每个样本条目提供与所使用的编码类型有关的信息以及需要用于该编码的任何初始化信息。分块的所有样本以及轨迹分段的所有样本可以使用相同的样本条目。分块可以定义为一个轨迹的样本的连续集合。也被包括在每个轨迹中的数据参考(dref)盒子可以定义统一资源定位符(URL)的索引列表、统一资源名称(URN)和/或到包含元数据的文件的自引用。样本条目可以指向数据引用盒子的一个索引，从而表示包含相应分块或轨迹分段的样本的文件。

电影分段在将内容记录到ISO文件以避免在记录应用失灵、没有存储空间或者发生某种其他突发事件的情况下丢失数据时使用。如果没有电影分段，可能发生数据丢失，这是因为文件格式通常可能需要所有元数据(例如电影盒子)被写入文件的一个连续区域中。另外，在记录文件时，可能没有足够的存储空间(例如RAM)来针对可用的存储大小缓冲电影盒子，并且在电影关闭时重新计算电影盒子的内容可能太慢。另外，电影分段使得能够使用规则的ISO文件解析器来同时记录和回放文件。最后，连续的下载可能需要出示缓冲的更小持续时间，例如文件的同时接收和回放，在使用电影分段时并且初始电影盒子与具有相同媒体内容但是没有构造有电影分段的文件相比更小。

电影分段特征可以使得能够将传统上可能驻留在电影盒子中的元数据划分成多个片。每个片可以对应于轨迹的某个时间段。换言之，电影分段可以实现将文件元数据和媒体数据交织。因此，可以限制电影盒子的大小并且可以实现以上提及的使用案例。

在一些示例中，如果电影分段的媒体样本与moov盒子在相同的文件中，则电影分段的媒体样本通常可以驻留在mdat盒子中。然而，对于电影分段的元数据，可以提供moof盒子。moof盒子可以包括先前已经在moov盒子中的回放时间的某个持续时间的信息。moov盒子仍然自身可以表示有效电影，但是除此之外，其可以包括表示电影分段在相同的文件中跟随的mvex盒子。电影分段可以及时地扩展与moov盒子相关联的呈现。

在电影分段内，可以有轨迹分段的集合，包括从零到多个每个轨迹的任何地方。轨迹分段又可以包括从零到多个轨迹行进的任何地方，其中每个文档是该轨迹的样本的连续行进。在这些结构内，很多字段是可选的并且可以是默认的。可以被包括在moof盒子中的元数据可以限于可以被包括在moov盒子中并且在一些情况下可以被不同地编码的元数据的子集。与可以被包括在moof盒子中的盒子有关的细节可以从ISO基本媒体文件格式规定中找到。

ISO/IEC 14496-15规定了聚合器和提取器是文件格式内部结构，其使得能够对NAL单元分组或者从其他轨迹提取NAL单元。虽然当前ISO/IEC 14496-15规定了聚合器和提取器用于AVC扩展的用途，诸如SVC和MVC，但是类似的NAL单元状结构也可以适用于HEVC扩展。聚合器和提取器使用NAL单元句法，但是它们的净荷不一定易于开始代码仿真预防。这些结构在文件格式的样本结构的上下文中被视为NAL单元。虽然访问样本，但是聚合器必须被去除(留下其所包含的或者引用的NAL单元)并且提取器必须用它们所引用的数据来代替。聚合器和提取器必须不存在于文件格式外部的流中。

ISO/IEC 14496-15支持将多个NAL单元聚合成一个聚合器NAL单元(其NAL单元类型值从在H.264/AVC标准中未规定的值范围中取得)。聚合器NAL单元可以通过在其中包括NAL单元来聚合(在其长度所表示的大小内)并且还通过引用在其后的NAL单元来聚合 (在其中的additional_types字段所表示的区域内)。当流被AVC文件阅读器扫描时，仅所包括的NAL单元被视为在聚合器“内”。这允许例如AVC文件阅读器跳过不需要的SVC或MVC NAL单元的整个集合。SVC NAL单元指SVC特定的NAL单元，其NAL单元类型值被AVC规范保留。MVCNAL单元指MVC特定的NAL单元，其NAL单元类型值被AVC规范保留。类似地，如果AVC NAL单元通过引用被聚合，则AVC阅读器不跳过其并且它们针对该阅读器保持在流中。

本段落呈现通过使用聚合器实现的另一优点。H.264/AVC、HEVC及其扩展使得能够在多个NAL单元中编码访问单元。NAL单元的数目可以变化。为了通过ISOMBFF解析器寻址(SVC的)依赖性表示、(SVC的)层表示或者(MVC的)已编码视图作为一个逻辑单元，可以使用一个或多个聚合器NAL单元。聚合器帮助每个逻辑可分级性单元组织NAL单元的数目的恒定图案中的文件格式样本(例如访问单元)。例如，如果访问单元的所有基本层NAL单元被聚合成一个聚合器，则可以认为基本层包括一个NAL单元。可分级性和/或多视图属性中的一些可以通过概念所谓的层级用SVC和MVC文件格式来表示，概念所谓的层级通过ISOBMFF的样本分组机制来规定。被包括作为样本组描述条目的每个可分级组条目或多视图组条目分别文件证明SVC流或MVC流的子集。每个子集与层级相关联并且可以包含一个或多个操作点。可分级组条目或多视图组条目的数目等于到层级分配的不同NAL单元序列图案的数目。例如，一个样本组描述可以表示文件格式样本包括属于第一层级的一个NAL单元和属于第二层级的另一NAL单元。对于包括属于第一层级的两个NAL单元(之后是属于第二层级的NAL单元)的文件格式样本，可能需要另一样本组描述条目。然而，如果使用聚合器来聚合属于第一层级的两个NAL单元，则认为它们是样本组描述条目中的一个NAL单元。因此，聚合器帮助减小规定层级所需要的信令的量。

聚合器当前支持两种形式的聚合。在第一形式中，被聚合的所有样本被包括在聚合器NAL单元本身中。第一形式的聚合称为通过包括实现的聚合。在第二形式中，通常被存储作为ISOMBFF存储格式的继续字节的所有聚合的样本通过参引来信号传输。聚合的NAL单元没有被包含在聚合器NAL单元中，但是称为来自聚合器NAL单元。聚合器NAL单元的句法包括additional_tytes字段，其表示通过参考聚合的字节的数目。能够具有单个聚合器，其通过定义聚合器的长度或大小以包括NAL单元并且通过定义非零additional_bytes值以通过参考聚合NAL单元来实现通过包括的聚合以及通过引用的聚合。

HEVC使得编码器和/或其他实体、诸如分离器能够通过如下面描述的pic_output_flag和/或no_output_of_prior_pics_flag句法元素的值控制从解码过程和/或HRD输出的图片。

可以存在于切片分段首部中的pic_output_flag句法元素影响变量PicOutputFlag的取得。每个已解码图片与PicOutputFlag的值相关联(其可以不同于其他图片的PicOutputFlag的值)。针对不是与NoRaslOutputFlag等于1的IRAP图片相关联的RASL图片的图片，PicOutputFlag设置为1。否则，PicOutputFlag设置为等于pic_output_flag。不输出PicOutputFlag等于0的图片。输出PicOutputFlag等于1的图片，除非它们变为受NoOutputOfPriorPicsFlag的影响，如下面解释的。

针对切片分段首部中的IRAP图片存在的no_output_of_prior_pics_flag句法元素如下影响在不是比特流中的第一图片的IDR或BLA图片的解码之后在已解码图片缓冲器中的先前已解码图片的输出：在当前图片的解码之前(但是在解析当前图片的第一切片的切片首部之后)将图片从DPB去除在访问单元n(包含当前图片)中的第一解码单元的CPB去除时间之后立刻发生并且如下继续进行：

-解码当前图片的参考图片集合。

-在当前图片是没有作为图片0的NoRaslOutputFlag等于1的IRAP图片时，应用以下有序步骤：

°如下得到变量NoOutputOfPirorPicsFlag：

·如果当前图片是CRA图片，则将NoOutputOfPirorPicsFlag设置为等于1(而不管no_output_of_prior_pics_flag的值)。

·否则，如果当前图片的宽度、高度或DPB容量不同于在前图片，则可以但不一定将NoOutputOfPirorPicsFlag设置为1或者可以将其设置为等于no_output_of_prior_pics_flag。

·否则，将NoOutputOfPirorPicsFlag设置为等于no_output_of_prior_pics_flag。

°将针对待测解码器得到的NoOutputOfPirorPicsFlag的值应用于HRD，使得当NoOutputOfPirorPicsFlag的值等于1时，在DPB中的所有图片存储缓冲器被清空而没有它们所包含的图片的输出，并且将DPB充满度设置为等于0。

-当以下条件对于DPB中的任何图片k都为真时，从DPB去除DPB中的所有这样的图片k：

°图片k标记为“未用于参考”。

°图片k的PicOutputFlag等于0或者其DPB输出时间小于或等于当前图片n的第一解码单元(表示为解码单元m)的CPB去除时间。

-对于从DPB去除的每个图片，将DPB充满度减小1。

例如，当切片编码视频序列的输出与在前编码视频序列中的某个图片的输出交叠时，可以将连结已编码视频序列或比特流的切片或其他条目设置为no_output_of_prior_pics_flag等于1。

可以如下规定HEVC的可分级扩展中的已编码视频序列(CVS)：已编码视频序列是按照解码顺序包括IRAP访问单元的访问单元的序列，IRAP访问单元包含nuh_layer_id等于0并且NoRaslOutputFlag等于1的IRAP图片，IRAP访问单元之后是没有作为包含nuh_layer_id等于0并且NoRaslOutputFlag等于1的IRAP图片的IRAP访问单元的两个或多个访问单元，包括所有随后的访问单元最高达但是不包括作为包含nuh_layer_id等于0并且NoRaslOutputFlag等于1的IRAP图片的任何随后的访问单元。

自适应分辨率变化(ARC)是指动态地改变视频序列内的分辨率，例如在视频会议使用情况下。自适应分辨率变化可以用于例如更好的网络自适应和误差恢复。为了获得改变不同内容的网络要求的更好的自适应，除了质量，可能想要能够改变时间/空间分辨率。自适应分辨率变化还可以使得能够快速开始，其中可以能够通过首先发送低分辨率帧并且然后增加分辨率来增加会话的开始时间。自适应分辨率变化还可以用在组织会议中。例如，当有人开始讲话时，可以增加他/她的对应分辨率。通过IDR帧进行这一操作可以造成质量的“尖峰(blip)”，因为IDR帧需要以相对较低的质量来编码以使得延迟没有明显增加。

下面使用可分级视频编码框架更详细地描述自适应分辨率变化使用情况的一些细节。由于可分级视频编码固有地包括用于分辨率变化的机制，所以如图4中表示地可以高效地支持自适应分辨率变化。

在图4的示例中，切换发生在图片3(BL3)处并且解码器通过以下图片接收比特流：BL0-BL1-BL2-BL3-EL3-EL4-EL6-EL6…。图片BL0-BL3是基本层的图片，并且图片EL3-EL6…是增强层的图片。在本示例中，图片BL0-BL3以及EL4-EL6仅使用层间预测并且图片EL3使用帧内预测和层间预测中的一者或二者。

序列级信令可以用于向解码器表示比特流中是否存在分辨率变化。这例如可以通过使用标志single_layer_for_non_irap_flag来执行。single_layer_for_non_irap_flag可以用于信号传输以下信息：已编码视频序列被约束为执行自适应分辨率变化操作。single_layer_for_non_irap_flag特别地表示：除了切换图片，序列中的每个AU包含来自单个层的单个图片(其可以是或者可以不是BL图片)；并且发生切换的访问单元包括来自两个层的图片，这样的访问单元中的EL图片是IRAP图片，并且层间预测可以用于EL IRAP图片。

表示single_layer_for_non_irap_flag使得解码器能够知道除了实现分辨率变化没有使用可分级性，使得能够在会话开始时相应地分配解码器资源。

可以使用具有IRAP图片或者没有跨层对准的类似图片的可分级比特流，例如，可以在基本层更频繁地使用IRAP图片，其中它们由于例如更小的空间分辨率而可以具有更小的已编码大小。用于解码的按层开始的过程或机制可以被包括在视频解码方案中。解码器因此可以在基本层包含IRAP图片时开始比特流的解码，并且在其他层包含IRAP图片时按步开始解码其他层。换言之，随着来自另外的增强层的随后的图片在解码过程中被解码，在解码过程的按层开始中，解码器逐渐增加已解码层的数目(其中层可以表示空间分辨率、质量水平、视图、另外的组成、诸如深度、或者其组合的增强)。已解码层的数目的逐渐增加可以被感知为例如图片质量的逐渐改进(在质量和空间可分级性的情况下)。

按层开始机制可以生成不可用于特定增强层中的按照解码顺序的第一图片的参考图片的图片。替选地，解码器可以省略对先于哪个从其开始层的解码的IRAP图片的图片的解码。可以省略的这些图片可以特别地用编码器或者比特流内的其他实体来标记。例如，可以使用一个或多个特定的NAL单元类型用于其。这些图片可以称为跨层随机访问跳跃(CL-RAS)图片。

当该增强层的所有参考图片类似地通过参考层中的IRAP图片被初始化时，按层开始机制可以从该增强层中的IRAP图片开始增强层图片的输出。换言之，不可以从解码器输出和/或不可以显示按照输出顺序在这样的IRAP图片之前的任何图片(在相同的层内)。在一些情况下，可以输出与这样的IRAP图片相关联的可解码前导图片，而不可以输出在这样的IRAP图片之前的其他图片。

可以在以下情况中的一个或多个情况下开始按层开始机制：

-在比特流开始的时候。

-对于基本层IRAP图片，当特别地通过给解码器的通知(例如称为NoClrasOutputFlag(设为等于1))通过解码过程外部的手段控制时。这一通知例如可以由播放器例如在解码过程开始或者重新开始时(例如响应于转为广播或者寻找文件或流中的位置)设置。

-在基本层中的BLA图片处。

-在基本层中的IDR图片处，其中IDR图片可以特别地被标记为例如使用切片首部中的标签(其例如可以称为cross_layer_bla_flag)开始按层开始机制。

-在基本层中的IRAP图片处，其中相关联的指示表示按层开始机制的调用。相关联的表示例如可以驻留在以下句法结构中的一个或多个句法结构中：NAL单元首部、切片首部、切片分段首部、图片参数集合、切片参数集合的组等、图片首部、访问单元定界符、前缀NAL单元、后缀NAL单元。NAL单元首部中的表示例如可以是nal_unit_type值，其表示造成按层开始机制的调用的IRAP图片。

在一些句法替选中，cross_layer_bla_flag可以仅存在于某些NAL单元类型的切片分段首部中。在一些句法替选中，cross_layer_bla_flag可以仅存在于某个(些)层的切片分段首部中，诸如仅基本层或者取决于任何其他层的每个层。

可以规定：当cross_layer_bla_flag等于1时，在解码中使用按层启动过程。同样，可以规定：当cross_layer_bla_flag等于0时，在解码中不使用按层启动过程。

可以按照以下方式来规定解码过程：该方式使得某个变量能够控制是否使用按层启动过程。例如，可以使用变量NoClrasOutputFlag，其在等于0时表示正常解码操作，而在等于1时表示按层开始操作。NoClrasOutputFlag可以使用例如以下步骤中的一个或多个步骤来设置：

1)如果当前图片是作为比特流中的第一图片的IRAP图片，则将NoClrasOutputFlag设置为等于1。

2)否则，如果一些外部手段可用于将变量NoClrasOutputFlag设置为等于基本层IRAP图片的值，则将变量NoClrasOutputFlag设置为等于由外部手段提供的值。

3)否则，如果当前图片是作为已解码视频序列(CVS)中的第一图片的BLA图片，则将NoClrasOutputFlag设置为等于1。

4)否则，如果当前图片是已解码视频序列(CVS)中的第一图片的IDR图片并且cross_layer_bla_flag等于1，则将NoClrasOutputFlag设置为等于1。

5)否则，将NoClrasOutputFlag设置为等于0。

以上步骤4可以替选地例如如下更一般地来表述：

否则，如果当前图片是作为CVS中的第一图片的IRAP图片并且按层启动过程的表示与IRAP图片相关联，则将NoClrasOutputFlag设置为等于1。应当理解，其他表述条件的方式是可能的并且同样可适用。

按层开始的解码过程例如可以用两个阵列变量LayerInitialisedFlag[i]和FirstPicInLayerDecodedFlag[i]来控制，其可以针对每个层具有输入(可能排除基本层并且可能也排除其他独立性层)。当按层启动过程被调用时，例如，响应于NoClrasOutputFlag等于1，这些阵列变量可以重置为其默认值。例如，当启用64个层时(例如6比特nuh_layer_id)，变量可以如下重置：针对从0到63(含)的所有i值，将变量LayerInitialisedFlag[i]设为等于0，并且对于从1到63(含)的所有i值，将FirstPicInLayerDecodedFlag[i]设为等于0。

解码过程可以包括以下等用于控制RASL图片的输出。如果当前图片是IRAP图片，则以下步骤适用：

-如果LayerInitialisedFlag[nuh_layer_id]等于0，则将变量NoRaslOutputFlag设置为等于1。

-否则，如果一些外部手段可用于将变量HandleCraAsBlaFlag设置为当前图片的值，则可以将变量HandleCraAsBlaFlag设置为等于由外部手段提供的值并且将变量NoRaslOutputFlag设置为等于 HandleCraAsBlaFlag。

-否则，将变量HandleCraAsBlaFlag设置为等于0并且将变量NoRaslOutputFlag设置为等于0。

解码过程可以包括以下用于更新层的LayerInitialisedFlag。如果当前图片是IRAP图片并且以下之一为真，则将LayerInitialisedFlag[nuh_layer_id]设置为等于1。

-nuh_layer_id等于0。

-对于等于RefLayerId[nuh_layer_id][j]的refLayerId的所有值，LayerInitialisedFlag[nuh_layer_id]等于0并且LayerInitialisedFlag[refLayerId]等于1，其中j在0到NumDirectRefLayer[nuh_layer_id]-1(含)的范围内。

当FirstPicInLayerDecodedFlag[nuh_layer_id]等于0时，可以限于解码当前图片调用用于生成不可用的参考图片的解码过程。用于生成不可用的参考图片的解码过程可以针对参考图片集合中的每个图片生成具有默认值的图片。生成不可用的参考图片的过程可以主要仅针对CL-RAS图片的句法约束的规定来规定，其中CL-RAS图片可以定义为nuh_layer_id等于layerId的层并且LayerInitialisedFlag[layerId]等于0。在HRD操作中，可能需要在导出CPB到达和去除时间时将CL-RAS图片考虑在内。在一些实施例中，解码器可以忽略任何CL-RAS图片，因为这些图片没有被规定用于输出并且对被规定用于输出的任何其他图片的解码过程没有影响。

在一些句法替选中，可以在比特流中特别地识别CL-RAS图片，例如由编码器或者由分析器或者其他实体。CL-RAS图片可以具有一个或多个某种nal_unit_type值，诸如也作为子层非参考图片的CL-RAS图片的CL_RAS_N以及不是子层非参考图片的CL-RAS图片的CL_RAS_R。在另一选项中，可以使用表示cross_layer_bla_flag等的相同的句法元素来表示CL-RAS图片或者潜在的CL-RAS图片。Cross_layer_bla_flag等仅适用于基本层IRAP图片，因此，可以重新使用相同的句法元素用于表示CL-RAS图片，其仅出现在增强层上。

CL-RAS图片可以具有以下属性：当按层开始机制被调用时(例如当NoClrasOutputFlag等于1时)，不输出CL-RAS图片并且其不可以是可正确地解码的，因为CL-RAS图片可以包含对没有存在于比特流中的图片的参考。可以规定，不使用CL-RAS图片作为参考图片用于非CL-RAS图片的解码过程。

与MVC/SVC设计相反，MV-HEVC/SHVC设计允许如下访问单元：其中图片可以表示比特流中存在的层的子集。这一特性可以用于例如以下目的：

-不同层中的不同图片，例如60Hz的更低空间分辨率的基本层以及30Hz的更高空间分辨率的增强层；

-SHVC的用于实现单层比特流的自适应分辨率变化的用途；

-按层开始，其中层的数目在比特流的开始之后按步增加。

MV-HEVC/SHVC设计包括在VPS扩展中规定的输出层集合，每个集合规定由解码器在使用该输出层集合时输出的层。使用的输出层集合的选择意图通过外部手段来执行(例如通过到解码的接口)，类似于例如选择目标时间级别。可以通过HRD来测试每个规定的输出层集合的一致性检查。为了实现HRD中的一致性检查，所选择的输出层集合必须针对整个已编码视频序列(CVS)保持不变。术语目标输出层集合可以用于已经被选择用于由外部手段或者由HRD来使用的输出层集合。术语目标输出层可以用于目标输出层集合中包括的每个输出层。

MV-HEVC/SHVC草拟规范(分别在文档JCT3V-E1004和JCTVC-N1008中)针对VPS中规定的每个层集合得到默认输出层集合。VPS扩展标志default_one_target_output_layer_flag在等于0时规定每个层是输出层，而在等于1时规定仅最高层是输出层。另外，到默认输出层集合的VPS扩展使得能够规定另外的输出层集合，其中所选择的层被表示为输出层。

目标输出层集合影响从解码过程和/或HRD输出的图片。仅输出在目标输出层上的图片(取决于其PicOutputFlag的值并且取决于 NoOutputOfPriorPicsFlag等于1的图片的影响，如果存在)。不输出没有在目标输出层上的图片。这例如可以通过针对没有被包括在任何目标输出层中的图片将PicOutputFlag设置为等于0来实行。

虽然输出层集合很好地适合其中最高层在每个访问单元中保持不变的使用情况和比特流，然而它们不支持其中最高层从一个访问单元到另一访问单元发生变化的使用情况。参考以上的第一示例，可以用以下方式中的任何方式来规定输出层集合：仅包含增强层的输出层可以使得解码器在30Hz的图片范围输出。包含基本层和增强层二者的输出层集合可以使得解码器每隔一个访问单元输出图片，这可能在一些标准API中并且通过一些渲染器难以处理。

克服输出层集合的静态属性的一个方法可以是：如果访问单元中没有所规定的输出层的图片，则输出下一更低的存在的空间或SNR可分级层的图片。这一方法由于以下原因而是次最佳选项：

-其使得MV-HEVC/SHVC涉及取决于当前可分级性类型。如果可能，涉及可以独立于可分级性类型，这可以使得能够使用用于也针对可分级性类型暂时改变输出层的方法，其潜在地在MV-HEVC/SHVC以上的扩展中规定。

-在不存在规定的输出层的情况下是否期望更低空间和/或SNR层的输出可以是取决于内容的。例如(参考以上示例1)，在一些情况下，内容提供者可能意图在30Hz消耗增强层(没有将基本层图片交织到输出中，例如由于太强的质量波动)，而在其他情况下，内容提供者可能意图增强层解码以产生60Hz输出。

在SVC中，要求访问单元使得具有一致地存在的相同的dependency_id值。换言之，SVC不允许例如具有不同图片速率的层。

对于所谓的中间粒度质量可分级性(MGS)，SVC包括通过NAL单元首部中的quality_id句法元素识别的所谓的层表示。SVC解码器解码目标依赖性表示并且最高达每个访问单元中存在的最高质量表示。SVC句法允许从比特流中去除quality_id大于0的任何层表示，而所得到的比特流保持一致。然而，这样的所得到的比特流的已解码图片遭受与编码器的已重构图片相比较的失配。编码器可以通过使用某些访问单元中的基本质量层表示(quality_id等于0)来停止失配的传播和累积。

使用可分级性尺寸(SVC中的quality_id)用于表示可以或者可以不存在于访问单元中的层的SVC方法以使得层输出行为与可分级性尺寸耦合。因此，可分级性尺寸值本身不足以例如区分空间和SNR可分级性，因为其仅表示层在其变为输出和输出层的偏好顺序时替选(例如解码和输出具有最高当前quality_id的层表示)。另外，SVC方法要求基本层表示(quality_id等于0)存在于每个访问单元中，这在例如时间可分级性使用情况下是不理想的。

根据第一方面，输出层集合中的每个输出层与最小替选输出层相关联。每个输出层集合中的每个输出层的最小替选输出层在序列级句法结构(例如H.265/HEVC及其扩展中的VPS)中表示。如果输出层的图片不存在于访问单元中，则其用于规定可以取代规定的输出层被输出的图片的最小层标识符值。输出按照下降的层标识符顺序存在于访问单元中的第一直接或间接层间参考图片最低到所表示的最小替选输出层。

在根据实施例并且如图5所示的方法中，图片被编码到比特流中1040。比特流包括与访问单元相关联的至少两个可分级性层和图片。第一指示和第二指示被编码到比特流中1042、1044。第一指示被配置成指示输出层，第二指示被配置成指示至少一个替选输出层。第一指示和第二指示联合地具有以下影响：当包含所述至少一个替选输出层的所述第一图片的访问单元中没有输出层的图片时，通过比特流的解码过程输出所述至少一个替选输出层的第一图片。在另外的实施例中，层与一个或多个可分级性尺寸以及一个或多个可分级性尺寸的不同值集合相关联。第二指示独立于一个或多个可分级性尺寸被编码。

在根据实施例的并且如图6所示的方法中，从比特流解码图片1050。比特流包括与访问单元相关联的至少两个可分级性层和至少两个图片。从比特流解码第一指示和第二指示1052、1054。第一指示表示输出层，第二指示表示至少一个替选输出层。当在包含所述第一图片的第一访问单元中没有输出层的图片时，输出至少一个替选层的第一图片1056。在另外的实施例中，输出输出层的第二图片，第二图片与第二访问单元相关联。在另外的实施例中，层与一个或多个可分级性尺寸以及一个或多个可分级性尺寸的不同值集合相关联。第二指示独立于一个或多个可分级性尺寸被编码。因此，一个或多个可分级性尺寸及其值到层的分配独立于对第二指示的解码被解码以推断至少一个替选输出层。

换言之，每个输出层与最小替选输出层相关联。对于默认输出层集合，最小输出层与输出层相同，即当使用默认输出层集合时，解码器仅输出规定的输出层。对于另外的输出层集合，向非默认输出层集合中的每个输出层的VPS扩展句法添加句法元素min_alt_output_layer_idx[i][j]。

if(output_layer_flag[i][j])
	min_alt_output_layer_idx[i][j]	ue(v)
}

如果访问单元中不存在输出层处的图片，则其用于规定能够取代规定的输出层被输出的图片的最小nuh_layer_id值。输出按照下降的nuh_layer_id顺序存在于访问单元中的第一直接或间接层间参考图片最低到从min_alt_output_layer_idx[i][j]得到的最小值。

得到变量NumRecursiveRefLayers[i]和RecursiveRefLayerFlag[i][j]并且其针对层i分别表示直接和间接参考层以及直接和所指示的参考层掩码的数目。如下得到变量NumRecursiveRefLayers[i]和RecursiveRefLayerFlag[i][j]：

-NumRecursiveRefLayers[i]和RecursiveRefLayerFlag[i][j]首先针对在0到63(含)范围内的i和j的全部值被初始化为0。

-如下规定函数setRefLayerFlags(currLayerId)。函数用于修改RecursiveRefLayerFlag[i][j]。

-如下调用函数setRefLayerFlags(currLayerId)：

得到索引为i并且层j的输出层集合的变量OutputLayerFlag[i][j]并且其表示层是否为输出层。

得到索引为i并且层j的输出层集合的变量MinAltOutputLayer[i][j]，并且其表示在访问单元中不存在输出层的图片的情况下能够取代规定的输出层被输出的图片的最小nuh_layer_id值。min_alt_output_layer_idx[i][j]用于得到变量MinAltOutputLayer[i][j]。min_alt_output_layer_idx[i][j]的值应当在0到NumRecursiveRefLayers[LayerSetLayerIdList[IsIdx][j]]-1(含)的范围内。

如下得到变量OutputLayerFlag[i][j]和MinAltOutputLayerId[i][j](其中i是输出层集合的索引并且j是nuh_layer_id值)：

变量TargetOutputLayerSetIdx通过外部手段进行设置，或者(如果不通过外部手段设置则)通过HRD进行设置，或者(如果没有通过所述方式设置则)设置为0。

-如果一些外部手段可用于设置TargetOutputLayerSetIdx，则通过外部手段设置TargetOutputLayerSetIdx。

-否则，如果解码过程在比特流一致性测试中被调用。

-否则，将TargetOutputLayerSetIdx设置为等于0。

在实施例中，当对每个图片解码时，PicOutputFlag的得到与当前MV-HEVC和SHVC草案相比保持不变(分别是文档JCT3V-E1004和JCTVC-N1008)。这一过程基本上设置PicOutputFlag的值，只要图片属于输出的层。当已经解码访问单元的所有图片时，取决于所使用的输出层集合中的输出层并且在访问单元中存在输出层的情况下更新PicOutputFlag的值。

当已经完成访问单元的最后的图片的解码时，如下更新访问单元中的每个图片的PicOutputFlag：

本段落中描述当可分级比特流例如根据ISOBMFF存储在包含文件中时可以独立于或者连同其他实施例一起应用的实施例。文件的每个轨迹(等)可以与输出层集合相关联。关联关系可以是明确的，即文件创建者可以包括例如输出层集合或列表的索引，文件格式结构的输出层，诸如样本条目内的可选框。替选地或者另外地，关联关系可以是隐含的，即轨迹可以包含某些层，其可以例如通过ISO/IEC14496-15的层级定义来表示，并且层可以基于例如VPS被映射到输出层集合。类似地，每个轨迹(等)和/或用轨迹表示的每个输出层集合可以与如以上描述的替选输出层的集合相关联。例如，样本条目例如可以在可选框中包括最小替选输出层的标识符。文件分析器或播放器可以在输出层和替选输出层解释以上提及的信息。文件解析器或播放器可以使用外部手段控制解码器选择输出层集合和/或输出层和/或替选输出层。例如，文件解析器或播放器可以确定要播放的轨迹，获得与轨迹相关联的输出层集合，并且根据所选择的轨迹所表示的输出层集合来向解码器输入以上提及的TargetOutputLayerSetIdx。替选地或者另外地，当文件解析器或播放器接收到已解码图片时，其可以基于输出层和替选输出层确定要向显示过程传递哪些已解码图片。

根据第二方面，取代(或者补充)规定序列级结构中的输出层集合中的输出层，例如在其使用产生的每个访问单元的输出层(即输出图片)的数目方面用序列级结构来特征化输出层集合。索引或者标识符也与在序列级结构中规定的输出层集合相关联。切片级或图片级结构包括指示切片或图片属于哪些输出层集合的指示，例如输出层集合索引的列表。例如，切片分段首部扩展可以包括最小输出层集合索引和最大输出层集合索引，并且对应图片被包括在所有输出层集合中，范围在所表示的最小值到所表示的最大值之间(含)。

根据实施例，如图7所示，将图片编码到比特流中1070，比特流包括至少两个可分级性层。将至少一个指示编码到比特流中1072。第一指示提供输出层集合的一个或多个属性并且关联输出层集合的索引。将第一层的第一图片编码到比特流中1074。将至少一个第二指示编码到比特流内的图片级结构中1076。第二指示将第一图片关联到输出层集合。将第二层的第二图片编码到比特流中1078。将至少一个第三指示编码到比特流内的图片级结构中1079。第三指示将第二图片关联到输出层集合。第一指示、第二指示和第三指示联合地具有以下影响：通过其中选择输出层集合的比特流的解码过程输出与输出层集合相关联的图片。

根据实施例并且如图8所示，从比特流解码图片1080。比特流包括至少两个可分级性层。从比特流解码至少一个第一指示1082。第一指示提供输出层集合的一个或多个属性并且关联输出层集合的索引。确定在从解码器输出时使用输出层集合。从比特流解码第一层的第一图片1084。从比特流内的图片级结构解码至少一个第二指示1086。第二指示将第一图片关联到输出层集合。从比特流解码第二层的第二图片1087。从比特流内的图片级结构解码至少一个第三指示1088。第三指示将第二图片关联到输出层集合。输出第一图片和第二图片，因为它们是与输出层集合相关联的图片1089。

在这一段落中描述可以在可分级性比特流例如根据ISOBMFF存储在包含文件时独立于或者与其他实施例一起应用的实施例。根据实施例的聚合器NAL单元和/或提取器NAL单元包括指示所包含的或者所指代的NAL单元属于哪些输出层集合的指示，例如输出层集合索引的列表。文件创建者可以使用聚合器NAL单元来聚合NAL单元和/或基于NAL单元属于相同的输出层集合使用提取器NAL单元来引用来自另一轨迹的NAL单元。文件解析器或播放器可以基于在聚合器和/或提取器NAL单元中提供的信息来推断NAL单元的输出层集合。

在以上两个方面中，输出层的表示独立于可分级性尺寸。

在可以独立于或者与其他实施例一起应用的实施例中，解码器或HRD或另一实体可以使用关于替选输出层的信息来提供容限到图片损失和/或粗心的比特流操作，例如如下在中间框中。参考图片集合设计使得解码器能够检测参考图片的非故意损失并且按层启动过程使得解码器能够按照逐步方式增加已解码层的数目。在当前描述的实施例中，如果检测到增强层图片的丢失的参考图片(例如通过参考所应用的参考图片集合中的丢失的参考图片)并且针对该增强层存在替选输出层，则针对增强层开始按层启动过程并且输出一个或多个替选输出层的图片直到增强层包含IRAP图片。可以例如如下在MV-HEVC和/或SHVC和/或其他HEVC扩展中实现所提及的影响：针对增强层将LayerInitialisedFlag设置为等于0。这造成针对增强层将PicOutputFlag设置为0直到增强层中的下一IRAP图片以及替选输出层用于图片输出的使用。针对参考丢失的参考图片的图片，将FirstPicInLayerDecodedFlag设置为等于0。这造成调用不可用参考图片的生成。如果检测到增强层图片的参考图片集合中的丢失参考图片并且对于该增强层不存在替选输出层，则可以推断比特流一致性违反并且解码器例如可以调用误差消除和/或交织误差控制或纠正，诸如向远端编码器发送反馈消息。例如可以如下实现实施例：如果在包含可以用作当前图片的参考的图片的参考图片集合的任何这样的子集中存在条目等于“没有参考图片”(例如RefPicSetInterLayer0、RefPicSetInterLayer1、RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetLtCurr)，则以下适用于currLayerId等于当前图片的nuh_layer_id的情况：如果已经解码当前访问单元中的具有nuh_layer_id layerIdA的任何这样的图片，其nuhLayerIdA大于或等于MinAltOutputLayerId[TargetOutputLayerSetIdx][currLayerId]，并且RecursiveRefLayerFlag[currLayerId][layerIdA]等于1，则将 LayerInitialisedFlag[currLayerId]设置为等于0，将FirstPicInLayerDecodedFlag[currLayerId]设置为等于0，并且将noRefPicViolationFlag设置为等于0。

在可以独立于或者连同其他实施例一起应用的实施例中，编码器可以在比特流中表示预测约束，其在层不在输出层中的情况下是有利的。下面提供这样的预测约束的示例及其在比特流中的信令。

即使在参考层不在输出层中的情况下仍然需要解码的参考层中的图片可以称为关键图片。输出层中的图片例如可以使用关键图片作为层间预测的参考，或者参考层中的另一图片可以用作输出层中的图片的层间预测的参考并且关键图片可以用作该另一图片的参考。没有作为关键图片的参考层中的图片可以称为非关键图片。

可以例如如下分类或特征化非关键图片：

-没有使用非关键图片，而非关键图片可以用于其他基本层(BL)非关键图片的样本预测。(如果非关键图片没有用于其他BL图片的样本预测，则在基本层不在输出层中的情况下不需要在DPB中维持非关键图片。如果非关键图片用于其他BL图片的样本预测，则在单回路解码操作中，需要用相应已解码EL图片代替非关键图片，这造成了漂移。)

-不使用非关键图片，非关键图片可以用于BL关键图片和/或其他BL非关键图片的运动预测。

-不使用非关键图片，非关键图片可以用于层间样本预测。

-不使用非关键图片，非关键图片可以用于层间运动预测。

在当前描述的实施例中，编码器可以在比特流中表示图片是关键图片还是非关键图片和/或其可以针对非关键图片表示上述特性中的一个或多个特性。下面是表示预测特性的一些详细示例。

在第一示例中，2比特固定长度已编码句法元素、即u(2)(在此称为pic_ref_idc)被包括在用于图片的句法中，例如在切片分段首部句法结构中，例如通过使用HEVC切片分段首部的slice_reserved[i]句法元素的某两个比特位置。可以例如如下规定Pic_ref_idc的语义：

-pic_ref_idc等于3表示可丢弃图片并且规定已编码图片没有用作帧间预测的参考图片并且没有在按照解码顺序的随后的图片的解码过程中用作层间参考图片。

-pic_ref_idc等于2表示层内非参考图片并且规定图片没有用作相同的层内按照解码顺序的随后图片的帧内预测的参考图片并且图片可以用作层间(样本或运动)预测参考。

-pic_ref_idc等于1表示非输出层跳跃(NOLS)图片并且规定图片可以用作pic_ref_idc等于1或3的按照解码顺序的随后图片的帧间预测的参考直到pic_ref_idc等于0并且TemporalId值等于或小于当前NOLS图片的按照解码顺序的下一图片。-pic_ref_idc等于1还规定图片没有用作层间预测的参考并且没有用作pic_ref_idc等于0的任何图片的帧间预测的参考。

-pic_ref_idc等于0表示关键图片并且规定图片可以用作相同的层内按照解码顺序的随后图片的帧间预测的参考并且可以用作层间预测处的参考。

标记为层内非参考图片以及没用用作或者不再用作层间预测的参考图片的图片可以标记为“未用于参考”。

第一示例的信令或者实现NOLS图片的识别的任何类似的信令使得能够从没用在输出层中的层中去除NOLS图片。可能要求去除(相同的某个层的)两个关键图片之间的(某个层的)所有可丢弃图片和NOLS图片或者不去除(相同的层)的两个关键图片之间的任何NOLS图片。NOLS图片的去除可以通过包括但不限于以下各项的实体来进行：

-去除可以由解码器或者连接至解码器的比特流预处理器来进行，其可以具有关于解码过程在其下操作的输出层集合的知识。因此，可以根据所使用的输出层集合推断输出层并且可以去除来自没有被输出但是在已解码层之间的层的NOLS图片。NOLS图片的这样的去除减小了解码复杂性和已解码图片缓冲所需要的存储器。

-去除可以由修改比特流的实体进行，诸如媒体已知网络元件 (MANE)。可以从没有作为任何规定的输出层集合中的输出层的这样的层去除NOLS图片。实体可以修改所表示的输出层集合，例如基于接收器的属性和/或模式请求，以排除原始存在于指示中的某些输出层集合(例如在VPS中)。例如，可以去除接收器中被推断为未使用的这些输出层集合或者针对接收器的属性和/或模式请求被推断为次最佳的输出层集合。因此，可以增加能够从其中去除NOLS图片的层的数目。

第二示例与第一示例相同，但是其规定：NOLS图片可以用于层间运动预测但是不用于层间样本预测。因此，当包含NOLS图片的层不是目标输出层时，仅需要解码NOLS图片的图片运动场，而这些NOLS图片的样本阵列不需要解码或者不需要维持在DPB中。

在第三示例中，单独地表示第一示例和第二示例二者的NOLS图片。例如，在2比特pic_ref_idc句法元素中，可以用NOLS图片类型之一代替表示层内非参考图片的值(或者示例1或者示例2)。

在第四示例中，NOLS图片如第一示例、第二示例或第三示例中被规定，但是NOLS图片的语义独立于TemporalId值。

在可以独立于或者与其他实施例一起应用的实施例中，编码器或其他实体可以在比特流中包括早于该层的下一图片的解码的开始使得将参考图片标记为某个层上的图片的“未用于参考”的命令等。这样的命令的示例包括但不限于以下各项：

-在比特流中包括要在层内的图片的解码之后施加的参考图片集合(RPS)。这样的RPS可以称为解码后RPS。解码后RPS可以例如在访问单元的解码完成之后应用(其确保没有仍然用作层间预测的参考的图片变得被标记为“未用于参考”)。解码后RPS可以例如被包括在特定的NAL单元中，在后缀NAL单元中或者在前缀NAL单元中，和/或在切片首部扩展中。可能要求解码后RPS相同或者使得将与相同的层中的下一图片的RPS相同的图片维持在DPB中。

-例如使用HEVC切片分段首部的slice_reserved[i]句法元素的比特位置例如在切片分段首部中包括标志，其使得在当前图片的解码之后(例如当完全解码包含的当前图片的访问单元时)将层内的所有图片(包括标志设置为1的当前图片)标记为“未用于参考”。

-例如使用HEVC切片分段首部的slice_reserved[i]句法元素的比特位置例如在切片分段首部中包括标志，其使得在当前图片的解码之后(例如当完全解码包含的当前图片的访问单元时)将当前层内的所有非关键图片(例如在以上提及的示例中key_pic_idc等于0的图片)标记为“未用于参考”。

-以上提及的标志可以特定于TemporalId，即使得将与当前图片相同的或更高的TemporalId值的图片标记为“未用于参考”(否则标志的语义与以上相同)。

-MMCO命令等，使得已解码参考图片标记。

解码器和/或HRD和/或其他实体(诸如媒体已知网络元件)可以从比特流中解码以上提及的命令等中的一个或多个并且因此将参考图片标记为“未用于参考”。将图片标记为“未用于参考”可以影响DPB中的图片存储缓冲器的清空或重新分配，如早先描述的。

在可以独立于或者与其他实施例一起应用的实施例中，在多个层上应用是否输出按照解码顺序先于IRAP图片的图片这一控制。开始按层启动过程的基本层图片造成是否在多个层(诸如比特流中存在的所有层或者取决于基本层的所有层)上应用是否输出按照解码顺序先于基本层图片的图片这一控制。类似于向基本层图片应用开始按层启动过程的实施例，实施例可以应用于开始按层启动过程的独立性层(即没有参考层的层)上的图片。在解码开始按层启动过程的IRAP图片(例如NoClrasOutputFlag等于1的IRAP图片)时，可以先于在DPB中包括IRAP图片而将DPB中的所有图片(所有层中)标记为“未用于参考”。如早先描述的，可以通过no_output_of_prior_pics_flag句法元素对其取得有影响的NoOutputOfPriorPicsFlag变量来控制是否输出按照解码顺序先于IRAP图片的图片这一控制。另外，如早先描述的，变量NoClrasOutputFlag可以用于表示按层启动过程的开始。在由NoOutputOfPriorPicsFlag和NoClrasOutputFlag控制的解码过程和/或HRD中，这一实施例可以通过将访问单元的所有图片的NoOutputOfPriorPicsFlag设置为NoClrasOutputFlag设置为1并且被包含在相同的访问单元中的基本层图片的no_output_of_prior_pics_flag。本实施例使得分离器或另一实体能够分离基本层中而非所有层中以包含IRAP图片的访问单元开始的已编码视频序列并且控制先前已编码视频序列中的图片的输出(先于分离的已编码视频序列)。换言之，由于本实施例，分离器或另一实体能够控制是否在开始按层启动过程的IRAP图片的解码之后输出先前已编码视频序列的任何层的图片。

在可以独立于或者与其他实施例一起应用的实施例中，编码器或其他实体(诸如HRD验证器)可以针对以下类型的比特流中的一个或两个比特流表示缓冲参数：其中存在NoClrasOutputFlag等于1的IRAP图片的CL-RAS图片的比特流以及其中不存在NoClrasOutputFlag等于1的IRAP图片的CL-RAS图片。例如，可以针对所提及的类型的比特流中的一者或两者例如在UVI中单独表示CPB缓冲器大小和比特率。另外地或者替选地，编码器或另一实体可以针对所提及的类型的比特流中的一者或两者表示初始CPB和/或DPB缓冲延迟和/或其他缓冲和/或定时参数。编码器或另一实体例如可以在可分级嵌套SEI消息中包括缓冲周期SEI消息，可分级嵌套SEI消息可以表示所包含的缓冲周期SEI消息应用于其的子比特流、层集合或输出层集合。HEVC的缓冲周期SEI消息支持表示两个参数集合，一个用于其中存在与IRAP图片相关联的前导图片(其缓冲周期SEI消息也相关联)的情况，另一个用于其中不存在前导图片的情况。如果缓冲周期SEI消息包含在可分级嵌套SEI消息中，则可以认为在后的(替选的)参数集合涉及其中不存在与IRAP图片相关联的CL-RAS图片(其缓冲周期SEI消息也相关联)的比特流。通常，在后的缓冲参数集合可以涉及其中不存在与NoClrasOutputFlag等于1的IRAP图片相关联的CL-RAS图片。应当理解，虽然在本实施例的描述中使用特定的术语和变量名称，然而其可以类似地通过其他术语来实现并且不需要使用相同或类似的变量，只要解码器操作类似即可。

在可以独立地或者与其他实施例一起应用的实施例中，编码器或另一实体(诸如HRD验证器)可以针对输出的层上去除NOLS图片的输出层集合表示缓冲参数。换言之，可以针对包含被包括在其中去除了没有在输出层集合中的目标输出层输出层中的层的NOLS图片的输出层集合中的层的子比特流表示缓冲参数。例如，可以针对这样的子比特流在例如VUI中表示CPB缓冲器大小和比特率。另外地或者替选地，编码器或另一实体可以针对这样的子比特流表示初始CPB和/或DPB缓冲延迟和/或其他缓冲和/或定时参数。编码器或另一实体例如可以在嵌套SEI消息中包括缓冲周期SEI消息，嵌套SEI消息可以表示所包含的缓冲周期SEI消息应用于其的输出层集合。HEVC的缓冲周期SEI消息支持表示两个参数集合，一个用于其中存在与IRAP图片相关联的前导图片(其缓冲周期SEI消息也相关联)的情况，另一个用于其中不存在前导图片的情况。如果缓冲周期SEI消息包含在应用于输出层集合的嵌套SEI消息中，则可以认为在后的(替选的)参数集合涉及其中不存在与IRAP图片相关联的非输出层的NOLS图片和/或CL-RAS图片(其缓冲周期SEI消息也相关联)的比特流。通常，在后的缓冲参数集合可以涉及其中不存在与NoClrasOutputFlag等于1的IRAP图片相关联的CL-RAS图片。应当理解，虽然在本实施例的描述中使用特定的术语和变量名称，然而其可以类似地通过其他术语来实现并且不需要使用相同或类似的变量，只要解码器操作类似即可。

在可以独立地或者与其他实施例一起应用的实施例中，规定了子比特流提取过程，其中输入是比特流、输出层集合(或者输出层的列表)、以及可能是最大TemporalId值(最高Tid)。输出层集合可以用于推断需要解码的目标层集合，或者可以提供目标层集合作为输入。过程的输出是子比特流。子比特流提取过程在子比特流中包括在输出层集合中TemporalId小于或等于最高Tid的所有VCL NAL单元以及与所包括的VCL NAL单元相关联的非VCL NAL单元。另外，子比特流提取过程包括不是NOLS图片并且是不可丢弃图片的来自非输出层的这些VCL NAL单元(但是被包括在目标层集合中)。另外，子比特流提取过程可以修改包含与输出层集合有关的信息的句法结构(诸如VPS)，以排除其中来自其的NOLS图片和可丢弃图片在输出层的输出层集合。另外，子比特流提取过程可以修改HRD参数的信令，使得在不存在非输出层的NOLS图片(和可丢弃图片)的情况下的应用于输出层集合的HRD参数有效。另外，子比特流提取过程可以从比特流中排除假定非输出层的NOLS图片(和可丢弃图片)的存在的那些HRD参数。

在可以独立地或者与其他实施例一起应用的实施例中，附上或者规定了子比特流提取过程以排除与NoClrasOutputFlag等于1的IRAP图片相关联的CL-RAS图片。另外，子比特流提取过程可以从比特流中排除假定已经从输出比特流去除的CL-RAS图片的存在的那些HRD参数。

本段落中描述在可分级比特流例如根据ISOBMFF存储在包含文件中时可以独立地或者与其他实施例一起应用的实施例。如以上描述的，轨迹可以与一个或多个输出层集合明确地或者隐含地相关联。如果轨迹包含不是输出层的层，则不需要存在来自这些输出层的NOLS图片。表示多于一个层的轨迹例如可以通过使用提取器NAL单元从另一轨迹参考来包括基本层数据。然而，当基本层不在包含提取器NAL单元的轨迹的输出层中时，文件创建者可以针对基本层的NOLS图片省略提取器NAL单元的创建。文件创建者可以在样本条目的可选框中包括轨迹是否包括非输出层的NOLS图片的指示。替选地或者另外地，文件创建者可以将NOLS图片的NAL单元包括(通过包括或引用)到这样的聚合器NAL单元中，其中包含所包括的NOLS图片的层没有被表示为包括在输出层中。文件解析器或播放器可以确定要播放输出层集合和/或输出层。其随后可以选择表示所选择的输出层集合和/或输出层的轨迹。如果存在其中排除了非输出层的NOLS图片的轨迹，则文件解析器或播放器可以选择该轨迹以减小解码复杂性和/或存储器使用。另外地或者替选地，文件解析器或播放器可以跳过(省略处理)没有被表示为要映射到所选择的输出层集合和/或所选择的输出层的这样的聚合器NAL单元。

在可以独立地或者连同其他实施例一起应用的实施例中，编码器和/或解码器和/或HRD可以针对可分级比特流中的图片得到按层图片顺序计数值。按层图片计数值(POC)变量可以表示为LayerPicOrderCntVal。当基本层中的POC重置时，例如通过将POC值设置为0的基本层IDR图片，按层POC值的使用可以用于在增强层的POC差异值方面提供连续性和/或完整性，而包含基本层IDR图片的访问单元不包含一个或多个其他层中的IDR图片。编码器可以将按层POC的信息编码到比特流中并且解码器/HRD可以从比特流解码按层POC的信息，诸如按层差异POC值。例如，可以在切片分段首部句法结构中使用以下句法等：

在当前描述的实施例中，可以独立于图片顺序计数值(PicOrderCntVal)得到变量LayerPicOrderCntVal，PicOrderCntVal可以在访问单元的所有图片上相同。因此，如果基本层图片(诸如基本层IDR图片)重置图片顺序计数值，则也可以重置相同的访问单元的增强层图片的PicOrderCntVal。如果相同的增强层中存在按照解码顺序的在前图片并且期间没有开始任何按层启动过程，则独立于其他层的PicOrderCntVal值得到增强层图片的变量LayerPicOrderCntVal。可以例如如下得到变量LayerPicOrderCntVal：

-如果当前图片是NoRaslOutputFlag等于1或者FirstPicInLayerDecodedFlag[nuh_layer_id]等于0的IRAP图片，则

将LayerPicOrderCntVal设置为等于PicOrderCntVal，其中PicOrderCntVal是当前图片的图片顺序计数值。

-否则，以下适用：

°设preTid0Pic是TemporalId等于0并且nuh_layer_id等于当前图片的nuh_layer_id的按照解码顺序的在前图片并且不是RASL图片、RADL图片或子层非参考图片。

°设preLayerPicOrderCnt等于prevTid0Pic的LayerPicOrderCntVal。

°设prevPicOrderCntVal等于preTid0Pic的PicOrderCntVal。

°如果layer_delta_poc_present_flag等于1，则将LayerPicOrderCntVal设置为等于prevLayerPicOrderCnt+layer_delta_pic_order_cnt_minus1+1。

°否则，将LayerPicOrderCntVal设置为prevLayerPicOrderCnt+PicOrderCntVal-prevPicOrderCntVal。

在当前描述的实施例中，可以将相同的增强层的两个图片之间的POC的差异导出为其按层POC值的差异。POC的差异可以用在例如帧间预测过程中，诸如用于在合并模式和运动矢量预测中得到运动参数。相同的增强层的两个图片的POC的差异可以如下规定为函数DiffPicOrderCnt(picA,picB)：

DiffPicOrderCnt(picA，picB)＝layerPicOrderCnt(picA）-layerPicOrderCnt(picB)，其中函数layerPicOrderCnt(picX)如下规定：

LayerPicOrderCnt(picX)＝图片picX的LayerPicOrderCntVal

在当前描述的实施例中，当第二已编码视频序列按照解码顺序在第一已编码视频序列之后时，可以要求第一已编码视频序列中的所有图片(在任何层中)按照输出顺序先于第二已编码视频序列中的所有图片(在任何层中)。解码器和/或HRD因此可以每个已编码视频序列使用图片的图片顺序计数值来确定输出顺序并且可以确定两个已编码视频序列的相对输出顺序与其相对解码顺序相同。

草拟SHVC设计使得能够具有覆盖视场中的不同区域的层。例如，增强层图片可以增强参考层图片的区域而非参考基本层图片。增强层必须不应用层间预测。感兴趣的区域(ROI)可以不通过使用层间预测而是联播基本层图片和增强层图片来增强，其中EL图片对应于基本层图片的区域。这一场景实现了ROI增强，但是具有低复杂性解码，因为不需要解码整个BL图片。混合色度格式编码可以是用于很多应用(诸如无线显示)的有用的特征。在混合色度格式编码中，视频的某个区域用4:2:0格式编码，而其他区域用4:4:4格式编码。这一使用案例可以通过用4:2:0格式对基本层编码来支持，并且4:4:4区域可以通过辅助色度层来编码。

在可以独立于或者与其他实施例一起应用的实施例中，输出图片交叠过程被包括或者连接至解码过程和/或HRD的输出图片裁剪和/或图片输出过程。输出图片交叠过程可以将来自不同层的表示相同输出时间或相同输出顺序的两个或多个图片作为输入。所述两个或多个图片例如可以驻留在相同访问单元中的不同的可分级性层上，或者这两个可分级性层可以是输出层集合中的输出层。在实施例中，编码器或另一实体可以在比特流中表示，例如在序列级句法结构(诸如VPS)中表示所述可分级性层经历输出图片交叠过程(而非这些层的已解码图片的单独输出)。在输出图片交叠过程中，应用分级后的参考偏移和/或采样网格偏移等以在相同的坐标上定位所述可分级性层的所述一个或多个图片。Z顺序或交叠顺序可以由编码器或另一实体在比特流中表示，或者可以例如被推断为上升的层标识符顺序。可以例如由编码器例如在SPS和/或VPS中表示的分级后的参考偏移可以表示当前层的当前图片与重新采样后的参考层图片之间的顶部偏移值、左侧偏移值、底部偏移值和右侧偏移值，其中参考层可以是例如按照z顺序在当前层之前的层。输出图片交叠过程的输出图片可以通过以如下方式按照z顺序将两个或多个图片的样本阵列定位在彼此之上来形成：该方式使得按照z顺序在后的样本阵列覆盖或替代按照z顺序更早的样本阵列的共同定位的位置中的样本值。例如，表示基本层的感兴趣区域(ROI)的增强层图片可以在输出交叠过程中代替基本层图片的ROI。处理交叠所述两个或多个图片，过程还可以包括使得所述两个或多个图片的已解码表示对准。例如，如果一个图片用YUV 4:2:0色度格式表示，而按照z顺序在后的另一图片用YUV4:4:4色度格式表示，则作为过程的部分，第一图片可以被上采样到YUV4:4:4。同样，如果一个图片用第一颜色粒度或格式(诸如ITU-R BT.709)表示，而按照z顺序在后的另一图片用第二颜色粒度或格式(诸如ITU-R BT.2020)表示，则作为过程的部分，可以将第一图片变换成第二颜色粒度或格式。实际上，当所述两个或多个图片全部交叠并且被处理时，如以上所描述的，所得到的图片形成输出图片并且取代所述一个或多个图片被输出。可以另外地或者替选地将一致性检查点规定为输出图片交叠过程的输出(除了或者而非裁剪后的已解码的两个或多个已解码图片)。

以上，已经关于将指示、句法元素和/或句法结构编码到比特流或已编码视频序列中和/或从比特流或已编码视频序列解码指示、句法元素和/或句法结构描述了一些实施例。然而，需要理解的是，实施例可以在将指示、句法元素和/或句法结构编码到在包括视频编码层数据(诸如已编码切片)的比特流或已编码视频序列外部的句法结构或数据单元中时和/或在从在包括视频编码层数据(诸如已编码切片)的比特流或已编码视频序列外部的句法结构或数据单元解码指示、句法元素和/或句法结构时实现。

以上，已经在比特流的句法的帮助下描述了示例实施例。然而，需要理解的是，对应的结构和/或计算机程序可以驻留在用于生成比特流的编码器和/或用于解码比特流的解码器处。同样，虽然已经参考编码器描述了示例实施例，然而需要理解的是，所得到的比特流和解码器具有对应的元素。同样，虽然已经参考解码器描述了示例实施例，然而需要理解的是，编码器具有用于生成要由解码器来解码的比特流的结构和/或计算机程序。

虽然已经参考分离器描述了示例实施例，然而需要理解的是，分离器同样可以是编码器、中间盒子或者产生或修改已编码视频比特流的任何其他实体。

以上，已经参考包含文件描述了一些示例实施例。需要理解的是，实施例可以类似地参考(传输协议或格式的)净荷来实现，诸如HTTP或RTP净荷上的动态自适应流送中的分段。以上，已经参考文件创建者描述了一些示例实施例。需要理解的是，实施例可以类似地参考数据包打包器或传输器来实现。以上，已经参考文件解析器或播放器描述了一些示例实施例。需要理解的是，示例可以类似地参考数据包拆分器或接收器来实现。

以上，已经参考增强层和参考层描述了一些实施例，其中参考层可以是例如基本层。以上，已经参考增强层和基本层描述了一些增强，其中可以认为基本层是增强层的任何参考层。

需要理解的是，实施例可以适用于任何类型的分层编码，例如用于多视图编码、质量可分级性、空间可分级性，并且用于多视图视频加深度编码。

本发明的实施例可以用软件、硬件、应用逻辑、或者软件、硬件和应用逻辑的组合来实现。在示例实施例中，应用逻辑、软件或指令集维持在各种传统计算机可读介质中的任何介质上。在本文档的上下文中，“计算机可读介质”可以是包含、存储、通信、传播或传输指令用于由或结合指令执行系统、装置或设备(诸如计算机)来使用的任何介质或手段，计算机的一个示例在图1和图2中描述和描绘。计算机可读介质可以包括计算机可读存储介质，其可以是能够包含或存储用于由或结合指令执行系统、装置或设备(诸如计算机)来使用的任何介质或手段。

根据需要，本文中所讨论的不同功能可以按照不同顺序和/或彼此同时地执行。另外，根据需要，以上描述的功能中的一个或多个可以是可选的或者可以省略。

虽然以上示例描述在电子设备内的编解码器内操作的本发明的实施例，然而，应当理解，以下描述的本发明可以实现为任何视频编解码器的部分。因此，例如，本发明的实施例可以在可以通过固定或有线通信路径实现视频编码的视频编解码器中实现。

因此，用户设备可以包括诸如以上在本发明的实施例中描述的视频编码器。应当理解，术语用户设备意图覆盖任意合适的类型的无线用户设备，诸如移动电话、便携式数据处理设备或便携式网络浏览器。

另外，公共陆地移动网络(PLMN)的单元也可以包括如以上描述的视频编解码器。

总之，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任意组合来实现。例如，一些方面可以用硬件实现，而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，然而本发明不限于此。虽然本发明的各个方面可以被说明和描述为框图、流程图，或者使用某种其他图形表示来说明和描述，然而应当理解的是，本文中描述的这些框、装置、系统、技术和方法作为非限制性示例可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或者其他计算设备、或其某种组合来实现。

本发明的实施例可以用由移动设备的数据处理器可执行的计算机软件来实现，诸如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。另外，在这一点上，应当注意的是，附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤以及逻辑电路、块和功能的组合。软件可以存储在诸如存储芯片、或者集成在处理器内的存储块、磁性介质(诸如硬盘或软盘)、以及光学介质(诸如例如DVD及其数据变型、CD)等物理介质上。

本发明的各种实施例可以在驻留在存储器中并且使得相关装置执行本发明的计算机程序代码的帮助下来实现。例如，终端设备可以包括用于处理、接收和传输数据的电路系统和电子设备、存储器中的计算机程序代码、以及在运行计算机程序代码时使得终端设备执行实施例的特征的处理器。另外，网络设备可以包括用于处理、接收和传输数据的电路系统和电子设备、存储器中的计算机程序代码、以及在运行计算机程序代码时使得终端设备执行实施例的特征的处理器。

存储器可以是适合本地技术环境的任何类型并且可以使用任意合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器中的一个或多个，作为非限制性示例。

本发明的实施例用各种部件来实践，诸如集成电路模块。集成电路的设计或多或少是高度自动化的过程。复杂且有力的软件工具可用于将逻辑级设计变换成准备好被蚀刻和形成在半导体衬底上的半导体电路设计。

程序(诸如由加利福尼亚州Mountain View的Synopsys公司和SAN Jose的CadenceDesign提供的)使用极好地建立的设计规则以及预先存储的设计模块库来自动路由导体并且在半导体芯片上定位部件。一旦完成半导体电路的设计，就可以将标准化电子格式(例如Opus、GDSII等)的所得设计运送到半导体制造工厂或“fab”用于制造。

以上描述作为示例性和非限制性示例提供了本发明的示例性实施例的全面且翔实的描述。然而，在结合附图和所附权利要求阅读时，相关领域技术人员鉴于以上描述可以很清楚各种修改和改变。然而，所有对本发明的教示的这样的和类似的修改将仍然落入本发明的范围内。

根据第一示例，提供了一种方法，包括：

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

在实施例中，方法还包括：

-将层与一个或多个可分级性尺寸相关联；并且

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第二示例，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

在装置的实施例中，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：

-将层与一个或多个可分级性尺寸相关联；并且

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第三示例，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-将指示输出层的第一指示编码到比特流中；以及

-将指示至少一个替选输出层的第二指示编码到比特流中，

在计算机程序产品的实施例中，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置：

-将层与一个或多个可分级性尺寸相关联；并且

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第四示例，提供了一种方法，包括：

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

在实施例中，方法还包括：

-输出输出层的第二图片，第二图片与第二访问单元相关联。

在实施例中，方法还包括：

-将层与一个或多个可分级性尺寸相关联；以及

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第五示例，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

-输出输出层的第二图片，第二图片与第二访问单元相关联。

-将层与一个或多个可分级性尺寸相关联；以及

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第六示例，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-从比特流解码指示输出层的第一指示；

-从比特流解码指示至少一个替选输出层的第二指示；以及

-输出输出层的第二图片，第二图片与第二访问单元相关联。

-将层与一个或多个可分级性尺寸相关联；以及

-将层与一个或多个可分级性尺寸的不同值集合相关联；

-其中第二指示独立于一个或多个可分级性尺寸。

根据第七示例，提供了一种方法，包括：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将第一层的第一图片编码到比特流中；

-将第二层的第二图片编码到比特流中；

根据第八示例，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将第一层的第一图片编码到比特流中；

-将第二层的第二图片编码到比特流中；

根据第九示例，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-将图片编码到比特流中，比特流包括至少两个可分级性层；

-将第一层的第一图片编码到比特流中；

-将第二层的第二图片编码到比特流中；

根据第十示例，提供了一种方法，包括：

-从比特流解码图片，比特流包括至少两个可分级性层；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流解码第二层的第二图片；

根据第十一示例，提供了一种装置，包括至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，代码在由所述至少一个处理器执行时使得装置至少执行以下操作：

-从比特流解码图片，比特流包括至少两个可分级性层；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流解码第二层的第二图片；

根据第十二示例，提供了一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-从比特流解码图片，比特流包括至少两个可分级性层；

-确定输出层集合用在从解码器输出中；

-从比特流解码第一层的第一图片；

-从比特流解码第二层的第二图片；

Claims

1.一种方法，包括：

-对可分级嵌套补充增强信息(SEI)消息进行编码；

-将所述可分级嵌套SEI消息与包括至少两个层的比特流相关联并且与所述比特流内的第一帧内随机访问点(IRAP)图片相关联；

-在所述可分级嵌套SEI消息中包括缓冲周期SEI消息；

-在所述可分级嵌套SEI消息中指示所述缓冲周期SEI消息应用于相关联的所述比特流的多于一个层；

-在所述缓冲周期SEI消息中指示当在所述比特流中不存在所述第一IRAP图片的跨层随机访问跳跃(CL-RAS)图片时应用的至少一个缓冲参数，其中特定层中的CL-RAS图片是所述特定层中按照解码顺序在IRAP图片前面的图片，从所述IRAP图片能够对所述特定层的解码进行初始化。

2.根据权利要求1所述的方法，其中图片和SEI消息被包括在所述比特流中，访问单元包括所述比特流中的连续数据单元，并且所述相关联包括在包括所述第一IRAP图片的访问单元中包括所述可分级嵌套SEI消息。

3.根据权利要求1所述的方法，其中所述至少一个缓冲参数包括初始已编码图片缓冲延迟。

4.根据权利要求1所述的方法，其中所述至少一个缓冲参数符合假设参考解码器模型。

5.一种包括至少一个处理器和至少一个存储器的装置，所述至少一个存储器在其上存储有代码，所述代码当由所述至少一个处理器执行时使得装置至少执行以下操作：

-对可分级嵌套补充增强信息(SEI)消息进行编码；

-在所述可分级嵌套SEI消息中包括缓冲周期SEI消息；

6.根据权利要求5所述的装置，其中图片和SEI消息被包括在所述比特流中，访问单元包括所述比特流中的连续数据单元，并且所述相关联包括在包括所述第一IRAP图片的访问单元中包括所述可分级嵌套SEI消息。

7.根据权利要求5所述的装置，其中所述至少一个缓冲参数包括初始已编码图片缓冲延迟。

8.根据权利要求5所述的装置，其中所述至少一个缓冲参数符合假设参考解码器模型。

9.一种装置，至少包括：

-处理部件和存储器部件；

-用于对可分级嵌套补充增强信息(SEI)消息进行编码的部件；

-用于将所述可分级嵌套SEI消息与包括至少两个层的比特流相关联并且与所述比特流内的第一帧内随机访问点(IRAP)图片相关联的部件；

-用于在所述可分级嵌套SEI消息中包括缓冲周期SEI消息的部件；

-用于在所述可分级嵌套SEI消息中指示所述缓冲周期SEI消息应用于相关联的所述比特流的多于一个层的部件；

-用于在所述缓冲周期SEI消息中指示当在所述比特流中不存在所述第一IRAP图片的跨层随机访问跳跃(CL-RAS)图片时应用的至少一个缓冲参数的部件，其中特定层中的CL-RAS图片是所述特定层中按照解码顺序在IRAP图片前面的图片，从所述IRAP图片能够对所述特定层的解码进行初始化。

10.一种在非暂态计算机可读介质上实施的计算机程序产品，包括计算机程序代码，所述计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：

-对可分级嵌套补充增强信息(SEI)消息进行编码；

-在所述可分级嵌套SEI消息中包括缓冲周期SEI消息；