CN105794212B

CN105794212B - 一种处理多层视频数据的方法及装置

Info

Publication number: CN105794212B
Application number: CN201480057838.2A
Authority: CN
Inventors: 陈颖; 伏努·亨利; 王益魁
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-10-23
Filing date: 2014-10-23
Publication date: 2019-12-03
Anticipated expiration: 2034-10-23
Also published as: WO2015061585A1; KR102315232B1; JP2016538760A; JP6495261B2; MX364539B; CN105794212A; US10205954B2; US20150110167A1; MX2016005100A; EP3061251A1; KR20160075586A

Abstract

在一个实例中，一种用于处理视频数据的装置包含：存储器，其用于存储根据视频译码标准的扩展来译码的视频数据的增强层；以及一或多个处理器，其经配置以：解码包含所述增强层的基本流的层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；且至少部分地基于表示所述两个或更多个参考层的所述数据来处理所述视频数据。

Description

一种处理多层视频数据的方法及装置

本申请案主张2013年10月23日申请的第61/894,829号美国临时申请案的权益，所述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码，并且更明确地说涉及经译码视频数据的输送。

背景技术

数字视频能力可并入到多种多样的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式传输装置等。数字视频装置实施视频译码技术，例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前正在开发的高效视频译码(HEVC)标准及此类标准的扩展中所描述的视频译码技术。视频装置可通过实施此些视频译码技术来更高效地发射、接收、编码、解码和/或存储数字视频信息。

视频译码技术包含空间(图片内)预测和/或时间(图片间)预测，以减少或去除视频序列中固有的冗余。对于基于块的视频译码来说，视频切片(例如，视频帧或视频帧的一部分)可分割成视频块，视频块还可被称作树块、译码单元(CU)和/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测来编码图片的经帧内译码(I)切片中的视频块。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

空间或时间预测产生待译码块的预测性块。残差数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量和指示经译码块与预测性块之间的差的残差数据编码的。根据帧内译码模式和残差数据来编码经帧内译码块。为了进一步压缩，可将残差数据从像素域变换到变换域，从而产生残差变换系数，可接着量化所述残差变换系数。可扫描一开始按二维阵列排列的经量化变换系数，以便产生变换系数的一维向量，且可应用熵译码来实现更多压缩。

发明内容

一般来说，本发明描述用于根据例如MPEG-2(运动图片专家组)系统来输送经译码视频数据的技术。经译码视频数据的输送也可被称作经译码视频数据的运载。本发明的技术可用于输送用于视频译码标准的扩展或多层扩展(例如高效视频译码(HEVC)标准的扩展)的经译码视频数据。此类扩展可包含多视图扩展(例如，MV-HEVC)、可缩放扩展(例如，SHVC)和三维扩展(例如，3D-HEVC)。因此，本发明的技术可用于视频译码标准的多层扩展，例如HEVC的多层扩展。

在一个实例中，一种方法包含：解码基本流的层级扩展描述符，所述基本流包含根据视频译码标准的扩展译码的增强层视频数据，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个增强层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及至少部分地基于表示所述两个或更多个增强层的所述数据来处理所述视频数据。

在另一实例中，一种装置包含：存储器，其用于存储根据视频译码标准的扩展译码的视频数据的增强层；以及一或多个处理器，其经配置以：解码包含所述增强层的基本流的层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于第二可缩放性维度；且至少部分地基于表示所述两个或更多个参考层的所述数据来处理所述视频数据。

在另一实例中，一种装置包含：用于解码包含：用于根据视频译码标准的扩展来译码的增强层视频数据的基本流的层级扩展描述符的装置，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及用于至少部分地基于表示所述两个或更多个参考层的所述数据来处理所述视频数据的装置。

在另一实例中，一种上面存储有指令的计算机可读存储媒体，所述指令在被执行时，致使处理器：解码包含根据视频译码标准的扩展来译码的增强层视频数据的基本流的层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层；以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；且至少部分地基于表示所述两个或更多个参考层的所述数据来处理所述视频数据。

在另一实例中，一种方法包含：接收包含根据视频译码标准的扩展来译码的增强层以及所述增强层所取决于的两个或更多个参考层的视频数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一参考层，以及符合第二可缩放性维度的第二参考层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及编码层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据。

在另一实例中，一种装置包含：存储器，其用于存储包含根据视频译码标准的扩展来译码的增强层，以及所述增强层所取决于的两个或更多个参考层，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一参考层，以及符合第二可缩放性维度的第二参考层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及一或多个处理器，其经配置以编码层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据。

附图和以下描述中陈述一或多个实例的细节。其它特征、目标和优点将从所述描述和图式以及权利要求书显而易见。

附图说明

图1是说明可利用用于输送根据视频译码标准的扩展来译码的视频数据的技术的实例视频编码和解码系统的框图。

图2是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频编码器的实例的框图。

图3是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频解码器的实例的框图。

图4是说明其中音频/视频(A/V)源装置将音频和视频数据输送到A/V目的地装置的实例系统的框图。

图5是说明根据本发明的技术的用于处理视频数据的实例方法的流程图。

图6是说明根据本发明的技术的用于处理视频数据的实例方法的流程图。

具体实施方式

一般来说，本发明描述与媒体数据的移动图片专家组(MPEG)-2系统层级数据有关的技术。MPEG-2系统通常描述如何在一起多路复用两个或更多个数据流从而形成单个数据流。本发明描述与用多层视频数据的MPEG-2系统数据有关的技术。更明确地说，本发明描述可用于描述MPEG-2系统数据流的多层视频数据的层级扩展描述符。举例来说，层级扩展描述符可指示是否存在针对多个可能可缩放性维度中的任一者的数据，例如针对空间可缩放性、峰值信噪比(PSNR)可缩放性、色度位深度可缩放性等。裝置可使用此数据来正确地执行多路分用或子位流提取。

本发明还描述对MPEG-2系统的高效视频译码(HEVC)视频描述符的修改。明确地说，根据这些技术，HEVC视频描述符可包含HEVC扩展存在语法元素(例如旗标)，其指示HEVC扩展描述符是否作为HEVC视频描述符的一部分而存在。HEVC扩展描述符可包含描述HEVC视频数据的操作点的数据，例如简档、层次和层级指示符，帧填充信息、时间可缩放性信息、所述操作点的特定层是否为输出目标、位速率信息和帧速率信息。

本发明的技术通常是针对根据视频译码标准的扩展(例如高效视频译码(HEVC)标准的扩展，也称为ITU-T H.265)来译码的视频数据的运载(例如输送)。此类扩展可包含多视图、三维和/或可缩放扩展。因此，本发明的技术可应用于多视图HEVC(MV-HEVC)、三维HEVC(3D-HEVC)和可缩放HEVC(SHVC)。

多层视频数据，例如多视图视频数据和/或具有多个可缩放层的视频数据，可包含指定的操作点。一般来说，操作点描述多层视频数据的整个层集合的层(例如视图)子集。操作点还可识别目标输出层，即将为其输出资料的层。在一些情况下，层的数据可包含在仅用作参考层的操作点中，且因此，此层将不被视为目标输出层。

一种类型的可缩放维度是时间维度。举例来说，在时间可缩放性中，一组视频数据可支持各种帧速率或重放速率，例如15帧每秒(FPS)、30FPS、60FPS和120FPS。给定时间层级可包含所述层级与较低层级处的所有图片。举例来说，继续先前实例，时间层级0可对应于15FPS、时间层级1可包含时间层级0的图片以及时间层级1处的图片以支持30FPS，时间层级2可包含时间层级0和1的图片以及时间层级2处的图片以支持60FPS，等等。可用信号通知时间识别符或时间ID，作为特定图像所属的时间层级的代表。

目的地装置可使用包含于位流中的操作点描述符，来选择所述操作点中的一者来解码，且最终向用户呈现(例如显示)。并非在接收后即刻将所有视图的数据传递到视频解码器，而是目的地装置可仅将选定操作点的视图发送到视频解码器。以此方式，目的地装置可丢弃将不解码的视图的数据。所述目的地装置可基于位流的操作点中的一者支持的最高品质和/或基于网络带宽的可用量来选择操作点。另外或替代地，中间网络装置可丢弃并不对应于所请求的操作点的视图的数据，例如为了更好地利用带宽，并将所提取的数据转发到目的地装置。

视频数据还可由简档、层和层次描述。“简档”是适用的视频译码标准指定的整个位流语法的子集。“层级”对应于解码器资源消耗的限制，例如，解码器存储器和计算，其涉及图片的分辨率、位速率和块处理速率。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264(也被称为ISO/IEC MPEG-4AVC)，包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。

近来，新的视频译码标准(即高效视频译码(HEVC))的设计已由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)定案。下文中被称作HEVC WD10的HEVC草案说明书可从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip获得。HEVC的多视图扩展(即MV-HEVC)也正由JCT-3V开发。MV-HEVC的工作草案(WD)(在下文被称作MV-HEVC WD5)可从http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1004-v6.zip获得。被称为SHVC的对HEVC的可缩放扩展也正由JCT-VC开发。SHVC的当前工作草案(WD)(在下文中被称作SHVC WD3)可从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1008-v3.zip获得。

HEVC的范围扩展的工作草案(WD)可从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1005-v3.zip获得。HEVC的3D扩展的工作草案(WD)，即3D-HEVC，可从http://phenix.int-evry.fr/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1001-v3.zip获得。

可使用MPEG-2系统(运动图片专家组)技术来输送视频数据。MPEG-2系统有时被称作MPEG-2TS。MPEG-2TS的说明书是ITU-T建议H.222.0，2012年6月版本，其提供对ITU-TH.264/AVC(高级视频译码)和AVC扩展的支持。

近来，已开发用于HEVC的MPEG-2TS的修正。描述对HEVC的MPEG-2TS的修正的一个文献是2013年7月的MPEG文献w13656中的“ISO/IEC 13818-1的文本:2013/经由MPEG-2系统的HEVC视频的最终草案修正3-输送”。

MPEG-2系统说明书描述经压缩的多媒体(视频和音频)数据流可与如何与其它数据一起多路复用，从而形成适合于数字传输或存储的单个数据流。MPEG-2系统描述基本流，其为节目(program)(有时也拼写为“programme”)的单个经数字译码(可能MPEG-经压缩)分量。举例来说，所述节目的经译码视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前，可首先将基本流转换成分组化基本流(PES)。在相同节目内，可使用stream_id语法元素来区分属于一个基本流的PES分组与属于另一基本流的PES分组。

节目流和输送流是目标为不同应用程序的两个替代多路复用。为了来自数字存储服务的单个节目的存储和显示而使节目流偏斜，且因为其容易发生错误，节目流既定用于无错误环境中。节目流包含属于其的基本流，且通常含有具有可变长度分组的分组。在节目流中，将从起作用的基本流导出的PES分组组织为“包(pack)”。包包括包标头、任选系统标头以及按任何次序从起作用的基本流的任一者获取的任何数目的PES分组。系统标头含有节目流的特性的概述，例如：其最大数据速率；起作用视频和音频基本流的数目；其它定时信息。解码器可使用包含于系统标头中的信息来确定解码器是否能够解码所述节目流。

输送流既定用于若干节目在潜在易错信道上的同时递送。这是为多节目应用程序(例如广播)设计的多路复用，使得单个输送流可容纳许多独立节目。

输送流包含一连串输送分组，且所述输送分组中的每一者的长度为188个字节。短的、固定长度的分组的使用意味着输送流不像节目流那样易出错。另外，通过经由标准错误保护过程(例如里德-所罗门编码)处理输送分组容易给予每一188字节长的输送分组额外的错误保护。输送流的提高的容错性意味着其有较好的机会来经受住例如将在广播环境中找到的易错信道。

似乎输送流明显是具有其提高的容错性与运载许多同时节目的能力的两个多路复用中的较佳者。然而，输送流是比节目流复杂得多的多路复用，且因此较难创建且多路分用。

输送分组的第一字节是同步字节，其为0x47(即，十六进制值47，或0100 0111)。单个输送流可运载许多不同节目，其各自包括许多经分组化的基本流。13位分组识别符(PID)字段用于区分含有一个基本流的数据的输送分组与运载其它基本流的数据的那些输送分组。确保每一基本流被授予唯一PID值是多路复用器的职责。输送分组的上一字节是连续性计数字段。这在属于同一基本流的连续输送分组之间递增。这使解码器能够检测输送分组的损失或增益，且希望隐藏此事件可能以其它方式导致的错误。

尽管根据PID值，输送分组属于哪一基本流是很明显的，但解码器也必须能够确定哪个基本流属于哪个节目。因此，节目特定信息用以明确地指定节目与分量基本流之间的关系。节目特定信息可包含节目映射表(PMT)、节目流映射(PSM)、节目关联表(PAT)、网络信息表(NIT)和/或有条件接入表(CAT)。

在输送流中运载的每一节目均具有与之相关联的节目映射表。此表提供关于节目以及来自所述节目的基本流的细节。举例来说，可存在具有编号3的节目，其含有具有PID33的视频、具有PID 57的英语音频，以及具有PID 60的中文音频。准许PMT包含一个以上节目。可用MPEG-2系统说明书内指定的许多描述符中的一些来装饰基本节目映射表。所述描述符传达关于节目或其分量基本流的进一步信息。所述描述符可包含(例如)视频编码参数、音频编码参数、语言识别、平移和扫描信息、有条件接入细节、版权信息等。若有需要，广播公司或其它用户可限定额外的私用描述符。在视频相关分量基本流中，还存在层级描述符，其提供信息来识别含有经层级译码的视频、音频和私用流的分量的节目元素。

PSM提供节目流中的基本流以及其彼此的关系的描述。当在输送流中运载时，将不根据MPEG-2系统说明书来修改此结构。当stream_id值为0xBC(十六进制值BC或10111100)时，存在PSM作为PES分组。

输送流中可用的所有节目的完整列表保存在节目关联表中。可容易地找到此表，因为其始终具有PID值0。列出每一节目以及含有其节目映射表的输送分组的PID值。使用上文所述的同一实例，指定节目编号3的基本流的PMT具有PID 1001，且另一PMT具有另一PID1002。此组信息包含于PAT中。

PAT中指定的节目编号零具有特定含义。此节目用以指出到网络信息表的路径。NIT是任选的。当存在时，NIT既定提供关于运载输送流的物理网络的信息，例如信道频率、卫星应答器细节、调制特性、服务发起者、业务名称，以及可用的替代网络的细节。

如果输送流内的任何基本流是杂乱的，那么根据MPEG-2系统说明书，必然存在有条件接入表。CAT提供使用中的加扰系统的细节且，提供含有有条件接入管理和服务鉴权信息的输送分组的PID值。此信息的格式并未在MPEG-2系统说明书中指定。

在MPEG-2TS中，将层级描述符设计成用信号通知不同基本流中的子位流的层级。层级描述符提供用以识别含有以层级方式译码的视频、音频和私用流的分量的节目元素的信息。下文再现MPEG-2系统说明书的表2-49：

表2-49-层级描述符

下文提供MPEG-2系统的表2-49的语法元素的语义：

temporal_scalability_flag-1位旗标，其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的帧速率。保留此旗标的值“1”。

spatial_scalability_flag-1位旗标，其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的空间分辨率。保留此旗标的值“1”。

quality_scalability_flag-1位旗标，其在设定为“0”时指示相关联的节目元素增强由hierarchy_embedded_layer_index所参考的节目元素产生的位流的SNR品质或保真度。此旗标的值“1”保留。

hierarchy_type-相关联层级层与其层级嵌入层之间的层级关系在表2-50中定义。如果可缩放性在一个以上维度中适用，那么此字段将被设定为值“8”(“组合可缩放性”)，且将相应地设定旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag。对于MVC视频子位流，此字段将被设定为值“9”(“MVC视频子位流”)，且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为“1”。对于MVC基础视图子位流，此字段将被设定为值“15”，且旗标temporal_scalability_flag、spatial_scalability_flag和quality_scalability_flag将设定为“1”。

hierarchy_layer_index-hierarchy_layer_index是定义译码层层级的表中的相关联节目元素的唯一索引的6位字段。索引将在单个节目定义内是唯一的。对于符合在Rec.ITU-T H.264|ISO/IEC 14496-10的附件G中定义的一或多个简档的AVC视频流的视频子位流，此为节目元素索引，以如果同一存取单元的视频子位流的相关联SVC依赖性表示按照hierarchy_layer_index的递增次序来重新组合那么位流次序将正确的方式来指派所述节目元素索引。对于符合在Rec.ITU-T H.264|ISO/IEC 14496-10的附件H中定义的一或多个简档的AVC视频流的MVC视频子位流，此为节目元素索引，以如果同一存取单元的MVC视频子位流的相关联的MVC视图分量子集合以hierarchy_layer_index的递增次序来重新组合那么位流序将是正确的方式来指派所述节目元素索引。

tref_present_flag-1位旗标，当其设定成“0”时指示TREF字段可存在于相关联基本串流中的PES分组标头中。此旗标的值“1”保留。

hierarchy_embedded_layer_index-hierarchy_embedded_layer_index为6位字段，其定义需要存取且在解码与此hierarchy_descriptor相关联的基本流之前存在于解码次序中的节目元素的hierarchy_layer_index。如果hierarchy_type值为15，那么此字段未经定义。

hierarchy_channel-hierarchy_channel为6位字段，其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳固的发射信道由关于整体发射层级定义的此字段的最低值来定义。给定hierarchy_channel可同时指派给若干节目元素。

下文再现MPEG-2系统说明书的表2-50：

表2-50-Hierarchy_type字段值

值	描述
		0	保留
1	空间可缩放性
		2	SNR可缩放性
3	时间可缩放性
		4	数据分割
5	扩展位流
		6	私用流
7	多视图简档
		8	组合可缩放性
9	MVC视频子位流
		10-14	保留
15	MVC的基础层或MVC基础视图子位流或AVC视频子位流

在MPEG-2TS中，将两个描述符分别设计成SVC和MVC的子位流的信号特性：SVC扩展描述符和MVC扩展描述符。SVC和MVC为ITU-T H.264/AVC的可缩放视频译码和多视图视频译码扩展。另外，在MPEG-2TS中，存在描述操作点的特性的MVC操作点描述符。下文提供三个描述符的语法和语义。

下文的表2-96说明MPEG-2系统的SVC扩展描述符的语法元素。对于符合Rec.ITU TH.264|ISO/IEC 14496-10的附件G中定义的一或多个简档的AVC视频流的视频子位流，表2-96的SVC扩展描述符提供关于通过重新组合(至多)相关联视频子位流而产生的AVC视频流的信息，且提供关于相关联视频子位流的可缩放性和重新组合的信息。可存在与符合Rec.ITU-T H.264|ISO/IEC 14496-10的附件G中定义的一或多个简档的AVC视频流的视频子位流中的任一者相关联的一个SVC扩展描述符。

表2-96-SVC扩展描述符

下文提供根据MPEG-2系统说明书的表2-96的语法元素的语义：

宽度-此16位字段指示经重新组合的AVC视频流的像素中的最大图像宽度分辨率。

高度-此16位字段指示经重新组合的AVC视频流的像素中的最大图像高度分辨率。

frame_rate-此16位字段指示经重新组合的AVC视频流的帧/256秒中的最大帧速率。

average_bitrate-此16位字段指示经重新组合的AVC视频流的平均位速率，以kbit每秒为单位。

maximum_bitrate-此16位字段指示经重新组合的AVC视频流的最大位速率，以kbit每秒为单位。

dependency_id-此3位字段指示与视频子位流相关联的dependency_id的值。

quality_id_start-此4位字段指示包含于相关联视频子位流中的所有NAL单元的网络抽象层(NAL)单元标头语法元素的quality_id的最小值。

quality_id_end-此4位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的quality_id的最大值。

temporal_id_start-此3位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最小值。

temporal_id_end-此3位字段指示包含于相关联视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最大值。

no_sei_nal_unit_present-此1位旗标在设定成“1”时，指示相关联视频子位流中不存在SEI NAL单元。在no_sei_nal_unit_present旗标针对所有SVC视频子位流设定成“1”且针对SVC的AVC视频子位流不设定成“1”或不存在的情况下，任何SEI NAL单元(如果存在)均包含于SVC的AVC视频子位流中。如果SVC扩展描述符针对所有视频子位流不存在，那么SEI NAL单元可存在于SVC视频子位流的任何SVC依赖性表示中，且可能需要在存取单元重新组合之前，对存取单元内的NAL单元的次序进行重新排序，如Rec.ITU-T H.264|ISO/IEC14496-10中所定义。

下文的表2-97提供MPEG-2系统说明书的MVC扩展描述符的语法。对于符合Rec.ITU-T H.264|ISO/IEC 14496-10的附件H中定义的一或多个简档的AVC视频流的MVC视频子位流，MVC扩展描述符提供关于由重新组合(至多)相关联MVC视频子位流而产生的AVC视频流的信息，且提供关于所包含的MVC视频子位流且用于相关联MVC视频子位流的重新组合的信息。可存在与符合Rec.ITU-T H.264|ISO/IEC 14496 10的附件H中所定义的一或多个简档的AVC视频流的MVC视频子位流(具有等于0x20的stream_type)中的任一者相关联的一个MVC扩展描述符。当MVC视频子位流为MVC基础视图子位流时，MVC扩展描述符将存在于stream_type等于0x1B的相关联PMT或PSM中。

表2-97-MVC扩展描述符

下文提供根据MPEG-2系统说明书的表2-97的语法元素的语义：

average_bitrate-此16位字段指示经重新组合的AVC视频流的平均位速率，以kbit每秒为单位。当设定成0时，不指示平均位速率。

maximum_bitrate-此16位字段指示经重新组合的AVC视频流的最大位速率，以kbit每秒为单位。当设定成0时，不指示最大位速率。

view_order_index_min-此10位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的视图次序索引的最小值。

view_order_index_max-此10位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的视图次序索引的最大值。

temporal_id_start-此3位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最小值。

temporal_id_end-此3位字段指示包含于相关联的MVC视频子位流中的所有NAL单元的NAL单元标头语法元素的temporal_id的最大值。

no_sei_nal_unit_present-此1位旗标在设定成“1”时，指示相关联视频子位流中不存在SEI NAL单元。在no_sei_nal_unit_present旗标针对所有MVC视频子位流设定成“1”，且针对MVC的AVC视频子位流不设定成“1”或不存在的情况下，任何SEI NAL单元(如果存在)均包含于MVC的AVC视频子位流中。如果MVC扩展描述符针对所有MVC视频子位流不存在，那么SEI NAL单元可存在于MVC视频子位流的任何MVC依赖性表示中，且可能需要在存取单元重新组合之前，对存取单元内的NAL单元的次序进行重新排序，如Rec.ITU-T H.264|ISO/IEC 14496-10中所定义。

no_prefix_nal_unit_present-此1位旗标在设定成“1”时，指示MVC的AVC视频子位流或MVC视频子位流中不存在前缀NAL单元。当此位设定成“0”时，其指示仅MVC的AVC视频子位流中存在前缀NAL单元。

下文的表2-100提供MPEG-2系统说明书的MVC操作点描述符的语法。MVC操作点描述符(见表2-100)提供指示各自由一组一或多个MVC视频子位流构成的一或多个操作点的简档和层级的方法。如果存在，那么MVC操作点描述符将包含于后接program_map_section中的program_info_length字段的数据元素群组中。如果节目描述内存在MVC操作点描述符，针对同一节目中存在的每一MVC视频子位流，将存在至少一个层级描述符。根据MPEG-2系统说明书，为了指示不同简档，每简档使用一个MVC操作点描述符。

表2-100-MVC操作点描述符

下文提供根据MPEG-2系统说明书的表2-100的语法元素的语义：

profile_idc-此8位字段指示MVC位流的此描述符内所描述的所有操作点的简档，如Rec.ITU-T H.264|ISO/IEC 14496-10中所定义。

constraint_set0_flag、constraint_set1_flag、constraint_set2_flag、constraint_set3_flag、constraint_set4_flag、constraint_set5_flag-将根据Rec.ITU-T H.264|ISO/IEC 14496-10中定义的这些字段的语义来译码这些字段。

AVC_compatible_flags-AVC_compatible_flags的语义完全等于针对constraint_set2旗标与序列参数集中的level_idc字段之间的2个位所定义的字段的语义，如Rec.ITU-T H.264|ISO/IEC 14496-10中所定义。

level_count-此8位字段指示针对其描述操作点的层级的数目。

level_idc-此8位字段指示以下数据元素群组所描述的操作点的MVC位流的层级，如Rec.ITU-T H.264|ISO/IEC 14496-10中所定义。

operation_points_count-此8位字段指示包含于以下数据元素群组中的列表所描述的操作点的数目。

applicable_temporal_id-此3位字段指示经重新组合的AVC视频流中的VCL NAL单元的temporal_id的最高值。

num_target_output_views-此8位字段指示目标是针对相关联操作点而输出的视图的数目的值。

ES_count-此8位字段指示包含于以下数据元素群组中的ES_reference值的数目。以下数据元素群组中所指示的基本流一起形成MVC视频位流的操作点。保留值0xff。

ES_reference-此6位字段指示识别视频子位流的层级描述符中存在的层级层索引值。可使用AVC视频描述符来用信号通知单个操作点(例如整个MVC视频位流)的简档和层级。除此之外，MVC允许解码可能需要不同简档和/或层级的不同视图子集。MVC操作点描述符的说明书支持多个操作点的不同简档和层级的指示。

下文的表X-1根据MPEG-2系统说明书提供HEVC视频描述符的语法。对于HEVC视频流，HEVC视频描述符提供用于识别HEVC视频流的译码参数的基本信息，例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集，HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。

表X-1-HEVC视频描述符

下文提供根据MPEG-2系统说明书的表X-1的语法元素的语义：

profile_space、tier_flag、profile_idc、profile_compatibility_indication、progressive_source_flag、interlaced_source_flag、non_packed_constraint_flag、frame_only_constraint_flag、reserved_zero_44bits、level_idc-当HEVC视频描述符应用于HEVC视频流或应用于HEVC完成时间表示时，将根据Rec.ITU-T H.265|ISO/IEC23008-2分别针对对应HEVC视频流或HEVC完成时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc而定义的语义来译码这些字段，且HEVC视频描述符与之相关联的整个HEVC视频流或HEVC完成时间表示将符合通过这些字段用信号通知的信息。

当HEVC视频描述符应用于对应HEVC最高时间子层表示不是HEVC完成时间表示的HEVC时间视频子位流或HEVC时间视频子集时，将根据Rec.ITU-T H.265|ISO/IEC23008-2中分别针对对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc来译码这些字段，且HEVC视频描述符与之相关联的整个HEVC最高时间子层表示将符合通过这些场用信号通知的信息。

在HEVC视频流中的一或多个序列中，层级可低于HEVC视频描述符中发信号通知的层级，同时还可出现作为在HEVC视频描述符中发信号通知的简档的子集的简档。然而，在整个HEVC视频流中，将仅使用整个位流语法的子集，其包含于在HEVC视频描述符中发信号通知的简档(如果存在)中。如果HEVC视频流信号中的序列参数集具有不同简档，且不用信号通知额外限制，那么所述流可需要检查来确定整个流符合哪一简档(如果存在的话)。如果HEVC视频描述符将与并不符合单个简档的HEVC视频流相关联，那么应将HEVC视频流分割成两个或更多个子流，使得HEVC视频描述符可用信号通知每一此类子流的单个简档。

temporal_layer_subset_flag-此1位旗标在设定成“1”时，指示描述时间层的子集的语法元素包含于此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流，此字段将设定成1。当设定成“0”时，语法元素temporal_id_min和temporal_id_max不包含于此描述符中。

HEVC_still_present_flag-此1位字段在设定成“1”时，指示HEVC视频流或HEVC最高时间子层表示可包含HEVC静止图片。当设定成“0”时，那么相关联的HEVC视频流将不含有HEVC静止图片。根据Rec.ITU-T H.265|ISO/IEC 23008-2，IDR图片始终关联到等于0的TemporalId值，因此，如果HEVC视频描述符应用于HEVC时间视频子集，那么HEVC静止图片可仅存在于相关联的HEVC时间视频子位流中。

HEVC_24_hour_picture_present_flag-此1位旗标在设定成“1”时，指示相关联的HEVC视频流或HEVC最高时间子层表示可含有HEVC 24小时图片。对于HEVC 24小时图片的定义，见2.1.97。如果将此旗标设定成“0”，那么相关联的HEVC视频流将不含有任何HEVC 24小时图片。

temporal_id_min-此3位字段指示TemporalId的最小值，如相关联基本流中的所有HEVC存取单元的Rec.ITU-T H.265|ISO/IEC 23008-2中所定义。

temporal_id_max-此3位字段指示TemporalId的最大值，如相关联基本流中的所有HEVC存取单元的Rec.ITU-T H.265|ISO/IEC 23008-2中所定义。

本发明认识到当尝试输送根据HEVC标准的扩展来编码的视频数据时，可能碰到某些问题。也就是说，不存在MPEG-2系统说明书中的HEVC扩展位流的支持。可使用层级描述符来以线性方式扩展层，意味着一个层仅具有一个直接相依层。然而，当前不存在在MPEG-2系统用信号通知多个直接相依层的方式。另外，如由hierarchy_type发信号通知的可缩放性的类型是有限的，且当前设计不足够一般。此外，MVC扩展描述符、SVC扩展描述符和MVC操作点描述符未经系统地设计，且对于HEVC或超出H.264/AVC的其它视频译码标准的扩展可能是无意义的。

图1是说明可利用用于输送根据视频译码标准的扩展来译码的视频数据的技术的实例视频编码和解码系统10的框图。如图1中所示，系统10包含源装置12，所述源装置提供将在稍后时间由目的地装置14解码的经编码视频数据。明确地说，源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括各种各样裝置中的任一者，包含桌上型计算机、笔记本型(即，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智慧型”电话)、平板机、电视机、相机、显示元件、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下，可装备源装置12和目的地装置14以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中，计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码的视频数据直接发射到目的地装置14。可根据通信标准(例如，无线通信协议)调制经编码的视频数据，并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于分组的网络(例如，局域网。广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。

在一些实例中，经编码数据可从输出接口22输出到存储装置。类似地，经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中，存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线频道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)，，或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式发射、下载发射或其组合。

本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者，例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频传输(例如，经由HTTP的动态自适应流式传输(DASH))、编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。

在图1的实例中，源装置12包含视频源18、视频编码器20、多路复用器21和输出接口22。目的地装置14包含输入接口28、多路分用器29、视频解码器30和显示装置32。根据本发明，源装置12的多路复用器21可经配置以应用用于输送根据视频译码标准的扩展而译码的视频数据的技术，而多路分用器29可接收用于此类数据来处理，并将经处理的视频数据转发到例如视频解码器30。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18(例如外部相机)接收视频数据。同样，目的地装置14可与外部显示装置介接，而非包含集成显示装置。

图1的所说明系统10仅为一个实例。用于输送根据视频译码标准的扩展而译码的视频数据的技术可由任何数字视频编码和/或解码装置来执行。尽管本发明的技术一般由视频编码装置来执行，但是所述技术也可由视频编码器/解码器(通常被称作“编码解码器”)来执行。此外，本发明的技术还可由视频预处理器执行。源装置12和目的地装置14仅为源装置12产生经译码视频数据以供发射到目的地装置14的所述译码装置的实例。在一些实例中，装置12、14可以大体上对称的方式操作，使得装置12、14中的每一者包含视频编码和解码组件。因此，系统10可支持视频装置12、14之间的单向或双向视频发射以(例如)用于视频流式传输、视频回放、视频广播或视频电话。

源装置12的视频源18可包含视频捕获装置，例如摄像机、含有先前所捕获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案，视频源18可以产生基于计算机图形的数据作为源视频，或直播视频、存档视频与计算机产生的视频的组合。在一些情况下，如果视频源18为摄像机，那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而，如上文所提到，本发明中所描述的技术可大体上适用于视频译码，且可应用于无线和/或有线应用。在每一情况下，俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络发射，或存储媒体(即，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未图示)可从源装置12接收经编码视频数据，并且(例如)经由网络传输将经编码视频数据提供到目的地装置14。类似地，媒体生产设施(例如，光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据，且生产含有经编码的视频数据的光盘。因此，在各种实例中，计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的也供视频解码器30使用的语法信息，所述语法信息包含描述块以及其它经译码单元(例如，图片群组(GOP))的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20和视频解码器30可根据例如高效率视频译码(HEVC)标准等视频译码标准操作，并且可符合HEVC测试模型(HM)。或者，视频编码器20和视频解码器30可根据其它专有或业界标准操作，所述标准例如ITU-T H.264标准，或者被称作MPEG-4第10部分高级视频译码(AVC)，或此类标准的扩展。但是，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。

ITU-T H.264/MPEG-4(AVC)标准是作为被称为联合视频小组(JVT)的集体联盟的产品而由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)制定。在一些方面中，本发明中所描述的技术可应用于通常符合H.264标准的装置。H.264标准描述于ITU-T研究组的日期为2005年3月的“ITU-T推荐H.264，用于通用视听服务的高级视频译码(ITU-TRecommendation H.264,Advanced Video Coding for generic audiovisual services)”中，其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4AVC的扩展。

视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任一者，例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时，装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。

JCT-VC正在致力于开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假定视频译码装置根据例如ITU-T H.264/AVC相对于现存装置的几个额外能力。举例来说，虽然H.264提供了九个帧内预测编码模式，但HM可提供多达三十三个帧内预测编码模式。

一般来说，HM的工作模型描述视频帧或图像可划分成包含亮度和色度样本两者的树块或最大译码单元(LCU)(还被称作“译码树单元”)序列。位流内的语法数据可界定LCU(其为就像素数目来说的最大译码单位)的大小。切片包含按译码次序的若干连续树块。视频帧或图片可被分割成一或多个切片。每一树块可根据四叉树分裂成若干译码单元(CU)。一般来说，四叉树数据结构包含每个CU一个节点，其中根节点对应于所述树块。如果一CU分裂成四个子CU，那么对应于CU的节点包含四个叶节点，其中的每一者对应于所述子CU中的一者。

四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，其指示对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可递归地来定义，且可取决于CU是否分裂成数个子CU。如果CU不进一步分裂，那么将其称为叶CU。在本发明中，叶CU的四个子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16x16大小的CU不进一步分裂，那么这四个8x8子CU将也被称作叶CU，虽然16x16 CU从未分裂。

CU具有与H.264标准的宏块类似的目的，除了CU不具有大小区别。举例来说，树块可分裂成四个子节点(也称为子CU)，且每一子节点又可为父节点且分裂成另外四个子节点。最终的未经分裂子节点(被称作四叉树的叶节点)包括译码节点，也被称作叶CU。与经译码位流相关联的语法数据可定义树块可分裂的最大次数，被称作最大CU深度，且还可定义译码节点的最小大小。因此，位流还可界定最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或TU中的任一者，或者其它标准的上下文中的类似数据结构(例如，其在H.264/AVC中的宏块和子块)。

CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可介于8×8个像素至多达具有最大64×64个像素或更大的树块大小的范围内。每一CU可以含有一或多个PU和一或多个TU。举例来说，与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可在CU经跳过或直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有所不同。PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述CU根据四叉树到一或多个TU的分割。TU的形状可为正方形或非正方形(例如，矩形)。

HEVC标准允许根据TU的变换，TU可针对不同CU而不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定，但情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，对应于CU的残差样本可使用被称为“残差四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数，所述变换系数可经量化。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于对应CU的全部或一部分的空间区域，且可包含用于检索PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可包含在残差四叉树(RQT)中，残差四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含定义PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，及/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(也称为TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可指示叶CU是否分裂成四个变换单元。接着，每一变换单元可进一步分裂成更多个子TU。当TU未进一步分裂时，其可被称作叶TU。一般来说，对于帧内译码，属于叶CU的所有叶TU共享相同的帧内预测模式。也就是说，一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式针对每一叶TU计算残差值，作为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，PU可与同一CU的对应叶TU并置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

此外，叶CU的TU还可与相应的四叉树数据结构(被称作残差四叉树(RQT))相关联。也就是说，叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说，除非以其它方式提到，否则本发明分别使用术语CU和TU来指叶CU和叶TU。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据，所述语法数据描述GOP中所包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，并且根据指定的译码标准可在大小上有所不同。

作为实例，HM支持各种PU大小的预测。假定特定CU的大小为2N×2N，那么HM支持2N×2N或N×N的PU大小的帧内预测，以及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而将另一方向分割成25％和75％。CU的对应于25％分割区的部分由“n”、后面接续“上方(Up)”、“下方(Down)”、“左侧(Left)”或“右侧(Right)”的指示来指示。因此，例如，“2N×nU”是指经水平分割的2N×2N CU，其中顶部为2N×0.5N PU，而底部为2N×1.5N PU。

在本发明中，“NxN”与“N乘N”可互换地使用以依据垂直和水平维度来指代视频块的像素维度，例如，16x16像素或16乘16像素。大体来说，16x16块将在垂直方向上具有16个像素(y＝16)，且在水平方向上具有16个像素(x＝16)。同样，NxN块总体上在垂直方向上具有N个像素，并且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可布置成行和列。此外，块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说，块可包括NxM个像素，其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后，视频编码器20可计算用于CU的TU的残差数据。PU可包括描述在空间域(也称为像素域)中产生预测性像素数据的方法或模式的语法数据，并且TU可包括在对残差视频数据应用变换(例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后变换域中的系数。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残差数据的TU，且接着变换所述TU以产生用于CU的变换系数。

在任何用于产生变换系数的变换之后，视频编码器20可执行变换系数的量化。量化大体上指代对变换系数进行量化以尽可能减少用以表示所述系数的数据的量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说，n位值可在量化期间被下舍入到m位值，其中n大于m。

在量化之后，视频编码器可扫描变换系数，从包含经量化的变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前面，并且将较低能量(且因此较高频率)的系数放置在阵列的后面。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化的变换系数，以产生可经熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来对一维向量进行熵编码。视频编码器还20还可对与经编码视频数据相关联的语法元素进行熵编码，以供视频解码器30在解码视频数据时使用。

为了执行CABAC，视频编码器20可向待发射的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可为待发射的符号选择可变长度码。VLC中的码字可构造成使得相对较短的码对应于更有可能的符号，而较长的码对应于不太可能的符号。以此方式，使用VLC可例如实现优于针对待发射的每一符号使用等长度码字的位节省。概率确定可基于指派给符号的上下文。

本发明描述用于HEVC扩展位流的运载的技术。也就是说，根据本发明的技术，多路复用器21和/或多路分用器29可经配置以输送根据视频译码标准(例如HEVC或其它尚未在开发的视频译码标准)的扩展来译码的视频数据(也就是说，发送或接收视频数据)。一般来说，多路复用器21可包封经编码的视频数据以形成位流，例如大体上根据MPEG-2系统和本发明的技术，而多路分用器29可接收和去包封所包封的数据，例如根据视频译码标准(例如HEVC)的扩展而编码的视频数据。

本发明提出可用于用信号通知用于HEVC层(基本流)的数据的层级扩展描述符。多路复用器21可经配置以形成层级扩展描述符，而多路分用器29可使用层级扩展描述符来处理接收到的视频数据，例如将视频数据汇编成可供视频解码器30使用的形式。尽管图1的实例中未图示，但中间装置也可使用层级扩展描述符，例如来执行子位流提取。举例来说，具有媒体知识的网络元件(MANE)可使用层级扩展描述符来执行子位流提取。层级扩展描述符可包含以下信息项目中的一或多者：

a.一系列可缩放性位，其各自指示一个特定可缩放维度的增强。

i.当前不为时间可缩放性指派位，且通过层级描述符来实现时间子层的组合。

ii.或者，可将时间可缩放性作为可缩放性位的一部分来发信号通知。

b.对应于此子位流的TemporalId，其中所述TemporalId是依赖层已组合以形成可完全解码的位流之后的最高TemporalId。

i.或者，指定TemporalId范围(最低TemporalId和最高TemporalId)。

c.指向当前基本流的索引。

d.当前基本流的层识别符。

i.或者，可指定多个层识别符，且此子位流对应于含有多个层的基本流。

e.一或多个层以及指向对应于所述一或多个层中的一者的每一基本流的索引。

f.或者，层级扩展描述符可包含结合每一可能TemporalId的每一层的上述信息。

举例来说，层级扩展描述符可包含一组位，其中的每一者对应于特定类型的可缩放性维度。每一位的值可指示位流中是否存在可缩放性维度。以此方式，层级扩展描述符可包含表示针对不同类型(例如空间、PSNR、色度位深度、色彩格式、色域格式等)的多个可缩放性维度中的任一者是否存在视频数据的数据。因此，层级扩展描述符可用于指示存在符合同一基础层的不同可缩放性维度的两个或更多个增强层。在一些实例中，时间可缩放性数据可与层级扩展描述符分开。举例来说，层级描述符可指示针对时间可缩放性的时间子层，且层级扩展描述符可指示针对其它可缩放性维度的数据。

另外或替代地，多路复用器21和/或多路分用器29可经配置以译码对MPEG-2系统说明书的层级描述符的扩展的语法元素。扩展部分可用信号通知指向其它参考基本流的索引。

本发明还描述HEVC扩展描述符，多路复用器21和/或多路分用器29可对其进行译码(分别编码或解码)。HEVC扩展描述符可描述基本流可如何组合来形成可供服务提供商使用和推荐的操作点。在一些实例中，HEVC扩展描述符可有条件地存在于HEVC描述符中。根据本发明的技术，多路复用器21和多路分用器29可经配置以译码指示是否存在HEVC扩展描述符的HEVC描述符的语法元素。对于每一操作点，当存在时，可在HEVC扩展描述符中发信号通知以下各条信息中的一或多者：

a.属于目标输出层的层。

i.另外或替代地，仅存在目标输出层的数目。

ii.另外或替代地，发信号通知指向所有基本流的索引值。

b.每一操作点的简档、层级和层次信息。

c.位速率信息。

d.帧速率信息。

e.最高TemporalId。

f.空间分辨率信息，例如1)所有目标输出层的最高空间分辨率，2)最高目标输出层的空间分辨率或3)每一目标输出层的空间分辨率。

g.位深度信息，例如1)所有目标输出层的最高位深度，2)最高目标输出层的位深度，或3)每一目标输出层的位深度。

h.色彩格式(例如4:0:0、4:2:0、4:2:2或4:4:4)，例如1)所有目标输出层的最高色彩格式，2)最高目标输出层的色彩格式，或3)每一目标输出层的色彩格式。

i.色域格式(例如BT 709或BT 2020)，例如1)所有目标输出层的最高色域格式，2)最高目标输出层的色域格式，或3)每一目标输出层的色域格式。

j.指示时间子层上切换在基本流的每一存取单元处是否可能的旗标。

下文描述用于本发明的各种技术的语法和语义，其中斜体文本表示对MPEG-2系统说明书的添加。

HEVC视频子位流：将视频子位流定义为与nuh_layer_id的同一值相关联的所有VCL NAL单元(符合Rec.ITU-T H.265|ISO/IEC 23008-2附件A、G.11或H.11中定义的一或多个简档的HEVC视频流)，以及如Rec.ITU-T H.265|ISO/IEC 23008-2中定义的按解码次序的所有相关联非VCL NAL单元。以从等于0的nuh_layer_id开始至多达产生HEVC视频流的nuh_layer_id的任何值的nuh_layer_id的连续次序来重新组合视频子位流。视频子位流将具有如在Rec.ITU-T H.265|ISO/IEC 23008-2的附件B中定义的HEVC字节流格式。

HEVC扩展视频流：符合Rec.ITU-T H.265|ISO/IEC 23008-2G.11或H.11中定义的一或多个简档的视频位流。

HEVC视频序列(系统)：如Rec.ITU-T H.265|ISO/IEC 23008-2中定义的经译码视频序列。

表2-45-节目和节目元素描述符

descriptor_tag	TS	PS	识别
				0	n/a	n/a	保留
1	n/a	X	禁用
				2	X	X	video_stream_descriptor
3	X	X	audui_stream_descriptor
				4	X	X	hierarchy_descriptor
…
				57	X	n/a	hierarchy_extension_descriptor
58	X	n/a	HEVC_extension_descriptor
				59-62	n/a	n/a	Rec.ITU-T H.222.0\|ISO/IEC 13818-1保留
63	X	X	Extension_discriptor
				64-255	n/a	n/a	用户私用

层级扩展描述符(例如根据下文的表2-49)提供信息来识别含有经层级译码的视频、音频和私用流的分量的节目元素。

表2-49-层级扩展描述符

下文提供层级扩展描述符的实例语义：

当存在层级扩展描述符时，其用以指定不同基本流中存在的层的相关性。然而，时间子层的聚集是通过如ISO/IEC 13818-1的Amd.3中指定的层级描述符来认识到的。

extension_dimension_bits-指示来自因具有等于0的nuh_layer_id的层的节目元素而产生的基础层的相关联节目元素的可能增强的16位字段。

将位分配给增强维度可如下。

位索引	描述
		0	多视图增强
1	空间可缩放性，包含SNR
		2	深度增强
3	AVC基础层
		4	MPEG-2基础层
5～15	保留

等于1的第i位可指示存在对应的增强维度。

hierarchy_layer_index-hierarchy_layer_index是定义译码层层级的表中的相关联节目元素的唯一索引的6位字段。索引在单个节目定义内将是唯一的。对于符合Rec.ITU-T H.265|ISO/IEC 23008-2的附件G或H中定义的一或多个简档的HEVC视频流的视频子位流，此为节目元素索引，其以以下方式指派：如果同一存取单元的视频子位流的相关联相关层按hierarchy_layer_index的递增次序重新组合，那么所述位流次序将为正确的。

tref_present_flag-1位旗标，当其设定成“0”时，指示TREF字段可存在于相关联基本流中的PES分组标头中。保留此旗标的值“1”。

nuh_layer_id-6位字段指定与hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高nuh_layer_id。

temporal_id-3位字段指定与hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高TemporalId。

num_embedded_layers-6位字段，其指定在解码与此hierarchy_extension_descriptor()相关联的基本流之前需要存取且以解码顺序存在的直接相关节目元素的数目。

hierarchy_ext_embedded_layer_index-hierarchy_ext_embedded_layer_index是6位字段，其定义在解码与hierarchy_extension_descriptor相关联的基本流之前需要存取且以解码次序存在的节目元素的hierarchy_layer_index。如果hierarchy_type值为15，那么此字段未经定义。

hierarchy_channel-hierarchy_channel是6位字段，其指示用于发射信道的有序集合中的相关联节目元素的既定信道编号。最稳健的发射信道由关于整体发射层级定义的此字段的最低值来定义。给定hierarchy_channel可同时指派给若干节目元素。

另外或替代地，一个基本流中可存在多个层。当支持基本流中的多个层时，层级扩展描述符如下设计，添加是以斜体文本突出显示，且删除由[去除：“”]来表示。

表2-49-层级扩展描述符

在此实例中，将64个layer_present_flag添加到MPEG-2系统的层级扩展描述符，且将nuh_layer_id元素从MPEG-2系统的层级扩展描述符去除。layer_present_flag的语义可如下定义：

layer_present_flag-1位字段，当被指派值“1”时，指示具有指向hierarchy_layer_index的基本流的索引的基本流中存在具有等于ⅰ的nuh_layer_id的层的NAL单元。所述组layer_present_flag位表示各自对应于多个增强层中的相应一个的多个可缩放性位的实例，其中所述可缩放性位中的每一者的值指示所述相应的增强层是否包含于对应于层级扩展描述符的基本流中。

另外或替代地，具有某一范围的时间子层的一个基本流中可存在多个层。当支持时，层级扩展描述符可如下设计，使用斜体文本来突出显示添加。

表2-49-层级扩展描述符

在此实例中，相对于先前实例，进一步添加min_temporal_id和max_temporal_id语法元素。这些语法元素的语义可如下定义：

min_temporal_id-3位字段，其指定与hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最低TemporalId。

max_temporal_id-3位字段，其指定与hierarchy_extension_descriptor()相关联的基本流中的NAL单元的最高TemporalId。

对于HEVC视频流，HEVC视频描述符提供用于识别HEVC视频流的译码参数的基本信息，例如简档和层级参数。对于HEVC时间视频子位流或HEVC时间视频子集，HEVC视频描述符提供例如包含于其应用于的基本流中的相关联HEVC最高时间子层表示的信息。下文展示表X-1的语法，其中斜体文本表示相对于MPEG-2系统的添加：

表X-1-HEVC视频描述符

表X-1的语义可如下定义：

当HEVC视频描述符应用于对应HEVC最高时间子层表示不是HEVC完成时间表示的HEVC时间视频子位流或HEVC时间视频子集时，将根据Rec.ITU-T H.265|ISO/IEC 23008-2中分别针对对应HEVC最高时间子层表示的sub_layer_profile_space、sub_layer_tier_flag、sub_layer_profile_idc、sub_layer_profile_compatibility_flag[i]、sub_layer_progressive_source_flag、sub_layer_interlaced_source_flag、sub_layer_non_packed_constraint_flag、sub_layer_frame_only_constraint_flag、sub_layer_reserved_zero_44bits、sub_layer_level_idc来译码这些字段，且HEVC视频描述符与之相关联的整个HEVC最高时间子层表示将符合通过这些场用信号通知的信息。

temporal_layer_subset_flag-此1位旗标在设定成“1”时，指示描述时间层的子集的语法元素被包含于此描述符中。对于HEVC时间视频子集且对于HEVC时间视频子位流，此字段将设定成1。当设定成“0”时，语法元素temporal_id_min和temporal_id_max不包含于此描述符中。

HEVC_24_hour_picture_present_flag-此1位旗标在设定成“1”时，指示相关联的HEVC视频流或HEVC最高时间子层表示可含有HEVC 24-小时图片。对于HEVC 24小时图片的定义，见2.1.97。如果将此旗标设定成“0”，那么相关联的HEVC视频流将不含有任何HEVC 24小时图片。

hevc_extension_present_flag-此1位旗标在设定成“1”时，指示HEVC扩展描述符作为HEVC描述符的一部分而存在。当设定成“0”时，HEVC扩展描述符不存在。hevc_extension_present_flag表示HEVC视频描述符的HEVC扩展存在语法元素的一个实例，其中HEVC扩展存在语法元素指示HEVC扩展描述符是否作为HEVC描述符的一部分而存在。

另外或替代地，HEVC扩展描述符可存在于其它地方，例如PMT和PSM中。

可将表X的以下HEVC扩展描述符添加到MPEG-2系统说明书，且多路复用器21和多路分用器29可经配置以相应地译码HEVC扩展描述符的数据。

表X-HEVC扩展描述符

表X的语法元素的语义可如下定义：

num_operation_points-8位字段，其指定此描述符中的指定操作点的数目。

profile_space-2位字段，其指定对于在0到31(包含0和31)的范围内的ⅰ的所有值，profile_idc的解译环境。profile_space将不被指派除Rec.ITU T H.265|ISO/IEC23008-2的附件A或子条款G.11中或子条款H.11中所指定的那些值之外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。

tier_flag-1位字段，其指定用于如在Rec.ITU T H.265|ISO/IEC 23008-2的附录A或子条款G.11或子条款H.11中指定的level_idc的解译的层次环境。

profile_idc-5位字段，其在profile_space等于0时，指示如Rec.ITU T H.265|ISO/IEC23008-2的附件A中指定的CVS所符合的简档。profile_idc将不被指派除Rec.ITU TH.265|ISO/IEC 23008-2的附件A或G.11或H.11中指定的那些值之外的值。保留profile_idc的其它值以供ITU-T|ISO/IEC将来使用。

profile_compatibility_indication、progressive_source_flag、interlaced_source_flag、non_packed_constraint_flag、frame_only_constraint_flag、reserved_zero_44bits、level_idc-当HEVC扩展视频描述符应用于HEVC扩展视频流时，将根据Rec.ITU-T H.265|ISO/IEC 23008-2中分别针对对应的HEVC视频流或HEVC扩展视频流或HEVC完整时间表示的general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flag[i]、general_progressive_source_flag、general_interlaced_source_flag、general_non_packed_constraint_flag、general_frame_only_constraint_flag、general_reserved_zero_44bits、general_level_idc而定义的语义来译码这些字段，且HEVC视频描述符与之相关联的整个HEVC视频流或HEVC完整时间表示将符合这些字段发信号通知的信息。

level_idc-8位字段，其指示如Rec.ITU T H.265|ISO/IEC 23008-2的附件A、G.11或H.11中指定的CVS所符合的层级。level_idc将不被指派除Rec.ITU T H.265|ISO/IEC23008-2的附件A、G.11或H.11中指定的那些值之外的level_idc的值。保留level_idc的其它值以供ITU-T|ISO/IEC将来使用。

reserved_zero-5个位-值为“0”的保留的5位字段。

max_temporal_id-3位字段，其指定第i操作点中的层的NAL单元的最高TemporalId。

hevc_output_layer_flag-1位字段，其在被指派值“1”时，指示具有等于ⅰ的nuh_layer_id的层属于输出层集合，且需要在第i操作点经解码时输出。当被指派值“0”时，具有等于ⅰ的nuh_layer_id的层不属于输出层集合。当第i hevc_output_layer_flag等于“1”时，第i hevc_layer_present_flag的值将等于“1”。

average_bitrate-16位字段，其指示对应于第i操作点的HEVC扩展视频流的平均位速率，以kbit每秒为单位。

maximum_bitrate-16位字段，其指示对应于第i操作点的HEVC扩展视频流的最大位速率，以kbit每秒为单位。

frame_rate-16位字段，其指示对应于第i操作点的HEVC扩展视频流的最大帧速率，以帧/256秒为单位。

另外或替代地，对于输出层集合的每一层，nuh_layer_id值直接存在。

另外或替代地，另外发信号通知不同环路的旗标，其各自指示操作点中存在的层。

hevc_layer_present_flag-1位字段，其在被指派值“1”时，指示对应于此描述符中定义的第i操作点的HEVC扩展视频流中存在具有等于ⅰ的nuh_layer_id的层的NAL单元。当被指派值“0”时，其指示具有等于ⅰ的nuh_layer_id的层的NAL单元不存在。

另外或替代地，当不发信号通知存在的层时，可发信号通知待解码的层的数目。

在适用时，多路复用器21、多路分用器29、视频编码器20和视频解码器30各自可实施为多种合适的编码器或解码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为组合式视频编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如，蜂窝式电话)。

以此方式，多路复用器21表示包含以下各项的装置的实例：存储器，所述存储器用于存储视频数据，所述视频数据包含根据视频译码标准的扩展来译码的增强层以及所述增强层所取决于的两个或更多个参考层，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一参考层，以及符合第二可缩放性维度的第二参考层，且其中第一可缩放性维度不同于第二可缩放性维度；以及一或多个处理器，其经配置以编码层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据。

同样地，多路分用器29表示包含以下各项的装置的实例：存储器，其用于存储根据视频译码标准的扩展来译码的视频数据的增强层；以及一或多个处理器，其经配置以：解码包含所述增强层的基本流的层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；且至少部分地基于表示所述两个或更多个参考层的数据来处理所述视频数据。

图2是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频编码器20的实例的框图。视频数据可包含对基础层的多个(例如，两个或更多个)增强层，其中所述增强层可对应于不同的可缩放性维度。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间或层间预测来减少或去除视频序列或参考层(例如参考视图)的帧或图片内的视频中的冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。

如图2中所示，视频编码器20接收待编码的视频帧内的当前视频块。在图2的实例中，视频编码器20包含模式选择单元40、参考图片存储器64、求和器50、变换处理单元52、量化单元54和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。为了视频块重构，视频编码器20还包含逆量化单元58、逆变换单元60和求和器62。还可包含去块滤波器(图2中未图示)以便对块边界进行滤波，以从经重构视频去除成块性假影。在需要时，去块滤波器将通常对求和器62的输出进行滤波。除了去块滤波器外，还可使用额外滤波器(环路中或环路后)。为简洁起见未图示此些滤波器，但是必要时，此些滤波器可对求和器50的输出进行滤波(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42和运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次，例如以为每一视频数据块选择适当的译码模式。

此外，分割单元48可基于先前译码遍次中的先前分割方案的评估，将视频数据块分割成若干子块。举例来说，分割单元48可最初将帧或切片分割成LCU，并基于速率失真分析(例如，速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可进一步产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。

模式选择单元40可例如基于错误结果来选择译码模式中的一者，帧内或帧间，且将所得的经帧内或帧间预测的块提供给求和器50以产生残差块数据，并提供给求和器以重构用于参考帧中的经编码块。模式选择单元40还将语法元素(例如，运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供给熵编码单元56。

运动估计单元42和运动补偿单元44可高度集成，但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生估计视频块的运动的运动向量的过程。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块是被发现在像素差方面与待译码块紧密匹配的块，像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中，视频编码器20可计算存储于参考图片存储器64中的参考图片的次整数像素位置的值。举例来说，视讯编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索，并输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，其中的每一个识别存储在参考图片存储器64中的一或多个参考图片。运动估计单元42向熵编码单元56和运动补偿单元44发送所计算的运动向量。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来获取或产生预测性块。并且，在一些实例中，运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44可即刻在参考图片列表中的一者中定位所述运动向量所指向的预测性块。求和器50通过从正译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残差视频块，如下文所论述。一般来说，运动估计单元42相对于亮度分量执行运动估计，且运动补偿单元44针对色度分量和亮度分量两者使用基于亮度分量而计算的运动向量。模式选择单元40还可产生与视频块和视频切片相关联的语法元素，以供视频解码器30在解码视频切片的视频块时使用。

或者，运动估计单元42可对相关层中的图片的块执行层间(例如视图间)预测。举例来说，运动估计单元42可经配置以在执行相关视图中的图片的视图间预测时计算视差运动向量。在其它实例中，例如当增强层对应于针对其来说增强层的块位于与正增强的基础层中的块相同或大体上相同的位置处的可缩放性维度时，运动补偿单元44可在执行层间预测时执行块的零运动向量预测。此可缩放性维度可包含(例如)色度位深度、色彩格式、色域、PSNR等。

作为对如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案，帧内预测单元46可帧内预测当前块。明确地说，帧内预测单元46可确定用于对当前块进行编码的帧内预测模式。在一些实例中，帧内预测单元46可例如在分开的编码遍次期间使用各种帧内预测模式编码当前块，且帧内预测单元46(或在一些实例中为模式选择单元40)可从所述测试模式中选择适当帧内预测模式来使用。

举例来说，帧内预测单元46可使用速率-失真分析计算针对各种受测帧内预测模式的速率-失真值，且从所述受测模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(即，位数)。帧内预测单元46可从用于各种经编码块的失真和速率计算比率，以确定哪一帧内预测模式对于所述块展现最好速率-失真值。

在选择用于块的帧内预测模式后，帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20在所发射的位流中可包含配置数据，其可包含多个帧内预测模式索引表以及多个经修改的帧内预测模式索引表(也称为码字映射表)，对用于各种块的上下文进行编码的定义，以及对最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。

视频编码器20通过从正译码的原始视频块减去来自模式选择单元40的预测数据而形成残差视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残差块，从而产生包括残差变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。也可使用子波变换、整数变换、子带变换或其它类型的变换。

在任何情况下，变换处理单元52将所述变换应用于残差块，从而产生残差变换系数块。所述变换可将残差信息从像素值域转换到变换域(例如，频域)。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54将变换系数量化以进一步降低位速率。量化过程可减少与系数中的一些或全部相关联的位深度。量化过程也可被称作“按比例缩放”过程，且因此经量化的变换系数也可被称作“经按比例缩放的变换系数”。可通过调整量化参数来修改量化(或按比例缩放)的程度。在一些实例中，熵编码单元56可接着执行对包含经量化的变换系数的矩阵的扫描。

在量化之后，熵编码单元56对经扫描的经量化的变换系数进行熵译码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可基于相邻块。在熵编码单元56进行的熵译码之后，可将经编码位流发射到另一装置(例如，视频解码器30)，或者将所述经编码位流存档以用于稍后发射或检索。

逆量化单元58和逆变换单元60分别应用逆量化和逆变换，以重构像素域中的残差块，(例如)以用于稍后用作参考块。运动补偿单元44可通过将残差块与参考图片存储器64的帧中的一者的预测性区块相加来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残差块来计算用于在运动估计中使用的次整数像素值。求和器62将经重构的残差块添加到由运动补偿单元44产生的经运动补偿的预测块，以产生经重构的视频块以供存储在参考图片存储器64中。经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块，来对后续视频帧中的块进行帧间译码。

图3是说明可实施用于输送根据视频译码标准的扩展来译码的视频数据的技术的视频解码器30的实例的框图。在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考图片存储器82和求和器80。视频解码器30在一些实例中可执行一般与关于视频编码器20(图2)所描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收到的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收到的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码，以产生经量化系数、运动向量或帧内预测模式指示符以及其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。

当视频切片译码为经帧内译码(I)切片时，帧内预测单元74可基于发信号通知的帧内预测模式以及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当将视频帧译码为经帧间译码((即，B、P或GPB)切片时，运动补偿单元72基于从熵解码单元70接收到的运动向量和其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储在参考图片存储器82中的参考图片使用默认构造技术构造参考帧列表--列表0和列表1。

运动补偿单元72通过解析运动向量和其它语法元素来确定用于当前视频切片的视频块的预测信息，且使用所述预测信息来产生用于正解码的当前视频块的预测性块。举例来说，运动补偿单元72使用一些接收到的语法元素来确定用以译码视频片段的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测片段类型(例如，B片段、P片段或GPB片段)、用于片段的参考图片列表中的一或多者的建构信息、片段的每一经帧间编码的视频块的运动向量、片段的每一经帧间译码的视频块的帧间预测状态，以及解码当前视频片段中的视频块的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用如视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的经内插值。在此情况下，运动补偿单元72可根据接收到的语法元素来确定由视频编码器20使用的内插滤波器，并使用所述内插滤波器来产生预测性块。

在一些实例中，例如当增强层对应于针对其来说增强层的块位于与正增强的基础层中的块相同或大体上相同的位置处的可缩放性维度时，运动补偿单元72可在执行层间预测时执行块的零运动向量预测。此可缩放性维度可包含(例如)色度位深度、色彩格式、色域、PSNR等。或者，运动补偿单元72可使用视差运动向量来从一或多个参考视图(例如基础视图)预测相关视图的块。应理解，视图是层的一个实例。也就是说，当增强层是视图时，可缩放性维度可对应于视图维度(例如以提供用于为观察者产生三维效果的数据)。

逆量化单元76对在位流中提供且由熵解码单元70解码的经量化块系数进行逆量化，即去量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QP_Y来确定应应用的量化程度和同样的逆量化程度。逆变换单元78将逆变换(例如，逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数，以便产生像素域中的残差块。

在运动补偿单元72基于运动向量和其它语法元素产生当前视频块的预测性块后，视频解码器30通过对来自逆变换单元78的残差块与由运动补偿单元72产生的对应预测性块进行求和，来形成经解码的视频块。求和器80表示执行此求和运算的一或多个组件。视需要，还可应用去块滤波器来对经解码块进行滤波，以便驱除成块假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变平滑或者以其它方式改进视频品质。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中，参考图片存储器82存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现在显示装置(例如，图1的显示装置32)上。

图4是说明其中音频/视频(A/V)源装置120将音频和视频数据输送到A/V目的地装置140的实例系统100的框图。图4的系统100可对应于视频电话会议系统、服务器/客户端系统、广播器/接收器系统或其中视频数据从源装置(例如A/V源装置120)发送到目的地装置(例如A/V目的地装置140)的任何其它系统。在一些实例中，A/V源装置120和A/V目的地装置140可执行双向信息交换。也就是说，A/V源装置120和A/V目的地装置140可能够编码和解码(以及发射和接收)音频和视频数据。在一些实例中，音频编码器126可包含话音编码器，其还称为声码器。

在图4的实例中，A/V源装置120包括音频源122和视频源124。举例来说，音频源122可包括麦克风，其产生表示有待通过音频编码器126编码的所捕获的音频数据的电信号。或者，音频源122可包括存储媒体(其存储先前记录的音频数据)、音频数据产生器(例如计算机化的合成器)或任何其它音频数据源。视频源124可包括：摄像机，其产生待由视频编码器128编码的视频数据；编码有先前所记录的视频数据的存储媒体；视频数据产生单元；或任何其它视频数据源。

原始音频和视频数据可包括模拟或数字数据。模拟数据在由音频编码器126和/或视频编码器128编码之前可被数字化。音频源122可在说话参与者正在说话时从说话参与者获得音频数据，且视频源124可同时获得说话参与者的视频数据。在其它实例中，音频源122可包含包括所存储的音频数据的计算机可读存储媒体，且视频源124可包含包括所存储的视频数据的计算机可读存储媒体。以此方式，本发明中所描述的技术可应用于实况、流式、实时音频和视频数据或所存档的、预先记录的音频和视频数据。

对应于视频帧的音频帧总地来说是含有与在视频帧内所含有的由视频源124所捕获的视频数据同时发生的由音频源122所捕获的音频数据的音频帧。举例来说，当说话参与者通常通过说话来产生音频数据时，音频源122捕获所述音频数据，且视频源124同时(即，在音频源122正捕获所述音频数据的同时)捕获说话参与者的视频数据。因此，音频帧可在时间上对应于一个或一个以上特定视频帧。因此，音频帧对应于视频帧这种情况大体上对应于同时捕获到音频数据和视频数据且音频帧和视频帧分别包括同时捕获到的音频数据和视频数据的情形。

在一些实例中，音频编码器126可对每一经编码音频帧中的表示记录经编码音频帧的音频数据的时间的时戳进行编码，且类似地，视频编码器128可对每一经编码视频帧中的表示记录经编码视频帧的视频数据的时间的时戳进行编码。在此些实例中，对应于视频帧的音频帧可包括包含时戳的音频帧以及包含同一时戳的视频帧。A/V源装置120可包含内部时钟，音频编码器126和/或视频编码器128可从所述内部时钟产生时戳，或者音频源122和视频源124可使用所述内部时钟来分别使音频和视频数据与时戳相关联。

在一些实例中，音频源122可向音频编码器126发送对应于记录音频数据的时间的数据，且视频源124可向视频编码器128发送对应于记录视频数据的时间的数据。在一些实例中，音频编码器126可对经编码音频数据中的序列识别符进行编码，以指示经编码音频数据的相对时间排序，但未必指示记录音频数据的绝对时间，且类似地，视频编码器128也可使用序列识别符来指示经编码视频数据的相对时间排序。类似地，在一些实例中，序列识别符可映射或以其它方式与时戳相关。

本发明的技术大体上是针对于经编码多媒体(例如，音频和视频)数据的存储和输送，以及经输送多媒体数据的接收以及后续解译和解码。本发明的技术特别适用于多视点视频译码(MVC)数据，即包括多个视图的视频数据的输送。如图4的实例中所示，视频源124可向视频编码器128提供场景的多个视图。MVC可对产生将由三维显示器(例如立体或自动立体三维显示器)使用的三维视频数据有用。

A/V源装置120可向A/V目的地装置140提供“服务”。服务可大体上对应于MVC数据的可用视图的子集。举例来说，MVC数据可为可用于八个视图，排序为零到七。一个服务可对应于具有两个视图的立体视频，而另一服务可对应于四个视图，还有另一服务可对应于所有八个视图。一般来说，服务对应于所述可用视图的任何组合(即，任何子集)。服务还可对应于可用视图以及音频数据的组合。操作点可对应于服务，使得A/V源装置120可进一步为A/V源装置120所提供的每一服务提供操作点描述符。

根据本发明的技术，A/V源装置120能够提供对应于视图子集的服务。一般来说，视图由视图识别符(还被称作“view_id”)表示。视图识别符通常包括可用于识别视图的语法元素。当编码视图时，MVC编码器提供所述视图的view_id。view_id可由MVC解码器用于视图间预测，或由其它单元用于其它目的，例如用于渲染。

视图间预测是用于参考共用时间位置处作为不同视图的经编码帧的一或多个帧来编码帧的MVC视频数据的技术。一般来说，可在空间上、时间上和/或参考共用时间位置处的其它视图的帧来预测性地编码MVC视频数据的经编码帧。因此，从其预测其它视图的参考视图通常在所述参考视图为其充当参考的视图之前解码，使得当解码参考视图时，这些经解码视图可用于参考。解码次序不必对应于view_ids的次序。因此，使用视图次序索引来描述视图的解码次序。视图次序索引是指示存取单元中的对应视图分量的解码次序的索引。

每一个别数据流(不论是音频还是视频)可被称为基本流。基本流是节目的单个经数字译码(可能经压缩)的分量。举例来说，所述节目的经译码视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前，可首先将基本流转换成分组化基本流(PES)。在同一节目内，可使用流ID来区分属于一个基本流的PES包与属于其它基本流的PES包。基本流的数据的基础单元是分组化基本流(PES)分组。因此，MVC视频数据的每一视图对应于相应基本流。类似地，音频数据对应于一或多个相应基本流。

可将MVC经译码视频序列分成若干子位流，其中的每一者是基本流。可使用MVCview_id子集来识别每一子位流。基于每一MVC view_id子集的概念，定义MVC视频子位流。MVC视频子位流含有在MVC view_id子集中列出的视图的NAL单元。节目流通常仅含有来自基本流的那些视图的NAL单元。还设计成任何两个基本流无法含有相同的视图。

在图4的实例中，多路复用器130接收包括来自视频编码器128的视频数据的基本流，以及包括来自音频编码器126的音频数据的基本流。在一些实例中，视频编码器128和音频编码器126可各自包含用于从经编码数据形成PES分组的分组化器。在其它实例中，视频编码器128和音频编码器126可各自与从经编码数据形成PES分组的相应分组化器介接。在其它实例中，多路复用器130可包含用于从经编码音频和视频数据形成PES分组的分组化器。

如本发明中所使用的“节目”可包括音频数据和视频数据的组合，例如音频基本流和A/V源装置120的服务所传递的可用视图的子集的组合。每一PES分组包含stream_id，其识别PES包所属于的基本流。多路复用器130负责将基本流组合成组成节目流或输送流。节目流和输送流是目标为不同应用程序的两个替代多路复用。

一般来说，节目流包含用于一个节目的数据，而输送流可包含用于一或多个节目的数据。多路复用器130可基于正提供的服务、流将传递到其中的媒体、待发送的节目的数目或其它考量来编码节目流或输送流中的任一者或两者。举例来说，当视频数据将编码在存储媒体中时，多路复用器130可较有可能形成节目流，而当视频数据将经由网络流式传输、广播或作为视频电话的一部分发送时，多路复用器130可较有可能使用输送流。

多路复用器130可更偏好使用节目流来存储和显示来自数字存储服务的单个节目。节目流既定在无错误环境或较不容易遇到错误的环境中使用，因为节目流相当容易发生错误。节目流仅包括属于其的基本流，且通常含有具有可变长度的分组。在节目流中，将从起作用的基本流导出的PES分组组织为“包(pack)”。包包括包标头、任选系统标头以及按任何次序从起作用的基本流的任一者获取的任何数目的PES分组。系统标头含有节目流的特性的概述，例如其最大数据速率、起作用的视频和音频基本流的数目、进一步定时信息或其它信息。解码器可使用包含于系统标头中的信息来确定解码器是否能够解码所述节目流。

多路复用器130可使用输送流来进行多个节目在潜在易错信道上的同时递送。输送流是为例如广播等多节目应用设计的多路复用，使得单个输送流可容纳许多独立节目。输送流可包括一连串输送分组，且所述输送分组中的每一者的长度为188个字节。短的、固定长度的分组的使用导致输送流不像节目流那样易出错。此外，通过经由标准错误保护过程(例如里德-所罗门编码)处理分组来给予每一188字节长的输送分组额外的错误保护。输送流的改进的错误恢复意味着其有较好的机会来经受住例如将在广播环境中找到的易错信道。

归因于其增加的错误恢复和运载许多同时节目的能力，可能看起来输送流比节目流好。然而，输送流是比节目流复杂的多路复用，且因此比节目流难创建且多路分用起来较复杂。输送包的第一字节可为具有值0x47(十六进制的47、二进制的“01000111”、十进制的71)的同步字节。单个输送流可运载许多不同节目，每一节目包括许多经分组化的基本流。多路复用器130可使用十三位分组识别符(PID)字段来将含有一个基本流的数据的输送分组与运载其它基本流的数据的那些分组区分开。确保每一基本流被授予唯一PID值是多路复用器的职责。输送分组的上一字节可为连续性计数字段。多路复用器130使属于同一基本流的连续输送分组之间的连续性计数字段的值递增。这使得目的地装置(例如A/V目的地装置140)的解码器或其它单元能够检测输送分组的损失或增益，且希望隐藏此事件原本可能导致的错误。

多路复用器130接收来自音频编码器126和视频编码器128的节目的基本流的PES分组，并从所述PES分组形成对应的网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中，经译码视频片段被组织成NAL单元，所述单元提供“网络友好”的视频表示，其处理例如视频电话、存储、广播或流式传输的应用。NAL单元可分类为视频译码层(VCL)NAL单元和非VCL NAL单元。VCL单元含有用于核心压缩引擎的数据，且可包括块、宏块和/或切片层级。其它NAL单元为非VCL NAL单元。

多路复用器130可形成NAL单元，所述NAL单元包括识别NAL所属的节目的标头，以及有效负载，例如音频数据、视频数据或描述NAL单元所对应的输送或节目流的数据。举例来说，在H.264/AVC中，NAL单元包含1字节标头以及不同大小的有效负载。在一个实例中，NAL单元标头包括priority_id元素、temporal_id元素、anchor_pic_flag元素、view_id元素、non_idr_flag元素和inter_view_flag元素。在常规MVC中，由H.264定义的NAL单元保持，不同之处在于前缀NAL单元和MVC经译码切片NAL单元，其包含4字节MVC NAL单元标头和NAL单元有效负载。

NAL标头的priority_id元素可用于简单的一路径位流适应过程。temporal_id元素可用于指定对应NAL单元的时间层级，其中不同时间层级对应于不同帧速率。

anchor_pic_flag元素可指示图片是否为锚图片或非锚图片。锚图片以及在输出次序(即，显示次序)中接在其后的所有图片可恰当地解码，而不解码解码次序(即，位流次序)中的先前图片，且因此可用作随机存取点。锚图片和非锚图片可具有不同相关性，其两者是在序列参数集中发信号通知。将论述其它旗标，且其在此章节的以下部分中使用。此锚图片也可被称作开放式GOP(图片群组)存取点，同时当non_idr_flag元素等于零时，也支持封闭式GOP存取点。non_idr_flag元素指示图片是即时解码器刷新(IDR)还是视图IDR(V-IDR)图片。一般来说，IDR图片以及在输出次序或位流次序中接在其后的所有图片可恰当地解码，而不解码解码次序或显示次序中的先前图片。

view_id元素可包括可用于识别视图的语法信息，其可用于MVC解码器内部(例如用于视图间预测)以及解码器外部(例如用于渲染)的数据交互性。inter_view_flag元素可指定对应NAL单元是否由其它视图用于视图间预测。为了传达用于基础视图的4字节NAL单元标头信息，其可符合，在MVC中定义前缀NAL单元。在MVC的上下文中，基础视图存取单元包含视图的当前时刻的VCL NAL单元以及其前缀NAL单元，其仅含有NAL单元标头。H.264/AVC解码器可忽略前缀NAL单元。

在其有效负载中包含视频数据的NAL单元可包括各种粒度等级的视频数据。举例来说，NAL单元可包括视频数据块、宏块、多个宏块、视频数据切片或整个视频数据帧。多路复用器130可从视频编码器128接收呈基本流的PES分组的形式的经编码视频数据。多路复用器130可通过将stream_ids映射到(例如数据库或其它数据结构，例如节目映射表(PMT)或节目流映射(PSM)中的)对应节目来使每一基本流与对应节目相关联。

多路复用器130还可组合来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据帧以及对应于所述帧的音频数据(当此些音频数据可用时)的一或多个NAL单元。存取单元通常包含针对一个输出时刻的所有NAL单元，例如针对一个时刻的所有音频和视频数据。举例来说，如果每一视图具有20帧/秒(fps)的帧速率，那么每一时刻可对应于0.05秒的时间间隔。在此时间间隔期间,用于同一存取单元(同一时刻)的所有视图的特定帧可同时渲染。在对应于H.264/AVC的实例中，存取单元可包括一个时刻中的经译码图片，其可呈现为初级经译码图片。因此，存取单元可包括共用时刻的所有音频和视频帧，例如对应于时间X的所有视图。本发明还涉及作为“视图分量”的特定视图的经编码图片。也就是说，视图分量可包括在特定时间针对特定视图的经编码图片(或帧)。因此，存取单元可被定义为包括共用时刻的所有视图分量。存取单元的解码次序不需要必定与输出或显示次序相同。

多路复用器130还可将关于节目的数据嵌入NAL单元中。举例来说，多路复用器130可创建包括节目映射表(PMT)或节目流映射(PSM)的NAL单元。一般来说，PMT用以描述输送流，而PSM用以描述节目流。如相对于下文的图2的实例更详细地描述，多路复用器130可包括数据存储单元或与数据存储单元交互，所述数据存储单元使从音频编码器126和视频编码器128接收到的基本流与节目且因此与相应的输送流和/或节目流相关联。

如同大多数视频译码标准一样，H.264/AVC和HEVC定义无错误位流的语法、语义和解码过程，其中的任一者均符合某一简档或层级。这些标准未指定编码器，但编码器的任务是确保所产生的位流顺应解码器的标准。在视频译码标准的上下文中，“简档”对应于算法、特征或工具以及适用于其的约束的子集。举例来说，如通过H.264标准所定义，“简档”是H.264标准所指定的整个位流语法的子集。“层级”对应于解码器资源消耗的限制，例如，解码器存储器和计算，其涉及图片分辨率、位速率和宏块(MB)处理速率。

举例来说，H.264标准认为，在给定简档的语法所强加的界限内，仍然可能要求编码器和解码器的性能有较大变化，这取决于位流中的例如经解码图片的指定大小等语法元素所取的值。H.264标准进一步认识到，在许多应用中，实施能够处理特定简档内的语法的所有假设使用的解码器既不实际也不经济。因此，H.264标准将“层级”定义为强加于位流中的语法元素的值的指定约束集合。这些约束可为对值的简单限制。或者，这些限制可呈对值的算术组合(例如，图片宽度乘以图片高度乘以每秒解码的图片的数目)的约束的形式。H.264标准进一步规定，个别实施方案可对于每一所支持的简档支持不同层级。

符合简档的解码器通常支持简档中定义的所有特征。举例来说，作为一个译码特征，B图片译码在H.264/AVC的基线简档中不被支持，但是在H.264/AVC的其它简档中被支持。符合一个层级的解码器应能够对任何不需要超出所述层级中定义的限制的资源的位流进行解码。简档和层级的定义可对可解译性有帮助。举例来说，在视频发射期间，可针对整个发射会话协商和同意一对简档和层级定义。更具体地说，在H.264/AVC中，例如，层级可以定义需要处理的宏块的数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、垂直运动向量范围、每两个连续MB的运动向量的最大数目以及B块是否可具有小于8x8像素的子宏块分割的限制。以此方式，解码器可确定解码器是否能够恰当地对位流进行解码。

参数集合通常在序列参数集(SPS)中含有序列层标头信息，且在图片参数集(PPS)中含有不频繁改变的图片层标头信息。对于参数集，此不频繁改变的信息不需要针对每一序列或图片重复；因此，可改进译码效率。另外，使用参数集可实现标头信息的带外发射，从而避免了对于冗余发射以实现错误恢复的需要。在带外发射中，在与其它NAL单元不同的信道上发射参数集NAL单元。

MPEG-2系统标准允许借助于“描述符”来扩展所述系统。PMT和PSM两者包含其中可插入一或多个描述符的描述符环。一般来说，描述符可包括可用于扩展节目和/或节目元素的定义的数据结构。本发明描述用于执行本发明的技术的操作点描述符。一般来说，本发明的操作点描述符通过描述操作点的渲染能力、解码能力和位速率来增强常规MVC扩展描述符。目的地装置(例如A/V目的地装置140)可使用每一操作点的操作点描述符来选择待解码的位流的操作点中的一者。

每一PMT或PSM可包含描述操作点的特性的操作点描述符。举例来说，源装置120可提供操作点描述符，来提供描述目的地装置140(例如客户端设备)的渲染能力的渲染能力值。为了使目的地装置140恰当地渲染(例如显示)操作点的视频数据，目的地装置140应满足渲染能力值所发信号通知的渲染能力。渲染能力值可描述(例如)待显示的视图的数目(例如目标为渲染的视图的数目)和/或用于所述视图的视频数据的帧速率。因此，目的地装置140可确定当目的地装置140的视频输出144能够以操作点描述符所指定的帧速率显示操作点的视图的数目时，满足所述渲染能力。

在多路复用器130已组合了NAL单元和/或来自接收到的数据的存取单元之后，多路复用器130将所述单元传递到输出接口132以用于输出。输出接口132可包括(例如)发射器、收发器、用于将数据写入到计算机可读媒体的装置，例如光盘驱动器、磁性媒体驱动器(例如软驱)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口132将NAL单元或存取单元输出到计算机可读媒体134，例如发射信号、磁性媒体、光学媒体、存储器、快闪驱动器或其它计算机可读媒体。

最后，输入接口136从计算机可读媒体134检索所述数据。输入接口136可包括(例如)光盘驱动器、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。输入接口136可将NAL单元或存取单元提供给多路分用器138。多路分用器138可将输送流或节目流多路分用成组成PES流，对所述PES流进行去分组化以检索经编码数据，并将所述经编码数据发送到音频解码器146或视频解码器148，取决于经编码数据是否为音频或视频流的一部分，例如如由所述流的PES分组标头所指示。音频解码器146对经编码音频数据进行解码，且向音频输出142发送经解码音频数据，而视频解码器148对经编码的视频数据进行解码，且向视频输出144发送所述经解码视频数据，其可包含流的多个视图。视频输出144可包括显示器，其使用场景的多个视图，例如同时呈现场景的每一视图的立体或裸眼式立体显示器。

明确地说，多路分用器138可选择接收到的位流的操作点。举例来说，多路分用器138可比较位流的操作点的特性，以选择将由A/V目的地装置140使用的适当操作点。一般来说，多路分用器138可尝试选择可由视频解码器148解码的将为用户提供最高品质观看体验的操作点中的一者。举例来说，多路分用器138可将视频解码器148的渲染能力和解码能力与位流的操作点描述符所发信号通知的推荐渲染和解码能力进行比较。对于多路分用器138确定可由视频解码器148恰当地解码的操作点，多路分用器138可选择将提供最高品质视频数据(例如最高帧速率和/或位速率)的操作点。在其它实例中，多路分用器138可基于其它考量(例如电力消耗)来选择所支持的操作点中的一者。

一般来说系统100可大体上对应于图1的系统10。同样地，多路复用器130可大体上对应于图1的多路复用器21，多路分用器138可大体上对应于图1的多路分用器29，且系统100的其它类似命名的组件可大体上对应于图1的类似命名的组件。因此，多路复用器130和多路分用器138可经配置以独立或以任何组合执行各种本发明中描述的技术中的任一者。

因此，多路复用器21、多路复用器130、多路分用器29和/或多路分用器138可经配置以：译码包含根据视频译码标准译码的视频数据的基本流的层的层级扩展描述符，其中所述层级扩展描述符包含表示对视频译码标准的至少一个扩展的数据；且至少部分地基于表示所述至少一个扩展的数据来处理所述基本流的视频数据。

层级扩展描述符可包含表示取决于基础层切对应于不同可缩放性维度的两个或更多个增强层的数据。就是说，两个或更多个增强层可包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，其中所述第一可缩放性维度不同于所述第二可缩放性维度。多路复用器130可产生层级扩展描述符以包含一组信息(例如上文所论述的实例表的extension_dimension_bits)，其指示多个可能可缩放性维度中的哪一者存在增强层数据，其中所述增强层数据可与基础层(即，具有等于零的nuh_layer_id的层)相关联。

以此方式，多路复用器130表示包含以下各项的装置的实例：存储器，所述存储器用于存储视频数据，所述视频数据包含根据视频译码标准的扩展来译码的增强层以及所述增强层所取决于的两个或更多个参考层，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一参考层，以及符合第二可缩放性维度的第二参考层，且其中第一可缩放性维度不同于第二可缩放性维度；以及一或多个处理器，其经配置以编码层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据。

多路分用器138可使用层级扩展描述符来确定是否存在各种增强层，以便恰当地多路分用所述视频数据。因此，多路分用器138表示包含以下各项的装置的实例：存储器，其用于存储根据视频译码标准的扩展来译码的视频数据的增强层；以及一或多个处理器，其经配置以：解码包含所述增强层的基本流的层级扩展描述符，其中所述层级扩展描述符包含表示所述增强层所取决于的两个或更多个参考层的数据，其中所述两个或更多个参考层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；且至少部分地基于表示所述两个或更多个参考层的数据来处理所述视频数据。

此外，多路复用器130可产生HEVC视频描述符，其包含指示是否存在HEVC扩展描述符的语法元素。多路复用器130可产生HEVC扩展描述符，且同样地在使用一或多个增强层来扩展HEVC基础层时，将所述语法元素设定为指示存在HEVC扩展描述符的值。HEVC扩展描述符可符合上文的表X的HEVC扩展描述符。

另外或替代地，多路复用器21、多路复用器130、多路分用器29和/或多路分用器138可经配置以译码包含指向一或多个额外参考基本流的索引的用于第一基本流的层级描述符，且至少部分地基于所述索引来处理所述第一基本流的视频数据。

另外或替代地，多路复用器21、多路复用器130、多路分用器29和/或多路分用器138可经配置以译码指示两个或更多个基本流可如何组合来形成两个或更多个操作点的数据，并使用所述数据来处理所述基本流中的两个或更多个的视频数据。

图5是说明根据本发明的技术的用于处理视频数据的实例方法的流程图。相对于图4的视频编码器128和多路复用器130来阐释图5的方法。然而，应理解，其它装置(例如图1的视频编码器21和多路复用器21)可经配置以执行图5的方法。

最初，视频编码器128可对基础层的视频数据进行编码(150)。所述基础层的视频数据可符合(例如)HEVC，或另一视频译码标准。视频编码器128接着可编码一或多个增强层的视频数据(152)。所述增强层的视频数据可对应于各种不同可缩放性维度，如上文所阐释。就是说，视频编码器128可编码所述增强层，使得对应于不同可缩放性维度的两个或更多个增强层取决于同一基础层。

视频编码器128接着可形成视频数据的操作点(154)。每一操作点可包含视频数据的各种层的全部或子集。明确地说，每一操作点可包含基础层以及各种增强层的任何组合。此外，视频编码器128可仅将操作点的某些层指定为目标是用于输出。

视频编码器128可向多路复用器130提供经编码的视频数据(基础层和增强层)。多路复用器130可多路复用所述基础层和所述增强层(156)。就是说，多路复用器130可接收多个基本流，每一基本流对应于特定层，并将所述基本流组合成单个位流。

多路复用器130还可编码包含时间可缩放性数据的HEVC视频描述符(158)。举例来说，HEVC视频描述符可包含时间层子集语法元素(例如旗标)，其指示时间层子集是否包含于所述视频数据中。时间层子集通常对应于可以不同帧速率重放的视频数据的子集。举例来说，完整的视频数据可包含240帧每秒(fps)下的视频数据，但视频数据还可支持120fps、60fps、30fps和15fps下的重放。为了指示时间层信息，多路复用器130可发信号通知最小时间识别符语法元素和最大时间层识别符语法元素的值。HEVC视频描述符还可包含HEVC扩展存在语法元素，其指示是否存在HEVC扩展描述符。

多路复用器130还可编码包含其它可缩放性数据的层级扩展描述符(160)，即用于除时间可缩放性外的可缩放性维度的可缩放性数据。举例来说，此类其它可缩放性维度可包含PSNR、色度位深度、色彩格式、色域格式、空间分辨率等。层级扩展描述符可包含上文所述的extension_dimension_bits语法元素，其通常指示基础层的视频数据中存在多个增强层中的哪些增强层。

多路复用器130可进一步编码包含操作点数据的HEVC扩展描述符(162)。就是说，假定多路复用器130确定视频数据中存在增强层，那么多路复用器130可设定HEVC扩展存在语法元素的值以指示存在HEVC扩展描述符，并且进一步编码所述HEVC扩展描述符。HEVC扩展描述符可包含指示所述层中的哪一者的目标是为视频数据的各种操作点中的每一者而输出。

以此方式，图5的方法表示用于处理视频数据的方法的实例，其包括：接收包含根据视频译码标准来译码的基础层以及取决于所述基础层的两个或更多个增强层的视频数据，其中所述两个或更多个增强层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及编码层级扩展描述符，其中所述层级扩展描述符包含表示取决于所述基础层的两个或更多个增强层的数据。

图6是说明根据本发明的技术的用于处理视频数据的实例方法的流程图。出于论述的目的，相对于图4的多路分用器138和视频解码器148来描述图6的实例方法。然而，应理解，例如图1的多路分用器29和视频解码器30等其它装置可经配置以执行图6的技术。

最初，多路分用器138可确定待处理且最终显示的视频数据的操作点(180)。举例来说，多路分用器138可接收来自用户的请求，和/或确定目的地装置140的解码和渲染能力，以确定(例如选择)操作点。

多路分用器138接着可解码包含时间可缩放性数据的HEVC视频描述符(182)。多路分用器138可确定是使用视频数据的完整集合还是视频数据的子集，例如以实现视频数据的降低的帧速率版本。举例来说，视频输出144的显示装置可不能够以全帧速率显示视频数据，并因此多路分用器138可仅提取显示装置能够显示的帧速率所需的视频数据。HEVC视频描述符还可包含HEVC扩展存在语法元素，其指示是否存在HEVC扩展描述符。

假定HEVC扩展存在语法元素指示存在HEVC扩展描述符，那么多路分用器138可解码HEVC扩展描述符，其可包含操作点数据(184)。操作点数据可指示(例如)所述层中的哪一者包含于每一操作点中，以及所述层中的哪一者的目标是为每一操作点输出。以此方式，多路分用器138可确定哪些层将被提取并发送到视频解码器148，且哪些层可忽略。

多路分用器186可进一步解码包含其它可缩放性数据的层级扩展描述符(186)，即用于除时间可缩放性之外的可缩放性维度的可缩放性数据。举例来说，此类其它可缩放性维度可包含PSNR、色度位深度、色彩格式、色域格式、空间分辨率等。层级扩展描述符可包含上文所述的extension_dimension_bits语法元素，其通常指示基础层的视频数据中存在多个增强层中的哪些增强层。使用此数据，连同HEVC扩展描述符的选定操作点和操作点数据，多路分用器138可确定存在且将输出哪些可缩放性层，使得多路分用器138可将位流恰当地多路分用成对应基本流。

在多路分用器138将位流多路分用成用于所确定的操作点的基础层和增强层的对应基本流(188)之后，多路分用器138将用于所确定的操作点的基本流的视频数据提供给视频解码器148。视频解码器148接着可解码基础层(190)和增强层(192)。

以此方式，图6的方法表示一种方法的实例，所述方法包含：解码用于包含根据视频译码标准来译码的视频数据的基础层的层级扩展描述符，其中所述层级扩展描述符包含表示取决于基础层的两个或更多个增强层的数据，其中所述两个或更多个增强层包含符合第一可缩放性维度的第一增强层，以及符合第二可缩放性维度的第二增强层，且其中所述第一可缩放性维度不同于所述第二可缩放性维度；以及至少部分地基于表示所述两个或更多个增强层的数据来处理所述视频数据。

将认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可以不同序列执行、可添加、合并或全部省略(例如，实践所述技术并不需要所有的所描述动作或事件)。此外，在某些实例中，可(例如)通过多线程处理、中断处理或多个处理器同时而非循序地执行动作或事件。

在一或多个实例中，所描述的功能可实施在硬件、软件、固件或其任何组合中。如果以软件实施，那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体，所述计算机可读存储媒体对应于有形媒体，例如数据存储媒体或包含(例如)根据通信协议促进计算机程序从一位置传送至另一位置的任何媒体的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体，其是非暂时性的，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而，应理解，所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是针对非暂时性的有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供，或者并入在组合式编解码器中。并且，可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可在各种各样的装置或设备中实施，包括无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面，但未必需要通过不同硬件单元来实现。实际上，如上文所描述，各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

已描述了各种实例。这些和其它实例属于所附权利要求书的范围内。

Claims

1.一种处理多层视频数据的方法，所述多层视频数据包括一个或多个存取单元，每个存取单元包含单个时刻的视频数据，所述方法包括：

解码用于包含根据高效视频译码(HEVC)的扩展来译码的增强层视频数据的基本流的第一描述符，其中所述第一描述符包含指示第一增强层和第二增强层的数据，所述第一增强层和所述第二增强层取决于基础层，其中所述第一增强层符合第一可缩放性维度且所述第二增强层符合不同于所述第一可缩放性维度的第二可缩放性维度，其中所述视频数据包括不同于所述第一增强层和所述第二增强层的另一增强层，且其中从所述第一增强层的第一增强图片和所述第二增强层的第二增强图片预测所述另一增强层的增强图片，且其中所述第一增强图片、所述第二增强图片和预测自所述第一增强图片和所述第二增强图片的所述增强图片包含于共用存取单元中；以及

至少部分地基于指示所述第一增强层和所述第二增强层以及所述另一增强层的所述数据来处理所述视频数据，其中处理所述视频数据包含基于表示解码自所述第一描述符的所述第一增强层和所述第二增强层的所述数据来多路分用所述第一增强层和所述第二增强层以及所述另一增强层，

其中所述第一可缩放性维度和所述第二可缩放性维度中的至少一者是：峰值信噪比(PSNR)可缩放性维度、色度位深度可缩放性维度、色彩格式可缩放性维度、色域格式可缩放性维度、视图维度或空间分辨率可缩放性维度。

2.根据权利要求1所述的方法，其中解码所述第一描述符包括解码各自对应于多个增强层中的相应一个的多个可缩放性位，其中所述可缩放性位中的每一者的值指示所述相应的增强层是否包含于所述基本流中。

3.根据权利要求1所述的方法，进一步包括为多个操作点中的每一者解码指示所述操作点的输出所需要的层的又一描述符的信息。

4.根据权利要求1所述的方法，进一步包括解码包含指示不同于所述第一增强层和所述第二增强层的所述另一增强层的时间子层的数据的又一描述符，其中所述第一描述符并不包含表示不同于所述第一增强层和所述第二增强层的所述另一增强层的时间子层的数据。

5.根据权利要求1所述的方法，其中所述扩展包括多视图HEVC MV-HEVC三维HEVC 3D-HEVC和可缩放HEVC SHVC中的一者。

6.一种用于处理多层视频数据的装置，所述多层视频数据包括一个或多个存取单元，每个存取单元包含单个时刻的视频数据，所述装置包括：

存储器，其用于存储根据高效视频译码(HEVC)的扩展来译码的增强层视频数据；以及

一或多个处理器，其经配置以：

解码包含所述增强层视频数据的基本流的第一描述符，其中所述第一描述符包含指示第一增强层和第二增强层的数据，所述第一增强层和所述第二增强层取决于基础层，其中所述第一增强层符合第一可缩放性维度且所述第二增强层符合不同于所述第一可缩放性维度的第二可缩放性维度，其中所述视频数据包括不同于所述第一增强层和所述第二增强层的另一增强层，且其中从所述第一增强层的第一增强图片和所述第二增强层的第二增强图片预测所述另一增强层的增强图片，且其中所述第一增强图片、所述第二增强图片和预测自所述第一增强图片和所述第二增强图片的所述增强图片包含于共用存取单元中，且

至少部分地基于指示所述第一增强层和所述第二增强层的所述数据来处理所述视频数据，其中处理所述视频数据包含基于表示解码自所述第一描述符的所述第一增强层和所述第二增强层的所述数据来多路分用所述第一增强层和所述第二增强层以及不同于所述第一增强层和所述第二增强层的所述另一增强层，

7.根据权利要求6所述的装置，其中所述一或多个处理器经配置以解码各自对应于多个增强层中的相应一个的多个可缩放性位，其中所述可缩放性位中的每一者的值指示所述相应的增强层是否包含于所述基本流中。

8.根据权利要求6所述的装置，其中所述装置包括以下各项中的至少一者：

集成电路；以及

无线通信装置。

9.一种处理多层视频数据的方法，所述多层视频数据包括一个或多个存取单元，每个存取单元包含单个时刻的视频数据，所述方法包括：

接收根据高效视频译码(HEVC)的扩展来译码的视频数据，所述视频数据包括第一增强层和第二增强层以及不同于所述第一增强层和所述第二增强层的另一增强层，其中所述第一增强层和所述第二增强层取决于基础层，所述第一增强层符合第一可缩放性维度且所述第二增强层符合不同于所述第一可缩放性维度的第二可缩放性维度，其中从所述第一增强层的第一增强图片和所述第二增强层的第二增强图片预测所述另一增强层的增强图片，且其中所述第一增强图片、所述第二增强图片和预测自所述第一增强图片和所述第二增强图片的所述增强图片包含于共用存取单元中；以及

编码第一描述符，其中所述第一描述符包含指示所述另一增强层所取决于的所述增强层的数据，

10.一种用于处理多层视频数据的装置，所述多层视频数据包括一个或多个存取单元，每个存取单元包含单个时刻的视频数据，所述装置包括：

存储器，其用于存储根据高效视频译码(HEVC)的扩展来译码的视频数据，所述视频数据包括第一增强层和第二增强层以及不同于所述第一增强层和所述第二增强层的另一增强层，其中所述第一增强层和所述第二增强层取决于基础层，所述第一增强层符合第一可缩放性维度且所述第二增强层符合不同于所述第一可缩放性维度的第二可缩放性维度，其中从所述第一增强层的第一增强图片和所述第二增强层的第二增强图片预测所述另一增强层的增强图片，且其中所述第一增强图片、所述第二增强图片和预测自所述第一增强图片和所述第二增强图片的所述增强图片包含于共用存取单元中；以及

一或多个处理器，其经配置以编码第一描述符，其中所述第一描述符包含指示所述另一增强层所取决于的所述第一增强层和所述第二增强层的的数据，

11.一种上面存储有指令的计算机可读存储媒体，所述指令在被执行时，致使处理器根据权利要求1-5和9中的任一者来执行方法。