CN104471943A

CN104471943A - 视频译码中的参数集

Info

Publication number: CN104471943A
Application number: CN201380038243.8A
Authority: CN
Inventors: 陈颖
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-20
Filing date: 2013-07-19
Publication date: 2015-03-25
Anticipated expiration: 2033-07-19
Also published as: CN104471943B; WO2014015279A1; TW201408078A; KR20150036599A; US20140022343A1; KR101751144B1; US9380289B2; TWI533679B; EP2875632A1

Abstract

视频参数集VPS与一或多个经译码视频序列CVS相关联。所述VPS包含针对视频译码扩展的VPS扩展。所述VPS扩展包含指示是否针对位流的一组可应用层启用与所述视频译码扩展相关联的视频译码工具的语法元素。当所述语法元素指示针对所述可应用层启用所述译码工具时，使用所述译码工具来译码与所述CVS相关联且与所述可应用层相关联的视频数据的至少一部分。当所述语法元素指示不针对所述可应用层启用所述译码工具时，不使用所述译码工具来译码与所述CVS相关联且与所述可应用层相关联的所述视频数据。

Description

视频译码中的参数集

本申请案主张2012年7月20日申请的第61/673,918号美国临时专利申请案及2012年8月7日申请的第61/680,556号美国临时专利申请案的权利，所述申请案中的每一者的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码(即，视频数据的编码及/或解码)。

背景技术

可将数字视频能力并入到广泛范围的装置内，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能手机”、视频电话会议装置、视频流装置及其类似者。数字视频装置实施视频压缩技术，例如，在由MPEG-2、MPEG-4、ITU-TH.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前在开发中的高效率视频译码(HEVC)标准及这些标准的扩展中描述的技术。视频装置可通过实施此类视频压缩技术而更有效率地发射、接收、编码、解码及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或去除视频序列中所固有的冗余。对于基于块的视频译码，可将视频切片(即，视频帧或视频帧的一部分)分割成视频块。图片的经帧内译码(I)切片中的视频块是使用关于同一图片中的相邻块中的参考样本的空间预测而编码。图片的经帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

空间或时间预测产生用于待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量来编码经帧间译码的块，且残余数据指示经译码块与预测性块之间的差。根据帧内译码模式及残余数据编码经帧内译码块。为了进一步压缩，可将残余数据从像素域变换到变换域，从而产生残余系数，其接着可被量化。可扫描最初按二维阵列布置的经量化的系数以便产生系数的一维向量，且可应用熵译码以实现甚至更多的压缩。

可通过编码(例如)来自多个透视角度的视图来产生多视图译码位流。已开发出使用多视图译码方面的一些三维(3D)视频标准。举例来说，不同视图可传输左眼视图及右眼视图以支持3D视频。或者，一些3D视频译码过程可应用所谓的多视图加深度译码。在多视图加深度译码中，3D视频位流可能不仅含有纹理视图分量，而且可含有深度视图分量。举例来说，每一视图可包括一个纹理视图分量及一个深度视图分量。

发明内容

一般来说，本发明描述与视频编码解码器(例如，高效率视频译码(HEVC))的扩展中的视频参数集(VPS)及序列参数集(SPS)有关的技术。视频参数集(VPS)与一或多个经译码视频序列(CVS)相关联。VPS包含针对视频译码扩展的VPS扩展，所述视频译码扩展例如对HEVC的多视图视频译码扩展、可缩放视频译码(SVC)扩展或3D视频译码(3DV)扩展。VPS扩展包含用于视频数据位流的每一相应层的相应语法元素。对于视频数据位流的每一相应层，当针对相应层的语法元素指示针对所述相应层启用译码工具时，使用所述译码工具解码与一或多个CVS相关联且与相应层相关联的视频数据的至少一部分。当针对相应层的语法元素指示不针对相应层启用译码工具时，不使用所述译码工具解码与CVS相关联且与相应层相关联的视频数据。

在一个实例中，本发明描述一种解码视频数据的方法，所述方法包括：从视频数据位流获得针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；当所述语法元素指示针对所述一或可应用层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在另一实例中，本发明描述一种视频解码装置，其包括一或多个处理器，所述一或多个处理器经配置以：从视频数据位流获得针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在另一实例中，本发明描述一种视频解码装置，其包括：用于从视频数据位流获得针对视频译码扩展的VPS扩展的装置，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；用于在所述语法元素指示针对所述组可应用层启用所述译码工具时通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分的装置；及用于在所述语法元素指示不针对所述组可应用层启用所述译码工具时不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据的装置。

在另一实例中，本发明描述一种计算机可读数据存储媒体，其具有存储于其上的指令，所述指令在被执行时配置视频解码装置以：从视频数据位流获得针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在另一实例中，本发明描述一种编码视频数据的方法，所述方法包括：在视频数据位流中包含针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；及当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在另一实例中，本发明描述一种视频编码装置，其包括一或多个处理器，所述一或多个处理器经配置以：在视频数据位流中包含针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在另一实例中，本发明描述一种视频编码装置，其包括：在视频数据位流中包含针对视频译码扩展的VPS扩展的装置，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；用于在所述语法元素指示针对所述组可应用层启用所述译码工具时通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分的装置；及用于在所述语法元素指示不针对所述组可应用层启用所述译码工具时不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据的装置。

在另一实例中，本发明描述一种计算机可读数据存储媒体，其具有存储于其上的指令，所述指令在被执行时配置视频编码装置以：在视频数据位流中包含针对视频译码扩展的VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；及当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

在随附图式及以下描述中阐明本发明的一或多个实例的细节。根据描述、图式及权利要求书，其它特征、目标及优势将显而易见。

附图说明

图1为说明可利用本发明中描述的技术的实例视频译码系统的框图。

图2为说明相对于当前预测单元的实例空间运动向量相邻者的概念图。

图3为说明实例多视图解码次序的概念图。

图4为说明用于多视图译码的实例预测结构的概念图。

图5为说明可实施本发明中描述的技术的实例视频编码器的框图。

图6为说明可实施本发明中描述的技术的实例视频解码器的框图。

图7为说明根据本发明的一或多个实例技术的视频编码器的实例操作的流程图。

图8为说明根据本发明的一或多个实例技术的视频解码器的实例操作的流程图。

图9为说明根据本发明的一或多个实例技术的视频编码器的实例操作的流程图。

图10为说明根据本发明的一或多个实例技术的视频解码器的实例操作的流程图。

具体实施方式

高效率视频译码(HEVC)为目前在开发中的视频译码规范。正努力产生HEVC的多视图译码扩展(被称作MV-HEVC)及HEVC的三维视频(3DV)扩展(被称作3D-HEVC)。此外，正努力产生HEVC的可缩放视频译码(SVC)扩展(被称作SHEVC)。

在MV-HEVC、3D-HEVC及SHEVC中，视频编码器可产生包括一系列网络抽象层(NAL)单元的位流。位流的不同NAL单元可与位流的不同层相关联。可将层定义为具有相同层识别符的视频译码层(VCL)NAL单元及相关联的非VCL NAL单元的集合。层可等效于多视图视频译码中的视图。在多视图视频译码中，层可含有同一层的具有不同时间实例的所有视图分量。每一视图分量可为在特定时间实例属于特定视图的视频场景的经译码图片。在3D视频译码中，层可含有特定视图的所有经译码深度图片或特定视图的经译码纹理图片。类似地，在可缩放视频译码的上下文中，层通常对应于具有不同于其它层中的经译码图片的视频特性的经译码图片。此类视频特性通常包含空间分辨率及质量等级(信噪比)。在HEVC及其扩展中，可通过将具有特定时间等级的一群图片定义为子层来实现时间可调性。

对于位流的每一相应层，可在不参考任一较高层中的数据的情况下解码较低层中的数据。举例来说，在可缩放视频译码中，可在不参考增强层中的数据的情况下解码基础层中的数据。NAL单元仅囊封单个层的数据。因此，可从位流中去除囊封位流的最高剩余层的数据的NAL单元，而不影响位流的剩余层中的数据的可解码性。在多视图译码及3D-HEVC中，较高层可包含额外视图分量。在SHEVC中，较高层可包含信噪比(SNR)增强数据、空间增强数据及/或时间增强数据。在3D-HEVC及SHEVC中，如果视频解码器可在不参考任何其它层的数据的情况下解码视图中的图片，那么可将所述视图称作“基础层”。基础层可符合HEVC基础规范。

在3D-HEVC及SHEVC中，各种译码工具可用以提供进一步数据压缩。然而，存在此类译码工具的使用不合需要的若干原因。举例来说，此类译码工具的使用可增加解码视频数据所需的时间量。在另一实例中，能够使用此类译码工具的视频解码器可能比不能够使用此类译码工具的视频解码器显著地更复杂。因此，3D-HEVC及SHEVC提供了用于选择性地指示启用或停用此类译码工具的机制。

在HEVC及其扩展中，视频编码器可产生包含一或多个视频参数集(VPS)的位流。VPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码视频序列。经译码视频序列可包含存取单元序列，其按解码次序由以下各者组成：为位流中的第一存取单元的清洁随机存取(CRA)存取单元、瞬时解码刷新(IDR)存取单元或断链存取(BLA)存取单元、后接续零或零个以上非IDR及非BLA存取单元(包含直到但不包含任何后续IDR或BLA存取单元的所有后续存取单元)。存取单元可为按解码次序连续且含有在一个时间实例出现的经译码图片的一组NAL单元。

此外，在HEVC及其扩展中，视频编码器可包含一或多个序列参数集(SPS)。SPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码视频序列。SPS可包含识别可应用于SPS的VPS的语法元素(例如，video_parameter_set_id)。单个VPS可与多个SPS相关联。与单个VPS相关联的SPS可包含具有不同值的语法元素。因此，VPS可应用于一或多个经译码视频序列的第一集合，且包含识别VPS的语法元素的SPS可为可应用于零或零个以上经译码视频序列的第二集合的语法结构。因此，视频编码器可产生比SPS少的VPS。每一SPS可包含将所述SPS识别为与特定VPS相关联的语法元素。此外，位流可包含图片参数集(PPS)。每一PPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码图片。每一PPS可包含将所述PPS识别为与特定SPS相关联的语法元素。

不同HEVC扩展(例如，3D-HEVC、SHEVC等)与包含所述HEVC扩展所特定的语法元素的不同SPS扩展相关联。举例来说，当使用3D-HEVC产生位流时，SPS可包含SPS扩展，所述SPS扩展包含3D-HEVC所特定的一或多个语法元素。在此实例中，SPS扩展可包含：interview_refs_present_flag，其指示是否可使用视图间参考；enable_dmm_flag，其指示是否启用深度图模型化模式；use_mvi_flag，其指示是否启用从纹理到深度的运动向量继承；multi_view_mv_pred_flag，其指示是否启用视图间运动向量预测；及multi_view_residual_pred_flag，其指示是否启用视图间残余预测。

以上描述的方案存在若干问题。如上文所提到，位流的基础层符合基础HEVC规范。因此，可应用于基础层的SPS不包含用于HEVC扩展(例如，3D-HEVC、SHEVC等)的SPS扩展。当位流符合HEVC扩展且除基础层外还包含一或多个层时，可针对不同层启用HEVC扩展的不同译码工具。因此，视频编码器可能需要产生多个SPS，其中的每一者可应用于同一经译码视频序列的不同层。然而，所述SPS中的每一者可包含与基础HEVC规范相关联且不与HEVC扩展相关联的语法元素。因此，与基础HEVC规范相关联的语法元素可在可应用于同一经译码视频序列的所述层的SPS中的每一者中重复。此情形可能不必要地增大位流的大小。此外，因为每一PPS仅与单个SPS相关联，所以位流对于每一层可能需要包含一或多个PPS。因为PPS不包含HEVC扩展所特定的语法元素，所以除指示相关联的SPS的语法元素外，所述PPS可为彼此的复制。因此，额外SPS可实际上为位浪费。

根据本发明的一或多个技术，视频编码器可在视频数据位流中包含针对视频译码扩展的VPS扩展。VPS扩展可为VPS内的语法结构。VPS自身可为可应用于一或多个完整的经译码视频序列的语法结构。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。当语法元素指示针对所述组可应用层启用所述译码工具时，视频编码器可通过使用译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频编码器可能不使用所述译码工具来编码与所述一或多个经译码的视频序列相关联且与所述组可应用层相关联的视频数据。译码工具可包含以下各者中的一或多者：视图间参考的使用、深度图模型化模式的使用、从纹理到深度的运动向量继承的使用、视图间运动向量预测的使用及视图间残余预测的使用。

在一个实例中，视频编码器可产生包含表示VPS的数据的位流，所述VPS包含针对HEVC扩展的VPS扩展。对于位流的每一层，VPS扩展可包含指示是否启用与HEVC扩展相关联的特定译码工具，以用于解码与所述层相关联且与可应用于VPS的经译码视频序列相关联的视频数据。不在用于所述层的SPS扩展中发信这些语法元素。

类似地，视频解码器可从视频数据位流获得针对视频译码扩展的VPS扩展。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。当语法元素指示针对所述一或可应用层启用所述译码工具时，视频解码器可通过使用译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频解码器可能不使用译码工具来解码与所述一或多个经译码视频序列相关联且与所述组可应用层相关联的视频数据。

在一个实例中，VPS扩展可包含针对视频数据位流的每一相应层的相应语法元素。此外，对于视频数据位流的每一相应层，当针对相应层的语法元素指示针对所述相应层启用译码工具时，视频解码器可通过使用所述译码工具解码与经译码视频序列相关联且与相应层相关联的视频数据的至少一部分。当针对相应层的语法元素指示不针对所述相应层启用所述译码工具时，视频解码器可能不使用译码工具来解码与所述经译码视频序列相关联且与所述相应层相关联的视频数据。

因为在VPS扩展而不是在SPS的扩展中发信指示是否针对特定层启用译码工具的语法元素，所以位流可能不必包含所述层中的每一者的SPS。因此，所述位流可至少少了表示SPS的基础HEVC规范语法元素所需的位数目。此外，因为在VPS扩展而不是在SPS的扩展中发信语法元素，所以可能不必产生同样多的PPS，从而进一步节省位。

图1为说明可利用本发明的技术的实例视频译码系统10的框图。如本文中所使用，术语“视频译码器”一般指视频编码器及视频解码器两者。在本发明中，术语“视频译码”或“译码”一般可指视频编码或视频解码。

如图1中所示，视频译码系统10包含源装置12及目的地装置14。源装置12产生经编码视频数据。一般来说，编码视频数据是指产生视频数据的经编码表示。因此，源装置12可被称作视频编码装置或视频编码设备。目的地装置14可解码由源装置12产生的经编码视频数据。一般来说，解码经编码视频数据是指基于经编码视频数据确定像素样本值。因此，目的地装置14可被称作视频解码装置或视频解码设备。源装置12及目的地装置14可为视频译码装置或视频译码设备的实例。

源装置12及目的地装置14可包括广泛范围的装置，包含桌上型计算机、移动计算装置、笔记型(例如，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如，所谓的“智能”电话)、电视、摄影机、显示装置、数字媒体播放器、视频游戏控制台、车内计算机或其类似者。

目的地装置14可经由信道16从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移动到目的地装置14的一或多个媒体或装置。在一个实例中，信道16可包括使源装置12能够实时将经编码视频数据直接发射到目的地装置14的一或多个通信媒体。在此实例中，源装置12可根据例如无线通信协议等通信标准调制经编码视频数据，且可将经调制的视频数据发射到目的地装置14。所述一或多个通信媒体可包含无线及/或有线通信媒体，例如，射频(RF)频谱或一或多个物理传输线。所述一或多个通信媒体可形成例如局域网、广域网或全球网络(例如，因特网)等基于分组网络的部分。所述一或多个通信媒体可包含路由器、交换器、基站或促进从源装置12到目的地装置14的通信的其它装备。

在另一实例中，信道16可包含存储由源装置12产生的经编码视频数据的存储媒体。在此实例中，目的地装置14可(例如)经由磁盘存取或卡存取来存取存储媒体。存储媒体可包含多种本地存取的数据存储媒体，例如，蓝光(Blu-ray)光盘、DVD、CD-ROM、快闪存储器或用于存储经编码视频数据的其它合适的数字存储媒体。

在再一实例中，信道16可包含文件服务器或存储由源装置12产生的经编码视频数据的另一中间存储装置。在此实例中，目的地装置14可经由流式传输或下载来存取存储在文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、文件传送协议(FTP)服务器、网络附接存储(NAS)装置及本地磁盘驱动器。

目的地装置14可经由标准数据连接(例如，因特网连接)存取经编码视频数据。数据连接的实例类型可包含无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的适合于存取存储在文件服务器上的经编码视频数据的组合。经编码视频数据从文件服务器的传输可为流式传输、下载传输或两者的组合。

本发明的技术不限于无线应用或设置。所述技术可应用于支持多种多媒体应用(例如，空中电视广播、有线电视发射、卫星电视发射、流式视频传输(例如，经由因特网)、用于存储在数据存储媒体上的视频数据的编码、存储在数据存储媒体上的视频数据的解码或其它应用)的视频译码。在一些实例中，视频译码系统10可经配置以支持单向或双向视频传输以支持例如视频流式传输、视频回放、视频广播及/或视频电话等应用。

图1仅为实例，且本发明的技术可应用于未必包含编码装置与解码装置之间的任何数据通信的视频译码设置(例如，视频编码或视频解码)。在其它实例中，数据是从本地存储器检索、在网络上流式传输或其类似者。视频编码装置可编码数据且将数据存储到存储器，及/或视频解码装置可从存储器检索数据及解码数据。在许多实例中，编码及解码是由并不彼此通信而仅将数据编码到存储器及/或从存储器检索数据及解码数据的装置来执行。

在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口22。在一些实例中，输出接口22可包含调制器/解调器(调制解调器)及/或发射器。视频源18可包含视频捕获装置(例如，视频摄影机)、含有先前捕获的视频数据的视频存档、用以接收来自视频内容提供者的视频数据的视频馈入接口及/或用于产生视频数据的计算机图形系统，或此类视频数据源的组合。

视频编码器20可编码来自视频源18的视频数据。在一些实例中，源装置12直接经由输出接口22将经编码视频数据发射到目的地装置14。在其它实例中，经编码视频数据还可存储到存储媒体或文件服务器上供目的地装置14稍后存取以用于解码及/或回放。

在图1的实例中，目的地装置14包含输入接口28、视频解码器30及显示装置32。在一些实例中，输入接口28包含接收器及/或调制解调器。输入接口28可在信道16上接收经编码视频数据。显示装置32可与目的地装置14集成或可在目的地装置14外部。一般来说，显示装置32显示经解码视频数据。显示装置32可包括多种显示装置，例如，液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20及视频解码器30各自可实施为多种合适电路中的任一者，例如，一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件或其任何组合。如果所述技术部分地以软件实施，那么装置可将用于软件的指令存储在合适的非暂时性计算机可读存储媒体中，且可使用一或多个处理器执行硬件中的指令以执行本发明的技术。前述(包含硬件、软件、硬件与软件的组合等)中的任一者可被视为一或多个处理器。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，其中的任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。

本发明一般可涉及视频编码器20将某些信息“发信”到另一装置(例如，视频解码器30)。术语“发信”一般可指语法元素及/或用以解码经压缩视频数据的其它数据的传达。此类通信可实时或接近实时地发生。或者，此类通信可在一时间跨度上发生，例如，可能在于编码时以经编码位流将语法元素存储到计算机可读存储媒体时发生，所述语法元素接着可由解码装置在存储到此媒体后的任何时间检索。

在一些实例中，视频编码器20及视频解码器30根据例如ISO/IEC MPEG-4 Visual及ITU-T H.264(还被称为ISO/IEC MPEG-4 AVC)(包含其可缩放视频译码(SVC)扩展、多视图视频译码(MVC)扩展及基于MVC的3DV扩展)等视频压缩标准操作。在一些情况下，符合基于MVC的3DV的任何合法位流始终含有符合MVC配置文件(例如，立体高配置文件)的子位流。H.264/AVC标准的附录H描述H.264/AVC的MVC扩展。此外，正努力产生H.264/AVC的三维视频(3DV)译码扩展(即，基于AVC的3DV)。在其它实例中，视频编码器20及视频解码器30可根据ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264、ISO/IEC Visual操作。

在图1的实例中，视频编码器20及视频解码器30可根据目前由ITU-T视频译码专家组(VCEG)与ISO/IEC动画专家组(MPEG)的关于视频译码的联合合作小组开发的高效率视频译码(HEVC)标准操作。被称作“HEVC工作草案7”的即将到来的HEVC标准的草案描述于布洛斯(Bross)等人的“高效率视频译码(HEVC)文本规范草案7(HighEfficiency Video Coding(HEVC)text specification draft 7)”(ITU-T SG16 WP3与ISO/IECJTC1/SC29/WG11的关于视频译码的联合合作小组(JCT-VC)，2012年5月瑞士日内瓦第9次会议)中。被称作“HEVC工作草案8”的即将到来的HEVC标准的另一草案描述于布洛斯(Bross)等人的“高效率视频译码(HEVC)文本规范草案8(High EfficiencyVideo Coding(HEVC)text specification draft 8)”(ITU-T SG16 WP3与ISO/IECJTC1/SC29/WG11的关于视频译码的联合合作小组(JCT-VC)，2012年7月瑞典斯德哥尔摩第10次会议)中。

此外，正努力产生HEVC的SVC、多视图译码及3DV扩展。HEVC的SVC扩展可被称作HEVC-SVC或SHEVC。HEVC的多视图译码扩展可被称作MV-HEVC。HEVC的3DV扩展可被称作基于HEVC的3DV或3D-HEVC。3D-HEVC至少部分基于以下各文档中提议的解决方案：施瓦尔茨(Schwarz)等人的“Fraunhofer HHI的3D视频译码技术提议的描述(Description of 3D Video Coding Technology Proposal byFraunhofer HHI)(HEVC兼容配置A)”(ISO/IEC JTC1/SC29/WG11，文档MPEG11/M22570，瑞士日内瓦，2011年11月/12月，下文称为“m22570”)及施瓦尔茨(Schwarz)等人的“Fraunhofer HHI的3D视频译码技术提议的描述(Description of 3DVideo Coding Technology Proposal by Fraunhofer HHI)(HEVC兼容配置B)”(ISO/IECJTC1/SC29/WG11，文档MPEG11/M22571，瑞士日内瓦，2011年11月/12月，下文称为“m22571”)。对于3D-HEVC的参考软件描述可在施瓦尔茨(Schwarz)等人的“基于HEVC的3D视频译码考虑的测试模型(Test Model under Consideration for HEVC based3D video coding)”(ISO/IEC JTC1/SC29/WG11 MPEG2011/N12559，美国圣何塞，2012年2月)处获得。从2013年7月18日时起，参考软件(即，HTM版本3.0)可从https：//hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-3.0/获得。

在HEVC及其它视频译码标准中，视频序列通常包含一系列图片。图片还可被称作“帧”。一图片可包含三个样本阵列，表示为S_L、S_Cb及S_Cr。S_L为亮度样本的二维阵列(即，块)。S_Cb为Cb色度样本的二维阵列。S_Cr为Cr色度样本的二维阵列。在本文中色度(chrominance)样本还可被称作“色度(chroma)”样本。在其它情况下，图片可为单色的，且可仅包含亮度样本阵列。

为了产生图片的经编码表示，视频编码器20可产生一组译码树型单元(CTU)。CTU中的每一者可包括亮度样本的译码树型块、色度样本的两个对应的译码树型块及用以译码所述译码树型块的样本的语法结构。在单色图片或包括三个分开的颜色平面的图片中，CTU可包括单个译码树型块及用以译码所述译码树型块的样本的语法结构。译码树型块可为N×N样本块。CTU还可被称作“树型块”或“最大译码单元”(LCU)。HEVC的CTU可广泛地类似于例如H.264/AVC等其它视频译码标准的宏块。然而，CTU未必限于特定大小，且可包含一或多个译码单元(CU)。切片可包含按光栅扫描连续排序的整数数目个CTU。

本发明可使用术语“视频单元”或“视频块”来指一或多个样本块及用以译码所述一或多个样本块中的样本的语法结构。视频单元的实例类型可包含CTU、CU、PU、变换单元(TU)、宏块、宏块分割区等等。

为了产生经译码CTU，视频编码器20可对CTU的译码树型块递归地执行四叉树分割，以将所述译码树型块分成译码块，因此，名为“译码树型单元”。译码块为N×N样本块。CU可包括具有亮度样本阵列、Cb样本阵列及Cr样本阵列的图片的亮度样本的译码块及色度样本的两个对应的译码块，及用以译码所述译码块的样本的语法结构。在单色图片或包括三个分开的颜色平面的图片中，CU可包括单个译码块及用以译码所述译码块的样本的语法结构。视频编码器20可将CU的译码块分割成一或多个预测块。预测块可为对其应用同一预测的样本的矩形(即，正方形或非正方形)块。CU的预测单元(PU)可包括图片的亮度样本的预测块、色度样本的两个对应的预测块，及用以预测所述预测块样本的语法结构。视频编码器20可产生针对CU的每一PU的亮度、Cb及Cr预测块的预测性亮度、Cb及Cr块。在单色图片或包括三个分开的颜色平面的图片中，PU可包括单个预测块及用以译码所述预测块的样本的语法结构。

视频编码器20可使用帧内预测或帧间预测来产生用于PU的预测性块。如果视频编码器20使用帧内预测产生PU的预测性块，那么视频编码器20可基于与PU相关联的图片的经解码样本产生PU的预测性块。

如果视频编码器20使用帧间预测产生PU的预测性块，那么视频编码器20可基于不同于与PU相关联的图片的一或多个图片的经解码样本产生PU的预测性块。帧间预测可为单向帧间预测(即，单向预测)或双向帧间预测(即，双向)。为了执行单向或双向，视频编码器20可产生用于当前切片的第一参考图片列表(RefPicList0)及第二参考图片列表(RefPicListl)。参考图片列表中的每一者可包含一或多个参考图片。当使用单向预测时，视频编码器20可搜索RefPicList0及RefPicListl中的任一者或两者中的参考图片，以确定在参考图片内的参考位置。此外，当使用单向预测时，视频编码器20可至少部分基于对应于参考位置的样本产生用于PU的预测性块。此外，当使用单向预测时，视频编码器20可产生指示PU的预测性块与参考位置之间的空间位移的单个运动向量。为了指示PU的预测性块与参考位置之间的空间位移，运动向量可包含指定PU的预测性块与参考位置之间的水平位移的水平分量，且可包含指定PU的预测性块与参考位置之间的垂直位移的垂直分量。

当使用双向预测编码PU时，视频编码器20可确定RefPicList0中的参考图片中的第一参考位置及RefPicListl中的参考图片中的第二参考位置。视频编码器20可接着至少部分基于对应于第一及第二参考位置的样本产生用于PU的预测性块。此外，当使用双向预测编码PU时，视频编码器20可产生指示PU的样本块与第一参考位置之间的空间位移的第一运动向量，及指示PU的预测块与第二参考位置之间的空间位移的第二运动向量。

在视频编码器20产生用于CU的一或多个PU的预测性亮度、Cb及Cr块后，视频编码器20可产生用于所述CU的亮度残余块。CU的亮度残余块中的每一样本指示CU的预测性亮度块中的一者中的亮度样本与CU的原始亮度译码块中的对应样本之间的差。此外，视频编码器20可产生用于所述CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中的对应样本之间的差。视频编码器20还可产生用于所述CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差。

此外，视频编码器20可使用四叉树分割将CU的亮度、Cb及Cr残余块分解成一或多个亮度、Cb及Cr变换块。变换块可为对其应用相同变换的样本的矩形块。CU的变换单元(TU)可包括亮度样本的变换块、色度样本的两个对应的变换块，及用以变换所述变换块样本的语法结构。因此，CU的每一TU可与亮度变换块、Cb变换块及Cr变换块相关联。与TU相关联的亮度变换块可为CU的亮度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或包括三个分开的颜色平面的图片中，TU可包括单个变换块及用以译码所述变换块的样本的语法结构。

视频编码器20可将一或多个变换应用于TU的亮度变换块以产生用于TU的亮度系数块。系数块可为变换系数的二维阵列。变换系数可为纯量。视频编码器20可将一或多个变换应用于TU的Cb变换块以产生用于TU的Cb系数块。视频编码器20可将一或多个变换应用于TU的Cr变换块以产生用于TU的Cr系数块。

在产生了系数块(例如，亮度系数块、Cb系数块或Cr系数块)后，视频编码器20可将系数块量化。量化通常指变换系数经量化以可能地减少用以表示变换系数的数据量从而提供进一步压缩的过程。此外，视频编码器20可将变换系数反量化，且将反变换应用于变换系数以便重新构造图片的CU的TU的变换块。视频编码器20可使用CU的TU的经重新构造的变换块及CU的PU的预测性块以重新构造CU的译码块。通过重新构造图片的每一CU的译码块，视频编码器20可重新构造图片。视频编码器20可将经重新构造的图片存储在经解码图片缓冲器(DPB)中。视频编码器20可将DPB中的经重新构造的图片用于帧间预测及帧内预测。

在视频编码器20将系数块量化后，视频编码器20可熵编码指示经量化的变换系数的语法元素。举例来说，视频编码器20可对指示经量化的变换系数的语法元素执行上下文自适应性二进制算术译码(CABAC)。视频编码器20可在位流中输出经熵编码的语法元素。

视频编码器20可输出包含一序列位的位流，所述序列位形成经译码图片及相关联的数据的表示。位流可包括一序列网络抽象层(NAL)单元。NAL单元中的每一者包含NAL单元标头且囊封原始字节序列负荷(RBSP)。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为囊封于NAL单元内的含有整数数目个字节的语法结构。在一些情况下，RBSP包含零个位。

不同类型的NAL单元可囊封不同类型的RBSP。举例来说，第一种类型的NAL单元可囊封用于图片参数集(PPS)的RBSP，第二种类型的NAL单元可囊封用于经译码切片的RBSP，第三种类型的NAL单元可囊封用于补充增强信息(SEI)的RBSP，等等。PPS为可含有应用于零或零个以上完整的经译码图片的语法元素的语法结构。囊封用于视频译码数据的RBSP(与用于参数集及SEI消息的RBSP形成对比)的NAL单元可被称作视频译码层(VCL)NAL单元。囊封经译码切片的NAL单元可在本文中被称作经译码切片NAL单元。经译码切片的RBSP可包含切片标头及切片数据。

视频解码器30可接收位流。此外，视频解码器30可剖析位流以从位流获得语法元素。视频解码器30可至少部分基于从位流获得的语法元素重新构造视频数据的图片。用以重新构造视频数据的过程一般可与由视频编码器20执行的过程互逆。举例来说，视频解码器30可使用PU的运动向量来确定用于当前CU的PU的预测性块。视频解码器30可使用PU的一或多个运动向量来产生用于PU的预测性块。

此外，视频解码器30可将与当前CU的TU相关联的系数块反量化。视频解码器30可对系数块执行反变换，以重新构造与当前CU的TU相关联的变换块。视频解码器30可通过将用于当前CU的PU的预测性样本块的样本加到当前CU的TU的变换块的对应样本来重新构造当前CU的译码块。通过重新构造用于图片的每一CU的译码块，视频解码器30可重新构造图片。视频解码器30可将经解码图片存储在经解码图片缓冲器中，用于输出及/或用于在解码其它图片时使用。

位流中的NAL单元的标头可包含nuh_reserved_zero_6bits语法元素。如果NAL单元涉及多视图译码、3DV译码或可缩放视频译码中的基础层，那么NAL单元的nuh_reserved_zero_6bits语法元素等于0。可不参考位流的任何其它层中的数据来解码位流的基础层中的数据。如果NAL单元并不涉及多视图译码、3DV译码或可缩放视频译码中的基础层，那么nuh_reserved_zero_6bits语法元素可具有其它非零值。具体来说，如果NAL单元并不涉及多视图译码、3DV译码或可缩放视频译码中的基础层，那么NAL单元的nuh_reserved_zero_6bits语法元素可指定层识别符。

此外，层内的一些图片可不参考同一层内的其它图片来解码。因此，可从位流中去除囊封层的某些图片的数据的NAL单元，而不影响所述层中的其它图片的可解码性。举例来说，可不参考具有奇数图片次序计数(POC)值的图片解码具有偶数POC值的图片。POC为与经译码图片相关联的变量，且具有随相对于按解码次序的先前IDR图片(如果存在的话)的按输出次序的图片位置增大而增大的值。去除囊封此类图片的数据的NAL单元可减小位流的帧速率。可不参考层内的其它图片而解码的所述层内的一图片子集可在本文中被称作子层。

NAL单元可包含nuh_temporal_id_plus1语法元素。NAL单元的nuh_temporal_id_plus1语法元素可指定NAL单元的时间识别符(即，temporal_id)。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符，那么可不参考由第二NAL单元囊封的数据解码由第一NAL单元囊封的数据。

位流的操作点各自与一组层识别符(即，一组nuh_reserved_zero_6bits值)及一时间识别符相关联。可将所述组层识别符表示为OpLayerIdSet，且可将时间识别符表示为TemporalID。如果NAL单元的层识别符在操作点的一组层识别符中且NAL单元的时间识别符小于或等于操作点的时间识别符，那么NAL单元与操作点相关联。操作点表示为与操作点相关联的位流子集(即，子位流)。操作点的操作点表示可包含与操作点相关联的每一NAL单元。操作点表示不包含不与操作点相关联的VCLNAL单元。

外部源或装置可指定用于操作点的一组目标层识别符。举例来说，例如媒体感知网络元件(MANE)或内容传递网络(CDN)装置等中间网络装置可指定所述组目标层识别符。在此实例中，中间网络装置可使用所述组目标层识别符来识别操作点。中间网络装置可接着提取操作点的操作点表示，且将操作点表示(而不是原始位流)转发到客户端装置。提取操作点表示且将其转发到客户端装置可减小位流的位速率。

视频译码标准指定视频缓冲模型。在H.264/AVC及HEVC中，缓冲模型被称作“假想参考解码器”或“HRD”。在HEVC工作草案8中，HRD描述于附录C中。

HRD描述缓冲数据以供解码的方式及缓冲经解码数据以供输出的方式。举例来说，HRD描述经译码图片缓冲器(CPB)、经解码图片缓冲器(“DPB”)及视频解码过程的操作。CPB为由HRD指定的先进先出缓冲器，其含有呈解码次序的存取单元。DPB为由HRD指定的保持经解码图片以用于参考、输出重新排序或输出延迟的缓冲器。CPB及DPB的行为可用数学方法指定。HRD可直接对时序、缓冲器大小及位速率强加约束。此外，HRD可间接对各种位流特性及统计数据强加约束。

在H.264/AVC及HEVC中，将位流一致性及解码器一致性指定为HRD规范的部分。换句话说，HRD模型指定用以确定位流是否符合标准的测试且指定用以确定解码器是否符合标准的测试。虽然将HRD命名为某一种类的解码器，但视频编码器通常使用HRD来保证位流一致性，而视频解码器通常不需要HRD。

H.264/AVC及HEVC皆指定两种类型的位流或HRD一致性，即，类型I及类型II。类型I位流为仅含有位流中的所有存取单元的VCL NAL单元及填充数据NAL单元的NAL单元流。类型II位流为除位流中的所有存取单元的VCL NAL单元及填充数据NAL单元外还含有以下各项中的至少一者的NAL单元流：不同于填充数据NAL单元的额外非VCL NAL单元；及来自NAL单元流的形成字节流的所有leading_zero_8bits、zero_byte、start_coded_prefix_one_3bytes及trailing_zero_8bits语法元素。

当装置执行确定位流是否符合视频译码标准的位流一致性测试时，装置可选择位流的操作点。装置可接着确定可应用于选定操作点的一组HRD参数。装置可使用可应用于选定操作点的所述组HRD参数来配置HRD的行为。更明确地说，装置可使用所述组可应用的HRD参数来配置HRD的特定组件(例如，假想流调度程序(HSS)、CPB、解码过程、DPB等等)的行为。随后，HSS可根据特定调度将位流的经译码视频数据注入到HRD的CPB内。此外，装置可调用解码CPB中的经译码视频数据的解码过程。解码过程可将经解码图片输出到DPB。当装置移动数据经过HRD时，装置可确定是否仍满足一组特定约束。举例来说，所述装置可在HRD正解码选定操作点的操作点表示时确定在CPB或DPB中是否出现溢出或下溢条件。装置可按此方式选择且处理位流的每一操作点。如果无位流的操作点引起违反约束，那么装置可确定位流符合视频译码标准。

H.264/AVC及HEVC皆指定两种类型的解码器一致性，即，输出时序解码器一致性及输出次序解码器一致性。声称符合特定配置文件、层及层级的解码器能够成功解码符合例如HEVC等视频译码标准的位流一致性要求的所有位流。在本发明中，“配置文件”可指位流语法的子集。可在每一配置文件内指定“层”及“层级”。层的层级可为强加于位流中的语法元素的值的一组指定约束。这些约束可为对值的简单限制。或者，所述约束可呈对值的算术组合(例如，图片宽度乘以图片高度乘以每秒解码的图片的数目)的约束的形式。通常，针对较低层指定的层级比针对较高层指定的层级更受约束。

当装置执行解码器一致性测试以确定被测解码器(DUT)是否符合视频译码标准时，装置可将符合视频译码标准的位流提供到HRD及DUT两者。HRD可按以上关于位流一致性测试描述的方式处理位流。如果由DUT输出的经解码图片的次序匹配由HRD输出的经解码图片的次序，那么装置可确定DUT符合视频译码标准。此外，如果DUT输出经解码图片的时序匹配HRD输出经解码图片的时序，那么装置可确定DUT符合视频译码标准。

在H.264/AVC及HEVC HRD模型中，解码或CPB去除可基于存取单元。即，假设HRD一次性解码完全的存取单元，且从CPB去除完全的存取单元。此外，在H.264/AVC及HEVC HRD模型中，假设图片解码为瞬时的。视频编码器20可在图片时序SEI消息中发信解码时间以开始存取单元的解码。在实际应用中，如果符合的视频解码器严格遵照经发信以开始存取单元的解码的解码时间，那么输出特定经解码图片的最早可能时间等于所述特定图片的解码时间加上解码所述特定图片所需的时间。然而，在真实世界中，解码图片所需的时间无法等于零。

HRD参数可控制HRD的各种方面。换句话说，HRD可依赖于HRD参数。HRD参数可包含初始CPB去除延迟、CPB大小、位速率、初始DPB输出延迟及DPB大小。视频编码器20可在于视频参数集(VPS)及/或序列参数集(SPS)中指定的hrd_parameters( )语法结构中发信这些HRD参数。个别VPS及/或SPS可包含用于不同组的HRD参数的多个hrd_parameters( )语法结构。在一些实例中，视频编码器20可在缓冲周期SEI消息或图片时序SEI消息中发信HRD参数。

当视频译码器(例如，视频编码器20或视频解码器30)开始译码图片的当前切片时，视频译码器可初始化第一参考图片列表(即，列表0)。此外，如果当前切片为B切片，那么视频译码器可初始化第二参考图片列表(即，列表1)。本发明可将列表0称作“RefPicList0”，且可将列表1称作“RefPicList1”。在视频译码器已初始化了参考图片列表(例如，列表0或列表1)后，视频译码器可修改参考图片列表中的参考图片的次序。换句话说，视频译码器可执行参考图片列表修改(RPLM)过程。视频译码器可按任何次序修改参考图片的次序，包含一个特定参考图片可出现于参考图片列表中的一个以上位置中的情况。

在一些情况下，视频译码器20可使用合并模式或高级运动向量预测(AMVP)模式发信PU的运动信息。换句话说，在HEVC中，存在用于运动参数的预测的两个模式，一个为合并模式，且另一个为AMVP。PU的运动信息可包含PU的运动向量及PU的参考索引。当视频编码器20使用合并模式发信当前PU的运动信息时，视频编码器20产生合并候选者列表(即，运动向量预测值(MVP)候选者列表)。换句话说，视频编码器20可执行运动向量预测值列表构造过程。合并候选者列表包含一组合并候选者(即，MVP候选者)。合并候选者列表可包含指示空间上或时间上相邻于当前PU的PU的运动信息的合并候选者。即，在合并模式中，在候选者可来自空间及时间相邻块的情况下，构造运动参数(例如，参考索引、运动向量等)的候选者列表。

此外，在合并模式中，视频编码器20可从合并候选者列表中选择合并候选者，且可使用由选定合并候选者指示的运动信息作为当前PU的运动信息。视频编码器20可发信选定合并候选者在合并候选者列表中的位置。举例来说，视频编码器20可通过发射在候选者列表内的索引来发信选定运动向量参数。视频解码器30可从位流获得在候选者列表内的索引(即，候选者列表索引)。此外，视频解码器30可产生同一合并候选者列表，且可基于选定合并候选者的位置的指示确定选定合并候选者。视频解码器30可接着使用选定合并候选者的运动信息产生用于当前PU的预测性块。即，视频解码器30可至少部分基于候选者列表索引确定候选者列表中的选定候选者，其中所述选定候选者指定用于当前PU的运动向量。以此方式，在解码器侧，一旦索引经解码，索引指向的对应块的所有运动参数就将由当前PU继承。

跳过模式类似于合并模式。在跳过模式中，视频编码器20及视频解码器30按与视频编码器20及视频解码器30在合并模式中使用合并候选者列表相同的方式产生及使用合并候选者列表。然而，当视频编码器20使用跳过模式发信当前PU的运动信息时，视频编码器20不发信用于当前PU的任何残余数据。因此，视频解码器30可使用由合并候选者列表中的选定候选者的运动信息指示的参考块作为PU的预测性块。

AMVP模式在以下方面类似于合并模式：视频编码器20产生候选者列表且从候选者的列表选择候选者。然而，当视频编码器20使用AMVP模式发信当前PU的运动信息时，除发信选定候选者在候选者列表中的位置外，视频编码器20还可发信用于当前PU的运动向量差(MVD)及参考索引。用于当前PU的MVD可指示当前PU的运动向量与来自AMVP候选者列表的选定候选者的运动向量之间的差。在单向预测中，视频编码器20可发信用于当前PU的一个MVD及一个参考索引。在双向预测中，视频编码器20可发信用于当前PU的两个MVD及两个参考索引。以此方式，视频编码器20可通过发射在候选者列表内的索引来发信选定运动向量，且可发信参考索引值及MVD。换句话说，位流中的表示当前PU的运动向量的数据可包含表示参考索引、候选者列表的索引及MVD的数据。

此外，当使用AMVP模式发信当前PU的运动信息时，视频解码器30可从位流获得用于当前PU的MVD及候选者列表索引。视频解码器30可产生同一AMVP候选者列表，且可基于选定候选者在AMVP候选者列表中的位置的指示确定选定候选者。视频解码器30可通过将MVD加到由选定候选者指示的运动向量来恢复当前PU的运动向量。即，视频解码器30可至少部分基于由选定候选者指示的运动向量及MVD确定当前PU的运动向量。视频解码器30可接着使用当前PU的所述一或多个经恢复的运动向量来产生用于当前PU的预测性块。

如上文所指示，用于合并模式或AMVP的候选者列表可包含基于空间上相邻于当前PU的PU的候选者。本发明可将此类PU称作空间上相邻PU或空间运动向量相邻者。图2为说明相对于当前PU 40的实例空间运动向量相邻者的概念图。即，PU 40与PU 40的空间上相邻PU之间的实例关系描绘于图2中。在图2的实例中，空间上相邻PU可为覆盖指示为A₀、A₁、B₀、B₁及B₂的位置的PU。当PU的预测性块包含位置时，PU可覆盖所述位置。

关于图2的实例，亮度位置(xP，yP)可指定相对于当前图片的左上部亮度样本的PU40的左上部亮度样本。此外，变量nPSW及nPSH可分别表示PU 40的按亮度样本计的宽度及高度。相对于当前图片的左上部样本的PU N的左上部亮度样本为(xN，yN)，其中N表示覆盖位置A₀、A₁、B₀、B₁或B₂的PU。对于覆盖位置A₀、A₁、B₀、B₁或B₂的PU，可将(xN，yN)分别定义为(xP-1，yP+nPSH)、(xP-1，yP+nPSH-1)、(xP+nPSW，yP-1)、(xP+nPSW-1，yP-1)或(xP-1，yP-1)。

合并候选者列表或AMVP候选者列表中的基于时间上相邻于当前PU的PU(即，在与当前PU不同的时间实例中的PU)的运动信息的候选者可被称作时间运动向量预测值(TMVP)。为了确定TMVP，视频译码器可首先识别包含与当前PU共同定位的PU的参考图片。换句话说，视频译码器可识别共同定位的图片。如果当前图片的当前切片为B切片(即，被允许包含经双向帧间预测的PU的切片)，那么视频编码器20可在切片标头中发信指示共同定位的图片是来自RefPicList0还是RefPicList1的语法元素(例如，collocated_from_10_flag)。在视频解码器30识别包含共同定位的图片的参考图片列表后，视频解码器30可使用可在切片标头中发信的另一语法元素(例如，collocated_ref_idx)来识别所识别的参考图片列表中的图片(即，共同定位的图片)。

视频译码器可通过检查共同定位的图片来识别共同定位的PU。TMVP可指示含有共同定位的PU的CU的右下部PU的运动信息，或在含有此PU的CU的中心PU内的右下部PU的运动信息。含有共同定位的PU的CU的右下部PU可为覆盖紧接在所述PU的预测块的右下部样本下方及右边的位置的PU。换句话说，TMVP可指示在参考图片中且覆盖与当前PU的右下角共同定位的位置的PU的运动信息，或TMVP可指示在参考图片中且覆盖与当前PU的中心共同定位的位置的PU的运动信息。

当将通过上述过程识别的运动向量用以产生用于合并模式或AMVP模式的运动候选者时，可基于参考图片的时间位置(通过POC值反映)按比例调整运动向量。举例来说，当当前图片的POC值与参考图片之间的差较大时，视频译码器可将运动向量的量值增大比当当前图片的POC值与参考图片之间的差较小时大的量。

在多视图译码中，存在同一场景的来自不同视点的多个视图。术语“存取单元”用以指对应于同一时间实例的图片的集合。因此，视频数据可概念化为随时间而出现的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中，“视图”可指与同一视图识别符相关联的一序列视图分量。

图3为说明实例多视图解码次序的概念图。多视图解码次序可为位流次序。在图3的实例中，每一正方形对应于一视图分量。正方形的列对应于存取单元。可定义每一存取单元以含有一时间实例的所有视图的经译码图片。正方形的行对应于视图。在图3的实例中，将存取单元标记为T0...T8，且将视图标记为S0...S7。因为在解码存取单元的每一视图分量之后才解码下一个存取单元的任一视图分量，所以图3的解码次序可被称作时间优先译码。存取单元的解码次序可不与视图的输出或显示次序相同。

多视图译码支持视图间预测。视图间预测类似于在H.264/AVC、HEVC或其它视频译码标准中使用的帧间预测，且可使用相同的语法元素。然而，当视频译码器对当前视频单元(例如，宏块或PU)执行视图间预测时，视频译码器可使用与当前视频单元在相同存取单元中但在不同视图中的图片作为参考图片。与此对比，常规帧间预测仅使用在不同存取单元中的图片作为参考图片。

在多视图译码中，如果视频解码器(例如，视频解码器30)可不参考任何其它视图中的图片来解码视图中的图片，那么可将所述视图称作“基础视图”。当译码在非基础视图中的一者中的图片时，如果图片在不同视图中但在与视频译码器当前正译码的图片相同的时间实例(即，存取单元)内，那么视频译码器(例如，视频编码器20或视频解码器30)可将所述图片添加到参考图片列表(例如，RefPicList0或RefPicList1)内。如同其它帧间预测参考图片，视频译码器可在参考图片列表中的任一位置处插入视图间预测参考图片。

图4为说明用于多视图译码的实例预测结构的概念图。图4的多视图预测结构包含时间预测及视图间预测。在图4的实例中，每一正方形对应于一视图分量。标记为“I”的正方形为经帧内预测的视图分量。标记为“P”的正方形为经单向帧间预测的视图分量。标记为“B”及“b”的正方形为经双向帧间预测的视图分量。标记为“b”的正方形可使用标记为“B”的正方形作为参考图片。从第一正方形指向第二正方形的箭头指示第一正方形可在帧间预测中用作第二正方形的参考图片。如由图4中的垂直箭头指示，在同一存取单元的不同视图中的视图分量可用作参考图片。将存取单元的一个视图分量用作同一存取单元的另一视图分量的参考图片可被称作视图间预测。

在H.264/AVC的MVC扩展中，视图间预测由差异运动补偿(其使用H.264/AVC运动补偿的语法)支持，但允许将不同视图中的图片用作参考图片。两个视图的译码还可由H.264/AVC的MVC扩展支持。H.264/AVC的MVC扩展的优势中的一者为：MVC编码器可将两个以上视图当作3D视频输入，且MVC解码器可解码此多视图表示。因此，具有MVC解码器的任何显现器可预期具有两个以上视图的3D视频内容。

在H.264/AVC的MVC扩展中，允许在相同存取单元(即，具有相同时间实例)中的图片间的视图间预测。当译码非基础视图中的一者的图片时，如果图片在不同视图中但具有相同时间实例，那么可将所述图片添加到参考图片列表中。可将视图间预测参考图片置于参考图片列表中的任一位置中，正如任一帧间预测参考图片一样。

3D-HEVC提供同一场景的来自不同视点的多个视图。对于3D-HEVC的标准化努力的部分包含基于HEVC的多视图视频编码解码器的标准化。类似地，在基于HEVC的3DV中，启用基于来自不同视图的经重新构造的视图分量的视图间预测。如H.264/AVC中的MVC一样，3D-HEVC支持视图间运动预测。在3D-HEVC中，视图间预测类似于在标准HEVC中使用的运动补偿，且可利用相同或类似的语法元素。然而，当视频译码器对一PU执行视图间运动预测时，视频译码器可使用与所述PU在相同的存取单元内但在不同视图中的图片作为参考图片。与此对比，常规运动补偿仅使用在不同存取单元中的图片作为参考图片。因此，在3D-HEVC中，基于在同一存取单元的其它视图中的已译码的运动参数来预测或推断在相依视图中的块的运动参数。

当使用合并模式或AMVP模式发信当前PU的运动信息时，视频译码器可产生一候选者列表(例如，合并候选者列表或AMVP候选者列表)。在3D-HEVC中，候选者列表可包含可按与候选者列表中的其它候选者相同的方式使用的视图间预测候选者。视图间预测候选者指定参考图片的PU(即，参考PU)的运动信息。参考图片可与当前PU在相同的存取单元中，但与当前PU在不同的视图中。为了确定参考PU，视频译码器可执行差异向量构造过程以确定当前PU的差异向量。当前PU的差异向量可指示当前PU与参考纹理图片内的位置之间的水平空间位移。参考PU可为参考纹理图片的覆盖由差异向量指示的位置的PU。

此外，视频编码器20可产生VPS、SPS及PPS。VPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码视频序列。SPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码视频序列。单个VPS可与多个SPS相关联。与单个VPS相关联的SPS可包含具有不同值的语法元素。因此，视频编码器20可产生比SPS少的VPS。每一SPS可包含将所述SPS识别为与一特定VPS相关联的语法元素。每一PPS为包含语法元素的语法结构，所述语法元素的值可应用于零或零个以上完整的经译码图片。每一PPS可包含将所述PPS识别为与一特定SPS相关联的语法元素。

在HEVC中，VPS、SPS、PPS机制将不频繁改变的信息的发射与经译码的块数据的发射去耦。在一些应用中，可在带外传送VPS、SPS及PPS。即，在一些情况下，不将VPS、SPS及PPS与含有经译码视频数据的单元一起输送。带外传输通常可为可靠的。

每一VPS、SPS、PPS及调适参数集(APS)可包含一识别符。在HEVC工作草案7中，使用“ue(v)”译码VPS、SPS、PPS或APS的识别符。换句话说，使用可变长度不带正负号的整数(其使用0阶指数葛洛姆(Exp-Golomb)译码来编码，其中左边的位先开始)译码VPS、SPS、PPS或APS的识别符。每一SPS包含一SPS识别符及一VPS识别符，每一PPS包含一PPS识别符及一SPS识别符。每一切片标头包含一PPS识别符(且在HEVC的一些版本中，可能包含一APS识别符)。

VPS可主要含有用于2维视频的配置文件/层级及HRD信息。此外，VPS可包含一或多个扩展(即，VPS扩展)，其含有与HEVC的扩展(例如，3D-HEVC、SHEVC等)相关联的语法元素。3D-HEVC VPS扩展及SHEVC VPS扩展可包含与一或多个操作点有关的信息。此外，VPS可包含针对会话协商所请求的信息，例如，位速率。

通常，序列层级信息参数存在在SPS中。举例来说，SPS包含启用或停用在HEVC基础规范中定义的译码工具的语法元素(例如，旗标)。译码工具可为用于译码视频数据的过程或技术。如VPS一样，SPS可包含一或多个扩展(即，SPS扩展)，其含有与HEVC的扩展(例如，3D-HEVC、SHEVC等)相关联的语法元素。SPS扩展可包含指示在HEVC扩展中定义的译码工具被启用或停用的语法元素。在3D-HEVC中，若干个此类语法元素包含在SPS扩展中。

指示特定译码工具是否经启用的语法元素可包含interview_refs_present_flag、enable_dmm_flag、use_mvi_flag、multi_view_mv_pred_flag及multi_view_residual_pred_flag。interview_refs_present_flag语法元素指示是否可使用视图间参考。当使用视图间参考时，视频译码器可至少部分基于与当前图片在不同视图中的参考图片产生用于当前图片的PU的预测性块。enable_dmm_flag语法元素指示深度图模型化(DMM)模式是否经启用。DMM模式属于基于分割区的深度帧内译码，且经设计以较好地表示深度信息。此类基于分割区的深度帧内译码模式包含深度模型化模式(DMM)。在DMM模式中，通过两个非矩形分割区来译码深度块。使用相邻参考样本预测每一分割区的DC值，且可进一步译码残余值以补偿预测误差。分割区的DC值可为分割区的左上部值。

use_mvi_flag语法元素指示从纹理到深度的运动向量继承(MVI)是否经启用。当启用从纹理到深度的运动向量继承时，视频译码器可至少部分基于纹理视图分量中的PU的运动向量确定对应的深度视图分量中的对应PU的运动向量。

multi_view_mv_pred_flag语法元素指示视图间运动向量预测是否经启用。当启用视图间运动向量预测时，视频译码器可至少部分基于与当前图片在不同视图中的图片的PU的运动向量确定当前图片的PU的运动向量。

multi_view_residual_pred_flag指示视图间残余预测是否经启用。当启用视图间残余预测时，视频译码器可至少部分基于与当前图片在不同视图中的参考图片的CU的残余数据确定当前图片的CU的残余数据。

如在图4的实例中所示，视图向量可将其它视图的视图分量用于参考。此可被称作视图间预测。在多视图译码中，可实现视图间预测，就如同另一视图中的视图分量为帧间预测参考图片一样。然而，如以下在表1中所示，可在SPS MVC扩展中发信可能的视图间参考图片。此外，可通过参考图片列表构造过程来修改可能的视图间参考图片，此允许实现帧间预测或视图间预测参考的灵活排序。下表1为基于AVC的3DV中的SPS MVC扩展的实例语法。

表1——SPS MVC扩展

在以上表1及本发明的其它语法表的实例中，具有类型描述符ue(v)的语法元素可为可变长度不带正负号的整数(其使用0阶指数葛洛姆(Exp-Golomb)译码来编码，其中左边的位先开始)。在表1及下列表的实例中，具有形式u(n)(其中n为非负整数)的描述符的语法元素为长度n的不带正负号的值。

在SPS MVC扩展中，对于每一视图，发信可用以形成参考图片列表0及参考图片列表1的视图的数目。举例来说，anchor_ref_10[i][j]指定在解码具有等于i的视图阶数索引的锚定视图分量时初始参考图片列表RefPicList0中的用于视图间预测的第j个视图分量的视图识别符。视图阶数索引指示在基于与视图相关联的摄影机位置的视图的排序中视图的位置。anchor_ref_11[i][j]指定在解码具有等于i的视图阶数索引的锚定视图分量时初始参考图片列表RefPicList1中的用于视图间预测的第j个视图分量的视图识别符。non_anchor_ref_10[i][j]指定在解码具有等于i的视图阶数索引的非锚定视图分量时初始参考图片列表RefPicList0中的用于视图间预测的第j个视图分量的视图识别符。non_anchor_ref_11[i][j]指定在解码具有等于i的视图阶数索引的非锚定视图分量时初始参考图片列表RefPicList1中的用于视图间预测的第j个视图分量的视图识别符。

如在以上表1中所示，如在SPS MVC扩展中发信的针对锚定图片的预测关系可与针对同一视图的非锚定图片的预测关系(在SPS MVC扩展中发信)不同。锚定图片为所有切片仅可参考同一存取单元内的切片的经译码图片，即，可使用视图间预测，但不使用帧间预测，且按输出次序的所有接下来的经译码图片不使用根据按解码次序在经译码图片前的任一图片的帧间预测。

以上描述的方案存在若干问题。如上文所提到，位流的基础层符合基础HEVC规范。因此，可应用于基础层的SPS不包含用于HEVC扩展(例如，3D-HEVC、SHEVC等)的SPS扩展。当位流符合HEVC扩展且除基础层外还包含一或多个层时，可针对不同层启用HEVC扩展的不同译码工具。因此，视频编码器20可能需要产生多个SPS，其中的每一者可应用于同一经译码视频序列的不同层。然而，所述SPS中的每一者可包含与基础HEVC规范相关联且不与HEVC扩展相关联的语法元素。因此，可在可应用于同一经译码视频序列的所述层的SPS中的每一者中重复与基础HEVC规范相关联的语法元素。此情形可不必要地增大位流的大小。此外，因为每一PPS与仅单个SPS相关联，所以位流对于每一层可能需要包含一或多个PPS。因为PPS不包含HEVC扩展所特定的语法元素，所以除了指示相关联的SPS的语法元素外，所述PPS可为彼此的复制。因此，额外SPS可实际上为位浪费。换句话说，指示HEVC扩展(例如，3DV或可缩放)中的额外工具的旗标可存在于基于当前HEVC规范的新SPS中，这是由于所述旗标将在SPS扩展部分中。因此，即使此SPS的所有其它信息与(例如)基础层/视图SPS相同，也需要新SPS，且因此，需要具有相同内容但不同识别符的新PPS。

根据本发明的一或多个技术，HEVC扩展(例如，多视图、3DV及SVC)中的VPS扩展可包含工具启用旗标。工具启用旗标可为指示是否启用特定译码工具的语法元素。因此，视频编码器20不需要在SPS扩展中包含工具启用旗标。即，当针对增强层或视图引入新的译码工具时，启用/停用所述工具的旗标可如上所述存在于VPS中，其针对整个操作点或针对整个视图/层。

举例来说，视频编码器20可在视频数据位流中包含针对视频译码扩展的VPS扩展。VPS扩展可为VPS内的语法结构。VPS自身可为可应用于一或多个完整的经译码视频序列的语法结构。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。当语法元素指示针对所述组可应用层启用所述译码工具时，视频编码器20可通过使用译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频编码器20可不使用所述译码工具来编码与所述一或多个经译码的视频序列相关联且与所述组可应用层相关联的视频数据。

类似地，视频解码器30可从视频数据位流获得针对视频译码扩展的VPS扩展。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。当语法元素指示针对所述一或可应用层启用所述译码工具时，视频解码器30可通过使用译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频解码器30可不使用译码工具来解码与所述一或多个经译码的视频序列相关联且与所述组可应用层相关联的视频数据。

在一些实例中，工具启用旗标可一度存在于VPS扩展中，且因此，可对于位流的所有层适用。在一些此类实例中，以上提到的所述组可应用层可包含不包含基础层的视频数据位流的所有层(或可由所述所有层组成)。在其它此类实例中，以上提到的所述组可应用层可包含视频数据位流的所有深度层(或可由所述所有深度层组成)。在其它实例中，一些工具启用旗标可一度存在于VPS扩展中，且可应用于位流的所有层，而其它工具启用旗标可一度存在于VPS扩展中以用于位流的每一层。此外，SPS可在VPS中包含指示针对每一层是否存在基础HEVC规范的特定译码工具的语法元素(例如，旗标)。

在其它实例中，工具启用旗标可一度存在于VPS扩展中以用于位流的每一层。在一些此类实例中，以上提到的所述组可应用层可包含视频数据位流的单个层，但语法元素可在VPS扩展中的多个语法元素间。多个语法元素中的指示是否针对多个层中的单个不同层启用译码工具的每一语法元素。在一些实例中，所述多个层包含视频数据位流的每一层(或可由每一层组成)，但视频数据位流的基础视图除外。在其它实例中，所述多个层包含视频数据位流的每一深度层(或可由每一深度层组成)。

因此，在工具启用旗标可一度存在于VPS扩展中以用于位流的每一层的实例中，对于所述多个语法元素中的每一相应语法元素，当所述相应语法元素指示针对所述多个层中的相应层启用译码工具时，视频编码器20可通过使用译码工具编码与一或多个译码的视频序列相关联且与所述相应层相关联的视频数据的至少一相应部分。此外，对于所述多个语法元素中的每一相应语法元素，当所述相应语法元素指示不针对所述相应层启用译码工具时，视频编码器20可不使用所述译码工具来编码与所述一或多个经译码的视频序列相关联且与所述相应层相关联的视频数据。

同样地，对于所述多个语法元素中的每一相应语法元素，当所述相应语法元素指示针对所述多个层中的相应层启用译码工具时，视频解码器30可通过使用译码工具解码与所述一或多个经译码的视频序列相关联且与所述相应层相关联的视频数据的至少一相应部分。此外，对于所述多个语法元素中的每一相应语法元素，当所述相应语法元素指示不针对所述相应层启用译码工具时，视频解码器30可不使用译码工具来解码与所述一或多个经译码的视频序列相关联且与所述相应层相关联的视频数据。

除非另有陈述，否则视频编码器20可产生包含一VPS的视频数据位流。VPS包含针对视频译码扩展的VPS扩展。VPS扩展包含用于视频数据位流的每一相应层的相应语法元素。VPS扩展为可应用于一或多个完整的经译码视频序列的语法结构。对于视频数据位流的每一相应层，当针对相应层的语法元素指示针对所述相应层启用译码工具时，视频编码器20可通过使用译码工具编码与一或多个经译码的视频序列相关联且与相应层相关联的视频数据的至少一部分。编码视频数据包含产生视频数据的经编码表示。此外，对于视频数据位流的每一相应层，当针对相应层的语法元素指示未针对所述相应层启用所述译码工具时，视频编码器20可不使用所述译码工具来编码与一或多个经译码的视频序列相关联且与相应层相关联的视频数据。

类似地，视频解码器30可从视频数据位流获得针对视频译码扩展的VPS扩展。VPS扩展可包含用于视频数据位流的每一相应层的相应语法元素。此外，对于视频数据位流的每一相应层，当针对相应层的语法元素指示针对所述相应层启用译码工具时，视频解码器可通过使用译码工具解码与经译码视频序列相关联且与相应层相关联的视频数据的至少一部分。解码视频数据包含基于经编码视频数据产生经解码视频数据。当针对相应层的语法元素指示未针对所述相应层启用所述译码工具时，视频解码器30可不使用译码工具来解码与所述经译码视频序列相关联且与所述相应层相关联的视频数据。

因为在VPS扩展而不是SPS的扩展中发信语法元素，所以位流可不必包含用于所述层中的每一者的SPS。因此，所述位流可至少小了表示SPS的基础HEVC规范语法元素所需的位数目。此外，因为在VPS扩展而不是SPS的扩展中发信语法元素，所以可不必产生同样多的PPS，从而进一步节省位。虽然参考HEVC提供本发明的技术的描述，但本发明的技术中的一或多者可应用于其它视频译码规范。

图5为说明可实施本发明的技术的实例视频编码器20的框图。图5是为了解释的目的提供，且不应被考虑为限制如在本发明中广泛举例说明及描述的技术。为了解释的目的，本发明在HEVC译码的上下文中描述视频编码器20。然而，本发明的技术可适用于其它译码标准或方法。

在图5的实例中，视频编码器20包含预测处理单元100、残余产生单元102、变换处理单元104、量化单元106、反量化单元108、反变换处理单元110、重新构造单元112、滤波器单元114、经解码图片缓冲器116及熵编码单元118。预测处理单元100包含帧间预测处理单元120及帧内预测处理单元126。帧间预测处理单元120包含运动估计单元122及运动补偿单元124。在其它实例中，视频编码器20可包含更多的、更少的或不同功能组件。

视频编码器20可接收视频数据。视频编码器20可编码视频数据的图片的切片中的每一CTU。CTU中的每一者可与图片的同等大小的亮度译码树型块(CTB)及对应的CTB相关联。作为编码CTU的部分，预测处理单元100可执行四叉树分割以将CTU的CTB分成逐渐更小的块。较小的块可为CU的译码块。举例来说，预测处理单元100可将与CTU相关联的CTB分割成四个同等大小的子块，将子块中的一或多者分割成四个同等大小的子子块，等等。

视频编码器20可编码CTU的CU以产生CU的经编码表示(即，经译码CU)。作为编码CU的部分，预测处理单元100可在CU的一或多个PU间分割与CU相关联的译码块。因此，每一PU可与一亮度预测块及对应的色度预测块相关联。视频编码器20及视频解码器30可支持具有各种大小的PU。CU的大小可指CU的亮度译码块的大小，且PU的大小可指PU的亮度预测块的大小。假设一特定CU的大小为2N×2N，那么视频编码器20及视频解码器30对于帧内预测可支持2N×2N或N×N的PU大小，且对于帧间预测可支持2N×2N、2N×N、N×2N、N×N或类似者的对称PU大小。对于帧间预测，视频编码器20及视频解码器30还可支持对于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的非对称分割。

帧间预测处理单元120可通过对CU的每一PU执行帧间预测来产生用于PU的预测数据。用于PU的预测数据可包含PU的预测性块及用于PU的运动信息。帧间预测处理单元120可取决于PU在I切片、P切片还是B切片中来执行对于CU的PU的不同操作。在I切片中，所有PU经帧内预测。因此，如果PU在I切片中，那么帧间预测处理单元120不对PU执行帧间预测。因此，对于在I模式中编码的视频块，使用根据同一帧内的先前编码的相邻块的空间预测来形成预测性块。

P切片中的PU可经帧内预测或单向帧间预测。举例来说，如果PU在P切片中，那么运动估计单元122可在参考图片的列表(例如，“RefPicList0”)中的参考图片中搜索用于PU的参考区域。用于PU的参考区域可为参考图片内的含有最紧密对应于PU的预测块的样本块的区域。运动估计单元122可产生参考索引，其指示含有用于PU的参考区域的参考图片在RefPicList0中的位置。此外，运动估计单元122可产生指示PU的预测块与相关联于参考区域的参考位置之间的空间位移的运动向量。举例来说，运动向量可为提供从当前图片中的坐标到参考图片中的坐标的偏移的二维向量。运动估计单元122可输出参考索引及运动向量，作为PU的运动信息。运动补偿单元124可基于与由PU的运动向量指示的参考位置相关联的实际或内插样本来产生PU的预测性块。

B切片中的PU可经帧内预测、单向帧间预测或双向帧间预测。因此，如果PU在B切片中，运动估计单元122可执行对于PU的单向预测或双向预测。为了执行对于PU的单向预测，运动估计单元122可在RefPicList0或第二参考图片列表(“RefPicList1”)的参考图片中搜索用于PU的参考区域。运动估计单元122可输出指示含有参考区域的参考图片在RefPicList0或RefPicList1中的位置的参考索引、指示PU的预测块与相关联于参考区域的参考位置之间的空间位移的运动向量及指示参考图片在RefPicList0还是RefPicList1中的一或多个预测方向指示符作为PU的运动信息。运动补偿单元124可至少部分基于与由PU的运动向量指示的参考位置相关联的实际或内插样本产生PU的预测性块。

为了执行对于PU的双向帧间预测，运动估计单元122可在RefPicList0中的参考图片中搜索用于PU的参考区域，且还可在RefPicList1中的参考图片中搜索用于PU的另一参考区域。运动估计单元122可产生参考索引，其指示含有参考区域的参考图片在RefPicList0及RefPicList1中的位置。此外，运动估计单元122可产生运动向量，其指示与参考区域相关联的参考位置与PU的预测块之间的空间位移。PU的运动信息可包含PU的参考索引及运动向量。运动补偿单元124可至少部分基于与由PU的运动向量指示的参考位置相关联的实际或内插样本来产生PU的预测性块。

帧内预测处理单元126可通过对PU执行帧内预测产生用于PU的预测性数据。用于PU的预测性数据可包含用于PU的预测性块及各种语法元素。帧内预测处理单元126可对I切片、P切片及B切片中的PU执行帧内预测。

为了对PU执行帧内预测，帧内预测处理单元126可使用多个帧内预测模式产生用于PU的多组预测性数据。不同帧内预测模式可与空间上相邻的PU的不同组样本相关联。帧内预测处理单元126可使用与帧内预测模式相关联的特定样本产生用于PU的预测性块。空间上相邻的PU可在PU上方、在PU右上方、在PU左上方或在PU左边(假设PU、CU及CTU的从左到右、从顶到底编码次序)。帧内预测处理单元126可使用各种数目个帧内预测模式，例如，33个定向帧内预测模式。在一些实例中，帧内预测模式的数目可取决于PU的预测块的大小。

预测处理单元100可从由帧间预测处理单元120为PU产生的预测性数据或由帧内预测处理单元126为PU产生的预测性数据中选择用于CU的PU的预测性数据。在一些实例中，预测处理单元100基于所述组预测性数据的速率/失真度量来选择用于CU的PU的预测性数据。选定预测性数据的预测性块可在本文中被称作选定预测性块。

残余产生单元102可基于CU的亮度、Cb及Cr译码块及CU的PU的选定预测性亮度、Cb及Cr块产生CU的亮度、Cb及Cr残余块。举例来说，残余产生单元102可产生CU的残余块，使得残余块中的每一样本具有等于CU的译码块中的样本与CU的PU的对应的选定预测性块中的对应样本之间的差的值。

变换处理单元104可执行四叉树分割以将与CU相关联的残余块分割成与CU的TU相关联的变换块。因此，TU可与一亮度变换块及两个色度变换块相关联。CU的TU的亮度及色度变换块的大小及位置可基于或可不基于CU的PU的预测块的大小及位置。

变换处理单元104可通过将一或多个变换应用于TU的变换块而产生用于CU的每一TU的系数块。变换处理单元104可将各种变换应用于与TU相关联的变换块。举例来说，变换处理单元104可将离散余弦变换(DCT)、方向变换或概念上类似的变换应用于变换块。在一些实例中，变换处理单元104不将变换应用于变换块。在此类实例中，可将变换块当作系数块处理。

量化单元106可将系数块中的变换系数量化。量化过程可减小与所述变换系数中的一些或所有者相关联的位深度。举例来说，在量化期间可将n位变换系数舍位到m位变换系数，其中n大于m。量化单元106可基于与CU相关联的量化参数(QP)值将与CU的TU相关联的系数块量化。视频编码器20可通过调整与CU相关联的QP值来调整应用于与CU相关联的系数块的量化程度。量化可引入信息损失，因此，经量化的变换系数可具有比原始变换系数低的精确度。

反量化单元108及反变换处理单元110可分别将反量化及反变换应用于系数块，以从系数块重新构造残余块。重新构造单元112可将经重新构造的残余块加到来自由预测处理单元100产生的一或多个预测性块的对应样本以产生与TU相关联的经重新构造的变换块。通过以此方式重新构造用于CU的每一TU的变换块，视频编码器20可重新构造CU的译码块。

滤波器单元114可执行一或多个解块操作以减少与CU相关联的译码块中的方块效应伪影。经解码图片缓冲器116可在滤波器单元114对经重新构造的译码块执行所述一或多个解块操作后存储经重新构造的译码块。帧间预测处理单元120可使用含有经重新构造的译码块的参考图片对其它图片的PU执行帧间预测。此外，帧内预测处理单元126可使用经解码图片缓冲器116中的经重新构造的译码块对与CU在相同图片中的其它PU执行帧内预测。

熵编码单元118可从视频编码器20的其它功能组件接收数据。举例来说，熵编码单元118可从量化单元106接收系数块，及可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作以产生经熵编码的数据。举例来说，熵编码单元118可对数据执行上下文自适应性可变长度译码(CAVLC)操作、CABAC操作、变量到变量(V2V)长度译码操作、基于语法的上下文自适应性二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作、指数葛洛姆编码操作或另一类型的熵编码操作。视频编码器20可输出包含由熵编码单元118产生的经熵编码的数据的位流。所述位流还可包含未经熵编码的语法元素。根据本发明的一或多个实例技术，位流可包含一VPS，其包含针对视频译码扩展的VPS扩展。VPS扩展包含用于视频数据位流的每一相应层的相应语法元素。所述语法元素可指示是否针对相应层启用特定译码工具。

图6为说明可实施本发明中描述的技术的实例视频解码器30的框图。图6是为了解释的目的而提供，且不对如在本发明中广泛举例说明及描述的技术加以限制。为了解释的目的，本发明在HEVC译码的上下文中描述视频解码器30。然而，本发明的技术可适用于其它译码标准或方法。

在图6的实例中，视频解码器30包含熵解码单元150、预测处理单元152、反量化单元154、反变换处理单元156、重新构造单元158、滤波器单元160及经解码图片缓冲器162。预测处理单元152包含运动补偿单元164及帧内预测处理单元166。在其它实例中，视频解码器30可包含更多、更少或不同的功能组件。

熵解码单元150可接收NAL单元且剖析NAL单元以从位流获得语法元素。熵解码单元150可熵解码NAL单元中的经熵编码的语法元素。预测处理单元152、反量化单元154、反变换处理单元156、重新构造单元158及滤波器单元160可基于从位流获得的语法元素产生经解码的视频数据。

位流的NAL单元可包含经译码切片NAL单元。作为解码位流的部分，熵解码单元150可熵解码经译码切片NAL单元中的某些语法元素。经译码切片中的每一者可包含一切片标头及切片数据。切片标头可含有涉及切片的语法元素。切片标头中的语法元素可包含识别与含有所述切片的图片相关联的PPS的一语法元素。

除了从位流获得语法元素外，视频解码器30可对CU执行重新构造操作。为了对CU执行重新构造操作，视频解码器30可对CU的每一TU执行重新构造操作。通过针对CU的每一TU执行重新构造操作，视频解码器30可重新构造CU的残余块。

作为对CU的TU执行重新构造操作的部分，反量化单元154可将与TU相关联的系数块反量化(即，解量化)。反量化单元154可使用与TU的CU相关联的QP值确定量化的程度，及同样地，确定反量化单元154要应用的反量化程度。

在反量化单元154将系数块反量化后，反变换处理单元156可将一或多个反变换应用于系数块以便产生与TU相关联的残余块。举例来说，反变换处理单元156可将反DCT、反整数变换、反卡忽南-拉维(Karhunen-Loeve)变换(KLT)、反旋转变换、反方向变换或另一反变换应用于系数块。

如果使用帧内预测编码PU，那么帧内预测处理单元166可执行帧内预测以产生用于PU的预测性块。帧内预测处理单元166可使用帧内预测模式基于空间上相邻的PU的预测块产生用于PU的预测性亮度、Cb及Cr块。帧内预测处理单元166可基于从位流获得的一或多个语法元素确定用于PU的帧内预测模式。

预测处理单元152可基于从位流获得的语法元素构造第一参考图片列表(RefPicList0)及第二参考图片列表(RefPicList1)。此外，如果使用帧间预测编码PU，那么熵解码单元150可获得用于PU的运动信息。运动补偿单元164可基于PU的运动信息确定用于PU的一或多个参考区域。运动补偿单元164可基于与用于PU的一或多个参考块相关联的样本产生用于所述PU的预测性亮度、Cb及Cr块。

重新构造单元158可使用与CU的TU相关联的亮度、Cb及Cr变换块及CU的PU的预测性亮度、Cb及Cr块(即，帧内预测数据或帧间预测数据，当适用时)重新构造CU的亮度、Cb及Cr译码块。举例来说，重新构造单元158可将亮度、Cb及Cr变换块的样本加到预测性亮度、Cb及Cr块的对应样本以重新构造CU的亮度、Cb及Cr译码块。

滤波器单元160可执行解块操作以减少与CU的亮度、Cb及Cr译码块相关联的方块效应伪影。视频解码器30可将CU的亮度、Cb及Cr译码块存储在经解码图片缓冲器162中。经解码图片缓冲器162可提供用于随后运动补偿、帧内预测及在例如图1的显示装置32的显示装置上呈现的参考图片。举例来说，视频解码器30可基于经解码图片缓冲器162中的亮度、Cb及Cr块对其它CU的PU执行帧内预测或帧间预测操作。以此方式，视频解码器30可从位流剖析亮度系数块的变换系数等级，将变换系数等级反量化，将变换应用于变换系数等级以产生变换块，至少部分基于变换块产生译码块，且输出译码块以供显示。

如上指示，视频编码器20可产生一VPS，其包含针对HEVC扩展(例如，多视图译码、3DV及SVC)的VPS扩展。类似地，视频解码器30可从位流获得针对HEVC扩展的VPS扩展。VPS扩展可包含工具启用旗标，其指示与HEVC扩展相关联的特定译码工具是否经启用。

在本发明的第一实例技术中，VPS扩展可包含可应用于位流的所有层的工具启用旗标。在此第一实例技术中，VPS可具有由下表2展示的语法。

表2——视频参数集

在本发明的第一实例技术中，VPS的语法元素的语义可保持与在HEVC工作草案8中描述的语法元素的语义相同。然而，如在表2中所示，VPS可包含vps_extension( )语法结构。下表3展示根据本发明的第一实例技术的用于vps_extension( )语法结构的语法。

表3——VPS扩展

在表3中，interview_refs_present_flag语法元素指示视图间参考是否经启用。举例来说，等于1的interview_refs_present_flag语法元素指定针对参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间参考预测。等于0的interview_refs_present_flag语法元素指定针对参考此VPS的任一层中的任一图片停用视图间参考预测。因此，interview_refs_present_flag语法元素为指示是否针对一组可应用层(即，不包含基础视图的所有层)启用视图间参考预测的语法元素。

multi_view_mv_pred_flag语法元素指示视图间运动向量预测是否经启用。举例来说，等于1的multi_view_mv_pred_flag语法元素指定针对参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间运动预测。等于0的multi_view_mv_pred_flag语法元素指示针对参考此VPS的任一层中的任一图片停用视图间运动预测。因此，multi_view_mv_pred_flag语法元素为指示是否针对一组可应用层(即，不包含基础视图的所有层)启用视图间运动预测的语法元素。

multi_view_residual_pred_flag指示视图间残余预测是否经启用。举例来说，等于1的multi_view_residual_pred_flag语法元素指定针对参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间残余预测。等于0的multi_view_residual_pred_flag语法元素指示针对参考此VPS的任一层中的任一图片停用视图间残余预测。因此，multi_view_residual_pred_flag语法元素为指示是否针对一组可应用层(即，不包含基础视图的所有层)启用视图间残余预测的语法元素。

enable_dmm_flag语法元素指示深度图模型化(DMM)模式是否经启用。举例来说，等于1的enable_dmm_flag语法元素指定针对参考此VPS的所有深度层中的所有图片启用DMM模式。等于0的enable_dmm_flag语法元素指示针对参考此VPS的任一层中的任一图片停用DMM模式。因此，enable_dmm_flag语法元素为指示是否针对一组可应用层(即，所有深度层)启用DMM模式的语法元素。

use_mvi_flag语法元素指示从纹理到深度的运动向量继承(MVI)是否经启用。举例来说，等于1的use_mvi_flag语法元素指定针对参考此VPS的所有深度层中的所有图片启用MVI。等于0的use_mvi_flag语法元素指示针对参考此VPS的任一层中的任一图片停用MVI。因此，use_mvi_flag语法元素为指示是否针对一组可应用层(即，所有深度层)启用MVI的语法元素。

此外，在本发明的第一实例技术中，视频编码器20可产生符合在下表4中展示的语法的SPS。

表4——序列参数集

表4中展示的语法元素的语义可与如在HEVC工作草案8中描述的对应的语法元素相同。表4的已经删去的部分为HEVC工作草案8中的SPS中所包含的部分，但在本发明的第一实例技术中不存在于SPS中(即，被提议在此实例中删除)。因此，根据本发明的第一实例技术，SPS不包含sps_3DVC_extension_present_flag或sps_3DVC_extension( )语法结构。

此外，在本发明的第一实例技术中，可能不需要SPS扩展3DVC语法结构，或至少存在于VPS中的语法元素不需要进一步存在于SPS中。因此，sps_3DVC_extension( )语法结构可具有在下表5中展示的语法。

表5——SPS 3DVC扩展

表5的已经删去的部分为HEVC工作草案8中的SPS 3DVC扩展中所包含的部分，但在本发明的第一实例技术中不存在于SPS 3DVC扩展中。如果存在于SPS 3DVC扩展中的所有语法元素存在于VPS中，那么可能完全不需要SPS 3DVC扩展。

本发明的第二实例技术类似于本发明的第一实例技术。然而，在本发明的第二实例技术中，视频编码器20产生(且视频解码器30获得)用于每一层的工具启用旗标。相对于第一实例技术，在第二实例技术中仅改变了VPS扩展语法及语义。根据本发明的第二实例技术，VPS扩展可具有由下表6展示的语义。

表6——VPS扩展

在表6中，对于纹理层，可得出depthFlag变量为0，且对于深度层，可得出depthFlag变量为1。纹理层中的每一经译码图片为纹理图片(即，纹理视图分量)。深度层中的每一经译码图片为深度图片(即，深度视图分量)。如表6中所示，VPS扩展包含产生每一层的工具启用旗标的“for”循环。在表6中，interview_refs_present_flag[i]语法元素指示是否针对层i启用视图间参考。举例来说，等于1的interview_refs_present_flag[i]语法元素指定针对在具有等于i的层识别符(即，第i层)且参考此VPS的层中的所有图片启用视图间参考预测。等于0的interview_refs_present_flag[i]语法元素指定针对参考此VPS的第i层中的任一图片停用视图间参考预测。因此，interview_refs_present_flag语法元素为指示是否针对一组可应用层(即，层i)启用视图间参考预测的语法元素。

multi_view_mv_pred_flag[i]语法元素指示是否针对层i启用视图间运动向量预测。举例来说，等于1的multi_view_mv_pred_flag[i]语法元素指定针对参考此VPS的第i层中的所有图片启用视图间运动预测。等于0的multi_view_mv_pred_flag[i]语法元素指示针对参考此VPS的第i层中的任一图片停用视图间运动预测。因此，multi_view_mv_flag语法元素为指示是否针对一组可应用层(即，层i)启用视图间运动预测的语法元素。

multi_view_residual_pred_flag[i]指示是否针对层i启用视图间残余预测。举例来说，等于1的multi_view_residual_pred_flag[i]语法元素指定针对参考此VPS的第i层中的所有图片启用视图间残余预测。等于0的multi_view_residual_pred_flag[i]语法元素指示针对参考此VPS的第i层中的任一图片停用视图间残余预测。因此，multi_view_residual_flag语法元素为指示是否针对一组可应用层(即，层i)启用视图间残余预测的语法元素。

enable_dmm_flag[i]语法元素指示是否针对层i启用深度图模型化模式。举例来说，等于1的enable_dmm_flag[i]语法元素指定针对参考此VPS的第i层中的所有图片启用DMM模式。等于0的enable_dmm_flag[i]语法元素指示针对参考此VPS的第i层中的任一图片停用DMM模式。因此，enable_dmm_flag语法元素为指示是否针对一组可应用层(即，层i)启用DMM模式的语法元素。

use_mvi_flag[i]语法元素指示是否针对层i启用从纹理到深度的运动向量继承。举例来说，等于1的use_mvi_flag[i]语法元素指定针对参考此VPS的第i层中的所有图片启用MVI。等于0的use_mvi_flag[i]语法元素指示针对参考此VPS的第i层中的任一图片停用MVI。因此，use_mvi_flag语法元素为指示是否针对一组可应用层(即，层i)启用MVI的语法元素。

如在表6的实例中所示，当depthFlag等于1时，VPS扩展包含enable_dmm_flag[i]及use_mvi_flag[i]语法元素。如上指示，对于纹理层，可得出depthFlag变量为0，且对于深度层，可得出depthFlag变量为1。因此，视频解码器30可至少部分基于层为纹理层还是深度层来确定VPS扩展是否包含指示是否针对所述层启用译码工具的语法元素。译码工具可包含视图间参考的使用，或译码工具为深度图模型化模式的使用。此外，视频编码器20可至少部分基于相应层为纹理层还是深度层来确定在VPS扩展中是否包含指示是否针对所述相应层启用译码工具的语法元素。译码工具可包含视图间参考的使用，或译码工具包含深度图模型化模式的使用。

在本发明的第三实例技术中，工具启用旗标与每一操作点相关联，而不是与每一层相关联，如在第二实例技术中所进行。在第三实例技术中，VPS扩展可符合在下表7中展示的语法。

表7——VPS扩展

在表7中，如果当前操作点(即，操作点i)包含深度，那么得出depthIncluded变量为1，否则，depthIncluded变量为0。此外，在表7中，等于1的interview_refs_present_flag语法元素指定针对当前操作点的参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间参考预测。等于0的interview_refs_present_flag语法元素指定针对当前操作点的参考此VPS的任一层中的任一图片停用视图间参考预测。

multi_view_mv_pred_flag语法元素指示视图间运动向量预测是否经启用。举例来说，等于1的multi_view_mv_pred_flag语法元素指定针对当前操作点的参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间运动预测。等于0的multi_view_mv_pred_flag语法元素指示针对当前操作点的参考此VPS的任一层中的任一图片停用视图间运动预测。

multi_view_residual_pred_flag指示视图间残余预测是否经启用。举例来说，等于1的multi_view_residual_pred_flag语法元素指定针对当前操作点的参考此VPS的所有层中的所有图片(不包含基础视图中的图片)启用视图间残余预测。等于0的multi_view_residual_pred_flag语法元素指示针对当前操作点的参考此VPS的任一层中的任一图片停用视图间残余预测。

enable_dmm_flag语法元素指示深度图模型化模式是否经启用。举例来说，等于1的enable_dmm_flag语法元素指定针对当前操作点的参考此VPS的所有深度层中的所有图片启用DMM模式。等于0的enable_dmm_flag语法元素指示针对当前操作点的参考此VPS的任一层中的任一图片停用DMM模式。

use_mvi_flag语法元素指示从纹理到深度的运动向量继承是否经启用。举例来说，等于1的use_mvi_flag语法元素指定针对当前操作点的参考此VPS的所有深度层中的所有图片启用MVI。等于0的use_mvi_flag语法元素指示针对当前操作点的参考此VPS的任一层中的任一图片停用MVI。

在HEVC工作草案7中，SPS可含有可由增强视图及/或增强层共享的大多数语法元素。然而，SPS中存在的一些语法元素不适用于两种视图/层。举例来说，针对配置文件、层级及/或HRD参数的语法元素可能不适用于两种视图及/或增强层。此外，在具有符合HEVC的基础视图的立体位流中，可存在SPS的新实例，或所述语法元素中的大多数可能需要存在于VPS中。因此，可复制语法元素。

根据本发明的第四实例技术，属于较低层(例如，基础视图)的SPS可由多个层/视图共享。举例来说，具有在基础规范中定义的配置文件/层级的SPS可由增强层处的视图分量重新使用。此外，即使SPS由较高层或相依视图参考，也可忽略基础层/视图的SPS中的与配置文件及层级有关的信息及/或HRD参数，且此信息可仅存在于VPS中。在此设计中，视频编码器20可将增强视图的视图相依性作为VPS扩展的部分加以发信。

在本发明的第四实例技术中，VPS可具有在下表8中展示的语法。

表8——视频参数集

表8的斜体字部分指示不存在于HEVC工作草案7中的VPS中且根据本发明的一实例添加的部分。在表8中，hrd_parameters( )为包含HRD参数的语法结构。此外，profile_level_info(...)为包含配置文件信息的语法结构。下表9展示profile_level_info(...)语法结构的实例语法。

表9——配置文件层级信息

表9中的语法元素可具有与HEVC工作草案7中的对应的SPS语法元素相同的语义。

此外，在本发明的第四实例技术中，SPS可具有在下表10中展示的语法。

表10——序列参数集

表10的删去部分指示存在于HEVC工作草案7的SPS中但不存在于本发明的第四实例技术中的SPS中的语法元素。在本发明的第四实例技术中，对于具有不等于0的reserved_zero_6bits(layer_id)的参考SPS的视图或层，SPS中的profile_space、constraint_flags、level_idc及profile_compatability_flag[i]被含有此视图或层的操作点忽略。类似地，SPS中包含的HRD参数不适用于含有具有不等于0的reserved_zero_6bits的视图或层的操作点，即使所述操作点参考所述SPS也一样。包含配置文件、层级及HRD参数的此信息可存在于VPS中作为扩展的部分。在一实例中，HEVC立体位流仅含有具有等于0的sps_id的一SPS及具有等于0的vps_id的一VPS。sps_id可为SPS中的识别所述SPS的语法元素。vps_id可为VPS中的识别所述VPS的语法元素。在此实例中，SPS含有符合HEVC主配置文件的一配置文件。此外，在此实例中，所有VCL NAL单元参考具有等于0的sps_id的同一SPS，且所述SPS参考具有等于0的vps_id的VPS。在HEVC基础视图的VPS扩展部分中，将用于立体视频的与配置文件有关的信息与用于立体操作点的HRD一起指定。因此，整个位流可含有仅一个VPS、一个SPS及一个PPS。

图7为说明根据本发明的一或多个实例技术的视频编码器20的实例操作200的流程图。在图7的实例中，视频编码器20可在视频数据位流中包含一VPS，其包含针对视频译码扩展的VPS扩展(202)。VPS扩展包含用于视频数据位流的每一相应层的相应语法元素。VPS扩展为可应用于一或多个完整的经译码视频序列的语法结构。

此外，在图7的实例中，对于视频数据位流的每一相应层，视频编码器20可确定针对相应层的语法元素是否指示针对所述相应层启用译码工具(204)。当针对相应层的语法元素指示针对所述相应层启用所述译码工具时(204的“是”)，视频编码器20可通过使用译码工具编码与所述一或多个经译码视频序列相关联且与所述相应层相关联的视频数据的至少一部分(206)。然而，当针对相应层的语法元素指示未针对所述相应层启用所述译码工具时(204的“否”)，视频编码器20可不使用所述译码工具来编码与所述一或多个经译码视频序列相关联且与所述相应层相关联的视频数据(208)。

图8为说明根据本发明的一或多个实例技术的视频解码器30的实例操作250的流程图。在图8的实例中，视频解码器30从视频数据位流获得针对视频译码扩展的VPS扩展(252)。VPS扩展包含用于视频数据位流的每一相应层的相应语法元素。VPS扩展为可应用于一或多个完整的经译码视频序列的语法结构。

对于视频数据位流的每一相应层，视频解码器30确定针对相应层的语法元素是否指示针对所述相应层启用译码工具(254)。当针对相应层的语法元素指示针对所述相应层启用所述译码工具时(254的“是”)，视频解码器30可通过使用译码工具来解码与所述一或多个经译码视频序列相关联且与所述相应层相关联的视频数据的至少一部分(256)。然而，当针对相应层的语法元素指示未针对所述相应层启用所述译码工具时(254的“否”)，视频解码器30可不使用译码工具来解码与所述一或多个经译码视频序列相关联且与所述相应层相关联的视频数据(258)。

图9为说明根据本发明的一或多个实例技术的视频编码器20的实例操作300的流程图。在图9的实例中，视频编码器20可在视频数据位流中包含针对视频译码扩展的VPS扩展(302)。VPS扩展可为VPS内的语法结构。VPS可为可应用于一或多个完整的经译码视频序列(CVS)的语法结构。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。

此外，当语法元素指示针对所述组可应用层启用所述译码工具时，视频编码器20可通过使用译码工具编码与所述一或多个完整的CVS相关联且与所述组可应用层相关联的视频数据的至少一部分(304)。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频编码器20可不使用所述译码工具来编码与所述一或多个CVS相关联且与所述组可应用层相关联的视频数据(306)。以此方式，如果语法元素指示针对所述组可应用层启用所述译码工具，那么视频编码器20可仅编码与所述一或多个CVS相关联且与所述组可应用层相关联的视频数据。

图10为说明根据本发明的一或多个技术的视频解码器30的实例操作的流程图。在图10的实例中，视频解码器30可从视频数据位流获得针对视频译码扩展的VPS扩展(352)。VPS扩展可为VPS内的语法结构。VPS自身可为可应用于一或多个完整的CVS的语法结构。VPS扩展可包含指示是否针对一组可应用层启用与视频译码扩展相关联的译码工具的语法元素。

当语法元素指示针对所述组可应用层启用所述译码工具时，视频解码器30可通过使用译码工具解码与所述一或多个完整的CVS相关联且与所述组可应用层相关联的视频数据的至少一部分(354)。当语法元素指示不针对所述组可应用层启用所述译码工具时，视频解码器30可不使用译码工具来解码与所述一或多个经译码视频序列相关联且与所述组可应用层相关联的视频数据。以此方式，如果语法元素指示针对所述组可应用层启用所述译码工具，那么视频编码器20可仅编码与所述一或多个CVS相关联且与所述组可应用层相关联的视频数据。

在一或多个实例中，所描述的功能可以硬件、软件、固件或其任何组合实施。如果以软件实施，那么可将功能作为一或多个指令或程序代码存储在计算机可读媒体上或在计算机可读媒体上传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体，通信媒体包含促进(例如)根据通信协议将计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施在本发明中描述的技术的指令、程序代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

通过实例而不是限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用以存储呈指令或数据结构的形式的所要的程序代码且可由计算机存取的任何其它媒体。又，将任何连接恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或无线技术(例如，红外线、无线电及微波)从网站、服务器或其它远程源传输指令，那么同轴电缆、光缆、双绞线、DSL或无线技术(例如，红外线、无线电及微波)包含在媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是针对非暂时性有形存储媒体。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光(Blu-ray)光盘，其中磁盘通常以磁性的方式再生数据，而光盘通过激光以光学的方式再生数据。以上的组合也应包含在计算机可读媒体的范围内。

指令可由一或多个处理器执行，例如，一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外，在一些方面中，本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内，或被并入组合的编码解码器中。同样，所述技术可完全地实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中，包含无线手持机、集成电路(IC)或IC的集合(例如，芯片组)。在本发明中描述了各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面，但所述各种组件、模块或单元未必要求通过不同硬件单元实现。更确切地说，如上所述，各种单元可组合于编码解码器硬件单元中或由与合适的软件及/或固件相结合的互操作的硬件单元(包含如上所述的一或多个处理器)的集合提供。

已描述各种实例。这些及其它实例在下列权利要求书的范围内。

Claims

1.一种解码视频数据的方法，所述方法包括：

从视频数据位流获得针对视频译码扩展的视频参数集VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；

当所述语法元素指示针对所述一或可应用层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；以及

当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

2.根据权利要求1所述的方法，其中所述组可应用层包含所述视频数据位流的不包含基础层的所有层。

3.根据权利要求1所述的方法，其中所述组可应用层包含所述视频数据位流的所有深度层。

4.根据权利要求1所述的方法，其中：

所述组可应用层仅包含所述视频数据位流的单个层，所述语法元素在所述VPS扩展中的多个语法元素间，所述多个语法元素中的每一语法元素指示是否针对多个层中的单个不同层启用所述译码工具，且

所述方法包括，对于所述多个语法元素中的每一语法元素：

当所述相应语法元素指示针对所述多个层中的相应层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的视频数据的至少一相应部分；以及

当所述相应语法元素指示不针对所述多个层中的所述相应层启用所述译码工具时，不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的所述视频数据。

5.根据权利要求4所述的方法，其中所述多个层包含所述视频数据位流的每一层，但所述视频数据位流的基础视图除外。

6.根据权利要求4所述的方法，其中所述多个层包含所述视频数据位流的每一深度层。

7.根据权利要求3所述的方法，其进一步包括至少部分基于所述相应层为纹理层还是深度层来确定所述VPS扩展是否包含指示是否针对所述相应层启用所述译码工具的所述语法元素。

8.根据权利要求1所述的方法，其中：

所述一或多个完整的经译码视频序列为一或多个完整的经译码视频序列的第一集合，且

所述方法进一步包括从所述视频数据位流获得包含识别所述VPS的语法元素的序列参数集SPS，其中所述SPS为可应用于零或零个以上经译码视频序列的第二集合的语法结构。

9.根据权利要求1所述的方法，其中所述译码工具包含以下各者中的一者：视图间参考的使用、深度图模型化模式的使用、从纹理到深度的运动向量继承的使用、视图间运动向量预测的使用及视图间残余预测的使用。

10.根据权利要求1所述的方法，其中所述视频译码扩展包括高效率视频译码HEVC的多视图视频译码扩展、可缩放视频译码SVC扩展或3D视频译码3DV扩展中的一者。

11.一种视频解码装置，其包括一或多个处理器，所述一或多个处理器经配置以：

从包括多个层的视频数据位流获得针对视频译码扩展的视频参数集VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；

当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；以及

12.根据权利要求11所述的视频解码装置，其中所述组可应用层包含所述视频数据位流的不包含基础层的所有层。

13.根据权利要求11所述的视频解码装置，其中所述组可应用层包含所述视频数据位流的所有深度层。

14.根据权利要求11所述的视频解码装置，其中：

所述一或多个处理器经配置以使得对于所述多个语法元素中的每一语法元素：

当所述相应语法元素指示针对所述多个层中的相应层启用所述译码工具时，所述一或多个处理器通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的视频数据的至少一相应部分；以及

当所述相应语法元素指示不针对所述相应层启用所述译码工具时，所述一或多个处理器不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的所述视频数据。

15.根据权利要求14所述的视频解码装置，其中所述多个层包含所述视频数据位流的每一层，但所述视频数据位流的基础视图除外。

16.根据权利要求14所述的视频解码装置，其中所述多个层包含所述视频数据位流的每一深度层。

17.根据权利要求14所述的视频解码装置，其中所述一或多个处理器经配置以至少部分基于所述相应层为纹理层还是深度层来确定所述VPS扩展是否包含指示是否针对所述相应层启用所述译码工具的所述语法元素。

18.根据权利要求14所述的视频解码装置，其中：

所述一或多个处理器经进一步配置以从所述视频数据位流获得包含识别所述VPS的语法元素的序列参数集SPS，其中所述SPS为可应用于零或零个以上经译码视频序列的第二集合的语法结构。

19.根据权利要求14所述的视频解码装置，其中所述译码工具包含以下各者中的一者：视图间参考的使用、深度图模型化模式的使用、从纹理到深度的运动向量继承的使用、视图间运动向量预测的使用及视图间残余预测的使用。

20.根据权利要求14所述的视频解码装置，其中所述视频译码扩展包括高效率视频译码HEVC的多视图视频译码扩展、可缩放视频译码SVC扩展或3D视频译码3DV扩展中的一者。

21.一种视频解码装置，其包括：

用于从视频数据位流获得针对视频译码扩展的视频参数集VPS扩展的装置，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；

用于在所述语法元素指示针对所述组可应用层启用所述译码工具时通过使用所述译码工具解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分的装置；以及

用于在所述语法元素指示不针对所述组可应用层启用所述译码工具时不使用所述译码工具来解码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据的装置。

22.一种计算机可读数据存储媒体，其具有存储于其上的指令，所述指令在被执行时配置视频解码装置以：

23.一种编码视频数据的方法，所述方法包括：

在视频数据位流中包含针对视频译码扩展的视频参数集VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；以及

当所述语法元素指示针对所述组可应用层启用所述译码工具时，通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分；以及

当所述语法元素指示不针对所述组可应用层启用所述译码工具时，不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据。

24.根据权利要求23所述的方法，其中所述组可应用层包含所述视频数据位流的不包含基础层的所有层。

25.根据权利要求23所述的方法，其中所述组可应用层包含所述视频数据位流的所有深度层。

26.根据权利要求23所述的方法，其中：

所述方法包括，对于所述多个语法元素中的每一相应语法元素：

当所述相应语法元素指示针对所述多个层中的相应层启用所述译码工具时，通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的视频数据的至少一相应部分；以及

当所述相应语法元素指示不针对所述相应层启用所述译码工具时，不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述相应层相关联的所述视频数据。

27.根据权利要求26所述的方法，其中所述多个层包含所述视频数据位流的每一层，但所述视频数据位流的基础视图除外。

28.根据权利要求26所述的方法，其中所述多个层包含所述视频数据位流的每一深度层。

29.根据权利要求26所述的方法，其进一步包括至少部分基于所述相应层为纹理层还是深度层来确定是否在所述VPS扩展中包含指示是否针对所述相应层启用所述译码工具的所述语法元素。

30.根据权利要求23所述的方法，其中：

所述方法进一步包括在所述视频数据位流中包含包含识别所述VPS的语法元素的序列参数集SPS，其中所述SPS为可应用于零或零个以上经译码视频序列的第二集合的语法结构。

31.根据权利要求23所述的方法，其中所述译码工具包含以下各者中的一者：视图间参考的使用、深度图模型化模式的使用、从纹理到深度的运动向量继承的使用、视图间运动向量预测的使用及视图间残余预测的使用。

32.根据权利要求23所述的方法，其中所述视频译码扩展包括高效率视频译码HEVC的多视图视频译码扩展、可缩放视频译码SVC扩展或3D视频译码3DV扩展中的一者。

33.一种视频编码装置，其包括一或多个处理器，所述一或多个处理器经配置以：

在视频数据位流中包含针对视频译码扩展的视频参数集VPS扩展，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；

34.根据权利要求33所述的视频编码装置，其中所述组可应用层包含所述视频数据位流的不包含基础层的所有层。

35.根据权利要求33所述的视频编码装置，其中所述组可应用层包含所述视频数据位流的所有深度层。

36.根据权利要求33所述的视频编码装置，其中：

37.根据权利要求36所述的视频编码装置，其中所述多个层包含所述视频数据位流的每一层，但所述视频数据位流的基础视图除外。

38.根据权利要求36所述的视频编码装置，其中所述多个层包含所述视频数据位流的每一深度层。

39.根据权利要求36所述的视频编码装置，其进一步包括至少部分基于所述相应层为纹理层还是深度层来确定是否在所述VPS扩展中包含指示是否针对所述相应层启用所述译码工具的所述语法元素。

40.根据权利要求33所述的视频编码装置，其中：

所述一或多个处理器经进一步配置以在所述视频数据位流中包含包含识别所述VPS的语法元素的序列参数集SPS，其中所述SPS为可应用于零或零个以上经译码视频序列的第二集合的语法结构。

41.根据权利要求33所述的视频编码装置，其中所述译码工具包含以下各者中的一者：视图间参考的使用、深度图模型化模式的使用、从纹理到深度的运动向量继承的使用、视图间运动向量预测的使用及视图间残余预测的使用。

42.根据权利要求33所述的视频编码装置，其中所述视频译码扩展包括高效率视频译码HEVC的多视图视频译码MVC扩展、可缩放视频译码SVC扩展或3D视频译码3DV扩展中的一者。

43.一种视频编码装置，其包括：

在视频数据位流中包含针对视频译码扩展的视频参数集VPS扩展的装置，所述VPS扩展为VPS内的语法结构，所述VPS为可应用于一或多个完整的经译码视频序列的语法结构，所述VPS扩展包含指示是否针对一组可应用层启用与所述视频译码扩展相关联的译码工具的语法元素；

用于在所述语法元素指示针对所述组可应用层启用所述译码工具时通过使用所述译码工具编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的视频数据的至少一部分的装置；以及

用于在所述语法元素指示不针对所述组可应用层启用所述译码工具时不使用所述译码工具来编码与所述一或多个完整的经译码视频序列相关联且与所述组可应用层相关联的所述视频数据的装置。

44.一种计算机可读数据存储媒体，其具有存储于其上的指令，所述指令在被执行时配置视频编码装置以：