CN107105295B

CN107105295B - 用于高效视频译码(hevc)和扩展的视频参数集

Info

Publication number: CN107105295B
Application number: CN201710075277.4A
Authority: CN
Inventors: 陈颖; 王益魁
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-02
Filing date: 2013-07-02
Publication date: 2020-10-20
Anticipated expiration: 2033-07-02
Also published as: CN107105295A; KR101799165B1; CA2877658A1; AU2013286730B2; BR122017006773A2; EP2868085A1; BR112014033008B1; HK1204415A1; US20140003493A1; JP2017079480A; WO2014008290A1; KR101822247B1; KR20150036249A; JP6400660B2; BR112014033008A2; JP6416086B2; UA115335C2; JP2015526973A; US9602827B2; US20140003491A1

Abstract

本发明涉及用于高效视频译码(HEVC)和扩展的视频参数集。视频译码器可经配置以进行以下操作：在视频参数集中接收包含有关于假想参考解码器HRD参数的信息的一或多个语法元素；在视频数据中接收第一序列参数集，所述第一序列参数集包括识别所述视频参数集的第一语法元素；在所述视频数据中接收第二序列参数集，所述第二序列参数集包括识别所述视频参数集的第二语法元素；及基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

Description

用于高效视频译码(HEVC)和扩展的视频参数集

本申请案涉及以下各申请案：

2012年7月2日申请的第61/667,387号美国临时申请案，

2012年7月9日申请的第61/669,587号美国临时申请案，和

2013年3月15日申请的第61/798,135号美国临时申请案，

所述美国临时申请案中的每一者的全部内容以引用的方式并入本文中。

分案申请的相关信息

本申请是国际申请号为PCT/US2013/049126、申请日为2013年7月2日、发明名称为“用于高效视频译码(HEVC)和扩展的视频参数集”的PCT申请进入中国国家阶段后申请号为201380034837.1的中国发明专利申请的分案申请。

技术领域

本发明涉及视频数据的处理，且更特定来说，本发明描述有关于产生和处理用于视频数据的参数集的技术。

背景技术

可将数字视频能力并入于广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置和其类似者。数字视频装置实施视频压缩技术，例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第十部分(高级视频译码(AVC))定义的标准、目前在开发中的高效视频译码(HEVC)标准和这些标准的扩展中所描述的视频压缩技术。视频装置可通过实施这些视频压缩技术来更有效率地发射、接收、编码、解码和/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码，视频切片(即，视频帧或视频帧的一部分)可被分割成多个视频块，视频块也可被称为树块、译码单元(CU)和/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它图片中的参考样本的时间预测。图片可被称为帧，且参考图片可被称为参考帧。

空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量和指示经译码块与预测性块之间的差异的残余数据来编码。经帧内译码块是根据帧内译码模式和残余数据来编码。为了进一步压缩，残余数据可从像素域变换到变换域，从而产生接着可被量化的残余变换系数。最初配置成二维阵列的经量化的变换系数可经扫描以便产生变换系数的一维向量，且可应用熵译码以实现甚至更多压缩。

发明内容

本发明描述用于视频译码中的参数集的设计技术，且更特定来说，本发明描述有关于视频参数集(VPS)的技术。

在一个实例中，一种对视频数据进行解码的方法包含：在视频参数集中接收包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素；在所述视频数据中接收第一序列参数集，所述第一序列参数集包括识别所述视频参数集的第一语法元素；在所述视频数据中接收第二序列参数集，所述第二序列参数集包括识别所述视频参数集的第二语法元素；及基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

在另一实例中，一种对视频数据进行编码的方法包含：产生包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素以用于包含于视频参数集中；产生第一序列参数集以用于包含于所述视频数据中，所述第一序列参数集包括识别所述视频参数集的第一语法元素；产生第二序列参数集以用于包含于所述视频数据中，所述第二序列参数集包括识别所述视频参数集的第二语法元素；及基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

在另一实例中，一种用于处理视频数据的装置包含视频解码器，所述视频解码器经配置以进行以下操作：在视频参数集中接收包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素；在所述视频数据中接收第一序列参数集，所述第一序列参数集包括识别所述视频参数集的第一语法元素；在所述视频数据中接收第二序列参数集，所述第二序列参数集包括识别所述视频参数集的第二语法元素；及基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

在另一实例中，一种用于处理视频数据的装置包含视频编码器，所述视频编码器经配置以进行以下操作：产生包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素以用于包含于视频参数集中；产生第一序列参数集以用于包含于所述视频数据中，所述第一序列参数集包括识别所述视频参数集的第一语法元素；产生第二序列参数集以用于包含于所述视频数据中，所述第二序列参数集包括识别所述视频参数集的第二语法元素；及基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

在另一实例中，一种用于处理视频数据的装置包含：用于在视频参数集中接收包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素的装置；用于在所述视频数据中接收第一序列参数集的装置，所述第一序列参数集包括识别所述视频参数集的第一语法元素；用于在所述视频数据中接收第二序列参数集的装置，所述第二序列参数集包括识别所述视频参数集的第二语法元素；用于基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码的装置。

在另一实例中，一种计算机可读存储媒体，其存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令：在视频参数集中接收包含有关于假想参考解码器(HRD)参数的信息的一或多个语法元素；在所述视频数据中接收第一序列参数集，所述第一序列参数集包括识别所述视频参数集的第一语法元素；在所述视频数据中接收第二序列参数集，所述第二序列参数集包括识别所述视频参数集的第二语法元素；基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合及与所述第二参数集相关联的视频块的第二集合进行译码。

在附图及以下描述中陈述一或多个实例的细节。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书显而易见。

附图说明

图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统的框图。

图2为说明实例MVC解码次序的概念图。

图3为展示实例MVC时间和视图间预测结构的概念图。

图4为说明可实施本发明中所描述的技术的实例视频编码器的框图。

图5为说明可实施本发明中所描述的技术的实例视频解码器的框图。

图6为说明形成网络的部分的装置的实例集合的框图。

图7为展示根据本发明的技术的用于处理参数集的实例方法的流程图。

图8为展示根据本发明的技术的用于产生参数集的实例方法的流程图。

图9为展示根据本发明的技术的用于解码参数集的实例方法的流程图。

图10为展示根据本发明的技术的用于处理参数集的实例方法的流程图。

图11为展示根据本发明的技术的用于产生参数集的实例方法的流程图。

图12为展示根据本发明的技术的用于处理参数集的实例方法的流程图。

图13为展示根据本发明的技术的用于产生参数集的实例方法的流程图。

具体实施方式

本发明描述用于视频译码中的参数集的技术，且更特定来说，本发明描述有关于视频参数集(VPS)的技术。除VPS外，参数集的其它实例包含(仅列举一些)序列参数集(SPS)、图片参数集(PPS)和调适参数集(APS)。

视频编码器对视频数据进行编码。视频数据可包含一或多个图片，其中所述图片中的每一者为形成视频的部分的静态图像。当视频编码器对视频数据进行编码时，视频编码器产生位流，其包含形成视频数据的经译码表示的位的序列。所述位流可包含经译码图片和相关联的数据，其中经译码图片指代图片的经译码表示。相关联的数据可包含各种类型的参数集(包含VPS、SPS、PPS和APS)，和可能的其它语法结构。SPS用以载运对整个视频序列有效的数据，而PPS载运基于逐图片有效的信息。APS载运图片自适应信息，图片自适应信息也基于逐图片有效，但预期比PPS中的信息更频繁地改变。

HEVC也已引入VPS，HEVC工作草案将VPS描述如下：

视频参数集(VPS)：一语法结构，其含有应用于零个或多个完整的经译码视频序列的语法元素，完整的经译码视频序列由在seq_parameter_set_id语法元素所参考的序列参数集中发现的video_parameter_set_id语法元素的内容确定，seq_parameter_set_id语法元素是在每一切片片段标头中所发现的pic_parameter_set_id语法元素所参考的图片参数集中发现。

因此，由于VPS应用于完整的经译码视频序列，因此VPS包含很少改变的语法元素。在HEVC的一些版本中，VPS、SPS、PPS和APS机制使很少改变的信息的发射与经译码视频块数据的发射去耦。在一些应用中，VPS、SPS、PPS和APS可经“带外”递送，即，不与含有经译码视频数据的单元一起输送。带外发射通常是可靠的，且相对于信道内发射来说对改善可靠性可为需要的。在HEVC WD7中，可针对每一参数集来译码VPS、SPS、PPS或APS的识别符(ID)。每一SPS包含SPS ID和VPS ID，每一PPS包含PPS ID和SPS ID，且每一切片标头包含PPS ID且可能包含APS ID。以此方式，可使用ID来识别待在不同例子中使用的适当参数集。

如上文所介绍，视频编码器通常对视频数据进行编码，且解码器通常对视频数据进行解码。然而，编码器和解码器并非用于处理视频数据的唯一装置。当视频(例如)作为基于包的网络(例如，局域网、广域网或例如因特网的全球网络)的部分而输送时，路由装置和其它这些装置可处理视频数据以便将视频数据从源递送到目的地装置。特殊路由装置(有时被称作媒体认知网络元件(MANE))可基于视频数据的内容而执行各种路由功能。为了确定视频数据的内容且执行这些路由功能，MANE可存取经编码位流中的信息，例如VPS或SPS中的信息。

在参数集中，一些语法元素是使用固定数目个位来译码，而一些语法元素是使用可变数目个位来译码。为了处理具有可变长度的语法元素，装置可需要熵解码能力。然而，执行熵解码可引入对MANE或其它网络元件来说不合需要的一定程度的复杂性。根据本发明中所引入的一项技术，可将偏移语法元素包含于参数集(例如，VPS)中，以便帮助网络元件识别可在无任何熵解码的情况下解码的语法元素。固定长度语法元素可在所述偏移语法元素之前。所述偏移语法元素可接着识别参数集中的待使用可变长度语法元素加以译码的语法元素。通过使用所述偏移语法元素，装置(例如，MANE)可跳过经可变长度译码的语法元素且重新继续处理固定长度语法元素。所述偏移语法元素可通过识别所述参数集内的待跳过的字节的数目来识别待跳过的语法元素。这些被跳过的字节可对应于被跳过的语法元素。如上文所提到，被跳过的语法元素可包含经可变长度译码的语法元素且也可包含经固定长度译码的语法元素。

在此上下文中，跳过语法元素意味着MANE可避免对以可变长度译码的语法元素进行剖析或其它处理。因此，MANE可在不必执行熵解码的情况下处理VPS中的一些语法元素(例如，固定长度元素)，同时跳过可能另外需要熵解码的某些语法元素。MANE所跳过的语法元素不限于可变长度语法元素，这是因为一些固定长度语法元素在各种实例中也可被跳过。视频解码器可经配置以在接收到所述偏移语法元素后即刻基本上忽略语法元素中的一或多者，此意味着所述视频解码器可避免剖析和处理MANE所跳过的语法元素。

偏移语法元素的使用可(例如)通过消除对MANE执行熵解码的需要来降低MANE处理参数集的多个部分所需的复杂性。另外，如本发明中所建议，偏移语法元素的使用可使阶层格式能够用于参数集。作为阶层格式的实例，在VPS中，替代使用于基础层和增强层的语法元素在VPS内互混，基础层的所有或实质上所有语法元素可在第一增强层的所有或实质上所有语法元素之前，第一增强层的所有或实质上所有语法元素又可在第二增强层的所有或实质上所有语法元素之前，等等。通过使用本发明中所引入的偏移语法元素，MANE可处理用于基础层的数个固定长度语法元素、跳过用于所述基础层的数个可变长度语法元素、处理用于第一增强层的数个固定长度语法元素、跳过用于所述第一增强层的数个可变长度语法元素、处理用于第二增强层的数个固定长度语法元素，等等。视频解码器可经配置以剖析并处理MANE所跳过的语法元素。

偏移语法元素的使用可另外实现视频译码标准的未来扩展。举例来说，即使将其它类型的经可变长度译码的信息添加到位流(例如，根据HEVC的未来扩展)，也可定义一或多个偏移语法元素以促进跳过这些可变长度元素。换句话说，所述一或多个偏移语法元素可用以识别所述位流内的固定长度语法元素的位置，且所述偏移语法元素可经修改以说明所述位流中的任何其它元素的添加，(例如)MANE可避免针对所述任何其它元素进行解码。

本发明另外建议将有关于会话协商的语法元素包含于视频参数集中，与包含于例如SPS的另一参数集中相对比。通过将有关于会话协商的语法元素包含于VPS中，信令开销可能够尤其在VPS描述用于视频的多个层的信息(与仅用于单一层的信息相对比)时减少。此外，本发明建议将固定长度语法元素用于会话协商语法元素，且固定长度会话协商语法元素可位于任何可变长度语法元素之前。为了处理可变长度的语法元素，装置需要能够执行熵解码。然而，执行熵解码可能引入对MANE来说不合需要的一定程度的复杂性。因此，通过使用存在于VPS中的在任何可变长度语法元素之前的固定长度语法元素，MANE可能够在不必执行熵解码的情况下剖析用于会话协商的语法元素。

下文的表2展示可包含于VPS中的会话协商相关语法元素的实例。用于会话协商的信息的实例包含识别简档、层叠(tier)和层级的信息。HEVC工作草案将简档、层叠和层级描述如下：

“简档”为此建议|国际标准所指定的完整位流语法的子集。在由给定简档的语法强加的界限内，仍可能取决于位流中的语法元素所选用的值(例如，经解码图片的指定大小)而需要编码器和解码器的性能的极大变化。在许多应用中，实施能够处置特定简档内的语法的所有假想用途的解码器目前既不实际也不经济。

为了处置此问题，在每一简档内指定“多个层叠”和“多个层级”。层叠的层级是强加于位流中的语法元素的值的约束的指定集合。这些约束可为对值的简单限制。或者，其可采用对值的算术组合的约束形式(例如，图片宽度乘以图片高度乘以每秒解码的图片数目)。为较低层叠指定的层级比为较高层叠指定的层级受更多约束。

在客户端与MANE之间的会话协商期间，客户端可查询在MANE处根据特定简档、层级和/或层叠译码的视频数据的可用性。MANE可能够剖析VSP的包含简档、层级和层叠信息的第一部分(即，经固定长度译码的部分)。在MANE处可用的操作点当中，可由客户端选择适当操作点，且MANE可在会话经协商之后将对应包转发到客户端。

本发明另外建议将用于识别假想参考解码器(HRD)的语法元素包含于视频参数集中，与包含于例如SPS的另一参数集中相对比。所述HRD参数识别指定对确认NAL单元串流或确认编码程序可产生的字节串流的变化性的约束的假想解码器模型。两个类型的HRD参数集(NAL HRD参数和VCL HRD参数)可包含于VPS中。NAL HRD参数涉及类型II位流确认，而VCLHRD参数涉及所有位流确认。HEVC目前区分经受HRD确认的两个类型的位流。第一类型的位流被称作类型I位流且指代仅含有用于位流中的所有存取单元的VCL NAL单元和填充符数据NAL单元的NAL单元串流。第二类型的位流被称作类型II位流且含有用于位流中的所有存取单元的VCL NAL单元和填充数据NAL单元加上其它类型的额外NAL单元。

本发明的技术可在单层译码中应用，也可应用于可缩放和多视图视频译码。举例来说，层可为空间可缩放层、质量可缩放层、纹理视图或深度视图。在HEVC中，层通常指代视频译码层(VCL)NAL单元和相关联的非VCL NAL单元的集合，所述NAL单元全部具有特定层ID值。在第一层可含有较低层的意义上，层可为阶层式的。有时使用层集合(layer set)来指代通过子位流提取过程从另一位流建立的位流内所表示的层的集合。操作点通常指代通过对另一位流进行子位流提取过程的操作而从另一位流建立的位流。操作点可包含层集合中的所有层或可为形成为所述层集合的子集的位流。

图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统10的框图。如图1所展示，系统10包含源装置12，其产生在稍后时间由目的地装置14解码的经编码视频数据。经编码视频数据可由媒体认知网络元件(MANE)29从源装置12路由到目的地装置14。源装置12和目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型(即，膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置，或其类似者。在一些情况下，源装置12和目的地装置14可为无线通信而装备。

系统10可根据多个不同视频译码标准、专属标准或多视图译码的任何其它方式而操作。举例来说，视频编码器20和视频解码器30可根据例如包含以下各者的视频压缩标准而操作：ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(也被称为ISO/IEC MPEG-4 AVC)，包含标准的可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC扩展的新近公众可得的联合草案描述于“用于一般视听服务的高级视频译码(Advanced video coding forgeneric audiovisual services)”(ITU-T建议H.264，2010年3月)中。MVC扩展的更新近公众可得的联合草案描述于“用于一般视听服务的高级视频译码(Advanced video codingfor generic audiovisual services)”(ITU-T建议H.264，2011年6月)中。MVC扩展的当前联合草案已从2012年1月起被核准。

另外，存在新的视频译码标准，即，目前由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合工作小组(JCT-VC)开发的高效视频译码(HEVC)标准。HEVC的近期工作草案(WD)(且在下文中被称为HEVC WD7)可从2013年7月1起从http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-v6.zip获得。

HEVC标准的开发在进行中，且HEVC的较新工作草案(WD)(被称为HEVC WD9)可从2013年7月1起从http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v10.zip获得。出于描述目的，将在HEVC或H.264标准和这些标准的扩展的上下文下描述视频编码器20和视频解码器30。然而，本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-T H.263。专属译码技术(例如，被称为On2VP6/VP7/VP8的译码技术)也可实施本文中所描述的所述技术中的一或多者。即将到来的HEVC标准的较新草案(被称为“HEVC工作草案10”或“HEVC WD10”)描述于布罗斯(Bross)等人的“对HEVC版本1的编者建议修正(Editors'proposed corrections to HEVCversion 1)”(ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合工作小组(JCT-VC)，第13次会议，韩国仁川，2013年4月)中，所述较新草案从2013年7月1日起可从http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip获得，其全部内容以引用的方式并入本文中。

本发明的技术可能可应用于若干MVC和/或3D视频译码标准，包含基于HEVC的3D视频译码(3D-HEVC)。本发明的技术可能也可应用于H.264/3D-AVC和H.264/MVC+D视频译码标准或其扩展，以及其它译码标准。有时可参考或使用特定视频译码标准的术语来描述本发明的技术；然而，不应将此描述解释为意味着所述所描述技术仅限于所述特定标准。

目的地装置14可经由链路16来接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，链路16可包括通信媒体以使源装置12能够即时地将经编码视频数据直接发射到目的地装置14。可根据例如无线通信协议的通信标准来调制经编码视频数据且将经编码视频数据发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如，局域网、广域网，或例如因特网的全球网络)的部分。通信媒体可包含路由器、交换器、基站，或可用于促进从源装置12到目的地装置14的通信的任何其它设备。链路16可包含将视频数据从源装置12路由到目的地装置14的一或多个MANE，例如MANE 29。

或者，经编码数据可从输出接口22输出到存储装置27。类似地，经编码数据可由输入接口从存储装置27存取。存储装置27可包含多种分布式或本地存取的数据存储媒体(例如，硬盘、蓝光光盘(Blu-ray disc)、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或用于存储经编码视频数据的任何其它合适数字存储媒体)中的任一者。在另一实例中，存储装置27可对应于可保留由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载而从存储装置27存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。此数据连接可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、缆线调制解调器等)或两者的组合。经编码视频数据从存储装置27的发射可为流式传输发射、下载发射或两者的组合。可使用一或多个MANE(例如，MANE 29)将从存储装置27检索的视频数据路由到目的地装置14。

本发明的技术未必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码，所述多媒体应用例如空中(over-the-air)电视广播、有线电视发射、卫星电视发射、流式传输视频发射(例如，经由因特网)、待存储于数据存储媒体上的数字视频的编码、存储于数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频播放、视频广播和/或视频电话的应用。

在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口22。视频编码器20可(例如)产生本发明中所描述的偏移语法。在一些情况下，输出接口22可包含调制器/解调器(调制解调器)和/或发射器。在源装置12中，视频源18可包含例如以下各者的源：视频俘获装置(例如，摄像机)、含有先前所俘获的视频的视频存档、用以从视频内容提供者接收视频的视频馈送接口，和/或用于产生作为源视频的计算机图形数据的计算机图形系统，或这些源的组合。作为一个实例，如果视频源18为摄像机，则源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而，一般来说，本发明中所描述的所述技术可适用于视频译码，且可应用于无线和/或有线应用。

经俘获、经预先俘获或计算机产生的视频可由视频编码器12来编码。经编码视频数据可经由源装置20的输出接口22直接发射到目的地装置14。经编码视频数据也可(或替代地)存储到存储装置27上以便由目的地装置14或其它装置稍后存取以用于解码和/或播放。

目的地装置14包含输入接口28、视频解码器30和显示装置32。视频解码器30可剖析本发明中所描述的偏移语法元素。如上所述，视频解码器30可在一些例子中忽略偏移语法元素，因此使视频解码器30能够剖析由MANE跳过的语法元素。在一些情况下，输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或在存储装置27上提供的经编码视频数据可包含由视频编码器20产生的多种语法元素，其供例如视频解码器30的视频解码器在解码视频数据时使用。这些语法元素可包含于在通信媒体上发射、存储于存储媒体上或存储于文件服务器上的经编码视频数据中。

显示装置32可与目的地装置14集成或在目的地装置14外部。在一些实例中，目的地装置14可包含集成式显示装置且也可经配置以与外部显示装置介接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32向用户显示经解码视频数据，且可包括多种显示装置中的任一者，例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

虽然图1中未展示，但在一些方面中，视频编码器20和视频解码器30可各自与音频编码器和解码器集成，且可包含适当MUX-DEMUX单元或其它硬件和软件以处置共同数据串流或单独数据串流中的音频和视频两者的编码。如果适用，则在一些实例中，MUX-DEMUX单元可遵照ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。

视频编码器器20和视频解码器30可各自实施为多种合适编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地以软件实施时，装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中，且在硬件中使用一或多个处理器来执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含于一或多个编码器或解码器中，其中的任一者可集成为相应装置中的组合式编码器/解码器(编解码器(CODEC))的部分。

JCT-VC致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的演进模型，其被称为HEVC测试模型(HM)。HM根据(例如)ITU-T H.264/AVC来假定视频译码装置相对于现有装置的若干额外能力。举例来说，H.264提供九个帧内预测编码模式，而HM可提供多达三十三个帧内预测编码模式。

一般来说，HM的工作模型描述：视频帧或图片可划分成包含亮度样本和色度样本两者的树块或最大译码单元(LCU)的序列。树块具有与H.264标准的宏块的目的类似的目的。切片以译码次序包含数个连续树块。可将视频帧或图片分割成一或多个切片。每一树块可根据四叉树而分裂成多个译码单元(CU)。举例来说，作为四叉树的根节点，树块可分裂成四个子代节点，且每一子代节点又可为亲代节点且可分裂成另外四个子代节点。作为四叉树的叶节点，最后未分裂的子代节点包括译码节点，即，经译码视频块。与经译码位流相关联的语法数据可定义树块可分裂的最大次数，且也可定义译码节点的最小大小。

CU包含译码节点和与译码节点相关联的多个预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小且形状必须为正方形。CU的大小的范围可从8×8像素直到具有最大64×64像素或大于64×64像素的树块的大小。每一CU可含有一或多个PU和一或多个TU。与CU相关联的语法数据可描述(例如)CU到一或多个PU的分割。分割模式可视CU是经跳过或直接模式编码、经帧内预测模式编码还是经帧间预测模式编码而不同。PU的形状可分割成非正方形。与CU相关联的语法数据也可描述(例如)CU根据四叉树到一或多个TU的分割。TU的形状可为正方形或非正方形。

HEVC标准允许根据TU的变换，所述变换对于不同CU可不同。通常基于针对经分割LCU定义的给定CU内的PU的大小来设定TU大小，但情况可能并非始终如此。TU通常与PU大小相同或小于PU。在一些实例中，可使用被称为“残余四叉树”(RQT)的四叉树结构而将对应于CU的残余样本再分为多个较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生可被量化的变换系数。

一般来说，PU包含有关于预测过程的数据。举例来说，当PU经帧内模式编码时，PU可包含描述PU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含描述定义PU的运动向量的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片和/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

一般来说，TU用于变换过程和量化过程。具有一或多个PU的给定CU也可包含一或多个变换单元(TU)。在预测之后，视频编码器20可计算对应于PU的残余值。残余值包括像素差值，可使用TU将所述值变换成变换系数、量化且扫描以产生用于熵译码的串行化变换系数。本发明通常使用术语“视频块”来指代CU的译码节点。在一些特定情况下，本发明也可使用术语“视频块”来指代包含译码节点和多个PU和多个TU的树块(即，LCU或CU)。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一或多个视频图片。GOP可在GOP的标头中、图片中的一或多者的标头中的或在别处包含描述包含于GOP中的图片的数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且可根据指定译码标准而在大小方面不同。

作为一实例，HM支持以各种PU大小进行预测。假定特定CU的大小为2N×2N，则HM支持以2N×2N或N×N的PU大小进行帧内预测，和以2N×2N、2N×N、N×2N或N×N的对称PU大小进行帧间预测。HM也支持不对称分割以按2N×nU、2N×nD、nL×2N和nR×2N的PU大小进行帧间预测。在不对称分割中，CU的一个方向未分割，而另一方向分割成25％和75％。CU的对应于25％分割的部分由“n”跟随有“上”、“下”、“左”或“右”的指示来指示。因此，例如，“2N×nU”指代在水平方向上以顶部2N×0.5N PU和底部2N×1.5N PU分割的2N×2N CU。

在本发明中，“N×N”与“N乘N”可互换地使用以指代视频块在垂直尺寸和水平尺寸上的像素尺寸，例如，16×16像素或16乘16像素。一般来说，16×16块将在垂直方向上具有16个像素(y＝16)，且在水平方向上具有16个像素(x＝16)。同样，N×N块通常在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。可按行和列来配置块中的像素。此外，块未必需要在水平方向上与在垂直方向上具有相同数目个像素。举例来说，块可包括N×M个像素，其中M未必等于N。

在使用CU的PU进行的帧内预测性或帧间预测性译码后，视频编码器20可计算CU的TU的残余数据。PU可包括空间域(也被称为像素域)中的像素数据，且TU可在对残余视频数据应用变换(例如，离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)后包括变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残余数据的TU，且接着变换所述TU以产生CU的变换系数。

在用以产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化通常指代如下过程：将变换系数量化以可能减少用以表示所述系数的数据的量，从而提供进一步压缩。所述量化过程可减小与所述系数中的一些或所有相关联的位深度。举例来说，在量化期间可将n位值舍入到m位值，其中n大于m。

在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可加以熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描所述经量化的变换系数以形成一维向量之后，视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法而熵编码所述一维向量。视频编码器20也可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。

为了执行CABAC，视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可能涉及(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可针对待发射的符号选择可变长度码。可建构VLC中的码字使得相对较短的码对应于更有可能的符号，而较长码对应于较不可能的符号。以此方式，使用VLC可实现位节省(与(例如)针对待发射的每一符号使用相等长度码字相比较)。概率确定可基于指派给符号的上下文。

本发明描述用于包含视频参数集和序列参数集两者的参数集的设计方法，所述设计方法可以相互兼容方式应用于单层译码以及可缩放和多视图译码中。多视图视频译码(MVC)为H.264/AVC的扩展。将在下文简要地论述MVC规范。

图2为说明根据本发明中所描述的一或多个实例的实例MVC编码或解码次序的图形图(graphical diagram)。举例来说，将图2中所说明的解码次序配置称为时间优先译码。在图2中，S0到S7各自指代多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存取单元可包含一个输出时间实例的所有视图的经译码图片。举例来说，第一存取单元包含时间实例T0的所有视图S0到S7(即，图片0到7)，第二存取单元包含时间实例T1的所有视图S0到S7(即，图片8到15)，等等。在此实例中，图片0到7在同一时间实例(即，时间实例T0)，图片8到15在同一时间实例(即，时间实例T1)。通常同时显示具有相同时间实例的图片，且同一时间实例的图片内的对象之间的水平视差和可能的某一垂直视差使观看者感知涵盖3D体积的图像。

在图2中，视图中的每一者包含图片的集合。举例来说，视图S0包含图片0、8、16、24、32、40、48、56和64的集合，视图S1包含图片1、9、17、25、33、41、49、57和65的集合，等等。每一集合包含两个图片：一个图片被称为纹理视图分量，且另一图片被称为深度视图分量。可将视图的图片的集合内的纹理视图分量和深度视图分量视为彼此对应。举例来说，可将视图的图片的集合内的纹理视图分量视为对应于所述视图的所述图片的所述集合内的深度视图分量，且反之亦然(即，深度视图分量对应于所述集合中的其纹理视图分量，且反之亦然)。如本发明中所使用，可将纹理视图分量和对应的深度视图分量视为单一存取单元的同一视图的部分。

纹理视图分量包含所显示的实际图像内容。举例来说，纹理视图分量可包含亮度(Y)和色度(Cb和Cr)分量。深度视图分量可指示像素在其对应纹理视图分量中的相对深度。作为一个实例，深度视图分量可类似于仅包含亮度值的灰度级图像。换句话说，深度视图分量可不递送任何图像内容，而是提供像素在纹理视图分量中的相对深度的量度。

举例来说，深度视图分量中的对应于纯白色像素的像素值可指示：对应纹理视图分量中的其一或多个对应像素离观看者的视点较近；且深度视图分量中的对应于纯黑色像素的像素值可指示：对应纹理视图分量中的其一或多个对应像素离观看者的视点较远。对应于黑色与白色之间的各种灰色阴影的像素值指示不同深度水平。举例来说，深度视图分量中的极灰色像素指示纹理视图分量中的其对应像素比深度视图分量中的轻微灰色像素离得更远。因为类似于灰度级，仅需要一个像素值来识别像素的深度，所以深度视图分量可仅包含一个像素值。因此，当对深度进行译码时不需要类似于色度分量的值。

出于说明目的而提供仅使用亮度值(例如，强度值)来识别深度的深度视图分量，且不应将深度视图分量视为限制性的。在其它实例中，可利用任何技术来指示像素在纹理视图分量中的相对深度。

根据MVC，纹理视图分量是根据同一视图中的纹理视图分量或根据一或多个不同视图中的纹理视图分量而帧间预测。可以视频数据的块译码纹理视图分量，所述块可被称为“视频块”且在H.264上下文中通常被称作为“宏块”。

在MVC中，视图间预测由视差运动补偿支持，视差运动补偿使用H.264/AVC运动补偿的语法，但允许将不同视图中的图片用作为用于预测正译码的图片的参考图片。两个视图的译码也可由MVC支持。MVC的一个潜在优点为MVC编码器可将两个以上视图视为3D视频输入，且MVC解码器可解码所俘获视频的此多视图表示。具有MVC解码器的任何再现器(renderer)可处理具有两个以上视图的3D视频内容。

在MVC中，允许同一存取单元中(即，具有相同时间实例)的图片之间的视图间预测。当对非基本视图中的图片进行译码时，如果图片在不同视图中但具有相同视图实例，则可将所述图片添加到参考图片中。正如任何帧间预测参考图片，视图间预测参考图片可置入参考图片列表的任何位置中。

图3为说明实例MVC预测模式的概念图。在图3的实例中，说明八个视图(具有视图ID“S0”到“S7”)，且针对每一视图说明十二个时间位置(“T0”到“T11”)。即，图3中的每一行对应于一视图，而每一列指示一时间位置。在图3的实例中，大写“B”和小写“b”用以指示图片之间的不同阶层关系，而非不同译码方法。一般来说，大写“B”图片在预测阶层中相对高于小写“b”帧。

在图3中，可将视图S0视为基本视图，且可将视图S1到S7视为相依视图。基本视图包含并非经视图间预测的图片。基本视图中的图片可相对于同一视图中的其它图片进行帧间预测。举例来说，视图S0中无图片可相对于视图S1到S7中的任一者中的图片进行帧间预测，但视图S0中的图片中的一些可相对于视图S0中的其它图片进行帧间预测。

相依视图包含经视图间预测的图片。举例来说，视图S1到S7中的每一视图包含相对于另一视图中的图片进行帧间预测的至少一个图片。相依视图中的图片可相对于基本视图中的图片进行帧间预测，或可相对于其它相依视图中的图片进行帧间预测。

包含基本视图和一或多个相依视图两者的视频串流可能可由不同类型的视频解码器来解码。举例来说，一个基本类型的视频解码器可经配置以仅解码基本视图。另外，另一类型的视频解码器可经配置以解码视图S0到S7中的每一者。可将经配置以解码基本视图和相依视图两者的解码器称为支持多视图译码的解码器。

在图3中的每一行与每一列的相交处指示图3中的图片。具有MVC扩展的H.264/AVC标准可使用术语帧来表示视频的一部分，而HEVC标准可使用术语图片来表示视频的一部分。本发明可互换地使用术语图片和帧。

图3中的图片是使用包含字母的阴影块说明，所述字母指示对应图片是经帧内译码(即，I图片)、在一个方向上经帧间译码(即，作为P图片)还是在多个方向上经帧间译码(即，作为B图片)。一般来说，通过箭头来指示预测，其中箭头所指向的图片将箭头所指出的图片用于预测参考。举例来说，视图S2的在时间位置T0处的P图片是从视图S0的在时间位置T0处的I图片来预测。

如同单视图视频编码，可相对于不同时间位置处的图片对多视图视频译码视频序列的图片进行预测性编码。举例来说，视图S0的在时间位置T1处的B图片具有从视图S0的在时间位置T0处的I图片指向所述B图片的箭头，此情形指示所述b图片是从所述I图片预测。然而，另外，在多视图视频编码的上下文中，可以视图间方式预测图片。即，视图分量(即，纹理视图分量)可使用其它视图中的视图分量用于参考。在MVC中，例如，实现视图间预测，如同另一视图中的视图分量为帧间预测参考。可能的视图间参考是在序列参数集(SPS)MVC扩展中用信号表示且可通过参考图片列表建构过程加以修改，所述过程能够实现帧间预测或视图间预测参考的灵活排序。

图3提供视图间预测的各种实例。在图3的实例中，将视图S1的图片说明为从视图S1的在不同时间位置处的图片来预测，以及从视图S0和S2的在相同时间位置处的图片以视图间方式预测。举例来说，视图S1在时间位置T1处的B图片是从视图S1的在时间位置T0和T2处的B图片以及视图S0和S2在时间位置T1处的B图片中的每一者来预测。

图3还说明使用不同阴影水平的预测阶层的变化，其中较大量阴影(即，相对较暗)帧在预测阶层中高于具有较少阴影的(即，相对较亮)帧。举例来说，用全阴影说明图3中的所有I图片，而P图片具有稍微较亮的阴影，且B图片(和小写b图片)相对于彼此具有各种阴影水平，但始终比P图片和I图片的阴影亮。

一般来说，预测阶层可有关于视图次序索引，有关之处在于：在预测阶层中相对较高的图片应在阶层中相对较低的图片之前进行解码。在阶层中相对较高的那些图片可在阶层中相对较低的图片的解码期间用作参考图片。视图次序索引为指示存取单元中的视图分量的解码次序的索引。如H.264/AVC的附录H(MVC修正)中所指定，视图次序索引暗示于序列参数集(SPS)MVC扩展中。在SPS中，对于每一索引i，用信号表示对应view_id。视图分量的解码可遵循视图次序索引的递升次序。如果呈现所有视图，则视图次序索引将为从0到num_views_minus_1的连续次序。

以此方式，用作参考图片的图片是在取决于参考图片的图片之前经解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。对于每一视图次序索引i，用信号表示对应view_id。视图分量的解码遵循视图次序索引的递升次序。如果呈现所有视图，则视图次序索引的集合可包括从零到比视图的全部数目小1的连续排序集合。

对于处于阶层的相同层级的特定图片，解码次序相对于彼此来说可能并不重要。举例来说，可使用视图S0的在时间位置T0处的I图片作为视图S2的在时间位置T0处的P图片的参考图片，视图S2的在时间位置T0处的P图片又被用作视图S4的在时间位置T0处的P图片的参考图片。因此，视图S0的在时间位置T0处的I图片应在视图S2的在时间位置T0处的P图片之前解码，视图S2的在时间位置T0处的P图片又应在视图S4的在时间位置T0处的P图片之前解码。然而，在视图S1与视图S3之间，解码次序并不重要，这是因为视图S1和视图S3并不依赖于彼此来预测。实际上，视图S1和S3仅从在预测阶层中较高的其它视图来预测。此外，可在视图S4之前解码视图S1，只要视图S1在视图S0和视图S2之后解码即可。

以此方式，阶层排序可用以描述视图S0到视图S7。在本发明中，记法“SA>SB”意味着视图SA应在视图SB之前进行解码。通过使用此记法，在图2的实例中，S0>S2>S4>S6>S7。又，相对于图2的实例，S0>S1、S2>S1、S2>S3、S4>S3、S4>S5且S6>S5。不违反此阶层排序的用于视图的任何解码次序是可能的。因此，许多不同解码次序是可能的，但具有基于阶层排序的限制。

现将描述SPS MVC扩展。视图分量可使用其它视图中的视图分量用于参考，此情形被称作视图间预测。在MVC中，实现视图间预测，如同另一视图中的视图分量为帧间预测参考。然而，可能的视图间参考是在序列参数集(SPS)MVC扩展中用信号表示(如以下语法表表1中所展示)且可通过参考图片列表建构过程加以修改，所述过程能够实现帧间预测或视图间预测参考的灵活排序。视频编码器20表示经配置以产生如表1中所展示的语法的视频编码器的实例，且视频解码器30表示经配置以剖析并处理此语法的视频解码器的实例。

表1

在SPS MVC扩展中，对于每一视图，用信号表示可用以形成参考图片列表0和参考图片列表1的视图的数目。如在SPS MVC扩展中用信号表示，用于锚定图片的预测关系可不同于用于同一视图的非锚定图片(在SPS MVC扩展中用信号表示)的预测关系。

现将描述用于HEVC的参数集。在HEVC WD7中，HEVC中的视频、序列、图片和调适参数集机制使很少改变的信息的发射与经译码块数据的发射去耦。在一些应用中，视频、序列、图片和调适参数集可经“带外”递送，即，不与含有经译码视频数据的单元一起输送。带外发射通常为可靠的。

在HEVC WD7中，使用可变长度语法元素“ue(v)”来译码视频序列参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)或调适参数集(APS)的识别符。每一SPS包含SPS ID和VPSID，每一PPS包含PPS ID和SPS ID，且每一切片标头包含PPS ID且可能包含APS ID。

虽然在HEVC WD7中支持视频参数集(VPS)，但大多数序列层级信息参数仍仅存在于SPS中。存在WD7的VPS设计的若干问题或可能缺陷。作为一个实例，SPS中所含的相当大量的信息对于所有SPS可能相同或对于至少两个SPS可能相同。复制SPS中的此信息需要较高带宽。所述参数集(至少包含VPS、SPS和PPS)可能需要在带外用信号表示。如果在带内用信号表示，则此位速率增加对于随机存取点处的每一调入(tune-in)有效。

作为第二实例，在可能HEVC扩展中，如果遵循与AVC类似的设计原理，则操作点描述信息的大部分可不包含于SPS或VPS中，且实际上，可将SEI消息用于会话初始化和协商。因此，可能需要MANE剖析用于上文所提到的目的的SPS、VPS和SEI消息。作为第三实例，可在HEVC扩展中改变或移除WD7中存在于SPS中的某一信息。

为了解决上文所论述的可能问题，本发明针对参数集(包含VPS或其它参数集)的设计建议若干技术。举例来说，根据本发明中所描述的技术，对于整个经译码视频序列通常相同的信息可存在于VPS中，而在SPS层级可能改变的语法元素仅可存在于SPS中。其它语法元素在已存在于VPS中的情况下可从SPS排除。

作为本发明的技术的另一实例，有关于会话协商的信息可存在于VPS中。有关于会话协商的信息的实例包含简档信息、层级信息、帧分辨率信息、帧速率信息和位速率信息，以及其它信息。作为本发明的技术的另一实例，可以某一方式设计VPS，使得对于会话协商重要的操作点信息的剖析不需要可变长度译码，操作点信息可能包含用于基础层或视图和用于增强层或视图两者的信息。VPS中的语法元素可经分组，使得对于每一群组，HEVC扩展可提供零个或多个实例，且HEVC扩展中的操作点仅参考索引。

下文提供用于VPS、SPS、视频可用性信息(VUI)和HRD参数的语法和语义的各种实例。表2到表6说明第一实例。上文所陈述的表1展示VPS语法的实例。表2到表6中以及本发明的其它表中的“描述符”栏识别用于每一语法元素的位的数目，其中“v”指示位的数目可为可变的。“描述符”栏中的数字值指示语法元素是使用固定数目个位递送。举例来说，“u(8)”表示具有固定数目个(八个)位的语法元素，而“ue(v)”表示具有可变数目个位的语法元素。为了剖析具有描述符ue(v)的语法元素，剖析装置(例如，视频解码器或MANE)可能需要实施熵译码以便解码并解译这些语法元素。

表2-视频参数集RBSP语法

表3-序列参数集RBSP语法

表4-VUI参数语法

表5-HRD参数语法

表6-切片标头语法

现将描述视频参数集RBSP语义，例如上文的表2中所展示的语义。表2中的语法元素video_parameter_set_id提供对视频参数集的识别。通过使用video_parameter_set_id的值，另一语法结构(例如，SPS)可激活特定VPS。展示实例SPS语法结构的表3(例如)也包含语法元素video_parameter_set_id。基于SPS中的语法元素video_parameter_set_id的值，可激活具有所述相同值的特定VPS以用于译码与所述SPS相关联的视频块。通常，多个SPS将与同一VPS相关联。作为一实例，视频解码器30可在视频数据中接收包含语法元素video_parameter_set_id的第一值的第一SPS，且视频解码器30也可接收包含语法元素video_parameter_set_id的相同值的第二SPS。第一SPS可为包含应用于视频数据的一或多个完整图片的语法元素的第一群组的第一语法结构，且第二SPS可为包含应用于视频数据的一或多个不同完整图片的语法元素的第二群组的第二语法结构。视频解码器30基于来自同一VPS的参数来解码与第一SPS和第二SPS两者相关联的视频块。

以下语法元素具有如在WD7中所指定的序列参数集中具有相同语法元素名称的那些语法元素的相同语义，但根据本发明的建议技术已从SPS移到VPS：profile_space、profile_idc、profile_compatability_flag[i]、constraint_flags、level_idc、bit_depth_luma_minus8、bit_depth_chroma_minus8、chroma_format_idc、pic_width_in_luma_samples、pic_height_in_luma_samples、pic_cropping_flag、pic_crop_left_offset、pic_crop_right_offset、pic_crop_top_offset、pic_crop_bottom_offset、temporal_id_nesting_flag和separate_colour_plane_flag。

语法元素profile_space识别用于解译语法元素profile_idc的上下文，且语法元素profile_idc识别简档的群组。语法元素profile_compatability_flag[i]可识别视频数据是否与简档profile[i]兼容。视频解码器20可(例如)在视频数据中接收profile_space和profile_idc的值，且基于profile_space的值来识别用于解译语法元素profile_idc的上下文。基于profile_idc的解译值，视频解码器30可识别简档的群组，且对于每一简档，视频解码器30可接收语法元素profile_compatability_flag[i]的值以识别视频信息是否与profile[i]兼容。语法元素profile_idc可(例如)具有32个相关联的旗标，每一旗标指示简档的特定方面。举例来说，给定同一简档，旗标可指示一个特定译码或处理工具是否开启或关闭。

语法元素level_idc识别与视频数据相关联的最大层级，且语法元素level_lower_temporal_layers_present_flag识别视频数据的时间层是否具有低于最大层级的层级。设定为等于1的语法元素level_lower_temporal_layers_present_flag指定可存在level_idc_temporal_subset[i]。设定为等于0的语法元素level_lower_temporal_layers_present_flag指定不存在level_idc_temporal_subset[i]。语法元素level_idc_temporal_subset[i]指定与由具小于或等于i的temporal_id的所有NAL单元组成的位流子集相符的层级。

视频解码器30可(例如)响应于接收到设定为等于1的语法元素level_lower_temporal_layers_present_flag而接收语法元素level_idc_temporal_subset[i]。语法元素level_idc_temporal_subset[i]可存在以识别时间层[i]遵照的层级。

语法元素vps_temporal_id_nesting_flag、vps_temporal_id_nesting_flag、vps_max_dec_pic_buffering[i]、vps_num_reorder_pics[i]和vps_max_latency_increase[i]具有分别在HEVC WD 7的序列参数集中的以下语法元素的相同语义：sps_temporal_id_nesting_flag、sps_temporal_id_nesting_flag、sps_max_dec_pic_buffering[i]、sps_num_reorder_pics[i]、sps_max_latency_increase[i]。

语法元素next_essential_info_byte_offset为本发明中所引入的偏移语法元素的实例。语法元素next_essential_info_byte_offset指定简档以及VPS NAL单元中的层级信息和其它经固定长度译码的信息的下一集合从NAL单元的开头开始的字节偏移。MANE 29(例如)可接收语法元素next_essential_info_byte_offset且确定由语法元素next_essential_info_byte_offset指示的字节的数目，且基于字节的经确定数目，MANE 29可跳过表2中所展示的一或多个经可变长度译码的语法元素，例如可变长度语法元素pic_crop_left_offset、pic_crop_right_offset、pic_crop_top_offset、pic_crop_bottom_offset和表2中所展示的其它可变长度语法元素。然而，视频解码器30在接收到语法元素next_essential_info_byte_offset时可忽略所述语法元素的值。因此，在剖析语法元素next_essential_info_byte_offset之后，视频解码器30可继续剖析可变长度语法元素pic_crop_left_offset、pic_crop_right_offset、pic_crop_top_offset、pic_crop_bottom_offset和表2中所展示的其它可变长度语法元素。

在HEVC规范的未来扩展(例如，可缩放译码扩展或3DV扩展)中，用于非基础层或视图的VPS信息可包含于VPS NAL单元中在用于基础层或视图的VPS信息之后。用于非基础层或视图的VPS信息也可以固定长度语法元素(例如，会话协商必需的经译码简档、层级和其它信息)开始。通过使用由next_essential_info_byte_offset指定的位偏移，MANE 29可在无需执行熵解码的情况下定位并存取VPS NAL单元中的必需信息。经配置以输送并处理视频数据的一些网络实体(例如，MANE 29)可能未经配备以用于熵解码。然而，通过使用如本发明中所描述的偏移语法元素，这些网络实例仍可处理参数集的一些方面，且在为视频数据作出路由决策时使用经处理语法元素中所含的信息。网络实体在作出路由决策时可处理的信息的实例包含有关于会话协商的信息。

语法元素nal_hrd_parameters_present_flag[i]和vcl_hrd_parameters_present_flag[i]具有与存在于WD7的VUI参数中的nal_hrd_parameters_present_flag和vcl_hrd_parameters_present_flag类似的语义，但可应用于第i个时间层表示。语法元素nal_hrd_parameters_present_flag可(例如)用信号表示HRD参数，例如位速率、经译码图片缓冲器(CPB)大小，和初始CPB移除延迟(initial_cpb_removal_delay_length_minus1)、CPB移除延迟(cpb_removal_delay_length_minus1)、DPB输出延迟(dpb_output_delay_length_minus1)，和时间偏移长度(time_offset_length)。所述语法元素可(例如)包含指示视频数据的位速率是恒定还是可变的语法元素(cbr_flag)。

语法元素low_delay_hrd_flag可用以指示解码单元从DPB的移除时间。等于1的语法元素sub_pic_cpb_params_present_flag可指定：子图片层级CPB移除延迟参数存在且CPB可在存取单元层级或子图片层级操作。等于0的语法元素sub_pic_cpb_params_present_flag可指定：子图片层级CPB移除延迟参数不存在且CPB在存取单元层级操作。语法元素num_units_in_sub_tick表示以对应于子图片时钟刻度计数器的一个增量(称作子图片时钟刻度)的time_scale Hz的频率操作的时钟的时间单位的数目。上文所论述的HRD参数可适用于所有时间层表示。

设定为等于1的语法元素vui_video_parameters_present_flag指定vui_vps()语法结构存在于VPS中。设定为等于0的此旗标指定vui_vps()语法元素不存在。语法元素num_vps_short_term_ref_pic_sets指定视频参数集中所指定的短期参考图片集合的数目。设定为等于1的语法元素bitrate_info_present_flag[i]指定第i个时间层的位速率信息存在于视频参数集中。设定为0的语法元素bitrate_info_present_flag[i]指定第i个时间层的位速率信息不存在于VPS中。

设定为1的语法元素frm_rate_info_present_flag[i]指定第i个时间层的帧速率信息存在于视频参数集中。设定为等于0的语法元素frm_rate_info_present_flag[i]指定第i个时间层的帧速率信息不存在于视频参数集中。

语法元素avg_bitrate[i]指示第i个时间层表示的平均位速率。以每秒位数计的第i个时间层表示的平均位速率是由BitRateBPS(avg_bitrate[i])给出，其中函数BitRateBPS()由下式指定。

BitRateBPS(x)＝(x&(2¹⁴-1))*10^(2+(x>>14))

平均位速率可根据HEVC标准的附录C中所指定的存取单元移除时间导出。在下文中，bTotal为第i个时间层表示的所有NAL单元中的位的数目，t₁为VPS所应用于的第一存取单元的移除时间(以秒计)，且t₂为VPS所应用于的最后存取单元(按解码次序)的移除时间(以秒计)。

用x指定avg_bitrate[i]的值，以下情况适用：

-如果t₁不等于t₂，则以下条件可为真：

(x&(2¹⁴-1))＝＝Round(bTotal÷((t₂-t₁)*10^(2+(x>>14))))

-否则(t₁等于t₂)，以下条件可为真：

(x&(2¹⁴-1))＝＝0

如附录C中所指定，语法元素max_bitrate_layer[i]指示存取单元移除时间的任何一秒时间窗口中的第i个时间层表示的位速率的上界。以每秒位数计的当前可缩放层的位速率的上界是由BitRateBPS(max_bitrate_layer[i])给出，其中函数BitRateBPS()由方程式G-369指定。位速率值是根据HEVC标准的附录C中所指定的存取单元移除时间导出。在下文中，t₁为任何时间点(以秒计)，t₂经设定等于t₁+max_bitrate_calc_window[i]÷100，且bTotal为当前可缩放层的属于具有大于或等于t₁且小于t₂的移除时间的存取单元的所有NAL单元中的位的数目。用x指定max_bitrate_layer[i]的值，对于t₁的所有值，可遵守以下条件：(x&(2¹⁴-1))>＝bTotal÷((t₂-t₁)*10^(2+(x>>14)))。

语法元素constant_frm_rate_idc[i]指示第i个时间层表示的帧速率是否恒定。在下文中，时间片段tSeg为当前时间层表示的两个或两个以上连续存取单元(按解码次序)的任何集合，fTotal(tSeg)为时间片段tSeg中的图片的数目，t₁(tSeg)为时间片段tSeg的第一存取单元(按解码次序)的移除时间(以秒计)，t₂(tSeg)为时间片段tSeg的最后存取单元(按解码次序)的移除时间(以秒计)，且avgFR(tSeg)为时间片段tSeg中的平均帧速率，avgFR(tSeg)由以下给出：avgFR(tSeg)＝＝Round(fTotal(tSeg)*256÷(t₂(tSeg)-t₁(tSeg)))。

如果第i个时间层表示仅含有一个存取单元或avgFR(tSeg)的值在第i个时间层表示的所有时间片段上恒定，则帧速率是恒定的，否则，帧速率不恒定。设定为等于0的语法元素constant_frm_rate_idc[i]指示第i个时间层表示的帧速率不恒定。设定为等于1的语法元素constant_frm_rate_idc[i]指示第i个时间层表示的帧速率恒定。

设定为等于2的语法元素constant_frm_rate_idc[i]指示第i个时间层表示的帧速率可恒定或可不恒定。constant_frm_rate_idc[i]的值可在0到2(包含0和2)的范围中。

语法元素avg_frm_rate[i]指示第i个时间层表示的平均帧速率(以每256秒的帧数为单位)。以fTotal为第i个时间层表示中的图片的数目，t₁为VPS所应用于的第一存取单元的移除时间(以秒计)，且t₂为VPS所应用于的最后存取单元(按解码次序)的移除时间(以秒计)，以下情况适用：

如果t₁不等于t₂，则以下条件可为真：

avg_frm_rate[i]＝＝Round(fTotal*256÷(t₂-t₁))

否则(t₁等于t₂)，以下条件可为真：

avg_frm_rate[i]＝＝0

现将描述VUI参数语义。VUI参数中的每一语法元素具有与如在WD7中所指定的VUI参数语法中具有相同名称的语法元素相同的语义。

现将描述序列参数集RBSP语义。设定为等于1的语法元素use_rps_from_vps_flag指定包含于序列参数集中的短期参考图片集合是包含于所参考视频参数集中的短期参考图片集合的添加(additive)。设定为等于0的语法元素use_rps_from_vps_flag指定包含于序列参数集中的短期参考图片集合超越(override)包含于所参考视频参数集中的短期参考图片集合。

或者，语法元素num_short_term_ref_pic_sets可不存在于SPS中且可始终经推断为设定成等于0。或者，语法元素use_rps_from_vps_flag可不存在且可始终经推断为设定成等于1。或者，语法元素use_rps_from_vps_flag可不存在且可始终经推断为设定成等于0。

可如下导出变量NumShortTermRefPicSets。

NumShortTermRefPicSets＝num_short_term_ref_pic_sets

if(use_rps_from_vps_flag)

NumShortTermRefPicSets+＝num_vps_short_term_ref_pic_sets

现将描述切片标头语义。语法元素short_term_ref_pic_set_idx指定作用中序列参数集中所指定的短期参考图片集合的列表的索引，所述短期参考图片集合可用于建立当前图片的参考图片集合。语法元素short_term_ref_pic_set_idx可由Ceil(Log2(NumShortTermRefPicSets))个位来表示。short_term_ref_pic_set_idx的值可在0到num_short_term_ref_pic_sets-1(包含0和num_short_term_ref_pic_sets-1)的范围中，其中num_short_term_ref_pic_sets为来自作用中序列参数集的语法元素。

可如下导出变量StRpsIdx。

if(short_term_ref_pic_set_sps_flag)

StRpsIdx＝short_term_ref_pic_set_idx

else

StRpsIdx＝NumShortTermRefPicSets

设定为等于0的语法元素tiles_fixed_structure_idc指示经译码视频序列中的任何图片所参考的每一图片参数集具有设定为等于0的tiles_or_entropy_coding_sync_idc。设定为等于1的语法元素tiles_fixed_structure_idc指示经译码视频序列中的任何图片所参考的每一图片参数集具有语法元素num_tile_columns_minus1、num_tile_rows_minus1、uniform_spacing_flag、column_width[i]、row_height[i]和loop_filter_across_tiles_enabled_flag(当存在时)的相同值。设定为等于2的语法元素tiles_fixed_structure_idcg指示经译码视频序列中的图片所参考的不同图片参数集中的瓦片语法元素可具有相同值或可不具有相同值。tiles_fixed_structure_idc的值可在0到2(包含0和2)的范围中。当语法元素tiles_fixed_structure_flag不存在时，推断所述语法元素等于2。

设定为等于1的语法元素tiles_fixed_structure_flag的信令可向解码器保证经译码视频序列中的每一图片具有以相同方式分布的相同数目个瓦片，此可对多线程解码的情况下的工作负载分配有用。

现将描述类似于上文所描述的第一实例的第二实例。在此第二实例中，SPS中剩余的语法元素可存在于VPS中且有条件地存在于SPS中。改变并在下文在表7到9中描述根据此实例的VPS和SPS的语法和语义。

表7-视频参数集RBSP语法

表8-序列参数集RBSP语法

表9-任选SPS参数

现将描述任选SPS参数语义。此语法结构中的语法元素和语法结构的语义具有与SPS中的具有如第一实例中所指定的相同语法元素名称的那些语法元素相同的语义。

现将描述序列参数集RBSP语义。设定为等于1的语法元素sps_parameters_override_flag指定如序列参数集中所指定的从pcm_enabled_flag到tiles_fixed_structure_idc的语法元素和语法结构的值超越如所参考视频参数集中所指定的相同语法元素和语法结构的值。设定为等于0的语法元素sps_parameters_override_flag指示如所参考视频参数集中所指定的从pcm_enabled_flag到tiles_fixed_structure_idc的语法元素和语法结构的值在使用中。

可由MANE 29和/或视频解码器30以上文参考表2所描述的方式来处理并剖析表7中所展示的语法元素next_essential_byte_offset。类似地，也可以上文所描述的方式由视频解码器20产生且由视频解码器30来处理并剖析语法元素video_parameter_set_id、profile_idc和profile_space。

第三实例为第一实例的超集。在此第三实例中，可以使扩展较容易实施的方式来设计语法。另外，在此实例中可支持VPS的扩展。不存在与第一实例中的对应物完全相同的语法表的语法设计或语义设计。下文参考表10到19来描述第三实例。

表10-视频参数集RBSP语法(仅基本规范)

表11-视频参数集RBSP语法(包含扩展)

表12-简档和层级信息表语法

表13-表示格式信息表语法

表14-位速率和帧速率信息表语法

表15-HRD时间操作点信息表语法

表16-VUI VPS集合表语法

表17-VPS扩展语法

现将描述视频参数集RBSP语义。语法元素byte_alligned_bits指定使VPS NAL单元中在num_additional_profile_level_info之前的位经字节对准的可能位。语法元素byte_alligned_bits在0到7(包含0和7)的范围中。语法元素num_additional_profile_level_info指定存在于VPS中的额外简档和层级信息表的数目。语法元素num_additional_rep_fromat_info指定存在于VPS中的额外表示格式信息表的数目。语法元素num_additional_dependency_operation_points指定进一步存在于位流中的相依性操作点的数目，不管时间可缩放性如何。每一相依性操作点可包含时间子操作点，每一时间子操作点具有相同层结构。语法元素extension_type指定当前位流的扩展的类型，其中0对应于3DV且1对应于SVC。语法元素profile_level_index[k]指示针对当前第k个相依性操作点的用以在VPS中用信号表示的层级信息表的索引。语法元素ref_format_index指示针对当前第k个相依性操作点的用以在VPS中用信号表示的表示格式信息表的索引。

语法元素applicable_lowest_temporal_id[k]和applicable_highest_temporal_id[k]分别指定对应于第k个相依性操作点的用信号表示的时间子操作点的最低temporal_id值和最高temporal_id值。或者，语法元素applicable_lowest_temporal_id[k]和applicable_highest_temporal_id[k]均未用信号表示且经推断为分别等于0和vps_max_temporal_layers_minus1。或者，语法元素applicable_lowest_temporal_id[k]未用信号表示且经推断为等于0。或者，语法元素applicable_highest_temporal_id[k]未用信号表示且经推断为等于vps_max_temporal_layers_minus1。

等于1的语法元素depth_included_flag[k]指示当前3DV相依性操作点含有深度。等于0的此旗标指示当前3DV操作点不含深度。或者，语法元素depth_included_flag[k]未用信号表示，因此指示深度VCL NAL单元依赖于layer_id_plust1。

语法元素num_target_output_views_minus1[k]加1指定第k个相依性操作点中的目标输出视图的数目。语法元素num_depedent_layers[k]指示用于解码当前第k个相依性操作点的相依层的数目。语法元素layer_id[k][j]指示第k个相依性操作点的第j个目标输出视图的layer_id。语法元素dependent_layer_id[k][j]指示第k个相依性操作点的第j个相依视图的layer_id。在一个替代例中，恰在dependent_layer_id[k][j]之后，将一旗标用信号表示为direct_dependent_flag[k][j]。

语法元素direct_dependent_flag[k][j]指示第j个相依视图是否为直接相依视图，从而用以导出视图间RPS。语法元素layer_id[k]指示当前第k个(SVC)相依性操作点的最高layer_id。或者，可将num_target_output_views_minus1[k]、num_depedent_layers[k]、layer_id[k][j]和dependent_layer_id[k][j]用信号表示为ue(v)。

语法元素num_additional_vui_vps_set_info可指定存在于VPS中的额外VUI VPS集合表的数目。

对于简档和层级信息表语义，语法元素profileLevelInfoIdx指示简档和层级信息表的索引。对于表示格式信息表语义，语法元素repFormatInfoIdx指示表示格式信息表的索引。

可由MANE 29和/或视频解码器30以上文参考表2所描述的方式来处理并剖析表7中所展示的语法元素next_essential_byte_offset。

对于VUI VPS集合表语义，语法元素vuiVpsSetIndex指示VUI VPS集合表的索引。

或者，可如下在SPS中用信号表示每一视图的视图相依性：

表18

语法元素num_reerence_views指示用以建构视图间RPS子集的纹理或深度视图的最大数目。语法元素ref_view_layer_id[i]识别用以指示视图间RPS子集中的第i个视图间(唯一)参考图片的第i个纹理/深度视图的layer_id。

或者，可如下用信号表示VPS扩展。当语法元素extension_type指示SVC时，不用信号表示语法元素num_additional_dependency_operation_points，但将其导出为等于vps_max_layers_minus1。给定存取单元内的VCL NAL单元处于layer_id的非下降次序中的约束。在MVC中，语法元素layer_id等效于view_idx。在3DV中，可如下根据layer_id计算语法元素view_idx：view_idx＝(layer_idx>>1)。

表19

设定为等于1的语法元素depth_present_flag指示可存在含有深度的操作点。设定为等于0的语法元素depth_present_flag指示无操作点含有深度。

语法元素num_target_output_views_minus1[k]加1可用以指定第k个相依性操作点中的目标输出视图的数目。语法元素num_dependent_layers[k]可用以指示用于解码当前第k个相依性操作点的相依层的数目。当将depth_present_flag设定为等于1时，相依层可为深度视图或纹理视图两者。语法元素layer_id[k][j]指示第k个相依性操作点的第j个目标输出纹理视图的layer_id。与纹理视图相关联的深度视图的layer_id(如果存在)为layer_id[k][j]+1。

或者，对于每一目标输出视图，可用信号表示语法元素view_idx[k][j]而非layer_id[k][j]。对于每一view_idx[k][j]，对应纹理视图的layer_id为(view_idx[k][j]<<depth_present_flag)。如果depth_included_flag[k]等于1，则对应深度视图的layer_id为(view_idx[k][j]<<depth_present_flag)+1，其为(view_idx[k][j]<<1)+1，这是因为在此情况下depth_present_flag必须为1。或者，可将语法元素layer_id[k][j]改变为view_idx[k][j]且用u(v)译码，其中长度为5-depth_present_flag。或者，可将语法元素layer_id[k][j]改变为view_idx[k][j]且用u(v)译码，其中长度为5-depth_included[k]。

第四实例为第二实例的超集。以扩展友好方式来设计语法。另外，在此实例中提供VPS的扩展。不存在与第二实例中的对应物完全相同的语法表的语法设计或语义设计。

表20-视频参数集RBSP语法(仅基本规范)

表21-视频参数集RBSP语法(包含扩展)

可由MANE 29和/或视频解码器30以上文参考表2所描述的方式来处理并剖析表21中所展示的语法元素next_essential_byte_offset。

图4为说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可(例如)产生上文关于表1到21所描述的语法结构。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测以减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。

在图4的实例中，视频编码器20包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44和帧内预测处理单元46。对于视频块重构，视频编码器20还包含逆量化单元58、逆变换处理单元60和求和器62。滤波器单元63既定表示一或多个环路滤波器，例如解块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。虽然在图4中将滤波器单元63展示为环路内滤波器，但在其它配置中，滤波器单元63也可实施为环路后滤波器。图4也展示后处理装置57，其可对由视频编码器20产生的经编码视频数据执行额外处理。在一些例子中，本发明的技术(其包含产生具有偏移语法元素的参数集)可由视频编码器20来实施。然而，在其它例子中，本发明的技术可由后处理装置57来实施。

如图4中所展示，视频编码器20接收视频数据，且分割单元35将所述数据分割成多个视频块。此分割也可包含分割成切片、瓦片或其它较大单元，以及(例如)根据LCU和CU的四叉树结构的视频块分割。视频编码器20通常说明对待编码的视频切片内的视频块进行编码的组件。切片可划分成多个视频块(且可能划分成被称为瓦片的视频块的集合)。预测处理单元41可基于错误结果(例如，译码速率和失真程度)而为当前视频块选择多个可能译码模式中的一者(例如，多个帧内译码模式中的一者或多个帧间译码模式中的一者)。预测处理单元41可将所得的经帧内或经帧间译码的块提供到求和器50以产生残余块数据，且提供到求和器62以重构经编码块以用作参考图片。

预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于在与待译码的当前块相同的帧或切片中的一或多个相邻块的帧内预测性译码，以提供空间压缩。预测处理单元41内的运动估计单元42和运动补偿单元44执行当前视频块相对于一或多个参考图片中的一或多个预测性块的帧间预测性译码，以提供时间压缩。

运动估计单元42可经配置以根据视频序列的预定模式确定视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42和运动补偿单元44可高度集成，但为概念目的而分别说明。由运动估计单元42执行的运动估计为产生运动向量的过程，运动向量估计视频块的运动。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的移位。

预测性块为经发现在像素差方面紧密匹配待译码的视频块的PU的块，像素差可通过绝对差和(SAD)、平方差和(SSD)或其它差量度来确定。在一些实例中，视频编码器20可计算存储于图片存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索且输出具有分数像素精度的运动向量。

运动估计单元42通过比较经帧间译码的切片中的视频块的PU的位置与参考图片的预测性块的位置来计算PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，所述列表中的每一者识别存储于图片存储器64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56和运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计确定的运动向量来提取或产生预测性块，从而可能执行到子像素精度的内插。在接收到当前视频块的PU的运动向量后，运动补偿单元44可将运动向量所指向的预测性块定位于参考图片列表中的一者中。视频编码器20通过从正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块，从而形成像素差值。像素差值形成块的残余数据，且可包含亮度差分量和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44也可产生与视频块和视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。

如上所述，作为由运动估计单元42和运动补偿单元44执行的帧间预测的替代，帧内预测单元46可对当前块进行帧内预测。详细来说，帧内预测单元46可确定用以编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可(例如)在单独编码遍次期间使用各种帧内预测模式来编码当前块，且帧内预测单元46(或在一些实例中，模式选择单元40)可从经测试模式选择适当帧内预测模式来使用。举例来说，帧内预测单元46可使用用于各种经测试帧内预测模式的速率-失真分析来计算速率-失真值，且在经测试模式中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量，以及用以产生经编码块的位速率(即，位的数目)。帧内预测单元46可根据各种经编码块的失真和速率计算比率以确定哪一帧内预测模式展现块的最佳速率-失真值。

在任何情况下，在选择用于块的帧内预测模式之后，帧内预测单元46可将指示用于块的选定帧内预测模式的信息提供到熵译码单元56。熵译码单元56可根据本发明的技术来编码指示选定帧内预测模式的信息。视频编码器20可在所发射的位流中包含配置数据，所述配置数据可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也称为码字映射表)、各种块的编码上下文的定义，和用于上下文中的每一者的最大概率帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后，视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中且应用于变换处理单元52。变换处理单元52使用变换(例如，离散余弦变换(DCT)或概念上类似的变换)将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到例如频域的变换域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化所述变换系数以进一步减小位速率。量化过程可减小与所述系数中的一些或所有系数相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可接着执行对包含经量化的变换系数的矩阵的扫描。或者，熵编码单元56可执行所述扫描。

在量化之后，熵编码单元56熵编码经量化的变换系数。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在通过熵编码单元56进行的熵编码之后，经编码位流可被发射到视频解码器30，或经存档以供稍后发射或由视频解码器30检索。熵编码单元56也可熵编码正经译码的当前视频切片的运动向量和其它语法元素。

逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换，以在像素域中重构残余块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重构的残余块以计算子整数像素值以供在运动估计中使用。求和器62将经重构的残余块加到由运动补偿单元44产生的经运动补偿的预测块以产生参考块以存储于图片存储器64中。参考块可由运动估计单元42和运动补偿单元44用作参考块来帧间预测后续视频帧或图片中的块。

以此方式，图4的视频编码器20表示经配置以产生上文在表1到表21中所描述的语法的视频编码器的实例。视频编码器20可(例如)产生如上所述的VPS、SPS、PPS和APS参数集。在一个实例中，视频编码器20可针对经译码视频数据产生参数集，所述参数集包含跟随有偏移语法元素的一或多个初始固定长度语法元素。所述一或多个初始固定长度语法元素可(例如)包含有关于会话协商的信息。当参数集由MANE处理时，偏移语法元素可指示待跳过的字节的数目。待跳过的所述数目个字节可(例如)包含一或多个可变长度语法元素。视频编码器20可将额外固定长度语法元素包含于参数集中处于所述被跳过的字节之后。所述额外固定长度语法元素可(例如)包含有关于视频数据的另一层的信息。在一个实例中，所述初始固定长度语法元素可包含有关于用于基础层的会话协商的信息，而所述额外固定长度语法元素可包含有关于用于非基础层的会话协商的信息。

视频编码器20可基于用以译码一或多个可变长度语法元素的位的数目来确定所述偏移语法元素的值。举例来说，针对第一VPS假设：待跳过的语法元素包含2个位、3个位和5个位的三个固定长度语法元素，以及2个位、4个位、5个位和3个位的四个可变长度语法元素。在此实例中，所述固定长度语法元素包含总共10个位，而所述可变长度语法元素包含总计14个位。因此，对于所述第一VPS，视频编码器20可将所述偏移语法元素的值设定为24，包含待跳过的24个位(例如，3个字节)。对于第二VPS，用于固定语法元素的位的数目将再次为10，但用于可变长度语法元素的位的数目可不同。因此，对于第二VPS，视频编码器20可将所述偏移语法元素的值设定为不同值。

已关于视频编码器20大体上描述了本发明的技术，但如上文所提到，本发明的技术中的一些也可由后处理装置57来实施。举例来说，后处理装置57可针对由视频编码器20产生的视频数据的多个层产生VPS。

图5为说明可实施本发明中所描述的技术的实例视频解码器30的框图。视频解码器30可(例如)经配置以处理并剖析上文关于表1到21所描述的语法结构。在图5的实例中，视频解码器30包含熵解码单元80、预测处理单元81、逆量化单元86、逆变换单元88、求和器90、滤波器单元91和图片存储器92。预测处理单元81包含运动补偿单元82和帧内预测处理单元84。在一些实例中，视频解码器30可执行与关于来自图4的视频编码器20所描述的编码遍次大体上互逆的解码遍次。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30可从网络实体79接收经编码视频位流。举例来说，网络实体79可为服务器、MANE、视频编辑器/拼接器，或经配置以实施上文所描述的技术中的一或多者的其它此种装置。网络实体79可包含或可不包含视频编码器20。如上所述，本发明中所描述的技术中的一些可由网络实体79在网络79将经编码视频位流发射到视频解码器30之前实施。在一些视频解码系统中，网络实体79和视频解码器30可为单独装置的部分，而在其它例子中，关于网络实体79所描述的功能性可由包括视频解码器30的同一装置执行。

网络实体79表示视频处理装置的实例，所述视频处理装置经配置以进行以下操作：处理与视频位流相关联的参数集的一或多个初始语法元素；在所述参数集中接收所述参数集的偏移语法元素，所述偏移语法元素识别所述参数集内的待跳过的语法元素；且基于所述偏移语法元素来跳过所述参数集内的所述语法元素。网络实体79也可处理所述参数集中的一或多个额外语法元素。所述一或多个额外语法元素在所述参数集中处于所述被跳过的语法元素之后。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。所述视频块可(例如)经由一或多个MANE(例如，图1中的MANE 29或图5中的网络实体79)而从视频编码器20路由到视频解码器30。视频解码器30的熵解码单元80熵解码所述位流以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转发到预测处理模块81。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。

如上文所介绍，熵解码单元80可处理并剖析一或多个参数集(例如，VPS、SPS、PPS和APS)中的固定长度语法元素和可变长度语法元素两者。视频解码器30可在所述参数集中的一或多者(例如，VPS)中接收如本发明中所描述的偏移语法元素。响应于接收到偏移语法元素，视频解码器30可基本上忽略偏移语法元素的值。举例来说，视频解码器30可接收偏移语法元素，但可不跳过任何语法元素而继续解码在所述偏移语法元素后的语法元素(包含可变长度语法元素)。

当视频切片经译码为经帧内译码(I)切片时，预测处理单元81的帧内预测处理单元84可基于用信号表示的帧内预测模式和来自当前帧或图片的先前经解码块的数据产生当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即，B、P或GPB)切片时，预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素产生当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生所述预测性块。视频解码器30可基于存储于图片存储器92中的参考图片使用预设建构技术来建构参考帧列表(列表0和列表1)。

运动补偿单元82通过剖析运动向量和其它语法元素来确定当前视频切片的视频块的预测信息，且使用所述预测信息产生正经解码的当前视频块的预测性块。举例来说，运动补偿单元82使用所接收的语法元素中的一些确定用以译码视频切片的视频块的预测模式(例如，帧内或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态，和用以解码当前视频切片中的视频块的其它信息。

运动补偿单元82也可基于内插滤波器来执行内插。运动补偿单元82可使用如由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下，运动补偿单元82可从所接收的语法元素确定由视频编码器20使用的内插滤波器，且使用所述内插滤波器来产生预测性块。

逆量化单元86逆量化(即，解量化)提供于位流中且由熵解码单元80解码的经量化的变换系数。逆量化过程可包含将由视频编码器20针对视频切片中的每一视频块计算的量化参数用于确定量化的程度和(同样地)应当应用的逆量化的程度。逆变换处理单元88将逆变换(例如，逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数以便产生像素域中的残余块。

在运动补偿单元82基于运动向量和其它语法元素产生当前视频块的预测性块之后，视频解码器30通过将来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。如果需要，也可将环路滤波器(在译码环路中或在译码环路之后)用于平滑像素转变或以其它方式改善视频质量。滤波器单元91既定表示一或多个环路滤波器，例如解块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。虽然在图5中将滤波器单元91展示为环路内滤波器，但在其它配置中，滤波器单元91可实施为环路后滤波器。接着将给定帧或图片中的经解码视频块存储于图片存储器92中，图片存储器92存储用于后续运动补偿的参考图片。图片存储器92也存储经解码视频以供稍后呈现于显示装置(例如，图1的显示装置32)上。

以此方式，图5的视频解码器30表示经配置以剖析上文在表1到21中所描述的语法的视频解码器的实例。视频解码器30可(例如)剖析如上所述的VPS、SPS、PPS和APS参数集。

图6为说明形成网络150的部分的装置的实例集合的框图。在此实例中，网络150包含路由装置154A、154B(路由装置154)和代码转换装置156。路由装置154和代码转换装置156既定表示可形成网络150的部分的少量装置。其它网络装置(例如，交换器、集线器、网关、防火墙、桥接器和其它这些装置)也可包含于网络150内。此外，可沿着服务器装置152与客户端装置158之间的网络路径提供额外网络装置。在一些实例中，服务器装置152可对应于源装置12(图1)，而客户端装置158可对应于目的地装置14(图1)。路由装置154可(例如)为经配置以路由媒体数据的MANE。

一般来说，路由装置154实施一或多个路由协议以经由网络150交换网络数据。一般来说，路由装置154执行路由协议以发现经由网络150的路线。通过执行这些路由协议，路由装置154B可发现从其本身经由路由装置154A到服务器装置152的网络路线。图6的各种装置表示可实施本发明的技术的装置的实例。根据本发明，路由装置154可(例如)为经配置以剖析参数集(例如，VPS)的语法元素的媒体认知网络元件。举例来说，路由装置154可在VPS中接收一或多个初始固定长度语法元素且剖析并处理所述固定长度语法元素。所述初始固定长度语法元素可(例如)为有关于会话协商的语法元素。路由装置154也可在所述VPS中接收偏移语法元素。所述偏移语法元素可识别待跳过的字节的数目。路由装置154可跳过指定数目个字节，且在跳过指定数目个字节之后，可重新继续剖析并处理所述VPS内的固定长度语法元素。所述被跳过的字节可包含路由装置154不能剖析(这是因为路由装置154不能执行熵解码操作)的一或多个可变长度语法元素。

图7为说明如何根据本发明的技术处理偏移语法元素的实例的流程图。将参考网络装置(例如，图1的MANE 29或图6中的路由装置154中的一者)来描述图7的技术。所述网络实体处理与视频位流相关联的参数集的一或多个初始语法元素(171)。所述一或多个初始语法元素可另外包含固定长度语法元素且在所述偏移语法元素之前。所述一或多个初始语法元素可包含包括有关于会话协商的信息的语法元素。此外，所述一或多个初始语法元素包括用于视频数据的基础层的语法元素且所述一或多个额外语法元素包括用于视频数据的非基础层的语法元素。

所述网络实体在所述视频位流中接收所述参数集的偏移语法元素(172)。所述偏移语法元素识别所述参数集内的待跳过的位的数目。所述偏移语法元素可(例如)为视频参数集的部分。待跳过的所述数目个位可(例如)对应于使用可变长度译码来译码的一或多个语法元素。基于所述偏移语法元素，所述网络实体跳过所述参数集内的若干个位(173)。所述网络实体处理所述参数集中的一或多个额外语法元素(174)。所述一或多个额外语法元素在所述参数集中处于被跳过的所述数目个位之后。所述一或多个额外语法元素可为额外固定长度语法元素，且所述一或多个额外语法元素可在所述偏移语法元素之后且在待跳过的所述位之后。

图8为说明如何根据本发明的技术处理偏移语法元素的实例的流程图。将参考经配置以编码视频数据或处理经编码视频数据的视频处理装置来描述图8的技术。经配置以处理经编码视频数据的视频处理装置的实例包含图1和4的视频编码器20和图4的后处理装置57。视频处理装置产生与视频位流相关联的参数集的一或多个初始语法元素(181)。所述一或多个初始语法元素可包含固定长度语法元素，且所述一或多个初始语法元素可在所述偏移语法元素之前。所述一或多个初始语法元素可包含包括有关于会话协商的信息语法元素。所述一或多个初始语法元素可包含用于视频数据的基础层的语法元素，且所述一或多个额外语法元素可包含用于视频数据的非基础层的语法元素。

视频处理装置产生所述参数集的偏移语法元素(182)。所述偏移语法元素可识别所述参数集内的待跳过的位的数目。所述偏移语法元素可为视频参数集的部分。视频处理装置产生待跳过的一或多个语法元素(183)。待跳过的所述位包含待跳过的所述一或多个语法元素。待跳过的所述一或多个语法元素可包含使用可变长度译码来译码的一或多个语法元素。视频处理装置产生所述参数集中的一或多个额外语法元素(184)。所述一或多个额外语法元素在所述参数集中处于待跳过的所述数目个位之后。所述一或多个额外语法元素可包含额外固定长度语法元素，所述一或多个额外语法元素可在所述偏移语法元素之后且在待跳过的所述位之后。

图9为说明如何根据本发明的技术解码偏移语法元素的实例的流程图。将参考视频解码器(例如，图1和5的视频解码器30)来描述图9的技术。所述视频解码器对与视频位流相关联的参数集的一或多个初始语法元素进行解码(191)。所述视频解码器在所述视频位流中接收所述参数集的偏移语法元素(192)。所述偏移语法元素识别所述参数集内的待跳过的位的数目。所述视频解码器对待跳过的所述位进行解码(193)。在一些实例中，所述视频解码器通过执行熵解码以对包含于待跳过的所述位中的可变长度语法元素进行解码来对待跳过的所述位进行解码。因为所述字节在通过视频处理器(例如，MANE)处理视频数据时被跳过，但所述位可为解码视频数据必需的，所以所述视频解码器可(例如)对待跳过的所述位进行解码。与视频解码器相比，MANE可跳过所述位以便对视频数据执行特定处理而不必完全解码视频数据。在一些例子中，MANE甚至可不必拥有解码视频数据所需的所有能力。

图10为说明如何根据本发明的技术处理VPS的实例的流程图。将参考通用视频处理装置来描述图10的技术。视频处理装置可对应于例如图1的MANE 29或图6中的路由装置154中的一者的网络装置。视频处理装置可另外对应于例如图1和4的视频解码器30的视频解码器。视频处理装置在视频参数集中接收包含有关于会话协商的信息的一或多个语法元素(201)。视频处理装置在所述视频数据中接收第一序列参数集(202)，所述第一序列参数集包括识别所述视频参数集的第一语法元素。所述第一序列参数集包括第一语法结构，所述第一语法结构包含应用于视频数据的一或多个完整图片的语法元素的第一群组。视频处理装置在所述视频数据中接收第二序列参数集(203)，所述第二序列参数集包括识别所述视频参数集的第二语法元素。所述第二序列参数集包括第二语法结构，所述第二语法结构包含应用于视频数据的一或多个不同完整图片的语法元素的第二群组。视频处理装置基于所述一或多个语法元素来处理与所述第一参数集相关联的视频块的第一集合和与所述第二参数集相关联的视频块的第二集合(204)。

所述一或多个语法元素可为(例如)固定长度语法元素且在所述视频参数集中可处于任何经可变长度译码的语法元素之前。所述一或多个语法元素可包含识别视频译码标准的简档的语法元素。所述一或多个语法元素可进一步或替代地包含识别视频译码标准的层级的语法元素。所述层级可(例如)对应于与所述视频译码标准的所述简档相关联的多个层级中的一者。

所述一或多个语法元素可包含第一语法元素和第二语法元素。所述第一语法元素可识别用于解译所述第二语法元素的上下文，且所述第二语法元素可识别简档的群组。视频处理装置可在所述视频参数集中接收一或多个兼容性旗标，所述一或多个兼容性旗标中的每一者与来自简档的所述群组的简档相关联。所述一或多个兼容性旗标中的每一者的值可识别视频数据是否与来自简档的所述群组的相关联简档兼容。

所述一或多个语法元素也可包含识别与视频数据相关联的最大时间层级的第一语法元素和识别视频数据的时间层是否具有低于所述最大时间层级的层级的第二语法元素。响应于所述第二语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，视频处理装置可接收额外语法元素，所述额外语法元素识别。

在多个例子中，当视频处理装置为视频解码器时，所述视频解码器可解码视频块的所述第一集合和视频块的所述第二集合。在多个例子中，当视频处理装置为MANE时，所述MANE可将视频块的所述第一集合和视频块的所述第二集合转发到客户端装置。

图11为说明如何根据本发明的技术产生供包含于VPS中的语法元素的实例的流程图。将参考经配置以编码视频数据或处理经编码视频数据的视频处理装置来描述图8的技术。经配置以处理经编码视频数据的视频处理装置的实例包含图1和4的视频编码器20和图4的后处理装置57。视频处理装置产生包含有关于会话协商的信息的一或多个语法元素以用于包含于视频参数集中(211)。视频处理装置产生第一序列参数集以用于包含于所述视频数据中(212)，所述第一序列参数集包括识别所述视频参数集的第一语法元素。所述第一序列参数集包括第一语法结构，所述第一语法结构包含应用于视频数据的一或多个完整图片的语法元素的第一群组。视频处理装置产生第二序列参数集以用于包含于所述视频数据中(213)，所述第二序列参数集包括识别所述视频参数集的第二语法元素。所述第二序列参数集包括第二语法结构，所述第二语法结构包含应用于视频数据的一或多个不同完整图片的语法元素的第二群组。视频处理装置基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合和与所述第二参数集相关联的视频块的第二集合进行编码(214)。

所述一或多个语法元素也可包含识别与视频数据相关联的最大时间层级的第一语法元素和识别视频数据的时间层是否具有低于所述最大时间层级的层级的第二语法元素。响应于所述第二语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，所述视频处理装置可接收额外语法元素，所述额外语法元素识别视频数据的一或多个时间层的层级。

图12为说明如何根据本发明的技术处理VPS的实例的流程图。将参考通用视频处理装置来描述图12的技术。所述视频处理装置可对应于例如图1的MANE 29或图6中的路由装置154中的一者的网络装置。所述视频处理装置可另外对应于例如图1和4的视频解码器30的视频解码器。所述视频处理装置在视频参数集中接收包含有关于HRD参数的信息的一或多个语法元素(221)。所述视频处理装置在所述视频数据中接收第一序列参数集(222)，所述第一序列参数集包括识别所述视频参数集的第一语法元素。所述第一序列参数集包括第一语法结构，所述第一语法结构包含应用于视频数据的一或多个完整图片的语法元素的第一群组。所述视频处理装置在所述视频数据中接收第二序列参数集(223)，所述第二序列参数集包括识别所述视频参数集的第二语法元素。所述第二序列参数集包括第二语法结构，所述第二语法结构包含应用于视频数据的一或多个不同完整图片的语法元素的第二群组。所述视频处理装置基于所述一或多个语法元素来处理与所述第一参数集相关联的视频块的第一集合和与所述第二参数集相关联的视频块的第二集合(224)。

图13为说明如何根据本发明的技术产生供包含于VPS中的语法元素的实例的流程图。将参考经配置以编码视频数据或处理经编码视频数据的视频处理装置来描述图13的技术。经配置以处理经编码视频数据的视频处理装置的实例包含图1和4的视频编码器20和图4的后处理装置57。所述视频处理装置产生包含有关于HRD参数的信息的一或多个语法元素以用于包含于视频参数集中(231)。所述视频处理装置产生第一序列参数集以用于包含于所述视频数据中(232)，所述第一序列参数集包括识别所述视频参数集的第一语法元素。所述第一序列参数集包括第一语法结构，所述第一语法结构包含应用于视频数据的一或多个完整图片的语法元素的第一群组。所述视频处理装置产生第二序列参数集以用于包含于所述视频数据中(233)，所述第二序列参数集包括识别所述视频参数集的第二语法元素。所述第二序列参数集包括第二语法结构，所述第二语法结构包含应用于视频数据的一或多个不同完整图片的语法元素的第二群组。视频处理装置基于所述一或多个语法元素对与所述第一参数集相关联的视频块的第一集合和与所述第二参数集相关联的视频块的第二集合进行编码(234)。

在一或多个实例中，所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施，则所述功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体发射，且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体，通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

通过实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器，或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。又，任何连接可适当地称为计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或无线技术(例如，红外线、无线电和微波)而从网站、服务器或其它远程源发射指令，则同轴缆线、光纤缆线、双绞线、DSL或无线技术(例如，红外线、无线电和微波)包含于媒体的定义中。然而，应理解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而是有关非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各物的组合也应包含于计算机可读媒体的范围内。

可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指代上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，可将本文中所描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入于组合式编解码器中。又，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可以广泛多种装置或设备来实施，所述装置或设备包含无线手持机、集成电路(IC)或IC集合(例如，芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但未必要求通过不同硬件单元来实现。更确切来说，如上所述，可将各种单元组合于编解码器硬件单元中，或通过交互操作性硬件单元(包含如上所述的一或多个处理器)的集合而结合合适软件和/或固件来提供所述单元。

已描述各种实例。这些和其它实例在所附权利要求书的范围内。

Claims

1.一种处理视频数据的方法，所述方法包括：

在用于所述视频数据的视频参数集VPS中接收包含有关于会话协商的信息的一或多个语法元素，其中所述一或多个语法元素包括第一语法元素和第二语法元素，其中所述第一语法元素识别用于解译所述第二语法元素的上下文，且其中所述第二语法元素识别简档的群组；

在所述视频数据中接收第一序列参数集SPS，所述第一SPS包括识别所述VPS的第三语法元素；

在所述视频数据中接收第二SPS，所述第二SPS包括识别所述VPS的第四语法元素；

在所述VPS中接收一或多个兼容性旗标，其中所述一或多个兼容性旗标中的每一者与来自所述简档的群组的简档相关，且其中所述一或多个兼容性旗标中的每一者的值识别所述视频数据是否与来自所述简档的群组的相关简档兼容；

基于所述一或多个语法元素对与所述第一SPS相关联的视频块的第一集合及与所述第二SPS相关联的视频块的第二集合进行解码；以及

输出包含经解码的所述视频块的第一集合和经解码的所述视频块的第二集合的经解码视频数据。

2.根据权利要求1所述的方法，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

3.根据权利要求1所述的方法，其中所述一或多个语法元素包括一或多个固定长度语法元素。

4.根据权利要求1所述的方法，其中在所述VPS中，所述一或多个语法元素在任何可变长度的经译码语法元素之前。

5.根据权利要求1所述的方法，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

6.根据权利要求5所述的方法，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

7.根据权利要求1所述的方法，其进一步包括：

确定与所述视频数据相关联的最大时间层级，且其中所述一或多个语法元素包括第五语法元素，所述第五语法元素识别所述视频数据的时间层是否具有低于所述最大时间层级的层级。

8.根据权利要求7所述的方法，其进一步包括：

响应于所述第五语法元素指示所述视频数据的时间层具有低于所述最大时间层级的层级，接收额外语法元素，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。

9.根据权利要求1所述的方法，其中所述方法由视频解码器执行。

10.一种对视频数据进行编码的方法，所述方法包括：

产生包含有关于会话协商的信息的一或多个语法元素以用于包含于用于所述视频数据的视频参数集VPS中，其中所述一或多个语法元素包括第一语法元素和第二语法元素，其中所述第一语法元素识别用于解译所述第二语法元素的上下文，且其中所述第二语法元素识别简档的群组；

产生第一序列参数集SPS以用于包含于所述视频数据中，所述第一SPS包括识别所述VPS的第三语法元素；

产生第二SPS以用于包含于所述视频数据中，所述第二SPS包括识别所述VPS的第四语法元素；

产生一或多个兼容性旗标以用于包含于所述VPS中，其中所述一或多个兼容性旗标中的每一者与来自所述简档的群组的简档相关，且其中所述一或多个兼容性旗标中的每一者的值识别所述视频数据是否与来自所述简档的群组的相关简档兼容；

基于所述一或多个语法元素对与所述第一SPS相关联的视频块的第一集合及与所述第二SPS相关联的视频块的第二集合进行编码；以及

输出包含经编码的所述视频块的第一集合和经编码的所述视频块的第二集合的经编码视频数据。

11.根据权利要求10所述的方法，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

12.根据权利要求10所述的方法，其中所述一或多个语法元素包括一或多个固定长度语法元素。

13.根据权利要求10所述的方法，其中在所述VPS中，所述一或多个语法元素在任何可变长度的经译码语法元素之前。

14.根据权利要求10所述的方法，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

15.根据权利要求14所述的方法，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

16.根据权利要求10所述的方法，其进一步包括：

产生指示与所述视频数据相关联的最大时间层级的信息以用于包含于所述视频数据中，且其中所述一或多个语法元素包括第五语法元素，所述第五语法元素识别所述视频数据的时间层是否具有低于所述最大时间层级的层级。

17.根据权利要求16所述的方法，其进一步包括：

响应于所述第五语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，产生额外语法元素，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。

18.一种用于处理视频数据的装置，所述装置包括：

存储器，其用于存储所述视频数据；以及

一或多个处理器，其经配置以：

在所述视频数据中接收第一序列参数集SPS，所述SPS包括识别所述VPS的第三语法元素；

在所述VPS中接收一或多个兼容性旗标，其中所述一或多个兼容性旗标中的每一者与来自所述简档的群组的简档相关联，且其中所述一或多个兼容性旗标中的每一者的值识别所述视频数据是否与来自所述简档的群组的相关联简档兼容；

19.根据权利要求18所述的装置，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

20.根据权利要求18所述的装置，其中所述一或多个语法元素包括一或多个固定长度语法元素。

21.根据权利要求18所述的装置，其中在所述VPS中，所述语法元素在任何可变长度的经译码语法元素之前。

22.根据权利要求18所述的装置，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

23.根据权利要求22所述的装置，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

24.根据权利要求18所述的装置，其中所述一或多个处理器进一步经配置以：

25.根据权利要求24所述的装置，其中所述一或多个处理器进一步经配置以响应于所述第五语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，接收额外语法元素，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。

26.根据权利要求18所述的装置，其中所述一或多个处理器包括视频解码器。

27.根据权利要求18所述的装置，其中所述装置包括以下各者中的至少一者：

集成电路；

微处理器；或

包括视频解码器的无线通信装置。

28.一种用于处理视频数据的装置，所述装置包括：

存储器，其用于存储所述视频数据；以及

一或多个处理器，其经配置以：

29.根据权利要求28所述的装置，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

30.根据权利要求28所述的装置，其中所述一或多个语法元素包括一或多个固定长度语法元素。

31.根据权利要求28所述的装置，其中在所述VPS中，所述一或多个语法元素在任何可变长度的经译码语法元素之前。

32.根据权利要求28所述的装置，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

33.根据权利要求32所述的装置，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

34.根据权利要求28所述的装置，其中所述一或多个处理器进一步经配置以：

35.根据权利要求34所述的装置，其中所述一或多个处理器进一步经配置以响应于所述第五语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，产生额外语法元素，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。

36.根据权利要求28所述的装置，其中所述装置包括以下各者中的至少一者：

集成电路；

微处理器；或

包括视频解码器的无线通信装置。

37.一种用于处理视频数据的装置，所述装置包括：

用于在用于所述视频数据的视频参数集VPS中接收包含有关于会话协商的信息的一或多个语法元素的装置，其中所述一或多个语法元素包括第一语法元素和第二语法元素，其中所述第一语法元素识别用于解译所述第二语法元素的上下文，且其中所述第二语法元素识别简档的群组；

用于在所述视频数据中接收第一序列参数集SPS的装置，所述第一SPS包括识别所述VPS的第三语法元素；

用于在所述视频数据中接收第二SPS的装置，所述第二SPS包括识别所述VPS的第四语法元素；

用于在所述VPS中接收一或多个兼容性旗标的装置，其中所述一或多个兼容性旗标中的每一者与来自所述简档的群组的简档相关，且其中所述一或多个兼容性旗标中的每一者的值识别所述视频数据是否与来自所述简档的群组的相关简档兼容；

用于基于所述一或多个语法元素对与所述第一SPS相关联的视频块的第一集合及与所述第二SPS相关联的视频块的第二集合进行解码的装置；以及

用于输出包含经解码的所述视频块的第一集合和经解码的所述视频块的第二集合的经解码视频数据的装置。

38.根据权利要求37所述的装置，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

39.根据权利要求37所述的装置，其中所述一或多个语法元素包括一或多个固定长度语法元素。

40.根据权利要求37所述的装置，其中在所述VPS中，所述一或多个语法元素在任何可变长度的经译码语法元素之前。

41.根据权利要求37所述的装置，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

42.根据权利要求41所述的装置，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

43.根据权利要求37所述的装置，其进一步包括：

用于确定与视频数据相关联的最大时间层级的装置，且其中所述一或多个语法元素包括第五语法元素，所述第五语法元素识别所述视频数据的时间层是否具有低于所述最大时间层级的层级。

44.根据权利要求43所述的装置，其进一步包括：

用于响应于所述第五语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，接收额外语法元素的装置，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。

45.一种非暂时性计算机可读存储媒体，其存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令：

在用于视频数据的视频参数集VPS中接收包含有关于会话协商的信息的一或多个语法元素，其中所述一或多个语法元素包括第一语法元素和第二语法元素，其中所述第一语法元素识别用于解译所述第二语法元素的上下文，且其中所述第二语法元素识别简档的群组；

在视频数据中接收第一序列参数集SPS，所述第一SPS包括识别所述VPS的第三语法元素；

基于所述一或多个语法元素对与所述第一SPS相关联的视频块的第一集合及与所述第二SPS相关联的视频块的第二集合进行译码；以及

46.根据权利要求45所述的非暂时性计算机可读存储媒体，其中所述第一SPS包括第一语法结构，所述第一语法结构包括应用于所述视频数据的一或多个完整图片的语法元素的第一群组，且其中所述第二SPS包括第二语法结构，所述第二语法结构包括应用于所述视频数据的一或多个不同完整图片的语法元素的第二群组。

47.根据权利要求45所述的非暂时性计算机可读存储媒体，其中所述一或多个语法元素包括一或多个固定长度语法元素。

48.根据权利要求45所述的非暂时性计算机可读存储媒体，其中在所述VPS中，所述一或多个语法元素在任何可变长度的经译码语法元素之前。

49.根据权利要求45所述的非暂时性计算机可读存储媒体，其中所述一或多个语法元素包括识别视频译码标准的简档的语法元素。

50.根据权利要求49所述的非暂时性计算机可读存储媒体，其中所述一或多个语法元素进一步包括识别所述视频译码标准的层级的语法元素，其中所述层级包括与所述视频译码标准的所述简档相关联的多个层级中的一者。

51.根据权利要求45所述的非暂时性计算机可读存储媒体，其进一步存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令：

确定与视频数据相关联的最大时间层级，且其中所述一或多个语法元素包括第五语法元素，所述第五语法元素识别所述视频数据的时间层是否具有低于所述最大时间层级的层级。

52.根据权利要求51所述的非暂时性计算机可读存储媒体，其进一步存储在由一或多个处理器执行时致使所述一或多个处理器进行以下操作的指令：

响应于所述第五语法元素指示视频数据的时间层具有低于所述最大时间层级的层级，接收额外语法元素，其中所述额外语法元素识别所述视频数据的一或多个时间层的层级。