CN106537919B

CN106537919B - 用于译码多层视频数据的方法、装置和设备

Info

Publication number: CN106537919B
Application number: CN201580031821.4A
Authority: CN
Inventors: 王业奎; 伏努·亨利; 阿达许·克里许纳·瑞玛苏布雷蒙尼安
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-06-25
Filing date: 2015-06-25
Publication date: 2019-07-05
Anticipated expiration: 2035-06-25
Also published as: KR20170023838A; CA2951499C; ES2839148T3; JP6728074B2; US20150381997A1; US9838697B2; BR112016030044B1; CN106537919A; EP3162058A1; US9729887B2; BR112016030044A2; EP3162071A1; CA2952829A1; KR102388859B1; KR20170026370A; WO2015200694A1; KR102388860B1; KR102388861B1; KR20170021794A; EP3162070A1

Abstract

本发明提供一种用于处理视频数据的装置，其包含经配置以存储多层视频数据的位流的至少一部分的存储器，及经配置以进行以下操作的一或多个处理器：产生存取单元的第一图片的第一视频译码层VCL网络抽象层NAL单元，所述第一VCL NAL单元包括第一切片类型；产生所述存取单元的第二图片的第二VCL NAL单元，所述第二VCL NAL单元包括第二切片类型；及基于所述第一及第二切片类型产生存取单元定界符AUD NAL单元。

Description

用于译码多层视频数据的方法、装置和设备

本申请案主张2014年6月25日申请的美国临时申请案62/017,120的权利，所述临时申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码及压缩，及用信号通知与位流中的经压缩视频相关联的数据。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频串流装置及其类似者。数字视频装置实施视频压缩技术，例如描述于以下各者中的那些技术：由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、高效率视频译码(HEVC)标准，及此类标准的扩展。视频装置可通过实施此类视频压缩技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测来减少或移除视频序列中固有的冗余。对于基于块的视频译码，可将视频切片(即，视频帧或视频帧的一部分)分割成视频块，视频块也可被称作树块、译码单元(CU)及/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测来编码图片的经帧内译码(I)切片中的视频块。图片的经帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。

空间或时间预测产生待译码块的预测性块。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差异的残余数据编码的。经帧内译码块是根据帧内译码模式及残余数据编码的。为了进一步压缩，可将残余数据从像素域变换到变换域，从而产生残余变换系数，可接着量化所述残余变换系数。可扫描最初布置成二维阵列的经量化变换系数，以便产生变换系数的一维向量，且可应用熵译码以实现甚至更多的压缩。

发明内容

本发明介绍相关于多层视频译码的技术，且更特定来说，介绍相关于多层视频译码的包含独立非基础层(INBL)的表示格式的方面的技术。本发明还介绍用于确定哪个SPS或PPS用于解译某些SEI消息及存取单元定界符的技术。

在一个实例中，一种编码多层视频数据的方法包含：产生存取单元的第一图片的第一视频译码层(VCL)网络抽象层(NAL)单元，所述第一VCL NAL单元包括第一切片类型；产生所述存取单元的第二图片的第二VCL NAL单元，所述第二VCL NAL单元包括第二切片类型；及基于所述第一及第二切片类型产生存取单元定界符(AUD)NAL单元。

在另一实例中，一种用于编码多层视频数据的设备包含：用于产生存取单元的第一图片的第一视频译码层(VCL)网络抽象层(NAL)单元的装置，所述第一VCL NAL单元包括第一切片类型；用于产生所述存取单元的第二图片的第二VCL NAL单元的装置，所述第二VCL NAL单元包括第二切片类型；及用于基于所述第一及第二切片类型产生存取单元定界符(AUD)NAL单元的装置。

在另一实例中，一种存储指令的计算机可读存储媒体，所述指令在由一或多个处理器执行时致使所述一或多个处理器：产生存取单元的第一图片的第一视频译码层(VCL)网络抽象层(NAL)单元，所述第一VCL NAL单元包括第一切片类型；产生所述存取单元的第二图片的第二VCL NAL单元，所述第二VCL NAL单元包括第二切片类型；及基于所述第一及第二切片类型产生存取单元定界符(AUD)NAL单元。

在一个实例中，一种用于处理视频数据的装置包含：经配置以存储多层视频数据的位流的至少一部分的存储器，及经配置以进行以下操作的一或多个处理器：产生存取单元的第一图片的第一视频译码层(VCL)网络抽象层(NAL)单元，所述第一VCL NAL单元包括第一切片类型；产生所述存取单元的第二图片的第二VCL NAL单元，所述第二VCL NAL单元包括第二切片类型；及基于所述第一及第二切片类型产生存取单元定界符(AUD)NAL单元。

在附图及下文描述中阐述本发明的一或多个实例的细节。其它特征、目标及优势将从所述描述、图式及权利要求书显而易见。

附图说明

图1为说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。

图2为说明可实施本发明中描述的技术的实例视频编码器的框图。

图3为说明可实施本发明中描述的技术的实例视频解码器的框图。

图4为说明可实施本发明的一或多个方面的一个实例网络的框图。

图5为展示根据本发明的技术的实例方法的流程图。

图6为展示根据本发明的技术的实例方法的流程图。

图7为展示根据本发明的技术的实例方法的流程图。

图8为展示根据本发明的技术的实例方法的流程图。

具体实施方式

本发明包含用于应用在多层上下文中定义于高效率视频译码(HEVC)标准中的补充增强信息(SEI)消息的技术。在一些情况下，可用如下文提到的对HEVC标准的多层扩展(例如对HEVC的多视图视频译码扩展(MV-HEVC)或对HEVC的可缩放视频译码(SVC)扩展(SHVC))来执行所述技术。虽然将大体上使用HEVC术语描述本发明的技术，但本发明的技术未必限于任何特定视频译码标准，且可另外或替代地与对HEVC的其它扩展、其它多视图译码标准及/或其它多层视频译码标准一起使用。另外，除非另外陈述，否则应假定如下文所描述的本发明的技术可独立地或组合地应用。

视频数据的“层”可大体上指代具有至少一个共同特性(例如视图、分辨率、保真度、辅助表示或其类似者)的图片序列。举例来说，层可包含与多视图视频数据的特定视图(例如，透视图)相关联的视频数据。作为另一实例，层可包含与可缩放视频数据的特定层相关联的视频数据。因此，本发明可互换地参考视频数据的层及视图。也就是说，视频数据的视图可被称为视频数据的层，且反之亦然，且多个视图或多个可缩放层可以类似方式被称为多个层(例如，在多层译码系统中)。另外，多层编解码器(也被称为多层视频译码器或多层编码器-解码器)可指多视图编解码器或可缩放编解码器(例如，经配置以使用MV-HEVC、SHVC或另一多层译码技术来编码及/或解码视频数据的编解码器)。

图片可为帧或场，其中场是指帧的交替行(例如，偶数行或奇数行)，且其中帧是指两个场的组成物，例如偶数场(还被称作顶部场)及奇数场(还被称作底部场)。尽管本发明将大体上参考图片或帧描述技术，但应理解除非另外明确陈述，否则所描述技术也可适用于场。

HEVC标准大体上将层定义为皆具有特定nuh_layer_id值的网络抽象层(NAL)单元及相关联非视频译码层(VCL)NAL单元的集合，或具有阶层式关系的语法结构的集合中的一者。HEVC标准大体上将NAL单元定义为含有包含于NAL单元中的数据类型的指示，及含有呈原始字节序列有效负载(RBSP)形式的数据的字节的语法结构。语法元素“nuh_layer_id”识别NAL单元所属于的层。

多层位流可包含基础层及一或多个非基础层(例如，在SHVC中)或多个视图(例如，在MV-HEVC中)。在可缩放位流中，基础层可通常具有等于零的层识别符(例如，nuh_layer_id)。非基础层可具有大于零的层识别符且可提供不包含于基础层中的额外视频数据。举例来说，多视图视频数据的非基础层可包含视频数据的额外视图。可缩放视频数据的非基础层可包含可缩放视频数据的额外层。非基础层可以可互换地称为增强层。

多层位流的存取单元(有时简称为AU)通常为包含共同时间个例的所有层分量(例如，所有NAL单元)的数据单元。存取单元的层分量通常意图一起输出(即，实质上同时输出)，其中输出图片大体上涉及从经解码图片缓冲器(DPB)传送图片(例如，将来自DPB的图片存储到外部存储器、将来自DPB的图片发送到显示器或其类似者)。包含SHVC及MV-HEVC扩展的HEVC标准大体上将存取单元定义为根据指定分类规则彼此相关联、在解码次序上连续，且含有至多一个具有任何特定nuh_layer_id值的经译码图片的NAL单元的集合。除含有经译码图片的VCL NAL单元之外，存取单元还可含有非VCL NAL单元。存取单元的解码带来至多一个具有任何特定nuh_layer_id值的经解码图片。存取单元的一定序列可被称为经译码视频序列(CVS)。

含有视频数据的经编码表示的位流可包含一系列NAL单元。NAL单元可包含VCLNAL单元及非VCL NAL单元。VCL NAL单元可包含图片的经译码切片。非VCL NAL单元可(例如)囊封其它信息，例如视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、一或多个SEI消息或其它类型的数据。

位流的NAL单元可与所述位流的不同层相关联。在SHVC中，如上文所提到，不同于基础层的层可被称为“增强层”，且可包含改善视频数据的重放质量的数据。在多视图译码及3维视频(3DV)译码(例如MV-HEVC)中，层可包含与不同视图相关联的数据。位流的每一层与不同层识别符相关联。

另外，NAL单元可包含时间识别符。位流的每一操作点具有层识别符的集合及一时间识别符。如果NAL单元指定层识别符集合中的一层识别符用于操作点，且NAL单元的时间识别符小于或等于操作点的时间识别符，则所述NAL单元与所述操作点相关联。

在H.264/AVC及HEVC两者中皆支持的SEI机制使得视频编码器能够在位流中包含视频解码器或其它装置正确解码输出图片的样本值所不需要，但可用于各种其它目的(例如图片输出时序、显示，以及丢失检测及隐藏)的元数据。囊封一或多个SEI消息的NAL单元在本文中称为SEI NAL单元。SEI消息的一种类型为可缩放嵌套SEI消息。可缩放嵌套SEI消息为含有一或多个额外SEI消息的SEI消息。可缩放嵌套SEI消息可用以指示SEI消息是否适用于多层位流的特定层或时间子层。不含有于可缩放嵌套SEI消息中的SEI消息在本文中称为非嵌套SEI消息。

某些类型的SEI消息含有仅适用于特定操作点的信息。位流的操作点与层识别符的集合及一时间识别符相关联。操作点表示可包含与操作点相关联的每一NAL单元。操作点表示可具有与原始位流不同的帧速率及/或位速率。这是因为操作点表示可能不包含原始位流的一些图片及/或一些数据。

本发明进一步包含相关于存取单元定界符(AUD)NAL单元的技术。根据HEVC标准，AUD NAL单元可用于指示存在于经译码图片中的切片类型并简化存取单元之间的边界检测。不存在与存取单元定界符相关联的规范性解码过程。

如下文将更详细地解释，指示视频数据的表示格式、确定哪个SPS或PPS用于解译某些SEI消息，及解译AUD NAL单元在多层视频中呈现单层视频中不存在的若干挑战。本发明介绍可解决那些挑战的技术。

图1为说明可利用本发明中描述的技术的实例视频编码及解码系统10的框图。系统10可经配置以编码、囊封、发射、解封及解码多层视频数据。如图1中所展示，系统10包含源装置12，其产生稍后待由目的地装置14解码的经编码视频数据。源装置12及目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型(即，膝上型)计算机、平板计算机、机顶盒、无线/蜂窝式电话手持机(例如所谓的“智能”电话、所谓的“智能”平板)、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或其类似者。在一些情况下，可装备源装置12及目的地装置14以用于无线通信。

目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，链路16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。可根据通信标准(例如无线通信协议)调制经编码视频数据，并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成分组网络(例如局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。通信媒体还可形成蜂窝式或移动网络的部分，且源装置12及目的地装置14可经配置以使用蜂窝式通信标准(例如GSM网络、CDMA网络、LTE网络或其它此网络)通信。

替代地，可将经编码数据从输出接口22输出到存储装置32。类似地，可由输入接口从存储装置32存取经编码数据。存储装置32可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中，存储装置32可对应于可保存由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由串流或下载从存储装置32存取所存储的视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络连接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)存取经编码视频数据。这可包含适于存取存储在文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)，或两者的组合。经编码视频数据从存储装置32的发射可为串流发射、下载发射或两者的组合。

本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者，例如空中电视广播、有线电视发射、卫星电视发射、串流视频发射(例如，经由因特网)、编码数字视频以存储于数据存储媒体上、解码存储于数据存储媒体上的数字视频，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频发射，以支持例如视频串流、视频重放、视频广播及/或视频电话的应用。

在图1的实例中，源装置12包含视频源18、视频编码器20、囊封单元21及输出接口22。在一些情况下，输出接口22可包含调制器/解调器(调制解调器)及/或发射器。在源装置12中，视频源18可包含例如视频俘获装置(例如，摄像机)、含有先前所俘获视频的视频存档、用以从视频内容提供者接收视频的视频馈入接口，及/或用于将计算机图形数据产生为源视频的计算机图形系统的源，或此类源的组合。作为一个实例，如果视频源18为摄像机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而，本发明中所描述的技术一般来说可适用于视频译码，且可应用于无线及或有线应用。

所俘获、所预俘获或计算机产生的视频可由视频编码器20编码。囊封单元21可形成多媒体内容的一或多个表示，其中所述表示中的每一者可包含一或多个层。在一些实例中，视频编码器20可以不同方式编码每一层，例如，用不同帧速率、不同位速率、不同分辨率或其它此类差异。因此，囊封单元21可形成具有各种特性(例如，位速率、帧速率、分辨率及其类似者)的各种表示。

所述表示中的每一者可对应于可由目的地装置14检索的相应位流。囊封单元21可提供用于包含于每一表示中(例如，多媒体内容的媒体呈现描述(MPD)数据结构内)的视图的一系列视图识别符(view_ids)的指示。举例来说，囊封单元21可提供用于一表示的视图的最大视图识别符及最小视图识别符的指示。MPD可进一步提供用于多媒体内容的多个表示中的每一者的以输出为目标的最大视图数目的指示。在一些实例中，MPD或其数据可存储于用于表示的清单(manifest)中。

可经由源装置12的输出接口22将经编码视频数据直接发射到目的地装置14。经编码视频数据还可(或替代地)存储到存储装置32上以供稍后由目的地装置14或其它装置存取以用于解码及/或重放。

目的地装置14包含输入接口28、解封单元29、视频解码器30及显示装置31。在一些情况下，输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或在存储装置32上提供的经编码视频数据可包含由视频编码器20产生的多种语法元素，以用于由视频解码器(例如视频解码器30)在解码视频数据时使用。此类语法元素可与在通信媒体上发射、存储于存储媒体上或存储于文件服务器上的经编码视频数据包含在一起。

目的地装置14的解封单元29可表示从位流(或位流的子集，在多层译码的上下文中被称作操作点)解封SEI消息的单元。解封单元29可以相反于由囊封单元21执行的次序执行操作以从经囊封的经编码位流解封例如SEI消息的数据。

显示装置31可与目的地装置14集成或在目的地装置14外部。在一些实例中，目的地装置14可包含集成式显示装置，且还经配置以与外部显示装置介接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置31将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地在软件中实施所述技术时，装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中，且使用一或多个处理器在硬件中执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的部分。

尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当的多路复用器-多路分用器单元或其它硬件及软件以处置共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中，如果适用，则多路复用器-多路分用器单元可符合ITU H.223多路复用器协议，或例如用户数据报协议(UDP)的其它协议。

本发明通常可指视频编码器20将某些信息“用信号通知”到另一装置，例如视频解码器30。术语“用信号通知”可大体上指传达用以解码经压缩视频数据的语法元素及/或其它数据。此传达可实时或几乎实时发生。替代地，此传达可经过一段时间后发生，例如可在编码时以经编码位流将语法元素存储到计算机可读存储媒体时发生，解码装置接着可在所述语法元素存储到此媒体之后的任何时间处检索所述语法元素。

在一些实例中，视频编码器20及视频解码器30根据视频压缩标准(例如ISO/IECMPEG-4 Visual及ITU-T H.264(也称为ISO/IEC MPEG-4 AVC)，包含其可缩放视频译码(SVC)扩展、多视图视频译码(MVC)扩展及基于MVC的3DV扩展)操作。在其它实例中，视频编码器20及视频解码器30可根据由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)开发的HEVC操作。

此外，正在致力于产生可缩放视频译码、多视图译码及HEVC的3DV扩展。HEVC的可缩放视频译码扩展可被称为SHVC。SHVC的最近工作草案(WD)(在下文中称为SHVC WD5或当前SHVC WD)描述于陈(Chen)等人的“高效率视频译码(HEVC)可缩放扩展草案5(HighEfficiency Video Coding(HEVC)scalable extension draft 5)”(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)，文档JCTVC-P1008_v4，第16次会议，圣何塞，2014年1月)中。MV-HEVC的最近工作草案(WD)(在下文中称为MV-HEVC WD7或当前MV-HEVC WD)描述于泰科(Tech)等人的“MV-HEVC草案文本7(MV-HEVC Draft Text7)”(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)，文档JCTVC-G1004_v7，第16次会议，圣何塞，2014年1月)中。

在HEVC及其它视频译码规范中，视频序列通常包含一系列图片。图片也可被称作“帧”。图片可包含三个样本阵列，表示为S_L、S_Cb及S_Cr。S_L是明度样本的二维阵列(即，块)。S_Cb是Cb色度样本的二维阵列。S_Cr是Cr色度样本的二维阵列。色度样本在本文中还可被称为“色度(chroma)”样本。在其它情况下，图片可为单色的且可仅包含明度样本阵列。

为了产生图片的经编码表示，视频编码器20可产生译码树单元(CTU)的集合。CTU中的每一者可包括明度样本的译码树块、色度样本的两个对应译码树块，及用以对译码树块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中，CTU可包括单个译码树块及用于对译码树块的样本进行译码的语法结构。译码树块可为样本的NxN块。CTU也可被称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可广泛地类似于例如H.264/AVC的其它标准的宏块。然而，CTU未必限于特定大小，且可包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续排序的整数数目个CTU。

为了产生经译码CTU，视频编码器20可在CTU的译码树块上以递归方式执行四叉树分割，以将译码树块划分为译码块，因此命名为“译码树单元”。译码块可为样本的NxN块。CU可包括具有明度样本阵列、Cb样本阵列及Cr样本阵列的图片的明度样本的译码块及色度样本的两个对应译码块，及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中，CU可包括单个译码块及用以对译码块的样本进行译码的语法结构。

视频编码器20可将CU的译码块分割为一或多个预测块。预测块是应用同一预测的样本的矩形(即，正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块及用以预测预测块的语法结构。在单色图片或具有三个单独颜色平面的图片中，PU可包括单个预测块及用以预测预测块的语法结构。视频编码器20可产生用于CU的每一PU的明度预测块、Cb预测块及Cr预测块的预测性明度块、Cb块及Cr块。

视频编码器20可使用帧内预测或帧间预测来产生PU的预测性块。如果视频编码器20使用帧内预测产生PU的预测性块，则视频编码器20可基于与PU相关联的图片的经解码样本来产生PU的预测性块。如果视频编码器20使用帧间预测产生PU的预测性块，则视频编码器20可基于除与PU相关联的图片以外的一或多个图片的经解码样本产生PU的预测性块。

在视频编码器20产生CU的一或多个PU的预测性明度、Cb及Cr块之后，视频编码器20可产生CU的明度残余块。CU的明度残余块中的每一样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中的对应样本之间的差异。另外，视频编码器20可产生CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中的对应样本之间的差异。视频编码器20还可产生CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差异。

此外，视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残余块分解成一或多个明度、Cb及Cr变换块。变换块是应用同一变换的样本的矩形(例如，正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块及用以对变换块样本进行变换的语法结构。因此，CU的每一TU可与明度变换块、Cb变换块及Cr变换块相关联。与TU相关联的明度变换块可为CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独颜色平面的图片中，TU可包括单个变换块及用以对变换块的样本进行变换的语法结构。

视频编码器20可将一或多个变换应用到TU的明度变换块以产生TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用到TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用到TU的Cr变换块以产生TU的Cr系数块。

在产生系数块(例如，明度系数块、Cb系数块或Cr系数块)之后，视频编码器20可量化系数块。量化大体上是指对变换系数进行量化以可能减少用以表示变换系数的数据的量从而提供进一步压缩的过程。在视频编码器20量化系数块之后，视频编码器20可对指示经量化变换系数的语法元素进行熵编码。举例来说，视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。

视频编码器20可输出包含形成经译码图片及相关联数据的表示的位序列的位流。位流可包括一序列NAL单元。NAL单元为含有NAL单元中的数据类型的指示，及含有呈视需要散置有仿真防止位的RBSP形式的数据的字节的语法结构。NAL单元中的每一者包含NAL单元标头且囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下，RBSP包含零个位。

不同类型的NAL单元可囊封不同类型的RBSP。举例来说，第一类型的NAL单元可囊封PPS的RBSP，第二类型的NAL单元可囊封经译码切片的RBSP，第三类型的NAL单元可囊封SEI消息的RBSP等等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相反)的NAL单元可被称作VCL NAL单元。

视频解码器30可接收由视频编码器20产生的位流。另外，视频解码器30可解析位流以获得来自位流的语法元素。视频解码器30可至少部分地基于从位流获得的语法元素重建构视频数据的图片。用以重建构视频数据的过程通常可与由视频编码器20执行的过程互逆。另外，视频解码器30可反量化与当前CU的TU相关联的系数块。视频解码器30可对系数块执行反变换以重建构与当前CU的TU相关联的变换块。通过将用于当前CU的PU的预测性块的样本添加到当前CU的TU的变换块的对应样本，视频解码器30可重建构当前CU的译码块。通过重建构图片的每一CU的译码块，视频解码器30可重建构图片。

在多视图译码中，可存在来自不同视角的同一场景的多个视图。如上文所提到，存取单元包含对应于相同时间个例的图片集合。因此，视频数据可经概念化为随时间出现的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中，“视图”可指与相同视图识别符相关联的一序列视图分量。视图分量的实例类型包含纹理视图分量及深度视图分量。

多视图译码支持视图间预测。视图间预测类似于用于HEVC中的帧间预测且可使用相同语法元素。然而，当视频译码器对当前视频单元(例如PU)执行视图间预测时，视频编码器20可使用与当前视频单元在同一存取单元中但在不同视图中的图片作为参考图片。相反地，常规的帧间预测仅使用不同存取单元中的图片作为参考图片。

在多视图译码中，如果视频解码器(例如，视频解码器30)可在不参考任何其它视图中的图片的情况下解码视图中的图片，则视图可被称为“基础视图”。当对非基础视图中的一者中的图片进行译码时，视频译码器(例如视频编码器20或视频解码器30)可在图片与视频译码器当前正译码的图片处于不同视图中但在同一时间个例(即，存取单元)内的情况下将所述图片添加到参考图片列表中。如同其它帧间预测参考图片，视频译码器可在参考图片列表的任何位置处插入视图间预测参考图片。

在H.264/AVC及HEVC两者中皆支持的SEI机制使得视频编码器(例如，视频编码器20)能够在位流中包含正确解码输出图片的样本值所不需要，但可用于各种其它目的(例如图片输出时序、显示，以及丢失检测及隐藏)的元数据。视频编码器20可使用SEI消息以在位流中包含正确解码图片的样本值所不需要的元数据。然而，视频解码器30或其它装置可使用包含于SEI消息中的元数据用于各种其它目的。举例来说，视频解码器30或另一装置可使用SEI消息中的元数据用于图片输出时序、图片显示、丢失检测及误差隐藏。

视频编码器20可产生用于包含在存取单元中的一或多个SEI NAL单元。换句话说，任何数目个SEI NAL单元可与一存取单元相关联。此外，每一SEI NAL单元可含有一或多个SEI消息。也就是说，视频编码器可在一存取单元中包含任何数目个SEI NAL单元，且每一SEI NAL单元可含有一或多个SEI消息。SEI NAL单元可包含NAL单元标头及有效负载。SEINAL单元的NAL单元标头至少包含第一语法元素及第二语法元素。第一语法元素指定SEINAL单元的层识别符。第二语法元素指定SEI NAL单元的时间识别符。

嵌套SEI消息是指含有于可缩放嵌套SEI消息中的SEI消息。非嵌套SEI消息是指不含于可缩放嵌套SEI消息中的SEI消息。SEI NAL单元的有效负载可包括嵌套SEI消息或非嵌套SEI消息。

HEVC标准描述用于各种类型SEI消息的语法及语义。然而，HEVC标准不描述SEI消息的处置，这是因为SEI消息并不影响规范性解码过程。在HEVC标准中具有SEI消息的一个原因是使得补充数据能够在使用HEVC的不同系统中相同地解译。使用HEVC的规范及系统可能需要视频编码器产生某些SEI消息或可定义特定类型的所接收SEI消息的特定处置。

下文表1列出在HEVC中指定的SEI消息且简要描述其目的：

表1-SEI消息的概述

如上文所介绍，本发明介绍相关于多层视频译码的技术，且更特定来说介绍相关于多层视频译码的包含独立非基础层(INBL)的表示格式、哪个SPS或PPS用于解译某些SEI消息及AUD NAL单元的处理的方面的技术。

视频编码器20可经配置以产生多层视频数据，且视频解码器30可经配置以解码多层视频数据。多层视频数据可包含基础层以及一或多个非基础层。非基础层可包含取决于其它层以用于解码的相依性基础层，及不取决于其它层以用于解码的INBL两者。INBL在多层视频译码中的现有实施方案包含一些潜在问题。

作为现有实施方案的潜在问题的一个实例，具有大于0的层识别符(例如，nuh_layer_id)的层不论其是否为INBL都使用VPS中用信号通知的表示格式。表示格式包含例如宽度、高度、位深度及颜色格式的参数。如果参考具有等于1的V1CompatibleSPSFlag或等于0的nuh_layer_id的SPS的INBL待重写为HEVC版本1兼容基础层(例如，如JCTVC-R0010v3/JCT3V-I0010v3中的AHG10输出文本中所指定(http://phenix.int-evry.fr/jct/doc_end_user/documents/18_Sapporo/wg11/JCTVC-R0010-v3.zip))，在来自VPS的所使用表示格式不同于SPS中用信号通知的表示格式(对于参数中的任一者)时，则重写过程需要改变SPS使得表示格式相同于来自VPS的所使用表示格式。此要求可迫使重写整个SPS，此操作可使INBL到HEVC版本1兼容基础层的整个重写过程明显较复杂。

当V1CompatibleSPSFlag等于1时，SPS与HEVC版本1中所指定的SPS语法兼容且可由根据HEVC版本1实施的旧版HEVC解码器解析。当V1CompatibleSPSFlag等于0时，SPS不与HEVC版本1中所指定的SPS语法兼容且无法由根据HEVC版本1实施的旧版HEVC解码器解析。

本发明介绍可解决上文所描述问题的若干技术。作为一个实例，视频编码器20可经配置以编码多层视频，使得来自VPS的所使用表示格式与SPS中针对INBL用信号通知的表示格式相同。另外或替代地，对于仅包含INBL的位流分区中所含有的INBL，所指定表示格式为作用中SPS中用信号通知的表示格式。另外或替代地，对于任何INBL，所指定表示格式可为作用中SPS中针对所述层用信号通知的表示格式。

作为多层视频的现有实施方案的潜在问题的另一实例，例如当SEI消息为嵌套式时，SEI消息可适用于多个层或与含有多个层的(输出)层集合相关联的(输出)操作点。在此情况下，可存在多个作用中SPS及多个作用中PPS。举例来说，对于每一层可存在作用中SPS及作用中PPS，此情况可使将一些SEI消息应用到哪种PPS或SPS不明确。

举例来说，在帧场信息SEI消息中的ffinfo_source_scan_type的语义中参考旗标“general_progressive_source_flag”及“general_interlaced_source_flag”。这两个旗标位于可在作用中SPS中的每一者中的特征、阶层及层级(PTL)语法结构中，且旗标的多个个例也可存在于VPS中。因此，当将帧场信息SEI消息应用到多个层时，应阐明应用含有两个旗标的哪种PTL语法结构。用于帧场信息SEI消息中的ffinfo_pic_struct及ffinfo_duplicate_flag的语义中的SPS旗标“field_seq_flag”存在类似问题。

为潜在地解决上文所描述问题，本发明介绍可要求field_seq_flag的值对于应用帧场信息SEI消息的层的所有作用中SPS相同的编码限制。另外或替代地，本发明介绍如果field_seq_flag的值对于所述层的所有作用中SPS并不相同，则可要求应用到层集合的帧场信息SEI消息不存在的编码限制。在HEVC中，field_seq_flag等于1指示CVS输送表示场的图片，且指定图片时序SEI消息将存在于当前CVS的每一存取单元中。在HEVC中，field_seq_flag等于0指示CVS输送表示帧的图片，且图片时序SEI消息可能存在于或可能不存在于当前CVS的任何存取单元中。

类似地，对于旗标“general_progressive_source_flag”及“general_interlaced_source_flag”，本发明介绍可要求所述旗标对于适用于含有应用帧场信息SEI消息的层的位流分区的所有PTL语法结构分别相同的编码限制。根据HEVC，general_progressive_source_flag及general_interlaced_source_flag如下解译：

-如果general_progressive_source_flag等于1且general interlaced_source_flag等于0，则CVS中的图片的源扫描类型应解译为仅渐进式。

-否则，如果general_progressive_source_flag等于0且general_interlaced_source_flag等于1，则CVS中的图片的源扫描类型应解译为仅交错式。

-否则，如果general_progressive_source_flag等于0且general_interlaced_source_flag等于0，则CVS中的图片的源扫描类型应解译为未知或未指定。

否则(general_progressive_source_flag等于1且general_interlaced_source_flag等于1)，使用图片时序SEI消息中的语法元素source_scan_type在图片层级处指示CVS中的每一图片的源扫描类型。类似限制也可应用于其它SEI消息的语法元素。对于应用于多个层或多个(输出)层集合的任何SEI消息seiA，当为seiA的部分的任何语法元素的语义中涉及并非seiA的部分的任何语法元素的多个个例时，要求并非seiA的部分的语法元素的值对于所有个例相同。因此，如果视频编码器20确定SEI消息应用于多层视频数据的多于一个层，且确定SEI消息参考具有与多层视频数据的多于一个层相关联的多个个例的语法元素，则视频编码器20将所有多个个例设定为相同值。所述语法元素可为field_seq_flag语法元素、general_progressive_source_flag语法元素、general_interlaced_source_flag语法元素或本文中所描述的任何其它此语法元素中的任一者。

如上文所介绍，本发明还介绍相关于AUD NAL单元的若干技术，当结合多层视频使用时，AUD NAL单元在目前实施时具有一些潜在缺点。AUD NAL单元中的语法元素“pic_type”的语义在例如多层位流的多层上下文中可能不明确。多层上下文中的存取单元可含有一或多个经译码图片，而pic_type的语义表示其可用于指示存在于“经译码图片”中的切片类型。因此，在多层视频上下文中，在存取单元中可能存在多于一个图片的情况下，当前语义不明确。

为解决此潜在缺点，本发明提议如下改变AUD NAL单元语义。存取单元定界符RBSP语义如下改变(其中带下划线的文本为新添且[[加方括号的文本]]经移除)。

存取单元定界符可用于指示存在于含有存取单元定界符NAL单元的存取单元中的[[一]]所有经译码图片中的切片类型，并简化存取单元之间的边界检测。不存在与存取单元定界符相关联的规范性解码过程。

pic_type指示针对含有存取单元定界符NAL单元的存取单元中的经译码图片的所有切片的slice_type值为表7-2中针对pic_type的给定值列出的集合中的成员。pic_type的值在符合本规范的此版本的位流中将等于0、1或2。pic_type的其它值保留用于未来由ITU-T|ISO/IEC使用。符合本规范的此版本的解码器将忽略pic_type的保留值。pic_type的值在符合本规范的此版本的位流中将等于0、1或2。pic_type的其它值保留用于未来由ITU-T|ISO/IEC使用。符合本规范的此版本的解码器将忽略pic_type的保留值。

表7-2-pic_type的解译

pic_type	可存在于经译码图片中的slice_type值
		0	I
1	P,I
		2	B,P,I

替代地，pic_type的语义可经修改，使得pic_type的值指示针对具有等于存取单元定界符NAL单元的nuh_layer_id的nuh_layer_id的存取单元中的经译码图片的所有切片的slice_type值为表7-2中针对pic_type的给定值列出的集合中的成员。

多层视频译码的现有实施方案还具有相关于处理具有等于除了0的nuh_layer_id的AUD NAL单元的一些潜在问题。举例来说，HEVC版本1规范具有以下约束条件：

当存取单元定界符NAL单元存在时，其将为第一NAL单元。任何存取单元中将至多存在一个存取单元定界符NAL单元。

此约束条件适用于HEVC版本1规范。然而，当多层位流含有具有大于0的nuh_layer_id的AUD NAL单元时，此AUD NAL单元不应由版本1解码器视为新存取单元的开始。在未能如此操作情况下，解码器将看到空的存取单元，这是由于其将不能辨识具有大于0的nuh_layer_id的任何NAL单元并将所述位流视为不符合，即使可以其它方式解码此多层位流的基础层也如此。

根据本发明的技术，AUD NAL单元的约束条件可如下修改(其中带下划线的文本为新添)：

当具有等于0的nuh_layer_id的存取单元定界符NAL单元存在时，其将为第一NAL单元。任何存取单元中将存在至多一个具有等于0的nuh_layer_id的存取单元定界符NAL单元。

替代地，约束条件如下修改：

当具有等于0的nuh_layer_id的存取单元定界符NAL单元存在时，其将为第一NAL单元。任何存取单元中将至多存在一个存取单元定界符NAL单元。因此，根据本发明的技术，对于第一存取单元，视频编码器20可产生具有值等于零的层识别符值(例如，nuh_layer_id)的第一AUD NAL单元，且对于第一存取单元，产生具有大于零的层识别符的后续AUD NAL单元。对于第一存取单元，视频解码器30可接收具有等于0的层识别符的第一AUD NAL单元，且对于第一存取单元，所述视频解码器可接收具有大于零的层识别符的后续AUD NAL单元。在第一存取单元中，第二AUD NAL单元在第一AUD NAL单元及至少一个VCL NAL单元之后。

图2为说明可实施本发明中描述的技术的实例视频编码器20的框图。出于解释的目的而提供图2，且不应将其视为对如本发明中所广泛例示及描述的技术的限制。出于解释的目的，本发明描述在HEVC译码的上下文中的视频编码器20。然而，本发明的技术可适用于其它译码标准或方法。

视频编码器20可经配置以将视频输出到后处理实体27，所述后处理实体为可实施本发明中描述的技术的另一实例装置。后处理实体27意图表示视频实体的实例，例如具有媒体知识的网络元件(MANE)、剪接/编辑装置或可处理来自视频编码器20的经编码视频数据的另一中间装置。在一些情况下，后处理实体27可为网络实体的实例。在一些视频编码系统中，后处理实体27及视频编码器20可为单独装置的各部分，而在其它情况下，关于后处理实体27所描述的功能性可由包括视频编码器20的相同装置执行。

视频编码器20可执行视频切片内的视频块的帧内及帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的压缩模式中的任一者。

在图2的实例中，视频编码器20包含视频数据存储器33、分割单元35、预测处理单元41、滤波器单元63、经解码图片缓冲器(DPB)64、求和器50、变换处理单元52、量化单元54及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。为进行视频块重建构，视频编码器20还包含反量化单元58、反变换处理单元60及求和器62。滤波器单元63意图表示一或多个环路滤波器，例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图2中将滤波器单元63展示为环路内滤波器，但在其它配置中，可将滤波器单元63实施为环路后滤波器。

如图2中所展示，视频编码器20接收视频数据并将所接收视频数据存储于视频数据存储器33中。视频数据存储器33可存储待由视频编码器20的组件编码的视频数据。存储于视频数据存储器33中的视频数据可(例如)从视频源18获得。DPB 64可为存储用于由视频编码器20(例如)在帧内或帧间译码模式中编码视频数据的参考视频数据的参考图片存储器。视频数据存储器33及DPB 64可由多种存储器装置中的任一者形成，例如包含同步DRAM(SDRAM)的动态随机存取存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)，或其它类型的存储器装置。视频数据存储器33及DPB 64可由同一存储器装置或单独存储器装置提供。在各种实例中，视频数据存储器33可与视频编码器20的其它组件一起在芯片上，或相对于那些组件在芯片外。

分割单元35从视频数据存储器33检索视频数据并将视频数据分割成视频块。此分割还可包含分割成切片、图块或其它较大单元，以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20一般说明编码待编码的视频切片内的视频块的组件。所述切片可划分成多个视频块(且可能划分成被称作图块的视频块集合)。预测处理单元41可基于误差结果(例如，译码速率及失真水平)针对当前视频块选择多种可能译码模式中的一者，例如多种帧内译码模式中的一者或多种帧间译码模式中的一者。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据，并提供到求和器62以重建构经编码块以用作参考图片。

预测处理单元41内的帧内预测处理单元46可相对于与待译码的当前块在相同帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测性块执行当前视频块的帧间预测性译码以提供时间压缩。

运动估计单元42可经配置以根据用于视频序列的预定图案来确定用于视频切片的帧间预测模式。预定图案可将序列中的视频切片指定为P切片或B切片。运动估计单元42及运动补偿单元44可高度集成，但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程，所述过程评估视频块的运动。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的移位。

预测性块是被发现在像素差方面与待译码视频块的PU密切匹配的块，所述像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中，视频编码器20可计算存储于DPB 64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索并输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。可从第一参考图片列表(列表0)或第二参考图片列表(列表1)来选择参考图片，所述列表中的每一者识别存储在DPB 64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56及运动补偿单元44。

通过运动补偿单元44执行的运动补偿可涉及基于通过运动估计(可能执行对子像素精度的内插)确定的运动向量提取或产生预测性块。在接收到当前视频块的PU的运动向量之后，运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测性块。视频编码器20通过从正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块，从而形成像素差值。像素差值形成用于所述块的残余数据，且可包含明度及色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。

作为如上文所描述的由运动估计单元42及运动补偿单元44执行的帧间预测的替代方案，帧内预测处理单元46可对当前块进行帧内预测。具体来说，帧内预测处理单元46可确定用以编码当前块的帧内预测模式。在一些实例中，帧内预测处理单元46可例如在单独的编码遍次期间使用各种帧内预测模式编码当前块，且帧内预测处理单元46(或在一些实例中为模式选择单元40)可从所测试模式中选择适当帧内预测模式来使用。举例来说，帧内预测处理单元46可使用速率失真分析计算各种经测试帧内预测模式的速率失真值，并在所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)量，以及用于产生经编码块的位速率(即，位数目)。帧内预测处理单元46可从用于各种经编码块的失真及速率计算比率，以确定哪个帧内预测模式对于所述块展现最佳速率失真值。

在任何情况下，在选择用于块的帧内预测模式之后，帧内预测处理单元46可将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可根据本发明的技术编码指示选定帧内预测模式的信息。视频编码器20在所发射的位流中可包含配置数据，其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称为码字映射表)，各种块的编码上下文的定义，以及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。

在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后，视频编码器20通过从当前视频块减去预测性块来形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中并应用于变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似变换的变换将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域，例如频域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减少位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化的程度。在一些实例中，量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地，熵编码单元56可执行扫描。

在量化之后，熵编码单元56对经量化变换系数进行熵编码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在由熵编码单元56熵编码之后，经编码位流可发射到视频解码器30，或经存档以供稍后发射或由视频解码器30检索。熵编码单元56还可对正译码的当前视频切片的运动向量及其它语法元素进行熵编码。

反量化单元58及反变换处理单元60分别应用反量化及反变换来重建构像素域中的残余块，以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建构的残余块以计算用于运动估计的子整数像素值。求和器62将经重建构的残余块添加到由运动补偿单元44产生的运动补偿预测块，以产生用于存储在DPB 64中的参考块。参考块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。

根据本发明的方面，视频编码器20可经配置以确定补充增强信息(SEI)消息适用于多层视频数据的多于一个层，并确定SEI消息参考具有与多层视频数据的多于一个层相关联的多个个例的语法元素。在此类情况下，视频编码器20可将所有多个个例设定为同一值。

根据本发明的方面，视频编码器20还可经配置以产生存取单元的第一图片的第一VCL NAL单元。第一VCL NAL单元包含第一切片类型。视频编码器20可产生存取单元的第二图片的第二VCL NAL单元。第二VCL NAL单元包含第二切片类型。视频编码器20可基于第一及第二切片类型产生AUD NAL单元。

图3为说明可实施本发明中描述的技术的实例视频解码器30的框图。出于解释的目的而提供图3，且不应将其视为对如本发明中所广泛例示及描述的技术的限制。出于解释的目的，本发明描述在HEVC译码的上下文中的视频解码器30。然而，本发明的技术可适用于其它译码标准或方法。

在图3的实例中，视频解码器30包含熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90、滤波器单元91及参考图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测处理单元84。在一些实例中，视频解码器30可执行一般与关于图2的视频编码器20描述的编码遍次互逆的解码遍次。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块的经编码视频位流及相关联的语法元素。视频解码器30可从网络实体78接收经编码视频位流。网络实体78可例如为服务器、MANE、视频编辑器/剪接器，或经配置以实施上文所描述的技术中的一或多者的其它此装置。网络实体78可包含或可不包含例如视频编码器20的视频编码器。在网络实体78将经编码视频位流发射到视频解码器30之前，可由网络实体78实施本发明中描述的技术中的一些。在一些视频解码系统中，网络实体78与视频解码器30可为单独装置的部分，而在其它情况下，关于网络实体78描述的功能性可由包括视频解码器30的同一装置执行。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块的经编码视频位流及相关联的语法元素。视频解码器30将所接收经编码视频位流存储于视频数据存储器79中。视频数据存储器79可存储待由视频解码器30的组件解码的视频数据，例如经编码视频位流。存储于视频数据存储器79中的视频数据可(例如)经由链路16从存储装置26或从例如相机的本地视频源，或通过存取物理数据存储媒体获得。视频数据存储器79可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。DPB94可为存储用于由视频解码器30(例如)在帧内或帧间译码模式中解码视频数据的参考视频数据的参考图片存储器。视频数据存储器79及DPB 94可由多种存储器装置中的任一者形成，例如DRAM、SDRAM、MRAM、RRAM或其它类型的存储器装置。视频数据存储器79及DPB 94可由同一存储器装置或单独存储器装置提供。在各种实例中，视频数据存储器79可与视频解码器30的其它组件一起在芯片上，或相对于那些组件在芯片外。

视频解码器30的熵解码单元80对存储于视频数据存储器79中的视频数据进行熵解码以产生经量化系数、运动向量及其它语法元素。熵解码单元80将运动向量及其它语法元素转递到预测处理单元81。视频解码器30可在视频切片层级及/或视频块层级处接收语法元素。

当视频切片经译码为经帧内译码(I)切片时，预测处理单元81的帧内预测处理单元84可基于用信号通知的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即，B或P)切片时，预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储在参考图片存储器92中的参考图片使用默认建构技术建构参考帧列表：列表0及列表1。

运动补偿单元82通过解析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息，并使用所述预测信息产生用于经解码的当前视频块的预测性块。举例来说，运动补偿单元82使用所接收语法元素中的一些确定用以译码视频切片的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片或P切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态，及用以解码当前视频切片中的视频块的其它信息。

运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用如由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下，运动补偿单元82可从所接收语法元素确定由视频编码器20使用的内插滤波器并使用所述内插滤波器产生预测性块。

反量化单元86将提供于位流中且由熵解码单元80解码的经量化变换系数反量化(即，解量化)。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块所计算的量化参数来确定应当应用的量化程度并同样确定应当应用的反量化程度。反变换处理单元88将反变换(例如，反DCT、反整数变换或概念上类似的反变换过程)应用于变换系数，以便产生像素域中的残余块。

在运动补偿单元82基于运动向量及其它语法元素产生用于当前视频块的预测性块之后，视频解码器30通过将来自反变换处理单元88的残余块与由运动补偿单元82产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。在需要时，还可使用环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或以其它方式改善视频质量。

滤波器单元91意图表示一或多个环路滤波器，例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图3中将滤波器单元91展示为环路内滤波器，但在其它配置中，可将滤波器单元91实施为环路后滤波器。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中，所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频以用于稍后呈现在显示装置(例如图1的显示装置31)上。

根据本发明的方面，视频解码器30可经配置以接收包括多个层的经译码视频数据，所述多个层包含非INBL及INBL。视频解码器30可接收包含第一表示格式参数的与经译码视频数据相关联的VPS，并接收包含第二表示格式参数的与INBL相关联的SPS。视频解码器30可基于第一表示格式参数解码非INBL；并基于第二表示格式参数解码INBL。

图4为说明形成网络120的部分的实例装置集合的框图。在此实例中，网络120包含路由装置124A、124B(路由装置124)及转码装置126。路由装置124及转码装置126意图表示可形成网络120的部分的少量装置。例如交换机、集线器、网关、防火墙、桥接器及其它此类装置的其它网络装置也可包含在网络120内。此外，可沿着服务器装置122与客户端装置128之间的网络路径提供额外网络装置。在一些实例中，服务器装置122可对应于源装置12(图1)，而客户端装置128可对应于目的地装置14(图1)。

一般来说，路由装置124实施一或多个路由协议以通过网络120交换网络数据。在一些实例中，路由装置124可经配置以执行代理或高速缓存操作。因此，在一些实例中，路由装置124可称为代理装置。一般来说，路由装置124执行路由协议以通过网络120发现路线。通过执行此类路由协议，路由装置124B可经由路由装置124A发现从自身到服务器装置122的网络路线。路由装置124中的一或多者可包括使用本发明的一或多个方面的MANE。

举例来说，MANE可经配置以接收包含多个层的经译码视频数据，所述多个层包含非INBL及INBL。MANE可接收包含第一表示格式参数的与经译码视频数据相关联的VPS。MANE可接收包含第二表示格式参数的与INBL相关联的SPS。MANE可基于第一表示格式参数处理非INBL，并基于第二表示格式参数处理INBL。作为基于第二表示格式参数处理INBL的部分，所述操作包括MANE可基于第二表示格式参数将INBL重写为基础层。作为重写过程的部分，MANE将INBL转码(或变换)成(例如)与HEVC版本1兼容的基础层。MANE将INBL接收为输入并将输出反射到HEVC版本1解码器。

可由例如路由装置124及转码装置126的网络装置实施本发明的技术，且可由客户端装置128实施本发明的技术。以此方式，路由装置124、转码装置126及客户端装置128表示经配置以执行本发明的技术的装置的实例。此外，图1的装置以及图2中所说明的视频编码器20及图3中所说明的视频解码器30也为可经配置以执行本发明的技术的示范性装置。

图5为展示根据本发明的技术的处理多层视频数据的方法的流程图。将关于一般视频处理装置描述图5的技术。视频处理装置可(例如)对应于例如后处理实体27、网络实体78、视频解码器30、路由装置124或转码装置126的视频处理装置。视频处理装置接收包含非INBL及INBL的经译码视频数据(140)。视频处理装置接收针对经译码视频数据的包含第一表示格式参数的VPS(142)。视频处理装置接收包含第二表示格式参数的与INBL相关联的SPS(144)。视频处理设计者基于第一表示格式参数处理非INBL(146)，并基于第二表示格式参数处理INBL(148)。第一表示格式参数的表示格式参数的至少一个值可不同于第二表示格式参数的表示格式参数的至少一个值。

如果视频处理装置为MANE，则视频处理装置可通过基于第二表示格式参数将INBL重写为基础层来基于第二表示格式参数处理INBL。INBL可具有大于零的层识别(例如，nuh_layer_id)，且作为重写INBL的部分，视频处理装置可将INBL的层识别设定为0，从而因此创建具有等于0的层识别的基础层。从INBL重写的基础层可由并不支持多层视频的HEVC版本1解码器解码。

如果视频处理装置为视频解码器，则视频处理装置可通过解码INBL来基于第二表示格式参数处理INBL。在解码INBL之后，视频解码器可基于INBL及非INBL输出或显示经解码视频。

图6为展示根据本发明的技术的编码多层视频数据的方法的流程图。将关于视频编码器20描述图6的技术。视频编码器20确定SEI消息适用于多层视频数据的多于一个层(150)。视频编码器20确定SEI消息参考具有与多层视频数据的多于一个层相关联的多个个例的语法元素(152)。响应于SEI消息参考具有与多层视频数据的多于一个层相关联的多个个例的语法元素，视频编码器20将所有多个个例设定为同一值(154)。语法元素的多个个例可包含在与多层视频数据的第一层相关联的第一序列参数集中的语法元素的第一个例，及在与多层视频数据的第二层相关联的第二序列参数集中的语法元素的第二个例。所述语法元素可为field_seq_flag语法元素、general_progressive_source_flag语法元素或general_interlaced_source_flag语法元素中的任一者。

图7为展示根据本发明的技术的编码多层视频数据的方法的流程图。将关于视频编码器20描述图7的技术。视频编码器20产生存取单元的第一图片的第一VCL NAL单元(160)。第一VCL NAL单元包含第一切片类型。视频编码器20产生存取单元的第二图片的第二VCL NAL单元(162)。第二VCL NAL单元包含第二切片类型。视频编码器20基于第一及第二切片类型产生AUD NAL单元(164)。

视频编码器20可通过在AUD NAL单元中指示图片类型语法元素来产生AUD NAL单元，所述语法元素指示存取单元包含第一切片类型及第二切片类型两者。第一AUD NAL单元可用于识别存取单元与之前存取单元之间的边界。AUD NAL单元可另外或替代地用于指示存取单元中的所有图片的图片类型。第一切片类型及第二切片类型可选自由以下各者组成的群组：I切片、P切片及B切片，或第一切片类型及第二切片类型可选自由以下各者组成的群组：I切片及P切片。

图8为展示根据本发明的技术的编码多层视频数据的方法的流程图。将关于视频解码器30描述图8的技术。视频解码器30接收第一存取单元的第一AUD NAL单元(170)。第一AUD NAL单元的层识别符等于零。视频解码器30接收第一存取单元的第二AUD NAL单元(172)。第二AUD NAL单元的层识别符大于零。视频解码器30解码第一存取单元(174)。

第一存取单元中的第二AUD NAL单元可按解码次序在第一存取单元中在第一AUDNAL单元及至少一个视频译码层(VCL)NAL单元之后。第一AUD NAL单元可为第一存取单元中按解码次序的第一NAL单元。第一AUD NAL单元可识别第一存取单元与之前存取单元之间的边界。在一些实例中，第一存取单元中除了第一AUD NAL单元的其它AUD NAL单元皆不可能具有等于零的层识别符。

在一或多个实例中，所描述功能可以硬件、软件、固件，或其任何组合来实施。如果以软件实施，则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于例如数据存储媒体的有形媒体，或包含促进将计算机程序从一处传送到另一处的任何媒体(例如，根据通信协议)的通信媒体。以此方式，计算机可读媒体一般可对应于(1)有形计算机可读存储媒体，其为非暂时性的，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

借助于实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。并且，任何连接被恰当地称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源发射指令，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含在媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。上文各者的组合也应包含在计算机可读媒体的范围内。

可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可在经配置用于编码及解码的专用硬件及/或软件模块内提供，或并入在组合编解码器中。并且，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，包含无线手持机、集成电路(IC)或IC的集合(例如，芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开技术的装置的功能方面，但未必要求由不同硬件单元实现。实际上，如上文所描述，各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中，或通过互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

描述了各种实例。这些及其它实例属于以下权利要求书的范围内。

Claims

1.一种编码多层视频数据的方法，所述方法包括：

产生存取单元的第一图片的第一视频译码层VCL网络抽象层NAL单元，所述第一VCLNAL单元包括第一切片类型；

产生存取单元的第二图片的第二VCL NAL单元，所述第二VCL NAL单元包括第二切片类型；及

基于所述第一及第二切片类型产生存取单元定界符AUD NAL单元，其中所述AUD NAL单元的图片类型语法元素指示所述存取单元中的所有图片的切片类型，其中所述图片类型语法元素的值关联于包括所述第一切片类型及所述第二切片类型的切片类型集合。

2.根据权利要求1所述的方法，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片、P切片及B切片。

3.根据权利要求1所述的方法，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片及P切片。

4.根据权利要求1所述的方法，其中所述第一AUD NAL单元识别所述存取单元与之前存取单元之间的边界。

5.根据权利要求1所述的方法，所述方法可在无线通信装置上执行，其中所述无线通信装置包括：

存储器，其经配置以存储所述多层视频数据；

一或多个处理器，其经配置以执行指令来处理存储于所述存储器中的所述多层视频数据；

发射器，其经配置以发射所述多层视频数据。

6.根据权利要求5所述的方法，其中所述无线通信装置为蜂窝式电话，且所述发射器经配置以将所述多层视频数据发射为根据蜂窝式通信标准调制的数据。

7.一种用于处理视频数据的装置，所述装置包括：

存储器，其经配置以存储多层视频数据的位流的至少一部分；及

一或多个处理器，其经配置以：

8.根据权利要求7所述的装置，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片、P切片及B切片。

9.根据权利要求7所述的装置，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片及P切片。

10.根据权利要求7所述的装置，其中所述第一AUD NAL单元识别所述存取单元与之前存取单元之间的边界。

11.根据权利要求7所述的装置，其中所述装置为无线通信装置，其进一步包括；

发射器，其经配置以发射所述多层视频数据。

12.根据权利要求11所述的装置，其中所述无线通信装置包括蜂窝式电话，且其中所述发射器经配置以将所述多层视频数据发射为根据蜂窝式通信标准的调制数据。

13.一种用于编码多层视频数据的设备，所述设备包括：

用于产生存取单元的第一图片的第一视频译码层VCL网络抽象层NAL单元的装置，所述第一VCL NAL单元包括第一切片类型；

用于产生所述存取单元的第二图片的第二VCL NAL单元的装置，所述第二VCL NAL单元包括第二切片类型；及

用于基于所述第一及第二切片类型产生存取单元定界符AUD NAL单元的装置，其中所述AUD NAL单元的图片类型语法元素指示所述存取单元中的所有图片的切片类型，其中所述图片类型语法元素的值关联于包括所述第一切片类型及所述第二切片类型的切片类型集合。

14.根据权利要求13所述的设备，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片、P切片及B切片。

15.根据权利要求13所述的设备，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片及P切片。

16.根据权利要求13所述的设备，其中所述第一AUD NAL单元识别所述存取单元与之前存取单元之间的边界。

17.一种存储指令的计算机可读存储媒体，所述指令在由一或多个处理器执行时致使所述一或多个处理器：

18.根据权利要求17所述的计算机可读存储媒体，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片、P切片及B切片。

19.根据权利要求17所述的计算机可读存储媒体，其中所述第一切片类型及所述第二切片类型选自由以下各者组成的群组：I切片及P切片。

20.根据权利要求17所述的计算机可读存储媒体，其中所述第一AUD NAL单元识别所述存取单元与之前存取单元之间的边界。