CN106416259B

CN106416259B - 用于视频编码或视频解码的方法和装置

Info

Publication number: CN106416259B
Application number: CN201580030519.7A
Authority: CN
Inventors: 阿达许·克里许纳·瑞玛苏布雷蒙尼安; 伏努·亨利; 王益魁
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-06-20
Filing date: 2015-06-18
Publication date: 2019-06-21
Anticipated expiration: 2035-06-18
Also published as: KR20170020795A; US9716900B2; BR112016029691B1; EP3158761A1; BR112016029691A2; BR112016029691A8; KR101930152B1; CA2951522C; JP2017525225A; US20150373374A1; EP3158761C0; EP3158761B1; WO2015195888A1; CA2951522A1; JP6400741B2; CN106416259A

Abstract

在一实例中，一种用于视频译码的方法包含处理包括原始字节序列有效负载RBSP中的一或多个辅助增强信息SEI消息结构的SEI网络抽象层NAL单元，以使得一或多个SEI消息结构包含具有一或多个SEI消息的至少一个嵌套式SEI消息结构。在不同实施例中，处理所述SEI NAL单元，且对指示包括于所述至少一个嵌套式消息结构内的SEI消息的数目的语法元素进行译码。

Description

用于视频编码或视频解码的方法和装置

技术领域

本发明大体上涉及视频译码及压缩，且更确切地说涉及改进对嵌套式辅助增强信息(SEI)消息结构的解析。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏控制台、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施一或多种视频译码技术。视频装置可通过实施此些视频译码技术而更有效地发射、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含(但不限于)在由ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-TH.262或ISO/IEC MPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉及ITU-T H.264或ISO/IEC MPEG-4高级视频译码(AVC)(包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展)及相对新的高效视频译码(HEVC)标准定义的标准中所描述的技术。HEVC标准最近被国际电信联盟电信标准化部门(ITU-T)的视频译码专家组(VCEG)与由国际标准化组织(ISO)及国际电工委员会(IEC)形成的动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)定案。可从phenix.it-sudparis.eu/jct/doc_end_user/documents/17_Valencia/wg11/JCTVC-Q1003-v1.zip获得HEVC规范的最新工作草案(WD)(其被称作HEVC WD)。HEVC的多视图扩展(即MV-HEVC)也正由JCT-3V开发。下文中的最近MV-HEVC WD3的工作草案可从phenix.it-sudparis.eu/jct2/doc_end_user/documents/8_Valencia/wg11/JCT3V-H1002-v5.zip获得。被称为SHVC的对HEVC的可缩放扩展也正由JCT-VC开发。下文中被称作SHVC WD2的最近SHVC工作草案可从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/17_Valencia/wg11/JCTVC-Q1008-v2.zip获得。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说，视频切片(例如，视频帧或视频帧的一部分)可分割成视频块，视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

空间或时间预测导致对块的预测性块进行译码。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。根据帧内译码模式及残余数据来编码经帧内译码块。为了进一步压缩，可将残余数据从像素域变换到变换域，从而导致残余变换系数，接着可对残余变换系数进行量化。可扫描起初按二维阵列布置的经量化变换系数，以便产生变换系数的一维向量，且可应用熵译码以实现更多压缩。

发明内容

一般来说，本发明描述涉及改进对嵌套式辅助增强信息(SEI)消息结构解析的技术。下文所描述的各种技术提供用于在解析嵌套式SEI消息结构期间减少或消除解析误差的方法及装置。

在一实施例中，揭示一种用于视频译码的方法。所述方法包括：处理包括原始字节序列有效负载(RBSP)的SEI网络抽象层(NAL)单元，所述原始字节序列有效负载(RBSP)包括一或多个SEI消息结构，其中所述一或多个SEI消息结构包括具有一或多个SEI消息的至少一个嵌套式SEI消息结构；及写码指示包括于所述至少一个嵌套式SEI消息结构内的多个SEI消息的语法元素。

在另一实施例中，揭示一种用于视频译码的装置。所述装置包括经配置以存储视频数据的存储器及与所述存储器通信的处理器。所述处理器经配置以：处理与所述视频数据相关联的SEI NAL单元，其中所述SEI NAL单元包括RBSP，所述RBSP包括一或多个SEI消息结构，且其中所述一或多个SEI消息结构包括具有一或多个SEI消息的至少一个嵌套式SEI消息结构；及写码指示包括于所述至少一个嵌套式SEI消息结构内的多个SEI消息的语法元素。

在另一实施例中，揭示一种用于视频译码的装置。所述装置包括：用于处理与所述视频数据相关联的SEI NAL单元的装置，其中所述SEI NAL单元包括RBSP，所述RBSP包括一或多个SEI消息结构，且其中所述一或多个SEI消息结构包括具有一或多个SEI消息的至少一个嵌套式SEI消息结构；及用于写码指示包括于所述至少一个嵌套式SEI消息结构内的多个SEI消息的语法元素的装置。

在另一实施例中，揭示一种非暂时性计算机可读媒体。所述非暂时性计算机可读媒体具有存储在其上的指令，所述指令在执行时致使一或多个处理器进行以下操作：处理包括RBSP的SEI NAL单元，所述RBSP包括一或多个SEI消息结构，其中所述一或多个SEI消息结构包括具有一或多个SEI消息的至少一个嵌套式SEI消息结构；及写码指示包括于所述至少一个嵌套式SEI消息结构内的多个SEI消息的语法元素。

在这些实施例中的每一者中，所述至少一个嵌套式SEI消息结构可包括可缩放嵌套式SEI消息结构或位流分割嵌套式SEI消息结构中的一者。

另外或替代地，在这些实施例中的每一者中，写码所述语法元素可包括解码所述语法元素，且可基于所述经解码语法元素来确定包括于所述至少一个嵌套式SEI消息结构内的SEI消息的数目(例如，通过方法、处理器、装置及/或指令)。

另外或替代地，在这些实施例中的每一者中，可基于包括于所述至少一个嵌套式SEI消息结构内的SEI消息的所述所确定数目来解析所述至少一个嵌套式SEI消息结构(例如，通过方法、处理器、装置及/或指令)。

另外或替代地，在这些实施例中的每一者中，可从所述至少一个嵌套式SEI消息结构解码所述语法元素。

另外或替代地，在这些实施例中的每一者中，写码所述语法元素可包括编码所述语法元素，且可在编码所述语法元素之前确定包括于所述至少一个嵌套式SEI消息结构内的SEI消息的所述数目(例如，通过方法、处理器、装置及/或指令)。

另外或替代地，在这些实施例中的每一者中，将所述语法元素编码到所述至少一个嵌套式SEI消息结构中。

在附图及以下描述中阐述一或多个实例的细节，其并不意图限制本文中所描述的发明性概念的完整范围。其它特征、目标及优点将从所述描述及图式以及从权利要求书而显而易见。

附图说明

贯穿所述图式，参考数字可再使用以指示参考元件之间的对应关系。提供图式以说明本文中所描述的实例实施例，且并不意图限制本发明的范围。

图1是说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。

图2A是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。

图2B是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。

图3A是说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。

图3B是说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。

图4说明根据本发明中描述的方面的辅助增强信息(SEI)网络抽象层(NAL)单元的结构。

图5是说明根据本发明中描述的方面的视频译码过程的一部分的实例的框图。

图6是说明根据本发明中描述的方面的视频解码过程的一部分的实例的框图。

图7是说明根据本发明中描述的方面的视频编码过程的一部分的实例的框图。

图8是说明根据本发明中描述的方面的视频编码过程的一部分的实例的框图。

具体实施方式

一般来说，本发明涉及用于在高级视频编解码器的上下文中进行多层(或多视图)译码(例如高效视频译码(HEVC))的嵌套式辅助增强信息(SEI)消息。更确切地说，本发明中描述的技术涉及用于分别在解析嵌套式SEI消息结构期间减少或消除HEVC(即MV-HEVC及SHVC)的多视图及可缩放扩展中的解析误差的系统、设备及方法。

SEI NAL单元可包括原始字节序列有效负载(RBSP)结构，原始字节序列有效负载(RBSP)结构又可包括一或多个SEI消息结构。存在不同类型的SEI消息结构，其可包括于RBSP结构中。这些类型包含可含有一或多个SEI消息的嵌套式SEI消息结构。举例来说，可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构是嵌套式SEI消息结构的两种此类类型。

基于可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构的常规语法结构，解码器解析嵌套式SEI消息结构内的SEI消息直到字节位置等于RBSP结构的拖尾位中的值为1的第一位的位置为止。因此，如果嵌套式SEI消息结构在RBSP结构内的其它数据(即，除了RBSP的拖尾位以外的数据)之前，那么实施这些常规语法结构的解码器将试图将所其它数据解析成嵌套式SEI消息结构内的SEI消息，从而产生解析误差。

本文中所揭示的实施例通过修改嵌套式SEI消息(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)的常规语法结构来防止涉及嵌套式SEI消息结构的这些解析误差，以使得解码器可基于嵌套式SEI消息结构内的SEI消息的数目而非RBSP拖尾位来解析SEI消息。举例来说，可将对嵌套式SEI消息结构内的SEI消息的数目的指示编码为嵌套式SEI消息结构内的语法元素。可接着在解码期间使用此语法元素以确保仅解析SEI消息的数目。

虽然本文中在HEVC及/或H.264标准的上下文中描述某些实施例，但所属领域的技术人员可了解，本文中揭示的系统及方法可适用于任何合适的视频译码标准。举例来说，本文中所揭示的实施例可适用于以下标准中的一或多者：国际电信联盟(ITU)电信标准化部门(ITU-T)H.261、国际标准化组织/国际电工委员会(ISO/IEC)MPEG-1视觉、ITU-T H.262或ISO/IEC MPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉及ITU-T H.264(其也称为ISO/IEC MPEG-4AVC)，包含其可缩放及多视图扩展。且，本发明中描述的技术可变为将来开发的标准的一部分。换句话说，本发明中描述的技术可适用于先前开发的视频译码标准、当前正在开发的视频译码标准及即将出现的视频译码标准。

在许多方面中，HEVC通常遵循先前视频译码标准的框架。HEVC中的预测单元不同于某些先前视频译码标准中的预测单元(例如，宏块)。实际上，在HEVC中不存在如在某些先前视频译码标准中所理解的宏块的概念。宏块由基于四叉树方案的分层结构替换，分层结构可提供高灵活性以及其它可能益处。举例来说，在HEVC方案内，定义三个类型的块：译码单元(CU)、预测单元(PU)及变换单元(TU)。CU可指区分裂的基本单元。可将CU视为类似于宏块的概念，但HEVC不限定CU的最大大小，且可允许递归分裂成四个相等大小的CU以改进内容适应性。可将PU认为是帧间/帧内预测的基本单元，且单个PU可含有多个任意形状分区以有效地译码不规则图像图案。可将TU认为是变换的基本单元。可独立于PU界定TU；然而，TU的大小可受限于所述TU所属的CU的大小。将此块结构分离成三个不同概念可允许根据单元的相应作用来优化每一单元，这可产生改进型译码效率。

仅出于说明的目的，用包含视频数据的两层(例如，例如基础层的较低层及例如增强层的较高层)的实例来描述本文中所揭示的某些实施例。视频数据的“层”可通常指具有至少一个共同特性(例如，视图、帧率、分辨率或其类似者)的图片序列。举例来说，层可包含与多视图视频数据的特定视图(例如，透视)相关联的视频数据。作为另一实例，层可包含与可可缩放视频数据的特定层相关联的视频数据。因此，本发明可互换地提及视频数据的层及视图。也就是说，视频数据的视图可被称作视频数据的层，且视频数据的层可被称作视频数据的视图。另外，多层编解码器(其还被称作多层视频译码器或多层编码器-解码器)可共同指多视图编解码器或可缩放编解码器(例如，经配置以使用MV-HEVC、3D-HEVC、SHVC或另一多层译码技术编码及/或解码视频数据的编解码器)。视频编码及视频解码两者通常皆可被称作视频译码。应理解，此些实例可适用于包含多个基础层及/或增强层的配置。另外，为了易于解释，参考某些实施例，以下揭示内容包含术语“帧”或“块”。然而，这些术语不打算是限制性的。举例来说，下文描述的技术可供任何合适的视频单元(例如，块(例如，CU、PU、TU、宏块等等)、切片、帧等等)使用。

视频译码标准

例如视频图像、TV图像、静态图像或由录像机或计算机产生的图像的数字图像可由布置成水平及垂直线的像素或样本组成。单个图像中的像素的数目通常有数万个。每一像素通常含有明度及色度信息。在无压缩的情况下，将从图像编码器传达到图像解码器的信息的绝对量将使实时图像发射不可能。为了减少待发射的信息量，已开发出例如JPEG、MPEG及H.263标准的多个不同压缩方法。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉及ITU-T H.264(其也称为ISO/IEC MPEG-4AVC)，包含其分别名为SVC及MVC的可缩放及多视图译码扩展。

另外，HEVC正由ITU-T视频译码专家组(VCEG)与ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)开发。对HEVC的多视图扩展(即，MV-HEVC)及对HEVC的可缩放扩展(名为SHVC)也正分别由JCT-3V(关于3D视频译码扩展开发的ITU-T/ISO/IEC联合合作小组)及JCT-VC开发。

视频译码系统

下文中参看附图更充分地描述新颖系统、设备及方法的各种方面。然而，本发明可许多不同形式来体现，且不应被解释为限于贯穿本发明所呈现的任何特定结构或功能。相反地，提供这些方面以使得本发明将为透彻且完整的，且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示，所属领域的技术人员应了解，本发明的范围意图涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备及方法的任何方面。举例来说，可使用本文中所阐述的任何数目个方面来实施设备或实践方法。另外，本发明的范围意图涵盖使用除了本文中所阐述的本发明的各种方面以外的或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解，可通过权利要求的一或多个要素来体现本文中所揭示的任何方面。

尽管本文中描述了特定方面，但这些方面的许多变化及排列属于本发明的范围内。尽管提及了优选方面的一些益处及优点，但本发明的范围并不意图限于特定益处、用途或目标。相反地，本发明的诸方面意图广泛地适用于不同无线技术、系统配置、网络及发射协议，其中的一些是作为实例而在诸图中及在优选方面的以下描述中加以说明。详细描述及图式仅说明本发明，而不是限制由所附权利要求书及其等效者界定的本发明的范围。

图1是说明可利用所述技术以消除或减少在本文中其它地方所描述的解析SEI消息中的解析误差(例如，通过将指示包括于嵌套式SEI消息结构内的多个SEI消息的语法元素译码到嵌套式SEI消息结构中，及/或使用所述语法元素以解析SEI消息)的实例视频译码系统10的框图。如本文中所描述地使用，术语“视频译码器”一般指视频编码器及视频解码器两者。在本发明中，术语“视频译码”或“译码”可一般地指视频编码及视频解码。

如图1中所展示，视频译码系统10包含源装置12及目的地装置14。源装置12产生经编码视频数据。目的地装置14可对由源装置12产生的经编码视频数据进行解码。源装置12可经由通信信道16将视频数据提供到目的地装置14，通信信道16可包含计算机可读存储媒体或其它通信信道。在图1的实例中，源装置12及目的地装置14构成单独装置。然而，应注意，源装置12及目的地装置14可为同一装置(未展示)的一部分。

源装置12及目的地装置14可分别包含广泛范围的装置，包含：桌上型计算机、笔记本型计算机(例如，膝上型)计算机、平板计算机、机上盒、电话手机、例如所谓的“智能”电话及/或所谓的“智能”板的无线通信装置、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机、视频流式传输装置、可由实体(例如，人、动物及/或另一受控装置)穿戴的装置(例如护目镜及/或可穿戴计算装置)、可被消费、摄取或放置于实体内的装置或设备，及/或其类似者。源装置12及目的地装置14可经装备以用于无线通信(例如，蜂窝式通信、局域及/或广域通信、点对点通信、近场通信及/或其类似者)。

目的地装置14可经由通信信道16接收待解码的经编码视频数据。通信信道16可包括能够将经编码视频数据从源装置12移动(即，传达或发射)到目的地装置14的媒体或装置类型。举例来说，通信信道16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。可根据例如无线通信协议的通信标准调制经编码视频数据，且将其发射到目的地装置14。通信媒体可包括无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络，例如因特网)的一部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的其它设备。

在本发明的一些实施例中，可将经编码数据从输出接口22输出到存储装置。在此些实例中，信道16可对应于存储由源装置12产生的经编码视频数据的存储装置或计算机可读存储媒体。举例来说，目的地装置14可经由磁盘存取或卡存取来存取计算机可读存储媒体。相似地，可通过输入接口28从计算机可读存储媒体存取经编码数据。计算机可读存储媒体可包含多种分布式或在本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或用于存储视频数据的其它数字存储媒体。计算机可读存储媒体可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载而从计算机可读存储媒体存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的服务器类型。实例文件服务器包含网络服务器(例如，用于网站)、文件传输协议(FTP)服务器、网络附接存储(NAS)装置，或本地磁盘驱动器。目的地装置14可通过标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如，无线局域网(WLAN)连接)、有线连接(例如，数字用户线(DSL)、电缆调制解调器等等)或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从计算机可读存储媒体的发射可为流式传输发射、下载发射或两者的组合。

本发明的技术可应用除了无线应用或设置以外的应用或设置。所述技术可应用于支持多种多媒体应用中的一者的视频译码，例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如动态自适应超文本传输协议(HTTP)流式传输)、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实施例中，系统10可经配置以支持单向或双向视频发射，以支持例如视频流式传输、视频重放、视频广播及/或视频电话的应用。

在图1中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。源装置12的视频编码器20可经配置以应用用于译码包含视频数据(其符合多个标准(例如，HEVC)或标准扩展)的位流的技术。在本发明的其它实施例中，源装置12及目的地装置14可包含其它组件或布置。举例来说，源装置12可从例如外部相机的视频源18“外部”的视频源(即，除了视频源18以外的源)接收视频数据。同样地，目的地装置14可与外部显示装置接口，而非包含例如显示装置32的集成显示装置。

源装置12的视频源18可包含视频捕获装置，例如视频相机、含有先前所捕获视频的视频存档及/或用以从视频内容提供者接收视频的视频馈送接口。视频源18可产生基于计算机图形的数据以作为源视频，或实况视频、所存档视频及/或计算机产生的视频的组合。在一些实施例中，基于视频源18是视频相机，源装置12及目的地装置14可形成所谓的“相机电话”或“视频电话”。可由视频编码器20编码所捕获视频、预捕获的视频及/或计算机产生的视频。经编码视频信息可通过输出接口22输出到通信信道16，通信信道16可包含计算机可读存储媒体，如上文所论述。

计算机可读存储媒体可包含暂时性媒体，例如无线广播或有线网络发射，或存储媒体(例如，非暂时性存储媒体)，例如硬盘、闪存驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。网络服务器(未图示)可从源装置12接收经编码视频数据，且将经编码视频数据提供到目的地装置14(例如，经由网络发射)。媒体生产设施(例如光盘冲压设施)的计算装置可从源装置12接收经编码视频数据，且生产含有所述经编码视频数据的光盘。因此，可将通信信道16理解为包含一或多个各种形式的计算机可读存储媒体。

目的地装置14的输入接口28可经由(例如，从或遍及)通信信道16接收信息。经由通信信道16接收到的信息可包含由视频编码器20定义的语法信息(其可由视频解码器30使用)，所述语法信息包含描述块及/或其它经译码单元(例如，图片群组(GOP))的特性及/或处理的语法元素。显示装置32例如向用户显示经解码视频数据，且可包含例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置的多种显示装置中的任一者。

视频编码器20及/或视频解码器30可根据例如HEVC标准的视频译码标准操作，且可符合HEVC测试模型(HM)。替代地，视频编码器20及视频解码器30可根据其它专有或业界标准来操作，所述标准例如ITU-T H.264标准(其替代地被称作MPEG-4第10部分高级视频译码(AVC))，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。

尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及音频解码器集成，且可包含适当的MUX-DEMUX单元或其它硬件及/或软件，以处理对共同数据流或单独数据流中的音频及视频两者的编码。如果适用，那么MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。

图1仅为实例，且用于消除或减少在本文中其它地方所描述的解析SEI消息的过程中的解析误差(例如，通过利用经译码到嵌套式SEI消息结构中的指示多个SEI消息的语法元素)的技术可应用于视频译码设置(例如，视频编码或视频解码)，视频译码设置未必包含编码装置与解码装置之间的任何数据通信。在其它实例中，数据可从本地存储器检索、经由网络流式传输，或其类似者。编码装置可编码数据且将数据存储到存储器，及/或解码装置可从存储器检索数据且解码数据。在许多实例中，通过并不彼此通信而是简单地将数据编码到存储器及/或从存储器检索数据且解码数据的装置执行编码及解码。

视频编码器20及视频解码器30各自可实施为例如一或多个微处理器、数字信号处理器(DS)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分地用软件实施所述技术时，装置可将用于软件的指令存储在非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的一部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置，例如蜂窝式电话。

JCT-VC继续从事HEVC标准的开发。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM根据(例如)ITU-T H.264/AVC假设视频译码装置相对于现有装置的若干额外能力。举例来说，虽然H.264提供九种帧内预测编码模式，但HM可提供多达三十三种帧内预测编码模式。

一般来说，HM的工作模型描述视频帧或图片可划分成包含明度及色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可界定最大译码单元(LCU，其是就像素数目来说的最大译码单元)的大小。切片包含按译码次序的多个连续树块。视频帧或图片可被分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。一般来说，四叉树数据结构包含每个CU一个节点，其中一个根节点对应于所述树块。如果一个CU分裂成四个子CU，那么对应于CU的节点包含四个叶节点，其中的每一者对应于所述子CU中的一者。

四分树数据结构的每一节点可提供用于对应CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，其指示对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可递归地定义，且可取决于CU是否分裂成子CU。如果CU未进一步分裂，那么将其称作叶CU。在本发明中，叶CU的四个子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16×16大小的CU不进一步分裂，那么四个8×8子CU也将被称作叶CU，尽管16×16CU从未分裂。

CU具有与H.264标准的宏块相似的目的，除了CU不具有大小区别。举例来说，树块可分裂成四个子节点(其也被称作子CU)，且每一子节点又可为父节点且可分裂成另外四个子节点。最终的未分裂子节点(其被称作四叉树的叶节点)包括译码节点，其还被称作叶CU。与经译码位流相关联的语法数据可界定树块可分裂的最大次数，其被称作最大CU深度，且还可界定译码节点的最小大小。因此，位流还可界定最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或TU中的任一者，或其它标准的上下文中的相似数据结构(例如，其在H.264/AVC中的宏块及子块)。

CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小且形状必须是正方形。CU的大小范围可从8×8像素到具有64×64像素或更大像素的最大值的树块的大小。每一CU可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可在CU被跳过还是经直接模式编码、帧内预测模式编码或帧间预测模式编码之间不同。PU可分割成非正方形形状。与CU相关联的语法数据还可描述(例如)根据四叉树将CU分割成一或多个TU。TU可为正方形或非正方形(例如，矩形)形状。

HEVC标准允许根据TU变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU界定的给定CU内的PU的大小而确定，但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，可使用被称为“残余四分树”(RQT)的四分树结构将对应于CU的残余样本细分成较小单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数，所述变换系数可经量化。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于相对应的CU的全部或一部分的空间区域，且可包含用于检索PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可包含在残余四分树(RQT)中，残余四分树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含界定PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，及/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(其也被称作TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可指示叶CU是否分裂成四个变换单元。接着，每一变换单元可进一步分裂成更多个子TU。当TU未进一步分裂时，其可被称作叶TU。总体上，对于帧内译码，所有属于一叶CU的叶TU共享相同的帧内预测模式。也就是说，一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式针对每一叶TU计算残余值，作为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，PU可与相同CU的对应叶TU处于相同位置。在一些实例中，叶TU的最大大小可对应于对应的叶CU的大小。

此外，叶CU的TU还可与相应的四分树数据结构(其被称作残余四分树(RQT))相关联。也就是说，叶CU可包含指示叶CU如何分割成TU的四分树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说，本发明分别使用术语CU及TU来指叶CU及叶TU，除非另有指出。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可在GOP的标头、图片中的一或多者的标头或其它地方中包含描述GOP中包含的多个图片的语法数据。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且根据指定译码标准可在大小上有所不同。

作为实例，HM支持各种PU大小的预测。假设特定CU的大小为2N×2N，那么HM支持2N×2N或N×N的PU大小的帧内预测，及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小中的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而是将另一方向分割成25％及75％。CU的对应于25％分区的部分由“n”、后面接续“上”、“下”、“左”或“右”的指示来指示。因此，举例来说，“2NxnU”是指水平地分割的2Nx2N CU，其中顶部为2Nx0.5N PU，而底部为2Nx1.5N PU。

在本发明中，“N×N”与“N乘N”可互换使用来指在垂直及水平维度方面的视频块的像素尺寸，例如，16×16个像素或16乘16个像素。一般来说，16x16块将在垂直方向上具有16个像素(y＝16)，且在水平方向上具有16个像素(x＝16)。同样地，NxN块总体上在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可布置成行及列。此外，块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说，块可包括NxM个像素，其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后，视频编码器20可计算用于CU的TU的残余数据。PU可包括描述在空间域(其也被称作像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在应用变换之后变换域中的系数，所述变换例如离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或与残余视频数据概念上相似的变换。所述残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU，且接着变换TU以产生用于CU的变换系数。

在任何用以产生变换系数的变换之后，视频编码器20可执行变换系数的量化。量化为意图具有其最广泛一般意义的广义术语。在一个实施例中，量化是指变换系数经量化以可能减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说，n位值可在量化期间被下舍入到m位值，其中n大于m。

在量化之后，视频编码器20可扫描变换系数，从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)的系数放置在阵列的前面，且将较低能量(且因此较高频率)的系数放置在阵列的背面。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法熵编码一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。

为了执行CABAC，视频编码器20可向待发射的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经构建以使得相对较短码对应于更有可能符号，而较长码对应于不太可能符号。以此方式，使用VLC可(例如)实现优于针对待发射的每一符号使用等长度码字的位节省。概率确定可基于指派到符号的上下文。

视频编码器20可进一步(例如)在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据的语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的多个帧，且帧语法数据可指示用以对对应帧进行编码的编码/预测模式。

视频编码器

图2A是说明可实施根据本发明中描述的方面的技术的视频编码器20的实例的框图。视频编码器20可经配置以处理视频位流的单层(例如针对HEVC)。此外，视频编码器20可经配置以执行本发明的技术中的任一者或全部，所述技术包括(但不限于)防止或减少在本文中其它地方更详细地描述的SEI消息及相关过程中的解析误差。作为一个实例，层间预测单元66(当提供时)可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的诸方面不限于此。在一些实例中，本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中，另外或替代地，处理器(未展示)可经配置以执行本发明中描述的技术中的任一者或全部。

出于解释的目的，本发明描述在HEVC译码的上下文中的视频编码器20。然而，本发明的技术可适用于其它译码标准或方法。图2A的视频编码器20说明编解码器的单层。然而，如将关于图2B进一步描述，可复制视频编码器20中的一些或全部以用于根据多层编解码器进行处理。

视频编码器20可执行视频切片内的视频块的帧内、帧间及层间预测(有时被称作帧内、帧间或层间译码)。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频的空间冗余。帧间译码依靠时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。层间译码依赖于基于同一视频译码序列内的不同层内的视频的预测。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的译码模式中的任一者。

如图2A中所展示，视频编码器20接收待编码的视频帧内的当前视频块。在图2A的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46、层间预测单元66及分割单元48。参考帧存储器64可包含经解码图片缓冲器。经解码图片缓冲器是具有其一般意义的广义术语，且在一些实施例中涉及视频编解码器管理的参考帧的数据结构。

对于视频块重构建，视频编码器20还包含逆量化单元58、逆变换单元60及求和器62。还可包含解块滤波器(图2A中未展示)以便对块边界进行滤波，以从经重构建视频移除成块效应假影。在需要时，解块滤波器将通常滤波求和器62的输出。除了解块滤波器外，还可使用额外滤波器(回路中或回路后)。为简洁起见未展示此些滤波器，但是必要时，此些滤波器可滤波求和器50的输出(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42及运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次，例如以为每一视频数据块选择适当的译码模式。

此外，分割单元48可基于前述译码遍次中的前述分割方案的评估将视频数据块分割成子块。举例来说，分割单元48可起初将帧或切片分割为LCU，且基于速率失真分析(例如，速率失真优化等等)将LCU中的每一者分割为子CU。模式选择单元40可进一步产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU及一或多个TU。

模式选择单元40可(例如)基于误差结果选择译码模式(帧内、帧间或层间预测模式)中的一者，且将所产生的帧内、帧间或层间经译码块提供到求和器50来产生残余块数据且提供到求和器62来重构建经编码块以用作参考帧。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供给熵编码单元56。

运动估计单元42及运动补偿单元44可高度集成，但出于概念的目的分别加以说明。运动估计单元42执行的运动估计是产生运动向量的过程，所述过程估计视频块的运动。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块是被发现在像素差方面与待译码块紧密匹配的块，像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中，视频编码器20可计算存储于参考帧存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索且输出具有分数像素精确度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，其中的每一个识别存储在参考帧存储器64中的一个或多个参考图片。运动估计单元42向熵编码单元56及运动补偿单元44发送计算出的运动向量。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来获取或产生预测性区块。在一些实例中，运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块，如下文所论述。在一些实施例中，运动估计单元42可相对于明度分量执行运动估计，且运动补偿单元44可针对色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40可产生与视频块及视频切片相关联的语法元素供视频解码器30在解码视频切片的视频块时使用。

作为如上文所描述由运动估计单元42及运动补偿单元44执行的帧间预测的替代方案，帧内预测单元46可帧内预测或计算当前块。具体来说，帧内预测单元46可确定用于编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可(例如，在单独的编码遍次期间)使用各种帧内预测模式来编码当前块，且帧内预测单元46(或在一些实例中为模式选择单元40)可从所测试模式中选择适当的帧内预测模式来使用。

举例来说，帧内预测单元46可使用速率-失真分析计算针对各种测试的帧内预测模式的速率-失真值，且从所述测试的模式当中选择具有最好速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(也就是说，位数目)。帧内预测单元46可从用于各种经编码块的失真和速率计算比率，以确定哪一帧内预测模式对于所述块展现最佳速率-失真值。

在选择用于块的帧内预测模式之后，帧内预测单元46可将指示用于块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20在所发射的位流中可包含配置数据，其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(其也被称作码字映射表)，对用于各种块的上下文进行编码的定义，以及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。

视频编码器20可包含层间预测单元66。层间预测单元66经配置以使用可用于SVC中的一或多个不同层(例如，基础层或参考层)来预测当前块(例如，增强层中的当前块)。此预测可被称作层间预测。层间预测单元66利用预测方法以减少层间冗余，从而改进译码效率且降低计算资源要求。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中的协同定位块的重构建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动信息。层间残余预测使用基础层的残余来预测增强层的残余。当基础层与增强层具有不同的空间分辨率时，可由层间预测单元66执行使用时间缩放功能的空间运动向量缩放及/或层间位置映射，如下文更详细地描述。

视频编码器20通过从正译码原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上相似的变换的变换应用于残余块，从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上相似于DCT的其它变换。举例来说，还可使用离散正弦变换(DST)、小波变换、整数变换、子带变换或其它类型的变换。

变换处理单元52可将变换应用于残余块,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域(例如，频域)。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对残余变换系数进行量化以进一步降低位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调节量化参数来修改量化的程度。在一些实例中，量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。替代地，熵编码单元56可执行扫描。

在量化之后，熵编码单元56对经量化变换系数进行熵编码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论，上下文可基于相邻块。在由熵编码单元56进行熵译码之后，可将经编码位流发射到另一装置(例如，视频解码器30)，或将所述经编码位流存档以用于稍后发射或检索。

逆量化单元58及逆变换单元60分别应用逆量化及逆变换以在像素域中重构建残余块(例如，用于稍后用作参考块)。运动补偿单元44可通过将残余块添加到参考帧存储器64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构建的残余块来计算用于在运动估计中使用的子整数像素值。求和器62将经重构建的残余块添加到由运动补偿单元44产生的经运动补偿的预测块，以产生经重构建的视频块以用于存储于参考帧存储器64中。经重构建的视频块可由运动估计单元42及运动补偿单元44用作参考块以帧间译码随后视频帧中的块。

多层视频编码器

图2B是说明可实施根据本发明中描述的方面的技术的多层视频编码器21(其也被简称为视频编码器21)的实例的框图。视频编码器21可经配置以处理多层视频帧，例如针对SHVC、3D-HEVC及/或MV-HEVC。此外，视频编码器21可经配置以执行本发明的技术中的任一者或全部，所述技术包括(但不限于)用于消除或减少在本文中其它地方所描述的解析SEI消息中的解析误差(例如，通过将指示多个SEI消息的语法元素译码到嵌套式SEI消息结构中)的方法。

视频编码器21包含视频编码器20A及视频编码器20B，其中的每一者可经配置为图2A的视频编码器20且可执行上文相对于视频编码器20所描述的功能。此外，如由参考数字的再使用所指示，视频编码器20A及20B可包含视频编码器20中包含的相同或相似系统及子系统中的至少一些。尽管将视频编码器21说明为包含两个视频编码器20A和20B，但视频编码器21不被如此限制且可包含任何数目个视频编码器层。在一些实施例中，视频编码器21可针对存取单元中的每一图片或帧包含视频编码器20。举例来说，包含五个图片的存取单元可由包含五个编码器层的视频编码器处理或编码。在一些实施例中，视频编码器21可包含比存取单元中的帧更多的编码器层。在一些此类状况下，当处理一些存取单元时，一些视频编码器层可能不在作用中。

除了视频编码器20A及20B以外，视频编码器21还可包含再取样单元90。在一些状况下，再取样单元90可对所接收的视频帧的基础层上取样以(例如)创建增强层。再取样单元90可上取样与帧的所接收的基础层相关联的特定信息，但不上取样其它信息。举例来说，再取样单元90可对基础层的空间大小或像素数目进行上取样，但切片的数目或图片次序计数可保持恒定。在一些状况下，再取样单元90可不处理所接收的视频及/或可为任选的。举例来说，在一些状况下，模式选择单元40可执行上取样。在一些实施例中，再取样单元90经配置以对层进行上取样且重新组织、重新界定、修改或调节一或多个切片以符合一组切片边界规则和/或光栅扫描规则。尽管主要描述为对基础层或存取单元中的较低层上取样，但在一些状况下，再取样单元90可对层下取样。举例来说，如果带宽在视频进行流式传输期间减小，那么可对帧进行下取样而非上取样。再取样单元90还可进一步经配置以执行裁剪及/或填补操作。

再取样单元90可经配置以从较低层编码器(例如，视频编码器20A)的经解码图片缓冲器114接收图片或帧(或与图片相关联的图片信息)，且对所述图片(或所接收到的图片信息)进行上取样。接着可将此经上取样图片提供到较高层编码器(例如，视频编码器20B)的模式选择单元40，所述较高层编码器经配置以编码与较低层编码器相同的存取单元中的图片。在一些状况下，较高层编码器为从较低层编码器去除的一个层。在其它状况下，在图2B的层0编码器与层1编码器之间可存在一或多个较高层编码器。

在一些状况下，可省略或绕过再取样单元90。在此些状况下，来自视频编码器20A的经解码图片缓冲器64的图片可直接提供到视频编码器20B的模式选择单元40，或至少不提供到再取样单元90。举例来说，如果提供到视频编码器20B的视频数据与来自视频编码器20A的经解码图片缓冲器64的参考图片具有相同大小或分辨率，那么可将参考图片提供到视频编码器20B而无任何再取样。

在一些实施例中，视频编码器21在将视频数据提供到视频编码器20A之前使用下取样单元94来下取样待被提供到较低层编码器的视频数据。替代地，下取样单元94可为能够上取样或下取样视频数据的再取样单元90。在另外其它实施例中，可省略下取样单元94。

如图2B中所说明，视频编码器21可进一步包含多路复用器98(multiplexor或mux)。mux 98可输出来自视频编码器21的组合位流。通过从视频编码器20A和20B中的每一者取得位流且使在给定时间输出哪一位流进行交替可产生组合位流。虽然在一些状况下，可一次一个位地交替来自两个(或在两个以上视频编码器层的状况下更多)位流的位，但在许多状况下，不同地组合所述位流。举例来说，可通过一次一个块地交替所选位流来产生输出位流。在另一实例中，可通过从视频编码器20A及20B中的每一者输出非1:1比率的块来产生输出位流。举例来说，可针对从视频编码器20A输出的每一块从视频编码器20B输出两个块。在一些实施例中，可预编程来自mux 98的输出流。在其它实施例中，mux 98可基于从视频编码器21外部的系统(例如从源装置12上的处理器)接收到的控制信号而组合来自视频编码器20A及20B的位流。可基于来自视频源18的视频的分辨率或位速率、基于信道16的带宽、基于与用户相关联的预订(例如，付费预订与免费预订)，或基于用于确定来自视频编码器21的所要分辨率输出的任何其它因素来产生控制信号。

视频解码器

图3A是说明可实施根据本发明中描述的方面的技术的视频解码器30的实例的框图。视频解码器30可经配置以处理视频位流的单层(例如针对HEVC)。此外，视频解码器30可经配置以执行本发明的技术中的任一者或全部，所述技术包括(但不限于)消除减少在本文中其它地方所描述的解析SEI消息中的解析误差。作为一个实例，层间预测单元75可经配置以执行本发明中所描述的技术中的任一者或全部，所述技术包括(但不限于)用于消除或减少在本文中其它地方所描述的解析SEI消息中的解析误差(例如，通过利用嵌套式SEI消息内的指示多个SEI消息的语法元素)的方法。然而，本发明的诸方面不限于此。在一些实例中，这些技术可在视频解码器30的各种组件当中共享。在一些实例中，另外或替代地，处理器(未展示)可经配置以执行这些技术中的任一者或全部。

出于解释的目的，本发明描述在HEVC译码的背景下的视频解码器30。然而，本发明的技术(其包括(但不限于)用于消除或减少在本文中其它地方所描述的解析SEI消息中的解析误差的方法)可适用于其它译码标准或方法。图3A的视频解码器30说明编解码器的单层。然而，如将关于图3B进一步描述，可复制视频解码器30中的一些或全部以用于根据多层编解码器进行处理。

在图3A的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、层间预测单元75、逆量化单元76、逆变换单元78、参考帧存储器82及求和器80。在一些实施例中，运动补偿单元72及/或帧内预测单元74可经配置以执行层间预测，在此状况下可省略层间预测单元75。在一些实例中，视频解码器30可执行大体上与关于图2A中的视频编码器20描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。参考帧存储器82可包含经解码图片缓冲器。经解码图片缓冲器是具有其一般意义的广义术语，且在一些实施例中涉及视频编解码器管理的参考帧的数据结构。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。

当视频切片经译码为经帧内译码(I)切片时，帧内预测单元74可基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当将视频帧译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元72基于从熵解码单元70接收到的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。预测性块可从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储在参考帧存储器82中的参考图片使用默认构建技术构建参考帧列表(列表0及列表1)。

运动补偿单元72通过解析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息，且使用所述预测信息来产生用于正解码的当前视频块的预测性块。举例来说，运动补偿单元72使用所接收到的语法元素中的一些语法元素确定用以对视频切片的视频块译码的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的构建信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态，以及用以解码当前视频切片中的视频块的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用如视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下，运动补偿单元72可根据接收的语法元素而确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测性块。

视频解码器30还可包含层间预测单元75。层间预测单元75经配置以使用可用于SVC中的一或多个不同层(例如，基础层或参考层)来预测当前块(例如，增强层中的当前块)。此预测可被称作层间预测。层间预测单元75利用预测方法以减少层间冗余，从而改善译码效率且降低计算资源要求。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中的协同定位块的重构建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动信息。层间残余预测使用基础层的残余来预测增强层的残余。当基础及增强层具有不同的空间分辨率时，可通过层间预测单元75使用时间按比例缩放功能执行空间运动向量按比例缩放及/或层间位置映射，如下文更详细地描述。

逆量化单元76对在位流中提供且由熵解码单元70解码的经量化块系数进行逆量化(例如，解量化)。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算，以确定应应用的量化程度及同样的逆量化程度的量化参数QPY。

逆变换单元78对变换系数应用逆变换(例如，逆DCT、逆DST、逆整数变换或概念上相似的逆变换过程，以便产生像素域中的残余块。

在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后，视频解码器30通过对来自逆变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求及而形成经解码的视频块。求和器90表示执行此求及运算的一或多个组件。视需要，还可应用解块滤波器以对经解码块进行滤波，以便移除成块假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中，所述参考图片存储器存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频以用于稍后呈现在显示装置(例如，图1的显示装置32)上。

多层视频解码器

图3B是说明可实施根据本发明中所描述的方面的技术的多层视频解码器31(其也被简称为视频解码器31)的实例的框图。视频解码器31可经配置以处理多层视频帧，例如针对SHVC、3D-HEVC及/或MV-HEVC。此外，视频解码器31可经配置以执行本发明的技术中的任一者或全部。

视频解码器31包含视频解码器30A及视频解码器30B，其中的每一者可经配置为图3A的视频解码器30且可执行上文关于视频解码器30所描述的功能。此外，如由参考数字的再使用所指示，视频解码器30A及30B可包含视频解码器30中包含的相同或相似系统及子系统中的至少一些。尽管将视频解码器31说明为包含两个视频解码器30A和30B，但视频解码器31不受如此限制且可包含任何数目个视频解码器层。在一些实施例中，视频解码器31可包含用于存取单元中的每一图片或帧的视频解码器30。举例来说，可由包含五个解码器层的视频解码器处理或解码包含五个图片的存取单元。在一些实施例中，视频解码器31可包含比存取单元中的帧更多的解码器层。在一些此类状况下，当处理一些存取单元时，一些视频解码器层可能不在作用中。

除了视频解码器30A及30B以外，视频解码器31还可包含上取样单元92。在一些实施例中，上取样单元92可对所接收到的视频帧的基础层进行上取样以创建将添加到帧或存取单元的参考图片列表的增强层。可将此增强层存储于参考帧存储器82中(例如，存储于其经解码图片缓冲器等等中)。在一些实施例中，上取样单元92可包含关于图2B的再取样单元90所描述的实施例中的一些或全部。在一些实施例中，上取样单元92经配置以对层进行上取样且重新组织、重新界定、修改或调节一或多个切片以符合一组切片边界规则及/或光栅扫描规则。在一些状况下，上取样单元92可为经配置以对经接收视频帧的层进行上取样及/或下取样的再取样单元。

上取样单元92可经配置以从较低层解码器(例如，视频解码器30A)的经解码图片缓冲器82接收图片或帧(或与图片相关联的图片信息)，且对所述图片(或所接收到的图片信息)进行上取样。接着可将此经上取样的图片提供到较高层解码器(例如，视频解码器30B)的模式选择单元71，所述较高层解码器经配置以解码与较低层解码器相同的存取单元中的图片。在一些状况下，较高层解码器为从较低层解码器移除的一个层。在其它状况下，在图3B的层0解码器与层1解码器之间可存在一或多个较高层解码器。

在一些状况下，可省略或绕过上取样单元92。在此些状况下，来自视频解码器30A的经解码图片缓冲器82的图片可直接提供到视频解码器30B的模式选择单元71，或至少不提供到上取样单元92。举例来说，如果提供到视频解码器30B的视频数据与来自视频解码器30A的经解码图片缓冲器82的参考图片具有相同的大小或分辨率，那么可将参考图片提供到视频解码器30B而无需上取样。另外，在一些实施例中，上取样单元92可为经配置以对从视频解码器30A的经解码图片缓冲器82接收到的参考图片进行上取样或下取样的再取样单元90。

如图3B中所说明，视频解码器31可进一步包含多路分用器99(demultiplexor或demux)。demux 99可将经编码视频位流分裂成多个位流，其中由demux 99输出的每一位流被提供到不同的视频解码器30A及30B。可通过接收位流来产生多个位流，且视频解码器30A及30B中的每一者在给定时间接收位流的一部分。虽然在一些状况下，可在视频解码器(例如，在图3B的实例中的视频解码器30A和30B)中的每一者之间一次一个位地交替来自在demux 99处所接收到的位流的位，但在许多状况下，以不同方式划分所述位流。举例来说，可通过一次一个块地交替哪一视频解码器接收位流而划分所述位流。在另一实例中，可通过到视频解码器30A及30B中的每一者的块的非1:1比率来划分位流。举例来说，可针对提供到视频解码器30A的每一块而将两个块提供到视频解码器30B。在一些实施例中，可预编程由demux 99对位流的划分。在其它实施例中，demux 99可基于从视频解码器31的外部的系统(例如从目的地装置14上的处理器)接收到的控制信号而划分所述位流。可基于来自输入接口28的视频的分辨率或位速率、基于信道16的带宽、基于与用户相关联的预订(例如，付费预订与免费预订)或基于用于确定通过视频解码器31可获得的分辨率的任何其它因素来产生控制信号。

辅助增强信息(SEI)消息

根据HEVC标准，将经译码视频数据组织到一连串被称作网络抽象层(NAL)单元的数据单元中，所述数据单元形成到存取单元中。存取单元包括一组集体地表示对应于同一输出时间的图片的一或多个NAL单元。存取单元中的一或多个NAL单元包括一组集体地构成对应于同一输出时间的图片的一或多个视视频译码层(VCL)NAL单元及零个或多于零个非VCL NAL单元(即，不是VCL NAL单元的NAL单元)。VCL NAL单元携载经译码视频数据的切片片段。非VCL NAL单元通常含有控制信息。可存在于存取单元中的一种类型的非VCL NAL单元是含有可增强经解码视频信号的可用性但总体上并非必要的辅助数据(例如，定时信息)的辅助增强信息(SEI)NAL单元。SEI NAL单元含有具有下文所描述的SEI消息结构的SEI消息。SEI消息可含有与经译码视频数据相关联的不同类型的元数据，其可提供与(例如)图片输出定时、显示、色彩空间的解译及/或成帧填充相关联的信息。

SEI NAL单元可包括一或多个SEI消息结构。根据一实例，图4中说明SEI NAL单元的整体结构。已省略对理解所揭示技术没有帮助的所述结构的部分。此些省略在图4中通过省略号识别。

SEI NAL单元410包括anRBSP，例如，sei_rbsp()结构420(sei_rbsp()结构420还被称作SEI RBSP 420)。又，sei_rbsp()结构420可包括一或多个sei_message()结构430(其说明为两个结构430A及430B)。应理解，虽然说明了两个sei_message()结构430A及430B，但sei_rbsp()420可包括任何数目个sei_message()结构430，其包含一个sei_message()结构430或三个或多于三个sei_message()结构430。

每一sei_message()结构430包括sei_payload结构440(分别针对sei_message()结构430A及430B说明为440A及440B)。sei_message()结构430的语法结构含于sei_payload结构440中且在图4中表示为xxx(payloadSize)结构442(分别针对sei_payload结构440A及440B说明为442A及442B)。视情况，每一sei_payload结构440亦可包括有效负载扩展444(分别针对sei_payload结构440A及440B说明为444A及444B)，其可用于SEI_message()结构430的未来扩展性。

一些SEI消息结构是嵌套式SEI消息结构。嵌套式SEI消息结构可含有一或多个SEI消息。举例来说，sei_message()结构430A可包括嵌套于sei_message()结构430A内的多个SEI消息。嵌套式SEI消息结构中含有的每一SEI消息适用于层、操作点、输出层集合及/或位流分区的集合，如由嵌套式SEI消息结构指定。

常规实践(例如，HEVC规范的当前草案，HEVC版本1)指定一种类型的嵌套式SEI消息结构：可缩放嵌套式SEI消息结构。另外，多层(或多视图)扩展的当前草案指定另一类型的嵌套式SEI消息结构：位流分割嵌套式SEI消息结构。呈单数或复数形式的术语“嵌套式SEI消息结构”及“嵌套式结构”在本文中用以集体地指可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构。

在以下表中说明可缩放嵌套式SEI消息结构的当前(即，常规)语法结构。已省略对理解所揭示技术没有帮助的所述语法结构的部分。此些省略在下文通过省略号识别。

在以下表中说明位流分割嵌套式SEI消息结构的当前语法结构。

如上文所说明，可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构两者的语法结构包括do-while语法“do sei_message()while(more_rbsp_data())”。

虽然此do-while语法使得能够将一或多个SEI消息嵌套于嵌套式SEI消息结构中，但这些常规语法结构的do-while语法具有显著缺点。确切地说，被设置为do-while语法的条件的函数“more_rbsp_data()”传回“1”值(即，成立)直到包括嵌套式SEI消息结构的SEIRBSP中的当前字节位置等于那个SEI RBSP(例如，图4的SEI RBSP 420)中的值为1的最后一个(即，最不显著，最右边)位的位置为止。SEI RBSP语法中的值为1的此最后一个位对应于rbsp_trailing_bits()语法结构450中的值为1的第一个位。如图4中所展示，rbsp_trailing_bits()语法结构450存在于SEI RBSP 420的结尾处。因此，如果SEINAL单元包括嵌套式SEI消息结构且嵌套式SEI消息结构在SEI NAL单元内的其它数据(即，除了RBSP拖尾位以外的数据)之前，那么嵌套式SEI消息结构的do-while语法将使用函数sei_message()来处理那个其它数据，从而产生SEI NAL单元的解析误差。

举例来说，参看图4，如果sei_payload结构440A包括作为结构442A的嵌套式SEI消息结构，那么解码器将基于嵌套式SEI消息的do-while语法来处理sei_rbsp结构420直到达到在sei_rbsp结构420结尾处的RBSP拖尾位(即，rbsp_trailing_bits()450)为止。因此，结构442A的do-while语法将根据函数“sei_message()”处理sei_payload结构440A(如果存在的话)以及sei_message结构430B的有效负载扩展，从而产生解析误差。

因此，无法恰当地解析位流—且因此，位流是非相符位流—在根据当前方案位流包含SEI NAL单元(其包括嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构一位流分割嵌套式SEI消息结构))的情况下及在以下任何条件成立的情况下：

(1)SEI NAL单元包括按解码次序在含有嵌套式SEI消息结构的sei_payload结构之后的SEI消息；或

(2)含有嵌套式SEI消息结构的sei_payload结构包括有效负载扩展数据(例如，以下语法元素中的任一者：reserved_payload_extension_data、payload_bit_equal_to_one或payload_bit_equal_to_zero)。

由于嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)的当前语法结构的这些缺点，所以无法使用提供于sei_payload结构中的扩展机制来扩展嵌套式SEI消息结构。因此，现在将论述处理嵌套式SEI消息结构的当前语法结构中的这些缺点的方法。这些相应例示性实施例的各种特征可独立地或彼此组合而予以应用。

在本发明的各种实施例中，可通过视频编码器(例如视频编码器20或视频编码器21)来用信号发送嵌套式SEI消息结构中含有的sei_messages()的数目且通过视频解码器(例如，视频解码器30或视频解码器31)来接收嵌套式SEI消息结构中含有的sei_messages()的数目，且可(例如)通过视频解码器基于那个数目来解析嵌套式SEI消息结构的语法结构。举例来说，可通过用仅调用(即，指导执行或履行)用信号发送多次的函数“sei_message()”的语法而替换do-while语法(其调用函数“sei_message()”，只要如上文所描述函数“more_rbsp_data()”传回值1即可)来修改可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构的语法结构中的一者或两者。

举例来说，根据本发明，可如下表中所说明来修改可缩放嵌套式SEI消息结构的语法结构。再次，已省略对理解所揭示技术没有帮助的所述语法结构的部分。此些省略在下文通过省略号识别。

相似地，可如下表中所说明来修改位流分割嵌套式SEI消息结构的语法结构。

确切地说，已在表3中基于由变量(即，语法元素)“num_seis_in_scalable_minus1”指定的数目而用调用函数“sei_message()”的语法结构来替换上文在表1中所说明的可缩放嵌套式SEI消息结构的当前语法结构中的行09至11。相似地，已在表4中基于存储于变量“num_seis_in_bsp_minus1”中的数目而用调用函数“sei_message()”的语法结构来替换表2中所说明的位流分割嵌套式SEI消息结构的当前语法结构中的行05至07。

由变量“num_seis_in_scalable_minus1”指定的数目比可缩放嵌套式SEI消息结构中含有的sei_message结构的数目少一个。相似地，由变量“num_seis_in_bsp_minus1”指定的数目比位流分割嵌套式SEI消息结构中含有的sei_message结构的数目少一个。更确切地说，“num_seis_in_bsp_minus1”加上1指定bsp_nesting()语法结构中含有的sei_message()结构的数目。换句话说，比由每一语法元素指定的数目大一个指示相应嵌套式SEI消息结构的语法结构中含有的sei_message结构的数目。应理解，变量“num_seis_in_scalable_minus1”及“num_seis_in_bsp_minus1”可为整数或能够表示数目的其它数据类型。

在表3及4两者中，经取代结构包括重复指令“sei_message()”多次的“for”回路，其分别等于比由“num_seis_in_scalable_minus1”(即，“num_seis_in_scalable_minus1”+1)指定的数目大一个且等于比“num_seis_in_bsp_minus1”(即，“num_seis_in_bsp_minus1”)中的数目大一个。应理解，可使用重复用信号发送的一或多个指令的集合多次的其它类型的结构代替所说明的“for”回路。还应理解，举例来说，可通过使开始重复增加一(即，“i＝1”而非“i＝0”)或用less-than运算(即，i<num_seis_in_scalable”而非“i<＝num_seis_in_scalable_minus1”及“i<num_seis_in_bsp”而非“i<＝num_seis_in_bsp_minus1”)替换less-than-or-equal运算符来修改“for”回路，以使用相应嵌套式SEI消息结构中的sei_message结构的数目而非比相应嵌套式SEI消息结构中的sei_message结构的数目少一个。

在各种实施例中，num_seis_in_scalable_minus1的值及/或num_seis_in_bsp_minus1的值可被限制为零到十五的范围(包含端点)。然而，应理解，num_seis_in_scalable_minus1的值及/或num_seis_in_bsp_minus1的值可被限制为不同范围及/或彼此不同的范围，或根本不限制。当这些值中的一或多者被限制为一系列值时，可在编码器或解码器处或在编码器及解码器两者处强加限制。举例来说，视频编码器20可防止将大于预定数目的SEI消息添加至SEI NAL单元的嵌套式SEI消息结构。

在经修改嵌套式SEI消息语法结构的情况下，嵌套式SEI消息结构并不限制上文所论述的当前(即，常规)嵌套式SEI消息结构。确切地说，嵌套式SEI消息结构不再被限制为SEI NAL单元中的最后一个SEI消息结构，且嵌套式SEI消息结构可扩展(例如，使用reserved_payload_extension_data语法元素)。

图5根据本发明的各种实施例说明用于视频译码的例示性过程500。以步骤510开始的过程500可由视频编码器20、视频编码器21、视频解码器30及/或视频解码器31或任何其它组件实施。在步骤520中，对SEI NAL单元处理。SEI NAL单元可包括RBSP，RBSP包括一或多个SEI消息结构。这些SEI消息结构中的一或多者包括经配置以包括一或多个SEI消息的至少一个嵌套式SEI消息结构。在步骤530中，对指示包括于至少一个嵌套式SEI消息结构内的多个SEI消息的语法元素进行译码。此译码可包括解码语法元素(例如，如关于图6中的步骤650所描述)或编码语法元素(例如，如关于图7中的步骤770所描述)。另外，可执行步骤530以作为步骤520中的处理的一部分或与所述处理分离。过程500在步骤580中结束。

图6根据本发明的各种实施例说明待用于视频解码中的例示性过程600。以步骤610开始的过程600可由视频解码器30及/或视频解码器31或任何其它组件实施。出于方便起见，将过程600描述为由视频解码器30执行。在步骤620中，接收SEI消息结构。在步骤630中，确定SEI消息结构是嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)还是非嵌套式SEI消息结构。应理解，可针对仅一个特定类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构或位流分割嵌套式SEI消息结构)或多种类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构两者)执行步骤630。

如果在步骤630中确定SEI消息结构是非嵌套式SEI消息结构，那么在步骤640中常规地解析SEI消息结构(即，如HEVC规范的当前草案中所指示)，且过程600在步骤680中结束。

另一方面，如果在步骤630中确定SEI消息结构是嵌套式SEI消息结构，那么在步骤650中确定嵌套式SEI消息结构中的SEI消息的数目。举例来说，可通过编码嵌套式SEI消息结构的视频编码器(例如，视频编码器20或视频编码器21)而将此数目并入到SEI消息结构或其它结构中，在此状况下，视频解码器30通过从嵌套式SEI消息结构或其它结构中的数目的经译码位置提取数目值来确定此数目。替代地，嵌套式SEI消息结构中的SEI消息的数目可通过视频编码器以另一方式(例如，通过一些外部装置提供)用信号发送。在任一状况下，嵌套式SEI消息结构中的SEI消息的用信号发送的数目可为SEI消息的实际数目或SEI消息减一(例如，可缩放嵌套式SEI消息的变量num_seis_in_scalable_minus1”或位流分割嵌套式SEI消息的变量“num_seis_in_bsp_minus1”)的数目。

在步骤660中，确定嵌套式SEI消息结构中的所确定数目个SEI消息是否已被解析。如果嵌套式SEI消息结构中的所确定数目个SEI消息尚未被解析，那么随后在步骤670中解析SEI消息，且过程600接着返回到步骤660。另一方面，如果嵌套式SEI消息结构中的所确定数目个SEI消息已被解析，那么过程600在步骤680中结束。由步骤660及670形成的此回路可使用如上文所论述的“for回路”实施且通过表3的行10至11及表4的行06至07进行说明。替代地，由步骤660及670形成的回路可使用不同类型的回路结构实施。

图7根据本发明的各种实施例说明待用于视频编码中的过程700。以步骤710开始的过程700可通过视频编码器20及/或视频编码器21或任何其它组件实施。在步骤720中，接收一或多个SEI消息以用于产生SEI消息结构。在步骤730中，确定待产生的SEI消息结构是否是嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)。应理解，可针对仅一个特定类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构或位流分割嵌套式SEI消息结构)或多种类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构两者)执行步骤730。

如果在步骤730中确定SEI消息结构是非嵌套式SEI消息结构，那么在步骤740中常规地将接收到的SEI消息添加到SEI消息结构(即，如由HEVC规范的当前草案中所指示)，且过程700在步骤780中结束。

另一方面，如果在步骤730中确定SEI消息结构是嵌套式SEI消息结构，那么在步骤750中确定(例如，通过计数、解析等等)嵌套式SEI消息结构内含有的SEI消息的数目。举例来说，视频编码器可对SEI消息的数目计数，同时视频编码器将SEI消息添加到SEI消息结构，或视频编码器可在将任何SEI消息添加到SEI消息结构之前对SEI消息的数目计数。在任何状况下，如在步骤760中所表示，将SEI消息添加到嵌套式SEI消息结构(例如，将SEI消息译码于嵌套式SEI消息结构内)。

在步骤770中，将在步骤750中确定的SEI消息的数目并入到嵌套式SEI消息结构或其它结构中(例如，译码到嵌套式SEI消息结构或其它结构中)。替代地，可以另一方式用信号发送SEI消息的数目。在任一状况下，嵌套式SEI消息结构中的SEI消息的用信号发送的数目可为SEI消息的实际数目或SEI消息减一(例如，可缩放嵌套式SEI消息的变量“num_seis_in_scalable_minus1”或位流分割嵌套式SEI消息的变量“num_seis_in_bsp_minus1”)的数目。过程700在步骤780中结束。

在各种实施例中，添加限制，以使得嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)被限制为SEI NAL单元中的最后一个SEI消息结构。此限制可与上文所描述的本发明的其它实施例的特征组合使用或作为替代例使用。

举例来说，视频编码器20及/或视频编码器21可防止将嵌套式SEI消息结构添加到位于sei_rbsp结构420中的其它数据(即，除了RBSP拖尾位结构450以外的数据)之前的位置处的SEI NAL单元。换句话说，视频编码器20可确保如果将嵌套式SEI消息结构添加到SEINAL单元，那么将嵌套式SEI消息结构添加到SEI NAL单元中的任何其它SEI消息结构之后。

另外，视频编码器20及/或视频编码器21可防止将两个或多于两个嵌套式SEI消息结构添加到单个SEI NAL单元，以便避免SEI NAL单元包括两个嵌套式SEI消息结构的情形。在此情形下，嵌套式SEI消息结构中的一者将必定在其它数据(即，两个或多于两个嵌套式SEI消息中的另一嵌套式SEI消息)之前，从而产生解析误差，如上文所描述。

图8根据本发明的各种实施例说明待用于视频编码中的过程800。以步骤810开始的过程800可通过视频编码器20及/或视频编码器21或任何其它组件实施。在步骤820中，接收一或多个SEI消息结构以用于产生SEI NAL单元。在步骤830中，确定待并入到SEI NAL单元中的SEI消息结构是否包含嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及/或位流分割嵌套式SEI消息结构)。应理解，可针对仅一个特定类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构或位流分割嵌套式SEI消息结构)或多种类型的嵌套式SEI消息结构(例如，可缩放嵌套式SEI消息结构及位流分割嵌套式SEI消息结构两者)执行步骤830。

如果在步骤830中确定待并入到SEI NAL单元中的SEI消息结构不包含任何嵌套式SEI消息，那么在步骤840中常规地将接收到的SEI消息结构添加到SEI NAL单元(即，如在HEVC规范的当前草案中所指示)，且过程800在步骤880中结束。

另一方面，如果在步骤830中确定待并入到SEI NAL单元中的SEI消息结构确实包含嵌套式SEI消息结构，那么对在步骤820中接收到的SEI消息结构进行排序，以使得嵌套式SEI消息结构是所有SEI消息结构当中的最后一个结构。举例来说，如果在820步骤中接收到四个SEI消息结构A、B、C及D，且结构C是嵌套式SEI消息结构而A、B及D是非嵌套式SEI消息结构，那么对所述结构进行排序以使得嵌套式SEI消息结构C是最后一个结构(例如，A-B-D-C、B-A-D-C、B-D-A-C等等)。可以任何方式(例如，按根据其它条件或参数等等随机地接收非嵌套式SEI消息结构的次序)确定非嵌套式SEI消息结构A、B及D的次序，只要结构A、B及D的次序各自在结构C之前即可。

在于步骤850中确定在步骤820中接收到的SEI消息结构的次序之后，在步骤860中按所确定的次序将SEI消息结构并入到SEI NAL单元中。应理解，可在将SEI消息结构中的任一者添加到SEI NAL单元之前确定所述次序。替代地，可在将SEI消息结构添加到SEI NAL单元时(例如，通过按接收非嵌套式SEI消息结构的次序添加非嵌套式SEI消息结构，但在已添加所有其它SEI消息结构之后存储待添加的嵌套式SEI消息结构(当遭遇时))确定所述次序。过程800在步骤880中结束。

将有效负载大小信息用于解析SEI消息中

SEI消息结构(例如，图4中的sei_message()430A或430B)包括标示SEI消息结构的有效负载(例如，图4中的sei_payload()440A或440B)中的RBSP字节的数目的变量“payloadSize”。以“payloadSize”表示的此数目包含有效负载的所有字节，所述字节包含有效负载扩展(例如，图4中的444A或444B)中的字节(当存在时)。

然而，若干SEI消息语法结构包含例如recovery_point()的特定SEI消息语法结构内的所有payloadSize字节。此情形不给任何有效负载扩展留下存在的空间。当前针对HEVC定义且善属于此类别的SEI消息语法结构是：填充物有效负载SEI消息；已注册的使用者资料；未注册的使用者资料；保留的SEI消息；及视频参数集(VPS)重写SEI消息。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可用不同序列执行、可添加、合并或全部省略(例如，实践所述技术并不需要所有的所描述动作或事件)。此外，在某些实例中，可例如经由多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。

可使用多种不同技艺及技术中的任一者来表示本文中所揭示的信息及信号。举例来说，可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在整个上文描述中可能参考的数据、指令、命令、信息、信号、位、符号及码片。

结合本文揭示的实施例所描述的各种说明性逻辑块、模块、电路及算法步骤可实施为电子硬件、计算机软件，或两者的组合。为清晰地说明硬件与软件的此可互换性，以上已大体就其功能性来描述了各种说明性组件、块、模块、电路及步骤。此功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为引起偏离本发明的范围。

本文中所描述的技术可在硬件、软件、固件或其任一组合中实施。所述技术可实施于多种装置中的任一者中，例如通用计算机、无线通信装置手持机或集成电路装置，其具有包含在无线通信装置手持机及其它装置中的应用的多种用途。被描述为模块或组件的任何特征可一起实施于集成逻辑装置中或分开来实施为离散但可互操作的逻辑装置。如果以软件实施，那么所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体来实现，所述程序代码包含在执行时执行上文所描述的方法中的一或多者的指令。计算机可读数据存储媒体可形成计算机程序产品的一部分，所述计算机程序产品可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体，例如，随机存取存储器(RAM)(例如，同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存器、磁性或光学数据存储媒体等等。另外或作为替代，所述技术可至少部分地由计算机可读通信媒体来实现，所述计算机可读通信媒体以指令或数据结构的形式载运或传达程序代码且可由计算机存取、读取及/或执行(例如，传播的信号或波)。

程序代码可由处理器执行，所述处理器可包含一或多个处理器，例如，一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。此处理器可经配置以执行本发明中所描述的技术中的任一者。通用处理器可为微处理器；但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器或任何其它此类配置。因此，如本文中所使用的术语“处理器”可指前述结构中的任一者、上述结构的任何组合，或适合于实施本文中所描述的技术的任何其它结构或设备。另外，在一些方面中，可将本文中所描述的功能性提供于经配置以用于编码及解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(CODEC)中。

已描述本发明的各种实施例。这些及其它实施例在以下附权利要求书的范围内。

Claims

1.一种用于视频编码或视频解码的方法，所述方法包括：

处理包括原始字节序列有效负载RBSP的辅助增强信息SEI网络抽象层NAL单元，所述原始字节序列有效负载RBSP包括包含一或多个sei_message()语法结构的至少一个位流分割嵌套式SEI消息结构；及

在所述至少一个位流分割嵌套式SEI消息结构内对num_seis_in_bsp_minus1语法元素进行编码或从所述至少一个位流分割嵌套式SEI消息结构对num_seis_in_bsp_minus1语法元素进行解码，所述num_seis_in_bsp_minus1语法元素加上1指定所述至少一个位流分割嵌套式SEI消息结构内含有的所述一或多个sei_message()语法结构的数目，所述num_seis_in_bsp_minus1语法元素与所述一或多个sei_message()语法结构不同。

2.根据权利要求1所述的方法，其中通过对所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构的计数，来确定所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构的数目。

3.根据权利要求1所述的方法，其中所述方法是用于视频解码的方法，且其中所述方法进一步包括基于经解码的语法元素来确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目。

4.根据权利要求3所述的方法，其进一步包括基于包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所确定的数目来解析所述至少一个位流分割嵌套式SEI消息结构。

5.根据权利要求3所述的方法，其中从所述至少一个位流分割嵌套式SEI消息结构解码所述语法元素。

6.根据权利要求1所述的方法，其中所述方法是用于视频编码的方法，且其中所述方法进一步包括在编码所述语法元素之前确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目。

7.根据权利要求6所述的方法，其中将所述语法元素编码到所述至少一个位流分割嵌套式SEI消息结构中。

8.一种用于视频编码或视频解码的装置，所述装置包括：

存储器，其经配置以存储视频数据，及

处理器，其与所述存储器通信，所述处理器经配置以进行以下操作：

处理与所述视频数据相关联的辅助增强信息SEI网络抽象层NAL单元，其中所述SEINAL单元包括原始字节序列有效负载RBSP，所述原始字节序列有效负载RBSP包括包含一或多个sei_message()语法结构的至少一个位流分割嵌套式SEI消息结构；及

在所述至少一个位流分割嵌套式SEI消息结构内对num_seis_in_bsp_minus1语法元素进行编码或从所述至少一个位流分割嵌套式SEI消息结构对num_seis_in_bsp_minus1语法元素进行解码，num_seis_in_bsp_minus1语法元素加上1指定所述至少一个位流分割嵌套式SEI消息结构内含有的所述一或多个sei_message()语法结构的数目，所述num_seis_in_bsp_minus1语法元素与所述一或多个sei_message()语法结构不同。

9.根据权利要求8所述的装置，其中通过对所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构进行计数来确定所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构的数目。

10.根据权利要求8所述的装置，其中所述装置是用于视频解码的装置，其中所述处理器进一步经配置以基于经解码的语法元素来确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目。

11.根据权利要求10所述的装置，其中所述处理器进一步经配置以基于包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所确定的数目来解析所述至少一个位流分割嵌套式SEI消息结构。

12.根据权利要求10所述的装置，其中所述处理器进一步经配置以从所述至少一个位流分割嵌套式SEI消息结构解码所述语法元素。

13.根据权利要求8所述的装置，其中所述装置是用于视频编码的装置，其中所述处理器进一步经配置以在编码所述语法元素之前确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目。

14.根据权利要求13所述的装置，其中所述处理器进一步经配置以将所述语法元素编码到所述至少一个位流分割嵌套式SEI消息结构中。

15.根据权利要求8所述的装置，其进一步包括经配置以显示所述视频数据的显示器。

16.根据权利要求8所述的装置，其中所述装置包括以下各者中的至少一者：

集成电路；

微处理器；或

无线通信装置。

17.一种用于视频编码或视频解码的装置，所述装置包括：

用于处理与视频数据相关联的辅助增强信息SEI网络抽象层NAL单元的装置，其中所述SEI NAL单元包括原始字节序列有效负载RBSP，所述原始字节序列有效负载RBSP包括包含一或多个sei_message()语法结构的至少一个位流分割嵌套式SEI消息结构；及

用于在所述至少一个位流分割嵌套式SEI消息结构内对num_seis_in_bsp_minus1语法元素进行编码或从所述至少一个位流分割嵌套式SEI消息结构对num_seis_in_bsp_minus1语法元素进行解码的装置，所述num_seis_in_bsp_minus1语法元素加上1指定所述至少一个位流分割嵌套式SEI消息结构内含有的所述一或多个sei_message()语法结构的数目，所述num_seis_in_bsp_minus1语法元素与所述一或多个sei_message()语法结构不同。

18.根据权利要求17所述的装置，其中通过对所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构进行计数来确定所述至少一个位流分割嵌套式SEI消息结构内包含的所述一或多个sei_message()语法结构的数目。

19.根据权利要求17所述的装置，其中用于视频编码或视频解码的装置是用于视频解码的装置，且其中所述装置进一步包括用于基于经解码的语法元素来确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目的装置。

20.根据权利要求19所述的装置，其进一步包括用于基于包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所确定的数目来解析所述至少一个位流分割嵌套式SEI消息结构的装置。

21.根据权利要求19所述的装置，其中用于解码所述语法元素的装置从所述至少一个位流分割嵌套式SEI消息结构解码所述语法元素。

22.根据权利要求17所述的装置，其中用于视频编码或视频解码的装置是用于视频编码的装置，且其中所述装置进一步包括用于在编码所述语法元素之前确定包括于所述至少一个位流分割嵌套式SEI消息结构内的所述一或多个sei_message()语法结构的所述数目的装置。

23.根据权利要求22所述的装置，其中所述用于编码所述语法元素的装置将所述语法元素编码到所述至少一个位流分割嵌套式SEI消息结构中。

24.一种非暂时性计算机可读媒体，其具有存储在其上的指令，所述指令在执行时致使一或多个处理器执行如权利要求1-7中任何一个所述的方法。