CN117529917A

CN117529917A - 补充增强信息消息约束

Info

Publication number: CN117529917A
Application number: CN202280026955.7A
Authority: CN
Inventors: 王业奎; 王洋; 张莉
Original assignee: Douyin Vision Co Ltd; ByteDance Inc
Current assignee: Douyin Vision Co Ltd; ByteDance Inc
Priority date: 2021-04-08
Filing date: 2022-04-08
Publication date: 2024-02-06
Also published as: WO2022214047A1; EP4305844A1; CN117501687A; KR20230165249A; CN117529925A; EP4305841A4; EP4305842A1; JP2024513460A; JP2024513459A; JP2024513457A; US20240040139A1; JP2024513458A; KR20230165252A; US20240040157A1; US20240040140A1; EP4305841A1; US20240048749A1; EP4305846A1; WO2022214056A1; WO2022214046A1

Abstract

一种由视频编解码装置实现的方法。该方法包括：每当访问单元(AU)包含可缩放性维度信息(SDI)补充增强信息(SEI)消息和多视图获取信息(MAI)SEI消息两者时，确定该SDI SEI消息按照解码顺序在MAI SEI消息之前；以及基于SDI SEI消息和MAI SEI消息执行视频和视频的比特流之间的转换。还公开了对应的视频编解码装置和非暂时性计算机可读介质。

Description

补充增强信息消息约束

相关申请的交叉引用

本专利申请要求北京字节跳动网络技术有限公司于2021年4月8日提交的且名称为“补充增强信息增强”的国际申请No.PCT/CN2021/085894的优先权，该申请通过引用并入本文。

技术领域

本公开总体上涉及视频编解码，并且尤其涉及图像/视频编解码中使用的补充增强信息(supplemental enhancement information，SEI)消息。

背景技术

数字视频占据了互联网和其他数字通信网络上使用的最大带宽。随着能够接收和显示视频的连接用户设备数量的增加，预计数字视频使用的带宽需求将继续增长。

发明内容

所公开的方面/实施例提供了为比特流中的一些SEI消息规定特定解码顺序的技术。作为另一个示例，本公开提供了约束特定SEI消息不被包括在可缩放嵌套SEI消息中的技术。通过规定解码顺序和/或约束特定SEI消息不被包括在可缩放嵌套SEI消息中，视频编解码过程得到改进。

第一方面涉及一种由视频编码设备实现的方法。该方法包括：每当访问单元(access unit，AU)包含可缩放性维度信息(scalability dimension information，SDI)补充增强信息(SEI)消息和多视图获取信息(multiview acquisition information，MAI)SEI消息两者时，确定SDI SEI消息按照解码顺序在MAI SEI消息之前；以及基于SDI SEI消息和MAI SEI消息执行视频和视频的比特流之间的转换。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定比特流是范围内的比特流，并且其中SDI SEI消息包括规定范围内的比特流中的最大层数的SDI最大层语法元素。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定SDI SEI消息包括SDI多视图信息标志，SDI多视图信息标志规定范围内的比特流是否是多视图比特流。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定SDI SEI消息包括SDI辅助信息标志，SDI辅助信息标志规定辅助信息是否由在范围内的比特流中的一个或多个层携带。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定MAI SEI消息规定内部和外部相机参数。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定内部和外部相机参数用于在三维(3D)显示器上呈现之前处理解码视图。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定MAI SEI消息按照解码顺序从当前AU持续到包含后续MAI SEI消息的后续AU。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定后续MAI SEI消息包含不同于MAI SEI消息的内容。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定MAI SEI消息按照解码顺序从当前AU持续到比特流的结束。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定对于至少一个i值，每当AU包含sdi_aux_id[i]等于2的SDI SEI消息和深度表示信息(depthrepresentation information，DRI)SEI消息两者时，确定SDI SEI消息按照解码顺序在DRISEI消息之前。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定对于至少一个i值，每当AU包含sdi_aux_id[i]等于1的SDI SEI消息和α通道信息(alpha channelinformation，ACI)SEI消息两者时，确定SDI SEI消息按照解码顺序在ACI SEI消息之前。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定i是表示比特流中的第i层的整数。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定SDI SEI消息被限制为不被包括在可缩放嵌套SEI消息中。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定在比特流中具有等于3、133、179、180或205的有效负载类型的任何SEI消息被限制为不被包括在可缩放嵌套SEI消息中。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定DRI SEI消息规定类型AUX_DEPTH的辅助图片的参数，用于在三维(3D)显示器上呈现之前处理解码视图。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定ACI SEI消息提供关于α通道样点值和适用于解码α平面的后处理的信息，解码α平面在类型AUX_ALPHA的辅助图片和一个或多个相关联的主要图片中被编解码。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定由视频编解码装置将SDI SEI消息、MAI SEI消息、DRI SEI消息和ACI SEI消息中的一个或多个编码成比特流。

可选地，在前述方面中的任一项中，该方面的另一实现方式规定由视频编解码装置对比特流进行解码以将SDI SEI消息、MAI SEI消息、DRI SEI消息和ACI SEI消息中的一个或多个获取到比特流中。

第二方面涉及一种用于对视频数据进行编解码的装置，包括处理器和其上具有指令的非暂时性存储器，其中指令在由处理器执行时使得处理器执行本文公开的任何方法。

第三方面涉及一种非暂时性计算机可读介质，包括供编解码装置使用的计算机程序产品，计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令，计算机可执行指令在由一个或多个处理器执行时使得编解码装置执行本文公开的任何方法。

第四方面涉及一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质，其中方法包括：每当访问单元(AU)包含可缩放性维度信息(SDI)补充增强信息(SEI)消息和多视图获取信息(MAI)SEI消息两者时，确定SDI SEI消息按照解码顺序在MAI SEI消息之前；和基于SDI SEI消息和MAI SEI消息生成比特流。

第五方面涉及一种用于存储视频的比特流的方法，包括：每当访问单元(AU)包含可缩放性维度信息(SDI)补充增强信息(SEI)消息和多视图获取信息(MAI)SEI消息两者时，确定SDI SEI消息按照解码顺序在MAI SEI消息之前；基于SDI SEI消息和MAI SEI消息生成比特流；和将比特流存储在非暂时性计算机可读介质中。

为清晰起见，任何一个前述实施例可与任何一个或多个其他前述实施例组合，以在本公开的范围内形成新的实施例。

从以下结合附图和权利要求的详细说明中，可更清楚地理解这些和其他特征。

附图说明

为了更全面地理解本公开内容，现结合附图和详细说明参考以下简要说明，其中相同的参考数字代表相同的部件。

图1是图示了基于层的预测的示例的示意图。

图2图示了利用输出层集(output layer set，OLS)的基于层的预测的示例。

图3图示了视频比特流的实施例。

图4是显示示例视频处理系统的框图。

图5是视频处理装置的框图。

图6是图示示例视频编解码系统的框图。

图7是图示视频编码器的示例的框图。

图8是图示视频解码器的示例的框图。

图9是根据本公开的实施例的编解码视频数据方法。

具体实施方式

首先应理解，尽管下文提供了一个或多个实施例的说明性实现方式，但可使用任何数量的技术实现所公开的系统和/或方法，无论是当前已知的还是现有的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术，包括在此示出和描述的示例性设计和实现方式，而是可以在所附权利要求及其等同物的全部范围内进行修改。

视频编解码标准主要通过著名的国际电信联盟-电信(ITU-T)和国际标准化组织(ISO)/国际电工委员会(IEC)标准的发展而演变。ITU-T制定了H.261和H.263，ISO/IEC制定了运动图片专家组(MPEG)-1和MPEG-4视频，并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(Advanced Video Coding，AVC)和H.265/高效视频编解码(High Efficiency Video Coding，HEVC)标准。参见ITU-T和ISO/IEC，“高效视频编解码”，Rec.ITU-T H.265|ISO/IEC 23008-2(现行版本)。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时域预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，视频编解码专家组(Video Coding Experts Group，VCEG)和MPEG于2015年联合成立了联合视频探索团队(Joint Video Exploration Team，JVET)。此后，JVET采用了许多新方法，并将其输入到名为联合探索模型(Joint Exploration Model，JEM)的参考软件中。参见J.Chen，E.Alshina，G.J.Sullivan，J.-R.Ohm，J.Boyce，“联合探索测试模型7(JointExploration Test Model 7，JEM7)的算法描述”，JVET-G1001，2017年8月。当多功能视频编解码(Versatile Video Coding，VVC)项目正式启动时，JVET后来更名为联合视频专家团队(Joint Video Experts Team，JVET)。VVC是新的编解码标准，目标是与HEVC相比降低50％比特率，该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。参见Rec.ITU-TH.266|ISO/IEC 23090-3，“多功能视频编解码”，2020年。

VVC标准(ITU-T H.266|ISO/IEC 23090-3)和相关的多功能补充增强信息(Versatile Supplemental Enhancement Information，VSEI)标准(ITU-T H.274|ISO/IEC23002-7)已被设计用于最广泛的应用，包括传统用途(诸如电视广播、视频会议或从存储介质回放)，以及更新和更先进的用途(诸如自适应比特率流、视频区域提取、来自多个编解码视频比特流的内容的合成和merging、多视图视频、可缩放分层编解码和视口自适应360°沉浸式媒体)。参见B.Bross，J.Chen，S.Liu，Y.-K.Wang(编辑)，“多功能视频编解码(草案10)”，JVET-S2001，Rec.ITU-T Rec.H.274|ISO/IEC 23002-7，“用于编解码视频比特流的多功能补充增强信息消息”，2020，以及J.Boyce，V.Drugeon，G.Sullivan，Y.-K.Wang(编辑)，“用于编解码视频比特流的多功能补充增强信息消息(草案5)”，JVET-S2007。

基本视频编解码(Essential Video Coding，EVC)标准(ISO/IEC 23094-1)是最近由MPEG开发的另一种视频编解码标准。

图1是图示基于层的预测100的示例的示意图。基于层的预测100与单向帧间预测和/或双向帧间预测兼容，但是也在不同层中的图片之间执行。

基于层的预测100应用于不同层中的图片111、112、113和114与图片115、116、117和118之间。在所示的示例中，图片111、112、113和114是层N+1 132的一部分，并且图片115、116、117和118是层N 131的一部分。诸如层N 131和/或层N+1 132的层是一组图片，它们都与相似的特性值相关联，诸如相似的尺寸、质量、分辨率、信噪比、容量等。在所示的示例中，层N+1 132与比层N 131更大的图片尺寸相关联。因此，在该示例中，层N+1 132中的图片111、112、113和114比层N 131中的图片115、116、117和118具有更大的图片尺寸(例如，更大的高度和宽度，因此有更多的样点)。然而，这样的图片可以通过其他特征在层N+1 132和层N 131之间被分开。虽然仅示出了两层，层N+1 132和层N 131，但是一组图片可以基于相关联的特性被分成任意数量的层。层N+1 132和层N 131也可以由层标识符(identifier，ID)来表示。层ID是与图片相关联的数据项，并且表示该图片是所指示的层的一部分。因此，每个图片111-118可以与对应的层ID相关联，以指示哪个层N+1 132或层N 131包括对应的图片。

不同层131-132中的图片111-118配置为交替显示。这样，不同层131-132中的图片111-118可以共享相同的时域标识符(ID)，并且可以被包括在相同的访问单元(AU)106中。如这里所使用的，AU是与从解码图片缓冲器(decoded picture buffer，DPB)输出的相同显示时间相关联的一个或多个编解码图片的集合。例如，如果需要较小的图片，解码器可以在当前显示时间解码并显示图片115，或者如果需要较大的图片，解码器可以在当前显示时间解码并显示图片111。这样，较高层N+1 132处的图片111-114包含与对应的较低层N 131处的图片115-118基本相同的图像数据(尽管图片尺寸不同)。具体地，图片111包含与图片115基本相同的图像数据，图片112包含与图片116基本相同的图像数据，等等。

图片111-118可通过参考相同层N 131或N+1 132中的其他图片111-118进行编解码。参考相同层中的另一个图片对图片进行编解码，导致帧间预测123，其兼容单向帧间预测和/或双向帧间预测。帧间预测123由实线箭头描绘。例如，图片113可以通过使用层N+1132中的图片111、112和/或114中的一个或两个作为参考，采用帧间预测123来编解码，其中一个图片被参考用于单向帧间预测和/或两个图片被参考用于双向帧间预测。此外，图片117可通过使用层N 131中的图片115、116和/或118中的一个或两个作为参考，采用帧间预测123来编解码，其中一个图片被参考用于单向帧间预测和/或两个图片被参考用于双向帧间预测。当执行帧间预测123时，当图片被用作相同层中的另一个图片的参考时，该图片可以被称为参考图片。例如，图片112可为参考图片，用于根据帧间预测123对图片113进行编解码。在多层上下文中，帧间预测123也可以被称为层内预测。这样，帧间预测123是通过参考与当前图片不同的参考图片中的指示样点对当前图片的样点进行编解码的机制，其中参考图片和当前图片在相同层中。

图片111-118也可通过参考不同层中的其他图片111-118进行编解码。这个过程被称为层间预测121，并由虚线箭头表示。层间预测121是通过参考参考图片中的指示样点来编解码当前图片的样点的机制，其中当前图片和参考图片在不同的层中，因此具有不同的层ID。例如，较低层N 131中的图片可以用作参考图片，以对较高层N+1 132中的对应图片进行编解码。作为具体示例，可以根据层间预测121参考图片115对图片111进行编解码。在这种情况下，图片115被用作层间参考图片。层间参考图片是用于层间预测121的参考图片。在大多数情况下，层间预测121受到约束，使得当前图片(例如图片111)只能使用包括在相同AU 106中并且位于较低层的(多个)层间参考图片(例如图片115)。当多个层(例如，多于两个)可用时，层间预测121可以基于比当前图片更低的级别的多个层间参考图片来编码/解码当前图片。

视频编码器可采用基于层的预测100，以经由帧间预测123和层间预测121的多种不同组合和/或排列对图片111-118进行编码。例如，图片115可以根据帧内预测来编解码。然后，通过使用图片115作为参考图片，可以根据帧间预测123对图片116-118进行编解码。此外，可以通过使用图片115作为层间参考图片，根据层间预测121对图片111进行编解码。然后，通过使用图片111作为参考图片，可以根据帧间预测123对图片112-114进行编解码。这样，对于不同的编解码机制，参考图片可以用作单层参考图片和层间参考图片。通过基于较低层N 131图片对较高层N+1 132图片进行编解码，较高层N+1 132可以避免采用帧内预测，帧内预测具有比帧间预测123和层间预测121低得多的编解码效率。这样，帧内预测的低编解码效率可以被限制到最小/最低质量的图片，并且因此被限制到编解码最少量的视频数据。用作参考图片和/或层间参考图片的图片可以在参考图片列表结构中包含的(多个)参考图片列表的条目中指示。

图1中的每个AU 106可包含若干图片。例如，一个AU 106可以包含图片111和115。另一个AU 106可以包含图片112和116。实际上，每个AU 106是与用于从解码图片缓冲器(DPB)输出的相同显示时间(例如，相同的时域ID)相关联的一个或多个编解码图片的集合(例如，用于向用户显示)。每个访问单元定界符(access unit delimiter，AUD)108是用于指示AU(例如，AU 106)的开始或AU之间的边界的指示符或数据结构。

先前的H.26x视频编解码系列已在从单层编解码的(多个)档次中分开的(多个)档次中提供了对可缩放性的支持。可缩放视频编解码(scalable video coding，SVC)是AVC/H.264的可缩放扩展，提供对空域、时域和质量可缩放性的支持。对于SVC，在增强层(enhancement layer，EL)图片中的每个宏块(macroblock，MB)中信令通知标志，以指示ELMB是否是使用来自较低层的并置块预测的。来自并置块的预测可以包括纹理、运动矢量和/或编解码模式。SVC的实现方式不能在其设计中直接重用未经修改的H.264/AVC实现方式。SVC EL宏块语法和解码过程不同于H.264/AVC语法和解码过程。

可缩放HEVC(scalable HEVC，SHVC)是HEVC/H.265标准的扩展，提供对空域和质量可缩放性的支持，多视图HEVC(multiview HEVC，MV-HEVC)是HEVC/H.265的扩展，提供对多视图可缩放性的支持，并且3D HEVC(3D-HEVC)是HEVC/H.264的扩展，提供对三维(3D)视频编解码的支持，其比MV-HEVC更先进且更有效。注意，时域可缩放性被包括作为单层HEVC编解码器的组成部分。HEVC的多层扩展的设计采用了这样的思想，其中用于层间预测的解码图片仅来自相同的AU，并且被视为长期参考图片(long-term reference picture，LTRP)，并且与当前层中的其他时域参考图片一起被分配(多个)参考图片列表中的参考索引。通过设置参考索引的值以参考(多个)参考图片列表中的(多个)层间参考图片，在预测单元(prediction unit，PU)级别实现层间预测(inter-layer prediction，ILP)。

值得注意的是，参考图片重采样和空域可缩放性特征均要求对参考图片或其一部分进行重采样。参考图片重采样(reference picture resampling，RPR)可以在图片级别或编解码块级别实现。然而，当RPR被称为编解码特征时，它是用于单层编解码的特征。即便如此，从编解码器设计的角度来看，对于单层编解码的RPR特征和多层编解码的空域可缩放性特征两者，使用相同的重采样滤波器是可能的或者甚至是优选的。

图2图示了利用输出层集(OLS)的基于层的预测200的示例。基于层的预测100与单向帧间预测和/或双向帧间预测兼容，但是也在不同层中的图片之间执行。图2的基于层的预测200类似于图1的预测。因此，为了简洁起见，不再重复对基于层的预测200的完整描述。

图2的编解码视频序列(CVS)290中的一些层包含在OLS中。OLS是层集，其中一个或多个层被规定为输出层。输出层是输出的OLS的层。图2描绘了三种不同的OLS，即OLS1、OLS2和OLS 3。如图所示，OLS1包括层N 231和层N+1 232。层N 231包括图片215、216、217和218，并且层N+1 232包括图片211、212、213和214。OLS2包括层N 231、层N+1 232、层N+2 233和层N+3 234。层N+2 233包括图片241、242、243和244，并且层N+3 234包括图片251、252、253和254。OLS 3包括层N 231、层N+1 232和层N+2 233。尽管示出了三个OLS，但是在实际应用中可以使用不同数量的OLS。在所图示的实施例中，没有一个OLS包括层N+4 235，其包含图片261、262、263和264。

每个不同的OLS可包含任意数量的层。生成不同的OLS是为了适应具有不同编解码能力的各种不同设备的编解码能力。例如，仅包含两层的OLS 1可以被生成以适应具有相对有限编解码能力的移动电话。另一方面，包含四层的OLS2可以被生成以适应大屏幕电视，其能够解码比移动电话更高层。包含三层的OLS 3可以被生成以适应个人计算机、膝上型计算机或平板计算机，其可以解码比移动电话更高层，但是不能解码像大屏幕电视那样的最高层。

图2中的层可全部相互独立。也就是说，可以在不使用层间预测(ILP)的情况下对每个层进行编解码。在这种情况下，这些层被称为联播层。图2中的一个或多个层也可以使用ILP来编解码。可以通过视频参数集(VPS)中的标志来信令通知这些层是联播层还是使用ILP对一些层进行编解码。当一些层使用ILP时，层之间的层依赖关系也在VPS中信令通知。

在实施例中，当层为联播层时，仅选择一层进行解码和输出。在实施例中，当一些层使用ILP时，所有层(例如，整个比特流)被规定为要被解码，并且这些层中的某些层被规定为输出层。例如，(多个)输出层可以是1)仅最高层，2)所有层，或3)最高层加上指示的较低层的集合。例如，当最高层加上指示的较低层的集合被VPS中的标志规定用于输出时，来自OLS 2的层N+3 234(是最高层)和层N 231和N+1 232(是较低层)被输出。

图2中的一些层可称为主要层，而其他层可称为辅助层。例如，层N 231和层N+1232可以被称为主要层(包含主要图片)，并且层N+2 233和层N+3 234可以被称为辅助层(包含辅助图片)。辅助层可以被称为α辅助层或深度辅助层。当辅助信息存在于比特流中时，主要层可以与辅助层相关联。

图3图示了视频比特流300的实施例。如这里所使用的，视频比特流300也可以被称为编解码视频比特流、比特流或其变体。如图3所示，比特流300包括以下一个或多个：解码能力信息(decoding capability information，DCI)302、视频参数集(video parameterset，VPS)304、序列参数集(sequence parameter set，SPS)306、图片参数集(pictureparameter set，PPS)308、图片标头(picture header，PH)312和图片314。DCI 302、VPS304、SPS 306和PPS 308中的每一个可以统称为参数集。在实施例中，图3中未示出的其他参数集也可以被包括在比特流300中，例如自适应参数集(adaption parameter set，APS)，其是包含应用于由在条带标头中找到的零个或多个语法元素确定的零个或多个条带的语法元素的语法结构。

DCI 302，也可称为解码参数集(decoding parameter set，DPS)或解码器参数集，是包含应用于整个比特流的语法元素的语法结构。DCI 302包括在视频比特流(例如，比特流300)的生命周期内保持不变的参数，其可以转化为会话的生命周期。DCI 302可以包括档次、级别和子档次信息，以确定保证永远不会超过的最大复杂度互操作点，即使视频序列的拼接发生在会话中。它还可选地包括约束标志，该约束标志指示视频比特流将被那些标志的值所指示的某些特征的使用所约束。这样，比特流可以被标记为不使用某些工具，这尤其允许解码器实现中的资源分配。像所有参数集一样，DCI 302在第一次被参考时存在，并且被视频序列中的第一图片参考，这意味着它必须在比特流中的第一网络抽象层(networkabstraction layer，NAL)单元之间发送。虽然比特流中可以有多个DCI 302，但是其中的语法元素的值在被参考时不能不一致。

VPS 304包括用于增强层的参考图片集构建的解码依赖性或信息。VPS 304提供了可缩放序列的整体视图或视图，包括提供了什么类型的操作点、操作点的档次、层和级别，以及可以用作会话协商和内容选择的基础的比特流的一些其他高级别属性等。

在实施例中，当指示某些层使用ILP时，VPS 304指示VPS规定的OLS总数等于层数，指示第i个OLS包括层索引从0到i(包括端值)的层，并指示对于每个OLS，仅输出OLS中的最高层。

SPS 306包含图片序列(sequence of pictures，SOP)中所有图片共有的数据。SPS306是包含应用于零个或多个完整编解码层视频序列(coded layer video sequence，CLVS)的语法元素的语法结构，如由在PPS 308中找到的语法元素的内容所确定的，PPS 308由在每个图片标头312中找到的语法元素所参考。相比之下，PPS 308包含整个图片314共有的数据。PPS 308是包含应用于零个或多个完整编解码图片的语法元素的语法结构，如在每个图片标头(例如，PH 312)中找到的语法元素所确定的。

DCI 302、VPS 304、SPS 306和PPS 308包含在不同类型的网络抽象层(NAL)单元中。NAL单元是包含要跟随的数据类型的指示(例如，编解码的视频数据)的语法结构。NAL单元被分类为视频编解码层(video coding layer，VCL)和非VCL NAL单元。VCL NAL单元包含表示视频图片中样点的值的数据，而非VCL NAL单元包含任何相关的附加信息，例如参数集(可以应用于多个VCL NAL单元的重要数据)和补充增强信息(定时信息和其他补充数据，其可以增强解码视频信令的可用性，但是对于解码视频图片中的样点值不是必需的)。

在实施例中，DCI 302包含在指定为DCI NAL单元或DPS NAL单元的非VCL NAL单元中。也就是说，DCI NAL单元具有DCI NAL单元类型(NAL unit type，NUT)，而DPS NAL单元具有DPS NUT。在实施例中，VPS 304包含在被指定为VPS NAL单元的非VCL NAL单元中。因此，VPS NAL单元有VPS NUT。在实施例中，SPS 306是被指定为SPS NAL单元的非VCL NAL单元。因此，SPS NAL单元有SPS NUT。在实施例中，PPS 308包含在被指定为PPS NAL单元的非VCLNAL单元中。因此，PPS NAL单元有PPS NUT。

PH 312是包含应用于编解码图片(例如，图片314)的所有条带(例如，条带318)的语法元素的语法结构。在实施例中，PH 312是指定为PH NAL单元的非VCL NAL单元类型。因此，PH NAL单元具有PH NUT(例如，PH_NUT)。

在实施例中，与PH 312相关的PH NAL单元具有时域ID和层ID。时域ID标识符指示PH NAL单元相对于比特流(例如，比特流300)中其他PH NAL单元的时间位置。层ID指示包含PH NAL单元的层(例如，层131或层132)。在实施例中，时域ID类似于但不同于图片顺序计数(picture order count，POC)。POC按顺序唯一地标识每个图片。在单层比特流中，时域ID和POC将是相同的。在多层比特流中(例如，参见图1)，相同AU中的图片将具有不同的POC，但是具有相同的时域ID。

在一个实施例中，PH NAL单元在包含相关图片314的第一条带318的VCL NAL单元之前。这建立了PH 312和与PH 312相关联的图片314的条带318之间的关联，而不需要具有在PH 312中信令通知的并从条带标头320中被参考的图片标头ID。因此，可以推断两个PH312之间的所有VCL NAL单元属于相同图片314，并且图片314与两个PH 312之间的第一PH312相关联。在一个实施例中，在PH 312之后的第一VCL NAL单元包含与PH 312相关联的图片314的第一条带318。

在一个实施例中，PH NAL单元在图片级别参数集(例如，PPS 308)或更高级别参数集之后，例如DCI 302(又名，DPS)、VPS 304、SPS 306、PPS 308等，具有时域ID和层ID，这两者分别小于PH NAL单元的时域ID和层ID。因此，这些参数集不会在图片或访问单元内重复。由于这种排序，PH 312可以立即得到解决。也就是说，包含与整个图片相关的参数的参数集位于比特流中的PH NAL单元之前。任何包含图片部分参数的内容都位于PH NAL单元之后。

在一个备选中，PH NAL单元在图片级别参数集和前缀补充增强信息(SEI)消息，或更高级别参数集(例如DCI 302(也称为DPS)、VPS 304、SPS 306、PPS 308、APS、SEI消息等)之后。

图片314为单色格式的亮度样点的阵列或4：2：0、4：2：2和4：4：4颜色格式的亮度的样点阵列和两个对应的色度样点的阵列。

图片314可以是帧或场。然而，在一个CVS 316中，或者所有图片314都是帧，或者所有图片314都是场。CVS 316是视频比特流300中每个编解码层视频序列(coded layervideo sequence，CLVS)的编解码视频序列。值得注意的是，当视频比特流300包括单层时，CVS 316和CLVS是相同的。仅在视频比特流300包括多个层时，CVS 316和CLVS不同(例如，如图1和2所示)。

每个图片314包含一个或多个条带318。条带318是图片(例如，图片314)的片内的整数个完整片或整数个连续完整编解码树单元(coding tree unit，CTU)行。每个条带318被排他地包含在单个NAL单元(例如，VCL·NAL单元)中。片(未示出)是图片(例如，图片314)中特定片列和特定片行内的CTU的矩形区域。CTU(未示出)是亮度样点的编解码树块(coding tree block，CTB)、具有三个样点阵列的图片的色度样点的两个对应CTB、或者单色图片或者使用三个单独的颜色平面和用于编解码样点的语法结构进行编解码的图片的样点的CTB。CTB(未示出)是对于某些N值的N×N样点块，使得将分量划分为CTB是一种分割。块(未示出)是样点(例如，像素)的MxN(M列乘N行)阵列，或者变换系数的MxN阵列。

在实施例中，每个条带318包含条带标头320。条带标头320是编解码条带318的一部分，其包含与条带318中所表示的片内的所有条带或CTU行相关的数据元素。也就是说，条带标头320包含关于条带318的信息，例如条带类型、将使用哪个参考图片等等。

图片314及其条带318包括与正在编码或解码的图片或视频相关的数据。因此，图片314及其条带318可以被简单地称为比特流300中携带的有效负载或数据。

比特流300还包含一个或多个SEI消息，例如SDI SEI消息322、多视图获取信息(multiview acquisition information，MAI)SEI消息326、深度表示信息(depthrepresentation information，DRI)SEI消息328和α通道信息(alpha channelinformation，ACI)SEI消息330。如下所述，SDI SEI消息322、MAI SEI消息326、DRI SEI消息328和ACI SEI消息330可以各自包含各种语法元素324。SEI消息包含补充增强信息。SEI消息可以包含补充增强信息。SEI消息可以包含各种类型的数据，这些数据指示视频图片的定时，或者描述编解码视频的各种属性，或者如何使用或增强编解码视频。SEI消息也被定义为可以包含任意用户定义的数据。SEI消息不影响核心解码过程，但可以指示建议如何对视频进行后处理或显示。视频内容的一些其他高级别属性在视频可用性信息(videousability information，VUI)中传递，例如用于解释视频内容的颜色空间的指示。随着新的颜色空间的开发，例如高动态范围和宽色域视频，已经添加了附加的VUI标识符来指示它们。

本领域技术人员将意识到，在实际应用中，比特流300可包含其他参数和信息。

SDI SEI消息322的语法和语义如下。

SDI SEI消息语法。

SDI SEI消息语义。

可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每个层提供可缩放性维度信息，例如1)当bitstreamInScope可以是多视图比特流时，每个层的视图ID；以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时，每个层的辅助ID。

bitstreamInScope是AU序列，该AU序列按照解码顺序，包括包含当前的可缩放性维度SEI消息的AU，随后是零个或多个AU，直到但不包括包含可缩放性维度SEI消息的任何后续AU。

sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。

sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流，并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流，并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。

sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息，并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息，并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。

sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度，以位为单位。

sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时，sdi_view_id_val[i]的值被推断为等于0。

sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。

表1–sdi_aux_id[i]到辅助图片类型的映射

sdi_aux_id[i]	名称	辅助图片的类型
			1	AUX_ALPHA	α平面
2	AUX_DEPTH	深度图片
			3..127		保留的
128..159		未规定的
			160..255		保留的

注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。

对于符合此规范的此版本的比特流，sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内，但在此规范的此版本中，解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。

MAI SEI消息326的语法和语义如下。

MAI SEI消息语法。

/>

MAI SEI消息语义。

多视图获取信息SEI消息规定了获取环境的各种参数。具体来说，规定了内部和外部相机参数。这些参数可以用于在3D显示器上呈现之前处理解码视图。

以下语义分别应用于多视图获取信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。

当存在时，应用于当前层的多视图获取信息SEI消息应包含在包含帧内随机访问图片(intra random access picture，IRAP)的访问单元中，该帧内随机访问图片为当前层的CLVS的第一个图片。SEI消息中信令通知的信息应用于CLVS。

当多视图获取信息SEI消息被包含在可缩放嵌套SEI消息中时，可缩放嵌套SEI消息中的语法元素sn_ols_flag和sn_all_layers_flag应等于0。

变量numViewsMinus1的导出如下：

--如果多视图获取信息SEI消息未被包含在可缩放嵌套SEI消息中，则numViewsMinus1设置为等于0。

--否则(多视图获取信息SEI消息被包含在可缩放嵌套SEI消息中)，numViewsMinus1设置为等于sn_num_layers_minus1。

多视图获取信息被包含在多视图获取信息SEI消息中的某些视图可能不存在。

在以下语义中，索引i是指应用于nuh_layer_id等于NestingLayerId[i]的层的语法元素和变量。

根据右手坐标系规定外部相机参数，其中图像的左上角为原点，即(0，0)坐标，其中图片的其他角具有非负坐标。根据这些规范，对于第i个相机，将3维世界点wP＝[x y z]映射到2维相机点cP[i]＝[u v 1]，根据：

s*cP[i]＝A[i]*R^-1[i]*(wP-T[i]) (X)

其中，A[i]表示内部相机参数矩阵，R^-1[i]表示旋转矩阵R[i]的逆矩阵，T[i]表示平移矢量，并且s(标量值)为任意尺度因子，选择该尺度因子以使cP[i]的第三坐标等于1。A[i]、R[i]和T[i]的元素是根据该SEI消息中信令通知的语法元素确定的，并且如下所规定。

intrinsic_param_flag等于1指示存在内部相机参数。intrinsic_param_flag等于0指示不存在内部相机参数。

extrinsic_param_flag等于1指示存在外部相机参数。extrinsic_param_flag等于0指示不存在外部相机参数。

intrinsic_params_equal_flag等于1指示所有相机的内部相机参数相等，并且仅存在一组内部相机参数。intrinsic_params_equal_flag等于0指示每个相机的内部相机参数不同，并且每个相机都有一组内部相机参数。

prec_focal_length规定由2^{-prec_focal_length}给出的focal_length_x[i]和focal_length_y[i]的最大允许截断误差的指数。prec_focal_length的值应在0到31(包括端值)的范围内。

prec_principal_point规定由2^{-prec_principal_point}给出的principal_point_x[i]和principal_point_y[i]的最大允许截断误差的指数。prec_principal_point的值应在0到31(包括端值)的范围内。

prec_skew_factor规定由2^{-prec_skew_factor}给出的倾斜因子的最大允许截断误差的指数。prec_skew_factor的值应在0到31(包括端值)的范围内。

sign_focal_length_x[i]等于0指示第i个相机在水平方向上的焦距的符号为正。sign_focal_length_x[i]等于1指示符号为负。

exponent_focal_length_x[i]规定第i个相机在水平方向上的焦距的指数部分。exponent_focal_length_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。

mantissa_focal_length_x[i]规定第i个相机在水平方向上的焦距的尾数部分。mantissa_focal_length_x[i]语法元素的长度是可变的，并且确定如下：

--如果exponent_focal_length_x[i]等于0，则长度为Max(0,prec_focal_length-30)。

--否则(exponent_focal_length_x[i]在0到63(包括端值)的范围内)，长度为Max(0,exponent_focal_length_x[i]+prec_focal_length-31)。

sign_focal_length_y[i]等于0指示第i个相机的垂直方向上的焦距的符号为正。sign_focal_length_y[i]等于1指示符号为负。

exponent_focal_length_y[i]规定第i个相机的垂直方向上的焦距的指数部分。exponent_focal_length_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。

mantissa_focal_length_y[i]规定第i个相机的焦距在垂直方向上的尾数部分。

mantissa_focal_length_y[i]语法元素的长度是可变的，并确定如下：

--如果exponent_focal_length_y[i]等于0，则长度为Max(0,prec_focal_length-30)。

--否则(exponent_focal_length_y[i]在0到63(不包括端值)的范围内)，长度为Max(0,exponent_focal_length_y[i]+prec_focal_length-31)。

sign_principal_point_x[i]等于0指示第i个相机的主要点在水平方向上的符号为正。sign_principal_point_x[i]等于1指示符号为负。

exponent_principal_point_x[i]规定第i个相机的主要点在水平方向上的指数部分。exponent_principal_point_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。

mantissa_principal_point_x[i]规定第i个相机的主要点在水平方向上的尾数部分。以比特为单位的mantissa_principal_point_x[i]语法元素的长度是可变的，并且确定如下：

--如果exponent_principal_point_x[i]等于0，则长度为Max(0,prec_principal_point-30)。

--否则(exponent_principal_point_x[i]在0到63(不包括端值)的范围内)，长度为Max(0,exponent_principal_point_x[i]+prec_principal_point-31)。

sign_principal_point_y[i]等于0指示第i个相机的主要点在垂直方向上的符号为正。sign_principal_point_y[i]等于1指示符号为负。

exponent_principal_point_y[i]规定第i个相机的主要点在垂直方向上的指数部分。exponent_principal_point_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。

mantissa_principal_point_y[i]规定第i个相机的主要点在垂直方向上的尾数部分。以比特为单位的mantissa_principal_point_y[i]语法元素的长度是可变的，并且确定如下：

--如果exponent_principal_point_y[i]等于0，则长度为Max(0,prec_principal_point-30)。

--否则(exponent_principal_point_y[i]在0到63(不包括端值)的范围内)，长度为Max(0,exponent_principal_point_y[i]+prec_principal_point-31)。

sign_skew_factor[i]等于0指示第i个相机的倾斜因子的符号为正。

sign_skew_factor[i]等于1指示符号为负。

exponent_skew_factor[i]规定第i个相机的倾斜因子的指数部分。exponent_skew_factor[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的倾斜因子。

mantissa_skew_factor[i]规定第i个相机的倾斜因子的尾数部分。mantissa_skew_factor[i]语法元素的长度是可变的，并且确定如下：

--如果exponent_skew_factor[i]等于0，则长度为Max(0,prec_skew_factor-30)。

--否则(exponent_skew_factor[i]在0到63(不包括端值)的范围内)，长度为Max(0,exponent_skew_factor[i]+prec_skew_factor-31)。

第i个相机的内部矩阵A[i]由下式表示

prec_rotation_param规定由2^{-prec_rotation_param}给出的r[i][j][k]的最大允许截断误差的指数。prec_rotation_param的值应在0到31(包括端值)的范围内。

prec_translation_param规定由2^{-prec_translation_param}给出的t[i][j]的最大允许截断误差的指数。prec_translation_param的值应在0到31(包括端值)的范围内。

sign_r[i][j][k]等于0指示第i个相机的旋转矩阵的(j，k)分量的符号为正。sign_r[i][j][k]等于1指示符号为负。

exponent_r[i][j][k]规定第i个相机的旋转矩阵的(j，k)分量的指数部分。指数r[i][j][k]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的旋转矩阵。

mantissa_r[i][j][k]规定第i个相机的旋转矩阵的(j，k)分量的尾数部分。以比特为单位的mantissa_r[i][j][k]语法元素的长度是可变的，并且确定如下：

--如果exponent_r[i]等于0，则长度为Max(0,prec_rotation_param-30)。

--否则(exponent_r[i]在0到63(不包括端值)的范围内)，长度为Max(0,exponent_r[i]+prec_rotation_param-31)。

第i个相机的旋转矩阵R[i]表示如下：

sign_t[i][j]等于0指示第i个相机的平移矢量的第j个分量的符号为正。sign_t[i][j]等于1指示符号为负。

exponent_t[i][j]规定第i个相机的平移矢量的第j个分量的指数部分。exponent_t[i][j]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的平移矢量。

mantissa_t[i][j]规定第i个相机的平移矢量的第j个分量的尾数部分。以比特为单位的mantissa_t[i][j]语法元素的长度v是可变的，并且确定如下：

--如果exponent_t[i]等于0，则长度v设置为等于Max(0,prec_translation_param-30)。

--否则(0<exponent_t[i]<63)，长度v设置为等于Max(0,exponent_t[i]+prec_translation_param-31)。

第i个相机的平移矢量T[i]由下式表示：

相机参数变量和对应语法元素之间的关联由表ZZ规定。内部矩阵和旋转矩阵的每个分量以及平移矢量从表ZZ中规定的变量中获得，变量x计算如下：

--如果e在0至63(不包括端值)的范围内，则x设置为等于(-1)^s*2^e-31*(1+n÷2^v)。

--否则(e等于0)，x设置为等于(-1)^s*2^-(30+v)*n。

注-上述规格类似于IEC 60559:1989的规格。

表ZZ–相机参数变量和语法元素之间的关联。

DRI SEI消息328的语法和语义如下。

DRI SEI消息语法。

/>

DRI SEI消息语义。

深度表示信息SEI消息中的语法元素规定类型AUX_DEPTH的辅助图片的各种参数，以便在3D显示器上呈现之前处理解码的主要图片和辅助图片，例如视图合成。具体地，规定深度图片的深度或视差范围。

当存在时，深度表示信息SEI消息应与sdi_aux_id值等于AUX_DEPTH的一个或多个层相关联。以下语义分别应用于深度表示信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。

当存在时，深度表示信息SEI消息可包含在任何访问单元中。建议当存在时，出于随机访问的目的，将SEI消息被包括在访问单元中，在该访问单元中，nuh_layer_id等于targetLayerId的编解码图片是IRAP图片。

对于sdi_aux_id[targetLayerId]等于AUX_DEPTH的辅助图片，对于在0至2(包括端值)和4至15(包括端值)的范围内的所有j值，相关联的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片，使得ScalabilityId[LayerIdxInVps[targetLayerId]][j]等于ScalabilityId[LayerIdxInVps[nuhLayerIdB]][j]。

SEI消息中指示的信息适用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片，直至但不包括下一个图片，按照解码顺序，与适用于targetLayerId的深度表示信息SEI消息相关联，或直至nuh_layer_id等于targetLayerId的CLVS的结束，以解码顺序中较早者为准。

z_near_flag等于0规定语法结构中不存在规定最近深度值的语法元素。z_near_flag等于1规定语法结构中存在规定最近深度值的语法元素。

z_far_flag等于0规定语法结构中不存在规定最远深度值的语法元素。z_far_flag等于1规定语法结构中存在规定最远深度值的语法元素。

d_min_flag等于0规定语法结构中不存在规定最小视差值的语法元素。d_min_flag等于1规定语法结构中存在规定最小视差值的语法元素。

d_max_flag等于0规定语法结构中不存在规定最大视差值的语法元素。d_max_flag等于1规定语法结构中存在规定最大视差值的语法元素。

depth_representation_type规定如表Y1中规定的辅助图片的解码亮度样点的表示定义。在表Y1中，视差规定两个纹理视图之间的水平位移，而Z值规定距相机的距离。

变量maxVal被设置为等于(1<<(8+sps_bitdepth_minus8))-1，其中sps_bitdepth_minus8是包含在nuh_layer_id等于targetLayerId的层的活动SPS中或为其推断的值。

表Y1–depth_representation_type的定义

disparity_ref_view_id规定了导出视差值所依据的ViewId值。

注1-仅当d_min_flag等于1或d_max_flag等于1时，disparity_ref_view_id才存在，并且对于depth_representation_type值等于1和3有用。

表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出，如下所示：

--如果e的值在0到127(不包括端值)的范围内，则x设置为等于(-1)^s*2^e-31*(1+n÷2^v)。

--否则(e等于0)，x设置为等于(-1)^s*2^-(30+v)*n。

注1-上述规范与IEC 60559：1989中的规范类似。

表Y2–深度参数变量和语法元素之间的关联

x	s	e	n	v
					ZNear	ZNearSign	ZNearExp	ZNearMantissa	ZNearManLen
ZFar	ZFarSign	ZFarExp	ZFarMantissa	ZFarManLen
					DMax	DMaxSign	DMaxExp	DMaxMantissa	DMaxManLen
DMin	DMinSign	DMinExp	DMinMantissa	DMinManLen

当DMin和DMax值存在时，以编解码图片的亮度样点宽度为单位规定DMin和DMax值，其中ViewId等于辅助图片的ViewId。

当存在时，ZNear和ZFar值的单位相同，但未规定ZNear和ZFar值。

depth_nonlinear_representation_num_minus1加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。

对于范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的i的depth_nonlinear_representation_model[i]规定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。

注2-当depth_representation_type等于3时，辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示，即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0，0)和最后一个(maxVal，maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式传输。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内，其间距取决于nonlinear_depth_representation_num_minus1的值。

在0至maxVal(包括端值)的范围内的i的变量DepthLUT[i]规定如下：

当depth_representation_type等于3时，0至maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示被均匀量化到0至maxVal(包括端值)的范围内的视差。

语法结构规定深度表示信息SEI消息中元素的值。

语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构包含在另一个语法结构中时，变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为由包含该语法结构时使用的变量名称所替换。

da_sign_flag等于0指示浮点值的符号为正。da_sign_flag等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。

da_exponent规定浮点值的指数。da_exponent的值应在0到2⁷-2(包括端值)的范围内。值2⁷-1保留给ITU-T|ISO/IEC将来使用。解码器应将值2⁷-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。

da_mantissa_len_minus1加1规定da_mantissa语法元素中的位数。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。

da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。

ACI SEI消息300的语法和语义如下。

ACI SEI消息语法。

ACI SEI消息语义。

α通道信息SEI消息提供关于α通道样点值和应用于解码α平面的后处理的信息，该解码α平面在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中编解码。

对于nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片，对于在0到2(包括端值)和4到15(包括端值)的范围内的所有j值，相关的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片，使得scalability id[LayerIdxInVps[nuhLayerIdA]][j]等于scalability id[LayerIdxInVps[nuhLayerIdB]][j]。

当访问单元包含nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片picA时，picA的α通道样点值按输出顺序持续，直到以下一个或多个条件为真：

--按输出顺序，输出nuh_layer_id等于nuhLayerIdA的下一个图片。

--包含辅助图片picA的CLVS结束。

--比特流结束。

--nuh_layer_id等于nuhLayerIdA的辅助图片层的任何相关主要层的CLVS结束。

以下语义分别应用于α通道信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。

alpha_channel_cancel_flag等于1指示α通道信息SEI消息取消应用于当前层的按照输出顺序的任何先前α通道信息SEI消息的持续性。alpha_channel_cancel_flag等于0指示随后是α通道信息。

设currPic为α通道信息SEI消息所关联的图片。α通道信息SEI消息的语义按照输出顺序持续用于当前层，直到以下一个或多个条件为真：

--当前层的新CLVS开始。

--比特流结束。

--在调用picB的图片顺序计数的解码过程之后，立即输出访问单元中numh_layer_id等于targetLayerId的图片picB，该访问单元包含numh_layer_id等于targetLayerId的α通道信息SEI消息，其PicOrderCnt(picB)大于PicOrderCnt(currPic)，其中PicOrderCnt(picB)和PicOrderCnt(currPic)分别是picB和currPic的PicOrderCntVal值。

alpha_channel_use_idc等于0指示出于α混合目的，在从解码过程输出之后的显示过程中，应当将相关联的主要图片的解码样点乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于1指示出于α混合的目的，在从解码过程输出之后的显示过程中，相关主要图片的解码样点不应乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于2指示未规定辅助图片的使用。大于2的alpha_channel_use_idc的值保留给ITU-T|ISO/IEC将来使用。当不存在时，alpha_channel_use_idc的值被推断为等于2。

alpha_channel_bit_depth_minus8加8规定辅助图片的亮度样点阵列的样点的位深度。alpha_channel_bit_depth_minus8应在0到7(包括端值)的范围内。alpha_channel_bit_depth_minus8应等于相关主要图片的bit_depth_luma_minus8。

alpha_transparent_value规定辅助编解码图片亮度样点的解释样点值，对于该辅助编解码图片亮度样点，主要编解码图片的相关亮度和色度样点被认为是透明的，用于α混合的目的。用于表示alpha_transparent_value语法元素的位数是alpha_channel_bit_depth_minus8+9。

alpha_opaque_value规定辅助编解码图片亮度样点的解释样点值，对于该辅助编解码图片亮度样点，主要编解码图片的相关亮度和色度样点被认为是不透明的，用于α混合。用于表示alpha_opaque_value语法元素的位数是alpha_channel_bit_depth_minus8+9。

alpha_channel_incr_flag等于0指示，出于α混合目的，每个解码辅助图片亮度样点值的解释样点值等于解码辅助图片样点值。alpha_channel_incr_flag等于1指示，出于α混合的目的，在解码辅助图片样点之后，任何大于Min(alpha_opaque_value，alpha_transparent_value)的辅助图片亮度样点值应该增加1，以获得辅助图片样点的解释样点值，并且任何小于或等于Min(alpha_opaque_value，alpha_transparent_value)的辅助图片亮度样点值应该被不加改变地用作解码辅助图片样点值的解释样点值。当不存在时，alpha_channel_incr_flag的值被推断为等于0。

alpha_channel_clip_flag等于0指示不应用裁剪操作来获得解码辅助图片的解释样点值。alpha_channel_clip_flag等于1指示解码辅助图片的解释样点值根据由alpha_channel_clip_type_flag语法元素描述的裁剪过程而改变。当不存在时，alpha_channel_clip_flag的值被推断为等于0。

alpha_channel_clip_type_flag等于0指示，出于α混合的目的，在对辅助图片样点进行解码后，将大于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_opaque_value，以获得辅助图片亮度样点的解释样点值，并且将小于或等于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_transparent_value，以获得辅助图片亮度样点的解释样点值。alpha_channel_clip_type_flag等于1指示，出于α混合的目的，在解码辅助图片样点之后，大于alpha_opaque_value的任何辅助图片亮度样点被设置为等于alpha_opaque_value，以获得辅助图片亮度样点的解释样点值，并且小于或等于alpha_transparent_value的任何辅助图片亮度样点被设置为等于alpha_transparent_value，以获得辅助图片亮度样点的解释样点值。

注-当alpha_channel_incr_flag和alpha_channel_clip_flag均等于1时，应首先应用由alpha_channel_clip_type_flag规定的裁剪操作，然后应用由alpha_channel_incr_flag规定的变更，以获得辅助图片亮度样点的解释样点值。

不幸的是，对于SEI消息中可缩放性维度信息、深度表示信息和α通道信息的信令通知，当前设计至少存在以下问题。

1)可缩放性维度信息(SDI)SEI消息的当前持续性范围规范存在问题：如果未指示SDI的一组AU在指示SDI的另一组AU之后，则没有好的方式来指示该一组AU。

2)目前，规定当不存在时，sdi_view_id_val[i]的值被推断为等于0。虽然这对于存在SDI SEI消息的上下文是好的，但是对于不存在SDI SEI消息的上下文是不好的，在这种情况下，不应该假设或推断视图ID的值。

3)当前，当语法元素不存在时，不规定sdi_aux_id[i]的值。然而，当sdi_auxiliary_info_flag等于0时(这意味着SDI SEI消息存在)，对于i的每个值，需要将sdi_aux_id[i]的值推断为等于0，以推断没有辅助图片。

4)多视图获取信息(MAI)SEI消息携带多视图比特流中所有视图的信息，因此不应将其规定为层特定的(如现在的情况)。相反，范围应该是当前CVS，而不是当前CLVS。

5)当前，当访问单元包含SDI SEI消息和MAI SEI消息两者时，MAI SEI消息可按照解码顺序在SDI SEI消息之前。然而，MAI SEI消息的存在和解释应取决于SDI SEI消息。因此，在相同的AU中，要求SDI SEI消息按照解码顺序在MAI SEI消息之前更有意义。

6)当前，当访问单元包含SDI SEI消息和深度表示信息(DRI)SEI消息两者时，DRISEI消息可按照解码顺序在SDI SEI消息之前。然而，DRI SEI消息的存在和解释应取决于SDI SEI消息。因此，在相同的AU中，要求SDI SEI消息按照解码顺序在DRI SEI消息之前更有意义。

7)目前，当访问单元包含SDI SEI消息和α通道信息(ACI)SEI消息两者时，ACI SEI消息可按照解码顺序在SDI SEI消息之前。但是，ACI SEI消息的存在和解释应取决于SDISEI消息。因此，在相同的AU中，要求SDI SEI消息按照解码顺序在ACI SEI消息之前更有意义。

8)目前，SDI SEI消息可被包含在可缩放嵌套SEI消息中。然而，由于SDI SEI消息包含所有层的信息，因此不允许它被包含在可缩放嵌套SEI消息中更有意义。

本文公开了解决一个或多个前述问题的技术。例如，本公开提供了为比特流中的一些SEI消息规定特定解码顺序的技术。作为另一个示例，本公开提供了约束特定SEI消息不被包括在可缩放嵌套SEI消息中的技术。通过规定解码顺序和/或约束特定SEI消息不被包括在可缩放嵌套SEI消息中，视频编解码过程得到改进。

为解决上述问题，公开了总结如下的方法。这些技术应该被认为是解释一般概念的示例，而不应该以狭隘的方式来解释。此外，这些技术可以单独应用或以任何方式组合应用。

示例1

为解决问题1，可缩放性维度信息(SDI)SEI消息的持续性范围规格被指定为以下之一：

a.SDI SEI消息按解码顺序从当前AU持续到包含其内容不同于当前SDI SEI消息的SDI SEI消息的下一个AU，或持续到比特流的结束。

b.SDI SEI消息的持续性范围被规定为当前CVS(即，包含SDI SEI消息的CVS)。

c.如果按照解码顺序在当前AU之后的当前CVS中的至少一个AU与SDI SEI消息相关联，则SDI SEI消息所应用的bitstreamInScope为AU序列，该AU序列按照解码顺序包括当前AU，随后是零个或多个AU，包括所有后续AU，直到但不包括包含SDI SEI消息的任何后续AU。否则，bitstreamInScope是AU序列，该AU序列按照解码顺序包括当前AU，随后是零个或多个AU，包括所有后续AU，直到并且按照解码顺序包括当前CVS中的最后一个AU。

d.向SDI SEI消息语法添加取消标志和/或持续性标志，并基于取消标志和/或持续性标志规定SDI SEI消息的持续性范围。

示例2

2)在一个示例中，规定当SDI SEI消息存在于CVS的任何AU中时，SDI SEI消息应存在于CVS的第一个AU中。

示例3

3)在一个示例中，规定应用于相同CVS的所有SDI SEI消息应具有相同的内容。

示例4

4)为了解决问题2，规定当sdi_multiview_info_flag等于0时，sdi_view_id_val[i]的值被推断为等于0。

示例5

5)为了解决问题3，规定当sdi_auxiliary_info_flag等于0时，sdi_aux_id[i]的值被推断为等于0。

示例6

6)为解决问题4，规定多视图获取信息(MAI)SEI消息按解码顺序从当前AU持续到包含其内容不同于当前MAI SEI消息的MAI SEI消息的下一个AU，或持续到比特流的结束。

示例7

7)在一个示例中，规定当MAI SEI消息存在于CVS的任何AU中时，MAI SEI消息应出现在CVS的第一个AU中。

示例8

8)在一个示例中，规定应用于相同CVS的所有MAI SEI消息应具有相同的内容。

示例9

9)为了解决问题5，规定当AU包含SDI SEI消息和MAI SEI消息两者时，SDI SEI消息按照解码顺序应在MAI SEI消息之前。

示例10

10)为解决问题6，规定对于至少一个i值，当AU包含sdi_aux_id[i]等于2的SDISEI消息和深度表示信息(DRI)SEI消息两者时，SDI SEI消息按照解码顺序应在DRI SEI消息之前。

示例11

11)为解决问题7，规定对于至少一个i值,当AU包含sdi_aux_id[i]等于1的SDISEI消息和α通道信息(ACI)SEI消息两者时，SDI SEI消息按照解码顺序应在ACI SEI消息之前。

示例12

12)为解决问题8，规定SDI SEI消息不应被包含在可缩放嵌套SEI消息中。

以下为上文总结的一些方面的一些示例实施例。

该实施例可应用于VVC。已增加或修改的大部分相关部分用粗体表示，并且一些删除的部分用粗体斜体表示。可能还有其他一些编辑性的改动，因此没有突出显示。

可缩放性维度SEI消息语义。

可缩放性维度信息(SDI)SEI消息为bitstreamInScope中的每个层提供SDI，例如1)当bitstreamInScope可能是多视图比特流时，每个层的视图ID；以及2)当bitstreamInScope中可能有由一层或多层携带的辅助信息(如深度或α)时，每个层的辅助ID。

bitstreamInScope是AU序列，该AU序列按照解码顺序，包括包含当前SDI SEI消息的AU，随后是零个或多个后续AU，包括所有后续AU，直到但不包括包含SDI SEI消息的任何后续AU。当CVS的任何AU中存在SDI SEI消息时，CVS的第一个AU应存在SDI SEI消息。应用于相同CVS的所有SDI SEI消息应具有相同的内容。

SDI SEI消息不应被包含在可缩放嵌套SEI消息中。

sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len_minus1+1位。当不存在sdi_multiview_info_flag等于0时，sdi_view_id_val[i]的值被推断为等于0。

sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中规定的bitstreamInScope中第i层中的辅助图片的类型。当sdi_auxiliary_info_flag等于0时，sdi_aux_id[i]的值被推断为等于0。

多视图获取信息SEI消息语义。

多视图获取信息(MAI)SEI消息规定了获取环境的各种参数。具体来说，规定了内部和外部相机参数。这些参数可以用于在3D显示器上呈现之前处理解码视图。

当存在时，应用于当前层的多视图获取信息SEI消息应包含在包含IRAP图片的访问单元中，该IRAP图片为当前层的CLVS的第一个图片。SEI消息中信令通知的信息应用于CLVS。

MAI SEI消息按照解码顺序从当前AU持续到包含其内容不同于当前MAI SEI消息的MAI SEI消息的下一个AU，或持续到比特流的结束。当MAI SEI消息存在于CVS的任何AU中时，应为CVS的第一个AU提供MAI SEI消息。应用于相同CVS的所有MAI SEI信息应具有相同的内容。

当AU包含SDI SEI消息和MAI SEI消息两者时，SDI SEI消息按照解码顺序应在MAISEI消息之前。

多视图获取信息被包含在多视图获取信息SEI消息中的一些视图可能不存在。

深度表示信息SEI消息语义。

当AU包含sdi_aux_id[i]等于2的SDI SEI消息和DRI SEI消息两者时，对于i的至少一个值，SDI SEI消息应当按照解码顺序位于DRI SEI消息之前。

α通道信息SEI消息语义。

α通道信息(ACI)SEI消息提供关于α通道样点值和应用于解码α平面的后处理的信息，该解码α平面在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中被编解码。

当AU包含sdi_aux_id[i]等于1的SDI SEI消息和ACI SEI消息两者时，对于i的至少一个值，SDI SEI消息应当按照解码顺序位于ACI SEI消息之前。

图4是可实现本文中所公开的各种技术的示例视频处理系统400的框图。各种实现方式可以包括视频处理系统400中的一些或全部组件。视频处理系统400可以包括用于接收视频内容的输入402。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收，或者可以以压缩或编码的格式接收。输入402可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如无线保真(Wi-Fi)或蜂窝接口)。

视频处理系统400可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件404。编解码组件404可以减少从输入402到编解码组件404的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时称为视频压缩或视频转码技术。编解码组件404的输出可以被存储或经由所连接的通信来发送，如组件406所表示的。在输入402处接收的视频的存储或通信的比特流(或编解码)表示可以由组件408使用，以生成被发送到显示接口410的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外，尽管某些视频处理操作被称为“编解码”操作或工具，但是应当理解，在编码器处使用编解码工具或操作，并且将由解码器进行反演编解码的结果的对应解码工具或操作。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、外围组件互连(PCI)、集成驱动电子设备(IDE)接口等。本文档中描述的技术可以实施在各种电子设备中，诸如移动电话、膝上型计算机、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。

图5是视频处理装置500的框图。装置500可以用于实现本文中所述的方法中的一个或多个。装置500可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置500可以包括一个或多个处理器502、一个或多个存储器504和视频处理硬件506(也称为视频处理电路)。(多个)处理器502可以配置为实现本文档中所述的一个或多个方法。(多个)存储器504可以用于存储数据和代码，该代码用于实现本文所描述的方法和技术。视频处理硬件506可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中，硬件506可以部分或完全位于处理器502内，例如图形处理器。

图6是示出可利用本公开的技术的示例视频编解码系统600的框图。如图6所示，视频编解码系统600可以包括源设备610和目的地设备620。源设备610生成编码的视频数据，其可以被称为视频编码设备。目的地设备620可以解码由源设备610生成的编码的视频数据，该目的地设备620可以被称为视频解码设备。

源设备610可以包括视频源612、视频编码器614和输入/输出(I/O)接口616。

视频源612可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统，或这些源的组合。视频数据可以包括一个或多个图片。视频编码器614对来自视频源612的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口616包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口616通过网络630直接发送到目的地设备620。还可以将编码的视频数据存储到存储介质/服务器640上，用于由目的地设备620存取。

目的地设备620可以包括I/O接口626、视频解码器624和显示设备622。

I/O接口626可以包括接收器和/或调制解调器。I/O接口626可以从源设备610或存储介质/服务器640获取编码的视频数据。视频解码器624可以对编码的视频数据进行解码。显示设备622可以向用户显示解码的视频数据。显示设备622可以与目的地设备620集成，或可以在配置为与外置显示设备相接的目的地设备620外部。

视频编码器614和视频解码器624可以根据视频压缩标准(诸如，高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。

图7是示出视频编码器700的示例的框图，该视频编码器700可以是图6中示出的视频编解码系统600中的视频编码器614。

视频编码器700可以被配置为执行本公开的任何或全部技术。在图7的示例中，视频编码器700包括多个功能组件。本公开所描述的技术可以在视频编码器700的各种组件之间共享。在一些示例中，处理器可以配置为进行本公开中描述的任何或全部技术。

视频编码器700的功能组件可以包括分割单元701、预测单元702(其可以包括模式选择单元703、运动估计单元704、运动补偿单元705和帧内预测单元706)、残差生成单元707、变换单元708、量化单元709、逆量化单元710、逆变换单元711、重建单元712、缓冲器713和熵编码单元714。

在其他示例中，视频编码器700可以包括更多、更少或不同的功能组件。在一个示例中，预测单元702可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测，其中至少一个参考图片是当前视频块所位于的图片。

此外，诸如运动估计单元704和运动补偿单元705的一些组件可以被高度集成，但是出于解释的目的在图7的示例中分开表示。

分割单元701可以将图片分割成一个或多个视频块。图6的视频编码器614和视频解码器600可以支持各种视频块尺寸。

模式选择单元703可以例如基于错误结果选择帧内或帧间的编解码模式中的一个，并且将得到的帧内或帧间编解码块提供到残差生成单元707来生成残差块数据而且提供到重建单元712来重建编解码块以用作参考图片。在一些示例中，模式选择单元703可以选择帧内和帧间预测的组合(CIIP)模式，其中预测是基于帧间预测信号和帧内预测信号。模式选择单元703还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。

为了对当前视频块进行帧间预测，运动估计单元704可以通过将来自缓冲器713的一个或多个参考帧与当前视频块进行比较，生成当前视频块的运动信息。运动补偿单元705可以基于来自缓冲器713的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。

运动估计单元704和运动补偿单元705可以为当前视频块进行不同操作，例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。I条带(或I帧)是压缩率最低的，但不需要其他视频帧来解码。S条带(或P帧)可以使用来自先前帧的数据来解压缩，并且比I帧更容易压缩。B条带(或B帧)可以使用先前帧和前一帧两者作为数据参考，以获得最高的数据压缩量。

在一些示例中，运动估计单元704可以进行当前视频块的单向预测，并且运动估计单元704可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元704然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元704可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元705可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元704可以进行当前视频块的双向预测，运动估计单元704可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元704然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元704可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元705可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元704可以输出运动信息的全部集合，用于解码器的解码处理。

在一些示例中，运动估计单元704可以不输出当前视频的运动信息的全部集合。而是，运动估计单元704可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如，运动估计单元704可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。

在一个示例中，运动估计单元704可以在与当前视频块相关联的语法结构中指示：视频解码器624指示当前视频块具有与另一个视频块相同的运动信息的值。

在另一个示例中，运动估计单元704可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器624可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器614可以预测性地信令通知运动矢量。可以由视频编码器614实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。

帧内预测单元706可以对当前视频块进行帧内预测。当帧内预测单元706对当前视频块进行帧内预测时，帧内预测单元706可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。

残差生成单元707可以通过从当前视频块中减去(例如，由减号指示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。

在其他示例中，例如在跳过模式下，对于当前视频块可能不存在当前视频块的残差数据，并且残差生成单元707可以不进行减去操作。

变换单元708可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。

在变换单元708生成与当前视频块相关联的变换系数视频块之后，量化单元709可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

逆量化单元710和逆变换单元711可以将逆量化和逆变换分别应用于变换系数视频块，来从变换系数视频块重建残差视频块。重建单元712可以将重建的残差视频块添加到来自由预测单元702生成的一个或多个预测视频块的对应样点，以产生与当前块相关联的重建视频块用于存储在缓冲器713中。

在重建单元712重建视频块之后，可以进行环路滤波操作以降低视频块中视频块化伪影。

熵编码单元714可以从视频编码器700的其他功能组件接收数据。当熵编码单元714接收数据时，熵编码单元714可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。

图8是示出视频解码器800的示例的框图，该视频解码器800可以是图6中示出的视频编解码系统600中的视频解码器624。

视频解码器800可以被配置为进行本公开的任何或全部技术。在图8的示例中，视频解码器800包括多个功能组件。本公开所描述的技术可以在视频解码器800的各种组件之间共享。在一些示例中，处理器可以配置为进行本公开中描述的任何或全部技术。

在图8的示例中，视频解码器800包括熵解码单元801、运动补偿单元802、帧内预测单元809、逆量化单元804、逆变换单元805、重建单元806和缓冲器807。在一些示例中，视频解码器800可以进行与关于视频编码器614(图6)所描述的编码过程总体反演的解码过程。

熵解码单元801可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如，视频数据的编解码块)。熵解码单元801可以对熵编解码视频进行解码，并且根据熵解码视频数据，运动补偿单元802可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元802例如可以通过进行AMVP和merge模式信令通知来确定此类信息。

运动补偿单元802可以产生运动补偿块，可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。

运动补偿单元802可以使用由视频编码器614在编码视频块的期间所使用的插值滤波器，来计算出参考块的子整数个像素的插值的值。运动补偿单元802可以根据接收的语法信息确定由视频编码器614所使用的插值滤波器并且使用插值滤波器来产生预测块。

运动补偿单元802可以使用一些语法信息来确定：用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸，描述编码视频序列的图片的每个宏块如何被分割的分割信息，指示如何编码每个分割的模式，每个帧间编码块的一个或多个参考帧(和参考帧列表)，以及对编码视频序列进行解码的其他信息。

帧内预测单元803可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元804逆量化(即去量化)在比特流中提供的且由熵解码单元801解码的量化的视频块系数。逆变换单元805应用逆变换。

重建单元806可以用由运动补偿单元802或帧内预测单元803生成的对应预测块求和残差块，以形成解码块。如所期望的，去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器807中，该缓冲器807提供用于随后的运动补偿/帧内预测的参考块，并且还产生用于在显示设备上呈现的解码视频。

图9是根据本公开的实施例的编解码视频数据方法900。方法900可以由具有处理器和存储器的编解码装置(例如，编码器)来执行。当使用SEI消息在比特流中传送信息时，可以实现方法900。在一些实施例中，解码顺序意味着例如在图1-3中从左到右的方向。

在块902中，每当访问单元(AU)包含可缩放性维度信息(SDI)补充增强信息(SEI)消息和多视图获取信息(MAI)SEI消息两者时，编解码装置确定SDI SEI消息按照解码顺序在MAI SEI消息之前。在实施例中，在图1-3中，解码顺序通常是从左到右。

在块904中，编解码装置基于SDI SEI消息和MAI SEI消息执行视频和视频的比特流之间的转换。当在编码器中实现时，转换包括接收视频并将视频编码成包括SEI消息的比特流。当在解码器中实现时，转换包括接收包括SEI消息的比特流，并且解码包括SEI消息的比特流以重建视频。

在实施例中，比特流是范围内的比特流，其中，SDI SEI消息包括规定范围内的比特流中的最大层数的SDI最大层语法元素(sdi_max_layers_minus1)。在实施例中，范围内的比特流是AU序列，AU序列按照解码顺序包括当前AU，随后是所有后续AU，直到但不包括包含后续SDI SEI消息的任何后续AU。在实施例中，范围内的比特流是AU序列，该AU序列按照解码顺序包括当前AU，随后是零个或多个后续AU，直到并且按照解码顺序包括当前CVS中的最后一个AU。

在实施例中，SDI SEI消息包括SDI多视图信息标志(sdi_multiview_info_flag)，该SDI多视图信息标志规定范围内的比特流是否是多视图比特流。在实施例中，多视图比特流包括多个层，如图1所示。

在实施例中，SDI SEI消息包括SDI辅助信息标志(sdi_auxiliary_info_flag)，该SDI辅助信息标志规定辅助信息是否由范围内的比特流中的一个或多个层携带。

在实施例中，MAI SEI信息规定了内部和外部相机参数。在实施例中，在三维(3D)显示器上呈现之前，内部和外部相机参数用于处理解码视图。

在实施例中，MAI SEI消息按照解码顺序从当前AU持续到包含后续MAI SEI消息的后续AU。在实施例中，后续的MAI SEI消息包含不同于MAI SEI消息的内容。在实施例中，MAISEI消息按照解码顺序从当前AU持续到比特流的结束。

在实施例中，方法900还包括对于至少一个i值，每当AU包含sdi_aux_id[i]等于2的SDI SEI消息和DRI SEI消息两者时，确定SDI SEI消息按照解码顺序在深度表示信息(DRI)SEI消息之前。

在实施例中，该方法还包括：对于至少一个i值，每当AU包含sdi_aux_id[i]等于1的SDI SEI消息和ACI SEI消息两者时，确定SDI SEI消息按照解码顺序在α通道信息(ACI)SEI消息之前。

在实施例中，i是表示比特流中的第i层的整数。

在实施例中，SDI SEI消息被限制不被包括在可缩放嵌套SEI消息中。可缩放嵌套的SEI消息是可缩放嵌套SEI消息中的SEI消息。可缩放嵌套SEI消息是包含多个可缩放嵌套的SEI消息的消息，这些可缩放嵌套的SEI消息对应于一个或多个输出层集或多层比特流中的一个或多个层。

在实施例中，在所述比特流中具有等于3、133、179、180或205的有效负载类型的任何SEI消息被限制不被包含在可缩放嵌套SEI消息中。

在实施例中，DRI SEI消息规定类型AUX_DEPTH的辅助图片的参数，用于在三维(3D)显示器上呈现之前处理解码视图。

在实施例中，ACI SEI消息提供关于α通道样点值和适用于解码α平面的后处理的信息，解码α平面在类型AUX_ALPHA的辅助图片和一个或多个相关联的主要图片中被编解码。

在实施例中，方法900还包括由视频编解码装置将SDI SEI消息、MAI SEI消息、DRISEI消息和ACI SEI消息中的一个或多个编码成比特流。

在实施例中，方法900还包括由视频编解码装置解码比特流，以将SDI SEI消息、MAI SEI消息、DRI SEI消息和ACI SEI消息中的一个或多个获得为比特流。

在实施例中，方法900可利用或结合本文公开的其他方法的一个或多个特征或过程。

接下来提供了一些实施例优选的解决方案的列表。

以下解决方案显示了本公开中讨论的技术的示例实施例(例如，示例1)。

1.一种视频处理的方法，包括：执行视频和视频的比特流之间的转换；其中为视频指示可缩放性维度信息(SDI)补充增强信息(SEI)消息；并且其中规则定义了SDI SEI消息的持续性范围或对SDI SEI消息的约束。

2.根据权利要求1所述的方法，其中，规则规定SDI SEI消息按照解码顺序从当前访问单元(AU)持续，直到包含其内容不同于SDI SEI消息的另一个SDI SEI消息的下一个AU，或者直到比特流的结束。

3.根据权利要求1所述的方法，其中规则规定SDI SEI消息对于包括SDI SEI消息的编解码视频序列(CVS)持续存在。

4.根据权利要求1-3中任一项所述的方法，其中，规则定义了当SDI SEI消息存在于编解码视频序列(CVS)中时，SDI SEI消息存在于CVS的第一访问单元(AU)中的约束。

5.根据权利要求1-4中任一项所述的方法，其中，规则定义了编解码视频序列中的所有SDI SEI消息具有相同内容的约束。

6.根据权利要求1-5中任一项所述的方法，其中，规则规定响应于(a)指示比特流中不存在多视图信息的标志，或者(b)指示比特流中不存在辅助信息的标志，将SDI SEI消息的标识符的值推断为零的约束。

7.根据上述权利要求中任一项所述的方法，其中规则规定不允许SDI SEI消息位于可缩放嵌套的SEI消息中的约束。

8.一种视频处理的方法，包括：执行视频和视频的比特流之间的转换；其中为视频指示多视图获取信息(MAI)补充增强信息(SEI)消息；并且其中规则定义了MAI SEI消息的持续性范围或对MAI SEI消息的约束。

9.根据权利要求8所述的方法，其中，规则定义MAI SEI消息按照解码顺序从包括MAI SEI消息的当前访问单元(AU)持续直到包含其内容不同的另一MAI SEI消息的下一个AU或者直到比特流的结束的持续性范围。

10.根据权利要求8-9中任一项所述的方法，其中，规则定义了当MAI SEI消息在存在于编解码视频序列(CVS)中时，MAI SEI消息存在于CVS的第一访问单元(AU)中的约束。

11.一种视频处理的方法，包括：执行视频和视频比特流之间的转换；其中为视频指示可缩放性维度信息(SDI)补充增强信息(SEI)消息和第二SEI消息；并且其中规则定义了指示SDI SEI消息和第二SEI消息的格式。

12.根据权利要求11所述的方法，其中，规则规定了第二SEI消息是多视图获取信息(MAI)SEI消息并且MAI SEI消息按照解码顺序中出现在可缩放维度信息(SDI)SEI消息之后的顺序。

13.根据权利要求11所述的方法，其中，第二SEI消息是深度表示信息(DRI)SEI消息，并且其中，规则规定，响应于SDI SEI消息具有的层的标识符值为2，SDI SEI消息按照解码顺序在DRI SEI消息之前。

14.根据权利要求11所述的方法，其中，第二SEI消息是α通道信息(ACI)信息(DRI)SEI消息，并且其中，规则规定，响应于SDI SEI消息具有的层的标识符值为1，SDI SEI消息按照解码顺序在DRI SEI消息之前。

15.根据权利要求1-14中任一项所述的方法，其中转换包括从视频生成比特流或者从比特流生成视频。

16.一种视频解码装置，包括被配置为实现权利要求1至15中的一项或多项所述的方法的处理器。

17.一种视频编码装置，包括被配置为实现权利要求1至15中的一项或多项所述的方法的处理器。

18.一种其上存储有计算机代码的计算机程序产品，该代码在由处理器执行时使处理器实现权利要求1至15中任一项所述的方法。

19.一种计算机可读介质，其上存储有根据权利要求1至15中任一项所述生成的比特流。

20.一种方法，包括根据权利要求1至15中任一项所述的方法生成比特流，并将该比特流写入计算机可读介质。

21.一种方法、一种装置、一种根据本文档中描述的公开方法或系统生成的比特流。

以下文档可包括与本文公开的技术相关的附加细节：

[1]ITU-T和ISO/IEC，“高效视频编解码”，Rec.ITU-T H.265|ISO/IEC 23008-2(现行版本)。

[2]J.Chen，E.Alshina，G.J.Sullivan，J.-R.Ohm，J.Boyce，“联合探索测试模型7(JEM7)的算法描述”，JVET-G1001，2017年8月。

[3]Rec.ITU-T H.266|ISO/IEC 23090-3，“多功能视频编解码”，2020年。

[4]B.Bross，J.Chen，S.Liu，Y.-K.Wang(编辑)，“多功能视频编解码(草案10)”，JVET-S2001。

[5]Rec.ITU-T Rec.H.274|ISO/IEC 23002-7，“用于编解码视频比特流的多功能补充增强信息消息”，2020年。

[6]J.Boyce，V.Drugeon，G.Sullivan，Y.-K.Wang(编辑)，“用于编解码视频比特流的多功能补充增强信息消息(草案5)”，JVET-S2007。

本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中，含有本文档中所公开的结构以及其结构的等同物，或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品，即一个或多个计算机程序指令模块，用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物，或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光或电磁信号，其被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言，并且可以以任何形式来部署计算机程序，包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如，在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行，该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。

可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流，以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流，并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。

适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘)，或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘)，或者以上两者。但是，计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备，含有例如半导体存储器设备(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备)；磁盘(例如内部硬盘或可移动磁盘)；磁光盘；和光盘。处理器和存储器可以由专用逻辑电路补充，或者合并在专用逻辑电路中。

虽然本专利文档含有许多细节，但这些细节不应被解释为对任何主题或可要求保护的范围的限制，而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中，在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地，在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外，尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求，但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，尽管在附图中以特定顺序描绘了操作，但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作，以实现期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。

仅描述了几个实现方式和示例，并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。

Claims

1.一种由视频编码设备实现的方法，包括：

每当访问单元AU包含可缩放性维度信息SDI补充增强信息SEI消息和多视图获取信息MAI SEI消息两者时，确定所述SDI SEI消息按照解码顺序在所述MAI SEI消息之前；以及

基于所述SDI SEI消息和所述MAI SEI消息执行视频和所述视频的比特流之间的转换。

2.根据权利要求1所述的方法，其中所述比特流是范围内的比特流，并且其中所述SDISEI消息包括规定所述范围内的比特流中的最大层数的SDI最大层语法元素。

3.根据权利要求2所述的方法，其中，所述SDI SEI消息包括SDI多视图信息标志，所述SDI多视图信息标志规定所述范围内的比特流是否是多视图比特流。

4.根据权利要求3所述的方法，其中，所述SDI SEI消息包括SDI辅助信息标志，所述SDI辅助信息标志规定辅助信息是否由在所述范围内的比特流中的一个或多个层携带。

5.根据权利要求1-4中任一项所述的方法，其中，所述MAI SEI消息规定内部和外部相机参数。

6.根据权利要求5所述的方法，其中所述内部和外部相机参数用于在三维(3D)显示器上呈现之前处理解码视图。

7.根据权利要求1-6中任一项所述的方法，其中，所述MAI SEI消息按照解码顺序从当前AU持续到包含后续MAI SEI消息的后续AU。

8.根据权利要求7所述的方法，其中所述后续MAI SEI消息包含不同于所述MAI SEI消息的内容。

9.根据权利要求1-8中任一项所述的方法，其中，所述MAI SEI消息按照解码顺序从当前AU持续到所述比特流的结束。

10.根据权利要求1-9中任一项所述的方法，还包括对于至少一个i值，每当所述AU包含sdi_aux_id[i]等于2的所述SDI SEI消息和深度表示信息DRISEI消息两者时，确定所述SDISEI消息按照解码顺序在所述DRISEI消息之前。

11.根据权利要求1-10中任一项所述的方法，还包括对于至少一个i值，每当所述AU包含sdi_aux_id[i]等于1的所述SDI SEI消息和α通道信息ACISEI消息两者时，确定所述SDISEI消息按照解码顺序在所述ACISEI消息之前。

12.根据权利要求10-11中任一项所述的方法，其中i是表示所述比特流中的第i层的整数。

13.如权利要求1-12中任一项所述的方法，其中，所述SDISEI消息被限制为不被包括在可缩放嵌套SEI消息中。

14.根据权利要求1-13中任一项所述的方法，其中在所述比特流中具有等于3、133、179、180或205的有效负载类型的任何SEI消息被限制为不被包括在可缩放嵌套SEI消息中。

15.根据权利要求10-14中任一项所述的方法，其中，所述DRI SEI消息规定类型AUX_DEPTH的辅助图片的参数，用于在三维(3D)显示器上呈现之前处理解码视图。

16.根据权利要求11-15中任一项所述的方法，其中所述ACI SEI消息提供关于α通道样点值和适用于解码α平面的后处理的信息，所述解码α平面在类型AUX_ALPHA的辅助图片和一个或多个相关联的主要图片中被编解码。

17.根据权利要求1-16中任一项所述的方法，其中所述转换包括将所述视频编码成所述比特流。

18.根据权利要求1-17中任一项所述的方法，其中所述转换包括从所述比特流中解码所述视频。

19.一种用于对视频数据进行编解码的装置，包括处理器和其上具有指令的非暂时性存储器，其中所述指令在由所述处理器执行时使得所述处理器执行权利要求1-18中任一项所述的方法。

20.一种非暂时性计算机可读介质，包括供编解码装置使用的计算机程序产品，所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时使得所述编解码装置执行权利要求1-18中任一项所述的方法。

21.一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质，其中所述方法包括：

每当访问单元AU包含可缩放性维度信息SDI补充增强信息SEI消息和多视图获取信息MAI SEI消息两者时，确定所述SDI SEI消息按照解码顺序在所述MAI SEI消息之前；和

基于所述SDI SEI消息和所述MAI SEI消息生成所述比特流。

22.一种用于存储视频的比特流的方法，包括：

每当访问单元AU包含可缩放性维度信息SDI补充增强信息SEI消息和多视图获取信息MAI)SEI消息两者时，确定所述SDI SEI消息按照解码顺序在所述MAI SEI消息之前；

基于所述SDI SEI消息和所述MAI SEI消息生成所述比特流；和

将所述比特流存储在非暂时性计算机可读介质中。