CN117296321A - 使用可缩放性维度信息 - Google Patents

使用可缩放性维度信息 Download PDF

Info

Publication number
CN117296321A
CN117296321A CN202280026787.1A CN202280026787A CN117296321A CN 117296321 A CN117296321 A CN 117296321A CN 202280026787 A CN202280026787 A CN 202280026787A CN 117296321 A CN117296321 A CN 117296321A
Authority
CN
China
Prior art keywords
sdi
layer
bitstream
auxiliary
sei message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280026787.1A
Other languages
English (en)
Inventor
王洋
王业奎
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN117296321A publication Critical patent/CN117296321A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种处理视频数据的方法包括:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;以及基于SDI SEI消息在视频媒体文件和比特流之间进行转换。还公开了对应的视频编解码装置和非暂时性计算机可读介质。

Description

使用可缩放性维度信息
相关申请的交叉引用
本专利申请要求北京字节跳动网络技术有限公司于2021年4月2日提交的、名称为“可缩放性维度信息改进”的国际申请No.PCT/CN2021/085292的优先权,该申请通过引用并入本文。
技术领域
本公开总体上涉及视频编解码,尤其涉及在图像/视频编解码中使用补充增强信息(SEI)消息携带可缩放性维度信息。
背景技术
数字视频占据了互联网和其他数字通信网络上使用的最大带宽。随着能够接收和显示视频的连接用户设备数量的增加,预计数字视频使用的带宽需求将继续增长。
发明内容
所公开的方面/实施例提供了当辅助信息存在于比特流中时利用可缩放性维度信息(SDI)补充增强信息(SEI)消息来标识哪些主要(或非辅助)层与辅助层相关联的技术。
第一方面涉及一种处理视频数据的方法。该方法包括:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;和基于SDI SEI消息执行视频媒体文件和比特流之间的转换。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当辅助信息存在于比特流中时,SDI SEI消息中的一个或多个语法元素指示哪些主要层与辅助层相关联。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定辅助层具有指定为sdi_aux_id[i]的标识符(ID),其中辅助层标识符等于零指示比特流中的第i层不包含辅助图片,并且其中辅助层标识符大于零指示比特流中的第i层中的辅助图片的类型。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当辅助信息存在于比特流中时,层索引被包括在SDI SEI消息中以指示哪些主要层与辅助层相关联。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定SDI SEI消息中的一个或多个语法元素指示辅助层是否被应用于一个或多个主要层。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定SDI SEI消息中的语法元素指示辅助层是否被应用于主要层中的特定主要层。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定SDI SEI消息中的语法元素指示辅助层是否被应用于一个或多个主要层。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定辅助层是比特流中的多个辅助层之一,并且其中一个或一组语法元素被包括在SDI SEI消息中,以指示当辅助信息存在于比特流中时,哪些主要层与多个辅助层中的每个辅助层相关联。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定在比特流中信令通知与辅助层的辅助图片相关联的主要层的数量的指示。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定主要层的数量的指示被指定为sdi_num_associated_primary_layers_minus1。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定sdi_num_associated_primary_layers_minus1用六位的无符号整数来信令通知。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定在比特流中有条件地信令通知与辅助层相关联或者与辅助层的辅助图片相关联的主要层的数量的指示。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定比特流包括范围内的比特流,并且其中有条件地信令通知包括仅当范围内的比特流中的第i层包含辅助图片时,才信令通知主要层的数量的指示。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当指定为sdi_aux_id[i]的层标识符(ID)大于零时,范围内的比特流中的第i层包含辅助图片。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定比特流包括范围内的比特流,并且其中,范围内的比特流是访问单元(AU)的序列,序列按照解码顺序包括包含SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDI SEI消息的任何后续AU。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当辅助信息存在于比特流中时,或者当比特流包括范围内的比特流并且范围内的比特流是多视图比特流时,SDI SEI消息包括每个层的辅助标识符(ID)。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当指定为sdi_aux_id[i]的层标识符(ID)等于零时,第i层被称为主要层,否则,第i层被称为辅助层。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当指定为sdi_aux_id[i]的层标识符(ID)等于1时,第i层被称为α辅助层,并且其中,当指定为sdi_aux_id[i]的层ID等于2时,第i层被称为深度辅助层。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定哪些主要层与辅助层相关联的指示是导出的,而不是在比特流中指示的。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定当辅助信息存在于比特流中时,使用辅助补充增强信息消息来指示哪些主要层与辅助层相关联。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定转换包括将视频媒体文件编码成比特流。
可选地,在前述方面中的任一项中,该方面的另一实现方式规定转换包括解码比特流以获得视频媒体文件。
第二方面涉及一种用于编解码视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使得处理器:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;和基于SDI SEI消息在视频媒体文件和比特流之间进行转换。
第三方面涉及一种非暂时性计算机可读介质,包括供编解码装置使用的计算机程序产品,计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令,计算机可执行指令在由一个或多个处理器执行时使得编解码装置:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;和基于SDI SEI消息在视频媒体文件和比特流之间进行转换。
第四方面涉及一种存储指令的非暂时性计算机可读存储介质,指令使得处理器:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;和基于SDI SEI消息在视频媒体文件和比特流之间进行转换。
第五方面涉及一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质,其中方法包括:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;和基于SDI SEI消息在视频媒体文件和比特流之间进行转换。
第六方面涉及一种用于存储视频的比特流的方法,包括:当辅助信息存在于比特流中时,使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联;基于SDI SEI消息生成比特流;和将比特流存储在非暂时性计算机可读记录介质中。
为清晰起见,任何一个前述实施例可与任何一个或多个其他前述实施例组合,以在本公开的范围内形成新的实施例。
从以下结合附图和权利要求的详细说明中,可更清楚地理解这些和其他特征。
附图说明
为了更全面地理解本公开内容,现结合附图和详细说明参考以下简要说明,其中相同的参考数字代表相同的部件。
图1图示了用于空域可缩放性的多层编解码的示例。
图2图示了使用输出层集(OLS)的多层编解码的示例。
图3图示了视频比特流的实施例。
图4是显示示例视频处理系统的框图。
图5是视频处理装置的框图。
图6是图示示例视频编解码系统的框图。
图7是图示视频编码器的示例的框图。
图8是图示视频解码器的示例的框图。
图9是根据本公开的实施例的编解码视频数据方法。
具体实施方式
首先应理解,尽管下文提供了一个或多个实施例的说明性实现方式,但可使用任何数量的技术实现所公开的系统和/或方法,无论是当前已知的还是现有的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术,包括在此示出和描述的示例性设计和实现方式,而是可以在所附权利要求及其等同物的全部范围内进行修改。
视频编解码标准主要通过著名的国际电信联盟-电信(ITU-T)和国际标准化组织(ISO)/国际电工委员会(IEC)标准的发展而演变。ITU-T制定了H.261和H.263,ISO/IEC制定了运动图片专家组(MPEG)-1和MPEG-4视频,并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/高效视频编解码(HEVC)标准。参见ITU-T和ISO/IEC,“高效视频编解码”,Rec.ITU-T H.265|ISO/IEC 23008-2(现行版本)。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了探索HEVC以外的未来视频编解码技术,视频编解码专家组(VCEG)和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后,JVET采用了许多新方法,并将其输入到名为联合探索模型(JEM)的参考软件中。参见J.Chen,E.Alshina,G.J.Sullivan,J.-R.Ohm,J.Boyce,“联合探索测试模型7(JEM7)的算法描述”,JVET-G1001,2017年8月。当多功能视频编解码(VVC)项目正式启动时,JVET后来更名为联合视频专家团队(JVET)。VVC是新的编解码标准,目标是与HEVC相比降低50%比特率,该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。参见Rec.ITU-T H.266|ISO/IEC 23090-3,“多功能视频编解码”,2020年。
VVC标准(ITU-T H.266|ISO/IEC 23090-3)和相关的多功能补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)已被设计用于最广泛的应用,包括传统用途(诸如电视广播、视频会议或从存储介质回放),以及更新和更先进的使用情况(诸如自适应比特率流、视频区域提取、来自多个编解码视频比特流的内容的合成和merging、多视图视频、可缩放分层编解码和视口自适应360°沉浸式媒体)。参见B.Bross,J.Chen,S.Liu,Y.-K.Wang(编辑),“多功能视频编解码(草案10)”,JVET-S2001,Rec.ITU-T Rec.H.274|ISO/IEC 23002-7,“用于编解码视频比特流的多功能补充增强信息消息”,2020,以及J.Boyce,V.Drugeon,G.Sullivan,Y.-K.Wang(编辑),“用于编解码视频比特流的多功能补充增强信息消息(草案5)”,JVET-S2007。
基本视频编解码(EVC)标准(ISO/IEC 23094-1)是最近由MPEG开发的另一种视频编解码标准。
图1是图示基于层的预测100的示例的示意图。基于层的预测100与单向帧间预测和/或双向帧间预测兼容,但是也在不同层中的图片之间执行。
基于层的预测100应用于不同层中的图片111、112、113和114与图片115、116、117和118之间。在所示的示例中,图片111、112、113和114是层N+1 132的一部分,并且图片115、116、117和118是层N 131的一部分。诸如层N 131和/或层N+1 132的层是一组图片,它们都与相似的特性值相关联,诸如相似的尺寸、质量、分辨率、信噪比、容量等。在所示的示例中,层N+1 132与比层N 131更大的图片尺寸相关联。因此,在该示例中,层N+1 132中的图片111、112、113和114比层N 131中的图片115、116、117和118具有更大的图片尺寸(例如,更大的高度和宽度,因此有更多的样点)。然而,这样的图片可以通过其他特征在层N+1 132和层N 131之间被分开。虽然仅示出了两层,层N+1 132和层N 131,但是一组图片可以基于相关联的特性被分成任意数量的层。层N+1 132和层N 131也可以由层ID来表示。层ID是与图片相关联的数据项,并且表示该图片是所指示的层的一部分。因此,每个图片111-118可以与对应的层ID相关联,以指示哪个层N+1 132或层N 131包括对应的图片。
不同层131-132中的图片111-118配置为交替显示。这样,不同层131-132中的图片111-118可以共享相同的时域标识符(ID),并且可以被包括在相同的访问单元(AU)106中。如这里所使用的,AU是与用于从解码图片缓冲器(DPB)输出的相同显示时间相关联的一个或多个编解码图片的集合。例如,如果需要较小的图片,解码器可以在当前显示时间解码并显示图片115,或者如果需要较大的图片,解码器可以在当前显示时间解码并显示图片111。这样,较高层N+1 132处的图片111-114包含与较低层N 131处的对应图片115-118基本相同的图像数据(尽管图片尺寸不同)。具体地,图片111包含与图片115基本相同的图像数据,图片112包含与图片116基本相同的图像数据,等等。
图片111-118可通过参考相同层N 131或N+1 132中的其他图片111-118进行编解码。参考相同层中的另一个图片对图片进行编解码导致帧间预测123,其兼容单向帧间预测和/或双向帧间预测。帧间预测123由实线箭头描绘。例如,图片113可以通过使用层N+1 132中的图片111、112和/或114中的一个或两个作为参考采用帧间预测123来编解码,其中一个图片被参考用于单向帧间预测和/或两个图片被参考用于双向帧间预测。此外,图片117可通过使用层N 131中的图片115、116和/或118中的一个或两个作为参考采用帧间预测123来编解码,其中一个图片被参考用于单向帧间预测和/或两个图片被参考用于双向帧间预测。当执行帧间预测123时,当图片被用作相同层中的另一个图片的参考时,该图片可以被称为参考图片。例如,图片112可为用于根据帧间预测123对图片113进行编解码的参考图片。在多层上下文中,帧间预测123也可以被称为层内预测。这样,帧间预测123是通过参考与当前图片不同的参考图片中的指示样点对当前图片的样点进行编解码的机制,其中参考图片和当前图片在相同层中。
图片111-118也可通过参考不同层中的其他图片111-118进行编解码。这个过程被称为层间预测121,并由虚线箭头表示。层间预测121是通过参考参考图片中的指示样点来编解码当前图片的样点的机制,其中当前图片和参考图片在不同的层中,因此具有不同的层ID。例如,较低层N 131中的图片可以用作参考图片,以对较高层N+1 132中的对应图片进行编解码。作为具体示例,可以根据层间预测121参考图片115对图片111进行编解码。在这种情况下,图片115被用作层间参考图片。层间参考图片是用于层间预测121的参考图片。在大多数情况下,层间预测121受到约束,使得当前图片(例如图片111)只能使用包括在相同AU 106中并且位于较低层的(多个)层间参考图片(例如图片115)。当多个层(例如,多于两个)可用时,层间预测121可以基于比当前图片更低的级别的多个层间参考图片来编码/解码当前图片。
视频编码器可采用基于层的预测100,以经由帧间预测123和层间预测121的多种不同组合和/或排列对图片111-118进行编码。例如,图片115可以根据帧内预测来编解码。然后,通过使用图片115作为参考图片,可以根据帧间预测123对图片116-118进行编解码。此外,可以通过使用图片115作为层间参考图片,根据层间预测121对图片111进行编解码。然后,通过使用图片111作为参考图片,可以根据帧间预测123对图片112-114进行编解码。这样,对于不同的编解码机制,参考图片可以用作单层参考图片和层间参考图片。通过基于较低层N 131图片对较高层N+1 132图片进行编解码,较高层N+1 132可以避免采用帧内预测,帧内预测具有比帧间预测123和层间预测121低得多的编解码效率。这样,帧内预测的低编解码效率可以被限制到最小/最低质量的图片,并且因此被限制到编解码最少量的视频数据。用作参考图片和/或层间参考图片的图片可以在参考图片列表结构中包含的(多个)参考图片列表的条目中指示。
图1中的每个AU 106可包含若干图片。例如,一个AU 106可以包含图片111和115。另一个AU 106可以包含图片112和116。实际上,每个AU 106是与用于从解码图片缓冲器(DPB)输出的相同显示时间(例如,相同的时域ID)相关联的一个或多个编解码图片的集合(例如,用于向用户显示)。每个访问单元定界符(AUD)108是用于指示AU(例如,AU 108)的开始或AU之间的边界的指示符或数据结构。
先前的H.26x视频编解码系列已在与单层编解码的(多个)档次分开的(多个)档次中提供了对可缩放性的支持。可缩放视频编解码(SVC)是AVC/H.264的可缩放扩展,提供对空域、时域和质量可缩放性的支持。对于SVC,在增强层(EL)图片中的每个宏块(MB)中信令通知标志,以指示EL MB是否是使用来自较低层的并置块预测的。来自并置块的预测可以包括纹理、运动矢量和/或编解码模式。SVC的实现方式不能在其设计中直接重用未经修改的H.264/AVC实现方式。SVC EL宏块语法和解码过程不同于H.264/AVC语法和解码过程。
可缩放HEVC(SHVC)是HEVC/H.265标准的扩展,提供对空域和质量可缩放性的支持,多视图HEVC(MV-HEVC)是HEVC/H.265的扩展,提供对多视图可缩放性的支持,并且3DHEVC(3D-HEVC)是HEVC/H.264的扩展,提供对三维(3D)视频编解码的支持,其比MV-HEVC更先进且更有效。注意,时域可缩放性被包括作为单层HEVC编解码器的组成部分。HEVC的多层扩展的设计采用了这样的思想,其中用于层间预测的解码图片仅来自相同的AU,并且被视为长期参考图片(LTRP),并且与当前层中的其他时域参考图片一起被分配(多个)参考图片列表中的参考索引。通过设置参考索引的值以参考(多个)参考图片列表中的(多个)层间参考图片,在预测单元(PU)级别实现层间预测(ILP)。
值得注意的是,参考图片重采样和空域可缩放性特征均要求对参考图片或其一部分进行重采样。参考图片重采样(RPR)可以在图片级别或编解码块级别实现。然而,当RPR被称为编解码特征时,它是用于单层编解码的特征。即便如此,从编解码器设计的角度来看,对于单层编解码的RPR特征和多层编解码的空域可缩放性特征两者,使用相同的重采样滤波器是可能的或者甚至是优选的。
图2图示了利用输出层集(OLS)的基于层的预测200的示例。基于层的预测100与单向帧间预测和/或双向帧间预测兼容,但是也在不同层中的图片之间执行。图2的基于层的预测类似于图1的预测。因此,为了简洁起见,不再重复对基于层的预测的完整描述。
图2的编解码视频序列(CVS)290中的一些层包含在OLS中。OLS是层集,其中一个或多个层被规定为输出层。输出层是输出的OLS的层。图2描绘了三种不同的OLS,即OLS1、OLS2和OLS 3。如图所示,OLS1包括层N 231和层N+1 232。层N 231包括图片215、216、217和218,并且层N+1 232包括图片211、212、213和214。OLS2包括层N 231、层N+1 232、层N+2 233和层N+3 234。层N+2 233包括图片241、242、243和244,并且层N+3 234包括图片251、252、253和254。OLS 3包括层N 231、层N+1 232和层N+2 233。尽管示出了三个OLS,但是在实际应用中可以使用不同数量的OLS。在所图示的实施例中,没有一个OLS包括层N+4 235,其包含图片261、262、263和264。
每个不同的OLS可包含任意数量的层。生成不同的OLS是为了适应具有不同编解码能力的各种不同设备的编解码能力。例如,仅包含两层的OLS 1可以被生成以适应具有相对有限编解码能力的移动电话。另一方面,包含四层的OLS2可以被生成以适应大屏幕电视,其能够解码比移动电话更高层。包含三层的OLS 3可以被生成以适应个人计算机、膝上型计算机或平板计算机,其可以解码比移动电话更高层,但是不能解码像大屏幕电视那样的最高层。
图2中的层可全部相互独立。也就是说,可以在不使用层间预测(ILP)的情况下对每层进行编解码。在这种情况下,这些层被称为联播层。图2中的一个或多个层也可以使用ILP来编解码。可以通过视频参数集(VPS)中的标志来信令通知这些层是联播层还是使用ILP对一些层进行编解码。当一些层使用ILP时,层之间的层依赖关系也在VPS中信令通知。
在实施例中,当层为联播层时,仅选择一层进行解码和输出。在实施例中,当一些层使用ILP时,所有层(例如,整个比特流)被规定为要被解码,并且这些层中的某些层被规定为输出层。例如,(多个)输出层可以是1)仅最高层,2)所有层,或3)最高层加上指示的较低层的集合。例如,当最高层加上指示的较低层的集合被VPS中的标志规定用于输出时,来自OLS2的层N+3234(是最高层)和层N 231和N+1 232(是较低层)被输出。
图2中的一些层可称为主要层,而其他层可称为辅助层。例如,层N 231和层N+1232可以被称为主要层,并且层N+2 233和层N+3 234可以被称为辅助层。辅助层可以被称为α辅助层(alpha auxiliary layer)或深度辅助层。当辅助信息存在于比特流中时,主要层可以与辅助层相关联。
不幸的是,现有标准存在缺陷。1.目前语法元素sdi_view_id_len编解码为u(4),并且该值要求在0到15(包括端值)的范围内。该值规定sdi_view_id_val[i]语法元素的比特长度,规定比特流中第i层的视图ID。然而,sdi_view_id_val[i]的长度不应等于0,尽管这在当前是允许的。
2.当比特流中存在一些辅助信息时,例如,如SDI SEI消息(也称为可缩放性维度SEI消息)以及深度表示信息SEI消息或α通道信息SEI消息所指示的,不知道辅助信息应用于哪个非辅助层或主要层。
3.在比特流中存在多视图获取信息SEI消息、或深度表示信息SEI消息、或α通道信息SEI消息,但是在比特流中不存在可缩放性维度信息SEI消息是没有意义的。
4.多视图获取信息SEI消息包含比特流中存在的所有视图的信息。因此,在当前允许的情况下,对它进行可缩放嵌套是没有意义的。
本文公开了解决一个或多个前述问题的技术。例如,本公开提供利用可缩放性维度信息(SDI)补充增强信息(SEI)消息来标识当辅助信息存在于比特流中时哪些主要(或非辅助)层与辅助层相关联的技术。
图3图示了视频比特流300的实施例。如这里所使用的,视频比特流300也可以被称为编解码视频比特流、比特流或其变体。如图3所示,比特流300包括以下一个或多个:解码能力信息(DCI)302、视频参数集(VPS)304、序列参数集(SPS)306、图片参数集(PPS)308、图片标头(PH)312、图片314和SEI消息322。DCI 302、VPS 304、SPS 306和PPS 308中的每一个可以统称为参数集。在实施例中,图3中未示出的其他参数集也可以被包括在比特流300中,例如自适应参数集(APS),其是包含应用于由在条带标头中找到的零个或多个语法元素确定的零个或多个条带的语法元素的语法结构。
DCI 302,也可称为解码参数集(DPS)或解码器参数集,是包含应用于整个比特流的语法元素的语法结构。DCI 302包括在视频比特流(例如,比特流300)的生命周期内保持不变的参数,其可以转化为会话的生命周期。DCI 302可以包括档次、级别和子档次信息,以确定保证永远不会超过的最大复杂度互操作点,即使视频序列的拼接发生在会话中。它还可选地包括约束标志,该约束标志指示视频比特流将被那些标志的值所指示的某些特征的使用所约束。这样,比特流可以被标记为不使用某些工具,这尤其允许解码器实现中的资源分配。像所有参数集一样,DCI 302在第一次被参考时存在,并且被视频序列中的第一图片参考,这意味着它必须在比特流中的第一网络抽象层(NAL)单元之间发送。虽然比特流中可以有多个DCI 302,但是其中的语法元素的值在被参考时不能不一致。
VPS 304包括用于增强层的参考图片集构建的解码依赖性或信息。VPS 304提供了可缩放序列的整体视图或视图,包括提供了什么类型的操作点、操作点的档次、层次和级别,以及可以用作会话协商和内容选择的基础的比特流的一些其他高级属性等。
在实施例中,当指示某些层使用ILP时,VPS 304指示VPS规定的OLS总数等于层数,指示第i个OLS包括层索引从0到i(包括端值)的层,并指示对于每个OLS,仅输出OLS中的最高层。
SPS 306包含图片序列(SOP)中所有图片共有的数据。SPS 306是包含应用于零个或多个完整CLVS的语法元素的语法结构,如由在PPS中找到的语法元素的内容所确定的,PPS由在每个图片标头中找到的语法元素所参考。相比之下,PPS 308包含整个图片共有的数据。PPS 308是包含应用于零个或多个完整编解码图片的语法元素的语法结构,如在每个图片标头(例如,PH 312)中找到的语法元素所确定的。
DCI 302、VPS 304、SPS 306和PPS 308包含在不同类型的网络抽象层(NAL)单元中。NAL单元是包含要跟随的数据类型的指示(例如,编解码的视频数据)的语法结构。NAL单元被分类为视频编解码层(VCL)和非VCL NAL单元。VCL NAL单元包含表示视频图片中样点的值的数据,而非VCL NAL单元包含任何相关的附加信息,例如参数集(可以应用于多个VCLNAL单元的重要数据)和补充增强信息(定时信息和其他补充数据,其可以增强解码视频信令的可用性,但是对于解码视频图片中的样点值不是必需的)。
在实施例中,DCI 302包含在指定为DCI NAL单元或DPS NAL单元的非VCL NAL单元中。也就是说,DCI NAL单元具有DCI NAL单元类型(NUT),而DPS NAL单元具有DPS NUT。在实施例中,VPS 304包含在被指定为VPS NAL单元的非VCL NAL单元中。因此,VPS NAL单元有VPS NUT。在实施例中,SPS 306是被指定为SPS NAL单元的非VCL NAL单元。因此,SPS NAL单元有SPS NUT。在实施例中,PPS 308包含在被指定为PPS NAL单元的非VCL NAL单元中。因此,PPS NAL单元有PPS NUT。
PH 312是包含应用于编解码图片(例如,图片314)的所有条带(例如,条带318)的语法元素的语法结构。在实施例中,PH 312是指定为PH NAL单元的非VCL NAL单元类型。因此,PH NAL单元具有PH NUT(例如,PH_NUT)。
在实施例中,与PH 312相关的PH NAL单元具有时域ID和层ID。时域ID标识符指示PH NAL单元相对于比特流(例如,比特流300)中其他PH NAL单元的时间位置。层ID指示包含PH NAL单元的层(例如,层131或层132)。在实施例中,时域ID类似于但不同于图片顺序计数(POC)。POC按顺序唯一地标识每个图片。在单层比特流中,时域ID和POC将是相同的。在多层比特流中(例如,参见图1),相同AU中的图片将具有不同的POC,但是具有相同的时域ID。
在实施例中,PH NAL单元位于包含相关图片314的第一条带318的VCL NAL单元之前。这建立了PH 312和与PH 312相关联的图片314的条带318之间的关联,而不需要具有在PH 312中信令通知的并从条带标头320中被参考的图片标头ID。因此,可以推断两个PH 312之间的所有VCL NAL单元属于相同图片314,并且图片314与两个PH 312之间的第一PH 312相关联。在实施例中,跟随PH 312的第一VCL NAL单元包含与PH 312相关联的图片314的第一条带318。
在实施例中,PH NAL单元遵循图片级别参数集(例如,PPS)或更高级别参数集,例如DCI(又名,DPS)、VPS、SPS、PPS等,具有分别小于PH NAL单元的时域ID和层ID的时域ID和层ID两者。因此,这些参数集不会在图片或访问单元内重复。由于这种排序,PH 312可以立即得到解决。也就是说,包含与整个图片相关的参数的参数集位于比特流中的PH NAL单元之前。任何包含图片部分参数的内容都位于PH NAL单元之后。
在一个备选中,PH NAL单元遵循图片级别参数集和前缀补充增强信息(SEI)消息,或更高级别参数集,例如DCI(也称为DPS)、VPS、SPS、PPS、APS、SEI消息等。
图片314为单色格式的亮度样点的阵列或4:2:0、4:2:2和4:4:4颜色格式的亮度的样点阵列和两个对应的色度样点的阵列。
图片314可以是帧或场。然而,在一个CVS 316中,或者所有图片314都是帧,或者所有图片314都是场。CVS 316是视频比特流300中每个编解码层视频序列(CLVS)的编解码视频序列。值得注意的是,当视频比特流300包括单层时,CVS 316和CLVS是相同的。CVS 316和CLVS仅在视频比特流300包括多个层时不同(例如,如图1和2所示)。
每个图片314包含一个或多个条带318。条带318是图片(例如,图片314)的片内的整数个完整片或整数个连续完整编解码树单元(CTU)行。每个条带318被排他地包含在单个NAL单元(例如,VCL·NAL单元)中。片(未示出)是图片(例如,图片314)中特定片列和特定片行内的CTU的矩形区域。CTU(未示出)是亮度样点的编解码树块(CTB)、具有三个样点阵列的图片的色度样点的两个对应CTB、或者单色图片或者使用三个单独的颜色平面和用于编解码样点的语法结构进行编解码的图片的样点的CTB。CTB(未示出)是对于某个N值的N×N样点块,使得将分量划分为CTB是一种分割。块(未示出)是样点(例如,像素)的MxN(M列乘N行)阵列,或者变换系数的MxN阵列。
在实施例中,每个条带318包含条带标头320。条带标头320是编解码条带318的一部分,其含有与条带318中所表示的片内的所有条带或CTU行相关的数据元素。也就是说,条带标头320包含关于条带318的信息,例如条带类型、将使用哪个参考图片等等。
图片314及其条带318包括与正在编码或解码的图片或视频相关的数据。因此,图片314及其条带318可以被简单地称为比特流300中携带的有效负载或数据。
比特流300还包含一个或多个SEI消息,例如SEI消息322,其包含补充增强信息。SEI消息可以包含各种类型的数据,这些数据指示视频图片的定时,或者描述编解码视频的各种属性,或者如何使用或增强编解码视频。SEI消息也被定义为可以包含任意用户定义的数据。SEI消息不影响核心解码过程,但可以指示建议如何对视频进行后处理或显示。视频内容的一些其他高级属性在视频可用性信息(VUI)中传达,例如用于解释视频内容的颜色空间的指示。随着新的颜色空间的开发,例如高动态范围和宽色域视频,已经添加了附加的VUI标识符来指示它们。
在实施例中,SEI消息322可为SDI SEI消息。当辅助信息存在于比特流中时,SDISEI消息可以用于指示哪些主要层与辅助层相关联。例如,SDI SEI消息可以包括一个或多个语法元素324,以指示当辅助信息存在于比特流中时哪些主要层与辅助层相关联。下面提供了对各种SEI消息和那些SEI消息中包含的语法元素的讨论。
本领域技术人员将意识到,在实际应用中,比特流300可包含其他参数和信息。
为解决上述问题,公开了总结如下的方法。这些技术应该被认为是解释一般概念的示例,而不应该以狭隘的方式来解释。此外,这些技术可以单独应用或以任何方式组合应用。
示例1
1)为解决问题1,在一个示例中,代替例如通过语法元素sdi_view_id_len信令通知视图ID语法元素的长度,例如通过语法元素sdi_view_id_len_minusL信令通知长度减去L(例如L=1)的值。
a.此外,在一个示例中,可使用N位将语法元素编解码为无符号整数。
i.在一个示例中,N可等于4。
ii.或者,语法可被编解码为使用N位的固定模式位串、或使用N位的带符号整数、或截断二进制、或带符号整数K阶(例如,K=0)指数哥伦布编解码的语法元素、或无符号整数M阶(例如,M=0)指数哥伦布编解码的语法元素。
b.在一个示例中,或者,仍通过例如语法元素sdi_view_id_len信令通知长度,但限制语法元素的值不应等于0。
示例2
2)为解决问题2,建议将辅助层(即,对应sdi_aux_id[i]等于1或2的层)应用于一个或多个关联层。
a.在一个示例中,可在可缩放性维度信息SEI消息中信令通知指示每个辅助层的关联层的一个或多个语法元素。
i.在一个示例中,关联层由层ID规定。
ii.在另一示例中,相关联的层由层索引规定。
iii.在另一示例中,辅助层是否被应用于一个或多个关联层的指示可以由关联层的一个或多个语法元素来规定。
1.在一个示例中,语法元素可用于指示辅助层是否应用于所有相关联的层。
2.在一个示例中,语法元素可用于指示辅助层是否被应用于特定的关联层。
a.在一个示例中,一个或多个主要层由语法元素指示。
i.在一个示例中,所有主要层可由语法元素指示。
ii.在一个示例中,语法元素可以仅指示层索引小于辅助层的层索引的主要层。
iii.在一个示例中,语法元素可以仅指示层索引大于辅助层的层索引的主要层。
b.在一个示例中,语法元素被编解码为标志。
b.或者,建议可在未显式信令通知的情况下,导出每个辅助层的相关一层或多层。
i.在一个示例中,每个辅助层的关联层可为nuh_layer_id分别等于辅助层的nuh_layer_id加上N1、N2和Nk的层,其中k为整数,并且对于在1到k(包括端值)的范围内的任意i,j(i!=j),Ni!=Nj。
1.在一个示例中,k等于1,并且N1可以等于1、2或-1或-2。
a.在一个示例中,k等于2,并且N1=1,N2=2。
ii.在一个示例中,每个辅助层的关联层可以是层索引分别等于辅助层的层索引加上N1、N2和Nk的层,其中k是整数,并且对于在1到k(包括端值)的范围内的任意i,j(i!=j),Ni!=Nj。
1.在一个示例中,k等于1,并且N1可以等于1、或2、或-1、或-2。
2.在一个示例中,k大于1。
a.在一个示例中,k等于2,并且N1=1,N2=2。
c.或者,每个辅助层的关联层的指示可作为可缩放性维度信息SEI消息中的一个或一组语法元素显式信令通知。
d.或者,辅助信息SEI消息(例如,深度表示信息或α通道信息)的关联层的指示可由辅助信息SEI消息中的一个或多个语法元素显式信令通知。
i.在一个示例中,辅助信息SEI消息可指深度表示信息SEI消息或α通道信息SEI消息。
ii.在一个示例中,一个或多个语法元素可以指示相关联的层的层ID值。
1.在一个示例中,由语法元素指示的层ID可能需要小于或等于最大层ID值,即vps_layer_id[vps_max_layers_minus1]或vps_layer_id[sdi_max_layers_minus1]。
iii.在一个示例中,一个或多个语法元素可以指示关联层的层索引值。
1.在一个示例中,由语法元素指示的层索引可能需要小于比特流中的最大层数(例如,sdi_max_layers_minus1加1或vps_max_layers_minus1加1)。
iv.在一个示例中,可以信令通知一个或多个层是否与辅助层相关联的指示。
1.在一个示例中,一个语法元素可用于规定辅助信息SEI消息是否应用于所有层。
a.在一个示例中,auxiliary_all_layer_flag等于X(X为1或0)可规定辅助信息SEI消息应用于所有相关的主要层。
2.在一个示例中,一个或多个语法元素可用于规定辅助信息SEI消息是否被应用于一个或多个层。
a.在一个示例中,N个语法元素可用于规定辅助信息SEI消息是否应用于N层,其中每个语法元素用于每层。
i.在一个示例中,可使用1位将语法元素编解码为标志。
b.在一个示例中,一个语法元素可用于规定辅助信息SEI消息是否应用于一个或多个层。
i.在一个示例中,语法元素可以是第K个(例如,K=0)指数哥伦布编解码的。
ii.在一个示例中,语法元素等于5规定辅助信息SEI消息被应用于第0层和第2层,但不应用于第1层。
1.或者,将N表示为层数。语法元素等于5规定辅助信息SEI消息应用于第(N-1)层和第(N-3)层,但不应用于第(N-2)层。
c.可有条件地信令通知上述语法元素,例如,仅当辅助信息SEI消息未应用于所有层时,
e.在一个示例中,可在比特流中信令通知一层的辅助图片的关联层数的指示。
f.在一个示例中,可使用使用N位的无符号整数、或使用N位的固定模式位串、或使用N位的有符号整数、或截断二进制、或有符号整数K阶(例如,K=0)指数哥伦布编解码的语法元素、或无符号整数M阶(例如,M=0)指数哥伦布编解码的语法元素来信令通知上述语法元素。
g.在一个示例中,可有条件地信令通知辅助图片的关联层数和/或辅助图片的关联层数的指示,例如,仅当bitstreamInScope中的第i层包含辅助图片时(例如,sdi_aux_id[i]>0)。bitstreamInScope(也称为范围内的比特流)被定义为AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDI SEI消息的任何后续AU。
示例3
3)为解决问题3,添加了比特流一致性要求,即多视图或辅助信息SEI消息不应存在于不具有可缩放性维度信息SEI消息的CVS中。
b.此外,辅助信息SEI消息可指深度表示信息SEI消息或α通道信息SEI消息。
c.或者,添加比特流一致性的要求,即当多视图或辅助信息SEI消息存在于比特流中时,要求可缩放维度信息SEI消息的sdi_multiview_info_flag和sdi_auxiliary_info_flag中的至少一个等于1。
示例4
4)为解决问题4,在一个示例中,添加了比特流一致性要求,即多视图获取信息SEI消息不应是可缩放嵌套的。
a.或者,规定payloadType等于179(多视图获取)的SEI消息不应包含在可缩放嵌套SEI消息中。
以下为上文总结的一些示例的一些示例实施例。每个实施例都可以应用于VVC。大多数已被添加或修改的相关部分用粗斜体表示,而一些被删除的部分用斜体表示。可能还有其他一些编辑性的改动,因此没有突出显示。
下述每个可缩放性维度SEI消息语法包括一个或多个语法元素。语法元素可以是例如在此公开的可缩放性维度SEI消息语法中包括的一个或多个值、标志、变量、短语、指示、索引、映射、数据元素或其组合。在实施例中,语法元素可以被组织成一组值、标志、变量、短语、指示、索引、映射和/或数据元素。
实施例1
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len_minus1加1规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len_minus1+1位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例2
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len_minus1加1规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len_minus1+1位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例3
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度(以比特为单位)。如果存在,sdi_view_id_len不应等于0。
sdi_view_id_len_minus1加1规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例4
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
或者,以下适用:
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度(以比特为单位)。如果存在,sdi_view_id_len不应等于0。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
sdi_associated_primary_id[i]规定第i层的相关主要层的层ID,其为辅助层。
实施例5
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例6
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例7
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例8
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例9
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例10
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例11
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例12
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
注1–α辅助层或深度辅助层适用于其相关的非辅助层的主要层。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
实施例13
深度表示信息SEI消息
深度表示信息SEI消息语法
深度表示信息SEI消息语义
深度表示信息SEI消息中的语法元素规定用于类型AUX_DEPTH的辅助图片的各种参数,以便在3D显示器上呈现之前处理解码的主要图片和辅助图片,例如视图合成。具体地,规定深度图片的深度或视差范围。
当存在时,深度表示信息SEI消息应与sdi_aux_id值等于AUX_DEPTH的一个或多个层相关联。以下语义分别应用于深度表示信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,深度表示信息SEI消息可包含在任何访问单元中。建议当存在时,出于随机访问的目的,将SEI消息包括在访问单元中,在该访问单元中,nuh_layer_id等于targetLayerId的编解码图片是帧内随机访问图片(IRAP)图片。
对于sdi_aux_id[targetLayerId]等于AUX_DEPTH的辅助图片,对于在0至2(包括端值)和4至15(包括端值)的范围内的所有j值,相关联的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得ScalabilityId[LayerIdxInVps[targetLayerId]][j]等于ScalabilityId[LayerIdxInVps[nuhLayerIdB]][j]。
SEI消息中指示的信息适用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片,直至但不包括下一个图片,按照解码顺序,与适用于targetLayerId的深度表示信息SEI消息相关联,或直至nuh_layer_id等于targetLayerId的CLVS的末端,以解码顺序中较早者为准。
z_near_flag等于0规定语法结构中不存在规定最近深度值的语法元素。z_near_flag等于1规定语法结构中存在规定最近深度值的语法元素。
z_far_flag等于0规定语法结构中不存在规定最远深度值的语法元素。z_far_flag等于1规定语法结构中存在规定最远深度值的语法元素。
d_min_flag等于0规定语法结构中不存在规定最小视差值的语法元素。d_min_flag等于1规定语法结构中存在规定最小视差值的语法元素。
d_max_flag等于0规定语法结构中不存在规定最大视差值的语法元素。d_max_flag等于1规定语法结构中存在规定最大视差值的语法元素。
depth_representation_type规定如表Y1中规定的辅助图片的解码亮度样点的表示定义。在表Y1中,视差规定两个纹理视图之间的水平位移,而Z值规定距相机的距离。
变量maxVal被设置为等于(1<<(8+sps_bitdepth_minus8))-1,其中sps_bitdepth_minus8是包含在nuh_layer_id等于targetLayerId的层的活动SPS中或为其推断的值。
表Y1–depth_representation_type的定义
disparity_ref_view_id规定了导出视差值所依据的ViewId值。
注1-仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。
表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出,如下所示:
--如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注1-上述规范与IEC 60559:1989中的规范类似。
表Y2–深度参数变量和语法元素之间的关联
x s e n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
dmin和DMax值,当存在时,以编解码图片的亮度样点宽度为单位规定,其中ViewId等于辅助图片的ViewId。
当存在时,ZNear和ZFar值的单位相同,但未规定。
depth_nonlinear_representation_num_minus1加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。
对于范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的i的depth_nonlinear_representation_model[i]规定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
注2-当depth_representation_type等于3时,辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示,即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0,0)和最后一个(maxVal,maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式发送。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内,其间距取决于nonlinear_depth_representation_num_minus1的值。
在0至maxVal(包括端值)的范围内的i的变量DepthLUT[i]规定如下:for(k=0;k<=depth_nonlinear_representation_num_minus1+1;k++){
pos1=(maxVal*k)/(depth_nonlinear_representation_num_minus1+2)
dev1=depth_nonlinear_representation_model[k]
pos2=(maxVal*(k+1))/(depth_nonlinear_representation_num_minus1+2)
dev2=depth_nonlinear_representation_model[k+1](X)
x1=pos1-dev1
y1=pos1+dev1
x2=pos2-dev2
y2=pos2+dev2
for(x=Max(x1,0);x<=Min(x2,maxVal);x++)
DepthLUT[x]=Clip3(0,maxVal,Round(((x-x1)*(y2-y1))÷(x2-x1)+y1))
}
当depth_representation_type等于3时,0至maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示均匀量化到0至maxVal(包括端值)的范围内的视差。
语法结构规定深度表示信息SEI消息中元素的值。
语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构包含在另一个语法结构中时,变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为被包含该语法结构时使用的变量名称所替换。
da_sign_flag等于0指示浮点值的符号为正。da_sign_flag等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。
da_exponent规定浮点值的指数。da_exponent的值应在0到27-2(包括端值)的范围内。值27-1保留给ITU-T|ISO/IEC将来使用。解码器应将值27-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。
da_mantissa_len_minus1加1规定da_mantissa语法元素中的位数。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。
da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。
实施例14
深度表示信息SEI消息
深度表示信息SEI消息语法
深度表示信息SEI消息语义
深度表示信息SEI消息中的语法元素规定用于类型AUX_DEPTH的辅助图片的各种参数,以便在3D显示器上呈现之前处理解码的主要图片和辅助图片,例如视图合成。具体地,规定深度图片的深度或视差范围。
当存在时,深度表示信息SEI消息应与sdi_aux_id值等于AUX_DEPTH的一个或多个层相关联。以下语义分别应用于深度表示信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,深度表示信息SEI消息可包含在任何访问单元中。建议当存在时,出于随机访问的目的,将SEI消息包括在访问单元中,在该访问单元中,nuh_layer_id等于targetLayerId的编解码图片是IRAP图片。
对于sdi_aux_id[targetLayerId]等于AUX_DEPTH的辅助图片,对于在0至2(包括端值)和4至15(包括端值)的范围内的所有j值,相关联的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得ScalabilityId[LayerIdxInVps[targetLayerId]][j]等于ScalabilityId[LayerIdxInVps[nuhLayerIdB]][j]。
SEI消息中指示的信息适用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片,直至但不包括下一个图片,按照解码顺序,与适用于targetLayerId的深度表示信息SEI消息相关联,或直至nuh_layer_id等于targetLayerId的CLVS的末端,以解码顺序中较早者为准。
z_near_flag等于0规定语法结构中不存在规定最近深度值的语法元素。z_near_flag等于1规定语法结构中存在规定最近深度值的语法元素。
z_far_flag等于0规定语法结构中不存在规定最远深度值的语法元素。z_far_flag等于1规定语法结构中存在规定最远深度值的语法元素。
d_min_flag等于0规定语法结构中不存在规定最小视差值的语法元素。d_min_flag等于1规定语法结构中存在规定最小视差值的语法元素。
d_max_flag等于0规定语法结构中不存在规定最大视差值的语法元素。d_max_flag等于1规定语法结构中存在规定最大视差值的语法元素。
depth_representation_type规定如表Y1中规定的辅助图片的解码亮度样点的表示定义。在表Y1中,视差规定两个纹理视图之间的水平位移,而Z值规定距相机的距离。
变量maxVal被设置为等于(1<<(8+sps_bitdepth_minus8))-1,其中sps_bitdepth_minus8是包含在nuh_layer_id等于targetLayerId的层的活动SPS中或为其推断的值。
表Y1–depth_representation_type的定义
disparity_ref_view_id规定了导出视差值所依据的ViewId值。
注1-仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。
表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出,如下所示:
--如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注1-上述规范与IEC 60559:1989中的规范类似。
表Y2–深度参数变量和语法元素之间的关联
x s e n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
dmin和DMax值,当存在时,以编解码图片的亮度样点宽度为单位规定,其中ViewId等于辅助图片的ViewId。
当存在时,ZNear和ZFar值的单位相同,但未规定。
depth_nonlinear_representation_num_minus1加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。
对于范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的i的depth_nonlinear_representation_model[i]规定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
注2-当depth_representation_type等于3时,辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示,即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0,0)和最后一个(maxVal,maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式发送。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内,其间距取决于nonlinear_depth_representation_num_minus1的值。
在0至maxVal(包括端值)的范围内的i的变量DepthLUT[i]规定如下:for(k=0;k<=depth_nonlinear_representation_num_minus1+1;k++){
pos1=(maxVal*k)/(depth_nonlinear_representation_num_minus1+2)
dev1=depth_nonlinear_representation_model[k]
pos2=(maxVal*(k+1))/(depth_nonlinear_representation_num_minus1+2)
dev2=depth_nonlinear_representation_model[k+1](X)
x1=pos1-dev1
y1=pos1+dev1
x2=pos2-dev2
y2=pos2+dev2
for(x=Max(x1,0);x<=Min(x2,maxVal);x++)
DepthLUT[x]=Clip3(0,maxVal,Round(((x-x1)*(y2-y1))÷(x2-x1)+y1))
}
当depth_representation_type等于3时,0至maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示均匀量化到0至maxVal(包括端值)的范围内的视差。
语法结构规定深度表示信息SEI消息中元素的值。
语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构包含在另一个语法结构中时,变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为被包含该语法结构时使用的变量名称所替换。
da_sign_flag等于0指示浮点值的符号为正。da_sign_flag等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。
da_exponent规定浮点值的指数。da_exponent的值应在0到27-2(包括端值)的范围内。值27-1保留给ITU-T|ISO/IEC将来使用。解码器应将值27-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。
da_mantissa_len_minus1加1规定da_mantissa语法元素中的位数。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。
da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。
实施例15
α通道信息SEI消息
α通道信息SEI消息语法
α通道信息SEI消息语义
α通道信息SEI消息提供关于α通道样点值和应用于在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中编解码的解码α平面的后处理的信息。
对于nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片,对于在0到2(包括端值)和4到15(包括端值)的范围内的所有j值,相关的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得scalabilityid[LayerIdxInVps[nuhLayerIdA]][j]等于scalabilityid[LayerIdxInVps[nuhLayerIdB]][j]。
当访问单元包含nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片picA时,picA的α通道样点值按输出顺序持续,直到以下一个或多个条件为真:
--按输出顺序,输出nuh_layer_id等于nuhLayerIdA的下一个图片。
--包含辅助图片picA的CLVS结束。
--比特流结束。
--nuh_layer_id等于nuhLayerIdA的辅助图片层的任何相关主要层的CLVS结束。
以下语义分别应用于α通道信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
alpha_channel_cancel_flag等于1指示α通道信息SEI消息取消按照应用于当前层的输出顺序的任何先前α通道信息SEI消息的持续性。alpha_channel_cancel_flag等于0指示随后是α通道信息。
设currPic为α通道信息SEI消息所关联的图片。α通道信息SEI消息的语义按照输出顺序持续用于当前层,直到以下一个或多个条件为真:
--当前层的新CLVS开始。
--比特流结束。
--在调用picB的图片顺序计数的解码过程之后,立即输出访问单元中numh_layer_id等于targetLayerId的图片picB,该访问单元包含numh_layer_id等于targetLayerId的α通道信息SEI消息,其PicOrderCnt(picB)大于PicOrderCnt(currPic),其中PicOrderCnt(picB)和PicOrderCnt(currPic)分别是picB和currPic的PicOrderCntVal值。
alpha_channel_use_idc等于0指示出于α混合目的,在从解码过程输出之后的显示过程中,应当将相关联的主要图片的解码样点乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于1指示出于α混合的目的,在从解码过程输出之后的显示过程中,相关主要图片的解码样点不应乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于2指示未规定辅助图片的使用。大于2的alpha_channel_use_idc的值保留给ITU-T|ISO/IEC将来使用。当不存在时,alpha_channel_use_idc的值被推断为等于2。
alpha_channel_bit_depth_minus8加8规定辅助图片的亮度样点阵列的样点的位深度。alpha_channel_bit_depth_minus8应在0到7(包括端值)的范围内。alpha_channel_bit_depth_minus8应等于相关主要图片的bit_depth_luma_minus8。
alpha_transparent_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是透明的,用于α混合的目的。用于表示alpha_transparent_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_opaque_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是不透明的,用于α混合。用于表示alpha_opaque_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_channel_incr_flag等于0指示每个解码辅助图片亮度样点值的解释样点值等于出于α混合的目的的解码辅助图片样点值。alpha_channel_incr_flag等于1指示,为了α混合的目的,在解码辅助图片样点之后,任何大于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该增加1,以获得辅助图片样点的解释样点值,并且任何小于或等于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该被不加改变地用作解码辅助图片样点值的解释样点值。当不存在时,alpha_channel_incr_flag的值被推断为等于0。
alpha_channel_clip_flag等于0指示不应用剪裁操作来获得解码辅助图片的解释样点值。alpha_channel_clip_flag等于1指示解码辅助图片的解释样点值根据由alpha_channel_clip_type_flag语法元素描述的剪辑过程而改变。当不存在时,alpha_channel_clip_flag的值被推断为等于0。
alpha_channel_clip_type_flag等于0指示,出于α混合的目的,在对辅助图片样点进行解码后,将大于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且将小于或等于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。alpha_channel_clip_type_flag等于1指示,出于α混合的目的,在解码辅助图片样点之后,大于alpha_opaque_value的任何辅助图片亮度样点被设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且小于或等于alpha_transparent_value的任何辅助图片亮度样点被设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。
注-当alpha_channel_incr_flag和alpha_channel_clip_flag均等于1时,应首先应用由alpha_channel_clip_type_fla规定的剪裁操作,然后应用由alpha_channel_incr_flag规定的变更,以获得辅助图片亮度样点的解释样点值。
实施例16
α通道信息SEI消息
α通道信息SEI消息语法
α通道信息SEI消息语义
α通道信息SEI消息提供关于α通道样点值和应用于在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中编解码的解码α平面的后处理的信息。
对于nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片,对于在0到2(包括端值)和4到15(包括端值)的范围内的所有j值,相关的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得scalabilityid[LayerIdxInVps[nuhLayerIdA]][j]等于scalabilityid[LayerIdxInVps[nuhLayerIdB]][j]。
当访问单元包含nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片picA时,picA的α通道样点值按输出顺序持续,直到以下一个或多个条件为真:
--按输出顺序,输出nuh_layer_id等于nuhLayerIdA的下一个图片。
--包含辅助图片picA的CLVS结束。
--比特流结束。
--nuh_layer_id等于nuhLayerIdA的辅助图片层的任何相关主要层的CLVS结束。
以下语义分别应用于α通道信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
alpha_channel_cancel_flag等于1指示α通道信息SEI消息取消按照应用于当前层的输出顺序的任何先前α通道信息SEI消息的持续性。alpha_channel_cancel_flag等于0指示随后是α通道信息。
设currPic为α通道信息SEI消息所关联的图片。α通道信息SEI消息的语义按照输出顺序持续用于当前层,直到以下一个或多个条件为真:
--当前层的新CLVS开始。
--比特流结束。
--在调用picB的图片顺序计数的解码过程之后,立即输出访问单元中numh_layer_id等于targetLayerId的图片picB,该访问单元包含numh_layer_id等于targetLayerId的α通道信息SEI消息,其PicOrderCnt(picB)大于PicOrderCnt(currPic),其中PicOrderCnt(picB)和PicOrderCnt(currPic)分别是picB和currPic的PicOrderCntVal值。
alpha_channel_use_idc等于0指示出于α混合目的,在从解码过程输出之后的显示过程中,应当将相关联的主要图片的解码样点乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于1指示出于α混合的目的,在从解码过程输出之后的显示过程中,相关主要图片的解码样点不应乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于2指示未规定辅助图片的使用。大于2的alpha_channel_use_idc的值保留给ITU-T|ISO/IEC将来使用。当不存在时,alpha_channel_use_idc的值被推断为等于2。
alpha_channel_bit_depth_minus8加8规定辅助图片的亮度样点阵列的样点的位深度。alpha_channel_bit_depth_minus8应在0到7(包括端值)的范围内。alpha_channel_bit_depth_minus8应等于相关主要图片的bit_depth_luma_minus8。
alpha_transparent_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是透明的,用于α混合的目的。用于表示alpha_transparent_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_opaque_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是不透明的,用于α混合。用于表示alpha_opaque_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_channel_incr_flag等于0指示每个解码辅助图片亮度样点值的解释样点值等于出于α混合的目的的解码辅助图片样点值。alpha_channel_incr_flag等于1指示,为了α混合的目的,在解码辅助图片样点之后,任何大于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该增加1,以获得辅助图片样点的解释样点值,并且任何小于或等于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该被不加改变地用作解码辅助图片样点值的解释样点值。当不存在时,alpha_channel_incr_flag的值被推断为等于0。
alpha_channel_clip_flag等于0指示不应用剪裁操作来获得解码辅助图片的解释样点值。alpha_channel_clip_flag等于1指示解码辅助图片的解释样点值根据由alpha_channel_clip_type_flag语法元素描述的剪辑过程而改变。当不存在时,alpha_channel_clip_flag的值被推断为等于0。
alpha_channel_clip_type_flag等于0指示,出于α混合的目的,在对辅助图片样点进行解码后,将大于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且将小于或等于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。alpha_channel_clip_type_flag等于1指示,出于α混合的目的,在解码辅助图片样点之后,大于alpha_opaque_value的任何辅助图片亮度样点被设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且小于或等于alpha_transparent_value的任何辅助图片亮度样点被设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。
注-当alpha_channel_incr_flag和alpha_channel_clip_flag均等于1时,应首先应用由alpha_channel_clip_type_fla规定的剪裁操作,然后应用由alpha_channel_incr_flag规定的变更,以获得辅助图片亮度样点的解释样点值。
实施例17
多视图获取信息SEI消息
多视图获取信息SEI消息语法
多视图获取信息SEI消息语义
多视图获取信息(MAI)SEI消息规定了获取环境的各种参数。具体来说,规定了内部和外部相机参数。这些参数可以用于在3D显示器上呈现之前处理解码视图。
以下语义分别应用于多视图获取信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,应用于当前层的多视图获取信息SEI消息应包含在包含IRAP图片的访问单元中,该IRAP图片为当前层的CLVS的第一个图片。SEI消息中信令通知的信息应用于CLVS。
当多视图获取信息SEI消息包含在可缩放嵌套SEI消息中时,可缩放嵌套SEI消息中的语法元素sn_ols_flag和sn_all_layers_flag应等于0。
变量numViewsMinus1的导出如下:
--如果多视图获取信息SEI消息未包含在可缩放嵌套SEI消息中,则numViewsMinus1设置为等于0。
--否则(多视图获取信息SEI消息包含在可缩放嵌套SEI消息中),numViewsMinus1设置为等于sn_num_layers_minus1。
多视图获取信息包含在多视图获取信息SEI消息中的某些视图可能不存在。
在以下语义中,索引i是指应用于nuh_layer_id等于NestingLayerId[i]的层的语法元素和变量。
根据右手坐标系规定外部相机参数,其中图像的左上角为原点,即(0,0)坐标,其中图片的其他角具有非负坐标。根据这些规范,对于第i个相机,将3维世界点wP=[x y z]映射到2维相机点cP[i]=[u v 1],根据:
s*cP[i]=A[i]*R-1[i]*(wP-T[i]) (X)
其中,A[i]表示内部相机参数矩阵,R-1[i]表示旋转矩阵R[i]的逆矩阵,T[i]表示平移矢量,并且s(标量值)为任意尺度因子,选择该尺度因子以使cP[i]的第三坐标等于1。A[i]、R[i]和T[i]的元素是根据该SEI消息中信令通知的语法元素确定的,并且如下所规定。
intrinsic_param_flag等于1指示存在内部相机参数。intrinsic_param_flag等于0指示不存在内部相机参数。
extrinsic_param_flag等于1指示存在外部相机参数。extrinsic_param_flag等于0指示不存在外部相机参数。
intrinsic_params_equal_flag等于1指示所有相机的内部相机参数相等,并且仅存在一组内部相机参数。intrinsic_params_equal_flag等于0指示每个相机的内部相机参数不同,并且每个相机都有一组内部相机参数。
prec_focal_length规定由2-prec_focal_length给出的focal_length_x[i]和focal_length_y[i]的最大允许截断误差的指数。prec_focal_length的值应在0到31(包括端值)的范围内。
prec_principal_point规定由2-prec_principal_point给出的principal_point_x[i]和principal_point_y[i]的最大允许截断误差的指数。prec_principal_point的值应在0到31(包括端值)的范围内。
prec_skew_factor规定由2-prec_skew_factor给出的倾斜因子的最大允许截断误差的指数。prec_skew_factor的值应在0到31(包括端值)的范围内。
sign_focal_length_x[i]等于0指示第i个相机在水平方向上的焦距的符号为正。sign_focal_length_x[i]等于1指示符号为负。
exponent_focal_length_x[i]规定第i个相机在水平方向上的焦距的指数部分。exponent_focal_length_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。
mantissa_focal_length_x[i]规定第i个相机在水平方向上的焦距的尾数部分。mantissa_focal_length_x[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_focal_length_x[i]等于0,则长度为Max(0,prec_focal_length-30)。
--否则(exponent_focal_length_x[i]在0到63(包括端值)的范围内),长度为Max(0,exponent_focal_length_x[i]+prec_focal_length-31)。
sign_focal_length_y[i]等于0指示第i个相机的垂直方向上的焦距的符号为正。sign_focal_length_y[i]等于1指示符号为负。
exponent_focal_length_y[i]规定第i个相机的垂直方向上的焦距的指数部分。exponent_focal_length_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。
mantissa_focal_length_y[i]规定第i个相机的焦距在垂直方向上的尾数部分。
mantissa_focal_length_y[i]语法元素的长度是可变的,并确定如下:
--如果exponent_focal_length_y[i]等于0,则长度为Max(0,prec_focal_length-30)。
--否则(exponent_focal_length_y[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_focal_length_y[i]+prec_focal_length-31)。
sign_principal_point_x[i]等于0指示第i个相机的主要点在水平方向上的符号为正。sign_principal_point_x[i]等于1指示符号为负。
exponent_principal_point_x[i]规定第i个相机的主要点在水平方向上的指数部分。exponent_principal_point_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。
mantissa_principal_point_x[i]规定第i个相机的主要点在水平方向上的尾数部分。以比特为单位的mantissa_principal_point_x[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_principal_point_x[i]等于0,则长度为Max(0,prec_principal_point-30)。
--否则(exponent_principal_point_x[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_principal_point_x[i]+prec_principal_point-31)。
sign_principal_point_y[i]等于0指示第i个相机的主要点在垂直方向上的符号为正。sign_principal_point_y[i]等于1指示符号为负。
exponent_principal_point_y[i]规定第i个相机的主要点在垂直方向上的指数部分。exponent_principal_point_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。
mantissa_principal_point_y[i]规定第i个相机的主要点在垂直方向上的尾数部分。以比特为单位的mantissa_principal_point_y[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_principal_point_y[i]等于0,则长度为Max(0,prec_principal_point-30)。
--否则(exponent_principal_point_y[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_principal_point_y[i]+prec_principal_point-31)。
sign_skew_factor[i]等于0指示第i个相机的倾斜因子的符号为正。
sign_skew_factor[i]等于1指示符号为负。
exponent_skew_factor[i]规定第i个相机的倾斜因子的指数部分。exponent_skew_factor[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的倾斜因子。
mantissa_skew_factor[i]规定第i个相机的倾斜因子的尾数部分。mantissa_skew_factor[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_skew_factor[i]等于0,则长度为Max(0,prec_skew_factor-30)。
--否则(exponent_skew_factor[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_skew_factor[i]+prec_skew_factor-31)。
第i个相机的内部矩阵A[i]由下式表示
prec_rotation_param规定由2-prec_rotation_param给出的r[i][j][k]的最大允许截断误差的指数。prec_rotation_param的值应在0到31(包括端值)的范围内。
prec_translation_param规定由2-prec_translation_param给出的t[i][j]的最大允许截断误差的指数。prec_translation_param的值应在0到31(包括端值)的范围内。
sign_r[i][j][k]等于0指示第i个相机的旋转矩阵的(j,k)分量的符号为正。sign_r[i][j][k]等于1指示符号为负。
exponent_r[i][j][k]规定第i个相机的旋转矩阵的(j,k)分量的指数部分。指数r[i][j][k]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的旋转矩阵。
mantissa_r[i][j][k]规定第i个相机的旋转矩阵的(j,k)分量的尾数部分。以比特为单位的mantissa_r[i][j][k]语法元素的长度是可变的,并且确定如下:
--如果exponent_r[i]等于0,则长度为Max(0,prec_rotation_param-30)。
--否则(exponent_r[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_r[i]+prec_rotation_param-31)。
第i个相机的旋转矩阵R[i]表示如下:
sign_t[i][j]等于0指示第i个相机的平移矢量的第j个分量的符号为正。sign_t[i][j]等于1指示符号为负。
exponent_t[i][j]规定第i个相机的平移矢量的第j个分量的指数部分。exponent_t[i][j]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的平移矢量。
mantissa_t[i][j]规定第i个相机的平移矢量的第j个分量的尾数部分。以比特为单位的mantissa_t[i][j]语法元素的长度v是可变的,并且确定如下:
--如果exponent_t[i]等于0,则长度v设置为等于Max(0,prec_translation_param-30)。
--否则(0<exponent_t[i]<63),长度v设置为等于Max(0,exponent_t[i]+prec_translation_param-31)。
第i个相机的平移矢量T[i]由下式表示:
相机参数变量和对应语法元素之间的关联由表ZZ规定。内部矩阵和旋转矩阵的每个分量以及平移矢量从表ZZ中规定的变量中获得,变量x计算如下:
--如果e在0至63(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注-上述规格类似于IEC 60559:1989的规格。
表ZZ–相机参数变量和语法元素之间的关联。
实施例18
深度表示信息SEI消息
深度表示信息SEI消息语法
深度表示信息SEI消息语义
深度表示信息SEI消息中的语法元素规定用于类型AUX_DEPTH的辅助图片的各种参数,以便在3D显示器上呈现之前处理解码的主要图片和辅助图片,例如视图合成。具体地,规定深度图片的深度或视差范围。
当存在时,深度表示信息SEI消息应与sdi_aux_id值等于AUX_DEPTH的一个或多个层相关联。以下语义分别应用于深度表示信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,深度表示信息SEI消息可包含在任何访问单元中。建议当存在时,出于随机访问的目的,将SEI消息包括在访问单元中,在该访问单元中,nuh_layer_id等于targetLayerId的编解码图片是IRAP图片。
对于sdi_aux_id[targetLayerId]等于AUX_DEPTH的辅助图片,对于在0至2(包括端值)和4至15(包括端值)的范围内的所有j值,相关联的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得ScalabilityId[LayerIdxInVps[targetLayerId]][j]等于ScalabilityId[LayerIdxInVps[nuhLayerIdB]][j]。
SEI消息中指示的信息适用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片,直至但不包括下一个图片,按照解码顺序,与适用于targetLayerId的深度表示信息SEI消息相关联,或直至nuh_layer_id等于targetLayerId的CLVS的末端,以解码顺序中较早者为准。
z_near_flag等于0规定语法结构中不存在规定最近深度值的语法元素。z_near_flag等于1规定语法结构中存在规定最近深度值的语法元素。
z_far_flag等于0规定语法结构中不存在规定最远深度值的语法元素。z_far_flag等于1规定语法结构中存在规定最远深度值的语法元素。
d_min_flag等于0规定语法结构中不存在规定最小视差值的语法元素。d_min_flag等于1规定语法结构中存在规定最小视差值的语法元素。
d_max_flag等于0规定语法结构中不存在规定最大视差值的语法元素。d_max_flag等于1规定语法结构中存在规定最大视差值的语法元素。
depth_representation_type规定如表Y1中规定的辅助图片的解码亮度样点的表示定义。在表Y1中,视差规定两个纹理视图之间的水平位移,而Z值规定距相机的距离。
变量maxVal被设置为等于(1<<(8+sps_bitdepth_minus8))-1,其中sps_bitdepth_minus8是包含在nuh_layer_id等于targetLayerId的层的活动SPS中或为其推断的值。
表Y1–depth_representation_type的定义
disparity_ref_view_id规定了导出视差值所依据的ViewId值。
注1-仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。
表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出,如下所示:
--如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注1-上述规范与IEC 60559:1989中的规范类似。
表Y2–深度参数变量和语法元素之间的关联
x s e n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
dmin和DMax值,当存在时,以编解码图片的亮度样点宽度为单位规定,其中ViewId等于辅助图片的ViewId。
当存在时,ZNear和ZFar值的单位相同,但未规定。
depth_nonlinear_representation_num_minus1加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。
对于范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的i的depth_nonlinear_representation_model[i]规定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
注2-当depth_representation_type等于3时,辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示,即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0,0)和最后一个(maxVal,maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式发送。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内,其间距取决于nonlinear_depth_representation_num_minus1的值。
在0至maxVal(包括端值)的范围内的i的变量DepthLUT[i]规定如下:for(k=0;k<=depth_nonlinear_representation_num_minus1+1;k++){
pos1=(maxVal*k)/(depth_nonlinear_representation_num_minus1+2)
dev1=depth_nonlinear_representation_model[k]
pos2=(maxVal*(k+1))/(depth_nonlinear_representation_num_minus1+2)
dev2=depth_nonlinear_representation_model[k+1](X)
x1=pos1-dev1
y1=pos1+dev1
x2=pos2-dev2
y2=pos2+dev2
for(x=Max(x1,0);x<=Min(x2,maxVal);x++)
DepthLUT[x]=Clip3(0,maxVal,Round(((x-x1)*(y2-y1))÷(x2-x1)+y1))
}
当depth_representation_type等于3时,0至maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示均匀量化到0至maxVal(包括端值)的范围内的视差。
语法结构规定深度表示信息SEI消息中元素的值。
语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构包含在另一个语法结构中时,变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为被包含该语法结构时使用的变量名称所替换。
da_sign_flag等于0指示浮点值的符号为正。da_sign_flag等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。
da_exponent规定浮点值的指数。da_exponent的值应在0到27-2(包括端值)的范围内。值27-1保留给ITU-T|ISO/IEC将来使用。解码器应将值27-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。
da_mantissa_len_minus1加1规定da_mantissa语法元素中的位数。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。
da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。
实施例19
深度表示信息SEI消息
深度表示信息SEI消息语法
深度表示信息SEI消息语义
深度表示信息SEI消息中的语法元素规定用于类型AUX_DEPTH的辅助图片的各种参数,以便在3D显示器上呈现之前处理解码的主要图片和辅助图片,例如视图合成。具体地,规定深度图片的深度或视差范围。
当存在时,深度表示信息SEI消息应与sdi_aux_id值等于AUX_DEPTH的一个或多个层相关联,该一个或多个层由SDI SEI消息指示为深度辅助层。以下语义分别应用于深度表示信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,深度表示信息SEI消息可包含在任何访问单元中。建议当存在时,出于随机访问的目的,将SEI消息包括在访问单元中,在该访问单元中,nuh_layer_id等于targetLayerId的编解码图片是IRAP图片。
对于sdi_aux_id[targetLayerId]等于AUX_DEPTH的辅助图片,对于在0至2(包括端值)和4至15(包括端值)的范围内的所有j值,相关联的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得ScalabilityId[LayerIdxInVps[targetLayerId]][j]等于ScalabilityId[LayerIdxInVps[nuhLayerIdB]][j]。
SEI消息中指示的信息适用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片,直至但不包括下一个图片,按照解码顺序,与适用于targetLayerId的深度表示信息SEI消息相关联,或直至nuh_layer_id等于targetLayerId的CLVS的末端,以解码顺序中较早者为准。
z_near_flag等于0规定语法结构中不存在规定最近深度值的语法元素。z_near_flag等于1规定语法结构中存在规定最近深度值的语法元素。
z_far_flag等于0规定语法结构中不存在规定最远深度值的语法元素。z_far_flag等于1规定语法结构中存在规定最远深度值的语法元素。
d_min_flag等于0规定语法结构中不存在规定最小视差值的语法元素。d_min_flag等于1规定语法结构中存在规定最小视差值的语法元素。
d_max_flag等于0规定语法结构中不存在规定最大视差值的语法元素。d_max_flag等于1规定语法结构中存在规定最大视差值的语法元素。
depth_representation_type规定如表Y1中规定的辅助图片的解码亮度样点的表示定义。在表Y1中,视差规定两个纹理视图之间的水平位移,而Z值规定距相机的距离。
变量maxVal被设置为等于(1<<(8+sps_bitdepth_minus8))-1,其中sps_bitdepth_minus8是包含在nuh_layer_id等于targetLayerId的层的活动SPS中或为其推断的值。
表Y1–depth_representation_type的定义
disparity_ref_view_id规定了导出视差值所依据的ViewId值。
注1-仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。
表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出,如下所示:
--如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注1-上述规范与IEC 60559:1989中的规范类似。
表Y2–深度参数变量和语法元素之间的关联
x s e n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
dmin和DMax值,当存在时,以编解码图片的亮度样点宽度为单位规定,其中ViewId等于辅助图片的ViewId。
当存在时,ZNear和ZFar值的单位相同,但未规定。
depth_nonlinear_representation_num_minus1加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。
对于范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的i的depth_nonlinear_representation_model[i]规定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
注2-当depth_representation_type等于3时,辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示,即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0,0)和最后一个(maxVal,maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式发送。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内,其间距取决于nonlinear_depth_representation_num_minus1的值。
在0至maxVal(包括端值)的范围内的i的变量DepthLUT[i]规定如下:for(k=0;k<=depth_nonlinear_representation_num_minus1+1;k++){
pos1=(maxVal*k)/(depth_nonlinear_representation_num_minus1+2)
dev1=depth_nonlinear_representation_model[k]
pos2=(maxVal*(k+1))/(depth_nonlinear_representation_num_minus1+2)
dev2=depth_nonlinear_representation_model[k+1](X)
x1=pos1-dev1
y1=pos1+dev1
x2=pos2-dev2
y2=pos2+dev2
for(x=Max(x1,0);x<=Min(x2,maxVal);x++)
DepthLUT[x]=Clip3(0,maxVal,Round(((x-x1)*(y2-y1))÷(x2-x1)+y1))
}
当depth_representation_type等于3时,0至maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示均匀量化到0至maxVal(包括端值)的范围内的视差。
语法结构规定深度表示信息SEI消息中元素的值。
语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构包含在另一个语法结构中时,变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为被包含该语法结构时使用的变量名称所替换。
da_sign_flag等于0指示浮点值的符号为正。da_sign_flag等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。
da_exponent规定浮点值的指数。da_exponent的值应在0到27-2(包括端值)的范围内。值27-1保留给ITU-T|ISO/IEC将来使用。解码器应将值27-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。
da_mantissa_len_minus1加1规定da_mantissa语法元素中的位数。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。
da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。
实施例20
α通道信息SEI消息
α通道信息SEI消息语法
α通道信息SEI消息语义
α通道信息SEI消息提供关于α通道样点值和应用于在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中编解码的解码α平面的后处理的信息。
对于nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片,对于在0到2(包括端值)和4到15(包括端值)的范围内的所有j值,相关的主要图片(如果有的话)是相同访问单元中sdi_aux_id[nuhLayerIdB]等于0的图片,使得scalabilityid[LayerIdxInVps[nuhLayerIdA]][j]等于scalabilityid[LayerIdxInVps[nuhLayerIdB]][j]。
当访问单元包含nuh_layer_id等于nuhLayerIdA且sdi_aux_id[nuhLayerIdA]等于AUX_ALPHA的辅助图片picA时,picA的α通道样点值按输出顺序持续,直到以下一个或多个条件为真:
--按输出顺序,输出nuh_layer_id等于nuhLayerIdA的下一个图片。
--包含辅助图片picA的CLVS结束。
--比特流结束。
--nuh_layer_id等于nuhLayerIdA的辅助图片层的任何相关主要层的CLVS结束。
以下语义分别应用于α通道信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
alpha_channel_cancel_flag等于1指示α通道信息SEI消息取消按照应用于当前层的输出顺序的任何先前α通道信息SEI消息的持续性。alpha_channel_cancel_flag等于0指示随后是α通道信息。
设currPic为α通道信息SEI消息所关联的图片。α通道信息SEI消息的语义按照输出顺序持续用于当前层,直到以下一个或多个条件为真:
--当前层的新CLVS开始。
--比特流结束。
--在调用picB的图片顺序计数的解码过程之后,立即输出访问单元中numh_layer_id等于targetLayerId的图片picB,该访问单元包含numh_layer_id等于targetLayerId的α通道信息SEI消息,其PicOrderCnt(picB)大于PicOrderCnt(currPic),其中PicOrderCnt(picB)和PicOrderCnt(currPic)分别是picB和currPic的PicOrderCntVal值。
alpha_channel_use_idc等于0指示出于α混合目的,在从解码过程输出之后的显示过程中,应当将相关联的主要图片的解码样点乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于1指示出于α混合的目的,在从解码过程输出之后的显示过程中,相关主要图片的解码样点不应乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于2指示未规定辅助图片的使用。大于2的alpha_channel_use_idc的值保留给ITU-T|ISO/IEC将来使用。当不存在时,alpha_channel_use_idc的值被推断为等于2。
alpha_channel_bit_depth_minus8加8规定辅助图片的亮度样点阵列的样点的位深度。alpha_channel_bit_depth_minus8应在0到7(包括端值)的范围内。alpha_channel_bit_depth_minus8应等于相关主要图片的bit_depth_luma_minus8。
alpha_transparent_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是透明的,用于α混合的目的。用于表示alpha_transparent_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_opaque_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是不透明的,用于α混合。用于表示alpha_opaque_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_channel_incr_flag等于0指示每个解码辅助图片亮度样点值的解释样点值等于出于α混合的目的的解码辅助图片样点值。alpha_channel_incr_flag等于1指示,为了α混合的目的,在解码辅助图片样点之后,任何大于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该增加1,以获得辅助图片样点的解释样点值,并且任何小于或等于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该被不加改变地用作解码辅助图片样点值的解释样点值。当不存在时,alpha_channel_incr_flag的值被推断为等于0。
alpha_channel_clip_flag等于0指示不应用剪裁操作来获得解码辅助图片的解释样点值。alpha_channel_clip_flag等于1指示解码辅助图片的解释样点值根据由alpha_channel_clip_type_flag语法元素描述的剪辑过程而改变。当不存在时,alpha_channel_clip_flag的值被推断为等于0。
alpha_channel_clip_type_flag等于0指示,出于α混合的目的,在对辅助图片样点进行解码后,将大于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且将小于或等于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。alpha_channel_clip_type_flag等于1指示,出于α混合的目的,在解码辅助图片样点之后,大于alpha_opaque_value的任何辅助图片亮度样点被设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且小于或等于alpha_transparent_value的任何辅助图片亮度样点被设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。
注-当alpha_channel_incr_flag和alpha_channel_clip_flag均等于1时,应首先应用由alpha_channel_clip_type_fla规定的剪裁操作,然后应用由alpha_channel_incr_flag规定的变更,以获得辅助图片亮度样点的解释样点值。
实施例21
α通道信息SEI消息
α通道信息SEI消息语法
α通道信息SEI消息语义
α通道信息(ACI)SEI消息提供关于α通道样点值和应用于在类型AUX_ALPHA的辅助图片和一个或多个相关的主要图片中编解码的解码α平面的后处理的信息。
当访问单元包含 辅助图片picA时,picA的α通道样点值按输出顺序持续,直到以下一个或多个条件为真:
按输出顺序,输出nuh_layer_id等于nuhLayerIdA的下一个图片。
--包含辅助图片picA的CLVS结束。
--比特流结束。
--nuh_layer_id等于nuhLayerIdA的辅助图片层的任何相关主要层的CLVS结束。
以下语义分别应用于α通道信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
alpha_channel_cancel_flag等于1指示α通道信息SEI消息取消按照应用于当前层的输出顺序的任何先前α通道信息SEI消息的持续性。alpha_channel_cancel_flag等于0指示随后是α通道信息。
设currPic为α通道信息SEI消息所关联的图片。α通道信息SEI消息的语义按照输出顺序持续用于当前层,直到以下一个或多个条件为真:
--当前层的新CLVS开始。
--比特流结束。
--在调用picB的图片顺序计数的解码过程之后,立即输出访问单元中numh_layer_id等于targetLayerId的picB图片,
alpha_channel_use_idc等于0指示出于α混合目的,在从解码过程输出之后的显示过程中,应当将相关联的主要图片的解码样点乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于1指示出于α混合的目的,在从解码过程输出之后的显示过程中,相关主要图片的解码样点不应乘以辅助编解码图片的解释样点值。alpha_channel_use_idc等于2指示未规定辅助图片的使用。大于2的alpha_channel_use_idc的值保留给ITU-T|ISO/IEC将来使用。当不存在时,alpha_channel_use_idc的值被推断为等于2。
alpha_channel_bit_depth_minus8加8规定辅助图片的亮度样点阵列的样点的位深度。alpha_channel_bit_depth_minus8应在0到7(包括端值)的范围内。alpha_channel_bit_depth_minus8应等于相关主要图片的bit_depth_luma_minus8。
alpha_transparent_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是透明的,用于α混合的目的。用于表示alpha_transparent_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_opaque_value规定辅助编解码图片亮度样点的解释样点值,对于该辅助编解码图片亮度样点,主要编解码图片的相关亮度和色度样点被认为是不透明的,用于α混合。用于表示alpha_opaque_value语法元素的位数是alpha_channel_bit_depth_minus8+9。
alpha_channel_incr_flag等于0指示每个解码辅助图片亮度样点值的解释样点值等于出于α混合的目的的解码辅助图片样点值。alpha_channel_incr_flag等于1指示,为了α混合的目的,在解码辅助图片样点之后,任何大于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该增加1,以获得辅助图片样点的解释样点值,并且任何小于或等于Min(alpha_opaque_value,alpha_transparent_value)的辅助图片亮度样点值应该被不加改变地用作解码辅助图片样点值的解释样点值。当不存在时,alpha_channel_incr_flag的值被推断为等于0。
alpha_channel_clip_flag等于0指示不应用剪裁操作来获得解码辅助图片的解释样点值。alpha_channel_clip_flag等于1指示解码辅助图片的解释样点值根据由alpha_channel_clip_type_flag语法元素描述的剪辑过程而改变。当不存在时,alpha_channel_clip_flag的值被推断为等于0。
alpha_channel_clip_type_flag等于0指示,出于α混合的目的,在对辅助图片样点进行解码后,将大于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且将小于或等于(alpha_opaque_value-alpha_transparent_value)/2的任何辅助图片亮度样点设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。alpha_channel_clip_type_flag等于1指示,出于α混合的目的,在解码辅助图片样点之后,大于alpha_opaque_value的任何辅助图片亮度样点被设置为等于alpha_opaque_value,以获得辅助图片亮度样点的解释样点值,并且小于或等于alpha_transparent_value的任何辅助图片亮度样点被设置为等于alpha_transparent_value,以获得辅助图片亮度样点的解释样点值。
注-当alpha_channel_incr_flag和alpha_channel_clip_flag均等于1时,应首先应用由alpha_channel_clip_type_fla规定的剪裁操作,然后应用由alpha_channel_incr_flag规定的变更,以获得辅助图片亮度样点的解释样点值。
实施例22
可缩放性维度信息(SDI)SEI消息
可缩放性维度SEI消息语法
可缩放性维度SEI消息语义
可缩放性维度SEI消息为bitstreamInScope(定义如下)中的每层提供可缩放性维度信息,例如1)当bitstreamInScope可能是多视图比特流时,每层的视图ID;以及2)当bitstreamInScope中可能有一层或多层携带的辅助信息(如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,该AU序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
sdi_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sdi_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sdi_view_id_val[]语法元素存在于可缩放性维度SEI消息中。sdi_multiview_flag等于0指示bitstreamInScope不是多视图比特流,并且sdi_view_id_val[]语法元素不存在于可缩放性维度SEI消息中。
sdi_auxiliary_info_flag等于1指示可能存在由bitstreamInScope中的一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素存在于可缩放性维度SEI消息中。sdi_auxiliary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sdi_aux_id[]语法元素不存在于可缩放性维度SEI消息中。
sdi_view_id_len规定sdi_view_id_val[i]语法元素的长度,以位为单位。
sdi_view_id_val[i]规定bitstreamInScope中第i层的视图ID。sdi_view_id_val[i]语法元素的长度为sdi_view_id_len位。当不存在时,sdi_view_id_val[i]的值被推断为等于0。
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中指定的bitstreamInScope中第i层中的辅助图片的类型。
变量NumViews被导出如下:
sdi_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sdi_aux_id[i]大于0指示如表1中规定的bitstreamInScope中第i层中的辅助图片的类型。
表1–sdi_aux_id[i]到辅助图片类型的映射
sdi_aux_id[i] 名称 辅助图片的类型
1 AUX_ALPHA α平面
2 AUX_DEPTH 深度图片
3..127 保留的
128..159 未规定的
160..255 保留的
注1-通过sdi_aux_id值之外的方式规定与128至159(包括端值)的范围内的sdi_aux_id相关联的辅助图片的解释。
对于符合此规范的此版本的比特流,sdi_aux_id[i]应在0至2(包括端值)或128至159(包括端值)的范围内。虽然sdi_aux_id[i]的值应在0至2(包括端值)或128至159(包括端值)的范围内,但在此规范的此版本中,解码器应允许sdi_aux_id[i]的值在0至255(包括端值)的范围内。
多视图获取信息SEI消息
多视图获取信息SEI消息语法
多视图获取信息SEI消息语义
多视图获取信息(MAI)SEI消息规定了获取环境的各种参数。具体来说,规定了内部和外部相机参数。这些参数可以用于在3D显示器上呈现之前处理解码视图。
以下语义分别应用于多视图获取信息SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。
当存在时,应用于当前层的多视图获取信息SEI消息应包含在包含IRAP图片的访问单元中,该IRAP图片为当前层的CLVS的第一个图片。SEI消息中信令通知的信息应用于CLVS。
多视图获取信息包含在多视图获取信息SEI消息中的某些视图可能不存在。
在以下语义中,索引i是指应用于nuh_layer_id等于NestingLayerId[i]的层的语法元素和变量。
根据右手坐标系规定外部相机参数,其中图像的左上角为原点,即(0,0)坐标,其中图片的其他角具有非负坐标。根据这些规范,对于第i个相机,将3维世界点wP=[x y z]映射到2维相机点cP[i]=[u v 1],根据:
s*cP[i]=A[i]*R-1[i]*(wP-T[i]) (X)
其中,A[i]表示内部相机参数矩阵,R-1[i]表示旋转矩阵R[i]的逆矩阵,T[i]表示平移矢量,并且s(标量值)为任意尺度因子,选择该尺度因子以使cP[i]的第三坐标等于1。A[i]、R[i]和T[i]的元素是根据该SEI消息中信令通知的语法元素确定的,并且如下所规定。
intrinsic_param_flag等于1指示存在内部相机参数。intrinsic_param_flag等于0指示不存在内部相机参数。
extrinsic_param_flag等于1指示存在外部相机参数。extrinsic_param_flag等于0指示不存在外部相机参数。
intrinsic_params_equal_flag等于1指示所有相机的内部相机参数相等,并且仅存在一组内部相机参数。intrinsic_params_equal_flag等于0指示每个相机的内部相机参数不同,并且每个相机都有一组内部相机参数。
prec_focal_length规定由2-prec_focal_length给出的focal_length_x[i]和focal_length_y[i]的最大允许截断误差的指数。prec_focal_length的值应在0到31(包括端值)的范围内。
prec_principal_point规定由2-prec_principal_point给出的principal_point_x[i]和principal_point_y[i]的最大允许截断误差的指数。prec_principal_point的值应在0到31(包括端值)的范围内。
prec_skew_factor规定由2-prec_skew_factor给出的倾斜因子的最大允许截断误差的指数。prec_skew_factor的值应在0到31(包括端值)的范围内。
sign_focal_length_x[i]等于0指示第i个相机在水平方向上的焦距的符号为正。sign_focal_length_x[i]等于1指示符号为负。
exponent_focal_length_x[i]规定第i个相机在水平方向上的焦距的指数部分。exponent_focal_length_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。
mantissa_focal_length_x[i]规定第i个相机在水平方向上的焦距的尾数部分。mantissa_focal_length_x[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_focal_length_x[i]等于0,则长度为Max(0,prec_focal_length-30)。
--否则(exponent_focal_length_x[i]在0到63(包括端值)的范围内),长度为Max(0,exponent_focal_length_x[i]+prec_focal_length-31)。
sign_focal_length_y[i]等于0指示第i个相机的垂直方向上的焦距的符号为正。sign_focal_length_y[i]等于1指示符号为负。
exponent_focal_length_y[i]规定第i个相机的垂直方向上的焦距的指数部分。exponent_focal_length_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的焦距。
mantissa_focal_length_y[i]规定第i个相机的焦距在垂直方向上的尾数部分。
mantissa_focal_length_y[i]语法元素的长度是可变的,并确定如下:
--如果exponent_focal_length_y[i]等于0,则长度为Max(0,prec_focal_length-30)。
--否则(exponent_focal_length_y[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_focal_length_y[i]+prec_focal_length-31)。
sign_principal_point_x[i]等于0指示第i个相机的主要点在水平方向上的符号为正。sign_principal_point_x[i]等于1指示符号为负。
exponent_principal_point_x[i]规定第i个相机的主要点在水平方向上的指数部分。exponent_principal_point_x[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。
mantissa_principal_point_x[i]规定第i个相机的主要点在水平方向上的尾数部分。以比特为单位的mantissa_principal_point_x[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_principal_point_x[i]等于0,则长度为Max(0,prec_principal_point-30)。
--否则(exponent_principal_point_x[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_principal_point_x[i]+prec_principal_point-31)。
sign_principal_point_y[i]等于0指示第i个相机的主要点在垂直方向上的符号为正。sign_principal_point_y[i]等于1指示符号为负。
exponent_principal_point_y[i]规定第i个相机的主要点在垂直方向上的指数部分。exponent_principal_point_y[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的主要点。
mantissa_principal_point_y[i]规定第i个相机的主要点在垂直方向上的尾数部分。以比特为单位的mantissa_principal_point_y[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_principal_point_y[i]等于0,则长度为Max(0,prec_principal_point-30)。
--否则(exponent_principal_point_y[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_principal_point_y[i]+prec_principal_point-31)。
sign_skew_factor[i]等于0指示第i个相机的倾斜因子的符号为正。
sign_skew_factor[i]等于1指示符号为负。
exponent_skew_factor[i]规定第i个相机的倾斜因子的指数部分。exponent_skew_factor[i]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的倾斜因子。
mantissa_skew_factor[i]规定第i个相机的倾斜因子的尾数部分。mantissa_skew_factor[i]语法元素的长度是可变的,并且确定如下:
--如果exponent_skew_factor[i]等于0,则长度为Max(0,prec_skew_factor-30)。
--否则(exponent_skew_factor[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_skew_factor[i]+prec_skew_factor-31)。
第i个相机的内部矩阵A[i]由下式表示
prec_rotation_param规定由2-prec_rotation_param给出的r[i][j][k]的最大允许截断误差的指数。prec_rotation_param的值应在0到31(包括端值)的范围内。
prec_translation_param规定由2-prec_translation_param给出的t[i][j]的最大允许截断误差的指数。prec_translation_param的值应在0到31(包括端值)的范围内。
sign_r[i][j][k]等于0指示第i个相机的旋转矩阵的(j,k)分量的符号为正。sign_r[i][j][k]等于1指示符号为负。
exponent_r[i][j][k]规定第i个相机的旋转矩阵的(j,k)分量的指数部分。指数r[i][j][k]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的旋转矩阵。
mantissa_r[i][j][k]规定第i个相机的旋转矩阵的(j,k)分量的尾数部分。以比特为单位的mantissa_r[i][j][k]语法元素的长度是可变的,并且确定如下:
--如果exponent_r[i]等于0,则长度为Max(0,prec_rotation_param-30)。
--否则(exponent_r[i]在0到63(不包括端值)的范围内),长度为Max(0,exponent_r[i]+prec_rotation_param-31)。
第i个相机的旋转矩阵R[i]表示如下:
sign_t[i][j]等于0指示第i个相机的平移矢量的第j个分量的符号为正。sign_t[i][j]等于1指示符号为负。
exponent_t[i][j]规定第i个相机的平移矢量的第j个分量的指数部分。exponent_t[i][j]的值应在0到62(包括端值)的范围内。值63由ITU-T|ISO/IEC保留供将来使用。解码器应将值63视为指示未规定的平移矢量。
mantissa_t[i][j]规定第i个相机的平移矢量的第j个分量的尾数部分。以比特为单位的mantissa_t[i][j]语法元素的长度v是可变的,并且确定如下:
--如果exponent_t[i]等于0,则长度v设置为等于Max(0,prec_translation_param-30)。
--否则(0<exponent_t[i]<63),长度v设置为等于Max(0,exponent_t[i]+prec_translation_param-31)。
第i个相机的平移矢量T[i]由下式表示:
相机参数变量和对应语法元素之间的关联由表ZZ规定。内部矩阵和旋转矩阵的每个分量以及平移矢量从表ZZ中规定的变量中获得,变量x计算如下:
--如果e在0至63(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。
--否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
注-上述规格类似于IEC 60559:1989的规格。
表ZZ–相机参数变量和语法元素之间的关联。
图4是可实现本文中所公开的各种技术的示例视频处理系统400的框图。各种实现方式可以包括视频处理系统400中的一些或全部组件。视频处理系统400可以包括用于接收视频内容的输入402。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收,或者可以以压缩或编码的格式接收。输入402可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。
视频处理系统400可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件404。编解码组件404可以减少从输入402到编解码组件404的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时称为视频压缩或视频转码技术。编解码组件404的输出可以被存储或经由所连接的通信来发送,如组件406所表示的。在输入402处接收的视频的存储或通信的比特流(或编解码)表示可以由组件408使用,以生成被发送到显示接口410的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编解码”操作或工具,但是应当理解,在编码器处使用编解码工具或操作,并且将由解码器进行反演编解码的结果的对应解码工具或操作。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、外围组件互连(PCI)、集成驱动电子设备(IDE)接口等。本文档中描述的技术可以实施在各种电子设备中,诸如移动电话、膝上型计算机、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。
图5是视频处理装置500的框图。装置500可以用于实现本文中所述的方法中的一个或多个。装置500可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置500可以包括一个或多个处理器502、一个或多个存储器504和视频处理硬件506(也称为视频处理电路)。(多个)处理器502可以配置为实现本文档中所述的一个或多个方法。(多个)存储器504可以用于存储数据和代码,该代码用于实现本文所描述的方法和技术。视频处理硬件506可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中,硬件506可以部分或完全位于处理器502内,例如图形处理器。
图6是示出可利用本公开的技术的示例视频编解码系统600的框图。如图6所示,视频编解码系统600可以包括源设备610和目的地设备620。源设备610生成编码的视频数据,其可以被称为视频编码设备。目的地设备620可以解码由源设备610生成的编码的视频数据,该目的地设备620可以被称为视频解码设备。
源设备610可以包括视频源612、视频编码器614和输入/输出(I/O)接口616。
视频源612可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器614对来自视频源612的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口616包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口616通过网络630直接发送到目的地设备620。还可以将编码的视频数据存储到存储介质/服务器640上,用于由目的地设备620存取。
目的地设备620可以包括I/O接口626、视频解码器624和显示设备622。
I/O接口626可以包括接收器和/或调制解调器。I/O接口626可以从源设备610或存储介质/服务器640获取编码的视频数据。视频解码器624可以对编码的视频数据进行解码。显示设备622可以向用户显示解码的视频数据。显示设备622可以与目的地设备620集成,或可以在配置为与外置显示设备相接的目的地设备620外部。
视频编码器614和视频解码器624可以根据视频压缩标准(诸如,高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。
图7是示出视频编码器700的示例的框图,该视频编码器700可以是图6中示出的视频编解码系统600中的视频编码器614。
视频编码器700可以被配置为执行本公开的任何或全部技术。在图7的示例中,视频编码器700包括多个功能组件。本公开所描述的技术可以在视频编码器700的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
视频编码器700的功能组件可以包括分割单元701、预测单元702(其可以包括模式选择单元703、运动估计单元704、运动补偿单元705和帧内预测单元706)、残差生成单元707、变换单元708、量化单元709、逆量化单元710、逆变换单元711、重建单元712、缓冲器713和熵编码单元714。
在其他示例中,视频编码器700可以包括更多、更少或不同的功能组件。在一个示例中,预测单元702可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,诸如运动估计单元704和运动补偿单元705的一些组件可以被高度集成,但是出于解释的目的在图7的示例中分开表示。
分割单元701可以将图片分割成一个或多个视频块。图6的视频编码器614和视频解码器600可以支持各种视频块尺寸。
模式选择单元703可以例如基于错误结果选择帧内或帧间的编解码模式中的一个,并且将得到的帧内或帧间编解码块提供到残差生成单元707来生成残差块数据而且提供到重建单元712来重建编解码块以用作参考图片。在一些示例中,模式选择单元703可以选择帧内和帧间预测的组合(CIIP)模式,其中预测是基于帧间预测信号和帧内预测信号。模式选择单元703还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。
为了对当前视频块进行帧间预测,运动估计单元704可以通过将来自缓冲器713的一个或多个参考帧与当前视频块进行比较,生成当前视频块的运动信息。运动补偿单元705可以基于来自缓冲器713的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。
运动估计单元704和运动补偿单元705可以为当前视频块进行不同操作,例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。I条带(或I帧)是压缩率最低的,但不需要其他视频帧来解码。S条带(或P帧)可以使用来自先前帧的数据来解压缩,并且比I帧更容易压缩。B条带(或B帧)可以使用先前帧和前一帧两者作为数据参考,以获得最高的数据压缩量。
在一些示例中,运动估计单元704可以进行当前视频块的单向预测,并且运动估计单元704可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元704然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元704可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元705可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元704可以进行当前视频块的双向预测,运动估计单元704可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元704然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元704可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元705可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元704可以输出运动信息的全部集合,用于解码器的解码处理。在一些示例中,运动估计单元704可以不输出当前视频的运动信息的全部集合。而是,运动估计单元704可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元704可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元704可以在与当前视频块相关联的语法结构中指示:视频解码器624指示当前视频块具有与另一个视频块相同的运动信息的值。
在另一个示例中,运动估计单元704可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器624可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器614可以预测性地信令通知运动矢量。可以由视频编码器614实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。
帧内预测单元706可以对当前视频块进行帧内预测。当帧内预测单元706对当前视频块进行帧内预测时,帧内预测单元706可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元707可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块可能不存在当前视频块的残差数据,并且残差生成单元707可以不进行减去操作。
变换单元708可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换单元708生成与当前视频块相关联的变换系数视频块之后,量化单元709可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元710和逆变换单元711可以将逆量化和逆变换分别应用于变换系数视频块,来从变换系数视频块重建残差视频块。重建单元712可以将重建的残差视频块添加到来自由预测单元702生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重建视频块用于存储在缓冲器713中。
在重建单元712重建视频块之后,可以进行环路滤波操作以降低视频块中视频块化伪影。
熵编码单元714可以从视频编码器700的其他功能组件接收数据。当熵编码单元714接收数据时,熵编码单元714可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。
图8是示出视频解码器800的示例的框图,该视频解码器800可以是图6中示出的视频编解码系统600中的视频解码器624。
视频解码器800可以被配置为进行本公开的任何或全部技术。在图8的示例中,视频解码器800包括多个功能组件。本公开所描述的技术可以在视频解码器800的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
在图8的示例中,视频解码器800包括熵解码单元801、运动补偿单元802、帧内预测单元809、逆量化单元804、逆变换单元805、重建单元806和缓冲器807。在一些示例中,视频解码器800可以进行与关于视频编码器614(图6)所描述的编码过程总体反演的解码过程。
熵解码单元801可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如,视频数据的编解码块)。熵解码单元801可以对熵编解码视频进行解码,并且根据熵解码视频数据,运动补偿单元802可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元802例如可以通过进行AMVP和merge模式信令通知来确定此类信息。
运动补偿单元802可以产生运动补偿块,可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元802可以使用由视频编码器614在编码视频块的期间所使用的插值滤波器,来计算出参考块的子整数个像素的插值的值。运动补偿单元802可以根据接收的语法信息确定由视频编码器614所使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元802可以使用一些语法信息来确定:用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸,描述编码视频序列的图片的每个宏块如何被分割的分割信息,指示如何编码每个分割的模式,每个帧间编码块的一个或多个参考帧(和参考帧列表),以及对编码视频序列进行解码的其他信息。
帧内预测单元803可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元804逆量化(即去量化)在比特流中提供的且由熵解码单元801解码的量化的视频块系数。逆变换单元805应用逆变换。
重建单元806可以用由运动补偿单元802或帧内预测单元803生成的对应预测块求和残差块,以形成解码块。如所期望的,去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器807中,该缓冲器807提供用于随后的运动补偿/帧内预测的参考块,并且还产生用于在显示设备上呈现的解码视频。
图9为根据本公开的实施例的用于编解码视频数据的方法900。方法900可以由具有处理器和存储器的编解码装置(例如,编码器)来执行。当辅助信息存在于比特流中时,当确定哪些主要层与辅助层相关联时,可以实现方法900。
在块902中,当辅助信息存在于比特流中时,编解码装置使用可缩放性维度信息(SDI)补充增强信息(SEI)消息来指示哪些主要层与辅助层相关联。在实施例中,当主要层映射到辅助层、使用来自辅助层的信息或与辅助层相关时,主要层与辅助层相关联。
SDI SEI消息是一种SEI消息,例如,图3的比特流300中的SEI消息。包括SDI SEI消息的SEI消息可以携带这里公开的任何语法元素。
如果sdi_aux_id[i]等于0,则第i层被称为主要层。否则,第i层被称为辅助层。当sdi_aux_id[i]等于1时,第i层也被称为α辅助层。当sdi_aux_id[i]等于2时,第i层也被称为深度辅助层。
在块904中,编解码装置基于SDI SEI消息在视频媒体文件和比特流之间进行转换。
当在编码器中实现时,转换包括接收媒体文件(例如,视频单元),并将SEI消息编码为比特流。当在解码器中实现时,转换包括接收包括SEI消息的比特流,并解码比特流中的SEI消息以生成视频媒体文件。
在实施例中,当辅助信息存在于比特流中时,SDI SEI消息中的一个或多个语法元素指示哪些主要层与辅助层相关联。
在实施例中,辅助层具有指定为sdi_aux_id[i]的层标识符(ID),其中i为对应辅助层的整数(例如,1、2、3等)。
在一个实施例中,SDI SEI消息中包括层索引,以指示当辅助信息存在于比特流中时,哪些主要层与辅助层相关联。在实施例中,每个层索引包括将主要层与辅助层相关联的条目或值。
在实施例中,主要层的一个或多个语法元素指示辅助层是否应用于一个或多个主要层。
在实施例中,语法元素指示辅助层是否应用于主要层中的特定主要层。在实施例中,语法元素指示辅助层是否被应用于一个或多个主要层。在实施例中,当例如主要层使用或受益于辅助层中携带的信息时,辅助层被应用于主要层。
在实施例中,辅助层为比特流中的多个辅助层之一,并且其中,SDI SEI消息中包括一个或一组语法元素,以指示当比特流中存在辅助信息时,多个辅助层中的每个辅助层与哪些主要层相关联。
在实施例中,与辅助层的辅助图片相关的主要层的数量的指示在比特流中被信令通知。
在实施例中,主要层的数量的指示被指定为sdi_num_associated_primary_layers_minus1。
在实施例中,sdi_num_associated_primary_layers_minus1用六位的无符号整数信令通知。举例来说,无符号整数是不具有与之相关联的符号(例如,正或负)的整数(例如,整数)。
在实施例中,在比特流中有条件地信令通知与辅助层相关联或与辅助层的辅助图片相关联的主要层的数量的指示。在实施例中,有条件地信令通知指的是仅当满足条件时才信令通知某些信息。
在实施例中,比特流包括范围内的比特流,并且其中,有条件地信令通知包括仅当范围内的比特流中的第i层包含辅助图片时,信令通知主要层的数量量的指示。
在实施例中,当指定为sdi_aux_id[i]的层标识符(ID)大于零时,范围内比特流中的第i层包含辅助图片。
在实施例中,比特流包括范围内的比特流,并且其中范围内的比特流是访问单元(AU)序列,该序列按照解码顺序包括包含SDI SEI消息的初始AU和随后的零个或多个后续AU,该零个或多个后续AU直到但不包括包含另一SDI SEI消息的任何后续AU。
在实施例中,当辅助信息存在于比特流中时,或当比特流包括范围内的比特流且范围内的比特流为多视图比特流时,SDI SEI消息包括每层的辅助标识符(ID)。在实施例中,多层比特流是包括多个层的比特流,例如如图1所示。
在实施例中,当指定为sdi_aux_id[i]的层标识符(ID)等于零时,第i层称为主要层,否则第i层称为辅助层。
在一个实施例中,当指定为sdi_aux_id[i]的层标识符(ID)等于1时,第i层被称为α辅助层,其中,当指定为sdi_aux_id[i]的层标识符等于2时,第i层被称为深度辅助层。
在实施例中,方法900可利用或结合本文公开的其他方法的一个或多个特征或过程。
接下来提供了一些实施例优选的解决方案的列表。
以下解决方案显示了本公开中讨论的技术的示例实施例(例如,示例1)。
1.一种视频处理方法,包括:执行视频和视频的比特流之间的转换;其中比特流符合格式规则;其中格式规则规定语法元素指示视图标识符语法元素的长度减去L,其中L是整数。
2.根据解决方案1所述的方法,其中,使用N位将语法元素编解码为无符号整数。
3.根据解决方案1-2中任一项所述的方法,其中L是正整数。
4.根据解决方案1所述的方法,其中L=0,并且其中不允许所述语法元素具有零值。
5.一种视频处理的方法,包括:执行包括多层的视频和视频的比特流之间的转换,其中该比特流符合格式规则,其中该格式规则规定该比特流包括与该视频的一个或多个关联层相关联的辅助层。
6.根据解决方案5所述的方法,其中格式规则进一步规定比特流是否包括指示辅助层和一个或多个关联层之间的关系的一个或多个语法元素或者如何包括指示辅助层和一个或多个关联层之间的关系的一个或多个语法元素,其中一个或多个语法元素包括在可缩放性维度补充增强信息语法结构中。
7.根据解决方案6所述的方法,其中,格式规则规定一个或多个相关联的层由对应的层标识符(ID)来指示。
8.根据解决方案6所述的方法,其中,格式规则规定一个或多个相关联的层由对应的层索引来指示。
9.根据解决方案5-8中任一项所述的方法,其中格式规则规定比特流包括一个或多个语法元素,该一个或多个语法元素指示辅助层是否适用于一个或多个关联层。
10.根据解决方案9所述的方法,其中所述一个或多个语法元素包括指示辅助层适用于所有一个或多个关联层的语法元素。
11.根据解决方案9所述的方法,其中,格式规则规定为每个关联层包括语法元素,该语法元素指示辅助层是否适用于对应的关联层。
12.根据解决方案11所述的方法,其中语法元素指示与辅助层相关联的所有主要层。
13.根据解决方案11所述的方法,其中,语法元素指示与辅助层相关联并且具有小于辅助层的层索引的层索引的所有主要层。
14.根据解决方案11所述的方法,其中语法元素指示与辅助层相关联并且具有大于辅助层的层索引的所有主要层。
15.根据解决方案11-14中任一项所述的方法,其中语法元素是标志。
16.根据解决方案6所述的方法,其中格式规则规定比特流不包括指示辅助层对一个或多个关联层的适用性的显式语法元素,并且适用性是在转换期间导出的。
17.根据解决方案16所述的方法,其中,格式规则规定辅助层的关联层具有等于辅助层的层ID加上N1,N2…Nk的层ID,其中k是整数,并且对于i=1,…k,没有两个Ni彼此相等。
18.根据解决方案17所述的方法,其中k=1,并且N1是1、-1、2或-2之一。
19.根据解决方案17所述的方法,其中k大于1。
20.根据解决方案19所述的方法,其中k等于2,并且N1=1,N2=2。
21.根据解决方案5所述的方法,其中,格式规则还规定比特流省略指示辅助层和一个或多个关联层之间关系的一个或多个语法元素,并且其中关系是基于预定规则导出的。
22.根据解决方案5所述的方法,其中格式规则进一步规定比特流包含指示辅助层与一个或多个相关联层之间的关系的一个或多个语法元素,其中一个或多个语法元素包含在辅助信息补充增强信息语法结构中。
23.根据解决方案5-22中任一项所述的方法,其中,格式规则规定在比特流中包括语法元素,该语法元素指示层的辅助图片的关联层的数量。
24.根据解决方案5-22中任一项所述的方法,其中,格式规则规定在满足条件的情况下,在比特流中包括语法元素,该语法元素指示层的辅助图片的关联层或辅助图片的关联层的数量。
25.根据解决方案24所述的方法,其中,条件包括bitstreamInScope中的第i层包括辅助图片。
26.一种视频处理方法,包括:执行包括多个视频层的视频和该视频的比特流之间的转换,其中该比特流符合格式规则,其中该格式规则规定响应于可缩放性维度信息SEI消息是否被包括在编解码视频序列中,比特流的编解码视频序列包括多视图补充增强信息(SEI)消息或辅助信息SEI消息。
27.根据解决方案26所述的方法,其中格式规则规定多视图信息SEI消息是指多视图获取信息SEI消息。
28.根据解决方案26-27中任一项所述的方法,其中格式规则规定辅助信息SEI消息指深度表示信息SEI消息或α通道信息SEI消息。
29.一种视频处理的方法,包括:执行包括多个视频层的视频和该视频的比特流之间的转换,其中该比特流符合格式规则,其中该格式规则规定响应于比特流中存在的多视图补充增强信息(SEI)消息或辅助信息补充增强信息SEI消息,指示多视图信息存在的第一标志或指示可缩放性维度信息SEI消息中存在辅助信息的第二标志中的至少一个等于1。
30.一种视频处理的方法,包括:执行包括多个视频层的视频和该视频的比特流之间的转换,其中该比特流符合格式规则,其中该格式规则规定包括在比特流中的多视图获取信息补充增强信息消息不是可缩放嵌套的,或者不包括在可缩放嵌套补充增强信息消息中。
31.根据解决方案1-30中任一项的方法,其中,转换包括从比特流生成视频或者从视频生成比特流。
32.一种在计算机可读介质上存储比特流的方法,包括根据解决方案1-31中任一项或多项的方法生成比特流,并将该比特流存储在计算机可读介质上。
33.一种其上存储有视频的比特流的计算机可读介质,该比特流在被视频解码器的处理器处理时使得视频解码器生成视频,其中该比特流是根据解决方案1-31中的一项或多项的方法生成的。
34.一种视频解码装置,包括被配置为实现解决方案1至31中的一项或多项中所述的方法的处理器。
35.一种视频编码装置,包括被配置为实现解决方案1至31中的一项或多项中所述的方法的处理器。
36.一种其上存储有计算机代码的计算机程序产品,该代码在由处理器执行时使处理器实现解决方案1至31中任一项所述的方法。
37.一种计算机可读介质,其上记录有符合根据解决方案1至31中任一项生成的比特流格式的比特流。
38.一种方法、一种装置、一种根据本文档中描述的公开方法或系统生成的比特流。
以下文档可包括与本文公开的技术相关的附加细节:
[1]ITU-T和ISO/IEC,“高效视频编解码”,Rec.ITU-T H.265|ISO/IEC 23008-2(现行版本)。
[2]J.Chen,E.Alshina,G.J.Sullivan,J.-R.Ohm,J.Boyce,“联合探索测试模型7(JEM7)的算法描述”,JVET-G1001,2017年8月。
[3]Rec.ITU-T H.266|ISO/IEC 23090-3,“多功能视频编解码”,2020年。
[4]B.Bross,J.Chen,S.Liu,Y.-K.Wang(编辑),“多功能视频编解码(草案10)”,JVET-S2001。
[5]Rec.ITU-T Rec.H.274|ISO/IEC 23002-7,“用于编解码视频比特流的多功能补充增强信息消息”,2020年。
[6]J.Boyce,V.Drugeon,G.Sullivan,Y.-K.Wang(编辑),“用于编解码视频比特流的多功能补充增强信息消息(草案5)”,JVET-S2007。
本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中,含有本文档中所公开的结构以及其结构的等同物,或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品,即一个或多个计算机程序指令模块,用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物,或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成来编码信息以传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式来部署计算机程序,包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行,该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。
可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流,以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流,并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘),或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘),或者以上两者。但是,计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备,含有例如半导体存储器设备(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备);磁盘(例如内部硬盘或可移动磁盘);磁光盘;和光盘。处理器和存储器可以由专用逻辑电路补充,或者合并在专用逻辑电路中。
虽然本专利文档含有许多细节,但这些细节不应被解释为对任何主题或可要求保护的范围的限制,而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中,在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外,尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求,但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作,以实现期望的结果。此外,在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。
仅描述了几个实现方式和示例,并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。

Claims (27)

1.一种处理视频数据的方法,包括:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;以及
基于所述SDI SEI消息执行视频媒体文件和所述比特流之间的转换。
2.根据权利要求1所述的方法,其中,当所述辅助信息存在于所述比特流中时,所述SDISEI消息中的一个或多个语法元素指示哪些主要层与所述辅助层相关联。
3.根据权利要求1-2中任一项所述的方法,其中,所述辅助层具有指定为sdi_aux_id[i]的辅助层标识符,其中所述辅助层标识符等于零指示所述比特流中的第i层不包含辅助图片,并且其中所述辅助层标识符大于零指示所述比特流中的所述第i层中的辅助图片的类型。
4.根据权利要求1-3中任一项所述的方法,其中,当所述辅助信息存在于所述比特流中时,层索引被包括在所述SDI SEI消息中以指示哪些主要层与所述辅助层相关联。
5.根据权利要求1-4中任一项所述的方法,其中,所述SDISEI消息中的一个或多个语法元素指示所述辅助层是否被应用于一个或多个所述主要层。
6.根据权利要求1-5中任一项所述的方法,其中,所述SDISEI消息中的语法元素指示所述辅助层是否被应用于所述主要层中的特定主要层。
7.根据权利要求1-6中任一项所述的方法,其中,所述SDISEI消息中的语法元素指示所述辅助层是否被应用于一个或多个所述主要层。
8.根据权利要求1-7中任一项所述的方法,其中,所述辅助层是所述比特流中的多个辅助层之一,并且其中一个或一组语法元素被包括在所述SDISEI消息中,以指示当所述辅助信息存在于所述比特流中时,哪些主要层与所述多个辅助层中的每个辅助层相关联。
9.根据权利要求1-8中任一项所述的方法,其中,在所述比特流中信令通知与所述辅助层的辅助图片相关联的所述主要层的数量的指示。
10.根据权利要求9所述的方法,其中,所述主要层的数量的指示被指定为sdi_num_associated_primary_layers_minus1。
11.根据权利要求10所述的方法,其中,所述sdi_num_associated_primary_layers_minus1用六位的无符号整数来信令通知。
12.根据权利要求1-11中任一项所述的方法,其中,在所述比特流中有条件地信令通知与所述辅助层相关联或者与所述辅助层的辅助图片相关联的所述主要层的数量的指示。
13.根据权利要求12所述的方法,其中,所述比特流包括范围内的比特流,并且其中所述有条件地信令通知包括仅当范围内的所述比特流中的第i层包含所述辅助图片时,才信令通知所述主要层的数量的指示。
14.根据权利要求13所述的方法,其中,当指定为sdi_aux_id[i]的辅助层标识符大于零时,范围内的所述比特流中的所述第i层包含所述辅助图片。
15.根据权利要求1-14中任一项所述的方法,其中,所述比特流包括范围内的比特流,并且其中,范围内的所述比特流是访问单元AU的序列,所述序列按照解码顺序包括包含所述SDI SEI消息的初始AU和随后的零个或多个后续AU,所述零个或多个后续AU直到但不包括包含另一SDISEI消息的任何后续AU。
16.根据权利要求1-15中任一项所述的方法,其中,当所述辅助信息存在于所述比特流中时,或者当所述比特流包括范围内的比特流并且范围内的所述比特流是多视图比特流时,所述SDI SEI消息包括每个层的辅助标识符。
17.根据权利要求1-16中任一项所述的方法,其中,当指定为sdi_aux_id[i]的辅助层标识符等于零时,第i层被称为主要层,否则所述第i层被称为所述辅助层。
18.根据权利要求1-17中任一项所述的方法,其中,当指定为sdi_aux_id[i]的辅助层标识符等于1时,第i层被称为α辅助层,并且其中,当指定为sdi_aux_id[i]的所述辅助层标识符等于2时,所述第i层被称为深度辅助层。
19.根据权利要求1-18中任一项所述的方法,其中,哪些主要层与所述辅助层相关联的指示是导出的,而不是在比特流中指示的。
20.根据权利要求1-19中任一项所述的方法,还包括当辅助信息存在于比特流中时,使用辅助补充增强信息消息来指示哪些主要层与所述辅助层相关联。
21.根据权利要求1所述的方法,其中,所述转换包括将所述视频媒体文件编码成所述比特流。
22.根据权利要求1所述的方法,其中所述转换包括解码所述比特流以获得所述视频媒体文件。
23.一种处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使得所述处理器:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;以及
基于所述SDI SEI消息在视频媒体文件和所述比特流之间进行转换。
24.一种非暂时性计算机可读介质,包括供编解码装置使用的计算机程序产品,所述计算机程序产品包括存储在所述非暂时性计算机可读介质上的计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时使得所述编解码装置:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;以及
基于所述SDI SEI消息在视频媒体文件和所述比特流之间进行转换。
25.一种存储指令的非暂时性计算机可读存储介质,所述指令使得处理器:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;以及
基于所述SDI SEI消息在视频媒体文件和所述比特流之间进行转换。
26.一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质,其中所述方法包括:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;以及
基于所述SDI SEI消息在视频媒体文件和所述比特流之间进行转换。
27.一种用于存储视频的比特流的方法,包括:
当辅助信息存在于比特流中时,使用可缩放性维度信息SDI补充增强信息SEI消息来指示哪些主要层与辅助层相关联;
基于所述SDI SEI消息生成所述比特流;以及
将所述比特流存储在非暂时性计算机可读记录介质中。
CN202280026787.1A 2021-04-02 2022-04-02 使用可缩放性维度信息 Pending CN117296321A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/085292 2021-04-02
CN2021085292 2021-04-02
PCT/CN2022/085030 WO2022206991A1 (en) 2021-04-02 2022-04-02 Using scalability dimension information

Publications (1)

Publication Number Publication Date
CN117296321A true CN117296321A (zh) 2023-12-26

Family

ID=83458110

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202280026787.1A Pending CN117296321A (zh) 2021-04-02 2022-04-02 使用可缩放性维度信息
CN202280026709.1A Pending CN117157980A (zh) 2021-04-02 2022-04-02 视频编解码中的可缩放性维度信息

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202280026709.1A Pending CN117157980A (zh) 2021-04-02 2022-04-02 视频编解码中的可缩放性维度信息

Country Status (6)

Country Link
US (2) US20240031608A1 (zh)
EP (2) EP4305843A4 (zh)
JP (2) JP2024512098A (zh)
KR (2) KR20230165766A (zh)
CN (2) CN117296321A (zh)
WO (2) WO2022206988A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024026032A1 (en) * 2022-07-27 2024-02-01 Bytedance Inc. Enhanced signalling of sei processing order in video bitstreams

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8520733B2 (en) * 2006-06-30 2013-08-27 Core Wireless Licensing S.A.R.L Video coding
KR101345287B1 (ko) * 2007-10-12 2013-12-27 삼성전자주식회사 스케일러블 영상 부호화 방법 및 장치와 그 영상 복호화방법 및 장치
EP2923488B1 (en) * 2012-11-21 2021-05-26 Dolby International AB Signaling scalability information in a parameter set
KR101967398B1 (ko) * 2013-07-09 2019-04-09 노키아 테크놀로지스 오와이 모션 정보를 시그널링하기 위한 구문을 수반하는 비디오 코딩을 위한 방법 및 장치
US10205954B2 (en) * 2013-10-23 2019-02-12 Qualcomm Incorporated Carriage of video coding standard extension bitstream data using MPEG-2 systems
EP2887672A1 (en) * 2013-12-17 2015-06-24 Thomson Licensing Method for coding a sequence of pictures and method for decoding a bitstream and corresponding devices
WO2015103462A1 (en) * 2014-01-02 2015-07-09 Vidyo, Inc. Overlays using auxiliary pictures
JP2015177318A (ja) * 2014-03-14 2015-10-05 シャープ株式会社 画像復号装置、画像符号化装置
WO2020228692A1 (en) * 2019-05-12 2020-11-19 Beijing Bytedance Network Technology Co., Ltd. Motion prediction from temporal blocks with reference picture resampling

Also Published As

Publication number Publication date
EP4305843A1 (en) 2024-01-17
KR20230158519A (ko) 2023-11-20
KR20230165766A (ko) 2023-12-05
EP4302480A1 (en) 2024-01-10
US20240040135A1 (en) 2024-02-01
US20240031608A1 (en) 2024-01-25
WO2022206991A1 (en) 2022-10-06
CN117157980A (zh) 2023-12-01
JP2024512096A (ja) 2024-03-18
EP4305843A4 (en) 2024-07-31
WO2022206988A1 (en) 2022-10-06
JP2024512098A (ja) 2024-03-18
EP4302480A4 (en) 2024-07-31

Similar Documents

Publication Publication Date Title
JP7381731B2 (ja) マルチレイヤービデオビットストリームにおける不要なレイヤーの禁止
JP7469464B2 (ja) サブピクチャベースのビデオコーディングにおけるサブピクチャごとの1つのスライスの指示
CN116671101A (zh) 编解码视频中量化信息的信令通知
JP2022548663A (ja) サブピクチャベースビデオコーディングにおいてサブピクチャidをシグナリングする
US20240040140A1 (en) Scalability dimension information supplemental enhancement information message
US20240031608A1 (en) Using scalability dimension information
CN115699756A (zh) 视频编解码中的缩放窗口
CN116547971A (zh) Vvc视频编解码中的滚动样点组

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination