CN117730534A - 补充增强信息的增强信令通知 - Google Patents

补充增强信息的增强信令通知 Download PDF

Info

Publication number
CN117730534A
CN117730534A CN202280046499.2A CN202280046499A CN117730534A CN 117730534 A CN117730534 A CN 117730534A CN 202280046499 A CN202280046499 A CN 202280046499A CN 117730534 A CN117730534 A CN 117730534A
Authority
CN
China
Prior art keywords
idx
picture
video
syntax element
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280046499.2A
Other languages
English (en)
Inventor
王业奎
王洋
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN117730534A publication Critical patent/CN117730534A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了一种用于处理视频数据的机制。确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值。ar_object_label_idx[ar_object_idx[i]]语法元素被规定在N到M的范围内,其中N和M是整数,并且N小于M。基于ar_object_label_idx[ar_object_idx[i]]语法元素执行可视媒体数据和比特流之间的转换。

Description

补充增强信息的增强信令通知
相关申请的交叉引用
本专利申请要求Ye-Kui Wang等人于2021年6月28日提交的标题为“补充增强信息的信令通知”的国际申请No.PCT/CN2021/102636的权益,其通过引用并入本文。
技术领域
本专利文档涉及文件格式的数字音频视频媒体信息的生成、存储和消耗。
背景技术
数字视频在互联网和其他数字通信网络上占据着最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加,预计数字视频使用的带宽需求将继续增长。
发明内容
第一方面涉及一种用于处理视频数据的方法,包括:确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值被规定在N到M的范围内,其中,N和M是整数,并且N小于M;以及基于ar_object_label_idx[ar_object_idx[i]]语法元素执行可视媒体数据和比特流之间的转换。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供N为0,M为3、7、15、31、63或255。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供N到M的范围包括端值。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供确定深度表示类型(depth_representation_type)语法元素的值被规定在A到B的范围内,其中,A和B是整数,并且A小于B。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供A为0,B为3、7、15、31、63、127或255。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供A到B的范围包括端值。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供确定第i个深度非线性表示模型(depth_nonlinear_representation_model[i])语法元素的值被规定在C到D的范围内,其中,C和D是整数,并且C小于D。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供C为0,D为6、14、30、62、126或254。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供C到D的范围包括端值。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供确定视差参考视图标识符(disparity_ref_view_id)语法元素的值被规定在E到F的范围内,其中,E和F是整数,并且E小于F。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供E为0,F为63、127、255、511、1023、2047、4095、8191、16383、32767或65535。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供E到F的范围包括端值。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供ar_object_label_idx[ar_object_idx[i]]语法元素被包括在注释区域(AR)补充增强信息(SEI)消息中。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供depth_representation_type语法元素被包括在深度表示信息(DRI)SEI消息中。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供depth_nonlinear_representation_model[i]语法元素被包括在DRI SEI消息中。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供disparity_ref_view_id语法元素被包括在DRI SEI消息中。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供转换包括将可视媒体数据编码成比特流。
可选地,在前述方面中的任一项中,该方面的另一实现方式提供转换包括解码比特流以获得可视媒体数据。
第二方面涉及一种用于处理视频数据的装置,包括:处理器;以及其上具有指令的非暂时性存储器,其中,指令在由处理器执行时使得处理器执行前述方面中的任一项所述的方法。
第三方面涉及一种非暂时性计算机可读介质,包含供视频编解码设备使用的计算机程序产品,计算机程序产品包含存储在非暂时性计算机可读介质上的计算机可执行指令,使得计算机可执行指令在由处理器执行时使视频编解码设备执行前述方面中的任一项所述的方法。
第四方面涉及一种存储有视频的比特流的非暂时性计算机可读记录介质,所述视频的比特流由视频处理装置执行的方法生成,该方法包括:确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值,ar_object_label_idx[ar_object_idx[i]]语法元素被规定在N到M的范围内,其中,N和M是整数,并且N小于M;以及基于确定生成比特流。
第五方面涉及一种用于存储视频的比特流的方法,包括:确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值,ar_object_label_idx[ar_object_idx[i]]语法元素被规定在N到M的范围内,其中,N和M是整数,并且N小于M;基于确定生成比特流;以及将比特流存储在非暂时性计算机可读记录介质中。
为清晰起见,任何一个前述实施例可与任何一个或多个其他前述实施例组合,以在本公开的范围内形成新的实施例。
从以下结合附图和权利要求的详细说明中,可更清楚地理解这些和其他特征。
附图说明
为了更全面地理解本公开的内容,现结合附图和详细说明进行以下简要说明作为参考,其中相同的参考数字代表相同的部件。
图1是图示示例比特流的示意图。
图2是图示示例视频处理系统的框图。
图3是示例视频处理装置的框图。
图4是视频处理的示例方法的流程图。
图5是图示示例视频编解码系统的框图。
图6是图示示例编码器的框图。
图7是图示示例解码器的框图。
图8是示例编码器的示意图。
具体实施方式
首先应理解,尽管下文提供了一个或多个实施例的说明性实现方式,但可使用任何数量的技术实现所公开的系统和/或方法,无论是当前已知的还是有待开发的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术,包括在此示出和描述的示例性设计和实现方式,而是可以在所附权利要求及其等同物的全部范围内进行修改。
本专利文档涉及图像和/或视频编解码技术。具体而言,本文档涉及补充增强信息(SEI)消息中的注释区域、深度表示信息和扩展依赖随机访问点(EDRAP)指示的信令通知。对于由任何编解码器编解码的视频比特流,例如多功能视频编解码(VVC)标准和用于编解码视频比特流的多功能SEI消息(VSEI)标准,可以单独或以各种组合应用这些示例。
本公开包括以下缩写。α通道信息(ACI)、自适应参数集(APS)、访问单元(AU)、编解码层视频序列(CLVS)、编解码层视频序列开始(CLVSS)、循环冗余校验(CRC)、颜色变换信息(CTI)、编解码视频序列(CVS)、依赖随机访问点(DRAP)、深度表示信息(DRI)、扩展依赖随机访问点(EDRAP)、有限脉冲响应(FIR)、帧内随机访问点(IRAP)、多视图获取信息(MAI)、网络抽象层(NAL)、图片参数集(PPS)、图片单元(PU)、随机访问跳过前导(RASL)、区域打包(RWP)、样点纵横比(SAR)、样点纵横比(SAR)、样点纵横比信息(SARI)、可缩放性维度信息(SDI)、补充增强信息(SEI)、逐步时域子层访问(STSA)、视频编解码层(VCL)、多功能补充增强信息,也称为Rec.ITU-T H.274|ISO/IEC 23002-7(VSEI)、视频可用性信息(VUI)和多功能视频编解码,也称为Rec.ITU-T H.266|ISO/IEC 23090-3(VVC)。
视频编解码标准主要通过国际电信联盟(ITU)电信标准化部门(ITU-T)和ISO/国际电工委员会(IEC)标准的发展而演变。ITU-T制定了H.261和H.263,ISO/IEC制定了运动图片专家组(MPEG)-1和MPEG-4视频,并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/高效视频编解码(HEVC)标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了进一步探索HEVC以外的视频编解码技术,视频编解码专家组(VCEG)和MPEG联合成立了联合视频探索团队(JVET)。JVET采用了许多方法,并将其输入到名为联合探索模型(JEM)的参考软件中。当多功能视频编解码(VVC)项目正式启动时,JVET后来更名为联合视频专家团队(JVET)。VVC是一种编解码标准,目标是与HEVC相比降低50%比特率。VVC已经被JVET最终确定。
VVC标准,也称为ITU-T H.266|ISO/IEC 23090-3,以及相关的多功能补充增强信息(VSEI)标准,也称为ITU-T H.274|ISO/IEC 23002-7,被设计用于广泛的应用中,例如电视广播、视频会议、存储介质回放、自适应比特率流、视频区域提取、来自多个编解码视频比特流的内容的合成和merging、多视图视频、可缩放分层编解码和视口自适应三百六十度(360°)沉浸式媒体。基本视频编解码(EVC)标准(ISO/IEC 23094-1)是由MPEG开发的另一个视频编解码标准。
对VSEI标准的修改示例包括附加SEI消息的规范,附加SEI消息包括注释区域SEI消息、α通道信息SEI消息、深度表示信息SEI消息、多视图采集信息SEI消息、可缩放性维度信息SEI消息、扩展依赖随机访问点(DRAP)指示SEI消息、显示方向SEI消息和颜色变换信息SEI消息。
注释区域SEI消息语法的示例如下。
注释区域SEI消息语义的示例如下。注释区域SEI消息携带使用表示所标识对象的尺寸和位置的边界框来标识注释区域的参数。使用此SEI消息可能需要定义以下变量。这些变量包括以亮度样点为单位裁剪的图片宽度和图片高度,在这里分别用CroppedWidth和CroppedHeight表示;色度子采样宽度和高度,分别表示为SubWidthC和SubHeightC;一致性裁剪窗口左偏移,表示为ConfWinLeftOffset,以及一致性裁剪窗口顶部偏移,表示为ConfWinTopOffset。
ar_cancel_flag设置为等于1指示注释区域SEI消息取消了与注释区域SEI消息所应用的一个或多个层相关的任何先前注释区域SEI消息的持久性。ar_cancel_flag设置为等于0指示后面是注释区域信息。当ar_cancel_flag等于1或当前层的新CVS开始时,针对在0到255(包括端值)的范围内的i,变量LabelAssigned[i]、ObjectTracked[i]和ObjectBoundingBoxAvail被设置为等于0。
ar_not_optimized_for_viewing_flag设置为等于1指示注释区域SEI消息所应用的解码图片未针对用户观看进行优化,而是针对算法对象分类性能的一些其他目的进行了优化。ar_not_optimized_for_viewing_flag设置为等于0指示注释区域SEI消息所应用的解码图片可以针对用户观看进行优化,也可以不针对用户观看进行优化。
ar_true_motion_flag设置为等于1指示注释区域SEI消息所应用的编解码图片中的运动信息是以准确表示注释区域中对象的对象运动为目标而选择的。ar_true_motion_flag设置为等于0指示注释区域SEI消息所应用的编解码图片中的运动信息可以以准确表示注释区域中对象的对象运动为目标来选择,也可以不以准确表示注释区域中对象的对象运动为目标来选择。
ar_occluded_object_flag设置为等于1指示ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]语法元素中的每一个都表示对象或对象的一部分的尺寸和位置在裁剪的解码图片内可以不可见或可以仅部分可见。ar_occluded_object_flag设置为等于0指示ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]语法元素表示在裁剪的解码图片内完全可见的对象的尺寸和位置。比特流一致性要求ar_occluded_object_flag的值对于CVS内的所有annotated_regions()语法结构应该是相同的。
ar_partial_object_flag_present_flag设置为等于1指示ar_partial_object_flag[ar_object_idx[i]]语法元素存在。ar_partial_object_flag_present_flag设置为等于0指示ar_partial_object_flag[ar_object_idx[i]]语法元素不存在。比特流一致性要求ar_partial_object_flag_present_flag的值对于CVS内的所有annotated_regions()语法结构应该是相同的。
ar_object_label_present_flag设置为等于1指示存在与注释区域中的对象相对应的标签信息。ar_object_label_present_flag设置为等于0指示不存在与注释区域中的对象相对应的标签信息。
ar_object_confidence_info_present_flag设置为等于1指示存在ar_object_confidence[ar_object_idx[i]]语法元素。ar_object_confidence_info_present_flag设置为等于0指示ar_object_confidence[ar_object_idx[i]]语法元素不存在。比特流一致性可以要求ar_object_confidence_present_flag的值对于CVS内的所有annotated_regions()语法结构应该是相同的。
ar_object_confidence_length_minus 1+1指示ar_object_confidence[ar_object_idx[i]]语法元素的长度(以比特为单位)。比特流一致性要求ar_object_confidence_length_minus 1的值对于CVS内的所有annotated_regions()语法结构应该是相同的。
ar_object_label_language_present_flag设置为等于1指示存在ar_object_label_language语法元素。ar_object_label_language_present_flag设置为等于0指示ar_object_label_language语法元素不存在。ar_bit_equal_to_zero应等于零。
ar_object_label_language包含语言标签,其后是等于0x00的空终止字节。ar_object_label_language语法元素的长度应小于或等于255个字节,不包括空终止字节。当不存在时,标签的语言是未规定的。
ar_num_label_updates指示要被信令通知的与注释区域相关联的标签的总数。ar_num_label_updates的值应在0到255(包括端值)的范围内。ar_label_idx[i]指示信令通知的标签的索引。ar_label_idx[i]的值应在0到255(包括端值)的范围内。
ar_label_cancel_flag设置为等于1取消第ar_label_idx[i]个标签的持久性范围。ar_label_cancel_flag设置为等于0指示第ar_label_idx[i]个标签被分配有信令通知的值。ar_label[ar_label_idx[i]]指定第ar_label_idx[i]个标签的内容。ar_label[ar_label_idx[i]]语法元素的长度应小于或等于255个字节,不包括空终止字节。
ar_num_object_updates指示要被信令通知的对象更新的数量。ar_num_object_updates应在0到255(包括端值)的范围内。ar_object_idx[i]是信令通知的对象参数的索引。ar_object_idx[i]应在0到255(包括端值)的范围内。ar_object_cancel_flag设置为等于1取消第ar_object_idx[i]个对象的持久性范围。ar_object_cancel_flag设置为等于0指示要信令通知与第ar_object_idx[i]个对象跟踪的对象相关联的参数。ar_object_label_update_flag设置为等于1指示对象标签被信令通知。ar_object_label_update_flag等于0指示对象标签没有被信令通知。
ar_object_label_idx[ar_object_idx[i]]指示与第ar_object_idx[i]个对象相对应的标签的索引。当ar_object_label_idx[ar_object_idx[i]]不存在时,其值从相同CVS(如果有的话)中按输出顺序的先前注释区域SEI消息中推断。ar_bounding_box_update_flag设置为等于1指示对象边界框参数被信令通知。ar_bounding_box_update_flag设置为等于0指示对象边界框参数没有被信令通知。
ar_bounding_box_cancel_flag设置为等于1取消ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、ar_bounding_box_height[ar_object_idx[i]]、ar_partial_object_flag[ar_object_idx[i]]和ar_object_confidence[ar_object_idx[i]]的持久性范围。ar_bounding_box_cancel_flag设置为等于0指示ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]、ar_bounding_box_height[ar_object_idx[i]]、ar_partial_object_flag[ar_object_idx[i]]和ar_object_confidence[ar_object_idx[i]]语法元素被信令通知。
ar_bounding_box_top[ar_object_idx[i]],ar_bounding_box_left[ar_object_idx[i]],ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]相对于由活动SPS规定的一致性裁剪窗口分别指定了裁剪解码图片中第ar_object_idx[i]个对象的边界框的左顶角坐标以及宽度和高度。
ar_bounding_box_left[ar_object_idx[i]]的值应在0到CroppedWidth/SubWidthC–1(包括端值)的范围内。ar_bounding_box_top[ar_object_idx[i]]的值应在0到CroppedHeight/SubHeightC–1(包括端值)的范围内。deleteCroppedWidth/SubWidthC-ar_bounding_box_left[ar_object_idx[i]]的值(包括端值)。ar_bounding_box_height[ar_object_idx[i]]的值应在0到CroppedHeight/SubHeightC-ar_bounding_box_top[ar_object_idx[i]](包括端值)的范围内。所标识的对象矩形包含具有从SubWidthC*(ConfWinLeftOffset+ar_bounding_box_left[ar_object_idx[i]])到SubWidthC*(ConfWinLeftOffset+ar_bounding_box_left[ar_object_idx[i]]+ar_bounding_box_width[ar_object_idx[i]])-1(包括端值)的水平图片坐标和从SubHeightC*(ConfWinTopOffset+ar_bounding_box_top[ar_object_idx[i]])到SubHeightC*(ConfWinTopOffset+ar_bounding_box_top[ar_object_idx[i]]+ar_bounding_box_height[ar_object_idx[i]])-1(包括端值)的垂直图片坐标的亮度样点。对于ar_object_idx[i]的每个值,ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]的值按输出顺序保留在CVS中。当不存在时,ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]或ar_bounding_box_height[ar_object_idx[i]]的值是从CVS中按输出顺序排列的先前注释区域SEI消息中推断出来的(如果有的话)。
ar_partial_object_flag[ar_object_idx[i]]设置为等于1指示ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]语法元素表示在裁剪的解码图片中仅部分可见的对象的尺寸和位置。ar_partial_object_flag[ar_object_idx[i]]设置为等于0指示ar_bounding_box_top[ar_object_idx[i]]、ar_bounding_box_left[ar_object_idx[i]]、ar_bounding_box_width[ar_object_idx[i]]和ar_bounding_box_height[ar_object_idx[i]]语法元素表示对象的尺寸和位置,该对象在裁剪的解码图片中可能是部分可见的,也可能不是部分可见的。当不存在时,ar_partial_object_flag[ar_object_idx[i]]的值从CVS中按输出顺序排列的先前注释区域SEI消息中推断出来(如果有的话)。
ar_object_confidence[ar_object_idx[i]]指示与第ar_object_idx[i]个对象相关的置信度,单位为2-(ar_object_confidence_length_minus1+1),因此ar_object_confidence[ar_object_idx[i]]的值越高,指示置信度越高。ar_object_confidence[ar_object_idx[i]]语法元素的长度为ar_object_confidence_length_minus 1+1比特。如果不存在,则_object_confidence[ar_object_idx[i]]的值从CVS中按输出顺序排列的先前注释区域SEI消息推断出来(如果有的话)。
现在讨论深度表示信息SEI消息。深度表示信息SEI消息语法的示例如下。
深度表示信息元素语法的示例如下。
深度表示信息SEI消息语义的示例如下。深度表示信息(DRI)SEI消息中的语法元素为类型AUX_DEPTH的辅助图片规定各种参数,以便在三维(3D)显示器上呈现之前处理解码的主图片和辅助图片,例如视图合成。例如,规定深度图片的深度或视差范围。
使用该SEI消息可能需要定义以下变量。亮度分量的样点的比特深度,在这里用BitDepthY表示。对于i的至少一个值,当CVS不包含sdi_aux_id[i]等于2的SDI SEI消息时,CVS中的任何图片均不应与DRI SEI消息关联。当访问单元(AU)包含sdi_aux_id[i]等于2(对于i的至少一个值)的SDI SEI消息和DRI SEI消息两者时,SDI SEI消息的解码顺序应在DRI SEI消息的解码顺序之前。当存在时,DRI SEI消息应与由SDI SEI消息指示为深度辅助层的一个或多个层相关联。以下语义分别应用于DRI SEI消息所应用的nuh_layer_id值中的每个nuh_layer_id targetLayerId。当存在时,DRI SEI消息可以被包括在任何访问单元中。建议当存在SEI消息时,出于随机访问的目的,将该SEI消息包括在访问单元中,在该访问单元中,具有等于targetLayerId的nuh_layer_id的编解码图片是IRAP图片。DRI SEI消息中指示的信息应用于从包含SEI消息的访问单元开始的nuh_layer_id等于targetLayerId的所有图片,按照解码顺序,直到与适用于targetLayerId的DRI SEI消息相关联的下一个图片(不包括在内),或者直到nuh_layer_id等于targetLayerId的CLVS的结尾,以解码顺序中较早的为准。
z_near_flag设置为等于0指定语法结构中不存在指定最近深度值的语法元素。z_near_flag设置为等于1指定语法结构中存在指定最近深度值的语法元素。z_far_flag设置为等于0指定语法结构中不存在指定最远深度值的语法元素。z_far_flag设置为等于1指定语法结构中存在指定最远深度值的语法元素。d_min_flag设置为等于0指定语法结构中不存在指定最小视差值的语法元素。d_min_flag设置为等于1指定语法结构中存在指定最小视差值的语法元素。d_max_flag设置为等于0指定语法结构中不存在指定最大视差值的语法元素。d_max_flag设置为等于1指定语法结构中存在指定最大视差值的语法元素。depth_representation_type指定如表1中指定的辅助图片的解码亮度样点的表示定义。在表1中,视差指定两个纹理视图之间的水平位移,而Z值指定距相机的距离。变量maxVal被设置为等于(1<<BitDepthY)–1。
表1–depth_representation_type的定义
disparity_ref_view_id指定了导出视差值所依据的ViewId值。应该注意的是,仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。表2的x列中的变量从表2的s、e、n和v列中的相应变量导出,如下所示。如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。
x s e n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
表2–深度参数变量和语法元素之间的关联
当存在时,Dmin和DMax值被规定为以编解码图片的亮度样点宽度为单位,其中ViewId等于辅助图片的ViewId。当存在时,ZNear和ZFar值的单位相同,但不被指定。depth_nonlinear_representation_num_minus1加2指定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。对于i的范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的depth_nonlinear_representation_model[i]指定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
当depth_representation_type等于3时,辅助图片包含非线性变换的深度样点。如下规定的变量DepthLUT[i]用于将解码的深度样点值从非线性表示变换为线性表示,即均匀量化的视差值。该变换的形状通过二维线性视差到非线性视差空间中的线段近似来定义。曲线的第一个(0,0)和最后一个(maxVal,maxVal)节点是预定义的。附加节点的位置以与直线曲线的偏差(depth_nonlinear_representation_model[i])的形式发送。这些偏差均匀分布在0到maxVal(包括端值)的整个范围内,其间距取决于nonlinear_depth_representation_num_minus1的值。
i在0至maxVal(包括端值)的范围内的变量DepthLUT[i]规定如下:
当depth_representation_type等于3时,0到maxVal(包括端值)的范围内的辅助图片的所有解码亮度样点值dS的DepthLUT[dS]表示均匀量化到0到maxVal(包括端值)的范围内的视差。
深度表示信息元素语义如下。语法结构规定了DRI SEI消息中元素的值。语法结构设置表示浮点值的OutSign、OutExp、OutMantissa和OutManLen变量的值。当该语法结构被包含在另一个语法结构中时,变量名OutSign、OutExp、OutMantissa和OutManLen将被解释为被包含该语法结构时使用的变量名称所替换。
da_sign_flag设置为等于0指示浮点值的符号为正。da_sign_flag设置为等于1指示符号为负。变量OutSign被设置为等于da_sign_flag。da_exponent指定浮点值的指数。da_exponent的值应在0到27-2(包括端值)的范围内。保留值27-1。解码器应将值27-1视为指示未规定的值。变量OutExp被设置为等于da_exponent。da_mantissa_len_minus1加1规定da_mantissa语法元素中的比特的数量。da_mantissa_len_minus1的值应在0到31(包括端值)的范围内。变量OutManLen被设置为等于da_mantissa_len_minus1+1。da_mantissa规定浮点值的尾数。变量OutMantissa被设置为等于da_mantissa。
扩展DRAP指示SEI消息如下。扩展DRAP指示SEI消息语法的示例如下。
扩展DRAP指示SEI消息语义的示例如下。与扩展DRAP(EDRAP)指示SEI消息相关联的图片被称为EDRAP图片。EDRAP指示SEI消息的存在指示:对在该子条款中规定的图片顺序和图片参考的约束是适用的。这些约束可以使解码器能够正确地解码EDRAP图片和相同层中的解码顺序和输出顺序都在EDRAP图片之后的图片,而不需要解码相同层中除了图片referenceablePictures之外的任何其他图片。这包括在相同CLVS内并由edrap_ref_rap_id[i]语法元素标识的解码顺序的IRAP或EDRAP图片的列表。
由EDRAP指示SEI消息的存在所指示的约束应全部适用,如下所示。EDRAP图片是尾随图片。EDRAP图片具有等于0的时域子层标识符。除了referenceablePictures之外,EDRAP图片在其参考图片列表的活动条目中不包括相同层中的任何图片。除了referenceablePictures之外,在相同层中且解码顺序和输出顺序都在EDRAP图片之后的任何图片,在其参考图片列表的活动条目中,不包括在相同层中且解码顺序或输出顺序在EDRAP图片之前的任何图片。
当edrap_leading_pictures_decodable_flag等于1时,以下适用。在相同层中且解码顺序在EDRAP图片之后的任何图片的输出顺序应该在相同层中且解码顺序在EDRAP图片之前的任何图片之后。除了referenceablePictures之外,在相同层中且解码顺序在EDRAP图片之后且输出顺序在EDRAP图片之前的任何图片,在其参考图片列表的活动条目中,不包括在相同层中且解码顺序在EDRAP图片之前的任何图片。列表referenceablePictures中的任何图片在其参考图片列表的活动条目中不包括在相同层中并且不是列表referenceablePictures中较前位置的图片的任何图片。因此,referenceablePictures中的第一个图片,即使当它是EDRAP图片而不是IRAP图片时,也不包括来自其参考图片列表的活动条目中的相同层的任何图片。
edrap_rap_id_minus1加1规定EDRAP图片的随机访问点(RAP)图片标识符,表示为RapPicId。每个IRAP或EDRAP图片都与RapPicId值相关联。IRAP图片的RapPicId值被推断为等于0。与相同IRAP图片相关联的任意两个EDRAP图片的RapPicId值应该不同。在符合本公开的比特流中,edrap_reserved_zero_12bits应当等于0。edrap_reserved_zero_12bits的其他值是保留的。解码器可以忽略edrap_reserved_zero_12bits的值。edrap_num_ref_rap_pics_minus1加1指示在与EDRAP图片相同的CLVS内的IRAP或EDRAP图片的数量,并且可以被包括在EDRAP图片的参考图片列表的活动条目中。edrap_ref_rap_id[i]指示可被包括在EDRAP图片的参考图片列表的活动条目中的第i个RAP图片的RapPicId。第i个RAP图片应该是与当前EDRAP图片相关联的IRAP图片或者是与当前EDRAP图片相同的IRAP图片相关联的EDRAP图片。
以下是通过公开的技术方案解决的示例技术问题。注释区域SEI消息、深度表示信息SEI消息和EDRAP指示SEI消息的示例设计至少具有以下问题。对于注释区域SEI消息,缺少第i个注释区域对象索引(ar_object_label_idx[ar_object_idx[i]])的ue(v)编解码语法元素AR对象标签索引的值范围。与没有为ue(v)编解码的语法元素规定的值范围相关联的一个实际问题是,设计者可能不确定在实现时有多少比特可以用于对应的变量。如果在实现中使用的最大比特数不够,当遇到大于使用的比特数所允许的最大值时,解码器可能会崩溃。对于深度表示信息SEI消息,第i个深度非线性表示模型(depth_nonlinear_representation_model[i])语法元素的描述符(例如,编解码方法)未被规定。如果不规定编解码方法,解码器可能无法确定如何解析语法元素。对于深度表示信息SEI消息,未规定ue(v)编解码的语法元素深度表示类型(depth_representation_type)、视差参考视图标识符(disparity_ref_view_id)、深度非线性表示数减一(depth_nonlinear_representation_num_minus1)和depth_nonlinear_representation_model[i]的值范围。对于EDRAP指示SEI消息,缺少EDRAP前导图片可解码标志(edrap_leading_pictures_decodable_flag)语法元素的语义。
本文公开了解决上面列出的一个或多个问题的机制。例如,本公开规定了ar_object_label_idx[ar_object_idx[i]]的示例值范围。此外,本公开规定了depth_nonlinear_representation_model[i]的示例描述符。此外,本公开规定了depth_representation_type、disparity_ref_view_id、depth_nonlinear_representation_num_minus1和depth_nonlinear_representation_model[i]的示例值范围。此外,本公开规定了edrap_leading_pictures_decodable_flag的示例语义。
图1是图示示例比特流100的示意图。比特流100可以包括压缩视频和相关语法。例如,比特流100可以由编码器编码,通过一个或多个网络发送,并由解码器解码以显示给用户。例如,比特流100可以被定义为形成一个或多个编解码视频序列(CVS)的访问单元(AU)的序列的表示的位的序列。AU是与视频序列中的对应输出时间相关联的一个或多个图片的集合。比特流可以采取网络抽象层(NAL)单元流或字节流的形式。
比特流100包括一个或多个序列参数集(SPS)113、多个图片参数集(PPS)115、多个条带125、注释区域(AR)SEI消息131、DRI SEI消息133和EDRAP指示SEI消息135。SPS113包含比特流100中包含的编解码视频序列中的所有图片所共有的序列数据相关参数。SPS113中的参数可包括图片尺寸、比特深度、编解码工具参数、比特率限制等。应当注意,尽管每个序列指的是SPS113,但是在一些示例中,单个SPS113可以包含多个序列的数据。PPS115包含应用于整个图片的参数。因此,视频序列中的每个图片可以指PPS115。应该注意的是,虽然每个图片指的是PPS115,但是在一些示例中,单个PPS115可以包含多个图片的数据。例如,可以根据相似的参数对多个相似的图片进行编解码。在这种情况下,单个PPS115可以包含这种相似图片的数据。PPS115可以指示可用于对应图片中的条带的编解码工具、量化参数、偏移等。
条带均包含条带标头和图片中区域的图像数据。条带标头包含特定于每个条带的参数。因此,视频序列中的每个条带可能有一个条带标头。条带标头可以包含条带类型信息、图片顺序计数(POC)、参考图片列表、预测权重、片入口点、去块参数等。应注意,在一些示例中,比特流100还可包括图片标头,图片标头是含有应用于单个图片中的所有条带的参数的语法结构。因此,在一些上下文中,图片标头和条带标头可以互换使用。例如,某些参数可以在条带标头和图片标头之间移动,这取决于这些参数是否为图片中的所有条带所共有。条带125中的图像数据包含根据帧间预测和/或帧内预测编码的视频数据以及对应的变换和量化的残差数据。来自一个或多个条带的视频数据可以由编码器从图片中编解码,并在解码器中解码以重建图片。
条带125可定义为图片的整数个完整片或整数个连续完整编解码树单元(CTU)行(例如,在片内),其中片或CTU行仅包含在单个NAL单元中。因此,条带125也包含在单个NAL单元中。条带125每个都被进一步划分成CTU和/或编解码树块(CTB)。CTU是一组预定义尺寸的样点,可以通过编解码树进行分割。CTB是CTU的子集,并且包含CTU的亮度分量或色度分量。CTU/CTB基于编解码树被进一步划分成编解码块。然后可以根据预测机制对编解码块进行编码/解码。
比特流100可包括一个或多个SEI消息。SEI消息是具有规定语义的语法结构,其传达解码过程不需要的信息,以便确定解码图片中的样点值。比特流100可以包括用于不同功能的许多不同的SEI消息。在本示例中,比特流包括AR SEI消息131、DRI SEI消息133和EDRAP指示SEI消息135。
AR SEI消息131是一种SEI消息,其携带通过采用边界框来标识一个或多个图片中的注释区域的参数。边界框表示注释区域的尺寸和位置,并标识包含在注释区域中的一个或多个对象。因此,AR SEI消息131包含描述图片中的区域的元数据。解码器可以使用ARSEI消息131来确定在显示过程期间是否解码和/或如何处理这些区域。AR SEI消息131包括ar_object_label_idx[ar_object_idx[i]]141语法元素。ar_object_label_idx[ar_object_idx[i]]141指示对应于第i个索引的AR对象(第ar_object_idx[i]个对象)的标签的索引。比如AR对象被索引,并且任何第i个AR对象都可以通过ar_object_idx[i]来确定。此外,AR对象标签被索引,并且任何第i个AR对象标签可以由ar_object_label_idx[i]来确定。这样,AR SEI ar_object_label_idx[ar_object_idx[i]]141获得第i个AR对象的标签的索引。
DRI SEI消息133是携带图片参数的SEI消息,所述图片包含用于在三维(3D)显示器上呈现的深度和/或视差信息。深度是像素/样点在3D空间中的位置。视差是图像平面中两个特征(例如,两个像素)的位置之间的位移。DRISEI消息133包含depth_nonlinear_representation_model[i]142语法元素、depth_nonlinear_representation_num_minus1143语法元素、depth_representation_type 144语法元素和disparity_ref_view_id 145语法元素。depth_nonlinear_representation_model[i]142规定i个分段线性片段中的每一个,用于将辅助图片的解码亮度样点值(例如,深度值)映射到根据视差均匀量化的尺度。depth_nonlinear_representation_num_minus1 143加2规定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。因此,depth_nonlinear_representation_num_minus1 143加2规定depth_nonlinear_representation_model[i]142中的i个片段的数量。depth_representation_type 144规定辅助图片的解码亮度样点的表示定义。depth_representation_type 144的允许值和每个值的对应解释包括在上面的表1和/或下面的表Y1中。disparity_ref_view_id 145规定视图标识符(ViewId)值,根据该值导出视差值。因此,disparity_ref_view_id 145指示当确定辅助图片中的样点的视差(例如,位置之间的位移和/或差)时用作参考的ViewId值。
EDRAP指示SEI消息135指示EDRAP图片的使用。EDRAP图片是通过基于一个或多个参考图片的帧间预测来编解码的随机访问图片。例如,EDRAP图片可以通过参考前面的EDRAP图片和/或前面的IRAP图片来编解码。IRAP图片通过帧内预测被编解码,并且可以在不参考其他图片的情况下被解码。EDRAP方案可以采用外部比特流,该外部比特流包含用于每个EDRAP图片的一组定时的参考图片。以这种方式,可以选择EDRAP图片以随机访问主比特流,并且可以从外部比特流中获得用于解码EDRAP图片的参考图片。EDRAP指示SEI消息135是SEI消息,其指示对图片顺序和图片参考的约束,该约束用于确保解码器可选择任何EDRAP图片用于随机访问,且仅使用对应的参考图片(例如,在外部比特流中)来成功解码选定的EDRAP图片。EDRAP指示SEI消息135包括edrap_leading_pictures_decodable_flag146语法元素,其包含指示一组排序约束是否应用于对应于EDRAP指示SEI消息135的EDRAP图片的值。
EDRAP指示SEI消息135的存在对比特流中的EDRAP图片顺序施加了某些限制。例如,每个EDRAP图片是尾随图片。此外,每个EDRAP图片具有等于零的时域子层标识符。时域子层将图片划分成基本层和一个或多个增强层。具有较小能力的解码器可以以较低的帧速率解码和显示基本层,而具有较大能力的解码器可以解码越来越多的增强层以获得更高的帧速率。将时域子层标识符限制为零确保了EDRAP图片在基本层中,因此可由所有解码器使用。另一个约束要求除了可参考图片列表之外,每个EDRAP图片不包括EDRAP图片的参考图片列表的活动条目中的相同层中的任何图片。可参考图片列表包括解码顺序的IRAP和/或EDRAP图片。因此,此约束将EDRAP图片限制为仅参考先前IRAP和EDRAP图片。又一个约束要求,除了可参考图片列表之外,与EDRAP图片在相同层中并且解码顺序和输出顺序两者都在该EDRAP图片之后的任何图片在该图片的参考图片列表的活动条目中不包括在相同层中且解码顺序或输出顺序在该EDRAP图片之前的任何其他图片。此约束防止跟在EDRAP图片后面的图片参考在EDRAP图片之前的图片。在随机访问EDRAP图片的情况下,先前图片将是不可用的,因此,通过尾随的图片来参考这样的图片将会由于参考图片不可用而导致错误。
edrap_leading_pictures_decodable_flag 146语法元素可对EDRAP图片施加附加约束。这些附加约束中的第一个规定了与EDRAP图片在相同层中且解码顺序在EDRAP图片之后的任何图片的输出顺序应该在与EDRAP图片在相同层中且解码顺序在EDRAP图片之前的任何其他图片之后。在某些情况下,编解码顺序和输出顺序是不同的。这在某些情况下允许更好的压缩,但是需要在显示之前对图片进行重新排序。解码顺序在随机访问点之后并且输出顺序在随机访问点之前的图片被称为前导图片。该约束确保EDRAP图片的前导图片不会被放置在来自输出顺序在前的EDRAP图片的尾随图片之前。
此类附加约束中的第二个约束规定,与EDRAP图片处于相同层且解码顺序在EDRAP图片之后且输出顺序在EDRAP图片之前的任何图片,在图片的参考图片列表的活动条目中,除可参考图片列表之外,不应包括与EDRAP图片处于相同层且解码顺序在EDRAP图片之前的任何其他图片。该约束确保前导图片仅参考EDRAP图片之后的图片和可参考图片列表中的IRAP和/或EDRAP图片。这确保了当对应的EDRAP图片用于随机访问时,前导图片可以被解码。
如上所述,在一些示例系统中,未规定ar_object_label_idx[ar_object_idx[i]]141、depth_nonlinear_representation_model[i]142、depth_nonlinear_representation_num_minus1 143、depth_representation_type 144、disparity_ref_view_id 145和edrap_leading_pictures_decodable_flag 146的值范围、描述符和/或语义。因此,本公开包括前述参数/语法元素的这些值范围、描述符和/或语义。这允许解码器正确地解释这些值,而不会经历诸如故障和/或崩溃的未定义的行为。
应注意,ar_object_label_idx[ar_object_idx[i]]141、depth_nonlinear_representation_model[i]142、depth_nonlinear_representation_num_minus1 143、depth_representation_type 144、disparity_ref_view_id 145和edrap_leading_pictures_decodable_flag 146可与描述符相关联,该描述符指示用于对对应语法元素进行编解码的编解码机制。这样的描述符可以包括ue(v)、u(N)、se(v)和u(v)。ue(v)指示语法元素值被编解码为无符号整数指数哥伦布编解码的语法元素,其中左位在先并且比特数可变。指数哥伦布编解码语法包括以加一的二进制表示值,以及以减一的格式将前导零表示为前导值。u(N)指示使用N比特将语法元素值编解码为无符号整数。se(v)指示语法元素值被编解码为有符号整数指数哥伦布编解码的语法元素,其中左位在先并且比特数可变。u(v)指示使用可变比特数将语法元素值编解码为无符号整数。
为解决上述及其他问题,公开了总结的如下方法。这些项目应该被认为是解释一般概念的示例,而不应该以狭隘的方式解释。此外,这些项目可以单独使用或以任何方式组合使用。
示例1
在一个示例中,为解决以上列出的至少一个问题,ar_object_label_idx[ar_object_idx[i]]141语法元素的值被规定在N到M(包括端值)的范围内,其中,N和M为整数值,并且N小于M。在一个示例中,N=0,M=255。在示例中,ar_object_label_idx[ar_object_idx[i]]141的值被规定在不同的范围内,例如0到3(包括端值),0到7(包括端值),0到15(包括端值),0到31(包括端值),0到63(包括端值),等等。
示例2
在一个示例中,为解决以上列出的至少一个问题,depth_nonlinear_representation_model[i]142语法元素被规定为ue(v)编解码。
示例3
在一个示例中,depth_nonlinear_representation_model[i]142的值被规定在N到M(包括端值)的范围内,例如N=0且M=65535。在示例中,depth_nonlinear_representation_model[i]142的值被规定为在不同的范围内,例如0到3(包括端值),0到7(包括端值),0到15(包括端值),0到31(包括端值),0到63(包括端值),0到127(包括端值),0到255(包括端值),0到511(包括端值),0到1023(包括端值),0到2047(包括端值),0到4095(包括端值),0到8191(包括端值),0到16383(包括端值),等等。
示例4
在一个示例中,depth_nonlinear_representation_model[i]142语法元素被规定为使用不同的编解码方法进行编解码。在一个示例中,depth_nonlinear_representation_model[i]142语法元素被规定为u(N)编解码的,其中N为正整数值,例如2到16(包括端值)范围内的值。在另一示例中,depth_nonlinear_representation_model[i]142语法元素被规定为se(v)编解码的。在另一示例中,depth_nonlinear_representation_model[i]142语法元素被规定为u(v)编解码的,以比特为单位的长度被规定为例如等于Log2(MaxNumModes),变量MaxNumModes指示模式的最大数量,并且函数Log2(x)返回x的以2为底的对数。
示例5
在一个示例中,depth_nonlinear_representation_num_minus1 143语法元素被规定为使用与ue(v)编解码方法不同的编解码方法进行编解码,例如u(N)、u(v)等。
示例6
在一个示例中,为解决上面列出的至少一个问题,depth_representation_type144的值被规定在N到M(包括端值)的范围内,其中,N和M为整数值,并且N小于M。在一个示例中,N=0,M=15。在一个示例中,depth_representation_type 144的值被规定为在不同的范围内,例如0到3(包括端值)、0到7(包括端值)、0到31(包括端值)、0到63(包括端值)、0到127(包括端值)、0到255(包括端值)等。
示例7
在一个示例中,为了解决上面列出的至少一个问题,将depth_nonlinear_representation_num_minus1 143的值被规定在0到62(包括端值)的范围内。在一个示例中,depth_nonlinear_representation_num_minus 143的值被规定为在不同的范围内,例如0到6(包括端值),0到14(包括端值),0到30(包括端值),0到126(包括端值),0到254(包括端值),等等。
示例8
在一个示例中,为解决上面列出的至少一个问题,将disparity_ref_view_id145的值被规定在0到1023(包括端值)的范围内。在一个示例中,disparity_ref_view_id 145的值被规定为在不同的范围内,例如0到63(包括端值)、0到127(包括端值)、0到255(包括端值)、0到511(包括端值)、0到2047(包括端值)、0到4095(包括端值)、0到8191(包括端值)、0到16383(包括端值)、0到32767(包括端值)、0到65535(包括端值)等。
示例9
在一个示例中,为解决上面列出的至少一个问题,edrap_leading_pictures_decodable_flag 146语法元素的语义被规定如下。edrap_leading_pictures_decodable_flag 146等于1指定以下的约束都适用。在相同层中并且解码顺序在EDRAP图片之后的任何图片的输出顺序应该在相同层中并且解码顺序在EDRAP图片之前的任何图片之后。除了referenceablePictures之外,在相同层中并且解码顺序在EDRAP图片之后并且输出顺序在EDRAP图片之前的任何图片,在其参考图片列表的活动条目中不应包括在相同层中并且解码顺序在EDRAP图片之前的任何图片。edrap_leading_pictures_decodable_flag 146等于0不施加这样的约束。
现在描述前述示例的实施例。该实施例可以应用于VSEI。相对于VSEI规范,已添加或修改的大多数相关部分以粗体下划线字体显示,并且一些删除的部分以粗体斜体字体显示。其他的一些编辑上的改动没有突出显示。
注释区域SEI消息语义的示例如下。注释区域SEI消息携带使用表示所标识对象的尺寸和位置的边界框来标识注释区域的参数。
...
ar_object_label_idx[ar_object_idx[i]]指示与第ar_object_idx[i]个对象相对应的标签的索引。当ar_object_label_idx[ar_object_idx[i]]不存在时,其值从相同CVS(如果有的话)中输出顺序在前的注释区域SEI消息中推断。
...
深度表示信息SEI消息语法
/>
深度表示信息SEI消息语义的示例如下。深度表示信息(DRI)SEI消息中的语法元素为类型AUX_DEPTH的辅助图片规定各种参数,以便在3D显示器上呈现之前处理解码的主图片和辅助图片,例如视图合成。具体地,规定深度图片的深度或视差范围。
...
depth_representation_type指定如表Y1中指定的辅助图片的解码亮度样点的表示定义。在表Y1中,视差指定两个纹理视图之间的水平位移,而Z值指定距相机的距离。 变量maxVal被设置为等于(1<<BitDepthY)–1。/>
表Y1–depth_representation_type的定义
disparity_ref_view_id指定了导出视差值所依据的ViewId值。
仅当d_min_flag等于1或d_max_flag等于1时,disparity_ref_view_id才存在,并且对于depth_representation_type值等于1和3有用。表Y2的x列中的变量从表Y2的s、e、n和v列中的相应变量导出,如下所示。如果e的值在0到127(不包括端值)的范围内,则x设置为等于(-1)s*2e-31*(1+n÷2v)。否则(e等于0),x设置为等于(-1)s*2-(30+v)*n。/>
x s E n v
ZNear ZNearSign ZNearExp ZNearMantissa ZNearManLen
ZFar ZFarSign ZFarExp ZFarMantissa ZFarManLen
DMax DMaxSign DMaxExp DMaxMantissa DMaxManLen
DMin DMinSign DMinExp DMinMantissa DMinManLen
表Y2–深度参数变量和语法元素之间的关联
当存在时,dmin和DMax值被规定为以编解码图片的亮度样点宽度为单位,其中ViewId等于辅助图片的ViewId。当存在时,ZNear和ZFar值的单位相同,但不被指定。
depth_nonlinear_representation_num_minus1加2指定用于将深度值映射到根据视差均匀量化的尺度的分段线性片段的数量。 对于i的范围从0到depth_nonlinear_representation_num_minus1+2(包括端值)的depth_nonlinear_representation_model[i]指定用于将辅助图片的解码亮度样点值映射到根据视差均匀量化的尺度的分段线性片段。 depth_nonlinear_representation_model[0]和depth_nonlinear_representation_model[depth_nonlinear_representation_num_minus1+2]的值都被推断为等于0。
...
扩展DRAP指示SEI消息语义的示例如下。与扩展DRAP(EDRAP)指示SEI消息相关联的图片被称为EDRAP图片。EDRAP指示SEI消息的存在指示:在该子条款中规定的图片顺序和图片参考的约束是适用的。这些约束可以使解码器能够正确地解码EDRAP图片和相同层中的解码顺序和输出顺序都在EDRAP图片之后的图片,而不需要解码相同层中除了图片referenceablePictures之外的任何其他图片。这包括在相同CLVS内并由edrap_ref_rap_id[i]语法元素标识的解码顺序的IRAP或EDRAP图片的列表。
由EDRAP指示SEI消息的存在所指示的约束应全部适用,如下所示。EDRAP图片是尾随图片。EDRAP图片具有等于0的时域子层标识符。除了referenceablePictures之外,EDRAP图片在其参考图片列表的活动条目中不包括相同层中的任何图片。除了referenceablePictures之外,在相同层中并且解码顺序和输出顺序都在EDRAP图片之后的任何图片,在其参考图片列表的活动条目中,不包括在相同层中并且解码顺序或输出顺序在EDRAP图片之前的任何图片。
列表referenceablePictures中的任何图片在其参考图片列表的活动条目中不包括在相同层中并且不是列表referenceablePictures中较前位置的图片的任何图片。因此,referenceablePictures中的第一个图片,即使当它是EDRAP图片而不是IRAP图片时,也不包括来自其参考图片列表的活动条目中的相同层的任何图片。
edrap_rap_id_minus1加1规定EDRAP图片的RAP图片标识符,表示为RapPicId。每个IRAP或EDRAP图片都与RapPicId值相关联。IRAP图片的RapPicId值被推断为等于0。与相同IRAP图片相关联的任意两个EDRAP图片的RapPicId值应该不同。
在本规范的该版本的比特流中,edrap_reserved_zero_12bits应当等于0。edrap_reserved_zero_12bits的其他值是保留的。解码器应忽略edrap_reserved_zero_12bits的值。edrap_num_ref_rap_pics_minus1加1指示在与EDRAP图片相同的CLVS内的IRAP或EDRAP图片的数量,并且可以被包括在EDRAP图片的参考图片列表的活动条目中。edrap_ref_rap_id[i]指示可被包括在EDRAP图片的参考图片列表的活动条目中的第i个RAP图片的RapPicId。第i个RAP图片应该是与当前EDRAP图片相关联的IRAP图片或者是与当前EDRAP图片相同的IRAP图片相关联的EDRAP图片。
...
图2是可实现本公开的各种技术的示例视频处理系统4000的框图。各种实现方式可以包括系统4000中的一些或全部组件。系统4000可以包括用于接收视频内容的输入4002。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收,或者可以以压缩或编码的格式接收。输入4002可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。
系统4000可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件4004。编解码组件4004可以减少从输入4002到编解码组件4004的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时称为视频压缩或视频转码技术。编解码组件4004的输出可以被存储或经由所连接的通信来发送,如组件4006所表示的。在输入4002处接收的视频的存储或通信的比特流(或编解码)表示可以由组件4008使用,以生成被发送到显示接口4010的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编解码”操作或工具,但是应当理解,编解码工具或操作在编码器处使用,反演编解码的结果的对应解码工具或操作在解码器处使用。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以实施在各种电子设备中,诸如移动电话、笔记本电脑、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。
图3是示例视频处理装置4100的框图。装置4100可以用于实现本文中的一个或多个方法。装置4100可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置4100可以包括一个或多个处理器4102、一个或多个存储器4104和视频处理电路4106。(多个)处理器4102可以配置为实现本文档中所描述的一个或多个方法。(多个)存储器4104可以用于存储用于实现本文所描述的方法和技术的数据和代码。视频处理电路4106可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中,视频处理电路4106可以至少部分地包括在处理器4102内,例如图形协处理器。
图4是视频处理的示例方法4200的流程图。方法4200包括:在步骤4202,确定ar_object_label_idx[ar_object_idx[i]]语法元素的值被规定在N到M范围内。N和M是整数,并且N小于M。例如,N可以是0,M可以是3、7、15、31、63或255,并且N到M的范围可以包括端值。在示例中,ar_object_label_idx[ar_object_idx[i]]语法元素被包括在AR SEI消息中。
在步骤4204,确定depth_representation_type语法元素的值。depth_representation_type语法元素可以被规定在A到B的范围内。A和B可以是整数,其中A小于B。例如,A可以是0,B可以是3、7、15、31、63、127或255,并且A到B的范围可以包括端值。在示例中,depth_representation_type语法元素被包括在DRI SEI消息中。
在步骤4206,确定depth_nonlinear_representation_model[i]语法元素的值。depth_nonlinear_representation_model[i]语法元素被规定在C到D的范围内。C和D可以是整数,并且C小于D。例如,C可以是0,D可以是6、14、30、62、126或254,并且C到D的范围可以包括端值。在示例中,depth_nonlinear_representation_model[i]语法元素被包括在DRISEI消息中。
在步骤4208,确定disparity_ref_view_id语法元素的值。disparity_ref_view_id语法元素被规定在E到F的范围内。E和F可以是整数,其中E小于F。例如,E可以是0,F可以是63、127、255、511、1023、2047、4095、8191、16383、32767或65535,并且E到F的范围可以包括端值。在示例中,disparity_ref_view_id语法元素被包括在DRI SEI消息中。
在步骤4210,基于ar_object_label_idx[ar_object_idx[i]]、depth_nonlinear_representation_model[i]、disparity_ref_view_id和/或disparity_ref_view_id,执行可视媒体数据和比特流之间的转换。当方法4200在编码器上执行时,转换包括将可视媒体数据编码成比特流。当方法4200在解码器上执行时,转换包括解码比特流以获得可视媒体数据。
应注意,方法4200可在用于处理视频数据的装置中实现,所述装置包括处理器和其上带有指令的非暂时性存储器,例如视频编码器4400、视频解码器4500和/或编码器4600。在这种情况下,由处理器执行的指令使得处理器执行方法4200。此外,方法4200可以由包括供视频编解码设备使用的计算机程序产品的非暂时性计算机可读介质来执行。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令,使得计算机可执行指令在由处理器执行时使得视频编解码设备执行方法4200。
图5是示出可利用本公开的技术的示例视频编解码系统4300的框图。视频编解码系统4300可以包括源设备4310和目标设备4320。源设备4310生成编码的视频数据,其可以被称为视频编码设备。目标设备4320可以解码由源设备4310生成的编码的视频数据,该目标设备4320可以被称为视频解码设备。
源设备4310可以包括视频源4312、视频编码器4314和输入/输出(I/O)接口4316。视频源4312可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器4314对来自视频源4312的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口4316包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口4316通过网络4330直接发送到目标设备4320。还可以将编码的视频数据存储到存储介质/服务器4340上,用于由目标设备4320存取。
目标设备4320可以包括I/O接口4326、视频解码器4324和显示设备4322。I/O接口4326可以包括接收器和/或调制解调器。I/O接口4326可以从源设备4310或存储介质/服务器4340获取编码的视频数据。视频解码器4324可以对编码的视频数据进行解码。显示设备4322可以向用户显示解码的视频数据。显示设备4322可以与目标设备4320集成,或可以在配置为与外置显示设备相接的目标设备4320外部。
视频编码器4314和视频解码器4324可以根据视频压缩标准(诸如,高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。
图6是示出视频编码器4400的示例的框图,该视频编码器4400可以是图5中示出的系统4300中的视频编码器4314。视频编码器4400可以被配置为执行本公开的任何或全部技术。视频编码器4400包括多个功能组件。本公开所描述的技术可以在视频编码器4400的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
视频编码器4400的功能组件可以包括分割单元4401、预测单元4402(其可以包括模式选择单元4403、运动估计单元4404、运动补偿单元4405、帧内预测单元4406)、残差生成单元4407、变换处理单元4408、量化单元4409、逆量化单元4410、逆变换单元4411、重建单元4412、缓冲器4413和熵编码单元4414。
在其他示例中,视频编码器4400可以包括更多、更少或不同的功能组件。在一个示例中,预测单元4402可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,诸如运动估计单元4404和运动补偿单元4405的一些组件可以被高度集成,但是出于解释的目的在视频编码器4400的示例中分开表示。
分割单元4401可以将图片分割成一个或多个视频块。视频编码器4400和视频解码器4500可以支持各种视频块尺寸。
模式选择单元4403可以例如基于错误结果选择帧内或帧间的编解码模式中的一个,并且将得到的帧内或帧间编解码块提供到残差生成单元4407来生成残差块数据而且提供到重建单元4412来重建编解码块以用作参考图片。在一些示例中,模式选择单元4403可以选择帧内和帧间预测的组合(CIIP)模式,其中预测是基于帧间预测信号和帧内预测信号。模式选择单元4403还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。
为了对当前视频块进行帧间预测,运动估计单元4404可以通过将来自缓冲器4413的一个或多个参考帧与当前视频块进行比较,生成当前视频块的运动信息。运动补偿单元4405可以基于来自缓冲器4413的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。
运动估计单元4404和运动补偿单元4405可以为当前视频块进行不同操作,例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元4404可以进行当前视频块的单向预测,并且运动估计单元4404可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元4404然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元4404可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元4405可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元4404可以进行当前视频块的双向预测,运动估计单元4404可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元4404然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元4404可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元4405可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元4404可以输出运动信息的全部集合,用于解码器的解码处理。在一些示例中,运动估计单元4404可以不输出当前视频的运动信息的全部集合。而是,运动估计单元4404可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元4404可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元4404可以在与当前视频块相关联的语法结构中指示:视频解码器4500指示当前视频块具有与另一个视频块相同的运动信息的值。
在另一个示例中,运动估计单元4404可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器4500可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器4400可以预测性地信令通知运动矢量。可以由视频编码器4400实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。
帧内预测单元4406可以对当前视频块进行帧内预测。当帧内预测单元4406对当前视频块进行帧内预测时,帧内预测单元4406可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元4407可以通过从当前视频块中减去当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块可能不存在当前视频块的残差数据,并且残差生成单元4407可以不进行减去操作。
变换处理单元4408可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换处理单元4408生成与当前视频块相关联的变换系数视频块之后,量化单元4409可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元4410和逆变换单元4411可以将逆量化和逆变换分别应用于变换系数视频块,来从变换系数视频块重建残差视频块。重建单元4412可以将重建的残差视频块添加到来自由预测单元4402生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重建视频块用于存储在缓冲器4413中。
在重建单元4412重建视频块之后,可以进行环路滤波操作以降低视频块中视频块化伪影。
熵编码单元4414可以从视频编码器4400的其他功能组件接收数据。当熵编码单元4414接收数据时,熵编码单元4414可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。
图7是示出视频解码器4500的示例的框图,该视频解码器4500可以是图5中示出的系统4300中的视频解码器4324。视频解码器4500可以被配置为进行本公开的任何或全部技术。在所示的示例中,视频解码器4500包括多个功能组件。本公开所描述的技术可以在视频解码器4500的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
在所示的示例中,视频解码器4500包括熵解码单元4501、运动补偿单元4502、帧内预测单元4503、逆量化单元4504、逆变换单元4505、重建单元4506和缓冲器4507。在一些示例中,视频解码器4500可以进行与关于视频编码器4400所描述的编码过程总体反演的解码过程。
熵解码单元4501可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如,视频数据的编解码块)。熵解码单元4501可以对熵编解码视频进行解码,并且根据熵解码视频数据,运动补偿单元4502可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元4502例如可以通过进行AMVP和merge模式来确定此类信息。
运动补偿单元4502可以产生运动补偿块,可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元4502可以使用由视频编码器4400在编码视频块的期间所使用的插值滤波器,来计算出参考块的子整数个像素的插值的值。运动补偿单元4502可以根据接收的语法信息确定由视频编码器4400所使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元4502可以使用一些语法信息来确定:用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸,描述编码视频序列的图片的每个宏块如何被分割的分割信息,指示如何编码每个分割的模式,每个帧间编码块的一个或多个参考帧(和参考帧列表),以及对编码视频序列进行解码的其他信息。
帧内预测单元4503可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元4504逆量化(即去量化)在比特流中提供的且由熵解码单元4501解码的量化的视频块系数。逆变换单元4505应用逆变换。
重建单元4506可以用由运动补偿单元4502或帧内预测单元4503生成的对应预测块求和残差块,以形成解码块。如所期望的,去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器4507中,该缓冲器4507提供用于随后的运动补偿/帧内预测的参考块,并且还产生用于在显示设备上呈现的解码视频。
图8是示例编码器4600的示意图。编码器4600适合于实现VVC技术。编码器4600包括三个环路滤波器,即去块滤波器(DF)4602、样点自适应偏移(SAO)4604和自适应环路滤波器(ALF)4606。与使用预定义滤波器的DF 4602不同,SAO 4604和ALF 4606利用当前图片的原始样点,通过分别添加偏移和应用有限脉冲响应(FIR)滤波器,利用编解码的辅助信息信令通知偏移和滤波器系数,来减小原始样点和重构样点之间的均方误差。ALF 4606位于每个图片的最后处理阶段,并且可以被视为试图捕捉和修复由先前阶段产生的伪影的工具。
编码器4600还包括帧内预测组件4608和运动估计/补偿(ME/MC)组件4610,配置为接收输入视频。帧内预测组件4608被配置成执行帧内预测,而ME/MC组件4610被配置成利用从参考图片缓冲器4612获得的参考图片来执行帧间预测。来自帧间预测或帧内预测的残差块被馈送到变换(T)组件4614和量化(Q)组件4616中,以生成量化的残差变换系数,这些系数被馈送到熵编解码组件4618中。熵编解码组件4618对预测结果和量化的变换系数进行熵编解码,并将其发送到视频解码器(未示出)。从量化组件4616输出的量化组件可以被馈送到逆量化(IQ)组件4620、逆变换组件4622和重构(REC)组件4624。REC组件4624能够将图像输出到DF 4602、SAO 4604和ALF 4606,以便在这些图片被存储在参考图片缓冲器4612中之前进行滤波。
下面提供了一些示例优选的解决方案的列表。
以下解决方案显示了本文讨论的技术的实例。
1.一种媒体数据处理方法(例如,图4中描述的方法4200),包括:根据规则执行视频和所述视频的比特流之间的转换,其中,所述规则规定一个或多个语法字段的值的范围,该一个或多个语法字段指示所述视频的注释区域中对应对象的标签的索引,其中所述范围在N到M之间,N和M是整数。
2.根据解决方案1所述的方法,其中,N=0,M=255。
3.根据解决方案1所述的方法,其中,N=0,M=3。
以下解决方案显示了上一章节中讨论的技术的示例实施例(例如,项目2)。
4.一种处理视频数据的方法,包括:根据规则执行视频和所述视频的比特流之间的转换,其中,所述规则规定用于编解码语法元素的编解码的类型,所述语法元素指示在所述视频中的对象的深度信息的分段非线性映射中使用的非线性片段的数量在所述比特流中被编解码。
5.根据解决方案1所述的方法,其中,所述规则规定所述语法元素被编解码为左位在先编解码的无符号整数0阶指数哥伦布编解码的语法元素。
6.根据解决方案1所述的方法,其中,所述规则规定所述语法元素是u(N’)编解码的,其中N’是正整数。
7.根据解决方案1所述的方法,其中,所述规则规定所述语法元素被编解码为左位在先的有符号整数0阶指数哥伦布编解码的语法元素。
8.根据解决方案1-4所述的方法,其中,所述规则规定所述语法元素的值被约束在N到M内,其中N和M是整数。
9.根据解决方案5所述的方法,其中,N=0,M=65535。
10.根据解决方案2所述的方法,其中,N=0,M=3。
以下解决方案显示了上一章节中讨论的技术的示例实施例(例如,项目3)。
11.一种处理视频数据的方法,包括:根据规则执行视频和所述视频的比特流之间的转换,其中,所述规则规定对表示所述视频中的一个或多个对象的深度信息的补充增强信息语法结构中的语法元素的约束。
12.根据解决方案11所述的方法,其中,所述语法元素包括深度表示类型,并且其中,所述规则规定所述语法元素的值被约束在N到M的范围内,其中N和M是整数。
13.根据解决方案11所述的方法,其中,所述语法元素指示深度信息的非线性映射模型的数量,并且其中,所述规则规定所述语法元素在0到M的范围内,其中M是整数。
14.根据解决方案11所述的方法,其中,所述语法元素指示视差参考视图的标识符,并且其中,所述规则规定所述语法元素的值在0到M之间,其中M是整数。
以下解决方案显示了上一章节中讨论的技术的示例实施例(例如,项目4)。
15.一种处理视频数据的方法,包括:根据规则执行视频和所述视频的比特流之间的转换,其中,所述规则规定:指示作为扩展的依赖随机访问点的图片的标志的值,控制(1)对与所述图片在相同层中并且解码顺序和输出顺序在所述图片之后的图片的一阶约束,以及(2)对与所述图片在相同层中并且解码顺序在所述图片之后并且输出顺序在所述图片之前的图片的二阶约束。
16.根据解决方案15所述的方法,其中,所述值等于1。
17.根据解决方案1-16中任一项所述的方法,其中,所述转换包括从所述视频生成所述比特流。
18.根据解决方案1-16中任一项所述的方法,其中,所述转换包括从所述比特流生成所述视频。
19.一种视频解码装置,包括处理器,被配置为实现解决方案1至18中的一个或多个解决方案中的方法。
20.一种视频编码装置,包括处理器,被配置为实现解决方案1至18中的一个或多个解决方案中的方法。
21.一种其上存储有计算机代码的计算机程序产品,所述计算机代码在由处理器执行时,使处理器实现解决方案1至18中任一项所述的方法。
22.一种视频处理方法,包括根据解决方案1-8中任一项或多项所述的方法生成比特流,并将所述比特流存储在计算机可读介质上。
23.本文档中描述的方法、装置或系统。
在本文件中,术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如,视频压缩算法可以在从视频的像素表示转换为对应的比特流表示期间应用,反之亦然。例如,如语法所定义的,当前视频块的比特流表示可以对应于在比特流内共位的或分布在不同位置的比特。例如,宏块可以根据变换和编解码的误差残差值进行编码,并且还可以在比特流中的标头和其他字段中使用比特。此外,在转换期间,解码器可以基于该确定,在知道一些字段可能存在或不存在的情况下解析比特流,如以上解决方案中所述。类似地,编码器可确定包括或不包括某些语法字段,并通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。
本文件中描述的公开和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路、或计算机软件、固件或硬件中实现,包括本文件中所公开的结构及其结构等效体,或其中一个或多个的组合。公开的内容和其他实施例可以实施为一个或多个计算机程序产品,即一个或多个编码在有形的且非易失的计算机可读介质上的计算机程序指令的模块,以供数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质组成或其中一个或其中多个的组合。术语“数据处理单元”或“数据处理装置”包括用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多处理器或计算机组。除硬件外,该装置还可以包括为计算机程序创建执行环境的代码,例如,构成处理器固件的代码、协议栈、数据库管理系统、操作系统或其中一个或多个的组合。传播的信号是人为生成的信号,例如,机器生成的电、光或电磁信号,其被生成以编码信息以传输到合适的接收器设备。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译语言或解释语言)编写,并且可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。计算机程序不一定与文件系统中的文件对应。程序可以存储在保存其他程序或数据的文件的部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于该程序的单个文件中、或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署在一台或多台计算机上来执行,这些计算机位于一个站点上或分布在多个站点上,并通过通信网络互连。
本文件中描述的处理和逻辑流可以通过一个或多个可编程处理器执行,该处理器执行一个或多个计算机程序,通过在输入数据上操作并生成输出来执行功能。处理和逻辑流也可以通过特殊用途的逻辑电路来执行,并且装置也可以实现为特殊用途的逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
例如,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型数字计算机的任何一个或多个。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本组件是执行指令的处理器和存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备,例如,磁盘、磁光盘或光盘,或者可操作地耦合以从大容量存储设备接收数据或者将数据传输到大容量存储设备,或者以上两者。然而,计算机不一定具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;和光盘只读存储器(CD ROM)和数字多功能光盘只读存储器(DVD-ROM)盘。处理器和存储器可以由专用逻辑电路补充,或者合并在专用逻辑电路中。
虽然本专利文件包含许多细节,但不应将其解释为对任何发明或权利要求范围的限制,而应解释为对特定发明的特定实施例的特征的描述。本专利文件在单独实施例的上下文描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种功能也可以在多个实施例中单独实施,或在任何合适的子组合中实施。此外,尽管上述特征可以描述为在某些组合中起作用,甚至最初要求是这样,但在某些情况下,可以从组合中移除权利要求组合中的一个或多个特征,并且权利要求的组合可以指向子组合或子组合的变体。
同样,尽管附图中以特定顺序描述了操作,但这不应理解为要获得想要的结果必须按照所示的特定顺序或顺序执行此类操作,或执行所有说明的操作。此外,本专利文件实施例中各种系统组件的分离不应理解为在所有实施例中都需要这样的分离。
仅描述了一些实现和示例,其他实现、增强和变体可以基于本专利文件中描述和说明的内容做出。
当除了第一组件和第二组件之间的线、迹线或另一种介质之外,不存在中间组件时,第一组件直接耦合至第二组件。当在第一组件和第二组件之间存在除了线、迹线或另一种介质之外的中间组件时,第一组件间接耦合到第二组件。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明,术语“约”的使用意味着包括数值的上下10%的范围。
虽然本公开中提供了若干实施例,但应理解,在不脱离本公开的精神或范围的情况下,所公开的系统和方法可体现为许多其他特定形式。当前的示例被认为是说明性的而非限制性的,并且不限于其给出的细节。例如,各种元件或组件可以组合或集成在另一个系统中,或者可以省略或不实现某些特征。
此外,在不脱离本公开的范围的情况下,各种实施例中描述和说明的离散或单独的技术、系统、子系统和方法可与其他系统、模块、技术或方法组合或集成。被示出或讨论为耦合的其他项目可以直接连接,或者可以通过一些接口、设备或中间组件以电、机械或其他方式间接耦合或通信。本领域的技术人员可以在不脱离这里公开的精神和范围的情况下确定改变、替换和变更的其他示例。

Claims (22)

1.一种用于处理视频数据的方法,包括:
确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值被规定在N到M的范围内,其中,N和M是整数,并且N小于M;以及
基于所述ar_object_label_idx[ar_object_idx[i]]语法元素执行可视媒体数据和比特流之间的转换。
2.根据权利要求1所述的方法,其中,N为0,M为3、7、15、31、63或255。
3.根据权利要求1-2中任一项所述的方法,其中,所述N到M的范围包括端值。
4.根据权利要求1-3中任一项所述的方法,还包括确定深度表示类型(depth_representation_type)语法元素的值被规定在A到B的范围内,其中,A和B是整数,并且A小于B。
5.根据权利要求1-4中任一项所述的方法,其中,A为0,B为3、7、15、31、63、127或255。
6.根据权利要求1-5中任一项所述的方法,其中,所述A到B的范围包括端值。
7.根据权利要求1-6中任一项所述的方法,还包括确定第i个深度非线性表示模型(depth_nonlinear_representation_model[i])语法元素的值被规定在C到D的范围内,其中,C和D是整数,并且C小于D。
8.根据权利要求1-7中任一项所述的方法,其中,C为0,D为6、14、30、62、126或254。
9.根据权利要求1-8中任一项所述的方法,其中,所述C到D的范围包括端值。
10.根据权利要求1-9中任一项所述的方法,还包括确定视差参考视图标识符(disparity_ref_view_id)语法元素的值被规定在E到F的范围内,其中,E和F是整数,并且E小于F。
11.根据权利要求1-10中任一项所述的方法,其中,E为0,F为63、127、255、511、1023、2047、4095、8191、16383、32767或65535。
12.根据权利要求1-11中任一项所述的方法,其中,所述E到F的范围包括端值。
13.根据权利要求1-12中任一项所述的方法,其中,所述ar_object_label_idx[ar_object_idx[i]]语法元素被包括在注释区域(AR)补充增强信息(SEI)消息中。
14.根据权利要求1-13中任一项所述的方法,其中,所述depth_representation_type语法元素被包括在深度表示信息(DRI)SEI消息中。
15.根据权利要求1-14中任一项所述的方法,其中,所述depth_nonlinear_representation_model[i]语法元素被包括在所述DRI SEI消息中。
16.根据权利要求1-15中任一项所述的方法,其中,所述disparity_ref_view_id语法元素被包括在所述DRI SEI消息中。
17.根据权利要求1-16中任一项所述的方法,其中,所述转换包括将所述可视媒体数据编码成所述比特流。
18.根据权利要求1-17中任一项所述的方法,其中,所述转换包括解码所述比特流以获得所述可视媒体数据。
19.一种用于处理视频数据的装置,包括:处理器;以及其上具有指令的非暂时性存储器,其中,所述指令在由所述处理器执行时使得所述处理器执行权利要求1-18中任一项所述的方法。
20.一种非暂时性计算机可读介质,包含供视频编解码设备使用的计算机程序产品,所述计算机程序产品包含存储在所述非暂时性计算机可读介质上的计算机可执行指令,使得所述计算机可执行指令在由处理器执行时使所述视频编解码设备执行权利要求1到18中任一项所述的方法。
21.一种存储有视频的比特流的非暂时性计算机可读记录介质,所述视频的比特流由视频处理装置执行的方法生成,其中,所述方法包括:
确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值,所述ar_object_label_idx[ar_object_idx[i]]语法元素被规定在N到M的范围内,其中,N和M是整数,并且N小于M;以及
基于所述确定生成比特流。
22.一种用于存储视频的比特流的方法,包括:
确定第i个AR对象索引(ar_object_label_idx[ar_object_idx[i]])语法元素的注释区域(AR)对象标签索引的值,所述ar_object_label_idx[ar_object_idx[i]]语法元素被规定在N到M的范围内,其中,N和M是整数,并且N小于M;
基于所述确定生成比特流;以及
将所述比特流存储在非暂时性计算机可读记录介质中。
CN202280046499.2A 2021-06-28 2022-06-27 补充增强信息的增强信令通知 Pending CN117730534A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/102636 2021-06-28
CN2021102636 2021-06-28
PCT/CN2022/101411 WO2023274111A1 (en) 2021-06-28 2022-06-27 Enhanced signaling of supplemental enhancement information

Publications (1)

Publication Number Publication Date
CN117730534A true CN117730534A (zh) 2024-03-19

Family

ID=84691254

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202280046523.2A Pending CN117769837A (zh) 2021-06-28 2022-06-27 深度表示信息补充增强信息的增强信令通知
CN202280046499.2A Pending CN117730534A (zh) 2021-06-28 2022-06-27 补充增强信息的增强信令通知
CN202280046555.2A Pending CN117917075A (zh) 2021-06-28 2022-06-27 扩展依赖随机访问点补充增强信息的增强信令通知

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202280046523.2A Pending CN117769837A (zh) 2021-06-28 2022-06-27 深度表示信息补充增强信息的增强信令通知

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202280046555.2A Pending CN117917075A (zh) 2021-06-28 2022-06-27 扩展依赖随机访问点补充增强信息的增强信令通知

Country Status (5)

Country Link
US (3) US20240129536A1 (zh)
EP (3) EP4344477A4 (zh)
KR (3) KR20240024826A (zh)
CN (3) CN117769837A (zh)
WO (3) WO2023274111A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9426462B2 (en) * 2012-09-21 2016-08-23 Qualcomm Incorporated Indication and activation of parameter sets for video coding
US9521393B2 (en) * 2013-01-07 2016-12-13 Qualcomm Incorporated Non-nested SEI messages in video coding
WO2015104451A1 (en) * 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding
WO2015115946A1 (en) * 2014-01-30 2015-08-06 Telefonaktiebolaget L M Ericsson (Publ) Methods for encoding and decoding three-dimensional video content
US10542288B2 (en) * 2014-06-18 2020-01-21 Telefonaktiebolaget Lm Ericsson (Publ) Random access in a video bitstream
US10951903B2 (en) * 2018-04-02 2021-03-16 Intel Corporation Video analytics encoding for improved efficiency of video processing and compression
MX2021012094A (es) * 2019-04-03 2021-11-03 Huawei Tech Co Ltd Un codificador, un decodificador y metodos correspondientes.
CN110519602B (zh) * 2019-08-05 2022-07-05 北京轩宇空间科技有限公司 用于数据流传输的方法及装置
DE112020004716T5 (de) * 2019-10-01 2022-08-04 Intel Corporation Objektbasierte volumetrische videocodierung

Also Published As

Publication number Publication date
KR20240026923A (ko) 2024-02-29
EP4344477A4 (en) 2024-05-22
US20240137526A1 (en) 2024-04-25
WO2023274129A1 (en) 2023-01-05
EP4344478A4 (en) 2024-05-22
WO2023274111A1 (en) 2023-01-05
CN117769837A (zh) 2024-03-26
EP4344476A4 (en) 2024-05-15
CN117917075A (zh) 2024-04-19
EP4344477A1 (en) 2024-04-03
EP4344478A1 (en) 2024-04-03
US20240129536A1 (en) 2024-04-18
KR20240024826A (ko) 2024-02-26
US20240129488A1 (en) 2024-04-18
WO2023274112A1 (en) 2023-01-05
EP4344476A1 (en) 2024-04-03
KR20240024827A (ko) 2024-02-26

Similar Documents

Publication Publication Date Title
CN112956190B (zh) 仿射运动预测
KR101669524B1 (ko) 비디오 코딩을 위한 방법 및 장치
CN114009051A (zh) 用于v-pcc的假设参考解码器
CN115299062A (zh) 图片标头中的语法元素的条件信令
CN117528093A (zh) 视频编解码中的档次-层-级别参数集
CN116530083A (zh) 视频比特流中的嵌套的和非嵌套的sei消息
CN114205626B (zh) 视频操作点记录语法和语义
CN116671101A (zh) 编解码视频中量化信息的信令通知
CN113243110A (zh) 视频译码中的显式地址指示
KR20230165252A (ko) 추가 향상 정보 메시지 제약
CN117296321A (zh) 使用可缩放性维度信息
US20240137526A1 (en) Enhanced signaling of supplemental enhancement information
US20230362415A1 (en) Signaling of Preselection Information in Media Files Based on a Movie-level Track Group Information Box
CN116508322A (zh) Vvc视频编解码中的解码器配置信息
CN117751573A (zh) 视频比特流的下采样信息的信令通知

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination