CN116508322A

CN116508322A - Vvc视频编解码中的解码器配置信息

Info

Publication number: CN116508322A
Application number: CN202180073375.9A
Authority: CN
Inventors: 王业奎; 张莉; 尹海斌; 黎凌宇
Original assignee: Douyin Vision Co Ltd; ByteDance Inc
Current assignee: Douyin Vision Co Ltd; ByteDance Inc
Priority date: 2020-10-26
Filing date: 2021-10-26
Publication date: 2023-07-28
Also published as: KR20230091114A; EP4218245A1; CN116547971A; WO2022089397A1; WO2022089396A1; EP4218244A1; JP2023546253A; KR20230093448A; JP2023546252A; US20230262239A1; EP4218244A4; US20230269384A1; EP4218245A4

Abstract

公开了一种处理视频数据的机制。执行视觉媒体数据和视觉媒体数据文件之间的转换。视觉媒体数据文件包括多功能视频编解码(VVC)解码器配置记录和编解码到一个或多个子层中的多个图片，其中VVC解码器配置记录包括一个或多个子层的数量和基于一个或多个子层的数量的一个或多个子层的一个或多个VVC档次层次级别(PTL)记录。

Description

VVC视频编解码中的解码器配置信息

相关申请的交叉引用

本专利申请要求Ye-Kui Wang等人于2020年10月26日提交的以及名称为“VVC视频文件中解码器配置信息和‘滚动’样点组的信令通知(Signalling of DecoderConfiguration Information and the‘Roll’Sample Group in VVC Video Files)”的国际申请No.PCT/CN2020/123540的权益，该国际申请通过引用并入本文。

技术领域

本专利文档涉及文件格式的数字音频视频媒体信息的生成、存储和消耗。

背景技术

数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加，数字视频使用的带宽需求可能继续增长。

发明内容

第一方面涉及一种用于处理视频数据的方法，包括：执行视觉媒体数据和视觉媒体数据文件之间的转换，视觉媒体数据文件包括多功能视频编解码(VVC)解码器配置记录和编解码到一个或多个子层中的多个图片，其中VVC解码器配置记录包括一个或多个子层的数量和基于一个或多个子层的数量的一个或多个子层的一个或多个VVC档次层次级别(PTL)记录。

可选地，在前述任一方面中，该方面的另一实现方式规定，所述转换包括：接收包括多功能视频编解码(VVC)解码器配置记录和编解码到一个或多个子层中的多个图片的媒体文件；解析VVC解码器配置记录，以获得一个或多个子层的数量以及基于一个或多个子层的数量的一个或多个子层的一个或多个VVC PTL记录；和基于VVC·PTL记录解码一个或多个子层。

可选地，在前述任一方面中，该方面的另一实现方式规定，所述转换包括：将多个图片编码到视觉媒体文件中的一个或多个子层中；确定一个或多个子层的数量；将VVC解码器配置记录编码到媒体文件中，VVC解码器配置包括一个或多个子层的数量和一个或多个子层的一个或多个VVC PTL记录；和将视觉媒体文件存储在存储器中。

可选地，在前述任一方面中，该方面的另一实现方式规定，在VVC PTL记录之前，在VVC解码器配置记录中信令通知一个或多个子层的数量。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素，并且其中VVCPTL记录位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之后。

可选地，在前述任一方面中，该方面的另一实现方式规定，一个或多个子层的数量位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之前。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录还包括位于位深度减八语法元素之后的保留位，并且其中VVC PTL记录位于保留位之后。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录还包括位于VVC PTL记录之后的保留位。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新(GDR)图片使能标志、清洁随机访问(CRA)图片使能标志、参考图片重新采样使能标志、具有编解码层视频序列(CLVS)的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理(WPP)使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。

可选地，在前述任一方面中，该方面的另一实现方式规定，当VVC解码器配置记录包括VVC PTL记录时，VVC解码器配置记录还包括以下中的一个或多个：解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数。

可选地，在前述任一方面中，该方面的另一实现方式规定，在VVC解码器配置记录中，位于VVC PTL记录之后的所有语法元素都需要字节对齐。

第二方面涉及一种用于处理视频数据的装置，包括处理器和其上具有指令的非暂时性存储器，其中指令在由处理器执行时使处理器：执行视觉媒体数据和视觉媒体数据文件之间的转换，视觉媒体数据文件包括多功能视频编解码(VVC)解码器配置记录和编解码到一个或多个子层中的多个图片，其中VVC解码器配置记录包括一个或多个子层的数量和基于一个或多个子层的数量的一个或多个子层的一个或多个VVC档次层次级别(PTL)记录。

可选地，在前述任一方面中，该方面的另一实现方式规定，所述转换包括：接收包括VVC解码器配置记录和编解码到一个或多个子层中的多个图片的媒体文件；解析VVC解码器配置记录，以获得一个或多个子层的数量以及基于一个或多个子层的数量的一个或多个子层的一个或多个VVC PTL记录；和基于VVC·PTL记录解码一个或多个子层。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录还包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素，并且其中VVCPTL记录位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之后。

可选地，在前述任一方面中，该方面的另一实现方式规定，VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。

第三方面涉及一种非暂时性计算机可读介质，包含供视频编解码设备使用的计算机程序产品，计算机程序产品包含存储在非暂时性计算机可读介质上的计算机可执行指令，使得计算机可执行指令在由处理器执行时使视频编解码设备执行前述方面中任一项的方法。

为清晰起见，任何一个前述实施例可与任何一个或多个其他前述实施例组合，以在本公开的范围内形成新的实施例。

从以下结合附图和权利要求的详细说明中，可更清楚地理解这些和其他特征。

附图说明

为了更全面地理解本公开内容，现结合附图和详细说明参考以下简要说明，其中相同的参考标号代表相同的部件。

图1是包含视频数据的多功能视频编解码(VVC)比特流的示例媒体文件的示意图。

图2是编码VVC解码器配置记录的示例方法的流程图。

图3是解码VVC解码器配置记录的示例方法的流程图。

图4是显示示例视频处理系统的框图。

图5是示例视频处理装置的框图。

图6是视频处理的示例方法的流程图。

图7是图示示例视频编解码系统的框图。

图8是图示示例编码器的框图。

图9是图示示例解码器的框图。

图10是示例编码器的示意图。

具体实施方式

首先应理解，尽管下文提供了一个或多个实施例的说明性实现方式，但可使用任何数量的技术实现所公开的系统和/或方法，无论是当前已知的还是待开发的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术，包括在此示出和描述的示例性设计和实现方式，而是可以在所附权利要求及其等同物的全部范围内进行修改。

VVC，也称为H.266，在某些描述中使用术语仅是为了便于理解，而不是为了限制所公开技术的范围。因此，本文描述的技术也适用于其他视频编解码器协议和设计。在本文档中，相对于VVC规范或国际标准化组织(ISO)基本媒体文件格式(ISOBMFF)文件格式规范的当前草案，文本的编辑更改通过删除线表示取消的文本和斜体表示添加的文本。

上述方面的示例实现方式描述如下。

本文档涉及视频文件格式。具体而言，本文档涉及基于ISO基本媒体文件格式(ISOBMFF)携带多功能视频编解码(VVC)视频比特流的媒体文件中的解码器配置信息和“滚动”样点组的信令通知。对于由任何编解码器(例如，VVC标准)编解码的视频比特流，以及对于任何视频文件格式(例如，正在开发的VVC视频文件格式)，这些思想可以被单独或以各种组合应用。

自适应颜色变换(ACT)、自适应环路滤波器(ALF)、自适应运动矢量分辨率(AMVR)、自适应参数集(APS)、访问单元(AU)、访问单元定界符(AUD)、高级视频编解码(Rec.ITU-TH.264|ISO/IEC 14496-10)(AVC)、双向预测(B)、具有CU级别权重的双向预测(BCW)、双向光流(BDOF)、基于块的增量脉冲编解码调制(BDPCM)、缓冲期(BP)、基于上下文的自适应二元算术编解码(CABAC)、编解码块(CB)、恒定比特率(CBR)、跨分量自适应环路滤波器(CCALF)、编解码层视频流(CLVS)、编解码图片缓冲器(CPB)、清洁随机访问(CRA)、循环冗余校验(CRC)、编解码树块(CTB)、编解码树单元(CTU)、解码能力信息(DCI)、依赖随机访问点(DRAP)、解码单元(DU)、解码单元信息(DUI)、指数Golomb(EG)、k阶指数Golomb(EGk)、比特流结束(EOB)、序列结束(EOS)、填充符数据(FD)、先进先出(FIFO)、固定长度(FL)、绿色、蓝色和红色(GBR)、通用约束信息(GCI)、逐步解码刷新(GDR)、几何分割模式(GPM)、高效视频编解码(也称为Rec.ITU-T H.265|ISO/IEC 23008-2)(HEVC)、假设参考解码器(HRD)、假设流调度器(HSS)、帧内(I)、帧内块复制(IBC)、即时解码刷新(IDR)、层间参考图片(ILRP)、帧内随机访问点(IRAP)、低频不可分变换(LFNST)、最小可能符号(LPS)、最低有效位(LSB)、长期参考图片(LTRP)、具有色度缩放的亮度映射(LMCS)、基于矩阵的帧内预测(MIP)、最可能符号(MPS)、最高有效位(MSB)、多重变换选择(MTS)、运动矢量预测(MVP)、网络抽象层(NAL)、输出层集(OLS)、操作点(OP)、操作点信息(OPI)、预测(P)、图片标头(PH)、图片顺序计数(POC)、图片参数集(PPS)、利用光流的预测细化(PROF)、图片时序(PT)、图片单元(PU)、量化参数(QP)、随机访问可解码前导图片(RADL)、随机访问跳过前导图片(RASL)、原始字节序列有效负载(RBSP)、红色、绿色和蓝色(RGB)、参考图片列表(RPL)、样点自适应偏移(SAO)、样点纵横比(SAR)、补充增强信息(SEI)、条带标头(SH)、子图片级别信息(SLI)、数据位串(SODB)、序列参数集(SPS)、短期参考图片(STRP)、逐步时间子层访问(STSA)、截断莱斯(TR)、可变比特率(VBR)、视频编解码层(VCL)、视频参数集(VPS)、多功能补充增强信息(也称为Rec.ITU-T H.274|ISO/IEC 23002-7)(VSEI)、视频可用性信息(VUI)、多功能视频编解码(也称为Rec.ITU-TH.266|ISO/IEC 23090-3)(VVC)、以及波前并行处理(WPP)。

视频编解码标准主要是通过ITU-T和ISO/IEC标准的发展而得以演进。ITU-T制作了H.261和H.263标准，ISO/IEC制作了MPEG-1和MPEG-4Visual标准，并且两个组织联合制作了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编解码(AVC)标准和H.265/HEVC标准。从H.262开始，视频编解码标准基于混合视频编解码结构，其中利用时间预测加变换编解码。为了探索HEVC之外的进一步视频编解码技术，由视频编解码专家组(VCEG)和MPEG联合成立联合视频探索团队(JVET)。JVET采用了许多方法并将其纳入名为联合探索模型(JEM)的参考软件。当多功能视频编解码(VVC)项目正式启动时，JVET后来更名为联合视频专家团队(JVET)。VVC是编解码标准，目标是与HEVC相比降低50％比特率。VVC已由JVET最终确定。

多功能视频编解码(VVC)标准(ITU-TH.266|ISO/IEC23090-3)和相关的多功能补充增强信息(VSEI)标准(ITU-TH.274|ISO/IEC23002-7)设计用于广泛的应用，包括如电视广播、视频会议或存储介质回放等用途，以及更高级的使用情况，如自适应比特率流、视频区域提取、复合和merging来自多个编解码视频比特流的内容、多视图视频、可缩放分层编解码和视口自适应360°沉浸式媒体。

媒体流应用通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输方法，并且通常依赖于ISO基本媒体文件格式(ISOBMFF)等文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流式传输(DASH)。为了使用具有ISOBMFF和DASH的视频格式，特定于该视频格式的文件格式规范，例如AVC文件格式和HEVC文件格式，将被用于将视频内容封装在ISOBMFF轨道以及DASH表示和片段中。关于视频比特流的信息，例如档次、层次和级别以及许多其他信息，将被展示为文件格式级别元数据和/或DASH媒体呈现描述(MPD)，用于内容选择目的，例如，用于选择适当的媒体片段，既用于在流式会话开始时的初始化，也用于流式会话期间的流自适应。

类似地，为了使用具有ISOBMFF的图像格式，将采用特定于图像格式的文件格式规范，例如AVC图像文件格式和HEVC图像文件格式。MPEG正在开发VVC视频文件格式，这是基于ISOBMFF的用于存储VVC视频内容的文件格式。MPEG正在开发基于ISOBMFF的VVC图像文件格式，该文件格式用于存储使用VVC编解码的图像内容。

以下是基于VVC图像文件格式和MPEG的一些VVC文件格式特征的设计。该子条款规定了ISO/IEC 23090-3视频内容的解码器配置信息。该记录包含每个样点中使用的长度字段的尺寸，以指示其包含的NAL单元以及参数集、DCI、OPI和SEI NAL单元(如果存储在样点条目中)的长度。该记录是外部框架(其尺寸由包含它的结构提供)。此记录包含版本字段。该版本的规范定义了该记录的版本1。版本号的变化表明对记录的不兼容更改。如果版本号无法识别，读写器不应试图解码此记录或其适用的流。对该记录的兼容扩展扩展了它，并且不改变配置版本代码。读写器应该准备好忽略超出他们理解的数据定义的无法识别的数据。

当轨道(track)本身包含VVC比特流或通过解析“subp”轨道参考时，VVC档次层次级别记录(VvcPTLRecord)应存在于解码器配置记录中，并且在这种情况下，VVC比特流的特定输出层集由字段output_layer_set_idx指示。如果在轨道的解码器配置记录中ptl_present_flag等于零，那么该轨道将具有对ID的“oref”轨道参考，该ID可以指VVC轨道或“opeg”实体组。VvcPTLRecord、色度格式标识码(chroma_format_idc)和位深度减八格式(bit_depth_minus8)的语法元素的值对于解码该记录描述的流时参考的所有参数集(在本段的以下句子中称为“所有参数集”)都是有效的。具体而言，以下限制可能适用：

档次指示通用档次标识码(general_profile_idc)应指示该配置记录中由输出层集索引(output_layer_set_idx)标识的输出层集所符合的档次。如果在该配置记录中为由output_layer_set_idx标识的输出层集的不同CVS标记了不同的档次，则流可能需要检查以确定整个流符合哪个档次(如果有的话)。如果整个流没有被检查，或者检查显示没有整个流符合的档次，则整个流将被分成两个或更多个子流，这些子流具有可以满足这些规则的单独的配置记录。层次指示general_tier_flag应指示等于或大于所有profile_tier_level()语法结构(在所有参数集中)中指示的最高层次的层次，该配置记录中由output_layer_set_idx标识的输出层集符合该最高层次。

只有在该配置记录中由output_layer_set_idx标识的输出层集所符合的所有profile_tier_level()语法结构(在所有参数集中)的所有general_constraints_info()语法结构中设置了位，才能设置general_constraint_info中的每一位。级别指示general_level_idc应指示等于或大于该配置记录中由output_layer_set_idx标识的输出层集所符合的所有profile_tier_level()语法结构(在所有参数集中)中的最高级别的能力级别。

以下约束适用于色度格式标识码(chroma_format_idc)。如果配置记录所应用的VVC流是单层比特流，则在ISO/IEC 23090-3中定义的sps_chroma_format_idc的值在当前样点条目描述所应用的样点中由VCL NAL单元参考的所有SPS中应该是相同的，并且chroma_format_idc的值应该等于sps_chroma_format_idc的值。否则(配置记录所应用的VVC流是多层比特流)，vps_ols_dpb_chroma_format[MultiLayerOlsIdx[output_layer_set_idx]]的值对于当前样点条目描述所应用的所有CVS应该是相同的，并且chroma_format_idc的值应该等于vps_ols_dpb_chroma_format[MultiLayerOlsIdx[output_layer_set_idx]]的值。

以下约束适用于bit_depth_minus8。如果配置记录所应用的VVC流是单层比特流，则sps_bitdepth_minus8的值应该在当前样点条目描述所应用的样点中的VCL NAL单元所参考的所有SPS中是相同的，并且bit_depth_minus8的值应该等于sps_bitdepth_minus8的值。否则(配置记录所应用的VVC流是多层比特流)，vps_ols_dpb_bitdepth_minus8[MultiLayerOlsIdx[output_layer_set_idx]]的值对于当前样点条目描述所应用的所有CVS应该是相同的，并且bit_depth_minus8的值应该等于vps_ols_dpb_bitdepth_minus8[MultiLayerOlsIdx[output_layer_set_idx]]的值。

以下约束适用于picture_width。如果配置记录所应用的VVC流是单层比特流，则ISO/IEC 23090-3中定义的sps_pic_width_max_in_luma_samples的值在当前样点条目描述所应用的样点中由VCL NAL单元参考的所有SPS中应该是相同的，并且picture_width的值应该等于sps_pic_width_max_in_luma_samples的值。否则(配置记录所应用的VVC流是多层比特流)，vps_ols_dpb_pic_width[MultiLayerOlsIdx[output_layer_set_idx]]的值对于当前样点条目描述所应用的所有CVS应该是相同的，并且pic_width的值应该等于vps_ols_dpb_pic_width[MultiLayerOlsIdx[output_layer_set_idx]]的值。

以下约束适用于picture_height。如果配置记录所应用的VVC流是单层比特流，则sps_pic_height_max_in_luma_samples的值在当前样点条目描述所应用的样点中由VCLNAL单元参考的所有SPS中应该是相同的，并且picture_height的值应该等于sps_pic_height_max_in_luma_samples的值。否则(配置记录所应用的VVC流是多层比特流)，vps_ols_dpb_pic_height[MultiLayerOlsIdx[output_layer_set_idx]]的值对于当前样点条目描述所应用的所有CVS应该是相同的，并且pic_height的值应该等于vps_ols_dpb_pic_height[MultiLayerOlsIdx[output_layer_set_idx]]的值。

在VVC解码器配置记录中提供了关于VVC视频基本流使用的色度格式和位深度以及其他格式信息的明确指示。如果两个序列在其VUI信息中的颜色空间或位深度指示不同，那么也采用两个不同的VVC样点条目。

有一组数组来携带初始化非VCL NAL单元。NAL单元类型仅限于表示DCI、OPI、VPS、SPS、PPS、前缀APS和前缀SEI NAL单元。保留的NAL单元类型可能会获得进一步的定义，并且读写器应该忽略具有保留或不允许的NAL单元类型值的数组。这种宽容的行为被设计成不会引发错误，允许在进一步的规范中向后兼容扩展这些数组的可能性。样点条目中携带的NAL单元紧跟在AUD和OPI NAL单元(如果有的话)之后，或以其他方式包含在从参考样点条目的第一个样点重构的访问单元的开头。

建议数组按DCI、OPI、VPS、SPS、PPS、前缀APS、前缀SEI的顺序排列。

VVCPTLRecord和VvcDecoderConfigurationRecord的示例语法如下：

上述语法元素的语义示例如下。

num_bytes_constraint_info用于规定general_constraint_info字段的长度。general_constraint_info字段的长度为num_bytes_constraint_info*8-2位。该值应大于0。该值等于1指示由general_constraint_info字段表示的general_constraint_info()语法结构中的gci_present_flag等于0。

general_profile_idc、general_tier_flag、general_level_idc、ptl_frame_only_constraint_flag、ptl_multilayer_enabled_flag、general_constraint_info、sublayer_level_present[j]、sublayer_level_idc[i]、num_sub_profiles和general_sub_profile_idc[j]包含字段或语法结构general_profile_idc的匹配值，general_tier_flag、general_level_idc、ptl_frame_only_constraint_flag、ptl_multilayer_enabled_flag、general_constraint_info()、ptl_sublayer_level_present[i]、sublayer_level_idc[i]、ptl_num_sub_profiles和general_sub_profile_idc[j]表示此配置记录应用的流。

lengthSizeMinusOne加1表示该配置记录所应用的流中VVC视频流样点中的NALUnitLength字段的字节长度。例如，一个字节的尺寸用值0表示。该字段的值应为0、1或3之一，分别对应于用1、2或4字节编解码的长度。

ptl_present_flag等于1规定轨道包含与由output_layer_set_idx和numTemporalLayers规定的操作点相对应的VVC比特流，并且轨道中的所有NAL单元属于该操作点。ptl_present_flag等于0规定轨道可以不包含对应于特定操作点的VVC比特流，而是可以包含对应于多个输出层集的VVC比特流，或者可以包含不形成输出层集的一个或多个单独的层或者除了具有等于0的TemporalId的子层之外的单独的子层。

track_ptl规定由包含在轨道中的VVC比特流表示的输出层集的档次、层次和级别。

output_layer_set_idx规定由包含在轨道中的VVC比特流表示的输出层集的输出层集索引。output_layer_set_idx的值可以用作由外部装置或OPI NAL单元提供给VVC解码器的TargetOlsIdx变量的值，用于解码包含在轨道中的比特流。

avgFrameRate给出了以帧/(256秒)为单位的平均帧速率，用于该配置记录所应用的流。值0表示未规定的平均帧速率。当轨道包含多个层并且为由output_layer_set_idx和numTemporalLayers规定的操作点重构样点时，这给出了操作点的比特流的平均访问单元速率。

constantFrameRate等于1表示该配置记录所应用的流具有恒定的帧速率。值2指示流中每个时域层的表示具有恒定的帧速率。值0表示该流可能具有也可能不具有恒定的帧速率。当轨道包含多个层并且为由output_layer_set_idx和numTemporalLayers规定的操作点重构样点时，这给出了操作点的比特流是否具有恒定访问单元速率的指示。

numTemporalLayers大于1表示该配置记录所应用的轨道在时间上可缩放，并且所包含的时域层(也称为时间子层或子层)的数量等于numTemporalLayers。值1表示该配置记录所应用的轨道在时间上不可缩放。值0指示未知该配置记录所应用的轨道是否在时间上可缩放。

chroma_format_id指示应用于该轨道的色度格式。

picture_width表示应用于该轨道的最大图片宽度，以亮度样点为单位。

picture_height表示应用于该轨道的最大图片高度，以亮度样点为单位。

bit_depth_minus8表示应用于该轨道的位深度。

numArrays表示(多个)所指示类型的NAL单元的数组数。

array_completeness等于1时，表示给定类型的所有NAL单元都在下一个数组中，并且都不在流中；当等于0时，指示所指示类型的附加NAL单元可能在流中；允许的值受样点条目名称的约束。

NAL_unit_type指示以下数组中的NAL单元的类型(应全部为该类型)；它被限制为采用指示DCI、OPI、VPS、SPS、PPS、前缀APS或前缀SEI NAL单元的值之一。

numNalus指示包括在该配置记录应用的流的配置记录中的指示类型的NAL单元的数量。SEI数组应只包含声明性的SEI消息，即那些提供有关整个流的信息的消息。这种SEI的一个示例可以是用户数据SEI。

nalUnitLength表示NAL单元的字节长度。

nalUnit包含DCI、OPI、VPS、SPS、PPS、APS或声明性SEI NAL单元。

随机存取恢复点样点组，也称为“滚动”样点组，用于为逐步解码刷新提供恢复点的信息。当“滚动(roll)”样点组与VVC轨道一起使用时，grouping_type_parameter的语法和语义被规定与“sap”样点组的语法和语义相同。

当映射到“滚动”样点组的样点的目标层的图片是GDR图片时，使用等于0和1的layer_id_method_idc。当layer_id_method_idc等于0时,“滚动”样点组规定轨道中所有层的行为。

此处规定了layer_id_method_idc等于1的语义。

当并非映射到“滚动”样点组的样点的目标层的所有图片都是GDR图片时，使用等于2和3的layer_id_method_idc，并且对于不是GDR图片的目标层的图片，以下情况适用：参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag，并且对于0至sps_num_subpics_minus1(包括端值)的范围内的每个子图片索引i，以下两种情况都为真：sps_subpic_treated_as_pic_flag[i]等于1，并且在相同CLVS中的当前样点中或之后至少有一个IRAP子图片具有相同的子图片索引i。当layer_id_method_idc等于2时,“滚动”样点组规定轨道中存在的所有层的行为。这里规定了layer_id_method_idc等于3的语义。当读取器使用标记有layer_id_methoc_idc等于2或3的样点来开始解码时，读写器需要进一步修改比特流的SPS、PPS和PH NAL单元，使得当此类样本参考的任何SPS的sps_gdr_enabled_flag等于1时，以标记为属于该样点组且layer_id_method_idc等于2和3的样本开始的比特流是一致的比特流，此类样本参考的任何PPS的pps_mixed_nalu_types_in_pic_flag等于0，AU的所有VCL NAL单元的nal_unit_type等于GDR_NUT，并且AU的任何图片标头的ph_gdr_pic_flag等于1，并且ph_recovery_poc_cnt的值对应AU所属样点组的roll_distance。当“滚动”样点组涉及从属层而不是其(多个)参考层时，该样点组指示当从属层的所有参考层都可用并被解码时适用的特征。样点组可用于启动预测层的解码。

当layer_id_method_idc等于1时，target_layers字段中的每一位表示轨道中携带的层。由于该字段只有28位长，轨道中SAP的指示被限制为最大28层。从最低有效位(LSB)开始的该字段的每一位将按照layer_id值的升序被映射到与该样点相关联的层信息样点组(“linf”)中信令通知的layer_id值的列表。

以下是通过公开的技术方案解决的示例技术问题。关于解码器配置信息和‘滚动’样点组的信令通知的VVC视频文件格式的最新设计具有以下问题。首先，在VvcDecoderConfigurationRecord中，当信令通知档次、层次和级别信息(PTL)时，会信令通知图片格式参数，包括颜色格式、位深度、图片宽度和图片高度。这些信息可用于内容选择目的。然而，还有其他参数可用于内容选择目的，例如所需的解码图片缓冲器尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数等，但可能不会在解码器配置记录中被信令通知。

其次，在VvcDecoderConfigurationRecord中，当信令通知PTL信息时，在信令通知PTL信息之后，也信令通知numTemporalLayers字段。然而，PTL信息的信令通知的语法结构取决于numTemporalLayers字段。

第三，在随机访问恢复点样点组，即“滚动”样点组的描述中，未正确规定字段layer_id_method_idc等于1或3的语义。特别地，当layer_id_method_idc等于1时，可以规定可应用层的信令通知，但是当layer_id_method_idc等于3时，可以不规定。

本文公开了解决上面列出的一个或多个问题的机制。在一个示例中，VVC解码器配置记录被修改以将子层的数量定位在PTL记录之前。这样，解码器可以首先获得子层的数量，并使用该数量获得每个子层的PTL记录。在另一个示例中，滚动样点组的分组类型参数被修改以更清楚地描述滚动样点组中的访问点和这些访问点所应用的层之间的相关性。例如，目标层可以指示与访问点相关的层。此外，可以设置层标识符方法标识码来指示访问点是应用于所有层还是仅应用于目标层参数中的层。此外，层标识符方法标识码可以被设置为指示访问点是仅由GDR图片组成还是包括GDR图片和混合NAL单元图片的组合。

为解决上述及其他问题，公开了如下总结的方法。这些项目应该被认为是解释一般概念的示例，而不应该以狭隘的方式解释。此外，这些项目可以单独应用或以任何方式组合应用。

实施例1

为解决第一个问题，可在VvcDecoderConfigurationRecord中信令通知一个或多个以下参数：解码图片缓冲器的最大所需尺寸、最大图片输出重新排序(例如，可在解码顺序中在任何图片之前并在输出顺序中在该图片之后的最大允许图片数)、最大等待时间(例如，可在输出顺序中在任何图片之前并在解码顺序中在该图片之后的最大图片数)、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、和光栅扫描条带使能标志以及每个图片的最大条带数。

(a)在一个示例中，仅当在VvcDecoderConfigurationRecord中信令通知PTL信息时，才在其中信令通知一个或多个上述参数。

(b)在一个示例中，一个或多个参数可以在PTL信息的信令通知之前存在。此外，对于在PTL信息之前信令通知的所有参数，可能需要字节对齐。在一个示例中，可以进一步信令通知保留位。

(c)在一个示例中，一个或多个参数可以在PTL信息的信令通知之后存在。此外，对于在PTL信息之后信令通知的所有参数，可能需要字节对齐。在一个示例中，可以进一步信令通知保留位。

(d)在一个示例中，一个或多个参数的子集可以在PTL信息的信令通知之前存在，而剩余的可以在信令通知之后存在。此外，对于在PTL信息之前信令通知的所有参数，可能需要字节对齐。在一个示例中，可以进一步信令通知保留位。

(e)此外，对于在PTL信息之后信令通知的所有参数，可能需要字节对齐。在一个示例中，可以进一步信令通知保留位。

实施例2

为了解决第二个问题，修改了VvcDecoderConfigurationRecord，使得当信令通知PTL信息时，在信令通知PTL信息之前也信令通知numTemporalLayers字段。

(a)在一个示例中，当PTL信息在VvcDecoderConfigurationRecord中被信令通知时，它在字段chroma_format_idc、bit_depth_minus8、numTemporalLayers和constantFrameRate之后被信令通知。在一个示例中，PTL信息在所有上述字段和一些保留位之后被直接信令通知。

(b)在一个示例中，当在VvcDecoderConfigurationRecord中信令通知PTL信息时，它在字段numTemporalLayers和constantFrameRate之后信令通知。在一个示例中，PTL信息在所有上述字段和一些保留位之后被直接信令通知。此外，在PTL信息之后，进一步信令通知附加的保留位。

(c)在另一个示例中，当PTL信息在VvcDecoderConfigurationRecord中被信令通知时，它被信令通知为所有以“if(ptl_present_flag)”为条件的字段中的最后一个字段。

(d)在一个示例中，在信令通知PTL信息之前，信令通知保留位。

实施例3

为解决第三个问题3，进行如下修改中的一项或多项：如下语句：

(a)“layer_id_method_idc等于1的语义在条款9.5.7中规定。”修改如下：“当layer_id_method_idc等于1时，由‘滚动’样点组规定行为的层在条款9.5.7中规定。”如本文所用，条款9.5.7指的是ISO/IEC 14496-15：2021(E)题为“信息技术-视听对象编解码-第15部分：ISO基本媒体文件格式的网络抽象层(NAL)单元结构化视频的传输”的文档中的对应数量条款。

(b)“条款9.5.7中规定了layer_id_method_idc等于3的语义。”修改如下：“当layer_id_method_idc等于3时，由‘滚动’样点组规定行为的层的规定方式与条款9.5.7中规定的layer_id_method_idc等于1时的方式相同。”

实施例4

为解决问题3，可选地，进行一个或多个以下改变：

(a)条款9.5.7中的以下句子：“当layer_id_method_idc等于1时，字段target_layers中的每个位代表轨道中携带的层。”更改如下：“当layer_id_method_idc等于1或3时，字段target_layers中的每个位表示轨道中携带的层。”

(b)以下句子：“条款9.5.7规定了layer_id_method_idc等于1的语义。”修改如下：“当layer_id_method_idc等于1时，由‘滚动’样点组规定行为的层在条款9.5.7中规定。”

(c)以下句子：“条款9.5.7规定了layer_id_method_idc等于3的语义。”修改如下：“当layer_id_method_idc等于3时，由‘滚动’样点组规定行为的层在条款9.5.7中规定。”

以下是上文总结的一些方面的一些示例实施例，其可应用于VVC视频文件格式的标准规范。更改后的文本基于上述相关特征的最新草案规范。增加或修改的相关部分用下划线粗体表示，并且删除的部分用粗体斜体表示。

在一个示例中，VvcDecoderConfigurationRecord的语法修改如下：

在一个示例中，VvcDecoderConfigurationRecord的语义修改如下：

output_layer_set_idx规定由包含在轨道中的VVC比特流表示的输出层集的输出层集索引。output_layer_set_idx的值可以用作由外部装置或OPINAL单元提供给VVC解码器的TargetOlsIdx变量的值，如ISO/IEC 23090-3中所规定的，用于解码包含在轨道中的比特流。

picture_width表示应用于该轨道的最大图片宽度，以亮度样点为单位。picture_height表示应用于该轨道的最大图片高度，以亮度样点为单位。

numArrays表示(多个)所指示类型的NAL单元的数组数。

在一个示例中，对随机访问恢复点样点组的描述修改如下：随机访问恢复点样点组“滚动”用于提供关于逐步解码刷新的恢复点的信息。当“滚动”样点组与VVC轨道一起使用时，grouping_type_parameter的语法和语义被规定与“sap”样点组的语法和语义相同。当映射到“滚动”样点组的样点的目标层的图片是GDR图片时，使用等于0和1的layer_id_method_idc。当layer_id_method_idc等于0时,“滚动”样点组规定轨道中所有层的行为。

在条款9.5.7中规定。

当并非映射到“滚动”样点组的样点的目标层的所有图片都是GDR图片时，使用等于2和3的layer_id_method_idc，并且对于不是GDR图片的目标层的图片，以下情况适用：参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag，并且对于0至sps_num_subpics_minus1(包括端值)的范围内的每个子图片索引i，以下两种情况都为真：sps_subpic_treated_as_pic_flag[i]等于1，并且在相同CLVS中的当前样点中或之后至少有一个IRAP子图片具有相同的子图片索引i。当layer_id_method_idc等于2时,“滚动”样点组规定轨道中存在的所有层的行为。

当layer_id_method_idc等于3时，由‘滚动’样点组规定行为的层。layer_id_method_idc等于3的语义的规定方式与条款9.5.7中规定layer_id_method_idc等于1时的方式相同。

当读取器使用标记有layer_id_methoc_idc等于2或3的样点来开始解码时，读取器需要进一步修改根据(ISO/IEC 14496-15:2021(E)文档的)条款11.6重构的比特流的SPS、PPS和PH NAL单元，使得当此类样本参考的任何SPS的sps_gdr_enabled_flag等于1时，以标记为属于该样点组且layer_id_method_idc等于2和3的样本开始的比特流是一致的比特流，此类样本参考的任何PPS的pps_mixed_nalu_types_in_pic_flag等于0，AU的所有VCLNAL单元的nal_unit_type等于GDR_NUT，并且AU的任何图片标头的ph_gdr_pic_flag等于1，并且ph_recovery_poc_cnt的值对应AU所属样点组的roll_distance。

当“滚动”样点组涉及从属层而不是其(多个)参考层时，该样点组指示当从属层的所有参考层都可用并被解码时适用的特征。样点组可用于启动预测层的解码。

在一个示例中，VvcDecoderConfigurationRecord的语法修改如下：

在一个示例中，VvcDecoderConfigurationRecord的语义修改如下：

output_layer_set_idx规定由包含在轨道中的VVC比特流表示的输出层集的输出层集索引。output_layer_set_idx的值可以用作由外部装置或OPI NAL单元提供给VVC解码器的TargetOlsIdx变量的值，如ISO/IEC 23090-3中所规定的，用于解码包含在轨道中的比特流。

numTemporalLayers大于1表示该配置记录所应用的轨道在时间上可缩放，并且所包含的时域层(在ISO/IEC 23090-3中也称为时间子层或子层)的数量等于numTemporalLayers。值1表示该配置记录所应用的轨道在时间上不可缩放。值0指示未知该配置记录所应用的轨道是否在时间上可缩放。

chroma_format_id指示应用于该轨道的色度格式。

numArrays表示(多个)所指示类型的NAL单元的数组数。

图1为包含视频数据的VVC比特流127的示例媒体文件100的示意图。媒体文件包括可以被显示以创建视频序列的图片125。图片125被压缩在VVC比特流127中。比特流127还包括各种参数集123，其向解码器指示用于压缩图片125的参数。参数集123可以包括视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)和自适应参数集(APS)，它们分别包括整个视频的参数、视频序列的参数、一个或多个图片的参数以及一个或多个图片的区域的参数。

压缩可包括帧内预测和帧间预测。在帧内预测中，图片125被分割成块，并且每个块相对于同一图片125中的其他块被编解码。在帧间预测中，图片125被分割成块，并且每个块相对于其他图片125中的其他块被编解码。根据帧间预测或帧内预测编解码的图片125可以分别被称为帧间编解码图片或帧内编解码图片。帧间编解码图片的一个好处是这种图片125比帧内编解码图片实质上压缩得多。然而，由于帧间编解码的图片是相对于其他图片125编解码的，所以视频解码器不能在帧间编解码的图片处开始解码视频序列。相反，视频解码器可以在任何帧内编解码图片处开始解码视频。帧内编解码图片也可以被称为IRAP图片。这是因为任何帧内编解码图片都可以充当视频流的访问点135。访问点135是视频流中解码器可以开始解码视频流的任何位置，除了如下所述的GDR图片之外，通常不会遇到例如由于丢失信息而导致的解码错误。

在某些情况下，可将图片125分割成子图片。子图片是图片125中的矩形区域。子图片的好处在于它们可以在解码和显示过程中被分开处理。例如，例如在图中画应用、虚拟现实应用等中，可以显示子图片而不是显示整个图片125。此外，例如在视频呼叫应用中，子图片可以以不同的配置重新排列和拼接在一起。在一些情况下，对于同一图片125中的不同子图片，该组访问点135可以不同。例如，具有不太重要的视频的子图片可以具有较少的访问点135以增加压缩。当这种情况发生时，图片125可以包括帧内编解码子图片和帧间编解码子图片，也称为IRAP子图片和非IRAP子图片。比特流127是一组网络抽象层(NAL)单元，其是尺寸适合通信网络分组的视频数据元素。因此，参数集123和图片125在比特流127中以NAL单元携带。因此，具有IRAP子图片和非IRAP子图片的图片125可以被称为混合NAL单元图片。

另一种访问点135方案涉及GDR图片的使用。GDR图片包括帧内编解码部分和一个或多个帧间编解码部分。成组地使用GDR图片来创建访问点135。具体地，第一GDR图片包含图片125的最左侧部分上的帧内编解码区域，其中图片的剩余部分根据帧间编解码进行编解码。第二GDR图片包含帧内编解码区域，该帧内编解码区域向右移动到与第一GDR图片的帧内编解码区域邻接但不重叠的位置。第二GDR图片的剩余部分被帧间编解码。这样，帧内编解码区域从左到右扫过多个图片。GDR图片的一个约束是帧内编解码区域左侧的帧间编解码区域只能回指当前GDR图片组中的先前GDR图片。解码器可以从该组的第一个GDR图片处开始解码。在这种情况下，解码器能够解码帧内编解码区域，但不能解码帧间编解码区域。然后，解码器可以进行到第二个GDR图片，在这种情况下，帧内编解码区域和帧内编解码区域左侧的帧间编解码区域都可以被解码。一旦解码器到达最后一个GDR图片，所有区域都可以被解码，并且可以显示视频。GDR图片在用作访问点135时会产生错误，但是这种错误不会持续到组中的最后一个GDR图片之后。因此，当该组被用作访问点135时，通常不显示GDR图片。GDR图片的好处是每个GDR图片小于整个IRAP图片，这减少了与每个访问点135相关联的数据突发。当解码器没有使用GDR图片作为访问点135时，GDR图片组之前的视频是可用的，因此解码器可以解码该组中的所有GDR图片，而不会在帧间编解码区域中出现错误。应该注意的是，GDR图片通常禁止与混合NAL单元图片一起使用。

图片125和参数集123可组织成层120和/或子层。层120是图片125和参数集123的分组，其可以作为输出层集的一部分被解码和输出。例如，不同的层120可以以不同的分辨率编解码。在另一个示例中，输出层集可以包括基本层和增强层。这允许解码器解码基本层并获得第一分辨率的视频，然后解码期望数量的增强层以基于设备和网络能力提高分辨率。子层121是一种允许时间缩放的层120。例如，可以基于时间标识符(Id)将图片125分配给不同的子层121。这样，每个子层121包含图片125的子集。这允许解码器解码和显示选择的子层121，以实现期望的帧速率。

比特流127的层120和/或子层121可排列在轨道110中。轨道110包含可以由解码器解码和显示的特定类型的时序样点的序列。在这种上下文中，样点是媒体数据的单元。例如，轨道110可以包括一组时序的压缩视频样点(例如，随时间推移的图片125)、压缩音频样点、提示数据样点、参数样点等。应当注意，术语样点也可以指像素的颜色值，但是这不是在该上下文中想要的定义。轨道110可以包含任何数量的层120和/或任何数量的包含此类样本的子层121。

通过前面的描述可以理解，媒体文件100中的数据可以以多种方式排列。因此，媒体文件100还包含样点表格框130，样点表格框130包含描述包含在轨道110中的样点(例如，媒体数据)的参数。例如，解码器可以读取样点表格框130，以确定如何开始处理包含在各个轨道110中的数据。在许多其他参数中，样点表格框130可以包含滚动样点组131和VVC解码器配置记录141。

滚动样点组131也称为随机访问恢复样点组。滚动样点组131是用于将访问点135信令通知到VVC比特流127的层120中的数据单元，并且主要用于信令通知出现在GDR图片处的访问点135。应当注意，随机访问点(RAP)样点组可以用于信令通知出现在其他IRAP图片处的访问点，例如IDR、CRA、断开链路访问(BLA)等。因此，滚动样点组131包含指向包含在VVC比特流127中的GDR图片的访问点135的列表。访问点135被认为是滚动样点组131的样点。在一些示例实现方式中，滚动样点组131的操作是不清楚的。本公开通过提供清楚描述滚动样点组131中的访问点135和层120之间的关系的参数来解决这些问题。

滚动样点组131包含分组类型参数137，也可表示为group_type_parameter。分组类型参数137是规定访问点135和层120之间的相关性/对应性的参数。应当注意，当访问点135应用于层120时，层120可以被称为相关层。因此，层120包括一组相关层，其可以与所有层120的集或层120的子集相同。分组类型参数137还包括目标层参数136和层标识符方法标识码138，它们可以分别表示为target_layers和layer_id_method_idc。在示例实现方式中，目标层参数136包括多个位，每个位规定相关层之一。在一个示例中，目标层参数136可以是24位长，因此能够规定多达24个相关层。

层标识符方法标识码138规定了访问点135的性质，并阐明了访问点135和层之间的相关性。在示例中，层标识符方法标识码138可以包括四位值。在特定实现方式中，层标识符方法标识码138可以被设置为零或二，以指示访问点135应用于所有层120。在这种情况下，所有层都是相关层，并且目标层参数136可以从媒体文件100中省略和/或被解码器忽略。此外，层标识符方法标识码138可以被设置为1或4，以指示访问点135仅应用于由目标层参数136规定的相关层。此外，层标识符方法标识码138可以指示访问点135处存在的图片125的性质。例如，层标识符方法标识码138可以被设置为0或1，以指示访问点135都是GDR图片。此外，层标识符方法标识码138可以被设置为2或3，以指示访问点135可以是GDR图片或者具有IRAP子图片和非IRAP子图片两者的混合NAL单元图片。

在具体实现方式中，当规定相关层中的所有访问点均为GDR图片且访问点应用于所有层时，layer_id_method_idc可设置为零。此外，当规定相关层中的所有访问点都是GDR图片并且访问点仅应用于相关层时，layer_id_method_idc被设置为1。此外，当规定相关层中的访问点是GDR图片、混合NAL单元图片或其组合，并且访问点应用于所有层时，layer_id_method_idc被设置为2。最后，当规定相关层中的访问点是GDR图片、混合NAL单元图片或其组合并且访问点仅应用于相关层时，layer_id_method_idc被设置为3。这样，解码器可以解析访问点135、分组类型参数137、目标层136和层标识符方法标识码138，以确定滚动样点组131中的访问点135和层120之间的相关性。解码器然后可以使用访问点135来开始解码相关层中的图片125。

此外，样点表格框130可包括VVC解码器配置记录141，可表示为VVCDecoderConfigurationRecord。VVC解码器配置记录141包含解码器可以用来选择内容的数据。例如，VVC解码器配置记录141可以包含描述轨道110中的输出层集和对应层120的数据。解码器然后可以使用这样的数据来选择应该被解码和显示的轨道110。例如，VVC解码器配置记录141可以包含描述VVC档次层次级别(PTL)记录143、输出层集索引、帧速率、子层121的数量、位深度、色度格式、图片尺寸等的数据。

VVC PTL记录143指示层120和/或子层121的档次、层次和级别信息。档次、层次和级别规定了对比特流的限制，并因此限制了解码比特流所需的能力。档次、层次和级别也可以用于指示各个解码器实现方式之间的互操作性点。档次是一组定义的编解码工具，用于创建兼容或一致的比特流。每个档次规定了符合该档次的所有解码器应该支持的算法特征和限制的子集。级别是比特流的一组约束(例如，最大亮度采样率、分辨率的最大比特率等)。例如，级别可以是指示回放规定档次的比特流所需的解码器性能的一组约束(例如，硬件约束)。这些级别分为两层：主级别和高级别。主层次是比高层次低的层次。这些层次用于处理在最大比特率方面不同的应用。主层次是为大多数应用设计的，而高层次是为要求非常苛刻的应用设计的。对于任何给定的档次，层次的级别通常对应于特定的解码器处理负载和存储器能力。因此，解码器应该通过确定具有匹配解码器能力的PTL信息的层120和/或子层121来选择层120和/或子层121用于回放。

在一些示例实现方式中，VVC解码器配置记录141是不清楚的，因为在VVC PTL记录143之后，在VVC解码器配置记录141中信令通知了子层的数量145。这是一个问题，因为在解码器能够解释VVC PTL记录143之前，解码器需要子层的数量145。在本公开中，在VVC PTL记录143之前，在VVC解码器配置记录141中信令通知子层的数量145。解码器然后可以解析VVC解码器配置记录以获得子层的数量145，并使用子层的数量145来确定子层121的VVC PTL记录的数量。在一个示例中，VVC解码器配置记录141包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素。VVC PTL记录143可以位于VVC解码器配置记录141中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之后。此外，子层的数量145可以位于VVC解码器配置记录141中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之前。

在具体实现方式中，VVC解码器配置记录141可实现如下，以将子层的数量145定位在VVC PTL记录143之前，用于确定轨道110、层120和/或子层121的PTL信息。

在另一个示例中，各种附加信息可包括在VVC解码器配置记录141中，以支持在解码器中选择轨道110、层120和/或子层121。这种信息可以包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。在一些示例中，只有当VVC解码器配置记录141包括VVC PTL记录143时，才可以包括这样的信息。

通过包括此类信息和/或通过重新排列数据的顺序，改进了VVC解码器配置记录141，以允许解码器对轨道110、层120和/或子层121的附加特征和/或更有效的选择。

图2是编码VVC解码器配置记录的示例方法200的流程图，例如通过将VVC解码器配置记录编码到媒体文件100中。在步骤201，编解码器将多个图片编码到媒体文件中的一个或多个子层中。在步骤203，编解码器确定子层的数量。在步骤205，编码器将VVC解码器配置记录编码到媒体文件中，VVC解码器配置包括子层的数量和子层的一个或多个VVC PTL记录。在一个示例中，可以在VVC PTL记录之前，在VVC解码器配置记录中信令通知子层的数量。在一个示例中，VVC解码器配置记录还包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素。VVC·PTL记录可以位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之后。此外，子层的数量可以位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之前。在示例中，VVC解码器配置记录还包括位于位深度减八语法元素之后的保留位，并且VVC PTL记录位于保留位之后。在一个示例中，VVC解码器配置记录还包括位于VVC PTL记录之后的保留位。

在一个示例中，VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。在一个示例中，当VVC解码器配置记录包括VVC PTL记录时，VVC解码器记录仅公开了一个或多个或前述参数。

在一个示例中，在VVC解码器配置记录中，位于VVC PTL记录之后的所有语法元素都需要字节对齐。

在步骤207，编码器将媒体文件存储在存储器中，例如用于以后向解码器传输。在一个实施例中，媒体文件被发送到解码器。

图3是解码VVC解码器配置记录的示例方法300的流程图，例如通过采用作为方法200的结果接收的媒体文件100。在步骤301，解码器接收包括VVC解码器配置记录和编解码到一个或多个子层中的多个图片的媒体文件。在步骤303，解码器解析VVC解码器配置记录，以获得子层的数量以及基于子层的数量的子层的一个或多个VVC PTL记录。在示例中，可以在VVC PTL记录之前，在VVC解码器配置记录中信令通知子层的数量。在示例中，VVC解码器配置记录还包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素。VVC·PTL记录可以位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之后。此外，子层的数量可以位于VVC解码器配置记录中恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素之前。在示例中，VVC解码器配置记录还包括位于位深度减八语法元素之后的保留位，并且VVC PTL记录位于保留位之后。在示例中，VVC解码器配置记录还包括位于VVC PTL记录之后的保留位。

在示例VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、GDR图片使能标志、CRA图片使能标志、参考图片重新采样使能标志、具有CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。在一个示例中，当VVC解码器配置记录包括VVC PTL记录时，VVC解码器记录仅公开了一个或多个或前述参数。

在示例中，在VVC解码器配置记录中，位于VVC PTL记录之后的所有语法元素都需要字节对齐。

在步骤305，解码器基于VVC·PTL记录解码一个或多个子层。解码器然后可以将解码的媒体文件或其部分(例如，特定的层和/或子层)转发给显示器以供用户观看。

图4是可实现本文中所公开的各种技术的示例视频处理系统400的框图。各种实现方式可以包括系统400中的一些或全部组件。系统400可以包括用于接收视频内容的输入402。视频内容可以以原始或未压缩的格式(例如8或10位多分量像素值)接收，或者可以以压缩或编码的格式接收。输入402可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。

系统400可以包括可以实现本文档中描述的各种编码或编码方法的编解码组件404。编解码组件404可以减少从输入402到编解码组件404的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时称为视频压缩或视频转码技术。编解码组件404的输出可以被存储或经由所连接的通信来发送，如组件406所表示的。在输入402处接收的视频的存储或通信的比特流(或编解码)表示可以由组件408使用，以生成被发送到显示接口410的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外，尽管某些视频处理操作被称为“编解码”操作或工具，但是应当理解，在编码器处使用编解码工具或操作，并且将由解码器进行反演编解码的结果的对应解码工具或操作。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以实施在各种电子设备中，诸如移动电话、膝上型计算机、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。

图5是示例视频处理装置500的框图。装置500可以用于实现本文中所述的方法中的一个或多个。装置500可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置500可以包括一个或多个处理器502、一个或多个存储器504和视频处理硬件506。(多个)处理器502可以配置为实现本文档中所述的一个或多个方法。(多个)存储器504可以用于存储数据和代码，该代码用于实现本文所描述的方法和技术。视频处理硬件506可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中，视频处理硬件506可以至少部分地包括在处理器502中，例如图形协处理器。

图6是视频处理的示例方法600的流程图。方法600根据视频文件格式执行视觉媒体数据和存储与视觉媒体数据对应的信息的文件之间的转换。在编码器的上下文下，这种转换可以通过将视觉媒体数据编码成视频文件格式的视觉媒体数据文件来执行。在解码器的上下文中，这种转换可以通过解码视频文件格式的视觉媒体数据文件来执行，以获得用于显示的视觉媒体数据。

图7是示出可利用本公开的技术的示例视频编解码系统700的框图。如图7所示，视频编解码系统700可以包括源设备710和目的地设备720。源设备710生成编码的视频数据，其可以被称为视频编码设备。目的地设备720可以解码由源设备710生成的编码的视频数据，该目的地设备720可以被称为视频解码设备。

源设备710可以包括视频源712、视频编码器714和输入/输出(I/O)接口716。

视频源712可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统，或这些源的组合。视频数据可以包括一个或多个图片。视频编码器714对来自视频源712的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口716包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口716通过网络730直接发送到目的地设备720。还可以将编码的视频数据存储到存储介质/服务器740上，用于由目的地设备720存取。

目的地设备720可以包括I/O接口726、视频解码器724和显示设备722。I/O接口726可以包括接收器和/或调制解调器。I/O接口726可以从源设备710或存储介质/服务器740获取编码的视频数据。视频解码器724可以对编码的视频数据进行解码。显示设备722可以向用户显示解码的视频数据。显示设备722可以与目的地设备720集成，或可以在配置为与外置显示设备相接的目的地设备720外部。

视频编码器714和视频解码器724可以根据视频压缩标准(诸如，高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。

图8是示出视频编码器800的示例的框图，该视频编码器200可以是图7中示出的系统700中的视频编码器714。视频编码器800可以被配置为执行本公开的任何或全部技术。在图8的示例中，视频编码器800包括多个功能组件。本公开所描述的技术可以在视频编码器800的各种组件之间共享。在一些示例中，处理器可以配置为进行本公开中描述的任何或全部技术。

视频编码器800的功能组件可以包括分割单元801、预测单元802(其可以包括模式选择单元803、运动估计单元804、运动补偿单元805、帧内预测单元806)、残差生成单元807、变换处理单元808、量化单元809、逆量化单元810、逆变换单元811、重建单元812、缓冲器813和熵编码单元814。

在其他示例中，视频编码器800可以包括更多、更少或不同的功能组件。在一个示例中，预测单元802可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测，其中至少一个参考图片是当前视频块所位于的图片。

此外，诸如运动估计单元804和运动补偿单元805的一些组件可以被高度集成，但是出于解释的目的在图8的示例中分开表示。

分割单元801可以将图片分割成一个或多个视频块。视频编码器800和视频解码器900可以支持各种视频块尺寸。

模式选择单元803可以例如基于错误结果选择帧内或帧间的编解码模式中的一个，并且将得到的帧内或帧间编解码块提供到残差生成单元807来生成残差块数据而且提供到重建单元812来重建编解码块以用作参考图片。在一些示例中，模式选择单元803可以选择帧内和帧间预测的组合(CIIP)模式，其中预测是基于帧间预测信号和帧内预测信号。模式选择单元803还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。

为了对当前视频块进行帧间预测，运动估计单元804可以通过将来自缓冲器813的一个或多个参考帧与当前视频块进行比较，生成当前视频块的运动信息。运动补偿单元805可以基于来自缓冲器813的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。

运动估计单元804和运动补偿单元805可以为当前视频块进行不同操作，例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元804可以进行当前视频块的单向预测，并且运动估计单元804可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元804然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元804可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元805可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元804可以进行当前视频块的双向预测，运动估计单元804可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元804然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元804可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元805可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元804可以输出运动信息的全部集合，用于解码器的解码处理。在一些示例中，运动估计单元804可以不输出当前视频的运动信息的全部集合。而是，运动估计单元804可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如，运动估计单元804可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。

在一个示例中，运动估计单元804可以在与当前视频块相关联的语法结构中指示：向视频解码器900指示当前视频块具有与另一个视频块相同的运动信息的值。

在另一个示例中，运动估计单元804可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器900可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器800可以预测性地信令通知运动矢量。可以由视频编码器800实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。

帧内预测单元806可以对当前视频块进行帧内预测。当帧内预测单元806对当前视频块进行帧内预测时，帧内预测单元806可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。

残差生成单元807可以通过从当前视频块中减去(例如，由减号表示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。

在其他示例中，例如在跳过模式下，对于当前视频块可能不存在当前视频块的残差数据，并且残差生成单元807可以不进行减去操作。

变换处理单元808可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。

在变换处理单元808生成与当前视频块相关联的变换系数视频块之后，量化单元809可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

逆量化单元810和逆变换单元811可以将逆量化和逆变换分别应用于变换系数视频块，来从变换系数视频块重建残差视频块。重建单元812可以将重建的残差视频块添加到来自由预测单元802生成的一个或多个预测视频块的对应样点，以产生与当前块相关联的重建视频块用于存储在缓冲器813中。

在重建单元812重建视频块之后，可以进行环路滤波操作以降低视频块中视频块化伪影。

熵编码单元814可以从视频编码器800的其他功能组件接收数据。当熵编码单元814接收数据时，熵编码单元814可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。

图9是示出视频解码器900的示例的框图，该视频解码器900可以是图7中示出的系统700中的视频解码器724。

视频解码器900可以被配置为进行本公开的任何或全部技术。在图9的示例中，视频解码器900包括多个功能组件。本公开所描述的技术可以在视频解码器900的各种组件之间共享。在一些示例中，处理器可以配置为进行本公开中描述的任何或全部技术。

在图9的示例中，视频解码器900包括熵解码单元901、运动补偿单元902、帧内预测单元909、逆量化单元904、逆变换单元905以及重建单元906和缓冲器907。在一些示例中，视频解码器900可以进行与关于视频编码器800(图8)所描述的编码过程总体反演的解码过程。

熵解码单元901可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如，视频数据的编解码块)。熵解码单元901可以对熵编解码视频进行解码，并且根据熵解码视频数据，运动补偿单元902可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元902例如可以通过进行AMVP和merge模式确定此类信息。

运动补偿单元902可以产生运动补偿块，可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。

运动补偿单元902可以使用由视频编码器800在编码视频块的期间所使用的插值滤波器，来计算出参考块的子整数个像素的插值的值。运动补偿单元902可以根据接收的语法信息确定由视频编码器800所使用的插值滤波器并且使用插值滤波器来产生预测块。

运动补偿单元902可以使用一些语法信息来确定：用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸，描述编码视频序列的图片的每个宏块如何被分割的分割信息，指示如何编码每个分割的模式，每个帧间编码块的一个或多个参考帧(和参考帧列表)，以及对编码视频序列进行解码的其他信息。

帧内预测单元903可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元904逆量化(即去量化)在比特流中提供的且由熵解码单元901解码的量化的视频块系数。逆变换单元905应用逆变换。

重建单元906可以用由运动补偿单元902或帧内预测单元903生成的对应预测块求和残差块，以形成解码块。如所期望的，去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器907中，该缓冲器307提供用于随后的运动补偿/帧内预测的参考块，并且还产生用于在显示设备上呈现的解码视频。

图10是示例编码器1000的示意图。编码器1000适合于实现VVC技术。编码器1000包括三个环路滤波器，即去块滤波器(DF)1002、样点自适应偏移(SAO)1004和自适应环路滤波器(ALF)1006。与使用预定义滤波器的DF 1002不同，SAO 1004和ALF 1006利用当前图片的原始样点，通过分别添加偏移和应用有限脉冲响应(FIR)滤波器，利用编解码的辅助信息信令通知偏移和滤波器系数，来减小原始样点和重构样点之间的均方误差。ALF 1006位于每个图片的最后处理阶段，并且可以被视为试图捕捉和修复由先前阶段产生的伪像的工具。

编码器1000还包括帧内预测组件1008和运动估计/补偿(ME/MC)组件1010，配置为接收输入视频。帧内预测组件1008被配置成执行帧内预测，而ME/MC组件1010被配置成利用从参考图片缓冲器1012获得的参考图片来执行帧间预测。来自帧间预测或帧内预测的残差块被馈送到变换组件1014和量化组件1016中，以生成量化的残差变换系数，这些系数被馈送到熵编解码组件1018中。熵编解码组件1018对预测结果和量化的变换系数进行熵编解码，并将其向视频解码器(未示出)发送。从量化组件1016输出的量化组件可以被馈送到逆量化组件1020、逆变换组件1022和重构(REC)组件1024。REC组件1024能够将图像输出到DF1002、SAO 1004和ALF 1006，以便在这些图片被存储在参考图片缓冲器1012中之前进行滤波。

接下来提供了一些实施例优选的解决方案的列表。

以下解决方案显示了本文讨论的技术的实例。

1.一种视觉媒体处理方法(例如，图6中所示的方法600)，包括：根据视频文件格式执行(602)视觉媒体数据和存储与视觉媒体数据对应的信息的文件之间的转换；其中，视频文件格式包括配置有用于内容选择的信息的解码器配置记录，其中解码器配置记录包括一个或多个字段：所需的解码图片缓冲器尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新图片使能标志、清洁随机访问图片使能标志、参考图片重新采样使能标志、具有编解码视频层序列的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数。

2.一种视觉媒体处理方法，包括：根据规则执行在视觉媒体数据和根据视频文件格式存储与视觉媒体数据相对应的信息的文件之间的转换；其中该规则规定，根据文件中是否包括视觉媒体数据的档次级别层次信息来将指示时域层的数量的字段包括在解码器配置记录中；其中规则进一步规定该字段被包括在档次级别层次信息之前。

3.根据解决方案2所述的方法，其中该规则进一步规定档次级别层次信息相对于一个或多个附加信息字段在视频文件格式中出现的顺序。

4.根据解决方案3所述的方法，其中一个或多个附加信息字段包括色度格式指示字段、位深度字段、指示时域层数的字段、或指示恒定帧速率是否用于视觉媒体数据的字段。

5.根据解决方案3所述的方法，其中一个或多个附加信息字段包括保留位字段。

6.根据解决方案2-5中任一项所述的方法，其中该规则规定档次层次级别信息被包括作为解码器配置记录的最后一个字段。

7.根据解决方案1-6中任一项所述的方法，其中转换包括生成视觉媒体数据的比特流表示，并且根据格式规则将比特流表示存储到文件。

8.根据解决方案1-6中任一项所述的方法，其中该转换包括根据格式规则解析文件以恢复视觉媒体数据。

9.一种视频解码装置，包括被配置为实现解决方案1至8中的一个或多个所述的方法的处理器。

10.一种视频编码装置，包括被配置为实现解决方案1至8中的一个或多个所述的方法的处理器。

11.一种其上存储有计算机代码的计算机程序产品，当由处理器执行时，该代码使处理器实现解决方案1至8中任一项所述的方法。

12.一种计算机可读介质，其上的比特流表示符合根据解决方案1至8中的任何一个生成的文件格式。

13.本文档中描述的方法、装置或系统。在这里描述的解决方案中，编码器可以通过根据格式规则产生编解码表示来符合格式规则。在本文描述的解决方案中，解码器可以使用格式规则来解析编解码表示中的语法元素，并根据格式规则了解语法元素的存在和不存在，以产生解码视频。

在本文档中，术语“视频处理”可指视频编码、视频解码、视频压缩或视频解压缩。例如，在从视频的像素表示到对应的比特流表示的转换期间，可以应用视频压缩算法，反之亦然。如语法所定义，当前视频块的比特流表示可(例如)对应于共位或散布在比特流内不同位置的比特。例如，可以根据变换和编解码的误差残差值并且还使用头中的比特和比特流中的其他字段，对宏块进行编码。此外，在转换期间，解码器可以基于该确定，在知道一些字段可能存在或不存在的情况下解析比特流，如以上解决方案中所述。类似地，编码器可确定包括或不包括某些语法字段，并通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。

本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中，含有本文档中所公开的结构以及其结构的等同物，或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品，即一个或多个计算机程序指令模块，用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物，或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光或电磁信号，其被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言，并且可以以任何形式来部署计算机程序，包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如，在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行，该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。

可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流，以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流，并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。

适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘)，或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘)，或者以上两者。但是，计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备，含有例如半导体存储器设备(例如EPROM、EEPROM和闪速存储器设备)；磁盘(例如内部硬盘或可移动磁盘)；磁光盘；和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充，或者合并在专用逻辑电路中。

虽然本专利文档含有许多细节，但这些细节不应被解释为对任何主题或可要求保护的范围的限制，而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中，在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地，在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外，尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求，但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，尽管在附图中以特定顺序描绘了操作，但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作，以实现期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。

仅描述了几个实现方式和示例，并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。

当除了第一组件和第二组件之间的线、迹线或另一种介质之外，不存在中间组件时，第一组件直接耦合至第二组件。当在第一组件和第二组件之间存在除了线、迹线或另一种介质之外的中间组件时，第一组件间接耦合到第二组件。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明，术语“约”的使用意味着包括后续数值的10％的范围。

虽然本公开中提供了若干实施例，但应理解，在不脱离本公开的精神或范围的情况下，所公开的系统和方法可体现为许多其他特定形式。当前的示例被认为是说明性的而非限制性的，并且意图不限于这里给出的细节。例如，各种元件或组件可以组合或集成在另一个系统中，或者可以省略或不实现某些特征。

此外，在不脱离本公开的范围的情况下，各种实施例中描述和说明的离散或单独的技术、系统、子系统和方法可与其他系统、模块、技术或方法组合或集成。被示出或讨论为耦合的其他项目可以直接连接，或者可以通过一些接口、设备或中间组件以电、机械或其他方式间接耦合或通信。本领域的技术人员可以确定改变、替换和变更的其他示例，并且可以在不脱离这里公开的精神和范围的情况下进行这些改变、替换和变更。

Claims

1.一种处理视频数据的方法，包括：

执行视觉媒体数据和视觉媒体数据文件之间的转换，所述视觉媒体数据文件包括多功能视频编解码VVC解码器配置记录和编解码到一个或多个子层中的多个图片，其中，所述VVC解码器配置记录包括所述一个或多个子层的数量和基于所述一个或多个子层的数量的所述一个或多个子层的一个或多个VVC档次层次级别PTL记录。

2.根据权利要求1所述的方法，其中，所述转换包括：

接收包括所述VVC解码器配置记录和编解码到一个或多个子层中的所述多个图片的媒体文件；

解析所述VVC解码器配置记录，以获得所述一个或多个子层的数量以及基于所述一个或多个子层的数量的所述一个或多个子层的一个或多个VVC PTL记录；和

基于所述VVC·PTL记录解码所述一个或多个子层。

3.根据权利要求1所述的方法，其中，所述转换包括：

将所述多个图片编码到所述视觉媒体文件中的所述一个或多个子层中；

确定所述一个或多个子层的数量；

将所述VVC解码器配置记录编码到媒体文件中，所述VVC解码器配置记录包括所述一个或多个子层的数量和所述一个或多个子层的一个或多个VVC PTL记录；和

将所述视觉媒体文件存储在存储器中。

4.根据权利要求1-3中任一项所述的方法，其中，在所述VVC PTL记录之前，在所述VVC解码器配置记录中信令通知所述一个或多个子层的数量。

5.根据权利要求1-4中任一项所述的方法，其中，所述VVC解码器配置记录包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素，并且其中所述VVC PTL记录位于所述VVC解码器配置记录中所述恒定帧速率语法元素、所述色度格式标识码语法元素和所述位深度减八语法元素之后。

6.根据权利要求1-5中任一项所述的方法，其中，所述一个或多个子层的数量位于所述VVC解码器配置记录中所述恒定帧速率语法元素、所述色度格式标识码语法元素和所述位深度减八语法元素之前。

7.根据权利要求1-6中任一项所述的方法，其中，所述VVC解码器配置记录还包括位于所述位深度减八语法元素之后的保留位，并且其中所述VVC PTL记录位于所述保留位之后。

8.根据权利要求1-7中任一项所述的方法，其中，所述VVC解码器配置记录还包括位于所述VVC PTL记录之后的保留位。

9.根据权利要求1-8中任一项所述的方法，其中，所述VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新GDR图片使能标志、清洁随机访问CRA图片使能标志、参考图片重新采样使能标志、具有编解码层视频序列CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。

10.根据权利要求1-9中任一项所述的方法，其中，当所述VVC解码器配置记录包括所述VVC PTL记录时，所述VVC解码器配置记录还包括以下中的一个或多个：解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新GDR图片使能标志、清洁随机访问CRA图片使能标志、参考图片重新采样使能标志、具有编解码层视频序列CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数。

11.根据权利要求1-10中任一项所述的方法，其中，在所述VVC解码器配置记录中，位于所述VVC PTL记录之后的所有语法元素都需要字节对齐。

12.一种处理视频数据的装置，包括处理器和其上具有指令的非暂时性存储器，其中所述指令在由所述处理器执行时使所述处理器：

13.根据权利要求12所述的装置，其中，所述转换包括：

基于所述VVC·PTL记录解码所述一个或多个子层。

14.根据权利要求12所述的装置，其中，所述转换包括：

确定所述一个或多个子层的数量；

将所述视觉媒体文件存储在存储器中。

15.根据权利要求12-14中任一项所述的装置，其中，在所述VVC PTL记录之前，在所述VVC解码器配置记录中信令通知所述一个或多个子层的数量。

16.根据权利要求12-15中任一项所述的装置，其中，所述VVC解码器配置记录包括恒定帧速率语法元素、色度格式标识码语法元素和位深度减八语法元素，并且其中所述VVC PTL记录位于所述VVC解码器配置记录中所述恒定帧速率语法元素、所述色度格式标识码语法元素和所述位深度减八语法元素之后。

17.根据权利要求12-16中任一项所述的装置，其中，所述一个或多个子层的数量位于所述VVC解码器配置记录中所述恒定帧速率语法元素、所述色度格式标识码语法元素和所述位深度减八语法元素之前。

18.根据权利要求12-17中任一项所述的装置，其中，所述VVC解码器配置记录还包括位于所述位深度减八语法元素之后的保留位，并且其中所述VVC PTL记录位于所述保留位之后。

19.根据权利要求12-18中任一项所述的装置，其中，所述VVC解码器配置记录还包括位于所述VVC PTL记录之后的保留位。

20.根据权利要求1-19中任一项所述的装置，其中，所述VVC解码器配置记录还包括解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新GDR图片使能标志、清洁随机访问CRA图片使能标志、参考图片重新采样使能标志、具有编解码层视频序列CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数或其组合。

21.根据权利要求12-20中任一项所述的装置，其中，当所述VVC解码器配置记录包括所述VVC PTL记录时，所述VVC解码器配置记录还包括以下中的一个或多个：解码图片缓冲器的最大所需尺寸、最大图片输出重新排序、最大等待时间、逐步解码刷新GDR图片使能标志、清洁随机访问CRA图片使能标志、参考图片重新采样使能标志、具有编解码层视频序列CLVS的空间分辨率变化使能标志、子图片分割使能标志、每个图片中的最大子图片数、波前并行处理WPP使能标志、片分割使能标志、每个图片的最大片数、条带分割使能标志、矩形条带使能标志、光栅扫描条带使能标志、每个图片的最大条带数。

22.根据权利要求12-21中任一项所述的装置，其中，在所述VVC解码器配置记录中，位于所述VVC PTL记录之后的所有语法元素都需要字节对齐。

23.一种非暂时性计算机可读介质，包含供视频编解码设备使用的计算机程序产品，所述计算机程序产品包含存储在所述非暂时性计算机可读介质上的计算机可执行指令，使得所述计算机可执行指令在由处理器执行时使所述视频编解码设备执行权利要求1到11中任一项所述的方法。