CN115225909A

CN115225909A - 通用媒体应用格式中的参数集

Info

Publication number: CN115225909A
Application number: CN202210406241.0A
Authority: CN
Inventors: 王业奎
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-04-18
Filing date: 2022-04-18
Publication date: 2022-10-21
Also published as: KR20220143987A; JP2022164943A; US11962808B2; JP2022164945A; CN115225910A; US12047607B2; JP2022164944A; CN115225907A; KR20220143985A; US20220337860A1; JP7413435B2; EP4075813A1; JP7305001B2; JP7414882B2; EP4075812A1; US20220337879A1; EP4075810A1; US20220337878A1; KR20220143986A; EP4075811A1

Abstract

公开了一种用于处理视频数据的机制。确定多功能视频编解码(VVC)基本流中的序列参数集(SPS)中的信息。规则指定刻点中的单元数量(num_units_in_tick)和时标(time_scale)在存在于SPS中时在VVC基本流中的视频序列之间不应当改变。基于SPS在可视媒体数据和媒体数据文件之间执行转换。

Description

通用媒体应用格式中的参数集

相关申请的交叉引用

根据巴黎公约的适用专利法和/或规则，本申请旨在及时要求2021年4月18日提交的美国临时专利申请No.63/176，315的优先权和权益。出于法律规定的所有目的，上述申请的全部公开通过引用并入作为本申请公开的一部分。

技术领域

本专利文档涉及文件格式的数字音频视频媒体信息的生成、存储和消费。

背景技术

数字视频占据了互联网和其他数字通信网络上使用的最大带宽。随着能够接收和显示视频的连接用户设备的数量增加，数字视频使用的带宽需求可能会继续增长。

发明内容

第一方面涉及一种用于处理视频数据的方法，包括：确定在多功能视频编解码(VVC)通用媒体应用格式(CMAF)轨道中携带的VVC基本流中的序列参数集(SPS)中的信息，其中规则指定刻点中的单元数量(num_units_in_tick)和时标(time_scale)在存在于SPS中时在VVC基本流中的视频序列之间不应当改变；以及基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

可选地，在任一前述方面，该方面的另一实施方式提供了VVC基本流包括视频参数集(VPS)，并且其中该规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。

可选地，在任一前述方面，该方面的另一实施方式提供了num_units_in_tick和time_scale被包含在通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构中。

可选地，在任一前述方面，该方面的另一实施方式提供了该规则指定num_units_in_tick的值和time_scale的值对于VVC CMAF轨道中的所有通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构应当是相同的。

可选地，在任一前述方面，该方面的另一实施方式提供了该规则指定在VVC CMAF轨道中应当有一个且仅一个视频参数集(VPS)单元。

可选地，在任一前述方面，该方面的另一实施方式提供了该规则指定当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中不存在视频参数集(VPS)时，通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次的数量(num_sub_profiles)的值以及每个第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

可选地，在任一前述方面，该方面的另一实施方式提供了该规则指定当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中存在一个或多个视频参数集(VPS)时，一个或多个约束适用，并且其中一个或多个约束包括：VPS最大层减1(vps_max_layers_minus1)字段的值对于每个VPS应当等于0，档次、层和级别(PTL)的VPS数减1(vps_num_ptls_minus1)的值对于每个VPS应当等于0，每个VPS中的档次、层和级别语法(profile_tier_level)结构中的PTL帧仅约束标志(ptl_fram_only_constraint_flag)的值应当等于1，并且每个VPS中的profile_tier_level结构中的PTL多层启用标志(ptl_multilayer_enabled_flag)的值应当等于0。

可选地，在任一前述方面，该方面的另一实施方式提供了该规则指定通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次数量(num_sub_profiles)的值以及第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

可选地，在任一前述方面，该方面的另一实施方式提供了该转换包括将可视媒体数据编码为媒体数据文件。

可选地，在任一前述方面，该方面的另一实施方式提供了该转换包括从媒体数据文件解码可视媒体数据。

第二方面涉及一种用于处理视频数据的装置，包括：处理器；和非暂时性存储器，其上具有指令，其中该指令在由述处理器执行时使得处理器：确定在多功能视频编解码(VVC)通用媒体应用格式(CMAF)轨道中携带的VVC基本流中的序列参数集(SPS)中的信息，其中规则指定刻点中的单元数量(num_units_in_tick)和时标(time_scale)在存在于SPS中时在VVC基本流中的视频序列之间不应当改变；并且基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

可选地，在任一前述方面，该方面的另一实施方式提供了当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中不存在视频参数集(VPS)时，通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次数量(num_sub_profiles)的值以及每个第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

第三方面涉及一种非暂时性计算机可读介质，包括供视频编解码设备使用的计算机程序产品，该计算机程序产品包括存储在该非暂时性计算机可读介质上的计算机可执行指令，使得当由处理器执行时，使视频编解码设备：确定在多功能视频编解码(VVC)通用媒体应用格式(CMAF)轨道中携带的VVC基本流中的序列参数集(SPS)中的信息，其中规则指定刻点中的单元数量(num_units_in_tick)和时标(time_scale)在存在于SPS中时在VVC基本流中的视频序列之间不应当改变；并且基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

可选地，在任一前述方面，该方面的另一实施方式提供了VVC基本流包括视频参数集(VPS)，其中该规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。

为了清楚的目的，前述实施例中的任何一个可以与其它前述实施例中的任何一个或多个组合，以在本公开的范围内创建新的实施例。

从结合附图和权利要求的以下详细描述中，这些和其他特征将被更清楚地理解。

附图说明

为了更完整地理解本公开，现在结合附图和详细描述参考以下简要描述，其中相同的附图标记表示相同的部分。

图1是示出示例通用媒体应用格式(CMAF)轨道的示意图。

图2是示出示例视频处理系统的框图。

图3是示例视频处理装置的框图。

图4是视频处理的示例方法的流程图。

图5是示出示例视频编解码系统的框图。

图6是示出示例编码器的框图。

图7是示出示例解码器的框图。

图8是示例编码器的示意图。

具体实施方式

开始应该理解，尽管下面提供了一个或多个实施例的说明性实施方式，但是所公开的系统和/或方法可以使用任何数量的技术来实施，无论是当前已知的还是有待开发的。本公开不应该以任何方式限于以下示出的说明性实施方式、附图和技术，包括本文示出和描述的示例性设计和实施方式，而是可以在所附权利要求的范围及其等同物的全部范围内进行修改。

该专利文档涉及视频流。具体而言，本文档涉及指定对视频编码和封装到文件格式的媒体轨道和片段中的约束。这样的文件格式可以包括国际标准化组织(ISO)基本媒体文件格式(ISOBMFF)。这样的文件格式还可以包括自适应流媒体表示格式，诸如基于超文本传输协议的动态自适应流(DASH)和/或通用媒体应用格式(CMAF)。对于媒体流系统，本文描述的思想可以被单独或以各种组合应用，这样的系统基于DASH标准和相关扩展和/或基于CMAF标准和相关扩展。

本公开包括以下缩写。自适应色彩变换(ACT)、自适应环路滤波器(ALF)、自适应运动矢量分辨率(AMVR)、自适应参数集(APS)、访问单元(AU)、访问单元分隔符(AUD)、高级视频编解码((Rec.ITU-T H.264|ISO/IEC14496-10)(AVC)、双向预测(B)、利用编解码单元级别权重的双向预测(BCW)、双向光流(BDOF)、基于块的增量脉冲编解码调制(BDPCM)、缓存周期(BP)、基于上下文的自适应二进制算术编解码(CABAC)、编解码块(CB)、恒定比特率(CBR)、跨分量自适应环路滤波器(CCALF)、编解码图片缓存器(CPB)、清理随机访问(CRA)、循环冗余校验(CRC)、编解码树块(CTB)、编解码树单元(CTU)、编解码单元(CU)、编解码视频序列(CVS)、解码能力信息(DCI)、解码初始化信息(DII)、解码图片缓存器(DPB)、相关随机访问点(DRAP)、解码单元(DU)、解码单元信息(DUI)、指数-哥伦布(EG)、k阶指数-哥伦布(EGk)、比特流结束(EOB)、序列结束(EOS)、填充数据(FD)、先进先出(FIFO)、固定长度(FL)、绿色、蓝色和红色(GBR)、通用约束信息(GCI)、渐进解码刷新(GDR)、几何分割模式(GPM)、高效视频编解码(也称为Rec.ITU-T H.265|ISO/IEC 23008-2)(HEVC)、假设参考解码器(HRD)、假设流调度器(HSS)、帧内(I)、帧内块复制(IBC)、瞬时解码刷新(IDR)、帧间层参考图片(ILRP)、帧内随机访问点(IRAP)、低频不可分变换(LFNST)、最不可能符号(LPS)、最低有效位(LSB)、长期参考图片(LTRP)、亮度映射与色度缩放(LMCS)、基于矩阵的帧内预测(MIP)、最可能符号(MPS)、最高有效位(MSB)、多重变换选择(MTS)、运动矢量预测(MVP)、网络抽象层(NAL)、输出层集(OLS)、操作点(OP)、操作点信息(OPI)、预测(P)、图片头(PH)、图片顺序计数(POC)、图片参数集(PPS)、利用光流的预测细化(PROF)、图片定时(PT)、图片单元(PU)、量化参数(QP)、随机访问可解码前导图片(RADL)、随机访问跳过前导图片(RASL)、原始字节序列有效载荷(RBSP)、红色、绿色和蓝色(RGB)、参考图片列表(RPL)、样点自适应偏移(SAO)、样点纵横比(SAR)、补充增强信息(SEI)、条带头(SH)、子图片级别信息(SLI)、数据比特串(SODB)、序列参数集(SPS)、短期参考图片(STRP)、逐行时域子层访问(STSA)、截断莱斯(TR)、可变比特率(VBR)、视频编解码层(VCL)、视频参数集(VPS)、多功能补充增强信息(也称为Rec.ITU-T H.274|ISO/IEC 23002-7)(VSEI)、视频可用性信息(VUI)和多功能视频编解码(也称为Rec.ITU-T H.266|ISO/IEC 23090-3)(VCC)。

视频编解码标准主要通过国际电信联盟(ITU)电信标准化部门(ITU-T)和ISO/国际电工委员会(IEC)标准的发展而演进。ITU-T制定了H.261和H.263，ISO/IEC制定了运动图片专家组(MPEG)-1和MPEG-4Visual，并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时域预测加变换编解码。为了探索HEVC以外的视频编解码技术，视频编解码专家组(VCEG)和MPEG联合成立了联合视频探索小组(JVET)。JVET采用了许多方法，并将其放入到名为联合探索模型(JEM)的参考软件中。当多功能视频编解码(VVC)项目正式开始时，JVET后来更名为联合视频专家小组(JVET)。VVC是一种编解码标准，目标是与HEVC相比降低50％的比特率。VVC已经由JVET完成。

VVC标准(也称为ITU-T H.266|ISO/IEC 23090-3)和相关联的多功能补充增强信息(VSEI)标准(也称为ITU-T H.274|ISO/IEC 23002-7)被设计用于广泛的应用中，诸如电视广播、视频会议、从存储介质的回放、自适应比特率流、视频区域提取、来自多个编解码视频比特流的内容的合成和合并、多视角视频、可缩放分层编解码和视口自适应三百六十度(360°)沉浸式媒体。基本视频编解码(EVC)标准(ISO/IEC 23094-1)是由MPEG开发的另一个视频编解码标准。

文件格式标准将在下面讨论。媒体流应用通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输方法，并且通常依赖于诸如ISOBMFF的文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流式传输(DASH)。视频可以以视频格式编码，诸如AVC和/或HEVC。编码的视频可以封装在ISOBMFF轨道中，并包括在DASH表示和片段中。出于内容选择的目的，关于视频比特流的重要信息，诸如档次、层和级别等，可以作为文件格式级别元数据和/或在DASH媒体呈现描述(MPD)中展示。例如，这样的信息可以用于选择适当的媒体片段，用于在流式会话开始时的初始化和流式会话期间的流自适应。

类似地，当使用具有ISOBMFF的图像格式时，可以采用特定于该图像格式的文件格式规范，诸如AVC图像文件格式和HEVC图像文件格式。MPEG正在开发VVC视频文件格式，这是基于ISOBMFF的用于存储VVC视频内容的文件格式。MPEG也正在开发基于ISOBMFF的VVC图像文件格式，这是用于存储使用VVC编解码的图像内容的文件格式。

现在讨论文件格式标准。媒体流式传输应用可以基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输机制。这样的媒体流式传输应用还可以依赖于诸如ISO基本媒体文件格式(ISOBMFF)的文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流式传输(DASH)。为了使用具有ISOBMFF和DASH的视频格式，可以采用专用于该视频格式的文件格式规范来将视频内容封装在ISOBMFF轨道以及DASH表示和片段中。这样的文件格式规范可以包括AVC文件格式和HEVC文件格式。出于内容选择的目的，关于视频比特流的重要信息，诸如档次、层和级别等，可以在文件格式级别元数据和/或DASH媒体呈现描述(MPD)中展示。例如，内容选择可以包括选择适当的媒体片段，用于在流式会话开始时的初始化和流式会话期间的流自适应。类似地，为了使用具有ISOBMFF的图像格式，可以采用专用于该图像格式的文件格式规范，诸如AVC图像文件格式和HEVC图像文件格式。VVC视频文件格式是基于ISOBMFF的用于存储VVC视频内容的文件格式。VVC视频文件格式是由MPEG开发的。VVC图像文件格式是基于ISOBMFF的用于存储使用VVC编解码的图像内容的文件格式。VVC图像文件格式也是由MPEG开发的。

现在讨论DASH。在DASH中，多媒体内容的视频和/或音频数据可能有多种表示。不同的表示可以对应于不同的编解码特性，诸如视频编解码标准的不同档次或级别、不同的比特率、不同的空域分辨率等。这样的表示的清单可以在媒体呈现描述(MPD)数据结构中定义。媒体呈现可以对应于DASH流客户端设备可访问的结构化数据集合。DASH流客户端设备可以请求并下载媒体数据信息，以向客户端设备的用户呈现流服务。媒体呈现可以在MPD数据结构中描述，其可以包括MPD的更新。

媒体呈现可以包含一个或多个周期的序列。每个周期可以延伸到下一个周期的开始，或者在最后一个周期的情况下延伸到媒体呈现的结束。每个周期可以包含相同媒体内容的一个或多个表示。一个表示可以是音频、视频、定时文本或其他这样的数据的多个可替代编码版本中的一个。这些表示可以根据编码类型而不同，例如视频数据的比特率、分辨率、编解码器以及音频数据的比特率、语言和/或编解码器。术语表示可以用来指对应于多媒体内容的特定周期并以特定方式编码的编码音频或视频数据的一部分。

特定周期的表示可以被分配给由MPD中的属性指示的组，其指示该表示所属的自适应集。相同自适应集中的表示通常被认为是相互可替代的。因此，客户端设备可以在这些表示之间动态且无缝地切换，例如执行带宽自适应。例如，特定周期的视频数据的每个表示可以被分配给相同的自适应集，使得可以选择任何表示进行解码，以呈现对应周期的多媒体内容的媒体数据，诸如视频数据或音频数据。在一些示例中，一个周期内的媒体内容可以由来自组0的一个表示(如果存在的话)或者来自每个非零组的至多一个表示的组合来表示。周期的每个表示的定时数据可以相对于周期的开始时间来表达。

一个表示可以包括一个或多个片段。每个表示可以包括初始化片段，或者表示的每个片段可以是自初始化的。当存在时，初始化片段可以包含用于访问表示的初始化信息。通常，初始化片段不包含媒体数据。片段可以由标识符唯一参考，诸如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可以为每个片段提供标识符。在一些示例中，MPD还可以以范围属性的形式提供字节范围，其可以对应于可由URL、URN或URI访问的文件内的片段的数据。

对于不同类型的媒体数据，可以选择不同的表示用于基本上同时的检索。例如，客户端设备可以选择音频表示、视频表示和定时文本表示，从中检索片段。在一些示例中，客户端设备可以选择特定的自适应集来执行带宽自适应。例如，客户端设备可以选择包括视频表示的自适应集、包括音频表示的自适应集和/或包括定时文本的自适应集。在示例中，客户端设备可以为诸如视频的某些类型的媒体选择自适应集，并且直接为诸如音频和/或定时文本的其他类型的媒体选择表示。

可以通过以下步骤示出示例DASH流过程。客户端获得MPD。然后，客户端估计下行链路带宽，并根据估计的下行链路带宽、编解码器、解码能力、显示尺寸、音频语言设置等来选择视频表示和音频表示。直到到达媒体呈现的结束，客户端请求所选择的表示的媒体片段，并向用户呈现流式内容。客户端不断估计下行链路带宽。当带宽显著改变时，例如通过变得更低或变得更高，客户端选择不同的视频表示来匹配新估计的带宽，并继续以更新的下行链路带宽下载片段。

现在讨论CMAF。CMAF指定了对媒体编码和封装成ISOBMFF轨道、ISOBMFF片段(segment)、ISOBMFF段(fragment)、DASH表示和/或CMAF轨道、CMAF段等的约束集合。这样的约束是针对定义为媒体档次的每个互操作性点的封装。CMAF开发的主要目标是通过DASH和Apple HTTP Live Streaming(HLS)的两个单独的媒体流世界，启用对使用特定编解码器(例如，视频的AVC)编码并以特定格式(例如，ISOBMFF)封装的相同媒体内容的重用。

现在讨论VVC中的解码能力信息(DCI)。DCI NAL单元包含比特流级别档次、层和级别(PTL)信息。DCI NAL单元包括可以在VVC比特流的发送方和接收方之间的会话协商期间使用的一个或多个PTL语法结构。当DCINAL单元存在于VVC比特流中时，比特流的CVS中的每个输出层集(OLS)应当符合在DCI NAL单元中的至少一个PTL结构中携带的PTL信息。在AVC和HEVC中，用于会话协商的PTL信息在SPS(用于HEVC和AVC)和VPS(用于HEVC分层扩展)中可用。这种为HEVC和AVC中的会话协商传达PTL信息的设计具有缺点，因为SPS和VPS的范围在CVS内，而不是在整个比特流内。这可能导致发送方-接收方会话发起在每个新CVS的比特流流式传输期间遭受重新发起。DCI解决了这个问题，因为DCI携带比特流级别信息，因此可以保证遵守所指示的解码能力，直到比特流结束。

现在讨论VVC中的视频参数集(VPS)。VVC比特流可以包含视频参数集(VPS)，其包含用于可缩放比特流的解码过程的操作的描述层和输出层集(OLS)的信息。OLS是比特流中的层集，其中一个或多个层被指定从解码器输出。在OLS中标识的其他层也可以被解码，以便解码输出层，尽管这样的层没有被指定输出。VPS中包含的许多信息可以在系统中用于诸如会话协商和内容选择的目的。引入VPS是为了处理多层比特流。对于单层VVC比特流，CVS中VPS的存在是可选的。这是因为包含在VPS中的信息对于比特流的解码过程的操作不是必需的。CVS中缺少VPS通过参考SPS中等于0的VPS标识符(ID)来指示，在这种情况下，为VPS参数推断默认值。

现在讨论VVC中的序列参数集(SPS)。SPS传达由整个编解码层视频序列(CLVS)中的所有图片共享的序列级别信息。这包括PTL指示符、图片格式、特征和/或工具控制标志、编解码、预测和/或变换块结构和层次、编码器可以参考的候选RPL等。图片格式可以包括色彩采样格式、最大图片宽度、最大图片高度和比特深度。在大多数应用中，整个比特流仅采用一个或几个SPS。因此，不需要更新比特流内的SPS。更新SPS可以包括使用现有SPS的SPSID发送新的SPS，但对于某些参数具有不同的值。参考具有不同SPSID或具有相同SPS ID但具有不同SPS内容的SPS的来自特定层的图片属于不同的CLVS。与AVC和HEVC一样，SPS可以带内传输，或者使用带内和带外信令通知的混合来传输。带内信令通知指示诸如SPS的数据与编解码图片一起传输，并且带外信令通知指示诸如SPS的数据不与编解码图片一起传输。

现在讨论VVC中的图像参数集(PPS)。PPS传达由图片的所有条带共享的图片级别信息。这样的信息也可以跨多个图片共享。这包括特征和/或工具开/关标志、图片宽度和高度、默认RPL尺寸、片和条带的配置等。通过设计，两个连续的图片可以指两个不同的PPS。这可能会导致在CLVS内使用大量的PPS。实际上，整个比特流的PPS的数量可能不高，因为PPS被设计成携带不频繁改变的参数，并且可能适用于多个图片。因此，可能不需要更新CLVS内或者甚至整个比特流内的PPS。自适应参数集(APS)可以用于可以适用于多个图片但是预期在不同的图片之间频繁改变的参数。像SPS一样，PPS可以在带内、带外传输，或者使用带内和带外信令通知的混合来传输。关于哪些图片级别参数应该包括在PPS中而哪些应该在APS中的一个基本设计原则是这样的参数可能改变的频率。因此，频繁改变的参数不包括在PPS中，以避免要求PPS更新，这在典型的用例中会不允许PPS的带外传输。

现在讨论VVC中的自适应参数集(APS)。APS传达可以由图片的多个条带和/或不同图片的条带共享但是可以跨图片频繁改变的图片和/或条带级别信息。APS支持具有大量不适合包括在PPS中的变量的信息。APS中包括三种类型的参数，包括自适应环路滤波器(ALF)参数、亮度映射与色度缩放(LMCS)参数和缩放列表参数。APS可以在两种不同的NAL单元类型中携带，其可以作为前缀或后缀在相关联的条带之前或之后。后者在超低延迟的场景中可以有所帮助，诸如允许编码器在基于图片生成ALF参数之前发送图片的条带，该ALF参数将由按照解码顺序的后续图片使用。

现在讨论图片头(PH)。对于每个PU，存在图片头(PH)结构。PH以单独的PH NAL单元存在，或者被包括在条带头(SH)中。如果PU仅包括一个条带，则PH仅可以被包括在SH中。为了简化设计，在CLVS内，PH仅可以全部在PH NAL单元中或者全部在SH中。当PH在SH中时，在CLVS中没有PH NAL单元。设计PH有两个目的。首先，PH帮助减少每图片包含多个条带的图片的SH的信令开销。PH通过携带对于图片的所有条带具有相同值的所有参数来实现这一点，从而防止在每个SH中重复相同的参数。这些包括IRAP和/或GDR图片指示、帧间和/或帧内条带允许标志、以及与POC、RPL、去方块滤波器、SAO、ALF、LMCS、缩放列表、QP增量、加权预测、编解码块分割、虚拟边界、并置图片等有关的信息。其次，PH帮助解码器识别包含多个条带的每个编解码图片的第一个条带。由于对于每个PU存在一个且仅一个PH，所以当解码器接收到PH NAL单元时，解码器知道下一个VCL NAL单元是图片的第一个条带。

现在讨论操作点信息(OPI)。HEVC和VVC的解码过程具有类似的输入变量来设置解码操作点。这些包括要通过解码器API解码的比特流的目标OLS和最高子层。然而，在比特流的层和/或子层在传输期间被移除或者设备没有将解码器应用编程接口(API)展示给应用的场景中，解码器可能不能正确地确定用于处理比特流的操作点。因此，解码器可能无法推断比特流中图片的属性，诸如解码图片的适当缓存器分配以及是否输出单独的图片。为了解决这个问题，VVC包括了通过OPI NAL单元在比特流内指示这两个变量的模式。在比特流的开始的AU和比特流单独的CVS中，OPI NAL单元通知解码器要解码的比特流的目标OLS和最高子层。在OPI NAL单元存在并且操作点也经由解码器API信息提供给解码器的情况下，解码器API信息优先。例如，应用可能具有与目标OLS和子层有关的更多更新信息。在比特流中没有解码器API和任何OPI NAL单元的情况下，在VVC中指定合适的回退选择，以允许正确的解码器操作。

现在讨论示例CMAF规范。VVC视频CMAF轨道可以描述如下。VVC CMAF轨道应当符合NAL结构化视频CMAF轨道的要求。此外，CMAF轨道可以符合本文描述的所有其他要求。如果CMAF轨道符合这些要求，CMAF轨道被称为VVC视频CMAF轨道，并且可以使用品牌“cvvc”。还讨论了VVC视频轨道约束。在示例中，VVC视频CMAF切换集约束如下。CMAF切换集中的每个CMAF轨道应当符合本文定义的VVC视频CMAF轨道。VVC视频CMAF切换集应当符合NAL结构化视频CMAF切换集的约束。

现在讨论可视样点条目。VVC视频轨道可视样点条目的语法和值应当符合VVCSampleEntry(“vvc1”)或VVCSampleEntry(“vvci”)样点条目。现在讨论对VVC基本流的约束。关于VPS，CMAF轨道中的每个VVC视频媒体样点应当参考具有等于0的sps_video_parameter_set_id的SPS(在这种情况下，基本流中没有VPS)，或者应当参考CMAF头样点条目中的VPS。如果存在，则以下附加约束适用。对于VPS中的每个profile_tier_level()结构，以下字段的值在整个VVC基本流中不应当改变：general_profile_idc；general_tier_flag；general_level_idc；num_sub_profiles；以及general_subc_profile_idc[i]。

出现在CMAF VVC轨道内的SPS NAL单元应当符合此处的约束，并具有以下附加约束。以下字段应当具有如下预定值：首先，vui_parameters_present_flag应当被设置为1；其次，如果profile_tier_level()结构存在于SPS中，则以下字段的条件在整个VVC基本流中不应当改变：general_profile_idc；general_tier_flag；general_level_idc；num_sub_profiles；以及general_sub_profile_idc[i]。

现在讨论图像裁剪(crop)参数。SPS和PPS裁剪参数conf_win_top_offset和conf_win_left_offset应当被设置为0。SPS和PPS裁剪参数conf_win_bottom_offset和conf_win_right_offset可以被设置为0以外的值。如果设置为非零值，则这样的语法元素预期被CMAF播放器用来移除不打算显示的视频空域样点。

现在讨论视频编解码器参数。编解码器参数(信息)的VVC信令通知在下面描述。演示应用应该使用参数信令通知每个VVC轨道和CMAF切换集的视频编解码器档次和级别。还讨论了加密。CMAF VVC轨道和CMAF VVC切换集的加密应当使用“cenc”AES-CTR方案或“cbcs”AES-CBC子样点模式加密方案。此外，如果通用加密的“cbcs”模式使用模式加密，则应当应用模式块长度10和加密:跳过模式1:9。

以下是通过公开的技术解决方案解决的示例技术问题。例如，在示例VVC CMAF设计中，可能需要在VPS和SPS中信令通知档次、层和级别，因此在整个VVC基本流中可以不改变。然而，对于VVC比特流，DCI NAL单元可以替代地用于传达整个比特流所需的解码能力，同时允许比特流内的档次、层和级别在CVS之间不同。这将允许更大的灵活性，引起内容准备中所需的更少的转码和其他过程。

本文公开了解决以上列出的一个或多个问题的机制。例如，VVC基本流，也称为VVC比特流，可以被包括在VVC CMAF轨道中。VVC基本流可以包括一个或多个CVS。比特流的档次、层和级别(PTL)信息可以在相同比特流中的CVS之间变化。为了允许该功能，只要保持对应的约束，就可以在DCI NAL单元、VPS和/或SPS中信令通知PTL信息。在示例中，DCI NAL单元需要被包括在CMAF轨道中。在示例中，当多个DCI NAL单元被包括在CMAF轨道中时，所有DCI NAL单元可能需要包括相同的内容。在另一示例中，CMAF轨道可以仅包括单个DCI NAL单元。在示例中，DCI NAL单元可能需要包括在CMAF头样点条目中。在各种示例中，DCI NAL单元可以包含PTL的DCI数减1(dci_num_ptls_minus1)(dci_num_ptls_minus1)字段、PTL帧仅约束标志(ptl_frame_only_constraint_flag)字段和PTL多层启用标志(ptl_multilayer_enabled_flag)，其分别需要等于0、1和0。在示例中，CMAF轨道被限制为包含单个VPS。在示例中，当不存在DCI NAL单元时，VPS中的各种PTL相关信息需要被设置为预定值和/或需要在CVS之间保持相同，如下面进一步讨论的。在示例中，SPS中的各种PTL相关信息需要被设置为预定值和/或需要在CVS之间保持相同，如下面进一步讨论的。在示例中，定时相关的假设参考解码器(HRD)参数可能还需要在CVS之间保持相同。

图1是示出示例CMAF轨道100的示意图。CMAF轨道100是已经基于CMAF标准中指定的约束而封装的视频数据的轨道。CMAF轨道100被约束为支持根据自适应流式传输的广泛的客户端设备的传送和解码。在自适应流式传输中，媒体档次描述了多个不同的可互换表示，这允许客户端设备基于解码器能力和/或当前网络条件来选择期望的表示。CMAF轨道100可以通过包含被约束为可由客户端解码的表示来支持这样的功能，该客户端能够在对应的档次、层和级别(PTL)进行解码，能够使用对应的编解码工具，和/或能够满足其他预定约束。

CMAF轨道123可以包含许多类型的可解码视频流。在本示例中，CMAF轨道123包含VVC流121。VVC流121，也称为比特流，是已经根据VVC标准编解码的视频数据流。例如，VVC流121可以包括编解码图片和描述编解码过程的相关联语法和/或对解码器有用的其他数据的流。VVC流121可以包含一个或多个CVS 117。CVS 117是按照解码顺序的访问单元(AU)序列。AU是具有对应输出/显示时间的一个或多个图片的集合。这样，CVS 117包含一系列相关图片和用于支持解码和/或描述图片的对应语法。

CVS 117可以包括DCI NAL单元115、VPS 111、SPS 113和/或编解码视频119。DCINAL单元115包含描述对CVS 117和/或整个VVC流121中的视频数据进行解码的要求的信息。DCI NAL单元115是可选的，并且可以在一些VVC流121和/或CVS 117中省略。应该注意，尽管被描绘为VVC流121的一部分，但是在一些示例中，DCU NAL单元115也可以被包括在CMAF轨道123中的CMAF头样点条目中。VPS 111可以包含与整个VVC流121有关的数据。例如，VPS111可以包含在VVC流121中使用的数据相关输出层集(OLS)、层和/或子层。VPS 111是可选的，并且可以在一些VVC流121和/或CVS 117中省略。SPS 113包含VVC流121中包含的CVS117中的所有图片共有的序列数据。SPS 113中的参数可以包括图片尺寸、比特深度、编解码工具参数、比特率限制等。SPS 113应该被包含在至少一个CVS 117中。然而，多个CVS 117可以指相同的SPS 113。因此，VVC流121应该包含一个或多个SPS 113。编解码视频119包括根据VVC和对应语法编解码的图片。

本公开涉及应用于DCI NAL单元115、VPS 111和/或SPS 113中包含的语法元素的约束。在示例中，DCI NAL单元115可能需要存在于CMAF轨道123中。在示例中，当多于一个DCI NAL单元115存在于单个CMAF轨道123中时，所有这样的DCI NAL单元115可能需要包括相同的内容。在一些示例中，CMAF 123轨道可以被限制为包括一个且仅一个DCI NAL单元115。在这种情况下，视频内容的多个CVS 117可以由单个DCI NAL单元115描述。当存在时，DCI NAL单元115可以包含PTL的DCI数减1(dci_num_ptls_minus1)132和/或PTL语法(profile_tier_level)结构130。dci_num_ptls_minus1 132可以以减1的格式指定包含在DCI NAL单元115中的profile_tier_level结构130的数量。减1格式指示语法元素包含的值比实际值少1，因此1被加到语法元素中包含的值以确定实际值。在示例中，dci_num_ptls_minus1 132可以被限制为等于0，这指示单个profile_tier_level结构130。这指示CMAF轨道123包含遵守单个PTL信息集合的视频。取决于示例，profile_tier_level结构130可以被包含在DCI NAL单元115、VPS 111和/或SPS 113中，并且将在下文中更详细地讨论。

在示例中，CMAF轨道123被限制为包含一个且仅一个VPS 111。在这种情况下，多个CVS 117可以由单个VPS 111描述。VPS 111可以包含VPS最大层减1(vps_max_layers_minus1)字段134、PTL的VPS数减1(vps_num_ptls_minus1)字段133、通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构131和profile_tier_level结构130。vps_max_layers_minus1字段134以减1的格式指示由VPS 111指定的层数。在示例中，vps_max_layers_minus1字段134可以被限制为包含值0，这指示VPS 111描述单个层。vps_num_ptls_minus1字段133可以以减1的格式指定包含在VPS 111中的profile_tier_level结构130的数量。在示例中，vps_num_ptls_minus1字段133可以被限制为包含值0，这向VPS 111指示单个PTL信息集合。

取决于示例，general_timing_hrd_parameters 131可以被包含在VPS 111和/或SPS 113中。例如，当包括VPS 111时，VPS 111可以包含general_timing_hrd_parameters131。当不包括VPS 111时，SPS可以包含general_timing_hrd_parameters 131。general_timing_hrd_parameters 131包括由在编码器处操作的HRD使用的定时相关参数。通常，HRD可以使用HRD参数来检查VVC流121符合VVC标准。general_timing_hrd_parameters 131向编码器指示与编解码视频119有关的定时参数。例如，general_timing_hrd_parameters131可以指示每个图片应该多快由解码器解码和重构精确显示。在示例中，general_timing_hrd_parameters 131可以包含时标(time_scale)字段和刻点中的单元数量(num_units_in_tick)字段。time_scale字段指示一秒内经过的时间单元的数量，其中时间单元对应于视频信号的图片速率频率。num_units_in_tick指示在以赫兹(Hz)为单位的time_scale的频率下操作的时钟的时间单元的数量，其对应于称为时钟刻点的一个递增。在示例中，general_timing_hrd_parameters 131中的num_units_in_tick和time_scale的值被限制为在相同VVC流121中的CVS 117之间保持不变。在示例中，general_timing_hrd_parameters 131中的num_units_in_tick和time_scale的值被限制为对于整个CMAF轨道123保持不变。

SPS 113可以包含如上所讨论的general_timing_hrd_parameters 131，例如当不包括VPS 111时。例如，当不包括DCI NAL单元115和/或VPS 111时，SPS 113还可以包含profile_tier_level结构130。SPS 113还可以包含视频可用性信息有效载荷(vui_payload)结构135。vui_payload结构135包含描述解码器应该如何使用编解码视频119的信息。例如，vui_payload结构135可以包括视频可用性信息逐行源标志(vui_progressive_source_flag)字段139和视频可用性信息交织源标志(vui_interlaced_source_flag)字段138。vui_progressive_source_flag字段139可以被设置为指示CMAF轨道123中的视频是否根据逐行扫描进行编解码。vui_interlaced_source_flag字段138可以被设置为指示CMAF轨道123中的视频是否根据交织进行编解码。在示例中，vui_interlaced_source_flag字段138、vui_progressive_source_flag字段139或两者可能需要被设置为1。这指示编解码视频119根据交织、逐行扫描或两者进行编解码。

如上所述，DCI NAL单元115、VPS 111和/或SPS 113可以包含profile_tier_level结构130。profile_tier_level结构130包含与用于对编解码视频进行编解码的档次、层和级别有关的信息。档次指示用于对编解码视频进行编解码的档次。不同的档次具有不同的编解码特性(例如，不同编解码工具的可用性)，诸如不同的比特深度、不同的色度采样格式、跨分量预测可用性、帧内平滑禁用可用性。层指示编解码视频119是根据高层还是主层进行编解码的，因此是针对一般应用的要求应用进行编解码的。级别指示对编解码视频119的约束，诸如比特率最大值、最大图片尺寸、最大采样率、最高帧速率下的分辨率、片的最大数量、每图片的条带的最大数量等。因此，profile_tier_level结构130中的PTL信息描述了解码器为了解码和显示编解码视频119必须具有的能力。

profile_tier_level结构130可以包括PTL帧仅约束标志(ptl_frame_only_constraint_flag)字段141、PTL多层启用标志(ptl_multilayer_enabled_flag)143、通用档次标识码(general_profile_idc)145、通用层标志(general_tier_flag)147、通用级别标识码(general_level_idc)149、子层档次数量(num_sub_profiles)142和/或每个第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])144。ptl_frame_only_constraint_flag字段141指定CVS 117是否传达表示帧(例如，完整屏幕图像)或字段(例如，旨在被组合以填充屏幕的部分屏幕图像)的图片。在示例中，约束可以要求ptl_frame_only_constraint_flag字段141被设置为1，这指示编解码视频119包括被编解码为帧的图片。ptl_multilayer_enabled_flag 143指示编解码视频119是否在多个层中被编解码。在示例中，ptl_multilayer_enabled_flag 143被设置为0，这指示编解码视频119在单个层中被编解码。

general_profile_idc 145、general_tier_flag 147和general_level_idc 149分别指示编解码视频119的档次、层和级别。general_sub_profile_idc[i]144指示互操作性指示符的0到i值。num_sub_profiles 142指示general_sub_profile_idc[i]144中包含的语法元素的数量。在示例中，包含在general_profile_idc 145、general_tier_flag147、general_level_idc 149、num_sub_profiles 142和general_sub_profile_idc[i]144中的值需要在相同VVC流中的CVS 117之间保持不变。在另一示例中，包含在general_profile_idc 145、general_tier_flag 147、general_level_idc 149、num_sub_profiles142和general_sub_profile_idc[i]144中的值需要在CMAF轨道123中保持不变。

为了解决以上问题和其他问题，公开了如下总结的方法。这些项应该被认为是解释一般概念的示例，而不应该以狭隘的方式解释。此外，这些项可以被单独应用或者以任何方式组合应用。

示例1

在一个示例中，规则可以指定DCI NAL单元应该存在于VVC CMAF轨道中。

示例2

在一个示例中，规则可以指定DCI NAL单元应当存在于VVC CMAF轨道中。

示例3

在一个示例中，规则可以指定VVC CMAF轨道中存在的所有DCI NAL单元应当具有相同的内容。

示例4

在一个示例中，规则可以指定在VVC CMAF轨道中应当存在一个且仅一个DCI NAL单元。

示例5

在一个示例中，规则可以指定当DCI NAL单元存在于VVC CMAF轨道中时，DCI NAL单元应当存在于CMAF头样点条目中。

示例6

在一个示例中，规则可以指定VVC CMAF轨道中的DCI NAL单元中的dci_num_ptls_minus1字段的值应当等于0。

示例7

在一个示例中，规则可以指定VVC CMAF轨道中的DCI NAL单元中的profile_tier_level()结构中的ptl_frame_only_constraint_flag字段的值应当等于1。

示例8

在一个示例中，规则可以指定VVC CMAF轨道中的DCI NAL单元中的profile_tier_level()结构中的ptl_multilayer_enabled_flag字段的值应当等于0。

示例9

在一个示例中，规则可以指定在VVC CMAF轨道中应当存在一个且仅一个VPS单元。

示例10

在一个示例中，规则可以指定当没有DCI NAL单元存在于VVC CMAF轨道中并且一个或多个VPS存在于VVC CMAF轨道中时，以下约束中的一个或多个适用。约束包括对于每个VPS，vps_max_layers_minus1字段的值应当等于0，并且对于每个VPS，vps_num_ptls_minus1字段的值应当等于0。

在示例中，以下约束适用于每个VPS中的profile_tier_level()结构。这样的约束包括ptl_frame_only_constraint_flag字段的值应当等于1；并且ptl_multilayer_enabled_flag字段的值应当等于0。

在示例中，在参考的VPS的profile_tier_level()结构中的以下字段中的每个字段的值在整个VVC基本流中从一个编解码的视频序列到另一个编解码的视频序列不应当改变：general_profile_idc；general_tier_flag；general_level_idc；num_sub_profiles；以及针对每个i值的general_sub_profile_idc[i]。在示例中，规则可以要求这些字段中的每个字段的值对于VVC CMAF轨道中存在的所有VPS是相同的。

示例11

在一个示例中，规则可以指定VVC CMAF轨道中的SPS中的vui_payload()结构中的vui_progressive_source_flag字段的值应当等于1。

示例12

在一个示例中，规则可以指定VVC CMAF轨道中的SPS中的vui_payload()结构中的vui_interlaced_source_flag字段的值应当等于1。

示例13

在一个示例中，规则可以指定当没有DCI NAL单元存在并且没有VPS存在于VVCCMAF轨道中时，参考的SPS的profile_tier_level()结构中的以下字段中的每个字段的值在整个VVC基本流中从一个编解码的视频序列到另一个编解码的视频序列不应当改变：general_profile_idc；general_tier_flag；general_level_idc；num_sub_profiles；以及针对每个i值的general_sub_profile_idc[i]。在示例中，规则可以要求这些字段中的每个字段的值对于VVC CMAF轨道中存在的所有SPS是相同的。

示例14

在一个示例中，规则可以指定参考的VPS或SPS中的general_timing_hrd_parameters()结构(当存在时)中的以下字段中的每个字段的值在整个VVC基本流中从一个编解码的视频序列到另一个编解码的视频序列不应当改变：num_units_in_tick；以及time_scale。在示例中，规则可以要求这些字段中的每个字段的值对于VVC CMAF轨道中存在的VPS或SPS中的所有general_timing_hrd_parameters()结构应当是相同的。

现在描述先前示例的实施例。这个实施例可以被应用于CMAF。相对于VVC CMAF规范，已经添加或修改的大部分相关部分以粗体下划线字体示出，并且一些删除的部分以粗体斜体字体示出。可能有本质上是编辑性的并且因此没有突出显示的一些其他改变。

X.1VVC视频CMAF轨道。VVC CMAF轨道应当符合NAL结构化视频CMAF轨道的要求。此外，它应当符合该附录中的所有剩余要求。如果CMAF轨道符合这些要求，它被称为VVC视频CMAF轨道，并且可以使用品牌“cvvc”。

X.2VVC视频轨道约束。X.2.1VVC视频CMAF切换集约束。CMAF切换集中的每个CMAF轨道应当符合如第X.1条所定义的VVC视频CMAF轨道。VVC视频CMAF切换集应当符合NAL结构化视频CMAF切换集的约束。

X.2.2可视样点条目。VVC视频轨道的可视样点条目的语法和值应当符合如ISO/IEC 14496-15所定义的VVCSampleEntry(“vvc1”)或VVCSampleEntry

样点条目。

X.3.2视频参数集(VPS)。CMAF轨道中的每个VVC视频媒体样点应当参考sps_video_parameter_set_id等于0的SPS，在这种情况下，在基本流中没有VPS，或者应当参考CMAF头样点条目中的

VPS。

以下附加约束适用：

profile_tier_level()结构

在整个VVC基本流中

不应当改变：general_profile_idc、general_tier_flag、general_level_idc、num_sub_profiles、

general_sub_profile_idc[i]。

X.3.3序列参数集(SPS)。在CMAF VVC轨道内出现的序列参数集NAL单元应当符合以下附加约束：以下字段应当具有如下预定值：

vui_parameters_present_flag应当被设置为1。

在整个VVC基本流中

到另一个编解码的视频序列不应当改变：general_profile_idc、general_tier_flag、general_level_idc、num_sub_profiles和针对每个i值的general_sub_profile_idc[i]。

X.3.5图像裁剪参数。SPS和PPS裁剪参数

conf_win_top_offset

和

conf_win_left_offset

应当被设置为0。SPS和PPS裁剪参数

conf_win_bottom_offset

和

conf_win_right_offset

可以被设置为0以外的值。如果设置为非零值，则其预计由CMAF播放器用于移除不打算显示的视频空域样点。

图2是示出可以在其中实施本文公开的各种技术的示例视频处理系统4000的框图。各种实施方式可以包括系统4000的一些或所有组件。系统4000可以包括用于接收视频内容的输入4002。视频内容可以以例如8或10比特多分量像素值的原始或未压缩格式而接收，或者可以是压缩或编码格式。输入4002可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括诸如以太网、无源光网络(PON)等的有线接口和诸如Wi-Fi或蜂窝接口的无线接口。

系统4000可以包括可以实施本文档中描述的各种编解码或编码方法的编解码组件4004。编解码组件4004可以将来自输入4002的视频的平均比特率减小到编解码组件4004的输出，以产生视频的编解码表示。编解码技术因此有时被称为视频压缩或视频转码技术。编解码组件4004的输出可以被存储，或者经由如由组件4006表示的通信连接而发送。在输入4002处接收的视频的存储或通信传送的比特流(或编解码)表示可以由组件4008用于生成像素值或传送到显示接口4010的可显示视频。从比特流表示生成用户可视视频的过程有时被称为视频解压缩。此外，虽然某些视频处理操作被称为“编解码”操作或工具，但是将理解，编解码工具或操作在编码器处被使用，并且反转编解码结果的对应的解码工具或操作将由解码器执行。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)、或高清晰度多媒体接口(HDMI)、或显示端口(Displayport)等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以体现在各种电子设备中，诸如移动电话、膝上型电脑、智能电话、或能够执行数字数据处理和/或视频显示的其他设备。

图3是示例视频处理装置4100的框图。装置4100可以用于实施本文描述的一种或多种方法。装置4100可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置4100可以包括一个或多个处理器4102、一个或多个存储器4104和视频处理电路4106。(多个)处理器4102可以被配置为实施本文档中描述的一种或多种方法。存储器(多个存储器)4104可以用于存储用于实施本文描述的方法和技术的数据和代码。视频处理电路4106可以用于在硬件电路系统中实施本文档中描述的一些技术。在一些实施例中，视频处理电路4106可以至少部分被包括在处理器4102(例如，图形协处理器)中。

图4是视频处理的示例方法4200的流程图。方法4200包括在步骤4202确定VVC基本流中的SPS中的信息。在示例中，规则指定num_units_in_tick和time_scale在存在于SPS中时在VVC基本流中的视频序列之间不应当改变。在示例中，VVC基本流包括VPS，并且该规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。在示例中，num_units_in_tick和time_scale被包含在general_timing_hrd_parameters结构中。在示例中，该规则指定num_units_in_tick的值以及time_scale的值对于VVC CMAF轨道中的所有general_timing_hrd_parameters结构应当是相同的。在示例中，该规则指定在VVC CMAF轨道中应当有一个且仅一个VPS单元。

在示例中，该规则指定当VVC CMAF轨道中不存在DCI NAL单元时并且当CMAF轨道中不存在VPS时，general_profile_idc的值、general_tier_flag的值、general_level_idc的值、num_sub_profiles的值和general_sub_profile_idc[i]的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。在示例中，该规则指定当VVC CMAF轨道中不存在DCI NAL单元时并且当CMAF轨道中存在一个或多个VPS时，一个或多个约束适用。一个或多个约束包括：vps_max_layers_minus1字段的值对于每个VPS应当等于0，vps_num_ptls_minus1的值对于每个VPS应当等于0，每个VPS中的profile_tier_level结构中的ptl_fram_only_constraint_flag的值应当等于1，并且每个VPS中的profile_tier_level结构中的ptl_multilayer_enabled_flag的值应当等于0。在示例中，该规则指定general_profile_idc的值、general_tier_flag的值、general_level_idc的值、num_sub_profiles的值以及general_sub_profile_idc[i]的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

在步骤4204，基于SPS在可视媒体数据和媒体数据文件之间执行转换。当在编码器上执行方法4200时，该转换包括根据可视媒体数据来生成媒体数据文件。该转换包括确定SPS并将其编码为VVC基本流中包含的比特流。当在解码器上执行方法4200时，该转换包括根据SPS来解析和解码VVC基本流，以获得可视媒体数据。

应该注意，方法4200可以在用于处理视频数据的装置中实施，该装置包括处理器和其上具有指令的非暂时性存储器，诸如视频编码器4400、视频解码器4500和/或编码器4600。在这种情况下，指令在由处理器执行时使得处理器执行方法4200。此外，方法4200可以由包括供视频编解码设备使用的计算机程序产品的非暂时性计算机可读介质执行。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令，使得当由处理器执行时，使视频编解码设备执行方法4200。

图5是示出可以利用本公开的技术的示例视频编解码系统4300的框图。视频编解码系统4300可以包括源设备4310和目标设备4320。源设备4310生成编码视频数据，其中该源设备4310可以被称为视频编码设备。目标设备4320可以解码由源设备4310生成的编码视频数据，目标设备4320可以被称为视频解码设备。

源设备4310可以包括视频源4312、视频编码器4314和输入/输出(I/O)接口4316。视频源4312可以包括源，诸如视频捕捉设备、从视频内容提供器接收视频数据的接口、和/或用于生成视频数据的计算机图形系统、或这些源的组合。视频数据可以包括一个或多个图片。视频编码器4314对来自视频源4312的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关数据。编解码图片是图片的编解码表示。相关数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口4316可以包括调制器/解调器(调制解调器)和/或发射器。编码视频数据可以通过网络4330经由I/O接口4316直接发送到目标设备4320。编码视频数据也可以存储在存储介质/服务器4340上，以供目标设备4320访问。

目标设备4320可以包括I/O接口4326、视频解码器4324和显示设备4322。I/O接口4326可以包括接收器和/或调制解调器。I/O接口4326可以从源设备4310或存储介质/服务器4340获取编码视频数据。视频解码器4324可以对编码视频数据进行解码。显示设备4322可以向用户显示解码视频数据。显示设备4322可以与目标设备4320集成，或者可以在可以被配置为与外部显示设备接口的目标设备4320的外部。

视频编码器4314和视频解码器4324可以根据视频压缩标准进行操作，例如高效视频编解码(HEVC)标准、多功能视频编解码(VVM)标准和其他当前和/或另外的标准。

图6是示出视频编码器4400的示例的框图，该视频编码器4400可以是图5所示的系统4300中的视频编码器4314。视频编码器4400可以被配置为执行本公开的任何或所有技术。视频编码器4400包括多个功能组件。本公开中描述的技术可以在视频编码器4400的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

视频编码器4400的功能组件可以包括分割单元4401、预测单元4402(其可以包括模式选择单元4403、运动估计单元4404、运动补偿单元4405和帧内预测单元4406)、残差生成单元4407、变换处理单元4408、量化单元4409、反量化单元4410、反变换单元4411、重构单元4412、缓存器4413和熵编码单元4414。

在其他示例中，视频编码器4400可以包括更多、更少或不同的功能组件。在示例中，预测单元4402可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式执行预测，其中至少一个参考图片是当前视频块所在的图片。

此外，诸如运动估计单元4404和运动补偿单元4405的一些组件可以高度集成，但是为了解释的目的，在视频编码器4400的示例中分开表示。

分割单元4401可以将图片分割为一个或多个视频块。视频编码器4400和视频解码器4500可以支持各种视频块尺寸。

模式选择单元4403可以基于误差结果选择编解码模式(例如，帧内或帧间)之一，并且将作为结果的帧内编解码块或帧间编解码块提供给残差生成单元4407以生成残差块数据，以及提供给重构单元4412以重构编码块以用作参考图片。在一些示例中，模式选择单元4403可以选择帧内和帧间预测模式的组合(CIIP)，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元4403还可以选择块的运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元4404可以通过将来自缓存器4413的一个或多个参考帧与当前视频块进行比较，来生成当前视频块的运动信息。运动补偿单元4405可以基于运动信息和来自缓存器4413的除了与当前视频块相关联的图片之外的图片的解码样点，来确定当前视频块的预测视频块。

运动估计单元4404和运动补偿单元4405可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元4404可以对当前视频块执行单向预测，并且运动估计单元4404可以为当前视频块的参考视频块搜索列表0或列表1的参考图片。运动估计单元4404然后可以生成指示列表0或列表1中的参考图片的参考索引和运动矢量，该参考图片包含参考视频块，该运动矢量指示当前视频块和参考视频块之间的空域位移。运动估计单元4404可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元4405可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元4404可以对当前视频块执行双向预测，运动估计单元4404可以在列表0中的参考图片中搜索当前视频块的参考视频块，并且还可以在列表1中搜索当前视频块的另一个参考视频块。运动估计单元4404然后可以生成参考索引以及运动矢量，该参考索引指示包含参考视频块的列表0和列表1中的参考图片，该运动矢量指示参考视频块和当前视频块之间的空域位移。运动估计单元4404可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元4405可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元4404可以输出完整的运动信息集，以用于解码器的解码处理。在一些示例中，运动估计单元4404可以不输出当前视频的完整的运动信息集。而是运动估计单元4404可以参考另一个视频块的运动信息信令通知当前视频块的运动信息。例如，运动估计单元4404可以确定当前视频块的运动信息与临近视频块的运动信息足够相似。

在一个示例中，运动估计单元4404可以在与当前视频块相关联的语法结构中指示值，该值向视频解码器4500指示当前视频块具有与另一个视频块相同的运动信息。

在另一个示例中，运动估计单元4404可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量和所指示的视频块的运动矢量之间的差。视频解码器4500可以使用所指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器4400可以预测性地信令通知运动矢量。可以由视频编码器4400实施的预测信令通知技术的两个示例包括高级运动矢量预测(AMVP)和Merge模式信令通知。

帧内预测单元4406可以对当前视频块执行帧内预测。当帧内预测单元4406对当前视频块执行帧内预测时，帧内预测单元4406可以基于同一图片中的其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。

残差生成单元4407可以通过从当前视频块中减去当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括与当前视频块中样点的不同样点分量相对应的残差视频块。

在其他示例中，例如在跳过模式中，对于当前视频块可能没有当前视频块的残差数据，并且残差生成单元4407可以不执行减法操作。

变换处理单元4408可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来为当前视频块生成一个或多个变换系数视频块。

在变换处理单元4408生成与当前视频块相关联的变换系数视频块之后，量化单元4409可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

反量化单元4410和反变换单元4411可以分别对变换系数视频块应用反量化和反变换，以从变换系数视频块重构残差视频块。重构单元4412可以将重构后的残差视频块添加到来自预测单元4402生成的一个或多个预测视频块的对应样点，以产生与当前块相关联的重构视频块，用于存储在缓存器4413中。

在重构单元4412重构视频块之后，可以执行环路滤波操作，以减少视频块中的视频块伪像。

熵编码单元4414可以从视频编码器4400的其他功能组件接收数据。当熵编码单元4414接收到数据时，熵编码单元4414可以执行一个或多个熵编码操作，以生成熵编码数据，并输出包括该熵编码数据的比特流。

图7是示出视频解码器4500的示例的框图，视频解码器4500可以是图5所示的系统4300中的视频解码器4324。视频解码器4500可以被配置为执行本公开的任何或所有技术。在示出的示例中，视频解码器4500包括多个功能组件。本公开中描述的技术可以在视频解码器4500的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在示出的示例中，视频解码器4500包括熵解码单元4501、运动补偿单元4502、帧内预测单元4503、反量化单元4504、反变换单元4505、重构单元4506和缓存器4507。在一些示例中，视频解码器4500可以执行通常与针对视频编码器4400描述的编码过程相反的解码过程。

熵解码单元4501可以检索编码比特流。编码比特流可以包括熵编解码的视频数据(例如，视频数据的编码块)。熵解码单元4501可以解码熵编解码的视频数据，并且根据熵解码的视频数据，运动补偿单元4502可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元4502可以例如通过执行AMVP和Merge模式来确定这样的信息。

运动补偿单元4502可以产生运动补偿块，可以基于插值滤波器执行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。

运动补偿单元4502可以使用如视频编码器4400在视频块的编码期间使用的插值滤波器来计算参考块的子整数像素的插值。运动补偿单元4502可以根据所接收的语法信息确定视频编码器4400使用的插值滤波器，并使用该插值滤波器来产生预测块。

运动补偿单元4502可以使用一些语法信息来确定用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸、描述编码视频序列的图片的每个宏块如何被分割的分割信息、指示每个分割如何被编码的模式、每个帧间编解码块的一个或多个参考帧(和参考帧列表)以及用于对编码视频序列进行解码的其他信息。

帧内预测单元4503可以使用例如在比特流中接收的帧内预测模式来从空域上相邻的块形成预测块。反量化单元4504对在比特流中提供并由熵解码单元4501解码的量化后的视频块系数进行反量化，即，解量化。反变换单元4505应用反变换。

重构单元4506可以将残差块与由运动补偿单元4502或帧内预测单元4503生成的对应预测块相加，以形成解码块。如果需要，还可以应用去方块滤波器来滤波解码块，以便移除块伪像。解码的视频块然后被存储在缓存器4507中，为随后的运动补偿/帧内预测提供参考块，并且还产生解码的视频以在显示设备上呈现。

图8是示例编码器4600的示意图。编码器4600适合于实施VVC的技术。编码器4600包括三个环路滤波器，即去方块滤波器(DF)4602、样点自适应偏移(SAO)4604和自适应环路滤波器(ALF)4606。与使用预定义滤波器的DF 4602不同，SAO 4604和ALF 4606利用当前图片的原始样点，通过用信令通知偏移和滤波器系数的编解码的边信息分别添加偏移和应用有限脉冲响应(FIR)滤波器，来减小原始样点和重构样点之间的均方误差。ALF 4606位于每个图片的最后处理阶段，并且可以被视为试图捕捉和修复由先前阶段创造的伪像的工具。

编码器4600还包括被配置为接收输入视频的帧内预测组件4608和运动估计/补偿(ME/MC)组件4610。帧内预测组件4608被配置为执行帧内预测，而ME/MC组件4610被配置为利用从参考图片缓存器4612获得的参考图片来执行帧间预测。来自帧间预测或帧内预测的残差块被馈送到变换(T)组件4614和量化(Q)组件4616中，以生成量化的残差变换系数，其被馈送到熵编解码组件4618中。熵编解码组件4618对预测结果和量化的变换系数进行熵编解码，并将其发送到视频解码器(未示出)。从量化组件4616输出的量化分量可以被馈送到反量化(IQ)组件4620、反变换组件4622和重构(REC)组件4624中。REC组件4624能够将图像输出到DF 4602、SAO 4604和ALF4606，以在这些图像被存储在参考图片缓存器4612中之前进行滤波。

接下来提供了一些示例优选的解决方案列表。

以下解决方案示出了本文讨论的技术的示例。

1.一种媒体数据处理的方法(例如，图4中描绘的方法4200)，包括：根据规则来执行可视媒体信息和可视媒体信息的数字表示之间的转换，其中该规则指定解码能力信息(DCI)网络抽象层(NAL)单元是否或如何被包括在数字表示中的编解码基本流的轨道中。

2.根据解决方案1所述的方法，其中，该规则指定DCI NAL单元被包括在编解码基本流的每个轨道中。

3.根据解决方案1-2中任一项所述的方法，其中，该规则指定在多个DCINAL单元被包括在编解码基本流的轨道中的情况下，多个DCI NAL单元具有相同的内容。

4.根据解决方案1-2中任一项所述的方法，其中，该规则指定仅一个DCINAL单元被包括在编解码基本流的轨道中。

5.根据解决方案1所述的方法，其中，该规则指定DCI NAL单元在存在于编解码基本流的轨道中时被约束在轨道的头样点条目中。

6.根据解决方案1-5所述的方法，其中，该规则指定DCI NAL单元符合DCI NAL单元中的字段的值被约束为等于预定值的约束。

7.根据解决方案6所述的方法，其中，该字段指示档次、层、层结构的数量减1，并且其中预定值等于0。

8.根据解决方案6所述的方法，其中，该字段指示是否启用档次-层-级别的多层指示，并且其中预定值等于1。

9.一种媒体数据处理的方法，包括：根据规则来执行可视媒体信息和可视媒体信息的数字表示之间的转换，其中该规则指定视频参数集(VPS)单元是否或如何被包括在数字表示中的编解码基本流的轨道中。

10.根据解决方案9所述的方法，其中，该规则指定仅一个VPS单元被包括在编解码基本流的轨道中。

11.根据解决方案9-10中任一项所述的方法，其中，该规则指定在编解码基本流的轨道包括VPS单元但不包括解码能力信息(DCI)网络抽象层(NAL)单元的情况下，数字表示满足约束。

12.根据解决方案9-11中任一项所述的方法，其中，该规则指定VPS符合VPS中的字段的值被约束为等于预定值的约束。

13.根据解决方案9-12中任一项所述的方法，其中，该规则指定在编解码基本流的轨道不包括VPS单元和解码能力信息(DCI)网络抽象层(NAL)单元的情况下，数字表示满足约束。

14.一种媒体数据处理的方法，包括：根据规则来执行可视媒体信息和可视媒体信息的数字表示之间的转换，其中该规则指定由序列参数集的视频参数集参考的假设参考解码器结构中包括的字段的值是否或如何被允许在数字表示中的编解码视频基本流中从一个编解码的视频序列到第二编解码的视频序列改变。

15.根据解决方案14所述的方法，其中，该值指示时标(time scale)。

16.根据解决方案14-15中任一项所述的方法，其中，该规则指定字段的值在数字表示中的每个假设参考解码器结构中是相同的。

17.一种媒体数据处理的方法，包括：获得可视媒体信息的数字表示，其中该数字表示根据解决方案1-16中任一项所述的方法来生成；以及流式传输数字表示。

18.一种媒体数据处理的方法，包括：接收可视媒体信息的数字表示，其中该数字表示根据解决方案1-16中任一项所述的方法来生成；以及从数字表示生成可视媒体信息。

19.根据解决方案1-18中任一项所述的方法，其中，该转换包括生成可视媒体数据的比特流表示，并且根据格式规则将比特流表示存储到文件。

20.根据解决方案1-18中任一项所述的方法，其中，该转换包括根据格式规则来解析文件，以恢复可视媒体数据。

21.一种视频解码装置，包括被配置为实施根据解决方案1至20中的一项或多项所述的方法的处理器。

22.一种视频编码装置，包括被配置为实施根据解决方案1至20中的一项或多项所述的方法的处理器。

23.一种存储有计算机代码的计算机程序产品，该代码在由处理器执行时使得处理器实施根据解决方案1至20中任一项所述的方法。

24.一种计算机可读介质，其上有符合根据解决方案1至20中任一项生成的文件格式的比特流表示。

25.一种本文档中描述的方法、装置或系统。在本文描述的解决方案中，编码器可以通过根据格式规则产生编解码表示来符合格式规则。在本文描述的解决方案中，解码器可以根据格式规则，在了解语法元素的存在和不存在的情况下，使用格式规则来解析编解码表示中的语法元素，以产生解码的视频。

在本文档中，术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如，可以在从视频的像素表示到对应比特流表示的转换期间应用视频压缩算法，反之亦然。当前视频块的比特流表示可以例如对应于比特流内的并置的或散布在不同地方的比特，如语法所定义的。例如，宏块可以根据变换和编解码后的误差残差值并且还使用比特流中的头和其他字段中的比特来编码。此外，在转换期间，解码器可以基于该确定，在知道一些字段可能存在或不存在的情况下解析比特流，如以上解决方案所述。类似地，编码器可以确定包括或不包括某些语法字段，并通过包括语法字段或从编解码表示中排除语法字段来相应地生成编解码表示。

本文档中描述的所公开的以及其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中、或者在计算机软件、固件或硬件(包括本文档中公开的结构及其结构等同物)中、或者在它们中的一个或多个的组合中被实施。所公开的以及其他实施例可以被实施为一个或多个计算机程序产品，即在计算机可读介质上编码的计算机程序指令的一个或多个模块，该计算机程序指令用于由数据处理装置运行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的组合、或它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机、或多个处理器或计算机。除了硬件之外，装置还可以包括为所讨论的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。传播信号是被生成以对信息进行编码以用于发送到合适的接收器装置的人工生成的信号，例如机器生成的电信号、光学信号或电磁信号。

计算机程序(也已知为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写，并且其可以以任何形式部署，包括作为独立程序或作为适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署以在一个计算机上或在位于一个站点上或跨多个站点分布并通过通信网络互连的多个计算机上运行。

本文档书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以被实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于运行计算机程序的处理器包括例如通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或可操作地耦合以从该一个或多个大容量存储设备接收数据或向该一个或多个大容量存储设备传递数据、或者从其接收数据并向其传递数据。然而，计算机不需要这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪存设备；磁盘，例如内部硬盘或可换式磁盘；磁光盘；以及光盘只读存储器(CD ROM)和数字多功能盘只读存储器(DVD-ROM)磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

虽然本专利文档包含许多细节，但这些细节不应该被解释为对任何主题或可能要求保护的范围的限制，而是作为指定于特定技术的特定实施例的特征的描述。在本专利文档中在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合实施。此外，尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合排除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应该被理解为需要以所示的特定顺序或以先后顺序执行这样的操作或者执行所有示出的操作以实现期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分离不应该被理解为在所有实施例中都需要这样的分离。

仅描述了一些实施方式和示例，并且可以基于本专利文档中描述和示出的内容来进行其他实施方式、增强和变化。

当在第一组件和第二组件之间除了线、迹线或另一介质之外没有中间组件时，第一组件直接耦合到第二组件。当在第一组件和第二组件之间有除了线、迹线或另一介质之外的中间组件时，第一组件间接耦合到第二组件。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明，术语“大约”的使用意味着包括后续数字的±10％的范围。

虽然在本公开中已经提供了几个实施例，但是应该理解，在不脱离本公开的精神或范围的情况下，所公开的系统和方法可以以许多其他特定形式来体现。本示例被认为是说明性的而非限制性的，并且意图不限于本文给出的细节。例如，各种元件或组件可以组合或集成在另一个系统中，或者某些特征可以被省略或者不实施。

此外，在不脱离本公开的范围的情况下，在各种实施例中描述和示出为离散或单独的技术、系统、子系统和方法可以与其他系统、模块、技术或方法组合或集成。示出或讨论为耦合的其他项可以直接连接，或者可以通过一些接口、设备或中间组件以电、机械或其他方式间接耦合或通信。改变、替换和变更的其他示例可由本领域的技术人员确定，并且可以在不脱离本文公开的精神和范围的情况下进行。

Claims

1.一种用于处理视频数据的方法，包括：

确定在多功能视频编解码(VVC)通用媒体应用格式(CMAF)轨道中携带的VVC基本流中的序列参数集(SPS)中的信息，其中规则指定刻点中的单元数量(num_units_in_tick)和时标(time_scale)在存在于SPS中时在VVC基本流中的视频序列之间不应当改变；以及

基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

2.根据权利要求1所述的方法，其中，所述VVC基本流包括视频参数集(VPS)，并且其中所述规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。

3.根据权利要求2所述的方法，其中，num_units_in_tick和time_scale被包含在通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构中。

4.根据权利要求1所述的方法，其中，所述规则指定num_units_in_tick的值和time_scale的值对于VVC CMAF轨道中的所有通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构应当是相同的。

5.根据权利要求1所述的方法，其中，所述规则指定在VVC CMAF轨道中应当有一个且仅一个视频参数集(VPS)单元。

6.根据权利要求1所述的方法，其中，所述规则指定当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中不存在视频参数集(VPS)时，通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次数量(num_sub_profiles)的值以及每个第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

7.根据权利要求1所述的方法，其中，所述规则指定当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中存在一个或多个视频参数集(VPS)时，一个或多个约束适用，并且其中所述一个或多个约束包括：VPS最大层减1(vps_max_layers_minus1)字段的值对于每个VPS应当等于0，档次、层和级别(PTL)的VPS数减1(vps_max_layers_minus1)的值对于每个VPS应当等于0，每个VPS中的档次、层和级别语法(profile_tier_level)结构中的PTL帧仅约束标志(ptl_fram_only_constraint_flag)的值应当等于1，并且每个VPS中的profile_tier_level结构中的PTL多层启用标志(ptl_multilayer_enabled_flag)的值应当等于0。

8.根据权利要求1所述的方法，其中，所述规则指定通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次数量(num_sub_profiles)的值以及第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

9.根据权利要求1-8中任一项所述的方法，其中，所述转换包括将可视媒体数据编码为媒体数据文件。

10.根据权利要求1-8中任一项所述的方法，其中，所述转换包括从媒体数据文件解码可视媒体数据。

11.一种用于处理视频数据的装置，包括：

处理器；和

非暂时性存储器，其上具有指令，其中所述指令在由所述处理器执行时使得所述处理器：

基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

12.根据权利要求11所述的装置，其中，所述VVC基本流包括视频参数集(VPS)，并且其中所述规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。

13.根据权利要求12所述的装置，其中，num_units_in_tick和time_scale被包含在通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构中。

14.根据权利要求11所述的装置，其中，所述规则指定num_units_in_tick的值和time_scale的值对于VVC CMAF轨道中的所有通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构应当是相同的。

15.根据权利要求11所述的装置，其中，所述规则指定在VVC CMAF轨道中应当有一个且仅一个视频参数集(VPS)单元。

16.根据权利要求11所述的装置，其中，所述规则指定当VVC CMAF轨道中不存在解码能力信息(DCI)网络抽象层(NAL)单元时并且当VVC CMAF轨道中不存在视频参数集(VPS)时，通用档次标识码(general_profile_idc)的值、通用层标志(general_tier_flag)的值、通用级别标识码(general_level_idc)的值、子层档次数量(num_sub_profiles)的值以及每个第i个互操作性指示符的通用子层档次标识码(general_sub_profile_idc[i])的值在VVC基本流中从一个视频序列到另一个视频序列不应当改变。

17.一种非暂时性计算机可读介质，包括供视频编解码设备使用的计算机程序产品，所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令，使得当由处理器执行时，使所述视频编解码设备：

基于SPS来执行可视媒体数据和媒体数据文件之间的转换。

18.根据权利要求17所述的非暂时性计算机可读介质，其中，所述VVC基本流包括视频参数集(VPS)，并且其中，所述规则进一步指定num_units_in_tick和time_scale在存在于VPS中时在VVC基本流的视频序列之间不应当改变。

19.根据权利要求18所述的非暂时性计算机可读介质，其中，num_units_in_tick和time_scale被包含在通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构中。

20.根据权利要求17所述的非暂时性计算机可读介质，其中，所述规则指定num_units_in_tick的值和time_scale的值对于VVC CMAF轨道中的所有通用假设参考解码器(HRD)参数(general_timing_hrd_parameters)结构应当是相同的。