CN114205605A

CN114205605A - 编解码视频中的相关性信息信令

Info

Publication number: CN114205605A
Application number: CN202111092630.2A
Authority: CN
Inventors: 王业奎
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2020-09-17
Filing date: 2021-09-17
Publication date: 2022-03-18
Also published as: KR20220037397A; EP3972267A1; JP7372293B2; US20220086496A1; US11683529B2; US20220086494A1; CN114205604A; JP2022050378A; JP2022050376A; KR20220037398A; KR20220037399A; EP3972268A1; US11758195B2; US11671627B2; EP3972266A1; US20220086495A1; JP2022050377A; JP7376544B2; JP7319336B2; CN114205606A

Abstract

本申请涉及编解码视频中的相关性信息信令，描述了用于根据文件格式存储或解析可视媒体文件的系统、方法和装置，包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流。可视媒体文件存储包括一个或多个视频层的一个或多个轨道。格式规则指定指示层相关性信息的语法元素的第一集合是否被存储在可视媒体文件中取决于指示可视媒体文件中的所有层都不相关的第二语法元素是否具有值1。

Description

编解码视频中的相关性信息信令

相关申请的交叉引用

根据适用的专利法和/或根据巴黎公约的规则，本申请是为了及时要求于2020年9月17日提交的美国临时专利申请第63/079,946号和于2020年10月7日提交的美国临时专利申请第63/088，786号的优先权和权益而提出的。出于根据法律的所有目的，前述申请的整体公开内容通过引用结合于此，作为本申请的公开内容的一部分。

技术领域

本专利文档涉及文件格式的数字音频视频媒体信息的生成、存储和消费。

背景技术

数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的联网用户设备的数量增加，预计数字视频使用的带宽需求将继续增长。

发明内容

本文档公开了可以由可视媒体处理装置使用的用于根据文件格式写入可视媒体文件或从可视媒体文件解析的技术。

在一个示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则在多个轨道中存储可视媒体数据的比特流，格式规则指定文件级别信息包括语法元素，语法元素从多个轨道中识别包含包括操作点信息的特定类型的样点组的一个或多个轨道。

在另一示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流。可视媒体文件存储包括一个或多个视频层的一个或多个轨道。格式规则指定指示层相关性信息的语法元素的第一集合是否被存储在可视媒体文件中取决于指示可视媒体文件中的所有层都不相关的第二语法元素是否具有值1。

在另一示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则在多个轨道中存储可视媒体数据的比特流，格式规则指定在根据多个轨道隐式重构比特流期间处理多个轨道中所存储的冗余访问单元分隔符网络访问层(AUD NAL)单元的方式。

在另一示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流。可视媒体文件存储包括一个或多个视频层的一个或多个轨道。可视媒体文件包括操作点(OP)的信息。格式规则指定语法元素是否或如何被包括在样点组条目和OP的组箱(box)中基于OP是否包含单个视频层。语法元素被配置为指示OP的输出层集合的索引。

在另一示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流；其中，可视媒体文件存储属于特定类型的实体组的多个轨道，并且其中，格式规则指定：响应于多个轨道具有对组标识符的特定类型的轨道参考，多个轨道(A)省略携带特定类型的样点组或者(B)携带特定类型的样点组，使得特定类型的样点组中的信息与特定类型的实体组中的信息一致。

在另一示例方面，公开了一种可视媒体处理方法。该方法包括：执行可视媒体数据与可视媒体文件之间的转换，可视媒体文件存储可视媒体数据的比特流。可视媒体文件包括多个轨道，并且可视媒体文件存储携带关于可视媒体文件中的操作点的信息的实体组和携带每个操作点的轨道。格式规则响应于可视媒体文件存储携带每个操作点的信息的实体组或样点组来指定可视媒体文件的属性。

在又一示例方面，公开了一种可视媒体写入装置。该装置包括被配置为实施上述方法的处理器。

在又一示例方面，公开了一种可视媒体解析装置。该装置包括被配置为实施上述方法的处理器。

在又一示例方面，公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现本文描述的方法之一。

在又一示例方面，公开了一种其上存储有可视媒体文件的计算机可读介质。可视媒体使用本文档中描述的方法来生成或解析。

本文档通篇描述了这些和其他特征。

附图说明

图1是示例视频处理系统的框图。

图2是视频处理装置的框图。

图3是视频处理的示例方法的流程图。

图4是示出根据本公开的一些实施例的视频编解码系统的框图。

图5是示出根据本公开的一些实施例的编码器的框图。

图6是示出根据本公开的一些实施例的解码器的框图。

图7示出了编码器框图的示例。

图8示出了具有两个OLS的比特流的示例，其中OLS2的vps_max_tid_il_ref_pics_plus1[1][0]等于0。

图9A至图9F描绘了用于可视媒体处理的示例方法的流程图。

具体实施方式

为了便于理解，在本文档中使用了章节标题，并且不将每个章节中公开的技术和实施例的适用性仅限于该章节。此外，在一些描述中使用H.266术语仅仅是为了便于理解，而不是为了限制所公开技术的范围。这样，本文描述的技术也适用于其他视频编解码器协议和设计。在本文档中，相对于VVC规范或ISOBMFF文件格式规范的当前草案，对文本的编辑更改以删除线和突出显示示出，删除线指示删去的文本，突出显示指示添加的文本(包括粗体斜体)。

1.初步讨论

本文档与视频文件格式相关。具体地，它涉及基于ISO基本媒体文件格式(ISObase media file format，ISOBMFF)的媒体文件中的可缩放通用视频编解码(VVC)视频比特流的存储。这些思想可以单独地或以各种组合应用于由任何编解码器所编解码的视频比特流(例如，VVC标准)，以及应用于任何视频文件格式，例如，正在开发的VVC视频文件格式。

2.缩写

ACT adaptive colour transform自适应颜色变换

ALF adaptive loop filter自适应环路滤波器

AMVR adaptive motion vector resolution自适应运动矢量分辨率

APS adaptation parameter set自适应参数集

AU access unit访问单元

AUD access unit delimiter访问单元分隔符

AVC advanced video coding高级视频编解码(Rec.ITU-T H.264|ISO/IEC14496-10)

B bi-predictive双向预测

BCW bi-prediction with CU-level weights CU级别权重的双向预测

BDOF bi-directional optical flow双向光流

BDPCM block-based delta pulse code modulation基于块的增量脉冲编解码调制

BP buffering period缓冲时段

CABAC context-based adaptive binary arithmetic coding基于上下文的自适应二进制算术编解码

CB coding block编解码块

CBR constant bit rate恒定比特率

CCALF cross-component adaptive loop filter跨分量自适应环路滤波器

CPB coded picture buffer编解码后的图片缓冲器

CRA clean random access干净随机访问

CRC cyclic redundancy check循环冗余校验

CTB coding tree block编解码树块

CTU coding tree unit编解码树单元

CU coding unit编解码单元

CVS coded video sequence编解码后的视频序列

DPB decoded picture buffer解码后的图片缓冲器

DCI decoding capability information解码能力信息

DRAP dependent random access point相关随机访问点

DU decoding unit解码单元

DUI decoding unit information解码单元信息

EG exponential-Golomb指数-哥伦布

EGk k-th order exponential-Golomb k阶指数-哥伦布

EOB end of bitstream比特流结尾

EOS end of sequence序列结尾

FD filler data填充数据

FIFO first-in,first-out先进先出

FL fixed-length固定长度

GBR green,blue,and red绿蓝红

GCI general constraints information通用约束信息

GDR gradual decoding refresh逐渐解码刷新

GPM geometric partitioning mode几何分割模式

HEVC high efficiency video coding高效视频编解码(Rec.ITU-T H.265|ISO/IEC 23008-2)

HRD hypothetical reference decoder假设参考解码器

HSS hypothetical stream scheduler假设流调度器

I intra帧内

IBC intra block copy帧内块复制

IDR instantaneous decoding refresh瞬时解码刷新

ILRP inter-layer reference picture层间参考图片

IRAP intra random access point帧内随机访问点

LFNST low frequency non-separable transform低频不可分变换

LPS least probable symbol最不可能符号

LSB least significant bit最低有效位

LTRP long-term reference picture长期参考图片

LMCS luma mapping with chroma scaling具有色度缩放的亮度映射

MIP matrix-based intra prediction基于矩阵的帧内预测

MPS most probable symbol最有可能符号

MSB most significant bit最高有效位

MTS multiple transform selection多重变换选择

MVP motion vector prediction运动矢量预测

NAL network abstraction layer网络抽象层

OLS output layer set输出层集合

OP operation point操作点

OPI operating point information操作点信息

P predictive预测

PH picture header图片头

POC picture order count图片顺序计数

PPS picture parameter set图片参数集

PROF prediction refinement with optical flow光流预测细化

PT picture timing图片定时

PU picture unit图片单元

QP quantization parameter量化参数

RADL random access decodable leading(picture)随机访问可解码前导(图片)

RASL random access skipped leading(picture)随机访问跳过前导(图片)

RBSP raw byte sequence payload原始字节序列有效载荷

RGB red,green,and blue红绿蓝

RPL reference picture list参考图片列表

SAO sample adaptive offset样点自适应偏移

SAR sample aspect ratio样点高宽比

SEI supplemental enhancement information补充增强信息

SH slice header条带头

SLI subpicture level information子图片级别信息

SODB string of data bits数据比特串

SPS sequence parameter set序列参数集

STRP short-term reference picture短期参考图片

STSA step-wise temporal sublayer access逐步时域子层访问

TR truncated rice截短Rice

VBR variable bit rate可变比特率

VCL video coding layer视频编解码层

VPS video parameter set视频参数集

VSEI versatile supplemental enhancement information通用补充增强信息(Rec.ITU-T H.274|ISO/IEC 23002-7)

VUI video usability information视频可用性信息

VVC versatile video coding通用视频编解码(Rec.ITU-T H.266|ISO/IEC23090-3)

3.视频编解码介绍

3.1.视频编解码标准

视频编解码标准主要通过众所周知的ITU-T和ISO/IEC的发展演变而来。ITU-T产生了H.261和H.263，ISO/IEC产生了MPEG-1和MPEG-4可视，并且这两个组织联合产生了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时域预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索组(JVET)。此后，许多新的方法被JVET采用，并且被放入名为联合探索模型(JEM)的参考软件中。当通用视频编解码(VVC)项目正式启动时，JVET后来被更名为联合视频专家组(JVET)。VVC是目标在于与HEVC相比降低50％比特率的新编解码标准，该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。

通用视频编解码(VVC)标准(ITU-T H.266|ISO/IEC 23090-3)和相关的通用补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)已被设计用于最广泛的应用，包括传统用途(诸如电视广播、视频会议或从存储媒体回放)以及更新且更高级的用例(诸如自适应比特率流式传输、视频区域提取、合成和合并来自多个编解码后的视频比特流的内容、多视图视频、可缩放分层编解码、以及视口自适应360度沉浸式媒体)。

3.2.文件格式标准

媒体流式传输应用通常基于IP、TCP和HTTP传输方法，并且通常依赖于诸如ISO基本媒体文件格式(ISOBMFF)的文件格式[7]。一种这样的流式传输系统是HTTP上的动态自适应流式传输(DASH)。为了使用利用ISOBMFF和DASH的视频格式，将需要特定于视频格式的文件格式规范，诸如AVC文件格式和HEVC文件格式，以将视频内容封装在ISOBMFF轨道中以及DASH表示和片段中。关于视频比特流的重要信息(例如，档次(profile)、层(tier)和级别(level))以及许多其他信息将需要作为文件格式级别元数据和/或DASH媒体呈现描述(MPD)来公开，以用于内容选择目的，例如，用于流式传输会话开始时的初始化和流式传输会话期间的流自适应两者的适当媒体片段的选择。

类似地，为了使用利用ISOBMFF的图片格式，将需要特定于图像格式的文件格式规范，诸如AVC图像文件格式和HEVC图像文件格式。

VVC视频文件格式，即基于ISOBMFF来存储VVC视频内容的文件格式，当前正由MPEG开发。最新规范草案是MPEG输出文档N19454(“Information technology—Coding ofaudio-visual objects—Part 15:Carriage of network abstraction layer(NAL)unitstructured video in the ISO base media file format—Amendment 2:Carriage ofVVC and EVC in ISOBMFF”，2020年7月)。

VVC图像文件格式，即基于ISOBMFF来存储使用VVC编解码的图像内容的文件格式，当前正由MPEG开发。VVC图像文件格式的最新规范草案被包括在MPEG输出文档N19460(“Information technology—High efficiency coding and media delivery inheterogeneous environments—Part 12:Image File Format—Amendment 3:Supportfor VVC,EVC,slideshows and other improvements”，2020年7月)中。

3.3.VVC中的时域可缩放性支持

如HEVC一样，VVC包括类似的时域可缩放性的支持。这种支持包括在NAL单元头中的时域ID的信令通知、特定时域子层的图片不能被较低时域子层的图片用于帧间预测参考的限制、子比特流提取过程、以及适当输入的每个子比特流提取输出必须是一致比特流的要求。媒体感知网络元件(Media-aware network element，MANE)可以基于时域可缩放性利用NAL单元头中的时域ID，以用于流适配的目的。

3.4.VVC中的序列内的图片分辨率更改

在AVC和HEVC中，图片的空域分辨率不能更改，除非使用新SPS的新序列以IRAP图片开始。VVC实现了在无需对始终是帧内编解码的IRAP图片进行编码的情况下，在序列内的一位置处的图片分辨率更改。该特征有时被称为参考图片重采样(reference pictureresampling，RPR)，因为当用于帧间预测的参考图片具有与正在被解码的当前图片不同的分辨率时，该特征需要对该参考图片进行重采样。

为了允许重用现有实施方式的运动补偿模块，缩放比例被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样)，并且小于或等于8(8倍上采样)。水平和垂直的缩放比例是基于图片的宽度和高度以及为参考图片和当前图片指定的左、右、上和下的缩放偏移推导出的。

RPR允许分辨率更改，而无需对IRAP图片进行编解码，这在流式传输或视频会议场景中会导致瞬间比特率峰值，例如，以应对网络条件更改。RPR还可以用于需要对整个视频区域或某个感兴趣区域进行放大的应用场景。允许缩放窗口偏移为负，以支持更大范围的基于放大的应用。负缩放窗口偏移还实现了从多层比特流中提取子图片序列，同时为所提取的子比特流保持与原始比特流中相同的缩放窗口。

与在HEVC的可缩放扩展中的空域可缩放性不同的是，在图片重采样和运动补偿被应用于两个不同的阶段的情况下，VVC中的RPR作为块级别上的相同过程的一部分来执行，其中采样位置的推导和运动矢量缩放在运动补偿期间执行。

为了限制实施方式复杂度，当CLVS中的图片每个图片都具有多个子图片时，不允许CLVS内的图片分辨率的更改。此外，当在当前图片与参考图片之间使用RPR时，不应用解码器侧运动矢量细化、双向光流和光流预测细化。用于推导时域运动矢量候选的并置图片也被限制为具有与当前图片相同的图片尺寸、缩放窗口偏移和CTU尺寸。

为了支持RPR，VVC设计的一些其他方面与HEVC有所不同。首先，图片分辨率以及相应的一致性和缩放窗口在PPS中而不是在SPS中信令通知，而在SPS中信令通知最大图片分辨率和相应的一致性窗口。在应用中，SPS中具有相应一致性窗口偏移的最大图片分辨率可以用作裁剪后的预期或期望的图片输出尺寸。第二，对于单层比特流，每个图片存储(DPB中用于存储一个解码后的图片的时隙)占用存储具有最大图片分辨率的解码后的图片所需的缓冲区尺寸。

3.5.VVC中的多层可缩放性支持

具有利用VVC核心设计中的RPR根据与当前图片具有不同尺寸的参考图片进行帧间预测的能力，允许VVC容易地支持包含不同分辨率的多个层的比特流，例如，分别具有标准清晰度和高清晰度分辨率的两层。在VVC解码器中，可以集成这样的功能，而无需任何附加的信号处理级别的编解码工具，因为空域可缩放性支持所需的上采样功能可以通过重用RPR上采样滤波器来提供。然而，需要附加的高级语法设计来实现对比特流的可缩放性支持。

可缩放性在VVC中被支持，但仅被包括在多层档次中。不同于任何早期视频编解码标准中的可缩放性支持，包括AVC和HEVC的扩展，VVC可缩放性的设计已经尽可能对单层解码器实施方式友好。多层比特流的解码能力是以好像比特流中只有单个层的方式指定的。例如，以独立于要解码的比特流中的层数的方式来指定解码能力，诸如DPB尺寸。基本上，为单层比特流设计的解码器不需要显著的更改就能够解码多层比特流。

与AVC和HEVC的多层扩展的设计相比，HLS方面以牺牲一些灵活性为代价得以显著简化。例如，1)IRAP AU需要包含CVS中存在的每一层的图片，这避免了指定逐层启动解码过程的需要，并且2)在VVC中包括用于POC信令的更简单的设计，而不是复杂的POC重置机制，以确保推导出的POC值对于AU中的所有图片都是相同的。

像在HEVC中一样，关于层和层相关性的信息被包括在VPS中。OLS的信息被提供用于信令通知哪些层被包括在OLS中、哪些层被输出、以及其他信息(诸如与每个OLS相关联的PTL和HRD参数)。与HEVC类似，存在三种操作模式来输出所有层、仅输出最高层、或者在自定义输出模式下输出特定的指示层。

在VVC和HEVC中的OLS设计之间存在一些不同。首先，在HEVC中，信令通知层集合，然后基于层集合信令通知OLS，并且对于每个OLS，信令通知输出层。HEVC中的设计允许属于OLS的层既不是输出层，也不是解码输出层所需的层。在VVC中，该设计要求OLS中的任何层要么是输出层，要么是解码输出层所需的层。因此，在VVC中，通过指示OLS的输出层来信令通知OLS，然后属于OLS的其他层通过VPS中指示的层相关性来简单地推导出。此外，VVC要求每一层被包括在至少一个OLS中。

VVC OLS设计中的另一区别在于，与OLS由属于映射到OLS的所识别的层的集合的所有NAL单元组成的HEVC相反，VVC可以排除一些属于映射到OLS的非输出层的NAL单元。更具体地，VVC的OLS由映射到OLS的层的集合组成，其中非输出层仅包括ph_recovery_poc_cnt等于0的IRAP或GDR图片或者来自用于层间预测的子层的图片。这允许仅考虑形成OLS的层内的所有子层的所有“必要”图片来指示多层比特流的最佳级别值，其中，这里“必要”意味着输出或解码所需要的。图8示出了vps_max_tid_il_ref_pics_plus1[1][0]等于0的两层比特流的示例，即当提取OLS2时对其仅保持来自层L0的IRAP图片的子比特流。

考虑到在不同层处允许不同RAP周期是有益的一些场景，类似于ABC和HEVC，允许AU具有未对齐RAP的层。为了更快地识别多层比特流中的RAP，即在所有层处都有RAP的AU，与HEVC相比，用指示AU是IRAP AU还是GDR AU的标志来扩展访问单元分隔符(AUD)。此外，当VPS指示多个层时，AUD强制(mandate)存在于这种IRAP或GDR AU中。然而，对于由VPS指示的单层比特流或不涉及VPS的比特流，AUD如在HEVC一样是完全可选的，因为在这种情况下，可以从AU中NAL单元类型的第一个条带和相应的参数集中容易地检测RAP。

为了实现由多个层共享SPS、PPS和APS，并且同时确保比特流提取过程不会丢弃解码过程所需的参数集，第一层的VCL NAL单元可以指代具有相同或较低层ID值的SPS、PPS或APS，只要包括第一层的所有OLS也包括由较低层ID值所识别的层。

3.6.VVC视频文件格式的一些细节

3.6.1.具有多个层的VVC存储的概述

对具有多个层的VVC比特流的支持包括多个工具，并且存在各种可以如何使用它们的“模型”。具有多个层的VVC流可以通过多种方式放置在轨道中，其中包括以下：

1.所有层在一个轨道中，其中所有层对应于操作点；

2.所有层在一个轨道中，其中不存在包含所有层的操作点；

3.一个或多个层或子层在单独的轨道中，其中包含所指示的一个或多个轨道的所有样点的比特流对应于操作点；

4.一个或多个层或子层在单独的轨道中，其中不存在包含一个或多个轨道的集合的所有NAL单元的操作点。

VVC文件格式允许将一个或多个层存储到轨道中。可以使用每个轨道多个层的存储。例如，当内容提供商想要提供不打算用于子集化(subsetting)的多层比特流时，或者当已经为输出层的几个预定义集合创建了比特流(其中每一层对应于视图(例如，立体对))时，可以相应地创建轨道。

当VVC比特流由多个轨道表示并且播放器使用其层被存储在多个轨道中的操作点时，播放器必须在将VVC访问单元传递给VVC解码器之前重构这些单元。

VVC操作点可以由轨道显式地表示，即，轨道中的每个样点本地包含访问单元或通过解析“subp”轨道参考(当存在时)和通过解析“vvcN”轨道参考(当存在时)而包含访问单元。访问单元包含来自作为操作点的一部分的所有层和子层的NAL单元。

VVC比特流的存储由诸如以下的结构支持：

a)样点条目，

b)操作点信息(“vopi”)样点组，

c)层信息('linf')样点组，

d)操作点实体组(“opeg”)。

样点条目内的结构为样点的解码或使用提供信息，在这种情况下是与该样点条目相关联的编解码视频和非VCL数据信息。

操作点信息样点组记录了关于操作点的信息，诸如构成操作点的层和子层，它们之间的相关性(如果有的话)，操作点的档次、层和级别参数，以及其他这种操作点相关信息。

层信息样点组列出了轨道的样点中所携带的所有层和子层。

操作点实体组记录了关于操作点的信息，诸如构成操作点的层和子层，它们之间的相关性(如果有的话)，操作点的档次、层和级别参数，以及其他这种操作点相关信息，以及携带每个操作点的轨道标识。

这些样点组中的信息结合使用轨道参考来查找轨道或者操作点实体组中的信息足以使读取器根据其能力选择操作点，识别包含解码所选操作点所需的相关层和子层的轨道，并且有效地提取它们。

3.6.2.数据共享和重构VVC比特流

3.6.2.1.概述

为了根据携带多层VVC比特流的多个轨道的样点重构访问单元，需要首先确定操作点。

注：当VVC比特流由多个VVC轨道表示时，文件解析器可以识别所选操作点所需的轨道，如下：

查找带有VVC样点条目的所有轨道。

如果轨道包含相同ID的“oref”轨道参考，则将该ID解析为VVC轨道或“opeg”实体组。

从“opeg”实体组或“vopi”样点组中选择适合解码能力和应用目的的操作点。

当“opeg”实体组存在时，它指示轨道集合确切地表示所选操作点。因此，可以根据轨道集合重构VVC比特流并解码。

当“opeg”实体组不存在时(即当“vopi”样点组存在时)，从“vopi”和“linf”样点组中发现解码所选操作点需要哪个轨道集合。

为了根据携带VVC比特流的多个VVC轨道重构比特流，可能需要首先确定目标最高值TemporalId。

如果几个轨道包含访问单元的数据，则基于样点解码时间来执行轨道中相应样点的对齐，即使用时间-样点表而不考虑编辑列表。

当VVC比特流由多个VVC轨道表示时，样点的解码时间应当是这样的，如果轨道被组合成通过增加解码时间而排序的单个流，则访问单元次序将是正确的，如ISO/IEC23090-3所规定的。

根据3.6.2.2中描述的隐式重构过程，从所需轨道中的相应样点重构访问单元的序列。

3.6.2.2.VVC比特流的隐式重构

当操作点信息样点组存在时，所需的轨道是基于它们携带的层及其参考层来选择的，如操作点信息和层信息样点组所示。

当操作点实体组存在时，所需的轨道是基于OperatingPointGroupBox中的信息来选择的。

当重构包含VCL NAL单元的TemporalId大于0的子层的比特流时，同一层内的所有较低子层(即VCL NAL单元的TemporalId较小的那些层)也被包括在所得比特流中，并且相应地选择所需的轨道。

当重构访问单元时，来自具有相同解码时间的样点的图片单元(如在ISO/IEC23090-3中规定的)按nuh_layer_id值的递增次序被放置到访问单元中。

当重构具有相关层的访问单元并且max_tid_il_ref_pics_plus1大于0时，同一层内VCL NAL单元的TemporalId小于或等于(如操作点信息样点组中所示的)max_tid_il_ref_pics_plus1-1的参考层的子层也被包括在所得比特流中，并且相应地选择所需的轨道。

当重构具有相关层的访问单元并且max_tid_il_ref_pics_plus1等于0时，仅有参考层的IRAP图片单元被包括在所得比特流中，并且相应地选择所需的轨道。

如果VVC轨道包含“subp”轨道参考，则每个图片单元按条款11.7.3的规定来重构，其中对EOS和EOB NAL单元的附加约束规定如下。按递增的nuh_layer_id次序对目标操作点的每一层重复条款11.7.3中的过程。否则，如下所述重构每个图片单元。

所重构的访问单元按解码时间的递增次序被放置到VVC比特流中，并且从VVC比特流中移除比特流结尾(EOB)和序列结尾(EOS)NAL单元的复制，如下文进一步描述的。

对于在VVC比特流的同一编解码视频序列内并且属于多个轨道中所存储的不同子层的访问单元，可能存在不止一个在相应样点中包含具有特定nuh_layer_id值的EOS NAL单元的轨道。在这种情况下，只有一个EOS NAL单元应当被保持在最终重构比特流中的这些访问单元的最后一个访问单元(解码时间最长的那个)中、被放置在这些访问单元的最后一个访问单元的除EOB NAL单元(当存在时)之外的所有NAL单元之后，并且其他EOS NAL单元被丢弃。类似地，在相应的样点中可能存在不止一个这种包含EOB NAL单元的轨道。在这种情况下，只有一个EOB NAL单元应当被保存在最终重构比特流中、被放置在这些访问单元中的最后一个访问单元的末尾，并且其他EOB NAL单元被丢弃。

由于特定的层或子层可以由不止一个轨道表示，因此当计算出操作点所需的轨道时，可能需要在全部携带特定层或子层的轨道的集合当中进行选择。

当操作点实体组不存在时，在携带相同层或子层的轨道当中进行选择之后，最终所需的轨道仍然可以共同携带不属于目标操作点的一些层或子层。目标操作点的重构比特流不应包含最终所需轨道中所携带的但不属于目标操作点的层或子层。

注：VVC解码器实施方式将与目标输出层集合索引和目标操作点的最高TemporalId值相对应的比特流作为输入，这两个值分别对应于ISO/IEC 23090-3的条款8中的TargetOlsIdx和HighestTid变量。文件解析器在将所重构的比特流发送到VVC解码器之前，需要确保所重构的比特流除了包含目标操作点中所包括的层和子层之外，不包含任何其他的层和子层。

3.6.3.操作点信息样点组

3.6.3.1.定义

通过使用操作点信息样点组(“vopi”)，应用被告知给定VVC比特流所提供的不同操作点及其构成。每个操作点与输出层集合、最大TemporalId以及档次、级别和层信令相关。所有这些信息由“vopi”样点组捕获。除了这些信息之外，该样点组还提供了层之间的相关性信息。

当对于VVC比特流存在不止一个VVC轨道并且对于VVC比特流不存在操作点实体组时，以下两者都适用：

-在VVC比特流的VVC轨道当中应当存在一个且仅有一个携带

“vopi”样点组的轨道。

-VVC比特流的所有其他VVC轨道应当具有对于携带“vopi”样点组的轨道的、“oref”类型的轨道参考。

对于给定轨道中的任何特定样点，另一轨道中的时域并置样点被定义为解码时间与该特定样点的解码时间相同的样点。对于具有对携带“vopi”样点组的轨道T_k的、“oref”轨道参考的轨道T_N中的每个样点S_N，以下适用：

-如果在轨道T_k中存在时域并置样点S_k，则样点S_N与和样点S_k的“vopi”样点组条目相同的“vopi”样点组条目相关联。

-否则，样点S_N与和轨道T_k中按解码时间在样点S_N之前的最后一个样点的“vopi”样点组条目相同的“vopi”样点组条目相关联。

当几个VPS被VVC比特流参考时，可能需要在具有grouping_type“vopi”的样点组描述箱(box)中包括几个条目。对于存在单个VPS的更常见情况，建议使用ISO/IEC 14496-12中定义的默认样点组机制，并将操作点信息样点组包括在样点表箱中，而不是将其包括在每个轨道片断中。

没有为具有分组类型“vopi”的SampleToGroupBox定义grouping_type_parameter。

3.6.3.2.语法

3.6.3.3.语义

num_profile_tier_level_minus1加1给出了以下档次、层和级别组合的数量以及相关字段。

ptl_max_temporal_id[i]：给出所指定的第i个档次、层和级别结构的相关比特流的NAL单元的最大TemporalId。

注：下面给出的操作点的ptl_max_temporal_id[i]和max_temporal_id的语义是不同的，尽管它们可能携带相同的数值。

ptl[i]指定第i个档次、层和级别结构。

ISO/IEC 23090-3定义了all_independent_layers_flag、each_layer_is_an_ols_flag、ols_mode_idc和max_tid_il_ref_pics_plus1。

num_operating_points：给出其后跟随信息的操作点的数量。

output_layer_set_idx是定义操作点的输出层集合的索引。output_layer_set_idx与layer_id值之间的映射应当与VPS为索引为output_layer_set_idx的输出层集合所指定的映射相同。

ptl_idx：信令通知索引为output_layer_set_idx的输出层集合的所列出的档次、级别和层结构的基于零的索引。

max_temporal_id：给出该操作点的NAL单元的最大TemporalId。

注：层信息样点组中所指示的最大TemporalId值与这里指示的最大TemporalId具有不同的语义。然而，它们可能携带相同的文字数值。

layer_count：该字段指示该操作点的必要层的数量，如ISO/IEC 23090-3所定义。

layer_id：提供操作点的层的nuh_layer_id值。

is_outputlayer：指示层是否为输出层的标志。一指示输出层。

frame_rate_info_flag等于0指示对于操作点不存在帧速率信息。值1指示对于操作点存在帧速率信息。

bit_rate_info_flag等于0指示对于操作点不存在比特率信息。值1指示对于操作点存在比特率信息。

avgFrameRate给出了操作点的平均帧速率，单位为帧/(256秒)。值0指示未指定平均帧速率。

constantFrameRate等于1指示操作点的流具有恒定的帧速率。值2指示操作点的流中每个时域层的表示具有恒定的帧速率。值0指示操作点的流可以具有也可以不具有恒定的帧速率。

maxBitRate给出了在一秒钟的任何窗口内操作点的流的最大比特率，单位为比特/秒。

avgBitRate给出了操作点的流的平均比特率，单位为比特/秒。

max_layer_count：与该关联基本轨道相关的所有操作点中的所有唯一层的计数。

layerID：对其所有直接参考层都在下面的direct_ref_layerID循环中给出的层的nuh_layer_id。

num_direct_ref_layers：nuh_layer_id等于layerID的层的直接参考层的数量。

direct_ref_layerID：直接参考层的nuh_layer_id。

3.6.4.层信息样点组

轨道携带的层和子层的列表在层信息样点组中信令通知。当对于同一VVC比特流存在不止一个VVC轨道时，这些VVC轨道中的每一个应当携带“linf”样点组。

当几个VPS被VVC比特流参考时，可能需要在具有grouping_type“linf”的样点组描述箱中包括几个条目。对于存在单个VPS的更常见情况，建议使用ISO/IEC 14496-12中定义的默认样点组机制，并且将层信息样点组包括在样点表箱中，而不是将其包括在每个轨道片断中。

没有为具有分组类型“linf”的SampleToGroupBox定义grouping_type_parameter。

“linf”样点组的语法和语义分别在条款9.6.3.2和9.6.3.3中指定。

3.6.5.操作点实体组

3.6.5.1.概述

操作点实体组被定义为提供轨道到操作点的映射以及操作点的档次级别信息。

当聚集映射到该实体组中描述的操作点的轨道的样点时，隐式重构过程不要求移除任何进一步的NAL单元来产生一致的VVC比特流。属于操作点实体组的轨道应当具有对操作点实体组中所指示的group_id的、“oref”类型的轨道参考轨道参考。

操作点实体组中所包括的所有entity_id值应当属于同一VVC比特流。当存在时，OperatingPointGroupBox应当被包含在影片级别(movie-level)MetaBox的GroupsListBox中，而不应被包含在文件级别或轨道级别MetaBox中。

3.6.5.2.语法

3.6.5.3.语义

opeg_ptl[i]指定第i个档次、层和级别结构。

num_operating_points：给出了其后跟随信息的操作点的数量。

output_layer_set_idx是定义操作点的输出层集合的索引。output_layer_set_idx与layer_id值之间的映射应当与VPS为索引为output_layer_set_idx的输出层集合指定的映射相同。

max_temporal_id：给出了该操作点的NAL单元的最大TemporalId。

layer_count：该字段指示该操作点的必要层的数量，如ISO/IEC 23090-3所定义的。

layer_id：提供操作点的层的nuh_layer_id值。

is_outputlayer：指示层是否为输出层的标志。一指示输出层。

constantFrameRate等于1指示操作点的流具有恒定的帧速率。值2指示操作点的流中的每个时域层的表示具有恒定的帧速率。值0指示操作点的流可以具有也可以不具有恒定的帧速率。

avgBitRate给出了操作点的流的平均比特率，单位为比特/秒。

entity_count指定操作点中存在的轨道的数量。

entity_idx指定属于操作点的实体组中的对entity_id列表的索引。

4.由公开的方案解决的技术问题的示例

关于可缩放VVC比特流的存储的VVC视频文件格式的最新设计具有以下问题：

1)当VVC比特流由多个VVC轨道表示时，文件解析器可以通过首先查找具有VVC样点条目的所有轨道，然后查找包含“vopi”样点组的所有轨道，以此类推，来识别所选操作点所需的轨道，以找出文件中提供的所有操作点的信息。然而，查找所有这些轨道可能相当复杂。

2)“linf”样点组信令通知关于哪些层和/或子层被包括在轨道中的信息。当使用“vopi”样点组来选择OP时，需要查找包含“linf”样点组的所有轨道，并且这些轨道的“linf”样点组条目中携带的信息与OP的层和/或子层上的“vopi”样点组条目中的信息一起使用，以找出所需的轨道。这些也可能相当复杂。

3)在“vopi”样点组条目中，即使当all_independent_layers_flag的值等于1时，也会信令通知层相关性信息。然而，当all_independent_layers_flag等于1时，层相关性信息是已知的，因此在这种情况下用于信令的比特都被浪费了。

4)在根据多个轨道隐式重构VVC比特流的过程中，指定了冗余的EOS和EOB NAL单元的移除。然而，在该过程中可能需要移除和/或重写AUD NAL单元，但缺少相应的过程。

5)指定了：当“opeg”实体组存在时，通过包括所需轨道的所有NAL单元而不移除任何NAL单元，根据多个轨道重构比特流。然而，例如，这将不允许NAL单元(如用于特定AU的AUD、EOS和EOB NAL单元)被包括在携带VVC比特流的不止一个轨道中。

6)“opeg”实体组箱的容器被指定为影片级别MetaBox。然而，只有当被包含在文件级别MetaBox中时，实体组的entity_id值才能指代轨道ID。

7)在“opeg”实体分组箱中，总是为每个OP信令通知字段output_layer_set_idx。然而，如果OP只包含一层，则通常不需要知道OLS索引的值，并且即使知道OLS索引是有用的，也可以很容易地将其推导为只包含该层的OLS的OLS索引。

8)允许当对于VVC比特流存在“opeg”实体组时，表示VVC比特流的轨道之一可以具有“vopi”样点组。然而，两者都允许是不必要的，并且仅仅会不必要地增加文件尺寸，并且会使文件解析器对应当使用哪一个产生混淆。

5.解决方案的列表

为了解决上述问题，公开了如下概述的方法。这些项目应当被视为解释通用概念的示例，而不应以狭义的方式进行解释。此外，这些项目可以单独应用或以任何方式组合应用。

1)为了解决问题1，提出了以下一个或多个项目：

a.添加关于文件中提供的所有OP的文件级别信息的信令，包括每个OP所需的轨道，同时OP所需的轨道可以携带该OP中未包括的层或子层。

b.添加关于哪些轨道包含“vopi”样点组的文件级别信息的信令。

i.在一个示例中，指定新的箱，例如，命名为操作点信息轨道箱，以文件级别MetaBox为容器，用于信令通知携带“vopi”样点组的轨道

一条文件级别信息可以在文件级别箱或影片级别箱中信令通知，或者在轨道级别箱中信令通知，但是轨道级别箱的位置在文件级别箱或影片级别箱中识别。

2)为了解决问题2，提出了以下一个或多个项目：

a.在“vopi”样点组条目中添加关于每个OP所需的轨道的信息。

b.不赞成使用“linf”样点组。

3)为了解决问题3，当all_independent_layers_flag等于1时，跳过信令通知“vopi”样点组条目中的层相关性信息。

4)为了解决问题4，在根据多个轨道隐式重构VVC比特流的过程中，添加用于移除冗余AUD NAL单元的操作。

a.可替代地，当需要时，进一步增加用于重写AUD NAL单元的操作。

i.在一个示例中，指定了，当根据来自不同轨道的多个图片单元重构访问单元时，当在所重构的访问单元中所保持的AUD NAL单元的aud_irap_or_gdr_flag等于1并且所重构的访问单元不是IRAP或GDR访问单元时，AUD NAL单元的aud_irap_or_gdr_flag的值被设置为等于0。

ii.第一PU中的AUD NAL单元的aud_irap_or_gdr_flag可能等于1，而同一访问单元的但在分开的轨道中的另一PU具有不是IRAP或GDR图片的图片。在这种情况下，所重构的访问单元中的AUD NAL单元的aud_irap_or_gdr_flag的值从1更改为0。

b.在一个示例中，附加地或可替代地，指定了，当访问单元的来自不同轨道的多个图片单元中的至少一个图片单元具有AUD NAL单元时，第一图片单元(即，具有最小nuh_layer_id值的图片单元)应当具有AUD NAL单元。

c.在一个示例中，指定了，当访问单元的来自不同轨道的多个图片单元具有AUDNAL单元存在时，只有第一图片单元中的AUD NAL单元被保持在所重构的访问单元中。

5)为了解决问题5，提出了以下一个或多个项目：

a.指定了，当“opeg”实体组存在并被使用时，所需轨道提供了每个OP所需的VCLNAL单元的确切集合，但是一些非VCL NAL单元可能在所重构的比特流中变得冗余，并且因此可能需要被移除。

i.可替代地，指定了，当“opeg”实体组存在并被使用时，所需轨道提供了每个OP所需的层和子层的确切集合，但是一些非VCL NAL单元可能在所重构的比特流中变得冗余，并且因此可能需要被移除。

b.在根据多个轨道隐式重构VVC比特流的过程中，即使当“opeg”

实体组存在并被使用时，也应用用于移除冗余的EOB和EOS NAL单元的操作。

c.在根据多个轨道隐式重构VVC比特流的过程中，即使当“opeg”

实体组存在并被使用时，也应用用于移除冗余AUD单元的操作和用于重写冗余AUD单元的操作。

6)为了解决问题6，将“opeg”实体组箱的容器指定为文件级别MetaBox中的GroupsListBox，如下：当存在时，OperatingPointGroupBox应当被包含在文件级别MetaBox中的GroupsListBox中，而不应被包含在其他级别MetaBox中。

7)为了解决问题7，当OP仅包含一个层时，对于该OP，跳过“vopi”样点组条目中存在的VvcOperatingPointsRecord和“opeg”实体组箱OperatingPointGroupBox中的output_layer_set_idx字段的信令。

a.在一个示例中，VvcOperatingPointsRecord和/或OperatingPointGroupBox中的output_layer_set_idx字段在信令通知layer_id的循环之后被移动，并且以“"if(layer_count>1)”为条件。

b.此外，在一个示例中，指定了，当对于OP不存在output_layer_set_idx时，其值被推断为等于仅包含该OP中的层的OLS的OLS索引。

8)为了解决问题8，指定了，当对于VVC比特流存在“opeg”实体组时，表示VVC比特流的轨道中没有一个应当具有“vopi”样点组。

a.可替代地，允许两者都存在，但是要求当两者都存在时，要求它们是一致的，使得选择其中任何一个都没有区别。

b.在一个示例中，指定了，属于“opeg”实体组的轨道(它们都具有对实体组中所指示的group_id的“oref”类型的轨道参考)不应携带“vopi”样点组。

9)可以指定，当VVC比特流仅在一个轨道中表示时，不允许VVC比特流具有“opeg”实体组或“vopi”样点组。

6.实施例示例

下面是上文章节5中概述的一些发明方面的一些示例实施例，其可以应用于VVC视频文件格式的标准规范。更改后的文本基于VVC最新的规范草案。大多数已添加或修改的相关部分用粗体下划线突出显示，并且一些已删除的部分用[[粗体斜体]]突出显示。可能还存在编辑性质的一些其他更改，并且因此没有突出显示。

6.1.第一实施例

本实施例针对项目2a、3、7、7a、7b。

6.1.1.操作点信息样点组

6.1.1.1.定义

通过使用操作点信息样点组(“vopi”)，应用被告知给定VVC比特流所提供的不同操作点及其构成。每个操作点与输出层集合、最大TemporalId值以及档次、级别和层信令相关。所有这些信息由“vopi”样点组捕获。除了这些信息之外，该样点组还提供了层之间的相关性信息。

-在VVC比特流的VVC轨道当中应当存在一个且仅有一个携带“vopi”样点组的轨道。

-VVC比特流的所有其他VVC轨道应当具有对携带“vopi”样点组的轨道的、“oref”类型的轨道参考。

当几个VPS被VVC比特流参考时，可能需要在具有grouping_type“vopi”的样点组描述箱中包括几个条目。对于存在单个VPS的更常见情况，建议使用ISO/IEC 14496-12中定义的默认样点组机制，并将操作点信息样点组包括在样点表箱中，而不是将其包括在每个轨道片断中。

6.1.1.2.语法

6.1.1.3.语义

……

num_operating_points：给出了其后跟随信息的操作点的数量。

[[output_layer_set_idx是定义操作点的输出层集合的索引。output_layer_set_idx与layer_id值之间的映射应当与VPS为索引为output_layer_set_idx的输出层集合指定的映射相同。]]

max_temporal_id：给出了该操作点的NAL单元的最大TemporalId。

layer_id：提供操作点的层的nuh_layer_id值。

is_outputlayer：指示层是否为输出层的标志。一指示输出层。

output_layer_set_idx是定义操作点的输出层集合的索引。output_layer_set_ idx与layer_id值之间的映射应当与VPS为索引为output_layer_set_idx的输出层集合指定的映射相同。当对于OP不存在output_layer_set_idx时，其值被推断为等于仅包含该OP 中的层的OLS的OLS索引。

op_track_count指定在该操作点中携带VCLNAL单元的轨道的数量。

op_track_id[j]指定在该操作点中携带VCL NAL单元的轨道中的第j轨道的 track_ID值。

avgBitRate给出了操作点的流的平均比特率，单位为比特/秒。

direct_ref_layerID：直接参考层的nuh_layer_id。

6.2.第二实施例

本实施例针对项目1.b.i、4、4a、4.a.i、4b、4c、5a、6、8和8b。

VVC比特流的隐式重构：

当操作点信息样点组存在时，所需的轨道基于它们携带的层及其参考层来选择，如操作点信息和层信息样点组所示。

当操作点实体组存在时，所需的轨道基于OperatingPointGroupBox中的信息来选择。

当重构包含VCL NAL单元的TemporalId大于0的子层的比特流时，同一层内的所有较低子层(即，VCL NAL单元的TemporalId较小的那些层)也被包括在所得比特流中，并且所需的轨道相应地被选择。

当重构访问单元时，来自具有相同解码时间的样点的图片单元(如在ISO/IEC23090-3中规定的)按nuh_layer_id值的递增次序被放置到访问单元中。当访问单元的多个图片单元中的至少一个图片单元具有AUD NAL单元时，第一图片单元(即，具有最小nuh_ layer_id值的图片单元)应当具有AUD NAL单元，并且只有第一图片单元中的AUD NAL单元被保持在所重构的访问单元中，而其他AUD NAL单元(当存在时)被丢弃。在这种所重构的访问单元中，当AUD NAL单元的aud_irap_or_gdr_flag等于1并且所重构的访问单元不是IRAP 或GDR访问单元时，AUD NAL单元的aud_irap_or_gdr_flag的值被设置为等于0。

注1：第一PU中的AUD NAL单元的aud_irap_or_gdr_flag可能等于1，而同一访问单元的但在分开的轨道中的另一PU具有不是IRAP或GDR图片的图片。在这种情况下，所重构的访问单元中的AUD NAL单元的aud_irap_or_gdr_flag的值从1更改为0。

……

实体组和其他文件级别信息：

子图片实体组：

……

操作点实体组：

概述：

当聚集映射到该实体组中描述的操作点的轨道的样点时，隐式重构过程不要求移除任何进一步的VCL NAL单元来产生一致的VVC比特流。属于操作点实体组的轨道应当具有对操作点实体组中所指示的group_id的、“oref”类型的轨道参考[[轨道参考]]，并且不应携带“vopi”样点组。

操作点实体组中所包括的所有entity_id值应当属于同一VVC比特流。当存在时，OperatingPointGroupBox应当被包含在[[影片]]文件级别MetaBox中的GroupsListBox中，而不应被包含在其他级别的[[文件级别或轨道级别]]MetaBox中。

操作点信息轨道箱

定义：

箱类型：“topi”

容器：文件级别MetaBox

强制：否

数量：0或1

操作点信息轨道箱包含携带“vopi”样点组的轨道集合的轨道ID。不存在该箱指示文件中没有携带“vopi”样点组的轨道。

语法

语义

num_tracks_with_vopi指定文件中携带“vopi”样点组的轨道的数量。

track_ID[i]指定携带“vopi”样点组的第i个轨道的轨道ID。

图1是示出其中可以实施本文公开的各种技术的示例视频处理系统1900的框图。各种实施方式可以包括系统1900的一些或所有组件。系统1900可以包括用于接收视频内容的输入端1902。视频内容可以以原始或未压缩格式(例如，8或10比特多分量像素值)来接收，或者可以是压缩或编码格式。输入端1902可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi接口或蜂窝接口)。

系统1900可以包括可实施本文档中描述的各种编解码或编码方法的编解码组件1904。编解码组件1904可以降低从输入端1902到编解码组件1904的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时被称为视频压缩或视频代码转换技术。编解码组件1904的输出可以被存储，或者经由所连接的通信来传输，如组件1906所表示的。组件1908可以使用在输入端1902接收的所存储或传送的视频的比特流(或编解码)表示，以生成要发送到显示接口1910的像素值或可显示视频。根据比特流表示生成用户可观看视频的过程有时被称为视频解压缩。此外，尽管某些视频处理操作被称为“编解码”操作或工具，但是应当理解，编解码工具或操作在编码器处使用，并且反转编解码的结果的对应解码工具或操作将由解码器执行。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以体现在各种电子设备中，诸如移动电话、膝上型电脑、智能电话或能够执行数字数据处理和/或视频显示的其他设备。

图2是视频处理装置3600的框图。装置3600可以用于实施本文所述的一种或多种方法。装置3600可以体现在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604和视频处理硬件3606。处理器3602可以被配置为实施本文档中描述的一种或多种方法。存储器3604可以用于存储用于实施本文描述的方法和技术的数据和代码。视频处理硬件3606可以用于在硬件电路中实施本文档中描述的一些技术。在一些实施例中，视频处理硬件3606可以至少部分地被包括在处理器3602(例如，图形协同处理器)中。

图4是示出可以利用本公开的技术的示例视频编解码系统100的框图。

如图4所示，视频编解码系统100可以包括源设备110和目的地设备120。源设备110生成编码后的视频数据，其可以被称为视频编码设备。目的地设备120可以对由源设备110生成的编码后的视频数据解码，其可以被称为视频解码设备。

源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备、从视频内容提供商接收视频数据的接口、和/或用于生成视频数据的计算机图形系统之类的源，或者这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码后的图片和相关数据。编解码后的图片是图片的编解码表示。相关数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发送器。编码后的视频数据可以通过网络130a经由I/O接口116直接传输到目的地设备120。编码后的视频数据还可以存储到存储介质/服务器130b上，以供目的地设备120存取。

目的地设备120可以包括I/O接口126、视频解码器124和显示设备122。

I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码后的视频数据。视频解码器124可以对编码后的视频数据解码。显示设备122可以向用户显示解码后的视频数据。显示设备122可以与目的地设备120集成，或者可以在被配置为与外部显示设备接口连接的目的地设备120的外部。

视频编码器114和视频解码器124可以根据视频压缩标准操作，诸如高效视频编解码(HEVC)标准、通用视频编解码(VVM)标准和其他当前的和/或进一步的标准。

图5是示出视频编码器200的示例的框图，视频编码器200可以是图4所示的系统100中的视频编码器114。

视频编码器200可以被配置为执行本公开的任何或所有技术。在图5的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

视频编码器200的功能组件可以包括分割单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重构单元212、缓冲器213和熵编码单元214，预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在示例中，预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式执行预测，其中至少一个参考图片是当前视频块所在的图片。

此外，诸如运动估计单元204和运动补偿单元205的一些组件可以高度集成，但是为了解释的目的，在图5的示例中被单独表示。

分割单元201可以将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块尺寸。

模式选择单元203可以基于误差结果选择编解码模式之一(例如，帧内或帧间)，并且将所得的帧内或帧间编解码块提供给残差生成单元207以生成残差块数据，并且提供给重构单元212来重构编码块以用作参考图片。在一些示例中，模式选择单元203可以选择组合帧内帧间预测(CIIP)模式，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元205可以基于运动信息和除了与当前视频块相关联的图片之外的来自缓冲器213的图片的解码样点来确定当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元204然后可以生成指示列表0或列表1中包含参考视频块的参考图片的参考索引以及指示当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于当前视频块的运动信息所指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元204可以对当前视频块执行双向预测，运动估计单元204可以在列表0中的参考图片中搜索当前视频块的参考视频块，并且还可以在列表1中的参考图片中搜索当前视频块的另一参考视频块。运动估计单元204然后可以生成指示列表0和列表1中包含参考视频块的参考图片的参考索引以及指示参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于当前视频块的运动信息所指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元204可以输出完全运动信息集，以用于解码器的解码处理。

在一些示例中，运动估计单元204可以不输出当前视频的完全运动信息集。相反，运动估计单元204可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。例如，运动估计单元204可以确定当前视频块的运动信息与临近视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中指示一个值，该值向视频解码器300指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中识别另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与所指示的视频块的运动矢量之间的差。视频解码器300可以使用所指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。

如上所述，视频编码器200可以预测性地信令通知运动矢量。可以由视频编码器200实施的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和Merge模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中的其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。

残差生成单元207可以通过从当前视频块中减去(例如，由减号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括与当前视频块中样点的不同样点分量相对应的残差视频块。

在其他示例中，例如在跳过模式中，对于当前视频块来说可能不存在当前视频块的残差数据，并且残差生成单元207可能不执行减去操作。

变换处理单元208可以通过对与当前视频块相关联的残差视频块应用一个或多个变换来生成当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

反量化单元210和反变换单元211可以对变换系数视频块分别应用反量化和反变换，以根据变换系数视频块来重构残差视频块。重构单元212可以将重构的残余视频块添加到来自预测单元202所生成的一个或多个预测视频块的对应样点，以产生与当前块相关联的重构视频块，以供存储在缓冲器213中。

在重构单元212重构视频块之后，可以执行环路滤波操作来减少视频块中的视频块伪影。

熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收到数据时，熵编码单元214可以执行一个或多个熵编码操作以生成熵编码后的数据，并且输出包括熵编码后的数据的比特流。

图6是示出视频解码器300的示例的框图，视频解码器300可以是图4所示的系统100中的视频解码器114。

视频解码器300可以被配置为执行本公开的任何或所有技术。在图6的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图6的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305以及重构单元306和缓冲器307。在一些示例中，视频解码器300可以执行通常与关于视频编码器200(图5)描述的编码遍次(pass)相反的解码遍次。

熵解码单元301可以检索编码后的比特流。编码后的比特流可以包括熵编解码后的视频数据(例如，编码后的视频数据块)。熵解码单元301可以对熵编解码后的视频数据解码，并且根据熵解码后的视频数据，运动补偿单元302可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元302例如可以通过执行AMVP和Merge模式来确定这样的信息。

运动补偿单元302可以产生可能基于插值滤波器执行插值的运动补偿块。语法元素中可以包括要以子像素精度使用的插值滤波器的标识符。

运动补偿单元302可以使用视频编码器200在视频块的编码期间所使用的插值滤波器来计算参考块的子整数像素的插值。运动补偿单元302可以根据接收的语法信息来确定视频编码器200所使用的插值滤波器，并且使用插值滤波器来产生预测块。

运动补偿单元302可以使用一些语法信息来确定用于对编码后的视频序列的(一个或多个)帧和/或(一个或多个)条带进行编码的块的尺寸、描述如何对编码后的视频序列的图片的每个宏块进行分割的分割信息、指示如何对每个分区编码的模式、每个帧间编码块的一个或多个参考帧(和参考帧列表)以及用于对编码后的视频序列进行解码的其他信息。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来根据空域相邻块来形成预测块。反量化单元303对在比特流中提供并由熵解码单元301解码的量化视频块系数进行反量化，即去量化。反变换单元303应用反变换。

重构单元306可以将残差块与运动补偿单元202或帧内预测单元303所生成的对应预测块相加，以形成解码块。如果需要，还可以应用去方块滤波器来对解码块进行滤波，以便去除块效应伪像。解码后的视频块然后被存储在缓冲器307中，缓冲器307为后续的运动补偿/帧内预测提供参考块，并且还产生解码后的视频以供呈现在显示设备上。

接下来提供由一些实施例优选的方案列表。

以下方案示出了在前一章节中讨论的技术的示例实施例(例如，项目1、2)。

1.一种可视媒体处理方法(例如，图3中描绘的方法700)，包括：执行(702)可视媒体数据与根据格式规则存储可视媒体数据的比特流表示的文件之间的转换；其中该文件包括该文件中所包括的所有操作点的文件级别信息，其中该文件级别信息包括每个操作点所需的轨道的信息。

2.根据方案1所述的方法，其中，格式规则允许轨道包括相应操作点不需要的层和子层。

3.根据方案1-2中的任一项所述的方法，其中，每个操作点所需的轨道的信息被包括在vopi样点组条目中。

以下方案示出了在前一章节中讨论的技术的示例实施例(例如，项目3)。

4.一种可视媒体处理方法，包括：执行可视媒体数据与根据格式规则存储可视媒体数据的比特流表示的文件之间的转换；其中，格式规则指定在所有层都不相关的情况下从vopi样点组条目中跳过层相关性信息。

以下方案示出了在前一章节中讨论的技术的示例实施例(例如，项目5、6)。

5.一种可视媒体处理方法，包括：执行可视媒体数据与根据格式规则存储可视媒体数据的比特流表示的文件之间的转换；其中，格式规则定义与比特流表示中的操作点实体组(opeg)的处理相关联的规则。

6.根据方案5所述的方法，其中，格式规则指定，在opeg存在的情况下，文件中的每个所需的轨道提供与opeg中的每个操作点相对应的视频编解码层网络抽象层(VCL NAL)的确切集合。

7.根据方案6所述的方法，其中，格式规则允许在轨道中包括非VCL单元。

以下方案示出了在前一章节中讨论的技术的示例实施例(例如，项目4)。

8.一种可视媒体处理方法，包括：执行可视媒体数据与根据格式规则存储可视媒体数据的比特流表示的文件之间的转换；其中，该转换包括根据多个轨道执行比特流表示的隐式重构，其中根据规则处理冗余访问单元分隔符网络访问单元(AUD NAL)。

9.根据方案8所述的方法，其中，规则指定移除AUD NAL单元。

10.根据方案8所述的方法，其中，规则指定重写AUD NAL单元。

11.根据方案8-10中的任一项所述的方法，其中，规则指定，在访问单元的来自不同轨道的多个图片单元中的至少一个图片单元具有AUD NAL单元的情况下，第一图片单元具有另一AUD NAL单元。

12.根据方案8-10中的任一项所述的方法，其中，规则规定，在访问单元的来自不同轨道的多个图片单元具有AUD NAL单元存在的情况下，在解码期间，在重构的访问单元中仅保持第一图片单元中的AUD NAL单元。

13.根据方案1-12中的任一项所述的方法，其中，转换包括生成可视媒体数据的比特流表示并根据格式规则将比特流表示存储到文件中。

14.根据方案1-12中的任一项所述的方法，其中，转换包括根据格式规则解析文件以恢复可视媒体数据。

15.一种包括处理器的视频解码装置，处理器被配置为实施根据方案1至14中的一项或多项所述的方法。

16.一种包括处理器的视频编码装置，处理器被配置为实施根据方案1至14中的一项或多项所述的方法。

17.一种其上存储有计算机代码的计算机程序产品，当代码由处理器执行时使得处理器实施根据方案1至14中的任一项所述的方法。

18.一种计算机可读介质，其上的比特流表示符合根据方案1至14中的任一项生成的文件格式。

19.一种本文档中描述的方法、装置或系统。

上面列出的方案的一些优选实施例可以包括以下内容(例如，项目1、2)。

在一些实施例中，一种处理可视媒体的方法(例如，图9A中描绘的方法910)包括：执行(912)可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则在多个轨道中存储可视媒体数据的比特流，格式规则指定文件级别信息包括语法元素，语法元素从多个轨道中识别包含包括操作点信息的特定类型的样点组的一个或多个轨道。

在上述实施例中，格式规则指定可视媒体文件包括该可视媒体文件中所提供的所有操作点的文件级别信息，其中，格式规则还指定对于每个操作点，文件级别信息包括可视媒体文件中相应轨道的信息。

在一些实施例中，格式规则允许特定操作点所需的轨道包括特定操作点不需要的层和子层。

在一些实施例中，其中，语法元素包括包含文件级别容器的箱。

在一些实施例中，格式规则指定文件级别信息被包括在文件级别箱中。

在一些实施例中，在格式规则中指定文件级别信息被包括在影片级别箱中。

在一些实施例中，格式规则指定文件级别信息被包括在轨道级别箱中，轨道级别箱在另一轨道级别箱或另一文件级别箱中被识别。

在一些实施例中，格式规则还指定特定类型的样点组包括关于每个操作点所需的轨道的信息。

在一些实施例中，格式规则还指定从包括关于比特流中的层数的层信息的另一特定类型的样点组中省略关于每个操作点所需的轨道的信息。

在一些实施例中，可视媒体数据由通用视频编解码(VVC)进行处理，并且多个轨道是VVC轨道。

一些优选实施例可以包括以下内容(例如，项目3)。

在一些实施例中，一种可视媒体处理的方法(例如，图9B中描绘的方法920)包括：执行(922)可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流。可视媒体文件存储包括一个或多个视频层的一个或多个轨道。格式规则指定指示层相关性信息的语法元素的第一集合是否被存储在可视媒体文件中取决于指示可视媒体文件中的所有层都不相关的第二语法元素是否具有值1。

在一些实施例中，语法元素的第一集合被存储在指示关于可视媒体文件中所存储的一个或多个操作点的信息的样点组中。

在一些实施例中，格式规则指定，响应于第二语法元素具有值1，从可视媒体文件中省略语法元素的第一集合。

上面列出的方案的一些优选实施例可以包括以下方面(例如，项目4)。

在一些实施例中，一种处理可视媒体数据的方法(例如，图9C中描绘的方法930)包括：执行(932)可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则在多个轨道中存储可视媒体数据的比特流，格式规则指定在根据多个轨道隐式重构比特流期间处理多个轨道中所存储的冗余访问单元分隔符网络访问层(AUD NAL)单元的方式。

在一些实施例中，格式规则指定在隐式重构期间移除冗余AUD NAL单元。

在一些实施例中，格式规则指定在隐式重构期间重写冗余AUD NAL单元。

在一些实施例中，格式规则指定，响应于隐式重构包括根据多个轨道的多个图片生成具有与瞬时随机访问点类型或逐渐解码刷新类型不同的特定类型的特定访问单元，特定访问单元中所包括的特定的冗余AUD NAL的语法字段被重写为0值，指示特定的冗余AUDNAL不表示瞬时随机访问点或逐渐解码刷新类型。

在一些实施例中，格式规则还指定，第一图片单元(PU)中的AUD NAL单元中的语法元素的值被重写为0，指示在来自不同轨道的第二PU包括不是帧内随机访问点图片或逐渐解码刷新图片的图片的情况下，特定的AUD NAL不表示瞬时随机访问点或逐渐解码刷新类型。

在一些实施例中，格式规则指定响应于访问单元的来自不同轨道的多个图片单元中的至少一个图片单元具有第一AUD NAL单元，根据隐式重构生成的访问单元的第一图片单元包括第二AUD NAL单元。

在一些实施例中，格式规则指定响应于访问单元的来自不同轨道的多个图片单元包括AUD NAL单元，与第一图片单元的AUD NAL单元相对应的单个AUD NAL单元被包括在根据隐式重构生成的访问单元中。

上面列出的方案的一些优选实施例可以包括以下方面(例如，项目7)。

在一些实施例中，一种可视媒体处理方法(例如，图9D中描绘的方法940)包括：执行(942)可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流。可视媒体文件存储包括一个或多个视频层的一个或多个轨道。可视媒体文件包括操作点(OP)的信息；其中，格式规则指定语法元素是否或如何被包括在样点组条目和OP的组箱中基于OP是否包含单个视频层；其中，语法元素被配置为指示OP的输出层集合的索引。

在一些实施例中，格式规则指定，响应于OP包含单个视频层，从样点组条目和组箱中省略语法元素。

在一些实施例中，格式规则指定，响应于OP包含不止一个视频层，在指示识别不止一个视频层的信息之后包括语法元素。

在一些实施例中，响应于从样点组条目和组箱中省略语法元素，OP的输出层集合的索引被推断为等于包括单个视频层的输出层集合的索引。

上面列出的方案的一些优选实施例可以结合以下方面(例如，项目8)。

在一些实施例中，一种可视媒体处理方法(例如，图9E中描绘的方法950)包括：执行(952)可视媒体数据与可视媒体文件之间的转换，可视媒体文件根据格式规则存储可视媒体数据的比特流；其中，可视媒体文件存储属于特定类型的实体组的多个轨道，并且其中，格式规则指定：响应于多个轨道具有对组标识符的特定类型的轨道参考，多个轨道(A)省略携带特定类型的样点组或者(B)携带特定类型的样点组，使得特定类型的样点组中的信息与特定类型的实体组中的信息一致。

在一些实施例中，多个轨道表示比特流。

在一些实施例中，特定类型的实体组指示多个轨道确切地对应于操作点。

在一些实施例中，特定类型的样点组包括关于多个轨道中的哪些轨道对应于操作点的信息。

上面列出的方案的一些优选实施例可以结合以下方面(例如，项目5、6、9)。

在一些实施例中，一种可视媒体处理方法(例如，图9F中描绘的方法960)包括：执行(962)可视媒体数据与可视媒体文件之间的转换，可视媒体文件存储可视媒体数据的比特流，其中，可视媒体文件包括多个轨道；其中，可视媒体文件存储携带关于可视媒体文件中的操作点的信息的实体组和携带每个操作点的轨道；并且其中，格式规则响应于可视媒体文件存储携带每个操作点的信息的实体组或样点组来指定可视媒体文件的属性。

在一些实施例中，格式规则指定实体组为每个操作点提供携带视频编解码层(VCL)网络抽象层(NAL)单元的确切集合的轨道集合。

在一些实施例中，格式规则还指定，在比特流的重构期间移除轨道集合中的冗余的非VCL NAL单元。

在一些实施例中，格式规则指定实体组为每个操作点提供携带一个或多个层和一个或多个子层的确切集合的轨道集合。

在一些实施例中，格式规则还指定，在比特流的重构期间移除轨道集合中的冗余的非视频编解码层(VCL)网络抽象层(NAL)单元。

在一些实施例中，格式规则指定，在根据多个轨道重构比特流的过程中，移除冗余的比特流结尾(EOB)或流结尾(EOS)网络抽象层(NAL)单元。

在一些实施例中，格式规则指定，在根据多个轨道重构比特流的过程中，移除或重写访问分隔符单元(AUD)。

在一些实施例中，格式规则指定了这样的属性，即除了预先指定的文件级别箱之外，不允许与实体组相关联的实体组箱的容器以任何级别存储在可视媒体文件中。

在一些实施例中，预先指定的文件级别箱是被包括在文件级别元数据箱中的组列表箱。

在一些实施例中，格式规则指定，响应于比特流被存储在可视媒体文件中的单个轨道中，不允许实体组和/或样点组中的任一个针对比特流进行存储。

在上述几个实施例中，转换包括根据格式规则将比特流存储到可视媒体文件中。

在上述几个实施例中，转换包括根据格式规则解析可视媒体文件以重构比特流。

在一些实施例中，可视媒体文件解析装置可以包括被配置为实施上述实施例中公开的方法的处理器。

在一些实施例中，可视媒体文件写入装置包括被配置为实施上述实施例中公开的方法的处理器。

一些实施例可以包括其上存储有计算机代码的计算机程序产品。当该代码由处理器执行时使得处理器实施上述实施例中的任一项所述的方法。

一些实施例可以包括其上存储有可视媒体文件的计算机可读介质，该可视媒体文件符合根据上述方法中的任一项生成的文件格式。

在本文描述的方案中，编码器可以通过根据格式规则产生编解码表示来符合格式规则。在本文描述的方案中，解码器可以在根据格式规则了解语法元素的存在和不存在的情况下，使用格式规则解析编解码表示中的语法元素，以产生解码后的视频。

在本文档中，术语“视频处理”可以指代视频编码、视频解码、视频压缩或视频解压缩。例如，视频压缩算法可以在从视频的像素表示到对应的比特流表示的转换期间应用，反之亦然。如语法所定义的，当前视频块的比特流表示可以例如对应于位于比特流内不同位置或在比特流内不同位置扩展的比特。例如，宏块可以根据经变换和编解码的误差残差值并且还使用头中的比特和比特流中的其他字段进行编码。此外，在转换期间，解码器可以基于该确定，在了解一些字段可能存在或不存在的情况下解析比特流，如以上方案中所述。类似地，编码器可以确定某些语法字段是否被包括在内，并且通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。术语“可视媒体”可以指代视频或图像，并且术语可视媒体处理可以指代视频处理或图像处理。

本文档中描述的所公开的和其他的方案、示例、实施例、模块和功能操作可以在数字电子电路中实施，或者在计算机软件、固件或硬件(包括本文档中公开的结构及其结构等同物)中实施，或者在它们中的一个或多个的组合中实施。所公开的和其他的实施例可以被实施为一个或多个计算机程序产品，即，编码在计算机可读介质上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储设备、实现机器可读传播信号的合成物质，或者它们中的一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机、或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如机器生成的电、光或电磁信号，其被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言)来编写，并且它可以用任何形式来部署(包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元)。计算机程序不一定对应于文件系统中的文件。程序可以被存储在保存其他程序或数据的文件的一部分(例如，标记语言文档中所存储的一个或多个脚本)中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协同文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一台计算机上或在位于一个站点或跨多个站点分布并通过通信网络互连的多台计算机上执行。

本文档中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。这些过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基础元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备(例如磁盘、磁光盘或光盘)，以从其接收数据，或向其发送数据，或两者兼有。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如：半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或结合在其中。

尽管本专利文档包含许多细节，但是这些细节不应被解释为对任何主题或所要求保护的范围的限制，而是对可以特定于特定技术的特定实施例的特征的描述。本专利文档中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开地实施或者在任何合适的子组合中实施。此外，尽管特征可以在上面被描述为在某些组合中起作用，并且甚至最初被这样要求保护，但是在一些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，尽管在附图中以特定次序描述了操作，但是这不应当被理解为要求以所示的特定的次序或顺序的次序执行这些操作，或者要求执行所有示出的操作，以获得期望的结果。此外，本专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了几个实施方式和示例，并且可以基于本专利文档中描述和示出的内容进行其他实施、增强和变化。

Claims

1.一种可视媒体处理方法，包括:

执行可视媒体数据与可视媒体文件之间的转换，所述可视媒体文件根据格式规则存储所述可视媒体数据的比特流；

其中，所述可视媒体文件存储包括一个或多个视频层的一个或多个轨道；并且

其中，所述格式规则指定指示层相关性信息的语法元素的第一集合是否被存储在所述可视媒体文件中取决于指示所述可视媒体文件中的所有层都不相关的第二语法元素是否具有值1。

2.根据权利要求1所述的方法，其中，所述语法元素的第一集合被存储在指示关于所述可视媒体文件中所存储的一个或多个操作点的信息的样点组中。

3.根据权利要求1所述的方法，其中，所述格式规则指定，响应于所述第二语法元素具有值1，从所述可视媒体文件中省略所述语法元素的第一集合。

4.根据权利要求1所述的方法，

其中，所述格式规则指定在根据多个轨道隐式重构所述比特流期间处理所述多个轨道中所存储的冗余访问单元分隔符网络访问层(AUD NAL)单元的方式。

5.根据权利要求4所述的方法，其中，所述格式规则指定在所述隐式重构期间移除所述冗余AUD NAL单元。

6.根据权利要求4所述的方法，其中，所述格式规则指定在所述隐式重构期间重写所述冗余AUD NAL单元。

7.根据权利要求6所述的方法，其中，所述格式规则指定，响应于所述隐式重构包括根据多个轨道的多个图片生成具有与瞬时随机访问点类型或逐渐解码刷新类型不同的特定类型的特定访问单元，所述特定访问单元中所包括的特定的冗余AUD NAL的语法字段被重写为0值，其指示所述特定的冗余AUD NAL不表示所述瞬时随机访问点或逐渐解码刷新类型。

8.根据权利要求7所述的方法，其中，所述格式规则还指定，第一图片单元(PU)中的AUDNAL单元中的语法元素的值被重写为0，其指示在来自不同轨道的第二PU包括不是帧内随机访问点图片或逐渐解码刷新图片的图片的情况下，所述特定的AUD NAL不表示所述瞬时随机访问点或逐渐解码刷新类型。

9.根据权利要求4所述的方法，其中，所述格式规则指定响应于访问单元的来自不同轨道的多个图片单元中的至少一个图片单元具有第一AUD NAL单元，根据所述隐式重构生成的访问单元的第一图片单元包括第二AUD NAL单元。

10.根据权利要求4所述的方法，其中，所述格式规则指定响应于访问单元的来自不同轨道的多个图片单元包括AUD NAL单元，与第一图片单元的AUD NAL单元相对应的单个AUDNAL单元被包括在根据所述隐式重构生成的访问单元中。

11.根据权利要求1所述的方法，

其中，所述可视媒体文件包括操作点OP的信息；

其中，所述格式规则指定语法元素是否或如何被包括在样点组条目和所述OP的组箱中基于所述OP是否包含单个视频层；并且

其中，所述语法元素被配置为指示所述OP的输出层集合的索引。

12.根据权利要求11所述的方法，其中，所述格式规则指定，响应于所述OP包含单个视频层，从样点组条目和组箱中省略所述语法元素。

13.根据权利要求11所述的方法，其中，所述格式规则指定，响应于所述OP包含不止一个视频层，在指示识别所述不止一个视频层的信息之后包括所述语法元素。

14.根据权利要求12所述的方法，其中，响应于从样点组条目和组箱中省略所述语法元素，所述OP的输出层集合的索引被推断为等于包括所述单个视频层的输出层集合的索引。

15.根据权利要求1-14中任一项所述的方法，其中，所述转换包括根据所述格式规则生成所述可视媒体文件并将所述比特流存储到所述可视媒体文件中。

16.根据权利要求1-14中任一项所述的方法，其中，所述转换包括根据所述格式规则解析所述可视媒体文件以重构所述比特流。

17.一种用于处理可视媒体的装置，其包括处理器，所述处理器被配置为实施根据权利要求1-16中任一项所述的方法。

18.一种其上存储有处理器可执行代码的非暂时性存储介质，所述代码在执行时使得处理器实施根据权利要求1-16中任一项所述的方法。