CN115843431A

CN115843431A - 对视频图片中的子图片的数量的约束

Info

Publication number: CN115843431A
Application number: CN202180041271.XA
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2020-06-08
Filing date: 2021-06-07
Publication date: 2023-03-24
Also published as: US20230099628A1; WO2021252394A1; KR20230019846A; KR20230019847A; US20240107046A1; CN115804086A; KR102708610B1; EP4154525A1; EP4154525A4; CN115699728A; EP4154524A4; BR112022025036A2; EP4154524A1; JP7538256B2; US20230100470A1; WO2021252393A1; US11849136B2; WO2021252396A1; US11831895B2; JP2023529431A

Abstract

描述了用于视频编码和视频解码的几种技术。一种示例方法包括根据规则来执行包括一个或多个输出层集(OLS)的视频的当前访问单元与视频的比特流之间的转换。该规则规定子图片序列包括(1)目标CVS内的具有相同子图片索引并且属于多子图片层中的层的所有子图片，以及(2)目标CVS中的具有子图片索引0并且属于OLS的层，但是不在多子图片层中的所有子图片。

Description

对视频图片中的子图片的数量的约束

相关申请的交叉引用

根据巴黎公约的适用专利法和/或规则，本申请及时要求2020年6月8日提交的美国临时专利申请No.63/036,365的优先权和利益。出于法律指定的所有目的，上述申请的全部公开内容通过引用并入作为本申请公开内容的一部分。

技术领域

该专利文档涉及图像和视频编码和解码。

背景技术

在互联网和其他数字通信网络中，数字视频占用了最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加，预计数字视频使用的带宽需求将继续增长。

发明内容

本专利文档公开了可以由视频编码器和解码器用于处理视频或图像的编解码表示的技术。

在一个示例方面，公开了一种处理视频数据的方法。该方法包括：根据规则来执行视频与包括一个或多个输出层集(OLS)的视频的比特流之间的转换。该规则规定子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。SLI SEI消息的语法结构包括(1)规定子图片序列的子层的最大数量的第一语法元素，(2)规定子图片序列的级别信息是否存在于一个或多个子层表示的第二语法元素，以及(3)多个子层的循环，每个子层与比特流级别限制的分数(fraction)和指示每个子图片序列符合的级别的级别指示符相关联。

在另一示例方面，公开了一种处理视频数据的方法。该方法包括：根据规则来执行包括一个或多个输出层集(OLS)的视频的当前访问单元与视频的比特流之间的转换。该规则规定规定子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。SLI SEI消息按解码顺序从当前访问单元保持存续，直到比特流结束，或者直到包含包括与SLI SEI消息不同的内容的后续SLI SEI消息的下一个访问单元。

在另一示例方面，公开了一种处理视频数据的方法。该方法包括：根据规则来执行包括一个或多个输出层集(OLS)的视频的当前访问单元与视频的比特流之间的表示转换。子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。一个或多个OLS中的对于其参考序列参数集中的变量指示子图片的数量大于1的层被称为多子图片层。OLS集合中的编解码视频序列被称为目标编解码视频序列(CVS)。该规则规定规定子图片序列包括(1)目标CVS中具有相同子图片索引并且属于多子图片层中的层的所有子图片，以及(2)目标CVS中具有0子图片索引并且属于OLS的层但是不属于多子图片层的所有子图片。

在另一示例方面，公开了一种视频处理方法。该方法包括：执行包括一个或多个视频子层的视频与视频的编解码表示之间的转换，其中该编解码表示符合格式规则；其中该格式规则规定包括编解码表示中的多个子层上循环的语法结构以及指示语法结构中包括的每个子层的一个或多个语法字段，其中该语法结构包括关于信令通知的分数和参考级别指示符的信息。

在另一示例方面，公开了另一种视频处理方法。该方法包括：执行包括一个或多个子图片的视频与视频的编解码表示之间的转换，其中该转换使用或产生一个或多个子图片级别信息的补充增强信息。

在又一示例方面，公开了一种视频编码器装置。视频编码器包括被配置为实施上述方法的处理器。

在又一示例方面，公开了一种视频解码器装置。视频解码器包括被配置为实施上述方法的处理器。

在又一示例方面，公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式实现了本文描述的方法之一。

这些以及其他特征将在本文件中描述。

附图说明

图1示出了图片的光栅扫描条带分割的示例，其中图片被分成12个片(tile)和3个光栅扫描条带。

图2示出了图片的矩形条带分割的示例，其中图片被分成24个片(6个片列和4个片行)以及9个矩形条带。

图3示出了被分割成片和矩形条带的图片的示例，其中图片被分成4个片(2个片列和2个片行)和4个矩形条带。

图4示出了被分割成15个片、24个条带和24个子图片的图片。

图5是示例视频处理系统的框图。

图6是视频处理装置的框图。

图7是视频处理的示例方法的流程图。

图8是示出了根据本公开的一些实施例的视频编解码系统的框图。

图9是示出了根据本公开的一些实施例的编码器的框图。

图10是示出了根据本公开的一些实施例的解码器的框图。

图11示出了典型的基于子图片的视口相关360°视频编解码方案的示例。

图12示出了基于子图片和空间可缩放性的视口相关360°视频编解码方案。

图13为根据本技术的一个或多个实施例的处理视频数据的方法的流程图。

图14为根据本技术的一个或多个实施例的处理视频数据的另一种方法的流程图。

图15为根据本技术的一个或多个实施例的处理视频数据的另一种方法的流程图。

具体实施方式

在本文件中使用章节标题是为了易于理解，而不是将每个章节中公开的技术和实施例的适用性仅限制于该章节。此外，在一些描述中使用H.266术语仅仅是为了易于理解，而不是为了限制所公开技术的范围。因此，本文描述的技术也适用于其他视频编解码器协议和设计。在本文件中，相对于VVC规范的当前草案，通过删除线指示删除的文本，高亮指示添加的文本(包括粗体斜体)，将编辑修改显示在文本中。

1.概述

本文档涉及视频编解码技术。具体地，它是关于指定和信令通知子图片序列的级别信息。它可以应用于支持单层视频编解码和多层视频编解码的任何视频编解码标准或非标准视频编解码器，例如，正在开发的多功能视频编解码(VVC)。

2.缩写

APS 自适应参数集

AU 访问单元

AUD 访问单元分界符

AVC 高级视频编解码

BP 缓冲时段

CLVS 编解码层视频序列

CPB 编码图片缓冲器

CRA 完全随机访问(Clean Random Access)

CTU 编解码树单元

CVS 编解码视频序列

DPB 解码图片缓冲器

DPS 解码参数集

DUI 解码单元信息

EOB 比特流结尾

EOS 序列结尾

GCI 一般约束信息

GDR 逐渐解码刷新

HEVC 高效视频编解码

HRD 假想参考解码器

IDR 即时解码刷新

JEM 联合探索模式

MCTS 运动约束的片集

NAL 网络抽象层

OLS 输出层集

PH 图片标头

PPS 图片参数集

PT 图片时序

PTL 档次(profile)、层级(tier)和级别(level)

PU 图片单元

RRP 参考图片重采样

RBSP 原始字节序列载荷

SEI 补充增强信息

SH 条带标头

SLI 子图片级别信息

SPS 序列参数集

SVC 可缩放视频编解码

VCL 视频编解码层

VPS 视频参数集

VTM VVC测试模型

VUI 视频可用性信息

VVC 多功能视频编解码

3.初步讨论

视频编码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T制定了H.261和H.263，ISO/IEC制定了MPEG-1和MPEG-4 Visual，并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时间预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索小组(JVET)。此后，JVET采用了许多新的方法，并将其输入到名为联合勘探模型(JEM)的参考软件中。JVET会议同时每季度举行一次，并且与HEVC相比，新编解码标准的目标是降低50％的比特率。新的视频编码标准在2018年4月的JVET会议上被正式命名为通用视频编解码(VVC)，第一版VVC测试模型(VTM)也在当时发布。由于对VVC标准化的存续努力，新的编解码技术在每次JVET会议上都被采用到VVC标准中。VVC的工作草案和测试模型VTM在每次会议后都会更新。VVC项目现在的目标是在2020年7月的会议上技术上完成(FDIS)。

3.1.HEVC中的图片分割方案

HEVC包括四种不同的图片分割方案，即，规则条带、从属条带、片和波前(wavefront)并行处理(WPP)，其可以应用于最大传输单元(MTU)大小匹配、并行处理和减少的端到端延迟。

规则条带与H.264/AVC中的相似。每个规则条带被封装在其自己的NAL单元中，并且跨条带边界的图片内预测(样本内预测、运动信息预测、编码模式预测)和熵编码依赖性被禁用。因此，可以独立于同一图片内的其他规则条带来重构规则条带(尽管由于环路滤波操作可能仍然存在相互依赖性)。

规则条带是唯一可以用于并行化的工具，其在H.264/AVC中也以几乎相同的形式可用。基于规则条带的并行化不需要太多的处理器间或内核间通信(除了在解码预测性编解码图片时用于运动补偿的处理器间或内核间数据共享，由于图片内预测，这通常比处理器间或内核间数据共享重得多)。然而，出于同样的原因，由于条带标头的比特成本以及缺少跨条带边界的预测，使用规则条带会导致大量编解码开销。此外，由于规则条带的图片内独立性以及每个规则条带被封装在它自己的NAL单元中，规则条带(与下面提到的其他工具相比)还用作比特流分割以匹配MTU大小要求的关键机制。在许多情况下，并行化的目标和MTU大小匹配的目标对图片中的条带布局提出了矛盾的要求。对这种情况的认识导致了下面提到的并行化工具的开发。

从属条带具有短的条带标头，并且允许在树块边界分割比特流，而不破坏任何图片内预测。基本上，从属条带提供将规则条带分段(fragmentation)成多个NAL单元，以通过允许规则条带的一部分在整个规则条带的编码完成之前被发送出去来提供减少的端到端延迟。

在WPP中，图片被分割成单行编解码树块(CTB)。熵解码和预测被允许使用来自其他分区中CTB的数据。通过对CTB行的并行解码，并行处理是可能的，其中对CTB行的解码的开始被延迟了两个CTB，从而确保在主体(subject)CTB被解码之前，与CTB上方和主体CTB的右侧相关的数据是可用的。使用这种交错的开始(当以图形表示时，它看起来像波前)，并行化可以使用与图片包含的CTB行一样多的处理器/内核。因为图片内相邻树块行之间的图片内预测是允许的，所以实现图片内预测所需的处理器间/内核间通信可能是大量的。与未应用时相比，WPP分区不会产生额外的NAL单元，因此WPP不是MTU大小匹配的工具。但是，如果需要MTU大小匹配，则规则条带可以与WPP一起使用，但会有一定的编解码开销。

片定义了将图片划分为片列和行的水平和垂直边界。片列从图片的顶部延伸到图片的底部。同样，片行从图片的左边延伸到图片的右边。图片中的片的数量可以简单地通过片列的数量乘以片行的数量来推导出。

在以图片的片光栅扫描的顺序解码下一个片的左上CTB之前，CTB的扫描顺序被改变为在片内是局部的(以片的CTB光栅扫描的顺序)。与规则条带类似，片打破了图片内预测依赖性以及熵解码依赖性。然而，它们不需要被包括在单个NAL单元中(在这方面与WPP相同)；因此，片不能用于MTU大小匹配。每个片可以由一个处理器/内核来处理，并且解码相邻片的处理单元之间的图片内预测所需的处理器间/内核间通信限于在条带跨越多于一个片的情况下传送共享的条带标头，以及与重构样本和元数据的共享相关的环路滤波。当条带中包括多于一个的片或WPP段时，条带中除第一个片或WPP段之外的每个片或WPP段的入口点字节偏移在条带标头中信令通知。

为简单起见，在HEVC指定了对四种不同图片分割方案应用的限制。给定的编解码视频序列不能同时包括HEVC标准中指定的大部分档次的片和波前两者。对于每个条带和片，必须满足以下条件中的一个或两个：1)条带中的所有编码树块属于同一片；2)片中的所有编码树块属于同一条带。最后，一个波前段恰好包含一个CTB行，并且当使用WPP时，如果条带在CTB行开始，它必须在同一个CTB行结束。

在J.Boyce、A.Ramasubramonian、R.Skupin、G.J.Sullivan、A.Tourapis、Y.-K.Wang(编者)于2017年10月24日发表的JCT-VC输出文件JCTVC-AC1005“HEVC AdditionalSupplemental Enhancement Information(Draft 4)”中指定了对HEVC的最新修改，在此处公开可得：http：//phenix.int-evry.fr/jct/doc_end_user/documents/29_Macau/wg11/JCTVC-AC1005-v2.zip。包括该修改，HEVC指定了三个MCTS相关的SEI消息，即，时间MCTSSEI消息、MCTS提取信息集SEI消息和MCTS提取信息嵌套SEI消息。

时域MCTS SEI消息指示比特流中的MCTS的存在，并且信令通知MCTS。对于每个MCTS，运动矢量被限制为指向MCTS内的全采样位置和仅需要MCTS内的全采样位置进行内插的分数采样位置，并且不允许使用从MCTS外的块推导出的用于时间运动矢量预测的运动矢量候选。这样，每个MCTS可以被独立解码，而不存在不包括在MCTS中的片。

MCTS提取信息集SEI消息提供了可以在MCTS子比特流提取中使用的补充信息(被指定为SEI消息语义的一部分),以生成符合MCTS集的比特流。该信息由多个提取信息集组成，每个提取信息集定义多个MCTS集，并包含将在MCTS子比特流提取过程中使用的替换VPS、SPS和PPS的RBSP字节。当根据MCTS子比特流提取过程提取子比特流时，参数集(VPS、SPS和PPS)需要被重写或替换，条带标头需要稍微更新，因为一个或所有条带地址相关的语法元素(包括first_slice_segment_in_pic_flag和slice_segment_address)通常需要具有不同的值。

3.2.VVC中的图片的分割

在VVC中，图片被分成一个或多个片行和一个或多个片列。片是覆盖图片的矩形区域的CTU序列。片中的CTU在该片中以光栅扫描顺序被扫描。

条带由整数个完整的片或图片的片中的整数个连续的完整CTU行组成。

支持两种条带模式，即，光栅扫描条带模式和矩形条带模式。在光栅扫描条带模式中，条带包含图片的条带光栅扫描中的完整条带序列。在矩形条带模式中，条带包含共同形成图片的矩形区域的多个完整的片，或者共同形成图片的矩形区域的一个片的多个连续的完整的CTU行。矩形条带内的片在对应于该条带的矩形区域内以片光栅扫描顺序被扫描。

子图片包含共同覆盖图片的矩形区域的一个或多个条带。

图1示出了图片的光栅扫描条带分割的示例，其中图片被分成12个片和3个光栅扫描条带。

图2示出了图片的矩形条带分割的示例，其中图片被分成24个条带(6个条带列和4个条带行)和9个矩形条带。

图3示出了被分割成片和矩形条带的图片的示例，其中图片被划分成4个片(2个片列和2个片行)和4个矩形条带。

图4示出了图片的子图片分割的示例，其中图片被分割成18个片，左手侧的12个每个覆盖4×4 CTU的一个条带，并且右手侧的6个片每个覆盖2×2CTU的2个垂直堆叠条带，总共产生24个条带和24个不同尺寸(dimension)的子图片(每个条带是子图片)。

3.3.序列内图片分辨率的改变

在AVC和HEVC中，图片的空间分辨率不能改变，除非使用新SPS的新序列以IRAP图片开始。VVC允许在不编码IRAP图片的位置改变序列内的图片分辨率，IRAP图片总是被帧内编解码。该特征有时被称为参考图片重采样(RPR),因为当参考图片具有与正被解码的当前图片不同的分辨率时，该特征需要对用于帧间预测的参考图片进行重采样。

缩放比率被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样)，并且小于或等于8(8倍上采样)。指定具有不同频率截止(cutoff)的三个重采样滤波器集来处理参考图片和当前图片之间的各种缩放比率。三个重采样滤波器集分别应用于范围从1/2到1/1.75、从1/1.75到1/1.25和从1/1.25到8的缩放比率。重采样滤波器中的每一个集对于亮度具有16个相位，并且对于色度具有32个相位，这与运动补偿插值滤波器的情况相同。实际上，正常的MC插值过程是重采样过程的特殊情况，其中缩放比率范围从1/1.25到8。水平和垂直缩放比率是基于图片宽度和高度以及为参考图片和当前图片指定的左、右、上和下缩放偏移而推导出的。

支持这一特征的VVC设计与HEVC不同的其它方面包括：i)图片分辨率和对应的一致性窗口在PPS中而不是在SPS中被信令通知，而在SPS中最大图片分辨率被信令通知。ii)对于单层比特流，每个图片存储(用于存储一个解码图片的DPB中的时隙(slot))占用存储具有最大图片分辨率的解码图片所需的缓存器大小。

3.4.一般和VVC中的可缩放视频编解码(SVC)

可缩放视频编解码(SVC，有时也称为视频编解码中的可缩放性)是指使用基本层(BL)(有时称为参考层(RL))，以及一个或多个可缩放增强层(EL)的视频编解码。在SVC中，基本层可以携载具有基本质量水平的视频数据。一个或多个增强层可以携载附加的视频数据，以支持例如更高的空域、时域和/或信噪比(SNR)水平。可以相对于先前编码的层来定义增强层。例如，底层可以用作BL，而顶层可以用作EL。中间层可以用作EL或RL，或者两者。例如，中间层(例如，既不是最低层也不是最高层的层)可为中间层下方的层(诸如基本层或任何居间增强层)的EL，并且同时用作中间层上方的一个或多个增强层的RL。类似地，在HEVC标准的多视图或3D扩展中，可以有多个视图，并且一个视图的信息可以用于编解码(例如，编码或解码)另一视图的信息(例如，运动估计、运动矢量预测和/或其他冗余)。

在SVC中，编码器或解码器使用的参数基于编解码级别(例如，视频级别、序列级别、图片级别、条带级别等)分组为参数集，它们可能在该编解码级别中被利用。例如，比特流中不同层的一个或多个编解码视频序列可以利用的参数可以包括在视频参数集(VPS)中，并且编解码视频序列中的一个或多个图片可以使用的参数可以包括在序列参数集(SPS)中。类似地，图片中的一个或多个条带使用的参数可以被包括在图片参数集(PPS)中，并且特定于单个条带的其他参数可以被包括在条带标头中。类似地，可以在各种编解码级别提供特定层在给定时间使用哪个(哪些)参数集的指示。

由于VVC对参考图片重采样(RPR)的支持，可以在不需要任何附加的信号处理级编解码工具的情况下设计对包含多层(例如，VVC中具有SD和HD分辨率的两层)的比特流的支持，因为空间可缩放性支持所需的上采样可以仅使用RPR上采样滤波器。然而，为了可缩放性支持，需要高级别的语法变化(与不支持可缩放性相比)。VVC版本1中指定了可缩放性支持。与任何早期视频编解码标准(包括AVC和HEVC的扩展)中的可缩放性支持不同，VVC可缩放性的设计尽可能对单层解码器设计友好。多层比特流的解码能力是以好像比特流中只有一层的方式来指定的。例如，以独立于要解码的比特流中的层数的方式指定诸如DPB大小的解码能力。基本上，为单层比特流设计的解码器不需要太多改变就能够解码多层比特流。与AVC和HEVC的多层扩展设计相比，HLS在牺牲一些灵活性的情况下得到显著简化。例如，IRAPAU需要包含CVS中存在的每个层的图片。

3.5.基于子图片的视口相关360°视频流式传输

在360°视频(又称全向视频)的流式传输中，在任何特定时刻，仅向用户呈现整个全向视频球体的子集(即，当前视口)，而用户可以随时转动其头部以改变观看方向，从而改变当前视口。虽然期望在客户端处至少有一些未被当前视口覆盖的区域的较低质量表示可用，并准备好呈现给用户，以防用户突然将他/她的观看方向改变到球体上的任何地方，但是全向视频的高质量表示只需要用于当前正在呈现给用户的当前视口。以适当的粒度将整个全向视频的高质量表示分割成子图片能够实现这种优化。使用VVC，这两种表示可以被编码为彼此独立的两层。

典型的基于子图片的视口相关360°视频传输方案如图11所示，其中全视频的较高分辨率表示由子图片组成，而全视频的较低分辨率表示不使用子图片，并且可以用比高分辨率表示频率低的随机访问点进行编解码。客户端接收较低分辨率的全视频，而对于较高分辨率的视频，它只接收和解码覆盖当前视口的子图片。

最新的VVC草案规范也支持如图12所示的改进的360°视频编解码方案。与图11所示的方法相比，唯一的区别在于层间预测(ILP)应用于图12所示的方法。

3.6.参数集

AVC、HEVC和VVC指定参数集。参数集的类型包括SPS、PPS、APS和VPS。AVC、HEVC和VVC的所有都支持SPS和PPS。VPS从HEVC开始引入，并且被包括在HEVC和VVC两者中。APS没有被包括在AVC或HEVC中，但是被包括在最新的VVC草案文本中。

SPS被设计成携带序列级标头信息，并且PPS被设计成携带不经常改变的图片级标头信息。利用SPS和PPS，不经常改变的信息不需要为每个序列或图片重复，因此可以避免该信息的冗余信令。此外，SPS和PPS的使用实现了重要标头信息的带外传输，从而不仅避免了对冗余传输的需要，还提高了抗误码能力。

引入VPS是为了携带对多层比特流中的所有层共用的序列级标头信息。

引入APS是为了携带这样的图片级或条带级信息，这些信息需要相当多的比特来编解码，可以由多个图片共享，并且在序列中可以有相当多的不同变化。

3.7.档次、层级和级别

视频编解码标准通常指定档次和级别。一些视频编解码标准也规定了层级，例如，HEVC和正在开发的VVC。

档次、层级和级别指定对比特流的限制，因此限制解码比特流所需的能力。档次、层和级别也可以用于指示各个解码器实施方式之间的互操作性点。

每个档次指定符合该档次的所有解码器应支持的算法特征和限制的子集。注意，编码器不需要使用档次中支持的所有编解码工具或特征，而符合档次的解码器需要支持所有编解码工具或特征。

层级的每一级别指定比特流语法元素可以采用的值的限制的集合。所有档次的通常使用相同的层级和级别定义的集合，但是各个实施方式可能支持不同的层级，并且在一个层内，每个支持的档次可能支持不同的级别。对于任何给定的档次，层级的级别通常对应于特定的解码器处理负载和存储器能力。

符合视频编解码器规范的视频解码器的能力根据解码符合视频编解码器规范中指定的档次、层级和级别的约束的视频流的能力来指定。当表达特定档次的解码器的能力时，也应该表达该档次所支持的层级和级别。

3.8.VVC中指定和信令通知子图片序列的级别信息

在最新的VVC草案文本中，通过子图片级别信息(SLI)SEI消息在VVC中指定和信令通知子图片序列的级别信息，通过应用VVC的条款C.7中指定的子图片子比特流提取过程，可从比特流中提取子图片序列。

最新的VVC草案文本中子图片级别信息SEI消息的语法和语义如下。

D.7.1子图片级别信息SEI消息语法

D.7.2子图片级别信息SEI消息语义

当根据附录A测试包含子图片序列的所提取的比特流的一致性时，子图片级别信息SEI消息包含关于比特流中子图片序列所符合的级别的信息。

当子图片级别信息SEI消息存在于CLVS的任何图片时，子图片级别信息SEI消息应存在于CLVS的第一图片。子图片级别信息SEI消息按解码顺序从当前图片存续在当前层，直到CLVS结束。应用于同一CLVS的所有子图片级别信息SEI消息应具有相同的内容。子图片序列由CLVS内具有相同子图片索引值的所有子图片组成。

比特流一致性的要求是，当子图片级别信息SEI消息存在于CLVS时，对于在0至sps_num_subpics_minus1的范围内(含端点)的每个i值，sps_subpic_treated_as_pic_flag[i]的值应等于1。

加1指定对于sps_num_subpics_minus1+1个子图片中的每一个子图片信令通知的参考级别的数量。

等于0指定，为了通过使用在所提取的子比特流中使用任何CPB规范的HRD来解码根据条款C.7提取比特流的任何子图片所产生的子比特流，假想流调度器(HSS)在间歇比特率模式下操作。sli_cbr_constraint_flag等于1指定HSS在恒定比特率(CBR)模式下操作。

等于1指定语法元素sli_ref_level_fraction_minus1[i]存在。sli_explicit_fraction_present_flag等于0指定语法元素sli_ref_level_fraction_minus1[i]不存在。

加1指定CLVS的图片中的子图片的数量。当存在时，sli_num_subpics_minus1的值应等于CLVS中的图片所参考的SPS中的sps_num_subpics_minus1的值。

应等于0。

指定与比特流中sps_num_subpics_minus1等于0的层相关联的比特流级别限制的分数。当vps_max_layers_minus1等于0或者当比特流中没有层的sps_num_subpics_minus1等于0时，sli_non_subpic_layers_fraction[i]应等于0。

指示附录A中指定的每个子图片所符合的级别。除了附录A中指定的值，比特流不应包含sli_ref_level_idc的值。sli_ref_level_idc[i]的其他值被保留以供ITU-T|ISO/IEC将来使用。比特流一致性的要求是sli_ref_level_idc[0]的值应等于比特流的general_level_idc的值，并且对于i大于0且k大于i的任何值，sli_ref_level_idc[i]的值应小于或等于sli_ref_level_idc[k]。

加1指定如条款A.4.1中指定的第j个子图片所符合的与sli_ref_level_idc[i]相关联的级别限制的分数。

变量SubpicSizeY[j]被设置为等于(sps_subpic_width_minus1[j]+1)*CtbSizeY*(sps_subpic_height_minus1[j]+1)*CtbSizeY。

当不存在时，sli_ref_level_fraction_minus1[i][j]的值被推断为等于Ceil(256*SubpicSizeY[j]÷PicSizeInSamplesY*MaxLumaPs(general_level_idc)÷MaxLumaPs(sli_ref_level_idc[i])-1。

变量LayerRefLevelFraction[i][j]被设置为等于sli_ref_level_fraction_minus1[i][j]+1。

变量OlsRefLevelFraction[i][j]被设置为等于sli_non_subpic_layers_fraction[i]+(256-sli_non_subpic_layers_fraction[i])÷256*(sli_ref_level_fraction_minus1[i][j]+1)。

变量SubpicCpbSizeVcl[i][j]和SubpicCpbSizeNal[i][j]被推导如下：

SubpicCpbSizeVcl[i][j]＝Floor(CpbVclFactor*MaxCPB*OlsRefLevelFraction[i][j]÷256) (D.6)

SubpicCpbSizeNal[i][j]＝Floor(CpbNalFactor*MaxCPB*OlsRefLevelFraction[i][j]÷256) (D.7)

其中，MaxCPB从如条款A.4.2指定的sli_ref_level_idc[i]推导出。

变量SubpicBitRateVcl[i][j]和SubpicBitRateNal[i][j]被推导如下：

SubpicBitRateVcl[i][j]＝Floor(CpbVclFactor*ValBR*OlsRefLevelFraction[0][j]÷256) (D.8)

SubpicBitRateNal[i][j]＝Floor(CpbNalFactor*ValBR*OlsRefLevelFraction[0][j]÷256) (D.9)

其中，ValBR的值被推导如下：

–当在VPS或SPS中的相应HRD参数中bit_rate_value_minus1[Htid][ScIdx]可用时，ValBR被设置为等于(bit_rate_value_minus1[Htid][ScIdx]+1)*2^{(6+bit_rate_scale)}，其中Htid是所考虑的子层索引，并且ScIdx是所考虑的调度索引。

–否则，ValBR被设置为从如条款A.4.2指定的sli_ref_level_idc[0]推导出的MaxBR。

注释1当提取子图片时，产生的比特流具有大于或等于SubpicCpbSizeVcl[i][j]和SubpicCpbSizeNal[i][j]的CpbSize(在VPS、SPS中指示、或推断)和大于或等于SubpicBitRateVcl[i][j]和SubpicBitRateNal[i][j]的比特率(在VPS、SPS中指示、或推断)。

比特流一致性的要求是，由从在到提取过程的输入比特流中sps_num_subpics_minus1大于0的层中提取对于0至sps_num_subpics_minus1的范围内(含端点)的j的第j个子图片而产生的并且符合general_tier_flag等于0且(对于0至num_ref_level_minus1的范围内(含端点)的i)级别等于sli_ref_level_idc[i]的档次的比特流中的每个层应遵守如附录C中指定的每个比特流一致性测试的以下约束：

Ceil(256*SubpicSizeY[j]÷LayerRefLevelFraction[i][j])应小于或等于MaxLumaPs，其中MaxLumaPs在表A.1中针对级别sli_ref_level_idc[i]指定。

Ceil(256*(sps_subpic_width_minus1[j]+1)*CtbSizeY÷LayerRefLevelFraction[i][j])的值应小于或等于Sqrt(MaxLumaPs*8)。

Ceil(256*(sps_subpic_height_minus1[j]+1)*CtbSizeY÷LayerRefLevelFraction[i][j])的值应小于或等于Sqrt(MaxLumaPs*8)。

SubpicWidthInTiles[j]的值应小于或等于MaxTileCOLS，并且SubpicHeightInTiles[j]的值应小于或等于MaxTileRows，其中MaxTileCOLS和MaxTileRows在表A.1中针对级别sli_ref_level_idc[i]指定。

SubpicWidthInTiles[j]*SubpicHeightInTiles[j]的值应小于或等于MaxTileCOLS*MaxTileRows*LayerRefLevelFraction[i][j]，其中MaxTileCOLS和MaxTileRows在表A.1中针对级别sli_ref_level_idc[i]指定。

比特流一致性的要求是，由提取对于0至sps_num_subpics_minus1的范围内(含端点)的j的第j个子图片而产生的并且符合general_tier_flag等于0且(对于0至sli_num_ref_level_minus1的范围内(含端点)的i)级别等于ref_level_idc[i]的档次的比特流应遵守如附录C中指定的每个比特流一致性测试的以下约束：

对应于第j个子图片的AU 0的NumBytesInNalUnit变量之和应小于或等于对于AU0的SubpicSizeInSamplesY的值的FormatCapabilityFactor*(Max(SubpicSizeY[j],fR*MaxLumaSr*Ols RefLevelFraction[i][j]÷256)+MaxLumaSr*(AuCpbRemovalTime[0]-AuNominalRemovalTime[0])*OlsRefLevelFraction[i][j])÷(256*MinCr)，其中，MaxLumaSr和FormatCapabilityFactor分别是表A.2和表A.3中指定的值，其应用于级别sli_ref_level_idc[i]的AU 0，并且MinCr如A.4.2中指示的而被推导出。

对应于第j个子图片的AU n(n大于0)的NumBytesInNalUnit变量之和应小于或等于FormatCapabilityFactor*MaxLumaSr*(AuCpbRemovalTime[n]-AuCpbRemovalTime[n-1])*OlsRefLevelFraction[i][j]÷(256*MinCr)，其中MaxLumaSr和FormatCapabilityFactor分别是表A.2和表A.3中指定的值，其应用于级别sli_ref_level_idc[i]的AU n，并且MinCr如A.4.2中指示的而被推导出。

子图片序列级别指示符SubpicLevelIdc的值被推导如下：

符合general_tier_flag等于0并且级别等于SubpicLevelIdc的档次的子图片序列比特流应遵守如附录C中指定的每个比特流一致性测试的以下约束：

对于VCL HRD参数，SubpicCpbSizeVcl[i]应小于或等于CpbVclFactor*MaxCPB，其中CpbVclFactor在表A.3中指定，并且MaxCPB在表A.1中以CpbVclFactor比特为单位而指定。

对于NAL HRD参数，SubpicCpbSizeNal[i]应小于或等于CpbNalFactor*MaxCPB，其中CpbNalFactor在表A.3中指定，并且MaxCPB在表A.1中以CpbNalFactor比特为单位而指定。

对于VCL HRD参数，SubpicBitRateVcl[i]应小于或等于CpbVclFactor*MaxBR，其中CpbVclFactor在表A.3中指定，并且MaxBR在表A.1中以CpbVclFactor比特为单位而指定。

对于NAL HRD参数，SubpicBitRateNal[i]应小于或等于CpbNalFactor*MaxBR，其中CpbNalFactor在表A.3中指定，并且MaxBR在表A.1中以CpbNalFactor比特为单位而指定。

注释2当提取子图片序列时，产生的比特流具有大于或等于SubpicCpbSizeVcl[i][j]和SubpicCpbSizeNal[i][j]的CpbSize(在VPS、SPS中指示、或推断)和大于或等于SubpicBitRateVcl[i][j]和SubpicBitRateNal[i][j]的比特率(在VPS、SPS中指示、或推断)。

4.公开的技术方案解决的技术问题

用于规定和信令通知子图片序列级别信息的现有VVC设计存在以下问题：

(1)SLI SEI消息仅信令通知子图片序列的单个级别信息集合，而不管最高TemporalId的值。然而，与每个图片具有单个子图片的比特流一样，不同的子层表示可以符合不同的级别。

(2)SLI SEI消息仅通过位于比特流中而被规定为可用。然而，与参数集和其他HRD相关SEI信息类似，SLI SEI信息也应通过外部方式而变得可用。

(3)SLI SEI消息的存续(persistency)范围被规定在一个CVS内。然而，在大多数情况下，SLI SEI消息将应用于数个连续的CVS，并且通常是整个比特流。

(4)子图片序列的定义不覆盖存在每个图片具有单个子图片的一个或多个层的情况。

(5)缺少要求当SLI SEI消息存在于CVS时，sps_num_subpics_minus1的值对于每个图片具有多个子图片的层中的图片所参考的所有SPS应是相同的约束。否则，要求sli_num_subpics_minus1的值等于sps_num_subpics_minus1的值是没有意义的。

(6)sli_num_subpics_minus1的语义不适用于存在每个图片具有多个子图片的一个或多个层的情况。

(7)变量SubpicLevelIdc和SubpicLevelIdx需要被规定为子图片序列特定的，因为从同一原始比特流中提取的不同子图片序列可以符合不同的级别。

5.解决方案和实施例的示例

为了解决上述问题和其他问题，公开了如下概述的方法。这些项目应该被认为是解释一般概念的示例，而不应该以狭隘的方式解释。此外，这些项目可以单独使用或以任何方式组合使用。

1)为了解决第一个问题，添加sli_max_sublayers_minus1、sli_sub layers_info_present_flag，以及针对信令通知的分数和参考级别指示符的子层的循环，以与PTL语法结构中的级别信息的信令一致。

a.此外，在一个示例中，sli_cbr_constraint_flag也是子层特定的，即，被更改为sli_cbr_constraint_flag[k]并被移动到子层的循环内。

i此外，在一个示例中，当较低子层的sli_cbr_constraint_flag[k]不存在时，其被推断为等于sli_cbr_constraint_flag[k+1]。

b.此外，在一个示例中，当较低子层的分数或参考级别指示符不存在时，其被推断为与下一个较高子层相同。

2)为了解决第二个问题，允许SLI SEI消息在位于比特流中或者通过外部手段提供的情况下是可用的，以与参数集和其他三个一致性/HRD相关的SEI消息(即，PT、BP、DUISEI消息)一致。

3)为了解决第三个问题，将存续范围从一个CVS改变为一个或多个CVS，以与VPS和SPS一致，其中级别信息被信令通知或可能被信令通知。

4)为了解决第四个问题，更改子图片序列的定义，以覆盖当存在每个图片具有单个子图片的一个或多个层时的情况。

5)为了解决第五个问题，要求当SLI SEI消息存在于CVS时，sps_num_subpics_minus1的值对于每个图片具有多个子图片的层中的图片所参考的所有SPS应是相同的。

6)为了解决第6个问题，以这样的方式规定sli_num_subpics_minus1的语义，使得语法元素是关于每个图片具有多个子图片的层的子图片。

7)为了解决第七个问题，在SLI SEI消息的语义中的最后的约束集合中，向变量SubpicLevelIdc和SubpicLevelIdx，以及向数组SubpicCpbSizeVcl、SubpicCpbSizeNal、SubpicBitRateVcl和SubpicBitRateNal添加数组索引、子图片序列的索引。

6.实施例示例

以下是本节上文概述的一些发明方面的一些示例实施例，其可以应用于VVC规范。增加或修改的大部分相关部分用黑体斜体下划线标出，一些删除的部分用[[]]标出。

6.1.第一实施例

该实施例用于项目1至7及其部分子项目。

D.7.1子图片级别信息SEI消息语法

D.7.2子图片级别信息SEI消息语义

当根据附录A测试包含子图片序列的所提取的比特流的一致性时，子图片级别信息

消息包含关于

[[比特流]]中的子图片序列所符合的级别的信息。

[[当子图片级别信息SEI消息存在于CLVS的任何图片时，子图片级别信息SEI消息应存在于CLVS的第一图片。子图片级别信息SEI消息按解码顺序从当前图片存续在当前层，直到CLVS结束。应用于同一CLVS的所有子图片级别信息SEI消息应具有相同的内容。]]

子图片序列由

内的具有相同的子图片索引值

的所有子图片

组成。

比特流一致性的要求是，[[当子图片级别信息SEI消息存在于CLVS时，]]

对于0至sps_num_subpics_minus1范围内(含端点)的每个i值，sps_subpic_treated_as_pic_flag[i]的值应等于1。

加1指定针对sps_num_subpics_minus1+1个子图片

中的每一个而信令通知的参考级别的数量。

等于0指定，为了通过使用在所提取的子比特流中使用任何CPB规范的HRD来解码根据条款C.7提取[[比特流的]]任何子图片

所产生的子比特流，假想码流调度器(HSS)在间歇比特率模式下操作。sli_cbr_constraint_flag等于1指定

HSS在恒定比特率(CBR)模式下操作。

加1指定

[[CLVS的]]图片中子图片的数量。当存在时，sli_num_subpics_minus1的值应等于

[[CLVS]]中的图片所参考的

SPS中的sps_num_subpics_minus1的值。

应等于0。

指定

与

[[比特流]]中sps_num_subpics_minus1等于0的层相关联的比特流级别限制的

分数。当vps_max_layers_minus1等于0或者当比特流中没有层的sps_num_subpics_minus1等于0时，

应等于0。

指示

如附录A中指定的每个子图片

所符合的

级别。除了附录A中指定的值，比特流不应包含

的值。

的其他值被保留以供ITU-T|ISO/IEC将来使用。比特流一致性的要求是

的值应等于比特流的general_level_idc的值，并且对于i大于0且km大于i的任何值，

的值应小于或等于

加1指定

对于targetCvss中sps_num_subpics_minus1大于0的层中的子图片索引等于j的子图片，[[如条款A.4.1中指定的第j个子图片所符合的]]与sli_ref_level_idc[i]相关联的级别限制的

分数。

当不存在时，

的值被推断为等于

变量

被设置为等于

变量

被设置为等于

变量

和

被推导如下：

其中，MaxCPB由如条款A.4.2指定的

推导出。

变量

和

被推导如下：

其中，ValBR的值被推导如下：

–当在VPS或SPS中的相应HRD参数中

可用时，ValBR被设置为等于

其中[[Htid是所考虑的子层索引，并且]]ScIdx是所考虑的调度索引。

–否则，ValBR被设置为从如条款A.4.2指定的

推导出的MaxBR。

注释1当提取子图片时，产生的比特流具有大于或等于

和

的CpbSize(在VPS、SPS中指示、或推断)和大于或等于

和

的比特率(在VPS、SPS中指示、或推断)。

比特流一致性的要求是，

由从在到提取过程的输入比特流中sps_num_subpics_minus1大于0的层中提取对于0至sps_num_subpics_minus1的范围内(含端点)的j的第j个子图片

而产生的并且符合general_tier_flag等于0且(对于0至

的范围内(含端点)的i)级别等于

的档次的比特流中的每个层应遵守如附录C中指定的每个比特流一致性测试的以下约束：

应小于或等于MaxLumaPs，其中MaxLumaPs在表A.1中针对级别

指定。

的值应小于或等于Sqrt(MaxLumaPs*8)。

的值应小于或等于Sqrt(MaxLumaPs*8)。SubpicWidthInTiles[j]的值应小于或等于MaxTileCOLS，并且SubpicHeightInTiles[j]的值应小于或等于MaxTileRows，其中MaxTileCOLS和MaxTileRows在表A.1中针对级别

指定。

SubpicWidthInTiles[j]*SubpicHeightInTiles[j]的值应小于或等于

其中MaxTileCOLS和MaxTileRows在表A.1中针对级别

指定。

比特流一致性的要求是，

由提取对于0至

的范围内(含端点)的j的第j个子图片

而产生的并且符合general_tier_flag等于0且(对于0至

的范围内(含端点)的i)级别等于

的档次的比特流应遵守如附录C中指定的每个比特流一致性测试的以下约束：

对应于第j个子图片

的AU 0的NumBytesInNalUnit变量之和应小于或等于对于AU 0的SubpicSizeInSamples的值的

其中，MaxLumaSr和FormatCapabilityFactor分别是表A.2和表A.3中指定的值，其应用于级别

的AU 0，并且MinCr如A.4.2中指示的而被推导出。

对应于第j个子图片

的AU n(n大于0)的NumBytesInNalUnit变量之和应小于或等于

其中MaxLumaSr和FormatCapabilityFactor分别是表A.2和表A.3中指定的值，其应用于级别

的AU n，并且MinCr如A.4.2中指示的而被推导出。

子图片序列级别指示符

的值被推导如下：

符合general_tier_flag等于0且级别等于

的档次的

子图片[[比特流]]

应遵守如附录C中指定的每个比特流一致性测试的以下约束：

对于VCL HRD参数，

应小于或等于CpbVclFactor*MaxCPB，其中CpbVclFactor在表A.3中指定，并且MaxCPB在表A.1中以CpbVclFactor比特为单位而指定。

对于NAL HRD参数，

应小于或等于CpbNalFactor*MaxCPB，其中CpbNalFactor在表A.3中指定，并且MaxCPB在表A.1中以CpbNalFactor比特为单位而指定。

对于VCL HRD参数，

应小于或等于CpbVclFactor*MaxBR，其中CpbVclFactor在表A.3中指定，并且MaxBR在表A.1中以CpbVclFactor比特为单位而指定。

对于NAL HRD参数，

应小于或等于CpbNalFactor*MaxBR，其中CpbNalFactor在表A.3中指定，并且MaxBR在表A.1中以CpbNalFactor比特为单位而指定。

注释2当提取

子图片序列时

产生的比特流具有大于或等于

和

的CpbSize(在VPS、SPS中指示、或推断)和大于或等于

和

的比特率(在VPS、SPS中指示、或推断)

图5是示出示例视频处理系统1900的框图，其中可以实施本文公开的各种技术。各种实施方式可以包括系统1900的一些或所有组件。系统1900可以包括用于接收视频内容的输入1902。视频内容可以以原始或未压缩的格式接收，例如，8或10比特多分量像素值，或者可以是压缩或编码格式。输入1902可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)，以及无线接口(诸如Wi-Fi或蜂窝接口)。

系统1900可以包括编解码组件1904，其可以实施在本文档中描述的各种编解码或编码方法。编解码组件1904可以降低从输入1902到编解码组件1904的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时被称为视频压缩或视频转码技术。如组件1906所表示的，编解码组件1904的输出可以被存储，或者经由连接的通信被发送。组件1908可以使用在输入1902处接收的视频的存储或通信传送的比特流(或编解码的)表示来生成发送到显示接口1910的像素值或可显示视频。从比特流表示生成用户可视视频的过程有时被称为视频解压缩。此外，虽然某些视频处理操作被称为“编解码”操作或工具，但是应该理解，编解码工具或操作在编码器处使用，并且与编码结果相反的相应解码工具或操作将由解码器执行。

外围总线接口或显示器接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以在各种电子设备中实现，诸如移动电话、膝上型电脑、智能手机或能够执行数字数据处理和/或视频显示的其他设备。

图6是视频处理装置3600的框图。装置3600可以用于实施本文描述的一种或多种方法。装置3600可以实现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604和视频处理硬件3606。处理器3602可以被配置为实施本文档中描述的一种或多种方法。存储器(多个存储器)3604可用于存储用于实现本文所述方法和技术的数据和代码。视频处理硬件3606可以用于在硬件电路中实施本文档中描述的一些技术。

图8是示出可以利用本公开的技术的示例视频编解码系统100的框图。

如图8所示，视频编解码系统100可以包括源设备110和目的设备120。源设备110生成编码视频数据，其可以被称为视频编码设备。目的设备120可以解码由源设备110产生经编码的视频数据，其可以被称为视频解码设备。

源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备、从视频内容提供商接收视频数据的接口和/或用于生成视频数据的计算机图形系统的源，或者这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发送器。编码视频数据可以经由I/O接口116通过网络130a直接发送到目的设备120。编码视频数据还可存储在存储介质/服务器130b上以供目的设备120访问。

目的地设备120可以包括I/O接口126、视频解码器124和显示设备122。

I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取经编码的视频数据。视频解码器124可以解码经编码的视频数据。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成，或者可以在目的设备120的外部，目的设备120被配置为与外部显示设备接口。

视频编码器114和视频解码器124可以根据视频压缩标准操作，诸如高效视频编码(HEVC)标准、多功能视频编码(VVM)标准和其他当前和/或进一步的标准。

图9是示出视频编码器200的示例的框图，该视频编码器200可以是图8所示系统100中的视频编码器114。

视频编码器200可以被配置为执行本公开的任何或所有技术。在图9的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

视频编码器200的功能组件可包括分割单元201、可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206的预测单元202、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重构单元212、缓冲器213和熵编码单元214。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在示例中，预测单元202可包括帧内块复制(IBC)单元。IBC单元可以以IBC模式执行预测，其中至少一个参考图片是当前视频块所在的图片。

此外，诸如运动估计单元204和运动补偿单元205的一些组件可以被高度集成，但是为了解释的目的，在图9的示例中被分开表示。

分割单元201可以将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。

模式选择单元203可例如基于错误结果选择编码模式(帧内或帧间)中的一个，并且将所得帧内或帧间编码块提供到残差生成单元207以产生残差块数据，并且提供到重构单元212以重构编码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元205可以基于来自缓冲器213的除了与当前视频块相关联的图片之外的图片的运动信息和解码样本来确定当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示包含参考视频块的列表0或列表1中的参考图片，该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其它示例中，运动估计单元204可以对当前视频块执行双向预测，运动估计单元204可以在列表0中的参考图片中搜索当前视频块的参考视频块，并且还可以在列表1中的参考图片中搜索当前视频块的另一参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示包含参考视频块的列表0或列表1中的参考图片，该运动矢量指示参考视频块与当前视频块之间的空间位移。运动估计单元204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元204可以输出用于解码器的解码处理的全部运动信息集。

在一些示例中，运动估计单元204可能不输出当前视频的全部运动信息集。相反，运动估计单元204可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。例如，运动估计单元204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中指示一值，该值向视频解码器300指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量和所指示的视频块的运动矢量之间的差。视频解码器300可以使用所指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以预测性地信令通知运动矢量。可以由视频编码器200实施的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中的其它视频块的解码样本来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。

残差生成单元207可以通过从当前视频块减去(例如，由负号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可包括对应于当前视频块中样本的不同样本分量的残差视频块。

在其它示例中，对于当前视频块可能没有当前视频块的残差数据，例如，在跳过模式中，并且残差生成单元207可以不执行减法操作。

变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

逆量化单元210和逆变换单元211可以分别对变换系数视频块应用逆量化和逆变换，以从变换系数视频块重构残差视频块。重构单元212可以将重构残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本，以产生与当前块相关联的重构视频块，以存储在缓冲器213中。

在重构单元212重构视频块之后，可以执行环路滤波操作以减少视频块中的视频块效应。

熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时，熵编码单元214可以执行一个或多个熵编码操作以生成熵编码数据并输出包括熵编码数据的比特流。

图10是示出视频解码器300的示例的框图，该视频解码器300可以是图8所示的系统100中的视频解码器114。

视频解码器300可以被配置为执行本公开的任何或所有技术。在图10的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图10的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305、重构单元306和缓冲器307。在一些示例中，视频解码器300可以执行通常与针对视频编码器200(图9)描述的编码过程互逆的解码过程。

熵解码单元301可以检索经编码的比特流。经编码的比特流可以包括熵编码视频数据(例如，视频数据的编码块)。熵解码单元301可以解码熵编码视频数据，并且运动补偿单元302可以从经熵解码的视频数据确定运动信息，包含运动矢量、运动矢量精度、参考图片列表索引和其它运动信息。运动补偿单元302可以(例如)通过执行AMVP和合并模式来确定此信息。

运动补偿单元302可以产生运动补偿块，可能基于内插滤波器执行内插。语法元素中可以包括要以子像素精度使用的内插滤波器的标识符。

运动补偿单元302可以使用如视频编码器200在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。运动补偿单元302可以根据所接收的语法信息来确定视频编码器200所使用的内插滤波器，并使用内插滤波器来产生预测块。

运动补偿单元302可以使用一些语法信息来确定用于编码经编码的视频序列的(多个)帧和/或(多个)条带的块的大小、描述编解码视频序列的图片的每一宏块如何被分割的分割信息、指示每一分割如何被编码的模式、每一帧间编码块的一个或多个参考帧(和参考帧列表)以及解码经编码的视频序列的其它信息。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空间相邻的块形成预测块。逆量化单元303逆量化(即，去量化)比特流中提供的并且由熵解码单元301解码的量化视频块系数。逆变换单元303应用逆变换。

重构单元306可以将残差块与由运动补偿单元202或帧内预测单元303生成的对应预测块相加，以形成解码块。如果需要，还可以应用去块滤波器来对解码块进行滤波，以便去除块效应伪像。解码视频块然后被存储在缓冲器307中，缓冲器307为后续的运动补偿/帧内预测提供参考块，并且还产生解码视频以在显示设备上呈现。

接下来提供一些实施例优选的示例列表。

第一组条款示出了在前一部分(例如，项目1)中讨论的技术的示例实施例。

1.一种视频处理方法(例如，图7中描绘的方法700)，包括：执行(702)包括一个或多个视频子层的视频与视频的编解码表示之间的转换，其中该编解码表示符合格式规则；其中该格式规则规定包括编解码表示中的在多个子层上循环的语法结构以及指示该语法结构中包括的每个子层的一个或多个语法字段，其中该语法结构包括关于信令通知的分数和参考级别指示符的信息。

2.根据解决方案1的方法，其中，该格式规则规定没有显式地包括在该语法结构中的特定分数被解释为具有与下一个更高子层相同的值。

以下条款示出了在前一部分(例如，项目2、5、6)中讨论的技术的示例实施例。

3.一种视频处理方法，包括：执行包括一个或多个子图片的视频与视频的编解码表示之间的转换，其中该转换使用或产生一个或多个子图片级别信息的补充增强信息。

4.根据解决方案3的方法，其中，该补充增强信息被包括在编解码表示中。

5.根据解决方案3的方法，其中，该补充增强信息被从编解码表示中排除，并且使用不同于编解码表示的机制在编码端和解码端之间通信该补充增强信息。

6.根据解决方案4的方法，其中，该编解码表示符合格式规则，该格式规则规定在每个序列参数集中信令通知相同的值，该序列参数集指示每个图片具有多个子图片的层中的子图片的数量。

7.根据解决方案1至6中任一项的方法，其中，该转换包括将视频编码成编解码表示。

8.根据解决方案1至6中任一项的方法，其中，该转换包括解码编解码表示以生成视频的像素值。

9.一种视频解码装置，包括被配置为实施解决方案1至8中的一个或多个中所述的方法的处理器。

10.一种视频编码装置，包括被配置为实施解决方案1至8中的一个或多个中所述的方法的处理器。

11.一种其上存储计算机代码的计算机程序产品，当该代码被执行时，使处理器实施解决方案1至9中的任一项所述的方法。

12.本文件中描述的方法、设备或系统。

图13是根据本技术的一个或多个实施例的处理视频数据的方法1300的流程图。方法1300包括，在操作1310，根据规则来执行视频与包括一个或多个输出层集(OLS)的视频的比特流之间的转换。该规则规定子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。SLI SEI消息的语法结构包括(1)指定子图片序列的子层的最大数量的第一语法元素，(2)指定子图片序列的级别信息是否存在于一个或多个子层表示的第二语法元素，以及(3)多个子层的循环，每个子层与比特流级别限制的分数和指示每个子图片序列所符合的级别的级别指示符相关联。

在一些实施例中，第一语法元素的值在0至视频参数集中指示的子层的最大数量减1的范围内。在一些实施例中，响应于第二语法元素不存在于比特流中，第二语法元素被推断为0。在一些实施例中，响应于与子层k相关联的比特流级别限制的分数不存在，该分数被推断为等于与子层k+1相关联的分数。在一些实施例中，响应于与子层k相关联的级别指示符不存在，级别指示符被推断为等于与子层k+1相关联的级别指示符。

在一些实施例中，对于每个子层，该语法结构还包括第三语法元素，该第三语法元素指定与级别指示符相关联的比特流级别限制的分数。响应于与子层k相关联的第三语法元素不存在，第三语法元素被推断为等于与子层k+1相关联的语法元素。在一些实施例中，该语法结构还包括第四语法元素，该第四语法元素指定针对每个子图片序列而信令通知的参考级别的数量。在一些实施例中，该语法结构还包括第五语法元素，该第五语法元素指定对于子图片序列，假想流调度器(HSS)是在间歇比特率模式还是恒定比特率(CBR)模式下操作。

图14为根据本技术的一个或多个实施例的处理视频数据的方法1400的流程图。方法1400包括，在操作1410，根据规则来执行包括一个或多个输出层集(OLS)的视频的当前访问单元与视频的比特流之间的转换。该规则规定子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。SLI SEI消息按解码顺序从当前访问单元保持存续，直到比特流结束，或者直到包含包括与SLI SEI消息不同的内容的后续SLI SEI消息的下一个访问单元。

在一些实施例中，该规则规定适用于具有相同内容的同一CVS的所有SLI SEI消息。在一些实施例中，SLI SEI消息通过位于比特流中或者通过外部方式提供而存在于当前访问单元。在一些实施例中，指示子图片级别指示符的第一变量被指定为包括每个子图片序列的值。在一些实施例中，指示子图片级别索引的第二变量被指定为包括每个子图片序列的值。

图15为根据本技术的一个或多个实施例的处理视频数据的方法1500的流程图。方法1500包括，在操作1510，根据规则来执行包括一个或多个输出层集(OLS)的视频的当前访问单元与视频的比特流之间的转换。子图片级别信息(SLI)补充增强信息(SEI)消息包括关于SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息。一个或多个OLS中的对于其参考序列参数集中的变量指示子图片的数量大于1的层被称为多子图片层。OLS集合中的编解码视频序列被称为目标编解码视频序列(CVS)。该规则规定子图片序列包括(1)目标CVS内的具有相同子图片索引并且属于多子图片层中的层的所有子图片，以及(2)目标CVS中的具有子图片索引0并且属于OLS的层但是不在多子图片层中的所有子图片。

在一些实施例中，该比特流符合格式规则，该格式规则规定，响应于SLI SEI消息存在于编解码视频序列，多子图片层中的图片所参考的所有序列参数集具有相同数量的子图片。在一些实施例中，响应于SLI SEI消息存在于一个或多个OLS的编解码视频序列(CVS)的任何访问单元，该规则规定SLI SEI消息存在于CVS的第一访问单元。在一些实施例中，SLI SEI消息的语法结构中的语法元素指定目标CVS中的多子图片层中的图片中的子图片的数量。

在一些实施例中，该转换包括将视频编码成比特流。在一些实施例中，转换包括从比特流中解码视频。

在本文描述的条款中，编码器可以通过根据格式规则产生编解码表示而符合格式规则。在本文描述的条款中，解码器可以使用格式规则来利用根据格式规则而知晓语法元素的存在和不存在解析以编解码表示的语法元素以产生经解码的视频。

在本文档中，术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如，在从视频的像素表示到相应的比特流表示的转换期间，可以应用视频压缩算法，反之亦然。如语法所定义，当前视频块的比特流表示可(例如)对应于共同定位或散布在比特流内不同位置的比特。例如，可以根据变换和编码的误差残差值，并且还使用比特流中的标头和其他字段中的比特，对宏块进行编码。此外，在转换期间，解码器可以基于该确定，在知道一些字段可能存在或不存在的情况下解析比特流，如以上解决方案中所述。类似地，编码器可确定包括或不包括某些语法字段，并通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。

本文档中描述的所公开的和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中实施，或者在计算机软件、固件或硬件中实施，包括本档文中公开的结构及其结构等同物，或者在它们中的一个或多个的组合中实施。所公开的和其他实施例可以实施为一个或多个计算机程序产品，即编码在计算机可读介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储器设备、实现机器可读传播信号的物质的组合，或者它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光或电磁信号，其被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言，并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标志语言文档中的一个或多个脚本)，存储在专用于所讨论的程序的单个文件中，或者存储在多个协作文件中(例如，存储一个或多个模块、子程序或代码的部分的文件)。计算机程序可以被部署为在一台计算机或位于一个地点或分布在多个地点并通过通信网络互连的多台计算机上执行。

本文档中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行，这些处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机访问存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，以从该大容量存储设备接收数据或向其传送数据，或两者。然而，计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入其中。

虽然本专利文档包含许多细节，但这些细节不应被解释为对任何主题或所要求保护的内容的范围的限制，而是对特定技术的特定实施例所特有的特征的描述。在本专利文档中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反地，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。此外，尽管特征可能在上面被描述为在某些组合中起作用，并且甚至最初被如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定的顺序描述了操作，但是这不应该被理解为要求这些操作以所示的特定顺序或顺序执行，或者要求所有示出的操作都被执行，以获得期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利文档中描述和示出的内容进行其他实施方式、增强和变化。

Claims

1.一种处理视频数据的方法，包括：

根据规则执行包括一个或多个输出层集(OLS)的视频的当前访问单元与所述视频的比特流之间的转换，

其中，子图片级别信息(SLI)补充增强信息(SEI)消息包括关于所述SLI SEI消息所应用的一个或多个OLS的编解码视频序列集合中的子图片序列的级别的信息，其中，所述一个或多个OLS中的对于其参考序列参数集中的变量指示子图片的数量大于1的层被称为多子图片层，

其中，所述OLS的集合中的编解码视频序列被称为目标编解码视频序列(CVS)，并且

其中，所述规则规定子图片序列包括(1)目标CVS内的具有相同子图片索引并且属于所述多子图片层中的层的所有子图片，以及(2)目标CVS中的具有子图片索引0并且属于所述OLS的层，但是不在所述多子图片层中的所有子图片。

2.根据权利要求1所述的方法，其中，所述比特流符合格式规则，所述格式规则规定，响应于对于编解码视频序列存在所述SLISEI消息，所述多子图片层中的图片所参考的所有序列参数集具有相同数量的子图片。

3.根据权利要求1或2所述的方法，其中，响应于对于所述一个或多个OLS的编解码视频序列(CVS)的任何访问单元存在所述SLI SEI消息，所述规则规定对于所述CVS的第一访问单元存在所述SLI SEI消息。

4.根据权利要求1至3中任一项所述的方法，其中，所述SLISEI消息的语法结构中的语法元素规定所述目标CVS中的所述多子图片层中的图片中的子图片的数量。

5.根据权利要求1至4中任一项所述的方法，其中，所述转换包括将所述视频编码成所述比特流。

6.根据权利要求1至4中任一项所述的方法，其中，所述转换包括从所述比特流中解码所述视频。

7.一种存储视频的比特流的方法，包括：

根据规则从包括一个或多个输出层集合(OLS)的视频生成所述视频的比特流，以及

存储所生成的比特流，

8.一种视频解码装置，包括被配置为实施权利要求1至7中的一项或多项所述的方法的处理器。

9.一种视频编码装置，包括被配置为实施权利要求1至7中的一项或多项所述的方法的处理器。

10.一种其上存储有计算机代码的计算机程序产品，所述代码在由处理器执行时，使处理器实施权利要求1至7中任一项所述的方法。

11.一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质，其中所述方法包括：

存储所生成的比特流，