CN115918076A

CN115918076A - 子图片子比特流提取过程增强

Info

Publication number: CN115918076A
Application number: CN202180041812.9A
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2020-06-09
Filing date: 2021-06-08
Publication date: 2023-04-04
Also published as: KR20230020428A; US20230113601A1; JP2023529453A; EP4150903A1; KR20230019848A; US20230095312A1; EP4150903A4; US20240098281A1; BR112022025044A2; EP4150904A1; WO2021252465A1; JP2023529448A; EP4150912A1; EP4150912A4; WO2021252471A1; US11924446B2; US20230108287A1; WO2021252468A1; JP2023529447A; EP4150904A4

Abstract

一种视频数据处理方法，包括执行视频和视频比特流之间的转换。根据规则，比特流包括多层，该层包括一个或多个子图片，该规则规定，在从比特流中提取输出比特流的子图片子比特流提取过程期间，在输出比特流中省略包括不适用于输出比特流的可伸缩嵌套SEI消息的补充增强信息网络抽象层单元(SEINAL单元)。

Description

子图片子比特流提取过程增强

相关申请的交叉引用

根据适用的《专利法》和/或《巴黎公约》的规定，本申请旨在及时要求2020年6月9日提交的美国临时专利申请号63/036,908的优先权和利益。出于法律上的全部目的，上述申请的全部公开内容通过引用并入作为本申请公开内容的一部分。

技术领域

本专利文档涉及图像和视频数据处理。

背景技术

在互联网和其他数字通信网络中，数字视频占用了最大的带宽。随着能够接收和显示视频的连接用户设备数量的增加，预计数字视频使用的带宽需求将继续增长。

发明内容

本文档公开了可由视频编码器和解码器用于处理视频或图片的编解码表示的技术。

在一个代表性方面中，公开了一种处理视频数据的方法。该方法包括：执行视频与所述视频的比特流之间的转换，其中，根据规则，所述比特流包括多个层，所述层包括一个或多个子图片；其中，所述规则规定，在从比特流中提取输出比特流的子图片子比特流提取过程期间，在所述输出比特流中省略补充增强信息网络抽象层单元(SEI NAL单元)，所述补充增强信息网络抽象层单元包括不适用于所述输出比特流的可伸缩嵌套SEI消息。

在一个代表性方面中，公开了一种处理视频数据的方法。该方法包括：执行视频和所述视频的比特流之间的转换，其中，根据规则，所述比特流包括多个层，所述层包括一个或多个图片，所述图片包括一个或多个子图片；其中，所述规则规定，标识由所述比特流上由子图片子比特流提取过程提取的子图片序列的第一子图片索引是基于每图片具有多个子图片的所述比特流的层的第二子图片索引。

在一个代表性方面中，公开了一种处理视频数据的方法。该方法包括：执行视频和所述视频的比特流之间的转换，其中根据规则，所述比特流包括一个或多个层，所述层包括一个或多个子层，所述子层包括一个或多个图片，所述图片包括一个或多个子图片，其中所述规则规定在从所述比特流提取输出目标子比特流的子图片子比特流提取过程期间选择性地对一个或多个语法结构执行的重写操作，其中所述一个或多个语法元素包括所述输出目标子比特流的信息。

在一个代表性方面中，公开了一种处理视频数据的方法。该方法包括：执行视频和所述视频的比特流之间的转换，其中根据规则，所述比特流包括一个或多个层，所述层包括一个或多个图片，所述图片包括一个或多个子图片，其中所述规则规定响应于条件对在子图片子比特流提取过程期间提取的目标输出子图片子比特流的第一补充增强信息网络抽象层SEI NAL单元的选择性处理。

在又一个代表性方面中，公开了一种视频编码装置。该视频编码装置包括配置为执行上述方法的处理器。

在又一个代表性方面，公开了一种视频解码装置。该视频解码装置包括配置为执行上述方法的处理器。

在又一个代表性方面，公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现了这里描述的方法之一。

本文档中描述了这些和其他特征。

附图说明

图1示出了图片的光栅扫描条带分割的示例，其中图片被分为12个片和3个光栅扫描条带。

图2示出了图片的矩形条带分割的示例，其中图片被分为24个片(6个片列和4个片行)和9个矩形条带。

图3示出了被分割为片和矩形条带的图片的示例，其中图片被分为4个片(2个片列和2个片行)和4个矩形条带。

图4示出了被分割为15个片、24个条带和24个子图片的图片。

图5是示例视频处理系统的框图。

图6是视频处理装置的框图。

图7是视频处理的示例方法的流程图。

图8是示出根据本公开的一些实施例的视频编解码系统的框图。

图9是示出根据本公开的一些实施例的编码器的框图。

图10是示出根据本公开的一些实施例的编码器的框图。

图11示出了典型的基于子图片的视口依赖的360°视频编解码方案的示例。

图12示出了基于子图片和空间可伸缩的视口依赖的360°视频编解码方案。

图13A至13D示出了视频数据处理方法的示例流程图。

具体实施方式

在本文中使用章节标题是为了便于理解并且不将每个章节中公开的技术和实施例的适用性仅限于该章节。此外，在一些描述中使用H.266术语仅仅是为了便于理解，而不是为了限制所公开技术的范围。因此，本文所描述的技术也适用于其他视频编解码器协议和设计。在本文中，关于VVC规范的当前草案，编辑更改通过删除线指示取消的文本以及突出显示指示添加的文本(包括黑体斜体)而显示在文本中。

1.引言

本文档与视频编解码技术有关。具体而言，本文是关于规定并信令通知子图片序列的级别信息。它可以应用于任何支持单层视频编解码和多层视频编解码的视频编解码标准或非标准视频编解码器，例如正在开发的通用视频编解码(VVC)。

2.缩略语

APS 自适应参数集(Adaptation Parameter Set)

AU 访问单元(Access Unit)

AUD 访问单元定界符(Access Unit Delimiter)

AVC 高级视频编解码(Advanced Video Coding)

CLVS 编解码层视频序列(Coded Layer Video Sequence)

CPB 编解码图片缓冲区(Coded Picture Buffer)

CRA 干净随机访问(Clean Random Access)

CTU 编解码树单元(Coding Tree Unit)

CVS 编解码视频序列(Coded Video Sequence)

DCI 解码能力信息(Decoding Capability Information)

DPB 解码图片缓冲区(Decoded Picture Buffer)

EOB 比特流的结束端(End Of Bitstream)

EOS 序列的结束端(End Of Sequence)

GDR 渐进解码刷新(Gradual Decoding Refresh)

HEVC 高效视频编解码(High Efficiency Video Coding)

HRD 虚拟参考解码器(Hypothetical Reference Decoder)

IDR 瞬时解码刷新(Instantaneous Decoding Refresh)

ILP 层间预测(Inter-Layer Prediction)

ILRP 层间参考图片(Inter-Layer Reference Picture)

JEM 联合探索模型(Joint Exploration Model)

LTRP 长期参考图片(Long-Term Reference Picture)

MCTS 运动约束片集(Motion-Constrained Tile Sets)

NAL 网络适配层(Network Abstraction Layer)

OLS 输出层集合(Output Layer Set)

PH 图片标头(Picture Header)

PPS 图片参数集(Picture Parameter Set)

PTL 档次，层和级别(Profile,Tier and Level)

PU 图片单元(Picture Unit)

RAP 随机访问点(Random Access Point)

RBSP 原始字节序列有效载荷(Raw Byte Sequence Payload)

SEI 补充增强信息(Supplemental Enhancement Information)

SLI 子图片级信息(Subpicture Level Information)

SPS 序列参数集(Sequence Parameter Set)

STRP 短期参考图片(Short-Term Reference Picture)

SVC 可伸缩视频编解码(Scalable Video Coding)

VCL 视频编解码层(Video Coding Layer)

VPS 视频参数集(Video Parameter Set)

VTM VVC测试模型(VVC Test Model)

VUI 视频可用性信息(Video Usability Information)

VVC 通用视频编解码(Versatile Video Coding)

3.初步探讨

视频编解码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T制定了H.261和H.263视频标准，ISO/IEC制定了MPEG-1和MPEG-4视频标准，并且这两个组织联合制定了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC[1]标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时域预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索小组(JVET)。此后，JVET采用了许多新方法，并将这些新方法输入到名为联合探索模型(JEM)[2]的参考软件中。JVET会议每季度同地举行一次，与HEVC相比，新的编解码标准的目标是降低50％的比特率。新的视频编解码标准在2018年4月的JVET会议上被正式命名为多功能视频编解码(VVC)，并且第一版本的VVC测试模型(VTM)在当时发布。由于对VVC标准化的持续努力，因此新的编解码技术在每次JVET会议上都被采用到VVC标准中。VVC的工作草案和测试模型VTM在每次会议后都会更新。VVC项目现在的目标是在2020年7月的会议上取得技术上完成(FDIS)。

3.1.HEVC中的图片分割方案

HEVC包括四种不同的图片分割方案，即常规条带、依赖性条带、片和波前并行处理(WPP)，其可用于最大传输单元(MTU)尺寸匹配、并行处理和减少的端到端延迟。

常规条带与H.264/AVC中的条带类似。每个常规条带封装在其自身的NAL单元中，并且跨条带边界的图片内预测(帧间样点预测、运动信息预测、编解码模式预测)和熵编解码依赖性被禁用。因此，常规条带可以独立于同一图片内的其他常规条带来重构(尽管由于环路滤波操作，可能仍然存在相互依赖性)。

常规条带是可以用于并行化的唯一工具，其也可以在H.264/AVC中以几乎相同的形式获得。基于并行化的常规条带不需要太多处理器间或内核间通信(除了在解码预测编解码图片时用于运动补偿的处理器间或内核间数据共享，由于图片内预测，这通常比处理器间或内核间数据共享负担大得多)。然而，出于同样的原因，由于条带标头的位成本以及由于缺乏跨条带边界的预测，常规条带的使用可能会带来巨大的编解码开销。进一步地，由于常规条带的图片内独立性，并且每个常规条带都封装在其自身的NAL单元中，常规条带(与下面提到的其他工具相反)也作为比特流分割的关键机制以匹配MTU尺寸要求。在许多情况下，并行化的目标和MTU尺寸匹配的目标对图片中的条带布局提出了相互矛盾的要求。这种情况的实现导致了下面提到的并行化工具的开发。

依赖性条带具有短条带标头，并允许在树块边界处对比特流的分割，而不会破坏任何图片内预测。基本上，依赖性条带提供将常规条带分成多个NAL单元，以通过允许在整个常规条带的编码完成之前发送常规条带的一部分来提供减少的端到端延迟。

在WPP中，图片被分割成单行编解码树块(CTB)。允许熵解码和预测使用来自其他分割中CTB的数据。通过CTB行的并行解码，并行处理是可能的，其中CTB行解码的开始被两个CTB延迟，以确保在解码主题CTB之前，与主题CTB上方和右侧的CTB相关的数据可用。使用这种交错的开始(当用图形表示时，其看起来像波前)，并行化可以用多至与图片中包含的CTB行一样多的处理器/内核实现。因为图片内相邻树块行之间的图片内预测是准许的，所以启用图片内预测所需的处理器间/内核间通信可能非常重要。与不应用WPP分割时相比，WPP分割不会导致额外的NAL单元的产生，因此WPP不是用于MTU尺寸匹配的工具。然而，如果需要MTU尺寸匹配，则常规条带可以与WPP一起使用，但需要一定的编解码开销。

片限定了将图片分割为片列和片行的水平边界和垂直边界。片列从图片的顶部延伸到图片的底部。同样，片行从图片的左侧延伸到图片的右侧。图片中的片数可以简单地通过片列数乘以片行数而推导出来。

在按图片的片光栅扫描的顺序解码下一片的左上CTB之前，CTB的扫描顺序被更改为片内本地(按片的CTB光栅扫描顺序)。与常规条带类似，片打破了图片内预测依赖性以及熵解码依赖性。然而，它们不需要被纳入单独的NAL单元(在这点上与WPP相同)；因此片不能用于MTU尺寸匹配。每个片可以由一个处理器/内核处理，并且解码相邻片的处理单元之间的图片内预测所需的处理器间/内核间通信限于在片跨越多于一个片的情况下传送共享的条带标头，以及与重构样点和元数据的环路滤波相关的共享。当多于一个片或WPP段包括在条带中时，除条带中的第一个片以外的每个片或WTP段的条目点字节偏移量在条带标头中被信令通知。

为了简单起见，HEVC中已规定了对四种不同图片分割方案应用的限制。对于HEVC中规定的大多数配置文件，给定的编解码视频序列不能同时包括片和波前。对于每个条带和片，必须满足以下条件中的任一条件或两个条件：1)条带中的所有编解码树块都属于同一片；2)片中的所有编解码树块都属于同一条带。最后，波前段正好包含一个CTB行，并且当使用WPP时，如果条带在CTB行内开始，其必须在同一CTB行中结束。

对HEVC的近期修订在JCT-VC输出文件JCTVC-AC1005中指定，J.Boyce、A.Ramasubramonian、R.Skupin、G.J.Sullivan、A.Tourapis、Y.-K.Wang(编辑),“HEVC附加补充增强信息(草案4)(HEVC Additional Supplemental Enhancement Information(Draft 4))”，2017年10月24日，在此公开查阅：http://phenix.int-evry.fr/jct/doc_end_user/documents/29_Macau/wg11/JCTVC-AC1005-v2.zip。包括此修订后，HEVC指定了三个MCTS相关的SEI消息，即时域MCTS SEI消息、MCTS提取信息集SEI消息和MCTS提取数据嵌套SEI消息。

时域MCTS SEI消息指示比特流中MCTS的存在，并信令通知MCTS。对于每个MCTS，运动向量被限制为指向MCTS内部的全样点位置和指向仅需要MCTS内部的全样点位置进行插值的分数样点位置，并且不允许使用从MCTS外部的块推导出来的用于时域运动向量预测的运动向量候选。这样，每个MCTS可以被独立地解码，而不存在未包括在MCTS中的片。

MCTS提取信息集SEI消息提供可在MCTS子比特流提取(指定为SEI消息语义的一部分)中使用的补充信息，以生成用于MCTS集的一致比特流。该信息由多个提取信息集组成，每个提取信息集定义多个MCTS集，并包含在MCTS子比特流提取过程使用的替换VPS、SPS和PPS的RBSP字节。当根据MCTS子比特流提取过程提取子比特流时，需要重写或替换参数集(VPS、SPS和PPS)，需要稍微更新条带标头，因为与语法元素(包括first_slice_segment_in_pic_flag和slice_segment_address)相关的一个或全部条带地址通常需要具有不同的值。

3.2.VVC中的图片分割

在VVC中，图片被分成一个或多个片行和一个或多个片列。片是覆盖图片矩形区域的CTU序列。片中的CTU在该片内按光栅扫描顺序进行扫描。

条带由整数个完整的片组成，或由图片的片中整数个连续完整的CTU行组成。

支持两种条带的模式，即光栅扫描条带模式和矩形条带模式。在光栅扫描条带模式中，条带包含图片的片光栅扫描中的一系列完整的片。在矩形条带模式中，条带包含共同形成图片的矩形区域的多个完整的片，或者共同形成图片的矩形区域的一个片的多个连续完整CTU行。矩形条带内的片在对应于该条带的矩形区域内以片光栅扫描顺序被扫描。

子图片包含共同覆盖图片的矩形区域的一个或多个条带。

图1示出了图片的光栅扫描条带分割的示例，其中图片被分成12个片和3个光栅扫描条带。

图2示出了图片的矩形条带分割的示例，其中图片被分成24个片(6个片列和4个片行)和9个矩形条带。

图3示出了图片被分割成片和矩形条带的示例，其中图片被分成4个片(2个片列和2个片行)和4个矩形条带。

图4示出了图片的子图片分割的示例，其中图片被分割成18个片，左手侧的12个片中的每个覆盖一个4×4CTU的条带，右手侧的6个片中的每个覆盖2个2×2CTU的竖直堆叠条带，总共产生24个条带和24个不同维度的子图片(每个条带是子图片)。

3.3.序列内的图片分辨率更改

在AVC和HEVC中，除非使用新SPS的新序列以IRAP图片开始，否则图片的空间分辨率无法更改。VVC允许在序列内的某个位置更改图片分辨率，而无需对始终是帧内编解码的IRAP图片进行编码。此特征有时被称为参考图片重采样(RPR)，因为当该参考图片的分辨率与正在被解码的当前图片的分辨率不同时，该特征需要对用于帧间预测的参考图片进行重采样。

缩放比被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样)，并且小于或等于8(8倍上采样)。指定三组具有不同频率截止的重采样滤波器以处理参考图片和当前图片之间的各种缩放比。三组重采样滤波器分别适用于从1/2至1/1.75、从1/1.75至1/1.25以及从1/1.25至8的缩放比。每组重采样滤波器对于亮度具有16个相位，对于色度具有32个相位，这与运动补偿插值滤波器的情况相同。实际上，正常的MC插值过程是缩放比的范围为1/1.25至8的重采样过程的一种特殊情况。水平缩放比和垂直缩放比是基于图片宽度和高度以及为参考图片和当前图片指定的左、右、上和下缩放偏移量而推导出来的。

支持此特征的VVC设计与HEVC不同的其他方面包括：i)图片分辨率和相应的一致性窗口在PPS中而不是在SPS中被信令通知，而最大图片分辨率在SPS中被信令通知。ii)对于单层比特流，每个图片存储(DPB中用于存储一个解码图片的槽)占用存储具有最大图片分辨率的解码图片所需的缓冲区尺寸。

3.4.VVC中的通用可伸缩视频编解码(SVC)

可伸缩视频编解码(SVC，有时也称为视频编解码中的可伸缩性)是指使用有时称为参考层(RL)的基本层(BL)和一个或多个可伸缩增强层(EL)的视频编解码。在SVC中，基本层可以承载具有基本质量级别的视频数据。一个或多个增强层可以承载额外的视频数据以支持例如更高的空域、时域和/或信噪比(SNR)级别。增强层可以相对于先前的编码层来定义。例如，底层可以用作BL，而顶层可以用作EL。中间层可以用作EL或RL，或两者兼用。例如，中间层(例如，既不是最低层也不是最高层层)可以是用于中间层以下层的EL，如基层或任何中间增强层，并且同时用作中间层以上的一个或多个增强层的RL。类似地，在HEVC标准的多视图或3D扩展中，可以有多个视图，并且可以利用一个视图的信息来编解码(例如，编码或解码)另一视图的信息(例如，运动估计、运动矢量预测和/或其他冗余)。

在SVC中，编码器或解码器使用的参数基于其可使用的编解码级别(例如，视频级别、序列级别、图片级别、条带级别等)被分组为参数集。例如，由比特流中不同层的一个或多个编解码视频序列使用的参数可以包括在视频参数集(VPS)中，并且由编解码视频序列中的一个或多个图片使用的参数可以包括在序列参数集(SPS)中。类似地，由图片中的一个或多个条带使用的参数可以包括在图片参数集(PPS)中，并且特定于单个条带的其他参数可以包括在条带标头中。类似地，可以在各种编解码级上提供特定层在给定时间使用哪个参数集的指示。

由于在VVC中支持参考图片重采样(RPR)，可以设计对包含多个层，例如在VVC具有SD和HD分辨率的两个层的比特流的支持，而不需要任何额外的信号处理级别编解码工具，因为空间可伸缩性支持所需的上采样可以仅使用RPR上采样滤波器。然而，对于可伸缩性支持，需要高级语法更改(与不支持可伸缩性相比)。可伸缩性支持在VVC版本1中指定。不同于任何早期视频编解码标准中的可伸缩性支持，包括AVC和HEVC的扩展在内，VVC可伸缩性的设计已尽可能对单层解码器设计友好。多层比特流的解码能力以在比特流中只有单层的方式指定。例如，解码能力，如DPB尺寸，以独立于待解码的比特流中的层数的方式指定。基本上，为单层比特流设计的解码器不需要太多更改就能够解码多层比特流。与AVC和HEVC的多层扩展的设计相比，HLS方面得到了显著简化而牺牲了一些灵活性。例如，IRAPAU需要包含CVS中存在的层中的每一层的图片。

3.5.基于子图片的视口依赖的360°视频流

在360°视频的流式传输，也称为全景视频的流式传输中，在任何特定时刻，只有整个全景视频范围的子集(即当前视口)将呈现给用户，而用户可以随时转动他/她的头来改变观看方向，因此改变当前视口。虽然期望在未被当前可用视口覆盖的区域具有至少一些较低的质量表示，并且做好用户突然改变他/她的观看视角到范围内任何位置的情况下的准备，全景视频的高质量表示仅需要用于正在呈现给用户的当前视口。以适当的粒度将整个全景视频的高质量表示划分为子图片能够实现这种优化。使用VVC，这两种表示可以被编码为彼此独立的两层。

典型的基于子图片的视口依赖的360°视频传送方案示于图11中，其中，完整视频的较高分辨率表示由子图片组成，而完整视频的较低分辨率表示不使用子图片并且可以用比高分辨率表示更不频繁的随机访问点来编解码。客户以较低分辨率接收完整视频，并且对于较高分辨率的视频，它仅接收并解码覆盖当前视口的子图片。

最新的VVC草案规范也支持改进的360°视频编解码方案，如图12所示。与图11中所示的方法相比的唯一区别在于，帧内层预测(ILP)被应用于图12中所示方法。

3.6.参数集

AVC、HEVC和VVC指定了参数集。参数集的类型包括SPS、PPS、APS和VPS。所有AVC、HEVC和VVC都支持SPS和PPS。VPS从HEVC开始引入，并包括在HEVC和VVC中。APS未包括在AVC或HEVC中，但包括在最新的VVC草案文本中。

SPS被设计为承载序列级标头信息，并且PPS被设计为承载不经常变化的图片级标头信息。对于SPS和PPS，不需要为每个序列或图片重复不经常变化的信息，因此可以避免该信息的冗余信令。此外，使用SPS和PPS能够实现重要标头信息的带外传输，从而不仅避免了冗余传输的需要，而且改善了容错性。

引入VPS是为了承载对于多层比特流中所有层都是通用的序列级别标头信息。

引入APS是为了承载图片级别或条带级别信息，这些信息需要相当多的比特来编解码，可以由多个图片共享，并且在一个序列中可以有很多不同的变化。

3.7.子图片子比特流提取过程

最新VVC文本条款C.7中的子图片子比特流提取过程加上字节跳动IDFP2005612001H_v0中的拟议更改如下。

C.7子图片子比特流提取过程

此过程的输入是比特流inBitstream、目标OLS索引targetOlsIdx、目标最高TemporalId值tIdTarget和i从0到NumLayersInOls[targetOLsIdx]-1(包括0和NumLayersInOls[targetOLsIdx]-1)的目标子图片索引值subpicIdxTarget[i]列表。

此过程的输出是子比特流outBitstream。

输入比特流的比特流一致性要求是，满足以下所有条件的任何输出子比特流都应是一致比特流：

–输出子比特流是本条款中指定的带有比特流的过程的输出，targetOlsIdx等于VPS指定的OLS列表的索引，tIdTarget等于0到vps_max_sublayers_minus1(包括0到vps_max_sublayers_minus1)范围内的任何值，以及i从0到NumLayersInOls[targetOLsIdx]-1(包括0和NumLayersInOls[targetOLsIdx]-1)的列表subpicIdxTarget[i]，满足以下条件，作为输入：

–第targetOLsIdx个OLS中的所有层都具有相同的空间分辨率、相同的sps_num_subpics_minus1值和相同的子图片布局，并且所有子图片的sps_subpic_treated_as_pic_flag[]都等于1。

–subpicIdxTarget[i]的值对于所有i值都是相同的，并且等于0到sps_num_subpics_minus1(包括0和sps_num_subpics_minus1)范围内的特定值。

–当NumLayersInOls[targetOlsIdx]大于1且sps_num_subpics_minus1大于0时，子图片级别信息SEI消息应存在于可伸缩嵌入SEI消息(scalable nesting SEI message)，该可伸缩嵌入SEI消息中sn_ols_flag等于1并且对于在0到sn_num_olss_minus1(包括0和sn_num_olss_minus1)的范围内的一个i值，NestingOlsIdx[i]等于targetOlsIdx。

对于与多层OLS的使用，SLI SEI消息应包含在可伸缩嵌入SEI消息中，并应在可伸缩嵌入SEI消息中指示以适用于特定OLS或适用于特定OLS中的所有层。

–输出子比特流包含至少一个VCLNAL单元，其nuh_layer_id等于列表LayerIdInOls[targetOlsIdx]中的每个nuh_layer_id值。

–输出子比特流包含至少一个VCLNAL单元，其TemporalId等于tIdTarget。

注意–一致比特流包含一个或多个TemporalId等于0的编解码条带NAL单元，但不必包含nuh_layer_id等于0的编解码条带NAL单元。

–输出子比特流包含nuh_layer_id等于LayerIdInOls[targetOlsIdx][i]且sh_subpic_id等于SubpicIdVal[subpicIdxTarget[i]]的至少一个VCLNAL单元，这里每个i在0到NumLayersInOls[targetOlsIdx]-1(包括0和NumLayersInOls[targetOlsIdx]-1)的范围内。

输出子比特流outBitstream推导如下：

–附录C.6中指定的子比特流提取过程用inBitstream、targetOlsIdx和tIdTarget为输入调用，并且过程的输出分配给outBitstrem。

–对于0到NumLayersInOls[targetOLsIdx]-1(包括0和NumLayersInOls[targetOLsIdx]-1)范围内的每个i值，从outBitstream中移除nuh_layer_id等于LayerIdInOls[targetOLsIdx][i]且sh_subpic_id不等于SubpicIdVal[subpicIdxTarget[i]]的所有VCLNAL单元，其关联的填充数据NAL单元以及包含填充有效载荷SEI消息的SEINAL单元。

–当sli_cbr_constraint_flag等于0时，移除nal_unit_type等于FD_NUT的所有NAL单元和包含填充有效载荷SEI消息的SEINAL单元。

–如果本规范中未规定的某些外部手段可用于为子比特流outBitstream提供替换参数集，则用替换参数集替换所有参数集。

–否则，当子图片级别信息SEI消息存在于inBitstream中时，以下适用：

–重写所有所参考的VPS NAL单元中的profile_tier_level()语法结构列表中第vps_ols_ptl_idx[targetOlsIdx]个条目中的general_level_idc的值，使其等于SubpicSetLevelIdc，其是以等式D.11对由子图片索引等于subpicIdx的子图片组成的子图片集而推导出来的。

–当存在VCL HRD参数或NAL HRD时，重写所有所引用的VPS NAL单元中的第vps_ols_hrd_idx[MultiLayerOlsIdx[targetOlsIdx]]个ols_hrd_parameters()语法结构以及第i个层参考的所有SPS NAL单元中ols_hrd_parameters()语法结构中第j个CPB的cpb_size_value_minus1[tIdTarget][j]和bit_rate_value_minus1[tIdTarget][j]的相应值，使得它们分别对应于由等式D.6和等式D.7推导出来的SubpicCpbSizeVcl[SubpicSetLevelIdx][subpicIdx]和SubpicCpbSizeNal[SubpicSetLevelIdx][subpicIdx]，以及分别对应于由等式D.8和等式D.9推导出来的的SubpicBitrateVcl[SubpicSetLevelIdx]和SubpicBitrateNal[SubpicSetLevelIdx][subpicIdx]，其中，SubpicSetLevelIdx是由等式D.11为子图片索引等于subpicIdx的子图片而推导出来的，j在0到hrd_cpb_cnt_minus1(包括0和hrd_cpb_cnt_minus1)的范围内，并且i在0到NumLayersInOls[targetOlsIdx]-1(包括0和NumLayersInOls[targetOlsIdx]-1)的范围内。

–对于0到NumLayersInOls[targetOlsIdx]-1范围内的每个i值，以下适用。

–变量spIdx被设置为等于subpicIdxTarget[i]。

–重写sps_ptl_dpb_hrd_params_present_flag等于1的所有参考的SPS NAL单元中profile_tier_level()语法结构中general_level_idc的值等于SubpicSetLevelIdc，其是由等式D.11对由子图片索引等于spIdx的子图片组成的子图片集而推导出来的。

–变量subpicWidthInLumaSamples和subpicHeightInLumaSamples推导如下：

–重写所有所参考的SPS NAL单元中sps_pic_width_max_in_luma_samples和sps_pic_height_max_in_luma_samples的值以及所有参考PPS NAL单元中pps_pic_width_in_luma_samples和pps_pic_height_in_luma_samples的值为分别等于subpicWidthInLumaSamples和subpicHeightInLumaSamples。

–重写所有所参考的SPS NAL单元中sps_num_subpics_minus1和所有参考PPSNAL单元的pps_num_subpics_minus1的值为0。

–重写所有所参考的SPS NAL单元中的语法元素sps_subpic_ctu_top_left_x[spIdx]和sps_subpic_ctu_top_left_y[spIdx](当存在时)为0。

–移除所有所参考的SPS NAL单元中的语法元素sps_subpic_ctu_top_left_x[j]、sps_subpic_ctu_top_left_y[j]、sps_subpic_width_minus1[j]、sps_subpic_height_minus1[j]、sps_subpic_treated_as_pic_flag[j]、sps_loop_filter_across_subpic_enabled_flag[j]和sps_subpic_id[j]，j不等于spIdx。

–重写所有参考PPS中的语法元素，以信令通知片和条带来移除与子图片索引等于spIdx的子图片不相关的所有片行、片列和条带。

–变量subpicConfWinLeftOffset、subpicConfWinRightOffset、subpicConfWinTopOffset和subpicConfWinBottomOffset推导如下：

其中，上述等式中的sps_subpic_ctu_top_left_x[spIdx]、sps_subpic_width_minus1[spIdx]、sps_subpic_ctu_top_left_y[spIdx]、sps_subpic_height_minus1[spIdx]、sps_pic_width_max_in_luma_samples、sps_pic_height_max_in_luma_samples、sps_conf_win_left_offset、sps_conf_win_right_offset、sps_conf_win_top_offset和sps_conf_win_bottom_offset来自其重写之前的原始SPS。

–重写所有所参考的SPS NAL单元中sps_conf_win_left_offset、sps_conf_win_right_offset、sps_conf_win_top_offset和sps_conf_win_bottom_offset的值以及所有参考PPS NAL单元中pps_conf_win_left_offset、pps_conf_win_right_offset、pps_conf_win_top_offset和pps_conf_win_bottom_offset的值为分别等于subpicConfWinLeftOffset、subpicConfWinRightOffset、subpicConfWinTopOffset和subpicConfWinBottomOffset。

–变量subpicScalWinLeftOffset、subpicScalWinRightOffset、subpicScalWinTopOffset和subpicScalWinBotOffset推导如下：

其中，上述等式中的sps_subpic_ctu_top_left_x[spIdx]、sps_subpic_width_minus1[spIdx]、sps_subpic_ctu_top_left_y[spIdx]、sps_subpic_height_minus1[spIdx]、sps_pic_width_max_in_luma_samples和sps_pic_height_max_in_luma_samples来自其重写之前的原始SPS，并且上述等式中的pps_scaling_win_left_offset、pps_scaling_win_right_offset、pps_scaling_win_top_offset和pps_scaling_win_bottom_offset来自其重写之前的原始PPS。

–重写所有参考PPS NAL单元中的pps_scaling_win_left_offset、pps_scaling_win_right_offset、pps_scaling_win_top_offset和pps_scaling_win_bottom_offset的值为分别等于subpicScalWinLeftOffset、subpicScalWinRightOffset、subpicScalWinTopOffset和subpicScalWinBotOffset。

–如果sli_cbr_constraint_flag等于1，则将cbr_flag[tIdTarget][j]设置为等于1，其为所有所引用的VPS NAL单元和SPS NAL单元中第vps_ols_hrd_idx[MultiLayerOlsIdx[targetOlsIdx]]个ols_hrd_parameters()语法结构中的第j个CPB的值，并且j在0到hrd_cpb_cnt_minus1的范围内。否则(sli_cbr_constraint_flag等于0)，设置cbr_flag[tIdTarget][j]等于0。

–当outBitstream包含SEINAL单元时(其中，该SEINAL单元包含sn_ols_flag等于1且sn_subpic_flag等于1的适用于outBitstream的可伸缩嵌入SEI消息)，从可伸缩嵌入消息中提取合适的payloadType等于1(PT)、130(DUI)或132(解码图片哈希)的不可伸缩嵌套SEI消息(non-scalable-nested SEImessage)，并将所提取的SEI消息放入outBitstream中。

4.所公开的技术方案所解决的技术问题

子图片子比特流提取过程的最新设计存在以下问题：

1)1)SEI NAL单元包括在sn_subpic_flag等于1的可伸缩嵌入SEI消息中的可伸缩嵌套SEI消息(scalable-nested SEI message)，其不适用于输出比特流应当从输出比特流中移除。

2)用于标识子图片序列的子图片索引应该是每图片有多个子图片的层而不是每图片仅有一个子图片的层中待提取子图片的子图片索引。

3)k在0到tIdTarget-1(包括0和tIdTarget-1)范围内的sublayer_level_idc[k]的重写缺失，且未明确规定在何种条件下应该对参考VPS和/或参考SPS执行级别信息的重写。

4)k在0到tIdTarget-1(包括0和tIdTarget-1)范围内的cpb_size_value_minus1[k][j]和bit_rate_value_minus1[k][j]的重写缺失，且未明确规定在何种条件下应该对参考VPS和/或参考SPS执行CPB尺寸和位速率信息的重写。

5)未明确规定应在何种条件下对参考VPS和/或参考SPS执行cbr_flag[tIdTarget][j]的重写。

6)使可伸缩嵌套SEI消息成为不可伸缩嵌套SEI消息的最后一步有多个问题：

a.当解码的图片哈希SEI消息包含在可伸缩嵌入SEI消息中时，sn_ols_flag的值需要等于0，而最后一步的当前文本假定sn_ols_flag等于1。

b.在sn_ols_flag等于1和sn_subpic_flag等于1的情况下的SLI消息和BP SEI消息不被覆盖。

c.在sn_ols_flag等于0和sn_subpic_flag等于1的情况下的SEI消息不被覆盖。

d.未指定所得不可伸缩嵌套SEI消息在输出比特流中应放置的位置(在哪个SEINAL，SEI NAL单元应在的位置)。

e.原始容器SEI NAL单元应从输出比特流中移除。

5.解决方案和实施例列表

为了解决上述问题和其他问题，公开了如下概述的方法。这些解决方案项目应被视为解释一般概念的示例，而不应狭义解释。此外，这些项目可以单独应用或以任何方式组合应用。

1)为了解决问题1，在子图片子比特流提取过程中，可以规定包含不适用于输出比特流的可伸缩嵌套SEI消息的SEI NAL单元从输出比特流中移除。

2)为了解决问题2，在子图片子比特流提取过程中，可以规定以下：用于标识子图片序列的子图片索引被指定为每图片有多个子图片的层中待提取子图片的子图片索引，而不是每图片仅有一个子图片的层。

3)为了解决问题3，在子图片子比特流提取过程中，可以规定以下：对于0到tIdTarget-1(包括0和tIdTarget-1)范围内的k，重写参考VPS(当存在时)以及参考SPS(当NumLayersInOls[targetOLsIdx]等于0时)中的general_level_idc和sublayer_level_idc[k]两者为合适值(例如，如本文所描述的)。

4)为了解决问题4，在子图片子比特流提取过程中，可以规定以下：对于0到tIdTarget(包括0和tIdTarget)范围内的所有k值，重写参考VPS(当存在时)以及参考SPS(当NumLayersInOls[targetOLsIdx]等于0时)中的cpb_size_value_minus1[k][j]和bit_rate_value_minus1[k][j]为合适值(例如，如本文所描述的)。

5)为了解决问题5，在子图片子比特流提取过程中，可以规定以下：重写所参考VPS(当存在时)中以及参考SPS(当NumLayersInOls[targetOLsIdx]等于0时)中cbr_flag[tIdTarget][j]为合适值(例如，如本文所描述的)。

6)为了解决问题6，在一定条件下，可以执行以下操作中的一个或多个操作：

a.生成新的SEI NAL单元seiNalUnitB。

b.在包含seiNalUnitA的PU中包括seiNalUnitB。

c.在包含seiNalUnitA的PU中紧随seiNalUnitA之后包括seiNalUnitB。

d.从可伸缩嵌入SEI消息中提取可伸缩嵌套SEI消息，并将其直接包括在seiNalUnitB中(作为不可伸缩嵌套SEI消息)。

e.从outBitstream移除seiNalUnitA。

7)在一个示例中，第6)项中的一定条件如下：当outBitstream包含SEI NAL单元seiNalUnitA时，其中该SEI NAL单元包含sn_subpic_flag等于1的可伸缩嵌入SEI消息，该可伸缩嵌入SEI消息适用于OLS(当sn_ols_flag等于1时)或层集与outBitstream中的层集完全相同的层(当sn_ols_flag等于0)并适用于子图片集与outBitstream中的子图片集相同的子图片。

8)在一个示例中，在子图片子比特流提取过程中，当LayerIdInOls[targetOlsIdx]不包括比特流中所有NAL单元中nuh_layer_id的所有值，并且outBitstream包含有包含可伸缩嵌入SEI消息的SEI NAL单元seiNalUnitA时，保持输出比特流中的seiNal UnitA不变。

6.实施例

以下是上文第5节中概述的本发明方面中的一些方面的一些示例实施例，其可应用于VVC规范。更改后的文本基于JVET-S0152-v5中最新的VVC文本。大部分已添加或修改的相关部分以

突出显示，一些删除的部分以

突出显示。可能还有一些其他的修改是编辑性质的，因此没有突出显示。

6.1.第一实施例

该实施例用于第1至7项及其子项。

C.7子图片子比特流提取过程

此过程的输入是比特流inBitstream、目标OLS索引targetOlsIdx、目标最高TemporalId值tIdTarget和

的目标子图片索引值

此过程的输出是子比特流outBitstream。

–输出子比特流是本条款中指定的带有比特流的过程的输出，targetOlsIdx等于VPS指定的OLS列表的索引，

–输出子比特流包含至少一个VCLNAL单元，其nuh_layer_id等于

LayerIdInOls[targetOlsIdx]中的nuh_layer_id值中的每个值。

注意

–一致比特流包含一个或多个TemporalId等于0的编解码条带NAL单元，但不必包含nuh_layer_id等于0的编解码条带NAL单元。

–对于在0到NumLayersInOls[targetOlsIdx]-1的范围内(包括0和NumLayersInOls[targetOlsIdx]-1)的每个i值，输出子比特流包含nuh_layer_id等于LayerIdInOls[targetOlsIdx][i]且sh_subpic_id等于SubpicIdVal[subpicIdxTarget[i]]

的至少一个VCL NAL单元。

输出子比特流outBitstream

推导：

1.附录C.6中指定的子比特流提取过程用inBitstream、targetOlsIdx和tIdTarget为输入调用，并且过程的输出分配给outBitstream。

5.如果本规范中未规定的某些外部手段可用于为子比特流outBitstream提供替换参数集，则用替换参数集替换所有参数集。否则，当SLI SEI消息存在于inBitstream中时，以下

a.变量

被设置为等于

的值。

b.重写

的各

其是以等式D.10为

而推导出来的。

c.

当VCL HRD参数或NAL HRD参数存在时，

重写所有所参考的VPS NAL单元

及

所有

SPS NAL单元

中第vps_ols_hrd_idx[MultiLayerOlsIdx[targetOlsIdx]]个ols_hrd_parameters()语法结构中的第j个CPB的

和

的相应值，使得它们分别对应于由等式D.6和等式D.7推导出来的

和

由等式D.8和等式D.9推导出来的

和

其中，

j在0到hrd_cpb_cnt_minus1(包括0和hrd_cpb_cnt_minus1)的范围内，并且i在0到NumLayersInOls[targetOlsIdx]-1(包括0和NumLayersInOls[targetOlsIdx]-1)的范围内。

d.对于

以下

i.变量subpicWidthInLumaSamples和subpicHeightInLumaSamples推导如下：

ii.重写所有所引用的SPS NAL单元中sps_pic_width_max_in_luma_samples和sps_pic_height_max_in_luma_samples的值以及所有所引用的PPS NAL单元中pps_pic_width_in_luma_samples和pps_pic_height_in_luma_samples的值为分别等于subpicWidthInLumaSamples和subpicHeightInLumaSamples。

iii.重写所有所参考的SPS NAL单元中sps_num_subpics_minus1和所有参考PPSNAL单元的pps_num_subpics_minus1的值为0。

iv.重写所有所参考的SPS NAL单元中的语法元素

和

(当存在时)为0。

v.移除所有所参考的SPS NAL单元中的语法元素sps_subpic_ctu_top_left_x[j]、sps_subpic_ctu_top_left_y[j]、sps_subpic_width_minus1[j]、sps_subpic_height_minus1[j]、sps_subpic_treated_as_pic_flag[j]、sps_loop_filter_across_subpic_enabled_flag[j]和sps_subpic_id[j]，每个j不等于

的。

vi.重写所有参考PPS中的语法元素，以信令通知片和条带来移除与子图片索引等于

的子图片不相关联的所有片行、片列和条带。

vii.变量subpicConfWinLeftOffset、subpicConfWinRightOffset、subpicConfWinTopOffset和subpicConfWinBottomOffset推导如下：

viii.重写所有所引用的SPS NAL单元中sps_conf_win_left_offset、sps_conf_win_right_offset、sps_conf_win_top_offset和sps_conf_win_bottom_offset的值以及所有所引用的PPS NAL单元中pps_conf_win_left_offset、pps_conf_win_right_offset、pps_conf_win_top_offset和pps_conf_win_bottom_offset的值为分别等于subpicConfWinLeftOffset、subpicConfWinRightOffset、subpicConfWinTopOffset和subpicConfWinBottomOffset。

sli_cbr_constraint_flag等于1，

将cbr_flag[tIdTarget][j]设置为等于1，其为所有所参考的SPS NAL单元

以及所有所参考的SPS NAL单元

中第vps_ols_hrd_idx[MultiLayerOlsIdx[targetOlsIdx]]个ols_hrd_parameters()语法结构中第j个CPB的值。否则

(sli_cbr_constraint_flag等于0)，

将cbr_flag[tIdTarget][j]设置为等于0。

图5是示出本文公开的各种技术可以被实现的示例视频处理系统1900的框图。各种实施方式可以包括系统1900的组件中的一些或全部组成部分。系统1900可以包括用于接收视频内容的输入1902。视频内容可以以原始或未压缩格式(例如，8或10位多分量像素值)接收，也可以以压缩或编码的格式接收。输入1902可以表示网络接口、外围总线接口或储存接口。网络接口的示例包括诸如以太网、无源光学网络(PON)等有线接口和诸如Wi-Fi或蜂窝接口等无线接口。

系统1900可以包括可以实现本文中描述的各种编解码或编码方法的编解码组件1904。编解码组件1904可以减少从输入1902到编解码组件1904的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时称为视频压缩或视频转码技术。如组件1906所表示的，编解码组件1904的输出可以被存储或经由所连接的通信来传输。在输入1902处接收的视频的存储或传输的比特流(或编解码)表示可以被组件1908使用，以生成被发送到显示接口1810的像素值或可显示视频。从比特流表示生成用户可观看视频的过程有时称为视频解压缩。此外，尽管某些视频处理操作被称为“编解码”操作或工具，但是应当理解，在编码器处使用编码工具或操作，并且将由解码器执行逆向编码结果的相应解码工具或操作。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等等。本文中描述的技术可以体现在各种电子设备中，诸如移动电话、膝上型计算机、智能电话或能够执行数字数据处理和/或视频显示的其他设备。

图6是视频处理装置3600的框图。装置3600可用于实现本文描述的一种或多种方法。装置3600可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604和视频处理硬件3606。处理器(多个处理器)3602可以被配置为实施本文中描述的一种或多种方法。存储器(多个存储器)3604可用于存储用于实现本文所述方法和技术的数据和代码。视频处理硬件3606可以用于在硬件电路中实现本文档中描述的一些技术。

图8是示出可以利用本公开的技术的示例视频编解码系统100的框图。

如图8所示，视频编解码系统100可以包括源设备110和目的设备120。源设备110生成编码的视频数据，其可以被称为视频编码设备。目标设备120可以对源设备110生成的编码视频数据进行解码，该源设备可以被称为视频解码设备。

源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备、从视频内容提供者接收视频数据的接口和/或用于生成视频数据的计算机图形系统等源，或者这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发射器。编码的视频数据可经由I/O接口116通过网络130a直接传输到目的设备120。编码的视频数据还可存储在存储媒体/服务器130b上以供目的设备120访问。

目的设备120可以包括I/O接口126、视频解码器124和显示设备122。

I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码的视频数据。视频解码器124可以解码编码的视频数据。显示设备122可以向用户显示解码的视频数据。显示设备122可以与目的设备120集成在一起，或者可以在目的设备120的外部，该目的设备被配置为与外部显示设备接口。

视频编码器114和视频解码器124可以根据视频压缩标准操作，如高效视频编解码(HEVC)标准、通用视频编解码(VVM)标准和其他当前和/或进一步的标准。

图9是示出视频编码器200的示例的框图，视频编码器可以是图8所示的系统100中的视频编码器114。

视频编码器200可配置为执行本公开的任何或所有技术。在图9的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可在视频编码器200的各种组件之间共享。在一些示例中，处理器可以被配置成执行本公开中描述的任何或所有技术。

视频编码器200的功能组件可包括分割单元201、可包括模式选择单元203的预测单元202、运动估计单元204、运动补偿单元205和帧内预测单元206、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重构单元212、缓冲区213和熵编码单元214。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中，预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式执行预测，其中至少一个参考图片是当前视频块所在的图片。

此外，一些组件(例如，运动估计单元204和运动补偿单元205)可高度集成，但出于解释目的而在图9的示例中单独表示。

分割单元201可将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块尺寸。

模式选择单元203可例如基于误差结果选择多个编解码模式(帧内或帧间)中的一个编解码模式，且将所得帧内或帧间编解码块提供到残差产生单元207以生成残差块数据，以及提供到重建单元212以重建编码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信令和帧内预测信令。在帧间预测的情况下，模式选择单元203还可以为块选择运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可通过比较来自缓冲区213的一个或多个参考帧与当前视频块来生成当前视频块的运动信息。运动补偿单元205可基于来自缓冲区213的除了与当前视频块相关联的图片之外的其他图片的运动信息和解码样点来确定当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元204可对当前视频块执行单向预测，且运动估计单元204可在列表0或列表1的参考图片中搜索用于当前视频块的参考视频块。运动估计单元204可接着生成指示列表0或列表1中的参考图片的参考索引，其包含参考视频块和指示当前视频块与参考视频块之间的空间位移的运动矢量。运动估计单元204可输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元204可对当前视频块执行双向预测，运动估计单元204可在列表0中的参考图片中搜索当前视频块的参考视频块，且还可在列表1中的参考图片中搜索当前视频块的另一参考视频块。运动估计单元204可接着生成参考索引和运动矢量，该参考索引指示包含参考视频块的列表0和列表1中的参考图片，该运动矢量指示参考视频块与当前视频块之间的空间位移。运动估计单元204可输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

在一些示例中，运动估计单元204可输出用于解码器的解码处理的完整运动信息集。

在一些示例中，运动估计单元204可不输出当前视频的完整运动信息集。相反，运动估计单元204可参考另一视频块的运动信息来信令通知当前视频块的运动信息。举例来说，运动估计单元204可确定当前视频块的运动信息与相邻视频块的运动信息足够相似。

在一个示例中，运动估计单元204可在与当前视频块相关联的语法结构中指示一个值，该值向视频解码器300指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可在与当前视频块相关联的语法结构中识别另一视频块和运动矢量差(motionvector difference，MVD)。运动矢量差指示当前视频块的运动矢量和所指示的视频块的运动矢量之间的差。视频解码器300可使用所指示的视频块的运动向量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以预测性地信令通知运动矢量。可由视频编码器200实施的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令。

帧内预测单元206可对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可基于同一图片中的其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可包括预测的视频块和各种语法元素。

残差产生单元207可通过从当前视频块减去(例如，由负号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可包括对应于当前视频块中样点的不同样点分量的残差视频块。

在其他示例中，当前视频块可能没有当前视频块的残差数据，例如在跳过模式中，并且残差产生单元207可能不执行减法操作。

变换处理单元208可通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

逆量化单元210和逆变换单元211可分别对变换系数视频块应用逆量化和逆变换，以从变换系数视频块重建残差视频块。重建单元212可将重建的残差视频块添加到来自由预测单元202产生的一个或多个预测视频块的对应样点，以产生与当前块相关联的重建视频块，用于存储在缓冲区213中。

在重建单元212重建视频块之后，可执行环路滤波操作以减少视频块中的视频块效应。

熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时，熵编码单元214可执行一个或多个熵编码操作以生成熵编码数据并输出包括熵编码数据的比特流。

图10是示出视频解码器300的示例的框图，该视频解码器可以是图8所示的系统100中的视频解码器114。

视频编码器300可被配置为执行本公开的任何或所有技术。在图10的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可在视频解码器300的各种组件之间共享。在一些示例中，处理器可以被配置成执行本公开中描述的任何或所有技术。

在图10的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305、重建单元306和缓冲区307。在一些示例中，视频解码器300可以执行通常与针对视频编码器200(图9)描述的编码过程互逆的解码过程。

熵解码单元301可检索编码比特流。编码的比特流可以包括熵编解解码视频数据(例如，视频数据的编码块)。熵解码单元301可解码熵编解码视频数据，且从熵解码视频数据，运动补偿单元302可确定运动信息，该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可例如通过执行AMVP和merge模式来确定此信息。

运动补偿单元302可产生运动补偿块，可基于插值滤波器执行插值。要以子像素精度使用的插值滤波器的标识符可包括在语法元素中。

运动补偿单元302可使用如视频编码器200在视频块的编码期间所使用的插值滤波器来计算参考块的子整数像素的内插值。运动补偿单元302可根据所接收的语法信息来确定视频编码器200所使用的插值滤波器，并使用插值滤波器来产生预测块。

运动补偿单元302可使用一些语法信息来确定用于编码经编码的视频序列的帧和/或条带的块的尺寸、描述编码视频序列的图片的每一宏块如何被分割的分割信息、指示每一分割如何被编码的模式、用于每个帧间编码块的一个或多个参考帧(和参考帧列表)和解码该编码视频序列的其他信息。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空间相邻的块形成预测块。逆量化单元303逆量化(即，去量化)比特流中提供的且由熵解码单元301解码的经量化的视频块系数。逆变换单元303应用逆变换。

重建单元306可将残差块与由运动补偿单元202或帧内预测单元303生成的对应预测块相加，以形成解码块。如果需要，还可以应用去方块滤波器来对解码块进行滤波，以便移除块效应伪像。解码视频块随后被存储在缓冲区307中，该缓冲区为后续的运动补偿/帧内预测提供参考块，并且还产生经解码的视频以在显示设备上呈现。

接下来提供一些实施例优选的解决方案的列表。

以下解决方案显示了在前一节(例如，第1至8项)中讨论的技术的示例实施例。

1.一种视频处理方法(例如，图7所示的方法700)，包括：执行(702)包括一个或多个子图片的视频与所述视频的编解码表示之间的转换，其中，所述编解码表示被组织在一个或多个网络抽象层(NAL)单元中，其中，所述转换是根据规则执行的，所述规则规定通过子图片子比特流提取过程配置或提取子图片的子比特流。

以下解决方案显示了在前一节(例如，第1项)中讨论的技术的示例实施例。

2.根据解决方案1所述的方法，其中所述规则规定包括不适用于输出比特流的可伸缩嵌套SEI消息的补充增强信息(SEI)NAL单元从所述输出比特流中移除。

以下解决方案显示了在前一节(例如，第2项)中讨论的技术的示例实施例。

3.根据解决方案1至2中任一项所述的方法，其中，所述规则规定用于标识子图片序列的子图片索引对应于每图片包括多个子图片的视频层中的待提取子图片的子图片索引。

以下解决方案显示了在前一节(例如，第3项)中讨论的技术的示例实施例。

4.根据解决方案1至3中任一项所述的方法，其中，所述规则规定，在输出层集中的层的数量为1的情况下，将指示通用级别的第一语法元素和指示层级别的第二语法元素重写为另一值。

以下解决方案显示了在前一节(例如，第4项)中讨论的技术的示例实施例。

5.根据解决方案1至4中任一项所述的方法，其中，所述规则规定，在输出层集中的层的数量为1的情况下，将指示编解码图片缓冲区的尺寸的第一语法元素和指示比特率的第二语法元素重写为另一值(例如，如本文所描述的适当值)。

以下解决方案显示了在前一节(例如，第5至8项)中讨论的技术的示例实施例。

6.根据解决方案1至5中任一项所述的方法，其中，所述规则规定，将指示参考视频参数集或序列参数集中的编解码比特率的语法字段的值重写为另一值(例如，如本文所描述的适当值)。

7.根据解决方案1至6中任一项所述的方法，其中，所述转换包括将所述视频编码为所述编解码表示。

8.根据解决方案1至6中任一项所述的方法，其中，所述转换包括解码所述编解码表示以生成所述视频的像素值。

9.一种视频解码装置，包括处理器，所述处理器被配置为实现解决方案1至8中一项或多项所述的方法。

10.一种视频编码装置，包括处理器，所述处理器被配置为实现解决方案1至8中一项或多项所述的方法。

11.一种计算机程序产品，其上存储有计算机代码，所述代码由处理器执行时使所述处理器实现解决方案1至8中任一项所述的方法。

12.一种描述于本文档中的方法、装置或系统。

在本文所描述的解决方案中，编码器可以通过根据格式规则产生编解码表示来符合格式规则。在本文所描述的解决方案中，解码器可以使用格式规则来根据格式规则在了解语法元素的存在和不存在的情况下解析编解码表示中的语法元素，以产生解码视频。

在本文中，术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如，视频压缩算法可以在从视频的像素表示转换为对应比特流表示期间应用，反之亦然。如语法所定义的，当前视频块的比特流表示可以例如对应于在比特流内并置或散布在不同位置的位。例如，宏块可以根据变换且编解码的误差残差值进行编码，并且还可以使用标头中的比特位和比特流中的其他字段。此外，在转换期间，解码器可以基于确定在了解一些字段可能存在或不存在的情况下来解析比特流，如以上解决方案中所描述的。类似地，编码器可以确定包括还是不包括某些语法字段，并且通过从编解码表示中包括或不包括语法字段来相应地生成编解码表示。

在一些优选实施例中，第一组解决方案可以如第5节中第1项和第2项中进一步描述的那样实施。

1.一种处理视频数据的方法(例如，图13A所示的方法1300)，包括：执行(1302)视频与所述视频的比特流之间的转换，其中，根据规则，所述比特流包括多个层，所述层包括一个或多个子图片；其中，所述规则规定，在从比特流提取输出比特流的子图片子比特流提取过程期间，在所述输出比特流中省略包括不适用于所述输出比特流的可伸缩嵌套SEI消息的补充增强信息网络抽象层单元，即SEI NAL单元。

2.根据解决方案1所述的方法，其中，输出比特流包括一个或多个输出层，所述输出层包括由一个或多个目标子图片索引标识的子图片，并且其中，响应于所述可伸缩嵌套SEI包括具有预定值的标志和所述SEI-NAL单元的一个或多个第一子图片索引不匹配所述输出比特流中的一个或多个第二子图片索引，所述SEI NAL单元被认为不适用于所述输出比特流。

3.根据解决方案2所述的方法，其中，具有预定值的标志指示SEI NAL单元适用于特定层的特定子图片。

4.根据解决方案2至3所述的方法，其中，所述标志是sn_subpic_flag。

5.根据解决方案2至4中任一项所述的方法，其中，所述一个或多个第一子图片索引是sn_subpic_idx[j]，其中j是整数，且j的值从0到sn_num_subpics_minus1，并且其中，所述一个或多个第二子图片索引是subpicIdxTarget[i]，其用于每个图片具有多个子图片的所述输出比特流中的层，其中，i是整数。

6.一种处理视频数据的方法(例如，图13B所示的方法1310)，包括：执行视频与所述视频的比特流之间的转换，其中根据规则，所述比特流包括多个层，所述层包括一个或多个图片，所述图片包括一个或多个子图片；其中，所述规则规定，标识所述比特流上由子图片子比特流提取过程提取的子图片序列的第一子图片索引是基于每个图片具有多个子图片的所述比特流的层的第二子图片索引。

7.根据解决方案6所述的方法，其中，所述规则规定所述第一子图片索引响应于包括在所述比特流中的子图片级别信息补充增强信息(SLI SEI)消息。

在一些优选实施例中，第二组解决方案可以如第5节中第3项、第4项和第5项中进一步描述的那样实施。

1.一种处理视频数据的方法(例如，图13C所示的方法1320)，包括：执行(1322)视频与所述视频的比特流之间的转换，其中根据规则，所述比特流包括一个或多个层，所述层包括一个或多个子层，所述子层包括一个或多个图片，所述图片包括一个或多个子图片，其中，所述规则规定在从所述比特流提取输出目标子比特流的子图片子比特流提取过程期间选择性地对一个或多个语法结构执行的重写操作，其中，所述一个或多个语法元素包括所述输出目标子比特流的信息。

2.根据解决方案1所述的方法，其中所述一个或多个语法元素包括第一语法结构和第二语法结构，所述第一语法结构指示所述输出目标子比特流符合的编解码级别，所述第二语法结构指示索引值为0至tIdTarget-1的输出目标子比特流中的子层序列符合的编解码级别，其中，tIdTarget是表示所述输出目标子比特流中的子层的最高时域层标识符的整数。

3.根据解决方案1所述的方法，其中，所述一个或多个语法元素包括第一语法结构和第二语法结构，所述第一语法结构指示所述输出目标子比特流中的每个子层序列的编解码图片缓冲区尺寸，所述第二语法结构指示所述输出目标子比特流中的每个子层序列的比特率值。

4.根据解决方案1所述的方法，其中，所述一个或多个语法元素包括：

(a)第一语法结构，所述第一语法结构指示所述输出目标子比特流中的每个子层序列是否被处理为具有恒定比特率。

5.根据解决方案1至2所述的方法，其中，所述第一语法结构和所述第二语法结构包括在由所述输出目标子比特流参考的视频参数集中。

6.根据解决方案1至2所述的方法，其中，在所述输出目标子比特流包括单层的情况下，由所述输出目标子比特流参考的序列参数集包括所述第一语法结构和所述第二语法结构。

在一些优选实施例中，第三组解决方案可以如第5节中第6项、第7项和第8项中进一步描述的那样实施。

1.一种处理视频数据的方法(例如，图13D所示的方法1330)，包括：执行(1332)视频与所述视频的比特流之间的转换，其中根据规则，所述比特流包括一个或多个层，所述层包括一个或多个图片，所述图片包括一个或多个子图片，其中，所述规则规定响应于条件对在子图片子比特流提取过程期间提取的目标输出子图片子比特流的第一补充增强信息网络抽象层SEI NAL单元的选择性处理。

2.根据解决方案1所述的方法，其中，所述处理包括生成所述第一SEI NAL单元。

3.根据解决方案1至2中任一项所述的方法，其中，所述处理包括向包括第二SEINAR单元的图片单元添加所述第一SEI NAL单元。

4.根据解决方案1至3中任一项所述的方法，其中，所述处理包括向图片单元添加所述第一SEI NAL单元，所述图片单元包括紧接在所述第二SEI NAR单元之后的第二SEINAL单元。

5.根据解决方案1至4中任一项所述的方法，其中，所述处理包括从所述第二SEINAL单元中的可伸缩嵌入SEI消息中提取可伸缩嵌套SEI消息，以及将所述提取的可伸缩嵌套SEI消息作为不可伸缩嵌套SEI消息包括在所述第一SEI NAL单元中。

6.根据解决方案1至5中任一项所述的方法，其中，所述处理包括从所述目标输出子图片子比特流中移除第二SEI NAL单元。

7.根据解决方案1至6所述的方法，其中所述条件包括:(a)所述目标输出子图片子比特流包括所述第二SEI NAL单元，所述第二SEI NAL单元包括可伸缩嵌入SEI消息、(b)所述可伸缩嵌入SEI消息中的语法字段被设置为指示所述可伸缩嵌入SEI消息适用于与所述目标输出子图片子比特流中层集相同的层集的值、和(c)所述可伸缩嵌入SEI消息适用于与所述目标输入子图片子比特流中的子图片集相同的子图片集。

8.根据解决方案1所述的方法，其中所述条件包括:(a)所述目标输出子图片子比特流中的层的列表不包括所述比特流中所有层、(b)所述目标输出子图片子比特流包括可伸缩嵌入SEI消息，并且其中，所述处理包括保持所述目标输出子图片子比特流中的所述第一SEI NAL单元不变。

9.根据解决方案1至-8中任一项所述的方法，其中，所述第一SEI NAL单元是seiNalUnitB。

10.根据解决方案1至9中任一项所述的方法，其中，所述第二SEI NAL单元是seiNalUnitA。

参考上面列出的第一、第二和第三组解决方案，在一些实施例中，视频包括360度视频。在一些实施例中，转换包括将视频编码为比特流。在一些实施例中，转换包括解码比特流以生成视频的像素值。

一些实施例可以包括一种视频解码装置，其包括处理器，该处理器被配置为实现第一、第二或第三解决方案列表中所述的方法。

一些实施例可以包括一种视频编码装置，其包括处理器，该处理器被配置为实现解决方案1至8中一项或多项所述的方法。

在一些实施例中，可以实现一种将表示视频的比特流存储到计算机可读记录介质的方法。该方法包括根据上述解决方案中任一项或多项所描述的方法从视频生成比特流；以及将比特流存储在计算机可读记录介质中。

一些实施例可以包括一种计算机可读介质，其存储根据上述解决方案中任一项或多项所生成的比特流。

一些实施例可以包括一种其上存储有计算机代码的计算机程序产品，该代码由处理器执行时使该处理器实现上述解决方案中任一项所述的方法。

本文中所描述的公开的和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中实现，或者可以在计算机软件、固件或硬件中实现，包括本文中所公开的结构及其结构等效物，或者其中一者或多者的组合来实现。所公开的和其他实施例可以实现为为一个或多个计算机程序产品，即，编码在计算机可读介质上的计算机程序指令的一个或多个模块，以由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成，或其中一者或多者的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议堆栈、数据库管理系统、操作系统或其中的一者或多者的组合的代码。传播信号是人工生成的信号，例如机器生成的电、光或电磁信号，生成该信号以对信息进行编码以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写，并且其可以以任何形式进行部署，包括独立程序或适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于所讨论程序的单个文件中或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序，以在一台计算机或位于一个位置上或分布在多个位置上并通过通信网络互连的多台计算机执行。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行，以执行一个或多个计算机程序，从而通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的处理器包括例如通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地联接到一个或多个用于存储数据的大容量存储设备，例如，磁盘、磁光盘或光盘，以从中接收数据，或将数据传输到一个或多个大容量存储设备，或两者。然而，计算机不需要有此类装置。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

尽管本专利文件包含许多细节，但是这些细节不应解释为对任何主题或可要求保护的内容的范围的限制，而应解释为对特定技术的特定实施例可能特定的特征的描述。在单独的实施例的上下文中在本专利文件中所描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中所描述的各种特征也可以分别在多个实施例中或以任何合适的子组合来实现。此外，尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下，可以从组合中剔除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应理解为要求以所示的特定顺序或以连续的顺序执行此类操作，或者执行所有示出的操作以实现期望的结果。此外，在该专利文件中所描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利文件中描述和示出的内容进行其他实施方式、增强和变化。

Claims

1.一种处理视频数据的方法，包括：

执行视频与所述视频的比特流之间的转换，

其中，根据规则，所述比特流包括多个层，所述层包括一个或多个子图片；

其中，所述规则规定，在从比特流提取输出比特流的子图片子比特流提取过程期间，在所述输出比特流中省略补充增强信息网络抽象层单元(SEI NAL单元)，所述补充增强信息网络抽象层单元包括不适用于所述输出比特流的可伸缩嵌套SEI消息。

2.根据权利要求1所述的方法，其中，所述输出比特流包括一个或多个输出层，所述输出层包括由一个或多个目标子图片索引标识的子图片，并且

其中，响应于所述可伸缩嵌套SEI包括具有预定值的标志和所述SEI-NAL单元的一个或多个第一子图片索引不匹配所述输出比特流中的一个或多个第二子图片索引，所述SEINAL单元被认为不适用于所述输出比特流。

3.根据权利要求2所述的方法，其中，所述具有预定值的标志指示所述SEINAL单元适用于特定层的特定子图片。

4.根据权利要求2至3任一项所述的方法，其中，所述标志是sn_subpic_flag。

5.根据权利要求2至4中任一项所述的方法，其中，所述一个或多个第一子图片索引是sn_subpic_idx[j]，其中j是整数，且j的值从0到sn_num_subpics_minus1，并且其中，所述一个或多个第二子图片索引是subpicIdxTarget[i]，其用于每个图片具有多个子图片的所述输出比特流中的层，其中，i是整数。

6.一种处理视频数据的方法，包括：

执行视频和所述视频的比特流之间的转换，

其中，根据规则，所述比特流包括多个层，所述层包括一个或多个图片，所述图片包括一个或多个子图片；

其中，所述规则规定，标识所述比特流上由子图片子比特流提取过程提取的子图片序列的第一子图片索引是基于每个图片具有多个子图片的所述比特流的层的第二子图片索引。

7.根据权利要求6所述的方法，其中，所述规则规定所述第一子图片索引响应于包括在所述比特流中的子图片级别信息补充增强信息(SLI SEI)消息。

8.根据权利要求1至7中任一项所述的方法，其中，所述视频包括360度视频。

9.根据权利要求1至8中任一项所述的方法，其中，所述转换包括将所述视频编码为所述比特流。

10.根据权利要求1至8中任一项所述的方法，其中，所述转换包括解码所述比特流以生成所述视频的像素值。

11.一种视频解码装置，包括处理器，所述处理器被配置为实现权利要求1至8中一项或多项所述的方法。

12.一种视频编码装置，包括处理器，所述处理器被配置为实现权利要求1至8中任一项或多项所述的方法。

13.一种将表示视频的比特流存储到计算机可读记录介质的方法，包括：

根据权利要求1至9中任一项或多项所述的方法从所述视频生成所述比特流；以及

将所述比特流存储在所述计算机可读记录介质中。

14.一种计算机可读介质，所述计算机可读介质用于存储根据权利要求1至9中任一项或多项所生成的所述比特流。

15.一种计算机程序产品，其上存储有计算机代码，所述代码由处理器执行时使所述处理器实现权利要求1至9中任一项所述的方法。

16.一种如本文档描述的方法、装置或系统。