CN115668916A

CN115668916A - 视频比特流处理中对图像类型的约束

Info

Publication number: CN115668916A
Application number: CN202180037255.3A
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2020-05-22
Filing date: 2021-05-21
Publication date: 2023-01-31
Also published as: CN115699765A; KR20230013055A; KR20230015385A; JP2023526370A; KR20230015373A; EP4140142A4; WO2021237183A1; CN115699764A; WO2021237181A1; CN115699763A; EP4144093A1; WO2021237177A1; JP2023526367A; US20240040138A1; EP4140128A1; EP4140128A4; JP7538255B2; WO2021237178A1; BR112022023367A2; JP7518204B2

Abstract

本文公开了用于在视频比特流处理中定义和使用对图片类型的约束的方法、系统和设备。视频处理的示例方法包括执行包括一个或多个图片的视频与该视频的比特流之间的转换，其中，该比特流符合格式规则，其中，该格式规则指定图片时序(PT)补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，并且其中，在该一个或多个图片中是随机访问跳过前置(RASL)图片的每个图片仅包括RASL网络抽象层单元类型(NUT)。

Description

视频比特流处理中对图像类型的约束

相关申请的交叉引用

根据巴黎公约的适用专利法和/或规则，本申请旨在及时要求2020年5月22日提交的美国临时专利申请No.63/029,321的优先权和权益。出于法律规定的所有目的，上述申请的全部公开内容通过引用并入作为本申请公开内容的一部分。

技术领域

本专利文件涉及图像和视频编码和解码。

背景技术

在互联网和其他数字通信网络中，数字视频占用了最大的带宽使用量。随着能够接收和显示视频的连接用户设备数量的增加，预计数字视频使用的带宽需求将继续增长。

发明内容

本文公开了可以由视频编码器和解码器用于执行视频编码或解码的技术。

在示例方面，公开了一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定图片时序(PT)补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，并且其中，在该一个或多个图片中是随机访问跳过前置(RASL)图片的每个图片仅包括RASL网络抽象层单元类型(NUT)。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则准许使用随机访问跳过前置(RASL)图片中的随机访问可解码前置(RADL)子图片作为参考子图片，用于预测与RASL图片相同的完全随机访问(CRA)图片相关联的RADL图片中的并置RADL图片。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与第一标志相关联的图片以及在图片顺序计数的解码过程中的推导基于第二标志，其中与第一标志相关联的图片是按解码顺序的先前图片，该先前图片具有(i)引用参考图片列表语法结构的条带或图片标头相同的第一标识符，(ii)等于零的第二标志和第二标识符，以及(iii)与随机访问跳过前置(RASL)图片和随机访问可解码前置(RADL)图片不同的图片类型，其中第一标志指示比特流中是否存在第三标志，其中第二标志指示当前图片是否被用作参考图片，并且其中第三标志被用于确定长期参考图片的图片顺序计数值的一个或多个最高有效位的值。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定用于确定移除解码单元(DU)或解码该DU的时序的变量是访问单元(AU)特定的，并且是基于指示当前图片是否被允许用作参考图片的标志而推导出的。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定缓冲时段补充增强信息(SEI)消息和图片时序SEI消息当被包括在比特流中时是访问单元(AU)特定的，其中基于指示当前图片是否被允许用作参考图片的标志，推导与缓冲时段SEI消息相关联的第一变量以及与缓冲时段SEI消息和图片定时SEI消息相关联的第二变量，其中第一变量指示访问单元包括(i)等于零的标识符，以及(ii)不是随机访问跳过前置(RASL)图片或随机访问可解码前置(RADL)图片并且该标志等于零的图片，并且其中第二变量指示当前AU不是按解码顺序的第一AU，并且按解码顺序的先前AU包括(i)等于零的标识符，以及(ii)不是随机访问跳过前置(RASL)图片或者随机访问可解码前置(RADL)图片并且该标志等于零的图片。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与第一图片和第二图片相关联的第一变量和第二变量的推导是基于标志的，其中第一图片是当前图片，并且第二图片是按解码顺序的先前图片，该先前图片(i)包括等于零的第一标识符，(ii)包括等于零的标志，以及(iii)不是随机访问跳过前置(RASL)图片或者随机访问可解码前置(RADL)图片，并且其中第一变量和第二变量分别是第二标识符等于第一图片的第二标识符的以下图片中的每一个图片的图片顺序计数的最大值和最小值：(i)第一图片，(ii)第二图片，(iii)由第一图片的参考图片列表中的所有条目引用的一个或多个短期参考图片，以及(iv)已经输出的每个图片，该图片的编解码图片缓冲区(CPB)移除时间小于第一图片的CPB移除时间并且解码图片缓冲区(DPB)输出时间大于或等于第一图片的CP移除时间。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定标志和语法元素当被包括在比特流中时是访问单元(AU)特定的，其中响应于当前AU不是比特流中按解码顺序的第一AU，该标志指示当前AU的标称编解码图片缓冲区(CPB)移除时间是相对于(a)与缓冲时段补充增强信息(SEI)消息相关联的先前AU的标称CPB移除时间或者(b)当前AU标称CPB移除时间来确定的，并且其中响应于当前AU不是比特流中按解码顺序的第一AU，该语法元素指定相对于当前AU的标称CPB移除时间的CPB移除延迟增量值。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定多个变量和图片时序补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，该图片时序SEI消息包括多个语法元素，多个变量中的第一变量指示当前AU是否与缓冲时段SEI消息相关联，多个变量中的第二变量和第三变量与当前AU是否是初始化假想参考解码器(HRD)的AU的指示相关联，其中多个语法元素中的第一语法元素指定在从编解码图片缓冲区(CPB)移除AU之后在从解码图片缓冲区(DPB)输出AU的一个或多个解码图片之前等待的时钟节拍数，其中多个语法元素中的第二语法元素指定在从CPB移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数，并且其中多个语法元素中的第三语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与解码图片缓冲区(DPB)相关联的语法元素当被包括在比特流中时是访问单元(AU)特定的，并且其中该语法元素指定在从编解码图片缓冲区(CPB)移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定标志当被包括在比特流中时是访问单元(AU)特定的，其中该标志的值基于相关联的AU是帧内随机访问点(IRAP)AU还是渐进解码刷新(GDR)AU，并且该标志的值指定(i)在缓冲时段补充增强信息(SEI)消息中是否存在语法元素和(ii)在当前缓冲时段的图片时序SEI消息中是否存在替代时序信息。

在另一示例方面，公开了另一种视频处理方法。该方法包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定第一语法元素的值是基于标志和变量的，该标志指示假想参考解码器(HRD)的连续图片的输出时间之间的时间距离是否受到约束，该变量标识要被解码的最高时间子层，并且第一语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

在另一示例方面，公开了一种视频编码器装置。该视频编码器包括被配置为所述上述方法的处理器。

在另一示例方面，公开了一种视频解码器装置。该视频解码器包括被配置为所述上述方法的处理器。

在另一示例方面，公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现这里描述的方法之一。

这些以及其他特征将在本文件中描述。

附图说明

图1是示出本文公开的各种技术可以被实施的示例视频处理系统的框图。

图2是用于视频处理的示例硬件平台的框图。

图3是示出可以实施本公开的一些实施例的示例视频编解码系统的框图。

图4是示出可以实施本公开的一些实施例的编码器的示例的框图。

图5是示出可以实施本公开的一些实施例的解码器的示例的框图。

图6至图16示出了视频处理的示例方法的流程图。

具体实施方式

在本文中使用章节标题是为了便于理解并且不将每个章节中公开的技术和实施例的适用性仅限于该章节。此外，在一些描述中使用H.266术语仅仅是为了便于理解，而不是为了限制所公开技术的范围。因此，本文所描述的技术也适用于其他视频编解码器协议和设计。

1.介绍

本文涉及视频编解码技术。具体而言，本文是关于在视频编解码中处理可丢弃图片/AU的和HRD相关SEI消息的语义。在某些情况下可以丢弃的可丢弃图片的示例包括RASL图片、RADL图片和ph_non_ref_pic_flag等于1的图片。HRD相关SEI消息包括BP、PT和DUISEI消息。这些构思可以单独应用，也可以以各种组合应用于任何支持多层视频编解码的视频编解码标准或非标准视频编解码器，例如，正在开发的多功能视频编解(VVC)。

2.缩略语

APS：自适应参数集(Adaptation Parameter Set)

AU：访问单元(Access Unit)

AUD：访问单元定界符(Access Unit Delimiter)

AVC：高级视频编解码(Advanced Video Coding)

CLVS：编解码层视频序列(Coded Layer Video Sequence)

CPB：编解码图片缓冲区(Coded Picture Buffer)

CRA：完全随机访问(Clean Random Access)

CTU：编解码树单元(Coding Tree Unit)

CVS：编解码视频序列(Coded Video Sequence)

DCI：解码能力信息(Decoding Capability Information)

DPB：解码图片缓冲区(Decoded Picture Buffer)

EOB：比特流结尾(End Of Bitstream)

EOS：序列结尾(End Of Sequence)

GDR：渐进解码刷新(Gradual Decoding Refresh)

HEVC：高效视频编解码(High Efficiency Video Coding)

HRD：假想参考解码器(Hypothetical Reference Decoder)

IDR：瞬时解码刷新(Instantaneous Decoding Refresh)

ILP：层间预测(Inter-Layer Prediction)

ILRP：层间参考图片(Inter-Layer Reference Picture)

JEM：联合探索模型(Joint Exploration Model)

LTRP：长期参考图片(Long-Term Reference Picture)

MCTS：运动约束片集(Motion-Constrained Tile Sets)

NAL：网络抽象层(Network Abstraction Layer)

OLS：输出层集(Output Layer Set)

PH：图片标头(Picture Header)

PPS：图片参数集(Picture Parameter Set)

PTL：档次、层和级别(Profile,Tier and Level)

PU：图片单元(Picture Unit)

RAP：随机访问点(Random Access Point)

RADL：随机访问可解码前置图片(Random Access Decodable Leading Picture)

RASL：随机访问跳过前置图片(Random Access Skipped Leading Picture)

RBSP：原始字节序列有效载荷(Raw Byte Sequence Payload)

SEI：辅助增强信息(Supplemental Enhancement Information)

SPS：序列参数集(Sequence Parameter Set)

STRP：短期参考图片(Short-Term Reference Picture)

SVC：可缩放视频编解码(Scalable Video Coding)

VCL：视频编解码层(Video Coding Layer)

VPS：视频参数集(Video Parameter Set)

VTM：VVC测试模型(VVC Test Model)

VUI：视频可用性信息(Video Usability Information)

VVC：多功能视频编解码(Versatile Video Coding)

3.初步探讨

视频编解码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T制定了H.261和H.263视频标准，ISO/IEC制定了MPEG-1和MPEG-4视频标准，并且这两个组织联合制定了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中利用了时间预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索小组(JVET)。此后，JVET采用了许多新方法，并将这些新方法输入到名为联合探索模型(JEM)的参考软件中。JVET会议每季度同时举行一次，并且与HEVC相比，新的编解码标准的目标是降低50％的比特率。新的视频编解码标准在2018年4月的JVET会议上被正式命名为多功能视频编解码(VVC)，并且第一版VVC测试模型(VTM)在当时发布。由于对VVC标准化的持续努力，新的编解码技术在每次JVET会议上都被采用到VVC标准中。VVC的工作草案和测试模型VTM在每次会议后都会更新。VVC项目现在的目标是在2020年7月的会议上技术上完成(FDIS)。3.1.参考图片管理和参考图片列表(RPL)

参考图片管理是任何使用帧间预测的视频编解码方案所需的核心功能。参考图片管理管理参考图片在解码图片缓冲区(DPB)中的存储和移除，并将参考图片按其正确顺序放入到RPL中。

包括参考图片标记和从解码图片缓冲器中移除(DPB)以及参考图片列表构建(RPLC)的HEVC的参考图片管理与AVC的不同。代替AVC中基于滑动窗口加自适应存储器管理控制操作(MMCO)的参考图片标记机制，HEVC指定基于所谓的参考图片集(RPS)的参考图片管理和标记机制，并且因此RPLC基于RPS机制。RPS由与图片相关联的参考图片集(由以解码顺序在相关联的图片之前的所有参考图片构成)构成，其可以用于相关联的图片或以解码顺序在相关联的图片之后的任何图片的帧间预测。参考图片集由五个参考图片列表构成。前三个列表包含可以用于当前图片的帧间预测以及可以用于以解码顺序在当前图片之后的一个或多个图片的帧间预测的所有参考图片。其他两个列表由所有参考图片构成，这些参考图片不用于当前图片的帧间预测，但是可以用于以解码顺序在当前图片之后的一个或多个图片的帧间预测。RPS提供了DPB状态的“帧内编解码”信令，而不是像AVC中那样的“帧间编解码”信令，主要是为了提高抗误码能力。HEVC的RPLC过程是基于RPS的，通过为每个参考索引向RPS子集信令通知索引；这个过程比AVC中的RPLC过程简单。

VVC的参考图片管理比AVC更类似于HEVC，但是更简单和更健壮。如在那些标准中，推导出两个RPL，列表0和列表1，但是它们不是基于在HEVC使用的参考图片集构思或者在AVC中使用的自动滑动窗口过程；相反，它们被更直接地信令通知。用于RPL的参考图片被列为活动和非活动条目，并且只有活动条目可以被用作当前图片的CTU的帧间预测的参考索引。无效条目指示要保存在DPB中的其他图片，以用于被比特流中稍后到达的其他图片参考。

3.2.随机访问及其在HEVC和VVC中的支持

随机访问是指按解码顺序不是比特流的第一个图片的图片开始访问和解码比特流。为了支持广播/多播和多方视频会议中的调谐和频道切换、本地回放和流式传输中的搜索以及流式传输中的流适配，比特流需要包括频繁的随机访问点，这些访问点通常是帧内编解码图片，但也可以是帧间编解码图片(例如，在渐进解码刷新的情况下)。

HEVC通过NAL单元类型在NAL单元标头中包括帧内随机访问点(IRAP)图片的信令。支持三种类型的IRAP图片，即，瞬时解码器刷新(IDR)、完全随机访问(CRA)和断链访问(BLA)图片。IDR图片将帧间图片预测结构约束为不参考当前图片组(GOP)之前的任何图片，通常被称为封闭GOP随机访问点。通过允许某些图片参考当前GOP之前的图片，CRA图片限制较少，在随机访问的情况下，所有图片都被丢弃。CRA图片通常被称为开放GOP随机访问点。BLA图片通常源于CRA图片中两个比特流或其一部分的拼接，例如，在流切换期间。为了使系统能够更好地使用IRAP图片，总共定义了六个不同的NAL单元来信令通知IRAP图片的属性，这可以用于更好地匹配在ISO基本媒体文件格式(ISOBMFF)中定义的流访问点类型，这些流访问点类型被用于HTTP上的动态自适应流传输(DASH)中的随机访问支持。

VVC支持三种类型的IRAP图片、两种类型的IDR图片(一种类型具有或另一种类型不具有关联的RADL图片)和一种类型的CRA图片。这些与HEVC的基本相同。HEVC中的BLA图片类型不包括在VVC中，主要由于两个原因：i)BLA图片的基本功能可以通过CRA图片加上序列NAL单元结束来实现，其存在指示后续图片在单层比特流中开始新的CVS。ii)在开发VVC期间，希望指定比HEVC更少的NAL单元类型，如在NAL单元标头中为NAL单元类型字段使用5比特而不是6比特所示。

VVC和HEVC之间的随机访问支持的另一关键区别是在VVC中以更规范的方式支持GDR。在GDR中，比特流的解码可以从帧间编解码的图片开始，尽管在开始时不是整个图片区域都可以被正确解码，但是在多个图片之后，整个图片区域将是正确的。AVC和HEVC也支持GDR，使用恢复点SEI消息来信令通知GDR随机访问点和恢复点。在VVC中，新的NAL单元类型被指定用于指示GDR图片，并且恢复点在图片标头语法结构中被信令通知。允许CVS和比特流以GDR图片开始。这意味着允许整个比特流仅包含帧间编解码图片，而没有单个帧内编解码图片。以这种方式指定GDR支持的主要好处是提供对于GDR的一致行为。GDR使编码器能够通过在多个图片中分布帧内编解码的条带或块来平滑比特流的比特率，而不是对整个图片进行帧内编解码，从而显著降低端到端延迟，随着无线显示、在线游戏、基于无人机的应用等超低延迟应用变得越来越流行，这在当今被认为比以前更加重要。

VVC中另一GDR相关的特征是虚拟边界信令。GDR图片与其恢复点之间的图片处的刷新区域(即，正确解码的区域)和未刷新区域之间的边界可以被信令通知为虚拟边界，并且当被信令通知时，将不会应用跨越边界的环路滤波，因此不会出现边界处或边界附近的一些样本的解码失配。当应用决定在GDR过程期间显示正确解码的区域时，这是很有用的。

IRAP图片和GDR图片可以统称为随机访问点(RAP)图片。

3.3.序列内的图片分辨率变化

在AVC和HEVC中，图片的空间分辨率不能改变，除非使用新SPS的新序列以IRAP图片开始。VVC允许在不编码IRAP图片的位置改变序列内的图片分辨率，IRAP图片总是被帧内编解码。该特征有时被称为参考图片重采样(RPR),因为当参考图片具有与正被解码的当前图片不同的分辨率时，该特征需要对用于帧间预测的参考图片进行重采样。

缩放比率被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样)，并且小于或等于8(8倍上采样)。指定具有不同频率截止(cutoff)的三个重采样滤波器集来处理参考图片和当前图片之间的各种缩放比率。三个重采样滤波器集分别应用于范围从1/2到1/1.75、从1/1.75到1/1.25和从1/1.25到8的缩放比率。重采样滤波器中的每一个集对于亮度具有16个相位，并且对于色度具有32个相位，这与运动补偿插值滤波器的情况相同。实际上，正常的MC插值过程是重采样过程的特殊情况，其中缩放比率范围从1/1.25到8。水平和垂直缩放比率是基于图片宽度和高度以及为参考图片和当前图片指定的左、右、上和下缩放偏移而推导出的。

支持这一特征的VVC设计与HEVC不同的其它方面包括：i)图片分辨率和对应的一致性窗口在PPS中而不是在SPS中被信令通知，而在SPS中最大图片分辨率被信令通知。ii)对于单层比特流，每个图片存储(DPB中用于存储一个解码图片的时隙(slot))占用存储具有最大图片分辨率的解码图片所需的缓存器大小。

3.4.一般和VVC中的可伸缩视频编解码(SVC)

可伸缩视频编解码(SVC，有时也称为视频编解码中的可伸缩性)是指使用基本层(BL)(有时称为参考层(RL))，以及一个或多个可伸缩增强层(EL)的视频编解码。在SVC中，基本层可以携载具有基本质量水平的视频数据。一个或多个增强层可以携载附加的视频数据，以支持例如更高的空域、时域和/或信噪比(SNR)水平。可以相对于先前编码的层来定义增强层。例如，底层可以用作BL，而顶层可以用作EL。中间层可以用作EL或RL，或者两者。例如，中间层(例如，既不是最低层也不是最高层的层)可为中间层下方的层(诸如基本层或任何居间增强层)的EL，并且同时用作中间层上方的一个或多个增强层的RL。类似地，在HEVC标准的多视图或3D扩展中，可以有多个视图，并且一个视图的信息可以用于编解码(例如，编码或解码)另一视图的信息(例如，运动估计、运动矢量预测和/或其他冗余)。

在SVC中，编码器或解码器使用的参数基于编解码级别(例如，视频级别、序列级别、图片级别、条带级别等)分组为参数集，它们可能在该编解码级别中被利用。例如，比特流中不同层的一个或多个编解码视频序列可以利用的参数可以包括在视频参数集(VPS)中，并且编解码视频序列中的一个或多个图片可以使用的参数可以包括在序列参数集(SPS)中。类似地，图片中的一个或多个条带使用的参数可以被包括在图片参数集(PPS)中，并且特定于单个条带的其他参数可以被包括在条带标头中。类似地，可以在各种编解码级别提供特定层在给定时间使用哪个(哪些)参数集的指示。

由于VVC对参考图片重采样(RPR)的支持，可以在不需要任何附加的信号处理级编解码工具的情况下设计对包含多层(例如，VVC中具有SD和HD分辨率的两层)的比特流的支持，因为空间可伸缩性支持所需的上采样可以仅使用RPR上采样滤波器。然而，为了可伸缩性支持，需要高级别的语法变化(与不支持可伸缩性相比)。VVC版本1中规定了可伸缩性支持。与任何早期视频编解码标准(包括AVC和HEVC的扩展)中的可伸缩性支持不同，VVC可伸缩性的设计尽可能对单层解码器设计友好。多层比特流的解码能力是以好像比特流中只有一层的方式来指定的。例如，以独立于要解码的比特流中的层数的方式指定诸如DPB大小的解码能力。基本上，为单层比特流设计的解码器不需要太多改变就能够解码多层比特流。与AVC和HEVC的多层扩展设计相比，HLS在牺牲一些灵活性的情况下得到显著简化。例如，IRAPAU需要包含CVS中存在的每个层的图片。

3.5.参数集

AVC、HEVC和VVC指定参数集。参数集的类型包括SPS、PPS、APS和VPS。AVC、HEVC和VVC的所有都支持SPS和PPS。VPS从HEVC开始引入，并且被包括在HEVC和VVC两者中。APS没有被包括在AVC或HEVC中，但是被包括在最新的VVC草案文本中。

SPS被设计成携带序列级标头信息，并且PPS被设计成携带不经常改变的图片级标头信息。利用SPS和PPS，不经常改变的信息不需要为每个序列或图片重复，因此可以避免该信息的冗余信令。此外，SPS和PPS的使用实现了重要标头信息的带外传输，从而不仅避免了对冗余传输的需要，还提高了抗误码能力。

引入VPS是为了携带对多层比特流中的所有层共用的序列级标头信息。

引入APS是为了携带这样的图片级或条带级信息，这些信息需要相当多的比特来编解码，可以由多个图片共享，并且在序列中可以有相当多的不同变化。

4.所公开的技术方案所解决的技术问题

在最新的VVC文本(JVET-R2001-vA/v10)中处理可丢弃图片和AU的现有设计存在以下问题：

1)在条款3(定义)中，作为RASL图片定义的一部分，句子“RASL图片不被用作用于非RASL图片的解码过程的参考图片”存在问题，因为在一些情况下，这不再适用，因此其会引起混淆和互操作性问题。

2)在条款D.4.2(图片时序SEI消息语义)中，对pt_cpb_alt_timing_info_present_flag等于0的约束以图片特定的方式指定。然而，由于HRD操作是基于OLS的，因此语义在技术上是不正确的并且会引起互操作性问题。

3)prevTid0Pic在delta_poc_msb_cycle_present_flag[i][j]的语义和图片顺序计数(POC)的解码过程中的推导没有考虑ph_non_ref_pic_flag的值。当ph_non_ref_pic_flag等于1的图片被丢弃时，这将引起问题，因为随后针对图片和/或信令通知的参考图片的推导出的POC值可能是错误的，并且可能发生意外的错误解码行为，包括解码器崩溃。

4)在条款C.2.3(DU移除和DU解码的时序)中，变量prevNonDiscardablePic以图片特定的方式指定，并且不考虑ph_non_ref_pic_flag的值。因此，可能出现与上述类似的问题。

5)与问题4类似的问题适用于条款D.3.2(缓冲时段SEI消息语义)中的notDiscardablePic和prevNonDiscardablePic以及条款D.4.2(图片时序SEI消息语法)中的prevNonDiscardablePic。

6)bp_concatenation_flag和bp_cpb_removal_delay_delta_minus1的语义以图片特定的方式指定。然而，由于HRD操作是基于OLS的，因此语义在技术上是不正确的并且会引起互操作性问题。

7)在对bp_alt_cpb_params_present_flag的值的约束中，在bp_alt_cpb_params_present_flag的语义中，有两个问题：第一，它是以图片特定的方式指定，而其应该是AU特定的；第二，只考虑了IRAP图片，而GDR图片也需要考虑。

8)在条款D.4.2(图片时序SEI消息语义)中，变量BpResetFlag、CpbRemovalDelayMsb[i]和CpbRemovalDelayVal[i]以及语法元素pt_dpb_output_delay、pt_dpb_output_du_delay和pt_display_elemental_periods_minus1的语义以图片特定的方式指定。然而，由于HRD操作是基于OLS的，因此语义在技术上是不正确的并且会引起互操作性问题。

9)在条款C.4(比特流一致性)中，maxPicOrderCnt和minPicOrderCnt的推导不考虑ph_non_ref_pic_flag的值。当ph_non_ref_pic_flag等于1的图片被丢弃时，这将引起问题，因为随后针对图片和/或信令通知的参考图片的推导出的POC值可能是错误的，并且可能发生意外的错误解码行为，包括解码器崩溃。

10)在pt_display_elemental_periods_minus1的语义中，使用语法元素fixed_pic_rate_within_cvs_flag[TemporalId]。然而，由于语义应该在目标最高TemporalId值的上下文中描述，就像在BP、PT和DUI SEI消息的其他语义中一样，因此应该改用fixed_pic_rate_within_cvs_flag[Htid]。

11)dui_dpb_output_du_delay的语义以图片特定的方式指定。然而，由于HRD操作是基于OLS的，因此语义在技术上是不正确的并且会引起互操作性问题。

5.技术解决方案和实施例的列表

为了解决上述问题和其他问题，公开了如下概述的方法。这些项目应被视为解释一般概念的示例，而不应狭义解释。此外，这些项目可以单独应用或以任何方式组合应用。

1)为了解决问题1，在条款3(定义)中，将注释中作为RASL图片定义一部分的句子“RASL图片不被用作用于非RASL图片的解码过程的参考图片”更改为“RASL图片不被用作用于非RASL图片的解码过程的参考图片，除非RASL图片中的RADL子图片当存在时可以用于与与RASL图片相同的CRA图片相关联的RADL图片中的并置RADL子图片的帧间预测”。

2)为了解决问题2，在条款D.4.2(图片时序SEI消息语义)中，将对pt_cpb_alt_timing_info_present_flag等于0的约束的描述从图片特定de更改为AU特定的，并添加这里的RASL图片仅包含RASL NUT。

a.在一个示例中，约束被规定如下：当相关联的AU中的所有图片均是pps_mixed_nalu_types_in_pic_flag等于0的RASL图片时，pt_cpb_alt_timing_info_present_flag的值应等于0。

b.在另一示例中，约束被规定如下：当相关联的AU中的所有图片均是RASL图片时，其中对于RASL图片，pps_mixed_nalu_types_in_pic_flag等于0，pt_cpb_alt_timing_info_present_flag的值应等于0。

c.在又一示例中，约束被规定如下：当相关联的AU中的所有图片均是包含nal_unit_type均等于RASL_NUT的VCL NAL单元的RASL图片时，pt_cpb_alt_timing_info_present_flag的值应等于0。3)为了解决问题3，向prevTid0Pic在delta_poc_msb_cycle_present_flag[i][j]的语义和图片顺序计数的解码过程中的推导添加ph_non_ref_pic_flag。4)为了解决问题4，在条款C.2.3(DU移除和解码DU的时序)中，将prevNonDiscardablePic的规范从图片特定的更改为AU特定的，包括将其重命名为prevNonDiscardableAu，以及向同一变量的推导添加ph_non_ref_pic_flag。

5)为了解决问题5，对于条款D.3.2(缓冲时段SEI消息语义)中的notDiscardablePic和prevNonDiscardablePic以及条款D.4.2(图片时序SEI消息语义)中的prevNonDiscardablePic，将这些变量的规范从图片特定的更改为AU特定的，包括将它们分别重命名为notDiscardableAu和prevNonDiscardableAu，以及向这两个变量的推导添加ph_non_ref_pic_flag。

6)为了解决问题6，将bp_concatenation_flag和bp_cpb_removal_delay_delta_minus1的语义的描述从图片特定的更改为AU特定的。

7)为了解决问题7，对bp_alt_cpb_params_present_flag的值的约束以AU特定的方式指定，并且规定bp_alt_cpb_params_present_flag的值另外取决于相关联的AU是否是GDR AU。

8)为了解决问题8，将变量BpResetFlag、CpbRemovalDelayMsb[i]和CpbRemovalDelayVal[i]的规范以及条款D.4.2(图片时序SEI消息语义)

中的语法元素pt_dpb_output_delay、pt_dpb_output_du_delay和pt_display_elemental_periods_minus1的语义从图片特定的更改为AU特定的。

9)为了解决问题9，在条款C.4(比特流一致性)中，在maxPicOrderCnt和minPicOrderCnt的推导中，向“TemporalId等于0且不是RASL或RADL图片的按解码顺序的先前图片”添加ph_non_ref_pic_flag。

10)为了解决问题10，使用fixed_pic_rate_within_cvs_flag[Htid]而不是fixed_pic_rate_within_cvs_flag[TemporalId]来指定pt_display_elemental_periods_minus1的语义。

11)为了解决问题11，以AU特定的方式指定dui_dpb_output_du_delay的语义。

6.实施例

以下是上文章节5中概述的本发明方面中的一些方面的一些示例实施例，其可应用于VVC规范。更改后的文本基于JVET-R2001-vA/v10中最新的VVC文本。增加或修改的大多数相关部分均用粗体、下划线和斜体表示，例如，“使用A

”，一些删除的部分标识斜体带上删除线，例如，“基于

”。可能还有一些其他的修改是编辑性质的，因此没有突出显示。

6.1.第一实施例

本实施例适用于项目1至9。

3定义

...

随机访问跳过前置(RASL)图片：其中至少一个VCL NAL单元的nal_unit_type等于RASL_NUT并且其他VCL NAL单元的nal_unit_type均等于RASL_NUT或RADL_NUT的编解码图片。

注释–所有RASL图片均是相关联的CRA图片的前置图片。当相关联的CRA图片的NoOutputBeforeRecoveryFlag等于1时，RASL图片不输出，并且可能无法被正确解码，因为RASL图片可能包含对比特流中不存在的图片的引用。RASL图片不被用作用于非RASL图片的解码过程的参考图片，

当sps_field_seq_flag等于0时，所有RASL图片当存在时按解码顺序均先于相同的相关联的CRA图片的所有非前置图片。

...

7.4.9参考图片列表语义

...

delta_poc_msb_cycle_present_flag[i][j]等于1指定存在delta_poc_msb_cycle_lt[i][j]。delta_poc_msb_cycle_present_flag[i][j]等于0指定不存在delta_poc_msb_cycle_lt[i][j]。

令prevTid0Pic为nuh_layer_id与当前图片相同、TemporalId

等于0且不是RASL或RADL图片的按解码顺序的先前图片。令setOfPrevPocVals为包括以下的集合：

–prevTid0Pic的PicOrderCntVal，

–由prevTid0Pic的RefPicList[0]或RefPicList[1]中的条目引用且nuh_layer_id与当前图片相同的每个图片的PicOrderCntVal，

–按解码顺序跟在prevTid0Pic之后的、nuh_layer_id与当前图片相同且按解码顺序在当前图片之前的每个图片的PicOrderCntVal。

当模值MaxPicOrderCntL等于PocLsbLt[i][j]的sbsetOfPrevPocVals中有多于一个值时，delta_poc_msb_cycle_present_flag[i][j]的值应等于1。

...

8.3.1图片顺序计数的解码过程

...

当ph_poc_msb_cycle_present_flag等于0且当前图片不是CLVSS图片时，变量prevPicOrderCntLsb和prevPicOrderCntMsb被推导如下：

–令prevTid0Pic为nuh_layer_id与当前图片相同、TemporalId

等于0且不是RASL或RADL图片的按解码顺序的先前图片。

–变量prevPicOrderCntLsb被设置为等于prevTid0Pic的ph_pic_order_cnt_lsb。

–变量prevPicOrderCntMsb被设置为等于prevTid0Pic的PicOrderCntMsb。

...

C.2.3DU移除和DU解码的时序

...

AU n从CPB的标称移除时间规定如下：

–如果AU n是n等于0的AU(初始化HRD的AU)，则AU从CPB中的标称移除时间由以下等式规定：

AuNominalRemovalTime[0]＝InitCpbRemovalDelay[Htid][ScIdx]÷90000

(C.9)–否则，以下适用：

–当AU n是未初始化HRD的BP的第一AU时，以下适用：

AU n从CPB的标称移除时间规定如下：

其中

是先前BP的第一AU的标称移除时间，

是TemporalId等于0的

不是RASL或RADL图片

的按解码顺序的

的标称移除时间，AuCpbRemovalDelayVal是根据PT SEI消息中的pt_cpb_removal_delay_minus1[Htid]和pt_cpb_removal_delay_delta_idx[Htid]推导出的CpbRemovalDelayVal[Htid]的值，并且按照条款C.1中的所规定选择的与AU n和concatenationFlag以及CpbRemovalDelayDeltaMinus1相关联的BP SEI消息中的bp_cpb_removal_delay_delta_val[pt_cpb_removal_delay_delta_idx[Htid]]分别是按照条款C.1所规定选择的与AU n相关联的BP SEI消息中的语法元素bp_concatenation_flag和bp_cpb_removal_delay_delta_minus1的值。

在标称CPB移除时间的推导之后且在访问单元n的DPB输出时间的推导之前，变量DpbDelayOffset和CpbDelayOffset被推导为：

–如果以下条件中的一个或多个为真，则DpbDelayOffset被设置为等于AU n+1的PT SEI消息语法元素dpb_delay_offset[Htid]的值，并且CpbDelayOffset被设置为等于AUn+1的PT SEI消息语法元素cpb_delay_offset[Htid]的值，其中包含语法元素的PT SEI消息按照条款C.1中所规定来选择：

–AU n的UseAltCpbParamsFlag等于1。

–DefaultInitCpbParamsFlag等于0。

–否则，DpbDelayOffset和CpbDelayOffset均被设置为0。

–当AU n不是BP的第一AU时，AU n从CPB中的标称移除时间由以下等式规定：

其中

是当前BP的第一AU的标称移除时间，并且AuCpbRemovalDelayVal是根据PT SEI消息中的pt_cpb_removal_delay_minus1[OpTid]和pt_cpb_removal_delay_delta_idx[OpTid]以及按照条款C.1中所规定选择的与AU n相关联的BP SEI消息中的bp_cpb_removal_delay_delta_val[pt_cpb_removal_delay_delta_idx[OpTid]]推导出的CpbRemovalDelayVal[OpTid]的值。

...

C.4比特流一致性

...

令currPicLayerId等于当前图片的nuh_layer_id。

对于每个当前图片，令变量maxPicOrderCnt和minPicOrderCnt被分别设置为等于nuh_layer_id等于currPicLayerId的以下图片的PicOrderCntVal值的最大值和最小值：

–当前图片。

–TemporalId

等于0且不是RASL或RADL图片的按解码顺序的先前图片。

–当前图片的RefPicList[0]中所有条目和RefPicList[1]中所有条目引用的STRP。

–PictureOutputFlag等于1、AuCpbRemovalTime[n]小于AuCpbRemovalTime[currPic]且DpbOutputTime[n]大于或等于AuCpbRemovalTime[currPic]的所有图片n，其中currPic是当前图片。

...

D.3.2缓冲时段SEI消息语义

...

当存在BP SEI消息时，

的TemporalId等于0且

不是RASL或RADL图片

当

比特流中按解码顺序的

时，令

TemporalId等于0且

不是RASL或RADL图片

的按解码顺序的

BP SEI消息的存在规定如下：

–如果NalHrdBpPresentFlag等于1或VclHrdBpPresentFlag等于1，则以下适用于CVS中的每个AU：

–如果AU是IRAP或GDR AU，则适用于操作点的BP SEI消息应与AU相关联。

–否则，如果AU

则适用于操作点的BP SEI消息可以与AU相关联，也可以不与AU相关联。

–否则，AU不应与适用于操作点的BP SEI消息相关联。

–否则(NalHrdBpPresentFlag和VclHrdBpPresentFlag均等于0)，CVS中没有AU与BP SEI消息相关联。

注释1–对于某些应用，可能需要频繁存在BP SEI消息(例如，对于

的随机访问或比特流拼接)。

...

bp_alt_cpb_params_present_flag等于1指定语法元素bp_use_alt_cpb_params_flag在BP SEI消息中的存在和替代时序(alternative timing)信息在当前BP中PT SEI消息中的存在。当不存在时，bp_alt_cpb_params_present_flag的值被推断为等于0。当

时，bp_alt_cpb_params_present_flag的值应等于0。

...

当

比特流中按解码顺序的

时，bp_concatenation_flag指示

的标称CPB移除时间是相对于与BP SEI消息

的标称CPB移除时间来确定还是相对于

的标称CP移除时间来确定。

...

当

比特流中按解码顺序的

bp_cpb_removal_delay_delta_minus1加1指定相对于

的标称CPB移除时间的CPB移除延迟增量值。此语法元素的长度为bp_cpb_removal_delay_length_minus1+1比特。

当

BP SEI消息

且bp_concatenation_flag等于0且

比特流中按解码顺序的

比特流一致性的要求是以下约束适用：

–如果

不与BP SEI消息相关联，则

的pt_cpb_removal_delay_minus1应等于

的pt_cpb_removal_delay_minus1加bp_cpb_removal_delay_delta_minus1+

1。

–否则，

pt_cpb_removal_delay_minus1应等于bp_cpb_removal_delay_delta_minus1。

注释2–当

BP SEI消息

并且bp_concatenation_flag等于1

时，不使用

的pt_cpb_removal_delay_minus1。在一些情况下，上述规定的约束可以通过简单地将在拼接点(splicing point)处的

的BP SEI消息中的bp_concatenation_flag的值从0更改为1来拼接比特流(使用适当设计的参考结构)。当bp_concatenation_flag等于0时，上述规定的约束使解码器能够检查是否满足约束作为检测

丢失的方式。

...

D.4.2图片时序SEI消息语义

...

pt_cpb_alt_timing_info_present_flag等于1指定语法元素pt_nal_cpb_alt_initial_removal_delay_delta[i][j]、pt_nal_cpb_alt_initial_removal_offset_delta[i][j]、pt_nal_cpb_delay_offset[i]、pt_nal_dpb_delay_offset[i]、pt_vcl_cpb_alt_initial_removal_delay_delta[i][j]、pt_vcl_cpb_alt_initial_removal_offset_delta[i][j]、pt_vcl_cpb_delay_offset[i]和pt_vcl_dpb_delay_offset[i]可能存在于PT SEI消息中。pt_cpb_alt_timing_info_present_flag等于0指定这些语法元素不存在于PT SEI消息中。当

时，pt_cpb_alt_timing_info_present_flag的值应等于0。

注释1–对于跟按解码顺序在

之后的多于一个AU，pt_cpb_alt_timing_info_present_flag的值可能等于1。然而，替代时序仅适用于pt_cpb_alt_timing_info_present_flag等于1且按解码顺序跟在

之后的第一AU。

...

pt_vcl_dpb_delay_offset[i]指定，对于VCL HRD的第i个子层，当与PT SEI消息相关联的AU按解码顺序直接跟在与BP SEI消息相关联的IRAP AU之后时，与BP SEI消息相关联的IRAP AU的DPB输出时间的推导中要使用的偏移量。pt_vcl_dpb_delay_offset[i]的长度为bp_dpb_output_delay_length_minus1+1比特。当不存在时，pt_vcl_dpb_delay_offset[i]的值被推断为等于0。

的变量BpResetFlag被推导如下：

–如果

与BP SEI消息相关联，则BpResetFlag被设置为等于1。

–否则，BpResetFlag被设置为等于0。

...

pt_cpb_removal_delay_delta_idx[i]指定CPB移除增量的索引，该索引适用于j的范围从0至bp_num_cpb_emoval_deley_deltas_minus1(含端点)的bp_cpb_rmoval_dellta_val[j]列表中等于i的Htid。pt_cpb_removal_delay_delta_idx[i]的长度为Ceil(Log2(bp_num_cpb_emoval_deley_deltas_minus1+1))比特。当pt_cpb_removal_delay_delta_idx[i]不存在且pt_cpb_removal_delay_delta_enabled_flag[i]等于1时，pt_cpb_removal_delay_delta_idx[i]的值被推断为等于0。

的变量CpbRemovalDelayMsb[i]和CpbRemovalDelayVal[i]被推导如下：

–如果当前AU是初始化HRD的AU，则CpbRemovalDelayMsb[i]和CpbRemovalDelayVal[i]均被设置为等于0，并且cpbRemovalDelayValTmp[i]的值被设置为等于pt_cpb_removal_delay_minus1[i]+1。

–否则，令

TemporalId等于0的

不是RASL或RADL图片

的按解码顺序的

对于

令prevCpbRemovalDelayMinus1[i]、prevCpbRemovalDelayMsb[i]和prevBpResetFlag被设置为分别等于cpbRemovalDeliveValTmp[i]-1、CpbRemovalDelayMsb[i]和BpResetFlag的值，并且以下适用：

...

Pt_dpb_output_delay被用于计算

的DPB输出时间。它指定在从CPB移除AU之后在从DPB输出

之前等待多少个时钟节拍(clock ticks)。

注释2–当解码图片仍被标记为“用于短期参考”或“用于长期参考”时，解码图片在输出时不会从DPB中移除。

pt_dpb_output_delay的长度为bp_dpb_output_delay_length_minus1+1比特。当max_dec_pic_buffering_minus1[Htid]等于0时，pt_dpb_output_delay的值应等于0。

根据从符合输出时序的解码器输出的任何图片的pt_dpb_output_delay推导出的输出时间应先于按解码顺序的任何后续CVS中的所有图片的pt_dpb_output_delay推导出的输出时间。

由该语法元素的值建立的图片输出顺序应与由PicOrderCntVal的值建立的顺序相同。

对于未通过“碰撞”过程输出的图片，因为它们按解码顺序在ph_no_output_of_prior_pics_flag等于1或被推断为等于1的

之前，根据pt_dpb_output_delay推导出的输出时间应随着PicOrderCntVal值相对于同一CVS内所有图片的增加而增加。

当DecodingUnitHrdFlag等于1时，pt_dpb_output_du_delay被用于计算

的DPB输出时间。它指定在从CPB移除最后AU之后在从DPB输出

之前等待多少个子时钟节拍。

...

当sps_field_seq_flag等于0且

等于1时，pt_display_elemental_periods_minus1加1指示

对于显示模型所占据的元素图片时段间隔的数量。

当fixed_pic_rate_within_cvs_flag[HtidTemporalId]等于0或sps_field_seq_flag等于1时，pt_display_elemental_periods_minus1的值应等于0。

当sps_field_seq_flag等于0且

等于1时，大于0的pt_display_elemental_periods_minus1的值可以被用于指示使用等于DpbOutputElementalInterval[n]的固定帧刷新间隔的显示器的帧重复周期，如等式112所给出。

...

D.5.2DU信息SEI消息语义

...

当DecodingUnitHrdFlag等于1且bp_du_dpb_params_in_pic_timing_sei_flag等于0时，dui_dpb_output_du_delay被用于计算

的DPB输出时间。它指定在从CPB移除最后AU之后在从DPB输出

之前等待多少个子时钟节拍。当不存在时，dui_dpb_output_du_delay的值被推断为等于pt_dpb_output_du_delay。语法元素dui_dpb_output_du_delay的长度由bp_dpb_output_delay_du_length_minus1+1以比特为单位给出。

比特流一致性的要求是，与同一AU相关联的适用于同一操作点且bp_du_dpb_params_in_pic_timing_sei_flag等于0的所有DU信息SEI消息应具有相同的dui_dpb_output_du_delay值。

根据从符合输出时序的解码器输出的任何图片的dui_dpb_output_du_delay推导出的输出时间应先于按解码顺序的任何后续CVS中的所有图片的dui_dpb_output_du_delay推导出的输出时间。

对于未通过“碰撞”过程输出的图片，因为它们按解码顺序先于ph_no_output_of_prior_pics_flag等于1或被推断为等于1的

根据dui_dpb_output_du_delay推导出的输出时间应随着PicOrderCntVal值相对于同一CVS内所有图片的增加而增加。

对于CVS中的任何两个图片，当DecodingUnitHrdFlag等于1时的两个图片的输出时间之差应与当Decoding UnitHrd Flag为0时的输出时间之差相同。

...

图1是示出可以实施本文公开的各种技术的示例视频处理系统1000的框图。各种实施方式可以包括系统1000的组件中的一些或全部。系统1000可以包括用于接收视频内容的输入1002。视频内容可以以原始或未压缩的格式接收，例如，8或10比特多分量像素值，或者可以是压缩或编码格式。输入1002可以表示网络接口、外围总线接口或储存接口。网络接口的示例包括诸如以太网、无源光学网络(PON)等有线接口和诸如Wi-Fi或蜂窝接口等无线接口。

系统1000可以包括可以实施本文中描述的各种编解码或编码方法的编解码组件1004。编解码组件1004可以降低从输入1002到编解码组件1004的输出的视频的平均比特率，以产生视频的编解码表示。因此，编解码技术有时称为视频压缩或视频转码技术。如组件1006所表示的，编解码组件1004的输出可以被存储或经由所连接的通信来被发送。在输入1002处接收的视频的存储的或通信传送的比特流(或编解码)表示可以被组件1008用于生成像素值或可显示视频，该像素值或可显示视频被发送到显示接口1010。从比特流表示生成用户可观看视频的过程有时称为视频解压缩。此外，尽管某些视频处理操作被称为“编解码”操作或工具，但是应当理解，编解码工具或编解码操作在编码器处使用，并且逆向操作编解码结果的对应的解码工具或解码操作将由解码器执行。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等等。本文中描述的技术可以体现在各种电子设备中，诸如移动电话、膝上型计算机、智能电话或能够执行数字数据处理和/或视频显示的其他设备。

图2是视频处理装置2000的框图。装置2000可用于实现本文描述的一种或多种方法。装置2000可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置2000可以包括一个或多个处理器2002、一个或多个存储器2004和视频处理硬件2006。处理器2002可以被配置为实施本文中描述的一种或多种方法(例如，图6至图9)。(多个)存储器2004可用于存储用于实现本文所述方法和技术的数据和代码。视频处理硬件2006可以用于在硬件电路中实现本文中描述的一些技术。在一些实施例中，硬件2006可以部分或全部位于一个或多个处理器2002中，例如，图形处理器。

图3是示出可以利用本公开的技术的示例视频编解码系统100的框图。如图3所示，视频编解码系统100可以包括源设备110和目的设备120。源设备110生成编码的视频数据，其可以被称为视频编码设备。目标设备120可以对源设备110生成的编码视频数据进行解码，该源设备可以被称为视频解码设备。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备、从视频内容提供者接收视频数据的接口和/或用于生成视频数据的计算机图形系统等源，或者这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发送器。编码的视频数据可以经由I/O接口116通过网络130a直接发送到目的设备120。编码的视频数据还可存储在存储媒体/服务器130b上以供目的设备120访问。

目的设备120可以包括I/O接口126、视频解码器124和显示设备122。

I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码的视频数据。视频解码器124可以解码编码的视频数据。显示设备122可以向用户显示解码的视频数据。显示设备122可以与目的设备120集成在一起，或者可以在目的设备120的外部，该目的设备被配置为与外部显示设备接口。

视频编码器114和视频解码器124可以根据视频压缩标准操作，例如高效视频编解码(HEVC)标准、多功能视频编解码(VVM)标准和其他当前和/或进一步的标准。

图4是示出视频编码器200的示例的框图，视频编码器可以是图3所示的系统100中的视频编码器114。

视频编码器200可以被配置为执行本公开的任何或所有技术。在图4的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

视频编码器200的功能组件可以包括分割单元201、可以包括模式选择单元203的预测单元202、运动估计单元204、运动补偿单元205和帧内预测单元206、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重构单元212、缓冲区213和熵编码单元214。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中，预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式执行预测，其中至少一个参考图片是当前视频块所在的图片。

此外，诸如运动估计单元204和运动补偿单元205等一些组件可以被高度集成，但出于解释目的，在图4的示例中分开表示。

分割单元201可将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块尺寸。

模式选择单元203可例如基于误差结果选择多个编解码模式(帧内或帧间)中的一个编解码模式，并且将所得帧内或帧间编解码块提供到残差生成单元207以生成残差块数据，以及提供到重构单元212以重构编码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过比较来自缓冲区213的一个或多个参考帧与当前视频块来生成当前视频块的运动信息。运动补偿单元205可以基于来自缓冲区213的除了与当前视频块相关联的图片之外的其他图片的运动信息和解码样点来确定当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以在列表0或列表1的参考图片中搜索用于当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示包含参考视频块的列表0或列表1中的参考图片，该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在其他示例中，运动估计单元204可以对当前视频块执行双向预测，运动估计单元204可以在列表0中的参考图片中搜索当前视频块的参考视频块，且还可以在列表1中的参考图片中搜索当前视频块的另一参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示包含参考视频块的列表0和列表1中的参考图片，该运动矢量指示参考视频块与当前视频块之间的空间位移。运动估计单元204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。

在一些示例中，运动估计单元204可以输出用于解码器的解码处理的完整运动信息集。

在一些示例中，运动估计单元204可以不输出当前视频的完整运动信息集。相反，运动估计单元204可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。举例来说，运动估计单元204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中指示一个值，该值向视频解码器300指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中识别另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量和所指示的视频块的运动矢量之间的差。视频解码器300可以使用所指示的视频块的运动向量和运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以预测性地信令通知运动矢量。可以由视频编码器200实施的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中的其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测的视频块和各种语法元素。

残差产生单元207可以通过从当前视频块减去(例如，由负号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。

在其他示例中，当前视频块可能没有当前视频块的残差数据，例如，在跳过模式中，并且残差产生单元207可能不执行减法操作。

变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

逆量化单元210和逆变换单元211可以分别对变换系数视频块应用逆量化和逆变换，以从变换系数视频块重构残差视频块。重构单元212可以向来自由预测单元202生成的一个或多个预测视频块的对应样点添加重构的残差视频块，以产生与当前块相关联的重构视频块，以存储在缓冲区213中。

在重构单元212重构视频块之后，可以执行环路滤波操作以减少视频块中的视频块效应。

熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时，熵编码单元214可以执行一个或多个熵编码操作以生成熵编码数据并输出包括熵编码数据的比特流。

图5是示出视频解码器300的示例的框图，该视频解码器可以是图3所示的系统100中的视频解码器114。

视频编码器300可以被配置为执行本公开的任何或所有技术。在图5的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可在视频解码器300的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图5的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305、重构单元306和缓冲区307。在一些示例中，视频解码器300可以执行通常与针对视频编码器200(图4)描述的编码过程互逆的解码过程。

熵解码单元301可以检索编码比特流。编码的比特流可以包括熵编解视频数据(例如，视频数据的编码块)。熵解码单元301可以解码熵编解码视频数据，并且运动补偿单元302可以从熵解码视频数据确定运动信息，该运动信息包含运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可一例如通过执行AMVP和merge模式来确定此信息。

运动补偿单元302可以产生运动补偿块，可以基于内插滤波器执行内插。要以子像素精度使用的内插滤波器的标识符可以包括在语法元素中。

运动补偿单元302可以使用如视频编码器200在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。运动补偿单元302可以根据所接收的语法信息来确定视频编码器200所使用的内插滤波器，并使用内插滤波器来产生预测块。

运动补偿单元302可以使用一些语法信息来确定用于编码经编码的视频序列的帧和/或条带的块的尺寸、描述编码视频序列的图片的每一宏块如何被分割的分割信息、指示每一分割如何被编码的模式、用于每个帧间编码块的一个或多个参考帧(和参考帧列表)和解码该编码视频序列的其他信息。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空间相邻的块形成预测块。逆量化单元303逆量化(即，去量化)比特流中提供的并且由熵解码单元301解码的经量化的视频块系数。逆变换单元303应用逆变换。

重构单元306可以将残差块与由运动补偿单元202或帧内预测单元303生成的对应预测块相加，以形成解码块。如果需要，还可以应用去方块滤波器来对解码块进行滤波，以便移除块效应伪像。解码视频块随后被存储在缓冲区307中，该缓冲区为后续的运动补偿/帧内预测提供参考块，并且还产生解码视频以在显示设备上呈现。

图6至图10示出了可以实施例如图1至图5所示的实施例中的上述技术方案的示例方法。

图6示出了视频处理的示例方法600的流程图。方法600包括，在操作610处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定图片时序(PT)补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，并且一个或多个图片中的是随机访问跳过前置(RASL)图片的每个图片仅包括RASL网络抽象层单元类型(NUT)。

图7示出了视频处理的示例方法700的流程图。方法700包括，在操作710处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则准许使用随机访问跳过前置(RASL)图片中的随机访问可解码前置(RADL)子图片作为参考子图片，以用于预测与RASL图片相同的完全随机访问(CRA)图片相关联的RADL图片中的并置RADL图片。

图8示出了视频处理的示例方法800的流程图。方法800包括，在操作810处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定在图片顺序计数的解码过程中与第一标志相关联的图片的推导是基于第二标志的，与第一标志相关联的图片是按解码顺序的先前图片，该先前图片具有(i)与引用参考图片列表语法结构的条带或图片标头相同的第一标识符，(ii)第二标识符和等于零的第二标志，以及(iii)不同于随机访问跳过前置(RASL)图片和随机访问可解码前置(RADL)图片的图片类型，该第一标志指示比特流中是否存在第三标志，该第二标志指示当前图片是否用作参考图片，并且该第三标志用于确定长期参考图片的图片顺序计数值的一个或多个最高有效位的值。

图9示出了视频处理的示例方法900的流程图。方法900包括，在操作910处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定被用于确定解码单元(DU)移除或解码DU的时序的变量是访问单元(AU)特定的，并且是基于指示是否允许当前图片用作参考图片的标志而推导出的。

图10示出了视频处理的示例方法1000的流程图。方法1000包括，在操作1010处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定缓冲时段补充增强信息(SEI)消息和图片时序SEI消息当被包括在比特流中时是访问单元(AU)特定的，与缓冲时段SEI消息相关联的第一变量和与缓冲时段SEI消息和图片时序SEI消息相关联的第二变量是基于指示是否允许当前图片用作参考图片的标志而推导出的，该第一变量指示访问单元包括(i)等于零的标识符和(ii)不是随机访问跳过前置(RASL)图片或随机访问可解码前置(RADL)图片并且其标志等于零的图片，并且该第二变量指示当前AU不是按解码顺序的第一AU和按解码顺序的先前AU包括(i)等于零的标识符和(ii)不是随机访问跳过前置(RASL)图片或随机访问可解码前置(RADL)图片并且其标志等于零的图片。

图11示出了视频处理的示例方法1100的流程图。方法1100包括，在操作1110处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定与第一图片和第二图片相关联的第一变量和第二变量的推导是基于标志的，该第一图片是当前图片，并且该第二图片按解码顺序的先前图片，该先前图片(i)包括等于零的第一标识符，(ii)包括等于零的标志，以及(iii)不是随机访问跳过前置(RASL)图片或随机访问可解码前置(RADL)图片，并且该第一变量和该第二变量分别是第二标识符等于第一图片的第二标识符的以下图片中的每一个图片的图片顺序计数的最大值和最小值：(i)第一图片，(ii)第二图片，(iii)由第一图片的参考图片列表中的所有条目引用的一个或多个短期参考图片，以及(iv)已经输出的每个图片，该图片的编解码图片缓冲区(CPB)移除时间小于第一图片的CPB移除时间并且解码图片缓冲区(DPB)输出时间大于或等于第一图片的CP移除时间。

图12示出了视频处理的示例方法1200的流程图。方法1200包括，在操作1210处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定标志和语法元素当被包括在比特流中时是访问单元(AU)特定的，响应于当前AU不是比特流中按解码顺序的第一AU，该标志指示当前AU的标称编解码图片缓冲区(CPB)移除时间是相对于(a)与缓冲时段补充增强信息(SEI)消息相关联的先前AU的标称CPB移除时间或者(b)当前AU标称CPB移除时间来确定的，并且响应于当前AU不是比特流中按解码顺序的第一AU，该语法元素指定相对于当前AU的标称CPB移除时间的CPB移除延迟增量值。

图13示出了视频处理的示例方法1300的流程图。方法1300包括，在操作1310处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定多个变量和图片时序补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，该图片时序SEI消息包括多个语法元素，多个变量中的第一变量指示当前AU是否与缓冲时段SEI消息相关联，多个变量中的第二变量和第三变量与当前AU是否是初始化假想参考解码器(HRD)的AU的指示相关联，多个语法元素中的第一语法元素指定在从编解码图片缓冲区(CPB)移除AU之后在从解码图片缓冲区(DPB)输出AU的一个或多个解码图片之前等待的时钟节拍数，多个语法元素中的第二语法元素指定在从CPB移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数，并且多个语法元素中的第三语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

图14示出了视频处理的示例方法1400的流程图。方法1400包括，在操作1410处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定与解码图片缓冲区(DPB)相关联的语法元素当被包括在比特流中时是访问单元(AU)特定的，并且语法元素指定在从编解码图片缓冲区(CPB)移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数。

图15示出了视频处理的示例方法1500的流程图。方法1500包括，在操作1510处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定标志当被包括在比特流中时是访问单元(AU)特定的，该标志的值基于相关联的AU是帧内随机访问点(IRAP)AU还是渐进解码刷新(GDR)AU，并且该标志的值指定(i)在缓冲时段补充增强信息(SEI)消息中是否存在语法元素和(ii)在当前缓冲时段的图片时序SEI消息中是否存在替代时序信息。

图16示出了视频处理的示例方法1600的流程图。方法1600包括，在操作1610处，执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定第一语法元素的值是基于标志和变量的，该标志指示假想参考解码器(HRD)的连续图片的输出时间之间的时间距离是否受到约束，该变量标识要被解码的最高时间子层，并且第一语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

接下来提供一些实施例优选的解决方案列表。

A1.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定图片时序(PT)补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，并且其中在该一个或多个图片中是随机访问跳过前置(RASL)图片的每个图片仅包括RASL网络抽象层单元类型(NUT)。

A2.根据解决方案A1的方法，其中，响应于相关联的AU中的每个图片是第一标志等于零的RASL图片，第二标志等于零，其中第一标志指示引用图片参数集(PPS)的每个图片是否具有多于一个视频编解码层(VCL)网络抽象层(NAL)单元，并且多于一个VCL NAL单元中的至少两个是不同类型的，并且其中第二标志指示是否允许与时序信息相关的一个或多个语法元素存在于图片时序SEI消息中。

A3.根据解决方案A2的方法，其中，第一标志是pps_mixed_nalu_types_in_pic_flag，并且第二标志是pt_cpb_alt_timing_info_present_flag。

A4.根据解决方案A2的方法，其中，一个或多个语法元素包括以下至少一者：第一语法元素，指示以90kHz时钟为单位的NAL假想参考解码器(HRD)的第j个编解码图片缓冲区(CPB)的第i个子层的替代初始CPB移除延迟增量；第二语法元素，指示以90kHz时钟为单位的NAL HRD的第j个CPB的第i个子层的替代初始CPB移除偏移增量；第三语法元素，指示对于NAL HRD的第i个子层，当与PT SEI消息相关联的AU按解码顺序直接跟在与缓冲时段(BP)SEI消息相关联的AU之后时，在与PTSEI消息相关联的AU和按解码顺序的一个或多个后续AU的标称CPB移除时间的推导中要使用的偏移量；第四语法元素，指示对于NAL HRD的所述第i个子层，当与PT SEI消息相关联的AU按解码顺序直接跟在与BP SEI消息相关联的帧内随机访问点(IRAP)AU之后时，在与BP SEI消息相关联的IRAP AU的解码图片缓冲区(DPB)输出时间的推导中要使用的偏移量；第五语法元素，指示以90kHz时钟为单位的VCL HRD的第j个CPB的第i个子层的替代初始CPB移除延迟增量；第六语法元素，指示以90kHz时钟为单位的所述VCL HRD的所述第j个CPB的第i个子层的替代初始CPB移除偏移增量；第七语法元素，指示对于VCL HRD的所述第i个子层，当与PT SEI消息相关联的AU按解码顺序直接跟在与BPSEI消息相关联的AU之后时，在与PT SEI消息相关联的AU和按解码顺序的一个或多个后续AU的标称CPB移除时间的所述推导中要使用的偏移量；第八语法元素，指示对于VCL HRD的第i个子层，当与PT SEI消息相关联的AU按解码顺序直接跟在与BP SEI消息相关联的IRAPAU之后时，在与BP SEI消息相关联的IRAP AU的DPB输出时间的推导中要使用的偏移量。

A5.根据解决方案A1的方法，其中，响应于相关联的AU中的每个图片是包括每个均为RASL NUT的视频编解码层(VCL)网络抽象层(NAL)单元的RASL图片，标志等于零，其中，该标志指示与时序信息相关的一个或多个语法元素是否存在于图片时序SEI消息中。

A6.根据解决方案A5的方法，其中，该标志是

pt_cpb_alt_timing_info_present_flag。

A7.一种视频处理方法，包括执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则准许使用随机访问跳过前置(RASL)图片中的随机访问可解码前置(RADL)子图片作为参考子图片，用于预测与RASL图片相同的完全随机访问(CRA)图片相关联的RADL图片中的并置RADL图片。

接下来提供了一些实施例优选的解决方案的另一列表。

B1.一种视频处理方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与第一标志相关联的图片以及在图片顺序计数的解码过程中的推导基于第二标志，其中与第一标志相关联的图片是按解码顺序的先前图片，该先前图片具有(i)引用参考图片列表语法结构的条带或图片标头相同的第一标识符，(ii)等于零的第二标志和第二标识符，以及(iii)与随机访问跳过前置(RASL)图片和随机访问可解码前置(RADL)图片不同的图片类型，其中第一标志指示比特流中是否存在第三标志，其中第二标志指示当前图片是否被用作参考图片，并且其中第三标志被用于确定长期参考图片的图片顺序计数值的一个或多个最高有效位的值。

B2.根据解决方案B1的方法，其中，第一标识符是层的标识符，并且第二标识符是时间标识符。

B3.根据解决方案B1的方法，其中，第一标识符是语法元素，并且第二标识符是变量。

B4.根据解决方案B1至B3中任一项的方法，其中，第一标志是delta_poc_msb_cycle_present_flag，第二标志是ph_non_ref_pic_flag，并且第三标志是delta_poc_msb_cycle_present_flag，并且其中第一标识符是nuh_layer_id，并且第二标识符是TemporalId。

B5.一种视频处理方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定用于确定移除解码单元(DU)或解码该DU的时序的变量是访问单元(AU)特定的，并且是基于指示当前图片是否被允许用作参考图片的标志而推导出的。

B6.根据解决方案B5的方法，其中，变量是prevNonDiscardableAu，并且该标志是ph_non_ref_pic_flag。

B7.根据解决方案B6的方法，其中，ph_non_ref_pic_flag等于1指定当前图片从不被用作参考图片。

B8.根据解决方案B6的方法，其中，ph_non_ref_pic_flag等于零指定当前图片可以或不可以被用作参考图片。

B9.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定缓冲时段补充增强信息(SEI)消息和图片时序SEI消息当被包括在比特流中时是访问单元(AU)特定的，其中基于指示当前图片是否被允许用作参考图片的标志，推导与缓冲时段SEI消息相关联的第一变量以及与缓冲时段SEI消息和图片定时SEI消息相关联的第二变量，其中第一变量指示访问单元包括(i)等于零的标识符，以及(ii)不是随机访问跳过前置(RASL)图片或随机访问可解码前置(RADL)图片并且该标志等于零的图片，并且其中第二变量指示当前AU不是按解码顺序的第一AU，并且按解码顺序的先前AU包括(i)等于零的标识符，以及(ii)不是随机访问跳过前置(RASL)图片或者随机访问可解码前置(RADL)图片并且该标志等于零的图片。

B10.根据解决方案B9的方法，其中，该标识符是时间标识符。

B11.根据解决方案B9的方法，其中，第一变量是notDiscardableAu，第二变量是prevNonDiscardableAu，该标志是ph_non_ref_pic_flag，并且该标识符是TemporalId。

B12.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与第一图片和第二图片相关联的第一变量和第二变量的推导是基于标志的，其中第一图片是当前图片，并且第二图片是按解码顺序的先前图片，该先前图片(i)包括等于零的第一标识符，(ii)包括等于零的标志，以及(iii)不是随机访问跳过前置(RASL)图片或者随机访问可解码前置(RADL)图片，并且其中第一变量和第二变量分别是第二标识符等于第一图片的第二标识符的以下图片中的每一个图片的图片顺序计数的最大值和最小值：(i)第一图片，(ii)第二图片，(iii)由第一图片的参考图片列表中的所有条目引用的一个或多个短期参考图片，以及(iv)已经输出的每个图片，其中该图片的编解码图片缓冲区(CPB)移除时间小于第一图片的CPB移除时间并且解码图片缓冲区(DPB)输出时间大于或等于第一图片的CP移除时间。

B13.根据解决方案B12的方法，其中，第一变量指示图片顺序计数的最大值，并且第二变量指示图片顺序计数的最小值。

B14.根据解决方案B12的方法，其中，该标志指示当前图片是否被允许用作参考图片。

B15.根据解决方案B12的方法，其中，第一标识符是时间标识符，并且第二标识符是层的标识符。

B16.解决方案B12至B15中任一项的方法，其中，第一变量是maxPicOrderCnt，第二变量是minPicOrderCnt，第一标识符是TemporalId，第二标识符是nuh_layer_id，并且该标志是ph_non_ref_pic_flag。

接下来提供了一些实施例优选的解决方案的另一列表。

C1.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定标志和语法元素当被包括在比特流中时是访问单元(AU)特定的，其中响应于当前AU不是比特流中按解码顺序的第一AU，该标志指示当前AU的标称编解码图片缓冲区(CPB)移除时间是相对于(a)与缓冲时段补充增强信息(SEI)消息相关联的先前AU的标称CPB移除时间或者(b)当前AU标称CPB移除时间来确定的，并且其中响应于当前AU不是比特流中按解码顺序的第一AU，该语法元素指定相对于当前AU的标称CPB移除时间的CPB移除延迟增量值。

C2.根据解决方案C1的方法，其中，该语法元素的长度在缓冲时段SEI消息的语法结构中指示。

C3.根据解决方案C1的方法，其中，该语法元素的长度是(bp_cpb_removal_delay_length_minus1+1)比特。

C4.根据解决方案C1至C3中任一项的方法，其中，该标志是bp_concatenation_flag，并且该语法元素是bp_cpb_removal_delay_delta_minus1。

C5.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，该比特流符合格式规则，该格式规则指定多个变量和图片时序补充增强信息(SEI)消息当被包括在比特流中时是访问单元(AU)特定的，其中该图片时序SEI消息包括多个语法元素，其中多个变量中的第一变量指示当前AU是否与缓冲时段SEI消息相关联，其中多个变量中的第二变量和第三变量与当前AU是否是初始化假想参考解码器(HRD)的AU的指示相关联，其中多个语法元素中的第一语法元素指定在从编解码图片缓冲区(CPB)移除AU之后在从解码图片缓冲区(DPB)输出AU的一个或多个解码图片之前等待的时钟节拍数，其中多个语法元素中的第二语法元素指定在从CPB移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数，并且其中多个语法元素中的第三语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

C6.根据解决方案C5的方法，其中，第一变量是BpResetFlag，第二变量是CpbRemovalDelayMsb，并且第三变量是CpbRemovalDelayVal。

C7.根据解决方案C5的方法，其中，第一语法元素是pt_dpb_output_delay，第二语法元素是pt_dpb_output_du_delay，并且第三语法元素是pt_display_elemental_periods_minus1。

C8.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定与解码图片缓冲区(DPB)相关联的语法元素当被包括在比特流中时是访问单元(AU)特定的，并且其中该语法元素指定在从编解码图片缓冲区(CPB)移除AU中的最后解码单元(DU)之后在从DPB输出AU的一个或多个解码图片之前等待的子时钟节拍数。

C9.根据解决方案C8的方法，其中，该语法元素被用于计算DPB输出时间。

C10.根据解决方案C8的方法，其中，该语法元素是

dui_dpb_output_du_delay。

接下来提供了一些实施例优选的解决方案的另一列表。

D1.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定标志当被包括在比特流中时是访问单元(AU)特定的，其中该标志的值基于相关联的AU是帧内随机访问点(IRAP)AU还是渐进解码刷新(GDR)AU，并且其中该标志的值指定(i)在缓冲时段补充增强信息(SEI)消息中是否存在语法元素和(ii)在当前缓冲时段的图片时序SEI消息中是否存在替代时序信息。

D2.根据解决方案D1的方法，其中，响应于相关联的AU不是IRAP AU或GDR AU，该标志的值等于零。

D3.根据解决方案D1的方法，其中，响应于该标志不被包括在比特流中，该标志的值被推断为零。

D4.根据解决方案D1的方法，其中，该标志的值为1表示该语法元素存在于缓冲时段SEI消息中。

D5.根据解决方案D至D4中任一项的方法，其中，该标志是bp_alt_cpb_params_present_flag，并且该语法元素是

bp_use_alt_cpb_params_flag。

接下来提供了一些实施例优选的解决方案的另一列表。

E1.一种视频处理的方法，包括：执行包括一个或多个图片的视频与视频的比特流之间的转换，其中该比特流符合格式规则，其中该格式规则指定第一语法元素的值是基于标志和变量的，该标志指示假想参考解码器(HRD)的连续图片的输出时间之间的时间距离是否受到约束，该变量标识要被解码的最高时间子层，并且其中第一语法元素指定当前AU的一个或多个解码图片占据以用于显示模型的元素图片时段间隔的数量。

E2.根据解决方案E1的方法，其中，该变量标识要被解码的最高时间子层。

E3.根据解决方案E1或E2的方法，其中，该变量是Htid。

E4.根据解决方案E1的方法，其中，该标志是包括在输出层集(OLS)时序和HRD参数语法结构中的第二语法元素。

E5.根据解决方案E1的方法，其中，第一语法元素被包括在图片时序补充增强信息(SEI)消息中。

E6.根据解决方案E1至E5中任一项的方法，其中，该标志是fixed_pic_rate_within_cvs_flag，第一语法元素是

pt_display_elemental_periods_minus1，并且该变量是Htid。

以下内容适用于一种或多种前述解决方案。

O1.根据前述解决方案中任一项的方法，其中转换包括从比特流解码视频。

O2.根据前述解决方案中任一项的方法，其中转换包括将视频编码为比特流。

O3.一种将表示视频的比特流存储到计算机可读记录介质的方法，包括根据前述解决方案中任一项或多项所描述的方法从视频生成比特流；以及将比特流存储在计算机可读记录介质中。

O4.一种视频处理装置，包括处理器，该处理器被配置为实施前述解决方案中任一项或多项所述的方法。

O5.一种其上存储有指令的计算机可读介质，该指令在执行时使处理器实施前述解决方案中一项或多项所述的方法。

O6.一种计算机可读介质，存储根据前述解决方案中任一项或多项所生成的比特流。

O7.一种用于存储比特流的视频处理装置，其中该视频处理装置被配置为实施前述解决方案中任一项或多项所述的方法。

接下来提供一些实施例优选的解决方案的又一列表。

P1.一种视频处理方法，包括：执行包括一个或多个视频图片的视频与视频的编解码表示之间的转换，其中该编解码表示符合格式规则，其中格式规则准许使用随机访问跳过前置(RASL)图片中的随机访问可解码前置(RADL)子图片作为参考子图片，用于预测与RASL图片相同的完全随机访问图片相关联的RADL图片中的并置RADL图片。

P2.一种视频处理方法，包括：执行包括一个或多个视频图片的视频与视频的编解码表示之间的转换，其中该编解码表示符合格式规则，其中格式规则指定图片时序补充增强信息消息当被包括在编解码表示中时是访问单元特定的并且其中对应的随机访问跳过前置(RASL)图片必须包括RASL网络抽象层单元类型(NUT)。

P3.根据解决方案P1或P2所述的方法，其中执行转换包括解析并解码编解码表示以生成视频。

P4.根据解决方案P1或P2所述的方法，其中执行转换包括将视频编码为编解码表示。

P5.一种视频解码装置，包括处理器，所述处理器被配置为实施解决方案P1至P4中一项或多项所述的方法。

P6.一种视频编码装置，包括处理器，所述处理器被配置为实施解决方案P1至P4中一项或多项所述的方法。

P7.一种其上存储有计算机代码的计算机程序产品，该代码由处理器执行时使处理器实施解决方案P1至P4中任一项所述的方法。

在本文档中，术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如，视频压缩算法可以在从视频的像素表示转换为对应的比特流表示期间应用，反之亦然。当前视频块的比特流表示(或简单地，比特流)可以例如对应于在比特流内并置或散布在不同位置的比特，如语法所定义的。例如，宏块可以根据变换且编解码的误差残差值进行编码，并且还可以使用标头中的比特和比特流中的其他字段。

本文档中描述的所公开的和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中实施，或者在计算机软件、固件或硬件中实施，包括本档文中公开的结构及其结构等同物，或者在它们中的一个或多个的组合中实施。所公开的和其他实施例可以实施为一个或多个计算机程序产品，即编码在计算机可读介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储器设备、实现机器可读传播信号的物质的组合，或者它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光或电磁信号，其被生成来编码信息以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言，并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标志语言文档中的一个或多个脚本)，存储在专用于所讨论的程序的单个文件中，或者存储在多个协作文件中(例如，存储一个或多个模块、子程序或代码的部分的文件)。计算机程序可以被部署为在一台计算机或位于一个地点或分布在多个地点并通过通信网络互连的多台计算机上执行。

本文档中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行，这些处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机访问存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，以从该大容量存储设备接收数据或向其传送数据，或两者。然而，计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入其中。

虽然本专利文档包含许多细节，但这些细节不应被解释为对任何主题或所要求保护的内容的范围的限制，而是对特定技术的特定实施例所特有的特征的描述。在本专利文档中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反地，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。此外，尽管特征可能在上面被描述为在某些组合中起作用，并且甚至最初被如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定的顺序描述了操作，但是这不应该被理解为要求这些操作以所示的特定顺序或顺序执行，或者要求所有示出的操作都被执行，以获得期望的结果。此外，在本专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利文档中描述和示出的内容进行其他实施方式、增强和变化。

Claims

1.一种视频处理的方法，包括：

执行包括一个或多个图片的视频与所述视频的比特流之间的转换，

其中，所述比特流符合格式规则，

其中，所述格式规则指定图片时序(PT)补充增强信息(SEI)消息当被包括在所述比特流中时是访问单元(AU)特定的，并且

其中，所述一个或多个图片中是随机访问跳过前置(RASL)图片的的每个图片仅包括RASL网络抽象层单元类型(NUT)。

2.根据权利要求1所述的方法，其中，响应于相关联的AU中的每个图片是具有等于零的第一标志的RASL图片，第二标志等于零，

其中，所述第一标志指示引用图片参数集(PPS)的每个图片是否具有多于一个视频编解码层(VCL)网络抽象层(NAL)单元，并且所述多于一个VCL NAL单元中的至少两个是不同类型的，并且

其中，所述第二标志指示是否允许与时序信息相关的一个或多个语法元素存在于所述图片时序SEI消息中。

3.根据权利要求2所述的方法，其中，所述第一标志是pps_mixed_nalu_types_in_pic_flag，并且所述第二标志是pt_cpb_alt_timing_info_present_flag。

4.根据权利要求2所述的方法，其中，所述一个或多个语法元素包括以下中的至少一者：

第一语法元素，指示以90kHz时钟为单位的NAL假想参考解码器(HRD)的第j个编解码图片缓冲区(CPB)的第i个子层的替代初始CPB移除延迟增量，

第二语法元素，指示以90kHz时钟为单位的所述NAL HRD的所述第j个CPB的所述第i个子层的替代初始CPB移除偏移增量，

第三语法元素，指示对于所述NAL HRD的所述第i个子层，当与所述PT SEI消息相关联的所述AU按解码顺序直接跟在与缓冲时段(BP)SEI消息相关联的AU之后时，在与所述PTSEI消息相关联的AU和按所述解码顺序的一个或多个后续AU的标称CPB移除时间的推导中要使用的偏移量，

第四语法元素，指示对于所述NAL HRD的所述第i个子层，当与所述PT SEI消息相关联的所述AU按所述解码顺序直接跟在与所述BP SEI消息相关联的帧内随机访问点(IRAP)AU之后时，在与所述BP SEI消息相关联的IRAP AU的解码图片缓冲区(DPB)输出时间的推导中要使用的偏移量，

第五语法元素，指示以90kHz时钟为单位的VCL HRD的第j个CPB的第i个子层的替代初始CPB移除延迟增量，

第六语法元素，指示以90kHz时钟为单位的所述VCL HRD的所述第j个CPB的所述第i个子层的替代初始CPB移除偏移增量，

第七语法元素，指示对于所述VCL HRD的所述第i个子层，当与所述PT SEI消息相关联的所述AU按解码顺序直接跟在与所述BP SEI消息相关联的所述AU之后时，在与所述PT SEI消息相关联的所述AU和按所述解码顺序的所述一个或多个后续AU的所述标称CPB移除时间的所述推导中要使用的偏移量，

第八语法元素，指示对于所述VCL HRD的所述第i个子层，当与所述PT SEI消息相关联的所述AU按所述解码顺序直接跟在与所述BP SEI消息相关联的所述IRAP AU之后时，在与所述BP SEI消息相关联的所述IRAP AU的所述DPB输出时间的所述推导中要使用的偏移量。

5.根据权利要求1所述的方法，其中，响应于相关联的AU中的每个图片是包括每个均为RASL NUT的视频编解码层(VCL)网络抽象层(NAL)单元的RASL图片，标志等于零，

其中，所述标志指示与时序信息相关的一个或多个语法元素是否存在于所述图片时序SEI消息中。

6.根据权利要求5所述的方法，其中,所述标志是pt_cpb_alt_timing_info_present_flag。

7.一种视频处理方法，包括：

其中，所述比特流符合格式规则，

其中，所述格式规则准许使用随机访问跳过前置(RASL)图片中的随机访问可解码前置(RADL)子图片作为参考子图片，用于预测与所述RASL图片相同的完全随机访问(CRA)图片相关联的RADL图片中的并置RADL图片。

8.根据权利要求1至7中任一项所述的方法，其中，所述转换包括从所述比特流解码所述视频。

9.根据权利要求1至7中任一项所述的方法，其中，所述转换包括将所述视频编码为所述比特流。

10.一种将表示视频的比特流存储到计算机可读记录介质的方法，包括：

根据权利要求1至7中任一项或多项所述的方法从所述视频生成所述比特流；以及

将所述比特流存储在所述计算机可读记录介质中。

11.一种视频处理装置，包括处理器，所述处理器被配置为实施权利要求1至10中任一项或多项所述的方法。

12.一种其上存储有指令的计算机可读介质，所述指令在执行时使处理器实施权利要求1至10中任一项或多项所述的方法。

13.一种计算机可读介质，所述计算机可读介质存储根据权利要求1至10中任一项或多项所生成的所述比特流。

14.一种用于存储比特流的视频处理装置，其中所述视频处理装置被配置为实施权利要求1至10中任一项或多项所述的方法。