CN118077200A

CN118077200A - 用于视频处理的方法、装置和介质

Info

Publication number: CN118077200A
Application number: CN202280068055.9A
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2021-10-08
Filing date: 2022-09-30
Publication date: 2024-05-24
Also published as: EP4413735A1; JP2024535550A; WO2023060023A1; KR20240068711A; US20240283979A1

Abstract

本公开的各实施例提供了一种视频处理的方法。该方法包括：基于档次的通用档次指示符来执行视频的目标视频块与视频的比特流之间的转换，该档次定义针对解码比特流的能力，其中通用档次指示符的至少两个比特被组合以指示针对档次的比特深度。

Description

用于视频处理的方法、装置和介质

相关申请的交叉引用

本申请要求于2021年10月8日提交的美国临时申请号63/253,890的权益，该申请的内容在此通过引用而全部并入本文。

技术领域

本公开的各实施例总体涉及视频编解码技术，并且更具体地，涉及使用档次指示符值来指示档次。

背景技术

视频编解码标准已主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T产生了H.261和H.263，ISO/IEC产生了MPEG-1和MPEG-4Visual(视觉)，并且这两个组织联合产生了H.262/MPEG-2Video(视频)和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，在该结构中利用时间预测加变换编解码。为了探索HEVC之外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索组(JVET)。在那之后，许多新方法已被JVET采用并被纳入名为联合探索模型(JEM)的参考软件中。后来当VVC项目正式启动时，JVET被重新命名为JVET。VVC是新的编解码标准，目标是与HEVC相比比特率降低50％。

VVC标准和相关的用于经编解码视频比特流的多功能补充增强信息(VSEI)标准已被设计用于最广范围的应用，包括诸如电视广播、视频会议或从存储介质回放等之类的传统用途以及例如自适应比特率流放、视频区域提取、来自多个经编解码视频比特流的内容的组合和合并、多视图视频、可伸缩分层编解码和视口自适应360度沉浸式媒体这样的更新的和更高级的用例。VVC标准的最新修订草案包括范围扩展档次的规范以及其他方面。

发明内容

本公开的各实施例提供了一种用于视频处理的方案。

在第一方面，提出了一种用于视频处理的方法。该方法包括：基于档次的通用档次指示符来执行视频的目标视频块与视频的比特流之间的转换，档次定义针对解码比特流的能力，其中通用档次指示符的至少两个比特被组合以指示针对档次的比特深度。根据本公开的第一方面的方法有效地提高了针对指示档次的比特深度的效率。

在第二方面，提出了一种用于处理视频数据的装置。该装置包括处理器和在其上具有指令的非暂态存储器。该指令在由处理器执行时使处理器执行根据第一方面的方法。

在第三方面，提出了一种用于处理视频数据的装置。该非暂态计算机可读存储介质存储使处理器执行根据第一方面的方法的指令。

在第四方面中，提出了一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储视频的由视频处理装置执行的方法生成的比特流。该方法包括：基于档次的通用档次指示符来生成比特流，档次定义针对解码比特流的能力，其中通用档次指示符的至少两个比特被组合以指示针对档次的比特深度。

在第五方面，提出了一种用于存储视频比特流的方法。该方法包括：基于档次的通用档次指示符来生成比特流，档次定义针对解码比特流的能力，其中通用档次指示符的至少两个比特被组合以指示针对档次的比特深度；以及将比特流存储在非暂态计算机可读记录介质中。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过以下参考附图的具体实施方式，本公开的示例实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的示例实施例中，相同的附图标记通常指代相同的部件。

图1示出了示出根据本公开的一些实施例的示例视频编解码系统100的框图；

图2示出了示出根据本公开的一些实施例的第一示例视频编码器200的框图；

图3示出了示出根据本公开的一些实施例的示例视频解码器300的框图；

图4示出了根据本公开的一些实施例的用于视频处理的方法400的流程图；以及

图5示出了其中可以实现本公开的各种实施例的计算设备500的框图。

在整个附图中，相同或相似的附图标记通常指代相同或相似的元素。

具体实施方式

现在将参考一些实施例来描述本公开的原理。应当理解的是，描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的，而不暗示对本公开的范围的任何限制。除了下文所述的方式之外，本文所描述的公开内容还可以以各种方式实施。

在以下描述和权利要求中，除非另有定义，否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。

本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性，但是并非每个实施例都必须包括该特定的特征、结构或特性。此外，这些短语不一定指同一实施例。此外，当结合示例实施例描述特定的特征、结构或特性时，无论是否明确描述，认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。

应当理解的是，尽管术语“第一”和“第二”等可以用于描述各种元素，但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如，第一元素可以被称为第二元素，类似地，第二元素可以被称为第一元素，而不脱离示例实施例的范围。如本文中所使用的，术语“和/或”包括一个或多个所列术语的任何和所有组合。

本文中所使用的术语仅用于描述特定实施例的目的，并不旨在限制示例实施例。如本文中所用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确指示。还应理解，术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等，但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。

示例环境

图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的，视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备，并且目的设备120也可以称为视频解码设备。在操作中，源设备110可以被配置为生成经编码的视频数据，并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。

视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编码表示的位序列。比特流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上，以供目的设备120访问。

目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成，或者可以在目的设备120的外部，该目的设备120被配置为与外部显示设备接口连接。

视频编码器114和视频解码器124可以根据视频压缩标准操作，诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或进一步的标准。

图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图，视频编码器200可以是图1所示的系统100中的视频编码器114的示例。

视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在一些实施例中，视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编解码单元214，该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中，预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测，其中至少一个参考图片是当前视频块所位于的图片。

此外，尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成，但是为了解释的目的，这些组件在图2的示例中被分离地示出。

划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。

模式选择单元203可以例如基于误差结果来选择多种编解码模式(帧内编码或帧间编码)中的一种编解码模式，并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据，并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择针对运动矢量的分辨率(例如，亚像素精度或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本，来确定针对当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的，“I条带”可以是指由宏块构成的图片的一部分，所有宏块均基于同一图片内的宏块。此外，如本文中使用的，在一些方面中，“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以搜索列表0或列表1的参考图片，以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示列表0或列表1中的包含参考视频块的参考图片，并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

备选地，在其他示例中，运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块，并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量，该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片，并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。

在一些示例中，运动估计单元204可以输出完整的运动信息集，以用于解码器的解码处理。备选地，在一些实施例中，运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如，运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值，该值指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。

残差生成单元207可以通过从当前视频块中减去(例如，由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。

在其他示例中，例如在跳过模式中，针对当前视频块可以不存在针对当前视频块的残差数据，并且残差生成单元207可以不执行减去操作。

变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块，来生成针对当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换，以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本，以产生与当前视频块相关联的重建视频块，以供存储在缓冲213中。

在重建单元212重建视频块之后，可以执行环路滤波操作以减少视频块中的视频块效应伪像。

熵编解码单元214可以从视频编码器200的其他功能组件接收数据。当熵编解码单元214接收数据时，熵编解码单元214可以执行一个或多个熵编码操作，以生成熵编解码数据并且输出包括该熵编解码数据的比特流。

图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图，视频解码器300可以是图1所示的系统100中的视频解码器124的示例。

视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图3的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中，视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。

熵解码单元301可以取回经编码的比特流。经编码的比特流可以包括经熵编码的视频数据(例如，经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码，并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息，该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用，包括基于相邻PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和垂直运动矢量位移值、一个或两个参考图片索引，并且在B条带中的预测区域的情况下，还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的，在一些方面中，“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。

运动补偿单元302可以产生运动补偿块，可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。

运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器，并且运动补偿单元302可以使用插值滤波器来产生预测块。

运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的，在一些方面，“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片，或者也可以是图片的区域。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式，以从空间相邻块形成预测块。反量化单元304反量化(即，去量化)在比特流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。

重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话，还可以应用去块效应滤波器以对经解码的块进行滤波，以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中，缓冲307为后续运动补偿/帧内预测提供参考块，并且缓冲307还产生经解码的视频以供在显示设备上呈现。

下文将详细描述本公开的一些示例实施例。应当注意，在本文件中使用章节标题是为了便于理解，而不是将章节中公开的实施例仅限于该章节。此外，尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例，但是所公开的技术也适用于其他视频编解码技术。此外，尽管一些实施例详细描述了视频编码步骤，但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外，术语视频处理包括视频编解码或压缩、视频解码或解压缩以及视频转码，在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。

1.概要

本公开涉及图像/视频编解码技术。具体地，它与使用档次指示符值来指示档次有关。这些想法可以单独或以各种组合应用以用于由任何编解码器(例如，多功能视频编解码(VVC)标准)编解码的视频比特流。

2.缩写

APS 自适应参数集

AU 接入单元

CLVS 经编解码的层视频序列

CLVSS 经编解码的层视频序列开始

CRC 循环冗余校验

CTI 颜色转换信息

CVS 经编解码的视频序列

FIR 有限脉冲响应

IRAP 帧内随机接入点

NAL 网络抽象层

PPS 图片参数集

PU 图片单元

RASL 随机接入跳过领先

SAR 样本纵横比

SARI 样本纵横比信息

SEI 补充增强信息

VCL 视频编解码层

VSEI 多功能补充增强信息(Rec.ITU-T H.274|ISO/IEC 23002-7)

VUI 视频可用性信息

VVC 多功能视频编解码(Rec.ITU-T H.266|ISO/IEC 23090-3)

3.背景

3.1.视频编解码标准

视频编解码标准已主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T产生了H.261和H.263，ISO/IEC产生了MPEG-1和MPEG-4Visual(视觉)，并且这两个组织联合产生了H.262/MPEG-2Video(视频)和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，在该结构中利用时间预测加变换编解码。为了探索HEVC之外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索组(JVET)。在那之后，许多新方法已被JVET采用并被纳入名为联合探索模型的参考软件中。后来当多功能视频编解码(VVC)项目正式启动时，JVET被重新命名为联合视频专家组(JVET)。VVC是新的编解码标准，目标是与HEVC相比比特率降低50％，该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。

多功能视频编解码(VVC)标准(ITU-T H.266|ISO/IEC 23090-3)和相关的用于经编解码视频比特流的多功能补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)已被设计用于最广范围的应用，包括诸如电视广播、视频会议或从存储介质回放等之类的传统用途以及例如自适应比特率流放、视频区域提取、来自多个经编解码视频比特流的内容的组合和合并、多视图视频、可伸缩分层编解码和视口自适应360度沉浸式媒体等之类的更新的和更高级的用例。

基本视频编解码(EVC)标准(ISO/IEC 23094-1)是MPEG最近已开发的另一个视频编解码标准。

VVC标准的最新修订草案可在JVET-W2005中获得。此次修订包括范围扩展档次的规范以及其他方面。

3.2.VVC范围扩展档次

下面提供了在JVET-W2005中指定VVC范围扩展档次的草案文本。

A3.5格式范围扩展档次

在本子条款中指定了以下档次，统称为格式范围扩展档次：

-Main 12、Main 12 4:4:4和Main 16 4:4:4档次

-Main 12帧内、Main 12 4:4:4帧内和Main 16 4:4:4帧内档次

-Main 12静态图片、Main 12 4:4:4静态图片和Main 16 4:4:4静态图片档次

符合格式范围扩展档次的比特流应遵守以下约束：

-所引用的SPS应具有等于0的ptl_multilayer_enabled_flag。

-在符合Main 12静态图片、Main 12 4:4:4静态图片和Main 16 4:4:4静态图片档次的比特流中，比特流应仅包含一个图片。

-在符合Main 12、Main 12 4:4:4、Main 16 4:4:4、Main 12帧内、Main 12 4:4:4帧内或Main 16 4:4:4帧内档次的比特流中，用于活动的SPS中i的所有值的general_level_idc不应等于255(其指示级别15.5)。

-在子条款A.4中针对Main 12、Main 12 4:4:4、Main 16 4:4:4、Main 12帧内、Main 12 4:4:4帧内或Main 16 4:4:4帧内档次指定的层和级别约束当适用时应被满足。

表A.1–针对格式范围扩展档次中的语法元素的允许值

比特流与Main 12档次的一致性由general_profile_idc等于2指示。

比特流与Main 12帧内档次的一致性由general_profile_idc等于10指示。

比特流与Main 12静态图片档次的一致性由general_profile_idc等于66指示。

比特流与Main 12 4:4:4档次的一致性由general_profile_idc等于34指示。

比特流与Main 12 4:4:4帧内档次的一致性由general_profile_idc等于42指示。

比特流与Main 12 4:4:4静态图片档次的一致性由general_profile_idc等于98指示。

比特流与Main 16 4:4:4档次的一致性由general_profile_idc等于36指示。

比特流与Main 16 4:4:4帧内档次的一致性由general_profile_idc等于44指示。

比特流与Main 16 4:4:4静态图片档次的一致性由general_profile_idc等于100指示。

general_profile_idc等于2、10、66、34、42、98、36、44或100与表A.1中的语法元素的所有其他组合被保留以供ITU-T|ISO/IEC将来使用。此类组合不应出现在符合本文件的比特流中。然而，符合格式范围扩展档次的解码器应允许以下在本子条款中指定的其他组合在比特流中出现。

表A.2–针对与格式范围扩展档次一致性的比特流指示

符合(由general_tier_flag的特定值标识的)特定层的(由general_level_idc的特定值标识的)特定级别的格式范围扩展档次的解码器应能够解码所有下列条件适用的所有比特流和子层表示：

-以下任一条件适用：

-解码器符合Main 12 4:4:4或Main 16 4:4:4档次，并且比特流或子层表示被指示为符合Main 10档次或Main 10静态图片档次。

-解码器符合Main 12 4:4:4帧内、Main 16 4:4:4帧内、Main12静态图片、Main 124:4:4静态图片或Main 16 4:4:4静态图片档次，并且比特流或子层表示被指示为符合Main10静态图片档次。

-对于比特流，general_profile_idc等于2、10、66、34、42、98、36、44或100，并且表A.1中列出的每个约束标志的值大于或等于在表A.1的行中指定的针对解码器一致性被评估的格式范围扩展档次的值。

-比特流或子层表示被指示为符合低于或等于指定层的层。

-比特流或子层表示被指示为符合不是级别15.5并且低于或等于指定级别的级别。

4.问题

针对指定的VVC档次的指示的当前设计遵循以下一组规则：

1)对于任何10-比特档次，7比特general_profile_idc的比特0(即最低有效位，LSB)等于1。

2)对于任何12-比特档次，general_profile_idc的比特1等于1。

3)对于任何16-比特档次，general_profile_idc的比特2等于1。

4)对于任何帧内档次，general_profile_idc的比特3等于1。

5)对于任何多层档次，general_profile_idc的比特4等于1。

6)对于任何4:4:4档次，general_profile_idc的比特5等于1。

7)对于任何静态图片档次，general_profile_idc的比特6等于1。从上面的项1)到项3)可以看出，当前的设计使用general_profile_idc的三个LSB来分别指示最大允许比特深度，每个比特指示一个最大允许比特深度值，因此效率是使用具有指定3个不同的最大允许比特深度值的能力的3个比特。然而，使用仅2个LSB的组合来指示4个不同的最大允许比特深度值会更有效率(例如，如果指定的话，两个LSB的值00可以用于8-比特档次)，并且同时，比特2将来可以用于任何其他目的，从而允许具有相同规则的更多未来的general_profile_idc值。

5.详细解决方案

为了解决上述问题，公开了如下总结的方法。本公开的各实施例应被视为解释一般概念的示例，而不应以狭义的方式解释。此外，这些实施例可以单独应用或以任何方式组合应用。

1)使用7-比特general_profile_idc的两个最低有效位(LSB)来指示针对档次的最大允许比特深度。

a.在一个示例中，general_profile_idc的两个LSB的值00指示该档次是8-比特档次。

b.在一个示例中，general_profile_idc的两个LSB的值01指示该档次是10-比特档次。

c.在一个示例中，general_profile_idc的两个LSB的值10指示该档次是12-比特档次。

d.在一个示例中，general_profile_idc的两个LSB的值11指示该档次是16-比特档次。

e.在一个示例中，比特流与Main164:4:4档次的一致性由general_profile_idc等于35指示。

f.在一个示例中，比特流与Main164:4:4帧内档次的一致性由general_profile_idc等于43指示。

g.在一个示例中，比特流与Main164:4:4静态图片档次的一致性由general_profile_idc等于99指示。

6.实施例

下面是详细解决方案的所有方面(包括其子项，如上文第5节中总结的那样)的一些示例实施例。

6.1.实施例1

本实施例可以应用于VVC。

A3.5格式范围扩展档次

本子条款中指定了以下档次，统称为格式范围扩展档次：

-Main 12、Main 12 4:4:4和Main 16 4:4:4档次

-Main 12帧内、Main 12 4:4:4帧内和Main 16 4:4:4帧内档次

符合格式范围扩展档次的比特流应遵守以下约束：

-所引用的SPS应具有等于0的ptl_multilayer_enabled_flag。

-在符合Main 12静态图片、Main 12 4:4:4静态图片或Main 16 4:4:4静态图片档次的比特流中，比特流应仅包含一个图片。

-在符合Main 12帧内、Main 12 4:4:4帧内或Main 16 4:4:4帧内档次的比特流中，对于所有图片，ph_inter_slice_allowed_flag的值应等于0。

-在符合Main 12、Main 12 4:4:4、Main 16 4:4:4、Main 12帧内、Main 12 4:4:4帧内或Main 16 4:4:4帧内档次的比特流中，引用的SPS中的general_level_idc不应等于255(指示级别15.5)。

-应遵循表A.1中指定的语法元素的允许值。

表A.1–针对格式范围扩展档次中的语法元素的允许值

比特流与Main 12档次的一致性由general_profile_idc等于2表示。

比特流与Main 16 4:4:4档次的一致性由general_profile_idc等于35指示。

比特流与Main 16 4:4:4帧内档次的一致性由general_profile_idc等于43指示。

比特流与Main 16 4:4:4静态图片档次的一致性由general_profile_idc等于99 指示。

符合(由general_tier_flag的特定值标识的)特定层的(由general_level_idc的特定值标识的)特定级别的格式范围扩展档次的解码器应能够解码以下所有条件适用的所有比特流和子层表示：

-以下任一条件适用：

-解码器符合Main 12档次，并且比特流被指示为符合Main 10、Main 10静态图片、Main 12、Main 12帧内或Main 12静态图片档次。

-解码器符合Main 12 4:4:4档次，并且比特流被指示为符合Main 10、Main 10静态图片、Main 10 4:4:4、Main 10 4:4:4静态图片、Main 12、Main 12帧内、Main 12静态图片、Main 12 4:4:4、Main 12 4:4:4帧内或Main 12 4:4:4静态图片档次。

-解码器符合Main 16 4:4:4档次，并且比特流被指示为符合Main 10、Main 10静态图片、Main 10 4:4:4、Main 10 4:4:4静态图片，或任何格式范围扩展档次。

-解码器符合Main 12帧内档次，并且比特流被指示为符合Main 10静态图片、Main12帧内或Main 12静态图片档次。

-解码器符合Main 12 4:4:4帧内档次，并且比特流被指示为符合Main 10静态图片、Main 10 4:4:4静态图片、Main 12帧内、Main 12 4:4:4帧内、Main 12静态图片或Main12 4:4:4静态图片档次。

-解码器符合Main 16 4:4:4帧内档次，并且比特流被指示为符合Main 10静态图片、Main 10 4:4:4静态图片、Main 12帧内、Main 12 4:4:4帧内、Main 16 4:4:4帧内、Main12静态图片、Main 12 4:4:4静态图片或Main 16 4:4:4静态图片档次。

-解码器符合Main 12静态图片档次，并且比特流被指示为符合Main 10静态图片或Main 12静态图片档次。

-解码器符合Main 12 4:4:4静态图片档次，并且比特流被指示为符合Main 10静态图片、Main 10 4:4:4静态图片、Main 12静态图片或Main 12 4:4:4静态图片档次。

-解码器符合Main 16 4:4:4静态图片档次，并且比特流被指示为符合Main 10静态图片、Main 10 4:4:4静态图片、Main 12静态图片、Main 12 4:4:4静态图片，或Main 164:4:4静态图片档次。

-比特流被指示为符合低于或等于指定层的层。

-比特流被指示为符合不是级别15.5且低于或等于指定级别的级别。

-当以下两个条件都适用时，符合特定层的特定级别的Main 12静态图片档次的解码器也应能够解码比特流的第一图片：

-该比特流被指示为符合Main 10、Main 12或Main 12帧内档次，符合低于或等于指定层的层，并且符合不是级别15.5且低于或等于指定级别的级别。

-该图片是IRAP图片或者是ph_recovery_poc_cnt等于0的GDR图片，位于输出层中，并且具有等于1的ph_pic_output_flag。

-当以下两个条件都适用时，符合特定层的特定级别的Main 124:4:4静态图片档次的解码器还应能够解码比特流的第一图片：

-该比特流被指示为符合Main 10、Main 10 4:4:4、Main 12、Main 12帧内、Main12 4:4:4或Main 12 4:4:4帧内档次，符合低于或等于指定层的层，并且符合不是级别15.5且低于或等于指定级别的级别。

-当以下两个条件都适用时，符合特定层的特定级别的Main 164:4:4静态图片档次的解码器还应能够解码比特流的第一图片：

-该比特流被指示为符合Main 10、Main 10 4:4:4、Main 12、Main 12帧内、Main12 4:4:4、Main 12 4:4:4帧内、Main 16 4:4:4或Main 16 4:4:4帧内档次，符合低于或等于指定层的层，并且符合不是级别15.5且低于或等于指定级别的级别。

本公开的各实施例涉及使用档次指示符值来指示档次。对于由任何编解码器(例如，VVC标准)编解码的视频比特流，该实施例可以单独或以各种组合应用。

如本文所使用的，术语“块”可以表示条带、图块、砖块、子图片、编解码树单元(CTU)、编解码树块(CTB)、CTU行、CTB行、一个或多个编解码单元(CU)、一个或多个编解码块(CB)、一个或多个CTU、一个或多个CTB、一个或多个虚拟管道数据单元(VPDU)、图片/条带/图块/砖块内的子区域、推理块和/或类似物。在一些实施例中，块可以包括视频中的一个或多个样本或者一个或多个像素。

如上所述，针对指定的VVC档次的指示的当前设计遵循规则集。例如，对于任何10-比特档次，7比特general_profile_idc的比特0(即最低有效位LSB)等于1；对于任何12-比特档次，general_profile_idc的比特1等于1；并且对于任何16-比特档次，general_profile_idc的比特2等于1。可以看出，当前设计使用general_profile_idc的三个LSB来分别指示最大允许比特深度，每一比特指示一个最大允许比特深度值。也就是说，3个比特被单独地使用，但仅仅实现了指定3个不同的最大允许比特深度值的能力，效率较低。

为了解决这些问题和其他潜在问题的至少一部分，本公开的实施例提出了使用档次指示符值来指示档次的解决方案。具体地，提出使用两个或更多个比特的组合来指示多个不同的最大允许比特深度值。例如，使用仅2个LSB的组合来指示4个不同的最大允许比特深度值会更有效率，同时比特2可以在将来用于任何其他目的，从而允许具有相同规则的更多的未来的general_profile_idc值。

应当理解，这些实施例是用于解释一般概念的示例，并且不应被狭隘地解释。还应当理解，这些实施例可以单独应用或以任何方式组合应用。

图4示出了根据本公开的一些实施例的用于视频处理的方法400的流程图。如图4所示，在402处，基于档次的通用档次指示符来执行视频的目标视频块与视频的比特流之间的转换，该档次定义针对解码比特流的能力。通用档次指示符可以包括多个比特。根据本公开的实施例，通用档次指示符的至少两个比特被组合以指示针对档次的比特深度。

这样，可以通过使用通用档次指示符的两个或更多个比特的组合而不是单个比特来指示档次的比特深度，例如最大允许比特深度。这样，可以有效地提高指示档次的效率。

档次指定了对比特流的限制，从而限定了解码比特流所需的能力。档次还用于指示各个解码器实现方式的能力以及编码器和解码器之间的互操作性点。每个档次指定符合该档次的所有解码器应支持的算法功能和限制的子集。档次可以通过语法元素general_profile_idc来指示。它可以具有预定数目的比特。

根据本公开的实施例，可以使用两个或更多个比特(例如LSB)来指示不同的档次。在一些实施例中，档次可以是Main 164:4:4档次，并且比特流与Main 16 4:4:4档次的一致性可以由通用档次指示符等于35来指示。

备选地或附加地，在一些实施例中，档次可以是Main 164:4:4帧内档次，并且比特流与Main 16 4:4:4帧内档次的一致性可以由通用档次指示符等于43来指示。

备选地或附加地，在一些实施例中，档次可以是Main 164:4:4静态图片档次，并且比特流与Main 16 4:4:4静态图片档次的一致性可以由通用档次指示符等于99来指示。

应当理解，以上由通用档次指示符指示的值和/或档次的示例是为了例示而讨论的，而不暗示对本公开的任何限制。还应当理解，其他合适的档次或值也可以适用于本公开的实施例。

在一些实施例中，通用档次指示符的两个比特(例如两个LSB)可以被组合以指示针对该档次的最大允许比特深度。在这种情况下，例如，通用档次指示符的两个LSB的值可以是“00”，这可以指示该档次是8-比特档次。备选地，在一些实施例中，通用档次指示符的两个LSB的值可以是“01”，并且这可以指示该档次是10-比特档次。在又一些备选实施例中，通用档次指示符的两个LSB的值可以是“10”以指示该档次可以是12-比特档次。此外，通用档次指示符的两个LSB的值可以是“11”并且指示该档次可以是16-比特档次。

应当理解，通用档次指示符的两个LSB的值的以上示例是为了例示而讨论的，而不暗示对本公开的任何限制。还应当理解，两个或更多个LSB的其他合适的组合或值可以适用于本公开的实施例。

在一些实施例中，转换可以包括将目标视频块编码到比特流中。当然，转换可以包括从比特流中解码目标视频块。换句话说，方法400可以在比特流的编码器和解码器二者处执行。

根据本公开的进一步实施例，视频的比特流可以存储在非暂态计算机可读记录介质中。比特流由视频处理装置基于档次的通用档次指示符执行的方法来生成，该档次定义针对解码比特流的能力。通用档次指示符的至少两个比特被组合以指示该档次的比特深度。

在一些实施例中，提出了一种用于存储视频的比特流的方法。比特流是基于档次的通用档次指示符来生成的，该档次定义针对解码所述比特流的能力，通用档次指示符的至少两个比特被组合以指示针对档次的比特深度。然后，所生成的比特流被存储在非暂态计算机可读记录介质中。

本公开的各实现方式可以参照以下条款进行描述，其特征可以以任何合理的方式组合。

条款1.一种用于视频处理的方法，所述方法包括：基于档次的通用档次指示符来执行视频的目标视频块与所述视频的比特流之间的转换，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度。

条款2.根据条款1所述的方法，其中所述通用档次指示符被表示为语法元素general_profile_idc并且具有预定数目的比特。

条款3.根据条款1或2所述的方法，其中所述档次是Main16 4:4:4档次，并且所述比特流与所述Main 16 4:4:4档次的一致性由所述通用档次指示符等于35指示。

条款4.根据条款1-3中任一项所述的方法，其中所述档次是Main 16 4:4:4帧内档次，并且所述比特流与所述Main 16 4:4:4帧内档次的一致性由所述通用档次指示符等于43指示。

条款5.根据条款1-4中任一项所述的方法，其中所述档次是Main 16 4:4:4静态图片档次，并且所述比特流与所述Main 16 4:4:4静态图片档次的一致性由所述通用档次指示符等于99指示。

条款6.根据条款1-5中任一项所述的方法，其中所述通用档次指示符的两个最低有效位LSB被组合以指示所述档次的最大允许比特深度。

条款7.根据条款6所述的方法，其中所述通用档次指示符的所述两个LSB的值为“00”并且指示所述档次是8-比特档次。

条款8.根据条款6或7所述的方法，其中所述通用档次指示符的所述两个LSB的值为“01”并且指示所述档次是10-比特档次。

条款9.根据条款6-8中任一项所述的方法，其中所述通用档次指示符的所述两个LSB的值为“10”并且指示所述档次是12-比特档次。

条款10.根据条款6-9中任一项所述的方法，其中所述通用档次指示符的所述两个LSB的值为“11”并且指示所述档次是16-比特档次。

条款11.根据条款1-10中任一项所述的方法，其中所述转换包括将所述目标视频块编码到所述比特流中。

条款12.根据条款1-10中任一项所述的方法，其中所述转换包括从所述比特流解码所述目标视频块。

条款13.一种用于处理视频数据的装置，所述装置包括处理器和其上具有指令的非暂态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据条款1-12中任一项所述的方法。

条款14.一种非暂态计算机可读存储介质，存储使处理器执行根据条款1-12中任一项所述的方法的指令。

条款15.一种非暂态计算机可读记录介质，所述非暂态计算机可读记录介质存储视频的由视频处理装置执行的方法所生成的比特流，其中所述方法包括：基于档次的通用档次指示符来生成所述比特流，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度。

条款16.一种用于存储视频的比特流的方法，所述方法包括：基于档次的通用档次指示符来生成所述比特流，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度；以及将所述比特流存储在非暂态计算机可读记录介质中。

示例设备

图5示出了可以在其中实现本公开的各种实施例的计算设备500的框图。计算设备500可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)，或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。

应当理解的是，图5中示出的计算设备500仅为了说明的目的，而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。

如图5所示，计算设备500包括通用计算设备500。计算设备500可以至少包括一个或多个处理器或处理单元510、存储器520、存储单元530、一个或多个通信单元540、一个或多个输入设备550以及一个或多个输出设备560。

在一些实施例中，计算设备500可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端，包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合，并且包括这些设备的附件和外围设备或其任何组合。可以设想的是，计算设备500可以支持到用户的任何类型的接口(诸如"可穿戴"电路装置等)。

处理单元510可以是物理处理器或虚拟处理器，并且可以基于存储在存储器520中的程序实现各种处理。在多处理器系统中，多个处理单元并行地执行计算机可执行指令，以便改善计算设备500的并行处理能力。处理单元510也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。

计算设备500通常包括各种计算机存储介质。这样的介质可以是由计算设备500可访问的任何介质，包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器520可以是易失性存储器(例如，寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元530可以是任何可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备500中被访问的介质。

计算设备500还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图5中未示出，但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器，以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下，每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。

通信单元540经由通信介质与另一计算设备通信。另外，计算设备500中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此，计算设备500可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。

输入设备550可以是各种输入设备中的一种或多种输入设备，诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备560可以是各种输出设备中的一种或多种输出设备，诸如显示器、扬声器、打印机等。借助于通信单元540，计算设备500还可以与一个或多个外部设备(未示出)通信，外部设备诸如是存储设备和显示设备，计算设备500还可以与一个或多个使用户能够与计算设备500交互的设备通信，或任何使计算设备500能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信，如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。

在一些实施例中，计算设备500的一些或所有组件也可以被布置在云计算架构中，而不是被集成在单个设备中。在云计算架构中，组件可以被远程提供并且共同工作，以实现本公开中描述的功能。在一些实施例中，云计算提供计算、软件、数据访问和存储服务，这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中，云计算使用合适的协议经由广域网(例如互联网)提供服务。例如，云计算提供商通过广域网提供应用程序，可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务，尽管它们表现为作为用户的单一接入点。因此，云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地，它们可以由常规服务器提供，或者直接或以其他方式安装在客户端设备上。

在本公开的实施例中，计算设备500可以被用于实现视频编码/解码。存储器520可以包括具有一个或多个程序指令的一个或多个视频编解码模块525。这些模块能够由处理单元510访问和执行，以执行本文描述的各种实施例的功能。

在执行视频编码的示例实施例中，输入设备550可以接收视频数据作为待编码的输入570。视频数据可以由例如视频编解码模块525处理，以生成经编码的比特流。经编码的比特流可以经由输出设备560作为输出580被提供。

在执行视频解码的示例实施例中，输入设备550可以接收经编码的比特流作为输入570。经编码的比特流可以由例如视频编解码模块525处理，以生成经解码的视频数据。经解码的视频数据可以经由输出设备560作为输出580被提供。

虽然已经参考本公开的优选实施例具体示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求限定的本申请的精神和范围的情况下，可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此，本申请的实施例的前述描述不旨在是限制性的。

Claims

1.一种用于视频处理的方法，所述方法包括：

基于档次的通用档次指示符来执行视频的目标视频块与所述视频的比特流之间的转换，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度。

2.根据权利要求1所述的方法，其中所述通用档次指示符被表示为语法元素general_profile_idc并且具有预定数目的比特。

3.根据权利要求1或2所述的方法，其中所述档次是Main 16 4:4:4档次，并且所述比特流与所述Main 16 4:4:4档次的一致性由所述通用档次指示符等于35指示。

4.根据权利要求1-3中任一项所述的方法，其中所述档次是Main16 4:4:4帧内档次，并且所述比特流与所述Main 16 4:4:4帧内档次的一致性由所述通用档次指示符等于43指示。

5.根据权利要求1-4中任一项所述的方法，其中所述档次是Main16 4:4:4静态图片档次，并且所述比特流与所述Main 16 4:4:4静态图片档次的一致性由所述通用档次指示符等于99指示。

6.根据权利要求1-5中任一项所述的方法，其中所述通用档次指示符的两个最低有效位LSB被组合以指示所述档次的最大允许比特深度。

7.根据权利要求6所述的方法，其中所述通用档次指示符的所述两个LSB的值为“00”并且指示所述档次是8-比特档次。

8.根据权利要求6或7所述的方法，其中所述通用档次指示符的所述两个LSB的值为“01”并且指示所述档次是10-比特档次。

9.根据权利要求6-8中任一项所述的方法，其中所述通用档次指示符的所述两个LSB的值为“10”并且指示所述档次是12-比特档次。

10.根据权利要求6-9中任一项所述的方法，其中所述通用档次指示符的所述两个LSB的值为“11”并且指示所述档次是16-比特档次。

11.根据权利要求1-10中任一项所述的方法，其中所述转换包括将所述目标视频块编码到所述比特流中。

12.根据权利要求1-10中任一项所述的方法，其中所述转换包括从所述比特流解码所述目标视频块。

13.一种用于处理视频数据的装置，所述装置包括处理器和其上具有指令的非暂态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的方法。

14.一种非暂态计算机可读存储介质，存储使处理器执行根据权利要求1-12中任一项所述的方法的指令。

15.一种非暂态计算机可读记录介质，所述非暂态计算机可读记录介质存储视频的由视频处理装置执行的方法所生成的比特流，其中所述方法包括：

基于档次的通用档次指示符来生成所述比特流，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度。

16.一种用于存储视频的比特流的方法，所述方法包括：

基于档次的通用档次指示符来生成所述比特流，所述档次定义针对解码所述比特流的能力，其中所述通用档次指示符的至少两个比特被组合以指示针对所述档次的比特深度；以及

将所述比特流存储在非暂态计算机可读记录介质中。