CN114402547A

CN114402547A - 一种标识子块变换信息的方法和装置

Info

Publication number: CN114402547A
Application number: CN202080064235.0A
Authority: CN
Inventors: 穆罕默德·G·萨维尔; 罗健聪; 叶琰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-09-13
Filing date: 2020-07-24
Publication date: 2022-04-26
Also published as: US20210084321A1; US20230156211A1; EP4029239A4; KR20220057628A; EP4029239A1; JP2022548203A; US11589067B2; WO2021050166A1

Abstract

本发明提供了用于标识子块变换(SBT)信息的装置和方法。所述SBT信息用于编码视频数据。根据某些公开的实施例，示例性方法包括：在视频序列的序列参数集(SPS)中，标识第一标志位，以指示是否启用子块变换(SBT)；并标识第二标志位，以指示允许SBT的最大转换块(TB)尺寸。响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元(CU)尺寸直接根据所述最大TB尺寸确定。

Description

一种标识子块变换信息的方法和装置

对相关申请的交叉引用

本公开要求2019年9月13日提交的第62/900,395号美国临时申请的优先权，该申请在本文件中被完整引用。

背景技术

视频是一组捕捉视觉信息的静态图片(或“图像”)。为了减少存储内存和传输带宽，可以将视频压缩后再存储或传输，解压后再显示。压缩过程通常被称为编码，解压过程通常被称为解码。目前有多种采用标准化视频编码技术的视频编码格式，最常见的是基于预测、变换、量化、熵编码和环内滤波的视频编码格式。所述视频编码标准，如HEVC/H.265(High Efficiency video coding)标准、VVC/H.266(Versatile video coding)标准、AVS(AVS standards)标准，由标准化组织制定具体的视频编码格式。随着所述视频标准中越来越多先进的视频编码技术的应用，新的视频编码标准的编码效率也越来越高。

发明内容

本发明的实施例提供了一种用于视频处理的方法和装置。在一个示例性实施例中，视频处理方法包括：在视频序列的序列参数集(SPS)中，标识第一标志位，以指示是否启用子块变换(SBT)；以及，标识第二标志位，以指示允许所述SBT的最大转换块(TB)尺寸。响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元CU尺寸直接根据所述最大转换块TB尺寸确定。

在另一个示例性实施例中，一种视频处理装置包括：用于存储指令集的至少一个存储器和至少一个处理器。所述至少一个处理器执行所述指令集以使该设备执行：在视频序列的序列参数集(SPS)中，标识第一标志位，以指示是否启用子块变换(SBT)；以及，标识第二标志位，以指示允许所述SBT的最大转换块(TB)尺寸。响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元CU尺寸直接根据所述最大转换块TB尺寸确定。

在另一个示例性实施例中，一种非易失性计算机可读存储介质存储一组指令集。该指令集可由至少一个处理器执行，以使计算机执行视频处理方法。该方法包括：在视频序列的序列参数集(SPS)中，标识第一标志位，以指示是否启用子块变换(SBT)；以及，标识第二标志位，以指示允许所述SBT的最大转换块(TB)尺寸。响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元CU尺寸直接根据所述最大转换块TB尺寸确定。

附图说明

本公开的实施例和各方面在后续具体实施方法和所附附图中加以说明。图中所示的各种特征并未按比例绘制。

图1根据本公开的一些实施例，示出示例性视频序列的结构的示意图。

图2根据本公开的一些实施例，示出某个混合视频编码系统中的示例性编码器的原理图。

图3根据本公开的一些实施例，示出某个混合视频编码系统中的示例性解码器的原理图。

图4根据本公开的一些实施例，示出用于编码或解码视频的示例性装置的框图。

图5根据本发明的一些实施例，示出间预测编码单元(CU)的示例性子块变换(SBT)类型和SBT位置。

图6以及图6-1根据本公开的一些实施例，示出示例性表1，展示SPS语法表的一部分。

图7根据本公开的一些实施例，示出一种示例性视频处理方法的流程图。

图8以及图8-1根据本公开的一些实施例，示出示例性表2，展示SPS语法表的一部分。

图9根据本公开的一些实施例，示出示例性表3，展示CU语法表的一部分。

图10根据本公开的一些实施例，示出另一示例性视频处理方法的流程图。

具体实施方式

现在将详细说明优选实施例，所述例子在附图中提供图示说明。除另有说明外，下列描述参照所述附图，其中，不同图中的相同数字表示相同或相似元素。下列示例性实施例描述中所述的实现方式并不代表与本发明一致的所有实现方式。相反，它们仅仅是与所附权利要求书中所述的与本发明有关的方面相一致的装置和方法的例子。本披露的具体方面将在下文更详细地说明。如果与参考引用中包含的术语和/或定义冲突，则以本文提供的术语和定义为准。

lTU-T视频编码专家组(ITU-T VCEG)的联合视频专家组(JVET)和ISO/IEC运动图像专家组(ISO/IEC MPEG)目前正在开发通用视频编码(VVC/H.266)标准。所述VVC标准的目标是将压缩效率比其前身——高效视频编码(HEVC/H.265)标准提高一倍。换句话说，VVC的目标是达到和HEVC/H.265相同的主观质量，并使用一半的带宽。

为了在使用一半带宽的情况下，达到与HEVC/H.265相同的主观质量，JVET一直在利用联合探索模型(JEM)参考软件开发HEVC之外的技术。由于编码技术被纳入到JEM中，JEM的编码性能大大高于HEVC。

VVC标准是最近才发展起来的，并且继续包含更多的编码技术，这些技术提供了更好的压缩性能。VVC是基于已用于HEVC、H.264/AVC、MPEG2、H.263等现代视频压缩标准的相同的混合视频编码系统。

视频是一组按时间顺序排列的静态图片(或“帧”)，用来存储视觉信息。视频采集设备(如相机)可以在一个时间序列中被用来捕获和储存这些图片，视频播放设备(如电视、电脑，智能手机，平板电脑，视频播放器，或任何终端用户终端与显示的函数)可以被用来在所述时间序列中显示这样的照片。同样的，在一些应用领域中，视频采集设备可以实时地将采集的视频传输到视频播放设备(例如，带监视器的计算机)，例如用于监视、会议或直播。

为了减少此类应用所需的存储空间和传输带宽，可以将视频在存储和传输前压缩，在显示前解压缩。压缩和解压缩可以由处理器(例如，通用计算机的处理器)执行的软件或专用硬件来实现。用于压缩的模块通常被称为“编码器”，用于解压的模块通常被称为“解码器”。编码器和解码器可以统称为“编解码器”。编码器和解码器可以以各种合适的硬件、软件或它们的组合等任何一种形式实现。例如，编码器和解码器的硬件实现可以包括电路，例如一个或多个微处理器、数字信号处理器(DSPs)、特定应用集成电路(ASICs)、现场可编程门阵列(FPGAs)、离散逻辑或以上的任何组合。编码器和解码器的软件实现可以包括程序代码、计算机可执行指令、固件或固定在计算机可读介质中的任何合适计算机实现的算法或过程。视频压缩解压缩可以采用多种算法或标准实现，如MPEG-1、MPEG-2、MPEG-4、H.26x系列等。在某些应用中，编解码器可以从第一编码标准解压缩视频，然后使用第二编码标准重新压缩解压缩后的视频，在这种情况下，编解码器可以称为“转码器”。

视频编码过程可以识别和保留可用于重建图像的有用信息，并忽略对所述重建不重要的信息。如果被忽略的、不重要的信息不能被完全重构，这样的编码过程可以称为“有损的”。否则，它可以被称为“无损的”。大多数编码过程都是有损的，作为减少所需存储空间和传输带宽的一种折衷。

某个被编码的图像(称为“当前帧”)的有用信息包括相对于参考帧((例如，之前编码和重建的帧)的变化。这些变化可以包括像素的位置变化、光度变化或颜色变化，其中最受关注的是所述位置变化。代表一个对象的一组像素的位置变化可以反映出该对象在所述参考帧和所述当前帧之间的运动。

一个没有引用另一个帧的编码帧(即，它是它自己的参考帧)被称为“I-帧”。用先前帧作为参考帧的编码帧称为“P-帧”。既使用某个先前帧也使用某个未来帧作为参考帧的编码帧(即，所述参考是“双向的”)被称为“B-帧”。

图1根据本公开的一些实施例，示出示例性视频序列100的结构。视频序列100可以是实时视频，也可以是已经采集并存档的视频。视频100可以是真实生活中的视频，电脑生成的视频(如电脑游戏视频)，或两者的组合(如带有增强现实效果的真实生活视频)。视频序列100可以从视频采集设备(如摄像机)、包含先前采集的视频的视频存档(如存储在存储设备中的视频文件)输入，或从视频馈送接口(如视频广播收发器)输入，以从视频内容提供商接收视频。

如图1所示，视频序列100可以包括一系列沿时间轴排列的帧，包括帧102、104、106、108。帧102-106是连续的，在帧106和帧108之间有很多帧。在图1中，帧102是一幅I-帧，它的参考帧是帧102本身。帧104为P-帧，其参考帧为帧102，如箭头所示。帧106为B-帧，参考帧为帧104和帧108，如图中箭头所示。在某些实施例中，帧(例如，帧104)的参考帧并非直接在帧的前面或后面。例如，帧104的参考帧可以是在帧102之前的帧。应当注意的是，帧102-106的参考帧仅为示例，本公开不限于如图1作为例子示出的所述参考帧的实施例。

通常，基于此类任务的计算复杂性，视频编解码器不会一次对整个帧进行编码或解码。相反，它们可以将帧分割成基本段，并对帧一段一段地进行编码或解码。这种基本段在本披露中被称为基本处理单元(“BPUs”)。例如，图1中的结构110显示了视频序列100的某个帧的示例结构(例如，帧102-108中的任何帧)。在结构110中，一帧被划分为4×4基本处理单元，其边界以短划线表示。在一些实施例中，基本处理单元在一些视频编码标准(例如，MPEG系列，H.261，H.263，或H.264/AVC)中被称为“宏块”，或在一些其他视频编码标准(例如，H.265/HEVC或H.266/VVC)中被称为“编码树单元”(“CTUs”)。某个帧中的基本处理单元可以具有不同的尺寸，如128×128、64×64、32×32、16×16、4×8、16×32，也可以是任意形状和尺寸的像素。根据编码效率和要保留在基本处理单元中的细节级别的平衡，可以为帧选择基本处理单元的尺寸和形状。

基本处理单元可以是逻辑单元，逻辑单元可以包括一组不同类型的视频数据，这些数据存储在计算机内存中(例如，在视频帧缓冲区中)。例如，彩色图像的基本处理单元可以包含一个亮度组件(Y)代表消色差亮度信息，一个或多个色度组件(例如，Cb和Cr)代表颜色信息和相关的语法元素，亮度和色度组件的基本处理单元可以有相同的尺寸。在一些视频编码标准(例如H.265/HEVC或H.266/VVC)中，所述亮度和色度分量可以称为“编码树块”(CTBs)。对基本处理单元执行的任何操作都可以重复地对其各个亮度和色度组件执行。

视频编码有多个操作阶段，其示例如图2和图3所示。对于每个阶段，基本处理单元的尺寸仍然可能太大而无法处理，因此可以进一步划分为在本披露中被称为“基本处理子单元”的片段。在一些实施例中，基本处理子单元可以在一些视频编码标准(例如，MPEG系列，H.261，H.263，或H.264/AVC)中称为“块”，或在一些其他视频编码标准(例如，H.265/HEVC或H.266/VVC)中称为“编码单元”(“CUs”)。基本处理子单元可以具有与基本处理单元相同或更小的尺寸。与基本处理单元类似，基本处理子单元也是逻辑单元，它可以包括一组不同类型的视频数据(例如Y、Cb、Cr，以及相关的语法元素)，这些数据存储在计算机内存(例如视频帧缓冲区)中。对基本处理子单元执行的任何操作都可以重复地对其各个亮度和色度组件执行。应该注意的是，这种划分可以根据处理需要进一步执行。还应该注意的是，不同的阶段可以使用不同的方案来划分所述基本处理单元。

例如，在模式决策阶段(如图2所示的一个例子)，编码器应该决定为一个基本处理单元使用什么预测模式(例如，帧内预测或帧间预测)；但所述基本处理单元可能太大而无法做出这样的决定，编码器可以将基本处理单元拆分为多个基本处理子单元(例如，H.265/HEVC或H.266/VVC中的CUs)，并为每个单独的基本处理子单元确定一个预测类型。

再例如，在预测阶段(图2示出其中一个例子)，编码器可以在基本处理子单元(如CUs)级别上执行预测操作。但是，在某些情况下，基本的处理子单元可能仍然太大以致无法处理。编码器可以进一步将基本处理子单元分割成更小的片段(例如，在H.265/HEVC或H.266/VVC中称为“预测块”或“PBs”)，在这个级别上可以执行所述预测操作。

再举一个例子，在变换阶段(图2示出其中一个例子)，所述编码器可以对剩余的基本处理子单元(如CUs)进行变换操作。但是，在某些情况下，基本的处理子单元可能仍然太大而无法处理。编码器可以进一步将基本处理子单元分割成更小的片段(例如，在H.265/HEVC或H.266/VVC中称为“转换块”或“TBs”)，在这个级别上可以执行所述变换操作。需要注意的是，同一基本处理子单元在预测阶段和变换阶段的划分方案可能不同。例如，在H.265/HEVC或H.266/VVC中，同一CU的预测块和变换块可以有不同的尺寸和数量。

在图1的结构110中，将基础处理单元112进一步划分为3×3基本处理子单元，子单元的边界在图中示为点划线。在不同的方案中，同一幅帧的不同基本处理单元可以划分为不同的基本处理子单元。

在一些实施方式中，对视频编码和解码提供并行处理的能力和误差恢复，一幅帧可分为若干区域进行处理，使得对所述帧的一个区域，编码或解码过程可以不依赖任何来自所述帧的其它区域的信息。换句话说，帧中的每个区域都可以独立处理。这样，编解码器可以并行处理图像帧的不同区域，从而提高编码效率。此外，当一个区域的数据在处理过程中被破坏或在网络传输中丢失时，编解码器可以正确地对同一图像帧的其他区域进行编码或解码，而不依赖于被破坏或丢失的数据，从而提供了容错能力。在一些视频编码标准中，可以将一个帧划分为不同类型的区域。例如，H.265/HEVC和H.266/\/VC提供了两种类型的区域：“条形片(slices)”和“矩形片(tiles)”。还需要注意的是，视频序列100的不同帧可以有不同的将帧划分为区域的划分方案。

例如，在图1中，将结构110分为114、116和118三个区域，区域的边界以结构110内部的实线表示。区域114包括四个基本处理单元。区域116和区域118各包括六个基本处理单元。应当指出，图1中结构110的基本处理单元、基本处理子单元和区域只是示例，而且本公开不限制其实施方式。

根据本公开的一些实施例，图2示出了混合视频编码系统中的示例性编码器200的原理图。视频编码器200可以在视频帧内执行块的内编码或间编码，包括视频块，或视频块的分区或子分区。内编码可以依赖于空间预测来减少或消除给定视频帧内的视频空间冗余。间编码可以依赖于时间预测来减少或去除视频序列中相邻帧中的时间冗余。内部模式可以指一些基于空间的压缩模式。间模式(如单预测或双预测)可以指一些基于时间的压缩模式。

参照图2，可以对输入视频信号202逐块处理。例如，视频块单元可以是一个16×16像素块(例如，一个宏块(MB))。视频块单元的尺寸可能会有所不同，这取决于所使用的编码技术，以及所需的准确性和效率。在HEVC中，可以使用扩展块尺寸(如编码树单元(CTU))来压缩分辨率为1080p或更高的视频信号。在HEVC中，一个CTU可以包括相应于色度样本的高达64×64的亮度样本，以及相关的语法元素。在VVC中，CTU的尺寸可以进一步增加至相应于色度样本的128x128亮度样本，以及相关的语法元素。某个CTU可以进一步被划分为编码单元(CUs)，例如，使用四叉树、二叉树或三叉树。一个CU可以进一步划分为预测单元(PUs)，对这些单元可以应用不同的预测方法。可以使用空间预测单元260或时间预测单元262处理每个输入视频块。

空间预测单元260使用包含当前块的同一帧/片上的信息对当前块/CU进行空间预测(例如内部预测)。空间预测可以利用同一视频帧/片中已经编码的相邻块中的像素来预测当前的视频块。空间预测可以减少视频信号中内在的空间冗余。

时间预测单元262利用包含当前块的帧/片之外的其他帧/片的信息，对当前块进行时间预测(如间预测)。视频块的时间预测可以由一个或多个运动矢量标识。在单方向时间预测中，只使用标识一幅参考帧的一个运动矢量来生成当前块的预测标识。另一方面，在双向时间预测中，可以使用两个运动向量，每个运动向量标识一个参考帧，来生成当前块的预测标识。所述运动矢量可以示出当前块与参考帧中一个或多个相关块之间的运动量和运动方向。如果支持多个参考帧，则可以为一个视频块发送一个或多个参考帧索引。所述一个或多个参考索引被用于识别从参考图片库或解码图像缓存(DPB)264中的哪一幅参考帧中，可以产生时间预测信号。

所述编码器中的模式决策和编码器控制单元280可以选择所述预测模式，例如，基于率失真优化。根据所述已确定的预测模式，可以得到预测块。可以在加法器216处从当前视频块中减去预测块。预测残差可以用变换单元204进行变换，用量化单元206进行量化。量化后的残差系数可以在反量化单元210进行反量化，并在反变换单元212进行反变换，形成重构残差。将重构残差在加法器226处添加到预测块中，形成重构视频块。环路滤波前的所述重构视频块可作为内部预测的参考样本。

所述重构视频块可以在环路滤波器266上进行环路滤波。例如，诸如去块滤波、样本自适应偏移(SAO)和自适应环路滤波器(ALF)等环路滤波均可采用。环路滤波后的重构块可存储在参考图片库264中，并可为编码其他视频块提供间预测参考样本。为形成输出视频比特流220，在对数据进行压缩打包形成比特流220之前，可将编码模式(如(帧)间或(帧)内)、预测模式信息、运动信息、量化残差系数等发送到熵编码单元208以进一步降低比特率。

根据本公开的一些实施例，图3示出混合视频编码系统中的示例性解码器300的原理图。参照图3，可以在熵解码单元308上对视频比特流302进行解包或熵解码。编码模式信息可以用来决定选择空间预测单元360还是时间预测单元362。可将预测模式信息发送到相应的预测单元，以生成预测块。例如，时间预测单元362可以应用运动补偿预测以形成所述时间预测块。

将残差系数发送到反量化单元310和反变换单元312，以获得重构残差。将预测块和重构残差在326处相加，以在环路滤波前形成重构块。然后，所述重构块可以在环路滤波器366处进行环路滤波。例如，可以应用去块滤波、SAO、ALF等环路滤波。环路滤波后的重构块可以存储在参考图片库364中。参考图片库364中的重构数据可用于获取解码后视频320，或用于预测后续视频块。解码后视频320可以显示在显示设备上，诸如电视、PC、智能手机或平板电脑，供终端用户观看。

根据本发明的一些实施例，图4示出用于编码或解码视频的示例性装置400的框图。如图4所示，装置400可以包括处理器402。当处理器402执行本文描述的指令集时，装置400可以成为视频编码或解码的专用机器。处理器402可以是能够操作或处理信息的任何类型的电路系统。例如，处理器402可以包含任意数量的任意组合的中央处理单元(CPU)，图形处理单元(GPU)，神经处理单元(NPU)，一个微控制器单元(MCU)，光学处理器，可编程逻辑控制器，单片机，一个微处理器，数字信号处理器，IP核、可编程逻辑阵列(PLA)、可编程阵列逻辑(PAL)、通用阵列逻辑(GAL)、复杂可编程逻辑器件(CPLD)、现场可编程门阵列(FPGA)、片上系统(SoC)、专用集成电路(ASlC)等。在某些实施例中，处理器402还可以是一组分组为单个逻辑组件的处理器。例如，如图4所示，处理器402可以包含多个处理器，包括处理器402a、处理器402b和处理器402n。

装置400还可以包括被配置用于存储数据(例如，一组指令集、计算机代码、中间数据或类似的东西)的内存404。例如，如图4所示，所存储的数据可以包括程序指令(例如，用于执行图2或图3中各阶段的程序指令)和待处理的数据。处理器402可以访问待处理的程序指令和数据(例如，通过总线410)，并执行程序指令对数据执行操作或控制以进行处理。内存404可以包含高速随机访问存储设备或非易失性存储设备。在一些实施例中，内存404可以包括任意数量的随机存取存储器(RAM)的任意组合，一个只读存储器(ROM)、光盘、磁盘、硬盘、固态硬盘、闪存驱动器、安全数字(SD)卡、记忆棒、紧凑型闪存(CF)卡，或其他类似元件。内存404也可以是组合为单个逻辑组件的一组内存(图4未显示)。

总线410可以是在装置400内部组件之间传输数据的通信设备，例如内部总线(例如中央处理器-内存总线)、外部总线(例如，通用串行总线端口、外围组件互连快速端口)，或类似设备。

为了便于解释而不引起歧义，处理器402和其他数据处理电路在本公开中统称为“数据处理电路”。数据处理电路可以完全以硬件实现，也可以以软件、硬件或固件的组合实现。此外，数据处理电路可以是一个独立的模块，也可以全部或部分地组合进装置400的其他元件。

装置400还可以包括网络接口406，以提供与网络(例如，因特网、内部网、局域网、移动通信网或类似的东西)的有线或无线通信。在一些实施例中，网络接口406可以包括网络接口控制器(NIC)、射频(RF)模块、应答器、收发器、调制解调器、路由器、网关、有线网卡、无线网卡、蓝牙网卡、红外网卡、近场通信(NFC)适配器，蜂窝网络芯片，或类似的东西。

在一些实施例中，可选地，装置400还可以包括外围接口408，以提供到一个或多个外围设备的连接。如图4所示，外围设备可以包括，但不限于，游标控制装置(如鼠标，触摸板或触摸屏)，键盘，显示器(例如，阴极射线管显示器，液晶显示器，或发光二极管显示)，视频输入设备(例如，摄像头或与视频档案连接的输入接口)，或其它类似设备。

应该注意的是，视频编解码器可以实现为装置400中任何软件或硬件模块的任何组合。例如，图2的编码器200或图3的解码器300的部分或所有阶段可以实现为装置400的一个或多个软件模块，例如，可加载到内存404中的程序指令。在另一个例子中，图2的编码器200或图3的解码器300的部分或所有阶段可以实现为装置400的一个或多个硬件模块，例如专用数据处理电路(例如FPGA、ASIC、NPU或类似的电路)。

在量化和反量化功能块中(如图2的量化单元206和反量化单元210，图3的反量化单元310)，使用量化参数(QP)确定应用于预测残差的量化量(和反量化量)。用于编码帧或切片的初始QP值可以在高层级标识，例如，在帧参数集(PPS)中使用语法元素而t_qp_minus26，在切片头部中使用语法元素slice_qp_delta。此外，可以使用在量化组粒度上发送的增量QP值在本层级为每个CU调整QP值。

在WC中，子块变换(SBT)用于间预测编码单元(CU)。在这种变换模式下，只对剩余块的某个子部分进行编码提供给所述编码单元。当带有语法元素cu_cbf的间预测单元等于1时，可以标记语法元素cu_sbt_flag来指示是对整个剩余块进行编码，还是对剩余块的某个子部分进行编码。在前一种情况下，进一步解析MTS(inter multiple transformselected，帧间转换选择)信息，以确定所述CU的变换类型。在后一种情况下，用推断自适应变换对部分残差块进行编码，将残差块的其它部分置零。

当SBT用于某个间预测CU时，SBT类型和SBT位置信息在比特流中被标识。有两种SBT类型和两种SBT位置，如图5所示。对于SBT-V(或SBT-H)，变换单元(TU)的宽度(或高度)可以等于CU宽度(或高度)的一半或CU宽度(或高度)的1/4，形成2∶2分割或1∶3/3∶1分割。所述2∶2分割类似二叉树(BT)分割，而1∶3/3∶1分割类似非对称二叉树(ABT)分割。在ABT分割中，只有其小区域包含非零残差。如果某个编码单元某个维度上为8个亮度样本，那么沿着该维度的1∶3/3∶1分割是不允许的。一个编码单元最多有8种SBT模式。

序列参数集(SPS)级别语法可以使用语法元素sps_sbt_enabled_flag以指定启用或禁用SBT。当语法元素sps_sbt_enabled_flag等于0时，它表示在引用这个SPS的整个视频序列中禁用了间预测编码单元的SBT。当语法元素sps_sbt_enabled_flag等于1时，它表示对引用这个SPS的整个视频序列启用了间预测编码单元的SBT。

此外，当sps_sbt_enabled_flag等于1时，可以使用另一个SPS语法元素sps_sbt_max_size_64_flag指定允许SBT的最大CU宽度和高度。当语法元素sps_sbt_max_size_64_flag等于0时，它表示允许SBT的最大CU宽度和高度是32个亮度样本。当语法元素sps_sbt_max_size_64_flag等于1时，它表示允许SBT的最大CU宽度和高度是64个亮度样本。根据如下的公式1计算变量MaxSbtSize，该变量可以指定SBT允许的最大CU大小：

MaxSbtSize＝Min(Ma灯bSizeY，sps_sbt_max_size_64_flag？64：32) (公式1)

其中MaxTbSizeY是允许的最大转换块(TB)大小，可以根据下面的公式2，从另一个SPS级别的语法元素sps_max_luma_transform_size_64_flag派生：

MaxTbSizeY＝sps_max_luma_transform_size_64_flag？64：32 (公式2)

如上所述，MaxSbtSize来源依赖于两个语法元素sps_max_luma_transform_size_64_flag和sps_sbt_max_size_64_flag。如果语法元素sps_max_luma_transform_size_64_flag的值为0，则无论语法元素sps_sbt_max_size_64_flag的值如何，MaxSbtSize总是32。因此，当语法元素sps_max_luma_transform_size_64_flag为0时，不需要标识语法元素sps_sbt_max_size_64_flag。VVC中的这种语法冗余不必要地增加了信号开销。

为了提高视频编码效率，根据一些公开的实施例，语法元素sps_sbt_max_size_64_flag仅在语法元素sps_max_luma_transform_size_64_flag和sps_sbt_enabled_flag都为1时才被标识。图6示出了根据本公开的一些实施例的示例性表1。表1显示了一些实施例的示例性SPS语法表。如表1所示(强调部分以斜体显示)，语法元素sps_sbt_max_size_64_flag只有在语法元素sps_max_luma_transform_size_64_flag和sps_sbt_enabled_flag都为1时才被标识。如果语法元素sps_max_luma_transform_size_64_flag为0，则语法元素sps_sbt_max_size_64_flag可以被推断为0，这意味着允许SBT的CU最大宽度和高度为32(以亮度样本为单位)。

图7示出了根据本公开的一些实施例的示例性视频处理方法700的流程图。在一些实施例中，方法700可以由编码器(例如，图2的编码器200)，译码器(例如，图3的译码器300)或一个或多个软件或硬件组件的装置(例如，图4中的装置400)执行。例如，处理器(例如，图4的处理器402)可以执行方法700。在某些实施例中，方法700可以由包含在计算机可读介质中的计算机程序产品实现，该产品包括计算机可执行的指令，如由计算机执行的程序代码(例如图4中的装置400)。

在步骤702中，方法700可以包括确定某个视频序列的序列参数集(SPS)中是否启用子块变换(SBT)。在一些实施例中，一个标志位(例如，如图6的表1所示的语法元素sps_sbt_enabled_flag)可以在指示是否启用SBT的SPS中标识。例如，语法元素sps_sbt_enabled_flag等于0可以指定对于引用SPS的整个视频序列禁用间预测编码单元的SBT。并且语法元素sps_sbt_enabled_flag＝1可以指定对于引用SPS的整个视频序列启用了间预测编码单元的SBT。

在步骤704中，方法700可以包括确定SPS中的第一个标志位的值，该标志位指示允许SBT的最大转换块(TB)尺寸。第一个标志位可以设置为第一值或第二值。例如，第一值是1，第二值是0。最大TB大小可以是32、64或类似的。在一些实施例中，方法700还可以包括对应于最大TB尺寸是64，设置所述第一标志位为第一值，以及，对应于所述最大TB尺寸是32，设置所述第一标志位的值为第二值。在一些实施例中，第一标志位可以是图6表1中的语法元素sps_max_luma_transform_size_64_flag。

在步骤706中，方法700可以包含响应于SBT被启用和所述第一标志位的值等于第一值，标识第二标志位，指示允许SBT的最大编码单元(CU)尺寸。响应于SBT被禁用或所述第一标志位的值等于第二值，所述第二标志位不被标识。例如，第二标志位可以是如图6的表1所示的语法元素sps_sbt_max_size_64_flag。只有当语法元素sps_max_luma_transform_size_64_flag和sps_sbt_enabled_flag都为1时，语法元素sps_sbt_max_size_64_flag才会被标识。

在一些实施例中，方法700还可以包括标识SPS中的第三标志位(例如，如图6表1所示的语法元素sps_sbt_enabled_flag)以指示是否启用了SBT，以及标识SPS中的所述第一标志位(例如，图6中表1的语法元素sps_max_luma_transform_size_64_flag)。

在某些实施例中，最大CU尺寸可以是32或64。允许SBT的最大CU宽度或高度可以根据最大TB尺寸和最大CU尺寸中较小的一个来确定(例如，根据公式1)。

在一些公开的实施例中，语法元素sps_sbt_max_size_64_flag根本没有标识。在这种情况下，SBT的CU允许的最大宽度和高度直接取决于语法元素sps_max_luma_transform_size_64_flag。如果语法元素sps_max_luma_transform_size_64_flag等于0，允许SBT的最大CU宽度和高度是32个亮度样本。如果语法元素sps_max_luma_transform_size_64_flag等于1，允许SBT的最大CU宽度和高度是64个亮度样本。换句话说，MaxSbtSize被设置为等于MaxTbSizeY。图8根据本公开的一些实施例，示出示例性的表2。表2显示了实现这些实施例的示例性SPS语法。如表2所示，语法元素sps_sbt_max_size_64_flag没有被标识，并从该语法中删除。图9根据本公开的一些实施例，示出示例性的表3。表3(以斜体强调)显示了一个示例性的编码单元(CU)语法表，它直接使用MaxTbSizeY来设置CU的最大宽度和高度。

MaxTbSizeY由如下的式3计算：

MaxTbSizeY＝sps_max_luma_transform_size_64_flag？64：32 (公式3)

图10示出了根据本公开的一些实施例的另一示例性视频处理方法1000的流程图。在一些实施例中，方法1000可以由编码器(例如，图2的编码器200)，解码器(例如，图3的解码器300)或某个装置的一个或多个软件或硬件组件(例如，图4的装置400)执行。例如，处理器(例如，图4的处理器402)可以执行方法1000。在某些实施例中，方法1000可以由包含在计算机可读介质中的计算机程序产品实现，该产品包括计算机可执行的指令，如由计算机(例如图4中的设备400)执行的程序代码。

在步骤1002中，方法1000包括标识视频序列的序列参数集(SPS)中的第一标志位，该标志位表明是否启用子块变换(SBT)。在一些实施例中，第一标志位可以是语法元素sps_sbt_enabled_flag，如图8的表2所示。例如，语法元素sps_sbt_enabled_flag等于0可以指定对于引用SPS的整个视频序列禁用间预测编码单元的SBT。以及，语法元素sps_sbt_enabled_flag等于1可以指定对于引用SPS的整个视频序列启用了间预测编码单元的SBT。

在步骤1004中，方法1000可以包括标识第二标志位，以指示允许SBT的最大转换块(TB)尺寸。第二标志位可以设置为第一值或第二值。例如，第一值是1，第二值是0。最大TB大小可以是32、64或类似值。在一些实施例中，方法1000还可以包括在对应于最大TB尺寸为32时，将所述第二标志位的值设置为0；在对应于最大TB尺寸为64时，设置所述第二标志位的值为1。在一些实施例中，第一标志位可以是图8中表2中的语法元素sps_max_luma_transform_size_64_flag。

响应于表明SBT已启用的第一标志位，允许SBT的最大CU尺寸可以直接根据最大TB尺寸来确定。例如，最大CU尺寸等于最大TB尺寸。最大CU尺寸包括CU的最大宽度和最大高度。

在一些实施例中，还提供了包括指令集的非易失性计算机可读存储介质，并且所述指令集可以由用于执行上述方法的设备(如所述编码器和解码器)执行。常见形式的非易失性介质包括，例如，软盘、柔性磁盘、硬盘、固态驱动器、磁带、或任何其他磁数据存储介质、CD-ROM，任何其他光学数据存储介质，任何打孔的物理介质模式，RAM，PROM，和EPROM，闪存式EPROM或者其他闪存，NVRAM，高速缓存、寄存器、任何其他存储芯片或磁带，以及同类的网络版本。所述设备可以包括一个或多个处理器(CPU)、输入/输出接口、网络接口和/或内存。

所述实施例可使用下列条款进一步予以描述：

1、一种视频处理方法，包括：

确定在视频序列的序列参数集(SPS)中是否启用子块变换(SBT)；

确定SPS中第一标志位的值，该标志位指示允许SBT的最大转换块(TB)尺寸；和

响应于SBT被启用，并且所述第一标志位的值等于第一值，标识第二标志位，指示允许SBT的最大编码单元(CU)尺寸。

2、根据第1条的方法，其中，响应于所述SBT未被启用，或者所述第一标志位的值等于第二值，第二标志位不被标识。

3、根据第1条或第2条的方法，进一步包括：

标识SPS中的第三标志位，以指示SBT是否被启用的；以及

标识所述SPS中的第一标志位。

4、根据第2条所述的方法，其中第一值为1，第二值为0。

5、根据第1-4条中的任意一种方法，其中最大TB尺寸为32或64。

6、根据第5条所述的方法，进一步包括：响应于最大TB尺寸为64，将第一标志位的值设置为第一值。

7、根据第5条所述的方法，进一步包括：

响应于最大TB尺寸为32，设置第一标志位的值为第二值。

8、根据第1-7条中的任何一种方法，其中允许SBT的最大CU尺寸为32或64。

9、根据第1-8条中的任意一种所述的方法，其中允许SBT的最大CU宽度根据最大TB尺寸和允许SBT的最大CU尺寸中的较小者确定。

10、根据第1-9条中的任意一种方法，其中允许SBT的最大CU高度根据最大TB尺寸和允许SBT的最大CU尺寸中较小的一个来确定的。

11、一种视频处理装置，包括：

至少一种用于存储指令集的存储器；和

至少有一个处理器执行所述指令集以使设备执行：

确定在视频序列的序列参数集(SPS)中是否启用子块变换(SBT)；

响应于所述SBT被启用，并且第一标志位的值等于第一值，标识第二标志位，指示允许SBT的最大编码单元(CU)尺寸。

12、根据第11条所述的设备，其中，对应于所述SBT不被启用或者所述第一标志位的值等于第二值，第二标志位不被标识。

13、根据第11或12条所述的设备，其中至少一个处理器进一步执行所述指令集以使设备执行：

标识所述SPS中的第三标志位，以表明所述SBT是否被启用；以及

标识SPS中的第一标志位。

14、根据第12条所述的设备，其中第一值为1，第二值为0。

15、根据第11-14条中的任何一条，其中最大TB尺寸是32或64。

16、根据第15条所述的设备，进一步包括：

响应于最大TB尺寸为64，设置所述第一标志位的值为第一值。

17、根据第15条所述的设备，进一步包括：

响应于最大TB尺寸为32，设置所述第一标志位的值为第二值。

18、根据第11-17条中的任何一条所述的设备，其中，允许所述SBT的最大CU尺寸为32或64。

19、根据11-18条中的任何一条所述的设备，其中，允许所述SBT的最大CU宽度根据最大TB尺寸和允许SBT的最大CU尺寸中的较小者确定。

20.根据第11-19条中的任何一个条所述的设备，其中允许SBT的最大CU高度根据最大TB尺寸和允许SBT的最大CU尺寸中的较小者确定。

21、一种非易失性的计算机可读存储介质，存储一组指令集，所述指令集由至少一个处理器执行以使计算机执行视频处理方法，包括：

确定在视频序列的序列参数集(SPS)中是否启用子块变换(SBT)；

响应于所述SBT被启用，并且第一标志位的值等于第一值，标识第二标志位，指示允许所述SBT的最大编码单元(CU)尺寸。

22、根据第21条的非易失性计算机可读存储介质，其中，对应于所述SBT不被启用，或者所述第一标志位的值等于第二值，所述第二标志位不被标识。

23、根据第21或22条的非易失性计算机可读存储介质，其中，由至少一个处理器执行的指令集，使所述计算机进一步执行：

标识在SPS中的第三标志位，以指示所述SBT是否被启用；和

标识SPS中的第一标志位。

24、根据第22条的非易失性计算机可读存储介质，其中第一值为1，第二值为0。

25、一种非易失性的计算机可读存储介质，根据第21-24条中的任何一条，其中，最大TB尺寸为32或64。

26、根据第25条的非易失性计算机可读存储介质，其中，由至少一个处理器执行的指令集，使所述计算机进一步执行：

响应于所述最大TB尺寸为64，设置第一标志位的值为第一值。

27、根据第25条的非易失性计算机可读存储介质，其中由至少一个处理器执行的指令集，使计算机进一步执行：

响应于最大TB尺寸为32，设置第一标志位的值为第二值。

28、根据21-27条中的任何一条所述的非易失性计算机可读存储介质，其中允许SBT的最大CU尺寸为32或64。

29、根据21-28条中的任何一条所述的非易失性计算机可读存储介质，其中，允许SBT的最大CU宽度是根据最大TB尺寸和允许SBT的最大CU尺寸中较小者确定。

30、根据21-29条中的任何一条所述的非易失性计算机可读存储介质，其中允许SBT的最大CU高度根据最大TB尺寸和允许SBT的最大CU尺寸中较小者确定。

31、一种视频处理方法，包括：

在视频序列的序列参数集SPS中，标识第一标志位，以指示是否启用子块变换SBT；以及

标识第二标志位，以指示允许SBT的最大转换块TB尺寸，

响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元CU尺寸直接根据所述最大转换块TB尺寸确定。

32、根据第31条所述的方法，其中允许SBT的最大CU尺寸是最大CU宽度或最大CU高度。

33、根据第31或32条所述的方法，其中，确定允许所述SBT的最大CU尺寸被确定为等于最大TB尺寸。

34、根据第31-33条中的任意一条所述的方法，其中最大TB尺寸为32或64。

35、根据第34条所述的方法，进一步包括：

响应于最大TB尺寸为32，将所述第二标志位的值设置为0。

36、根据第34条所述的方法，进一步包括：

响应于最大TB尺寸为64，将所述第二标志位的值设置为1。

37、一种视频处理装置，包括：

至少一种用于存储指令的存储器；和

至少有一个处理器执行指令集以使该装置执行：

在视频序列的序列参数集SPS中，标识第一标志位，以指示是否启用子块变换SBT；；以及

38、根据第37条所述的装置，其中允许所述SBT的最大CU尺寸是最大CU宽度或最大CU高度。

39、根据第37或38条所述的装置，其中允许SBT的最大CU尺寸被确定为等于最大TB尺寸。

40、根据37-39条中的任何一条所述的装置，其中最大TB尺寸是32或64。

41、根据第40条所述的装置，其中至少一个处理器进一步执行指令以使该装置执行：响应于最大TB尺寸为32，将所述第二标志位的值设置为0。

42、根据第40条所述的装置，其中，至少一个处理器进一步执行指令集以使装置执行：响应于所述最大TB尺寸为64，将所述第二标志位的值设置为1。

43、一种非易失性的计算机可读存储介质，其存储一组由至少一个处理器执行的指令集，以使所述计算机执行一种视频处理方法，包括：

标识第二标志位，以指示允许SBT的最大转换块TB尺寸，

44、根据第43条的非易失性计算机可读存储介质，其中允许SBT的最大CU尺寸是最大CU宽度或最大CU高度。

45、根据第43或44条的非易失性计算机可读存储介质，其中，允许SBT的最大CU尺寸被确定为等于最大TB尺寸。

46、根据第43-45条中的任何一条所述的非易失性计算机可读存储介质，其中，最大TB尺寸为32或64。

47、根据第46条的非易失性计算机可读存储介质，其中，由至少一个处理器可执行的指令集使计算机进一步执行：

响应于最大TB尺寸为32，将所述第二标志位的值设置为0。

48、根据第46条的非易失性计算机可读存储介质，其中，由所述至少一个处理器执行的指令集使所述计算机进一步执行：

响应于最大TB尺寸为64，将所述第二标志位的值设置为1。

需要注意的是，本文中的“第一”、“第二”等关系术语仅用于区分一个实体或操作与另一个实体或操作，并不要求或暗示这些实体或操作之间存在任何实际的关系或顺序。此外，“包括”、“有”，“包含”和“包括”和其他类似形式的词语在含义上是相同的，并且，在上述任何一个词语之后的任何一个或者多个项目的结尾是开放式的，上述任何一个名词均不表示所述一个或多个项目已经列举穷尽，或者仅限于这些已列举的一个或者多个项目。

在此处使用时，除非另有明确说明，术语“或”包括所有可能的组合，但不可行的除外。例如，如果表达为一个数据库可能包括A或B，则除非另有特别规定或不可行，可能包括数据库A，或B，或者A和B。第二个例子，如果表达为某个数据库可能包括A、B或C，则除非另有特别规定或不可行，所述数据库可以包括数据库A、，或B、或C、或者A和B、或者A和C、或者B和C、或者A和B和C。

值得注意的是，上述实施例可以通过硬件或软件(程序代码)，或硬件和软件的组合来实现。如果由软件实现，则可将其存储在上述计算机可读介质中。该软件在由处理器执行时，可以执行上述已披露的方法。本公开中描述的计算单元和其他功能单元可以由硬件或软件，或硬件和软件的组合来实现。本领域普通技术人员，也会理解上述多个模块/单元可以组合成一个模块/单元，而上述每个模块/单元可以进一步划分为多个子模块/子单位。

在上述详细说明中，实施例已参照许多具体细节进行了描述，这些细节可能因实施而异。可以对所述实施例进行某些适配和修改。对于本领域的技术人员，可以从本发明公开的具体实施方式中，显而易见的获得其它一些实施方式。本说明书和示例仅出于示例性的目的，本发明的真实范围和本质由权利要求说明。示图所示的步骤顺序也仅出于解释说明的目的，并不意味着限定于任何特定的步骤、顺序。因此，那些精通本领域的技术人员会意识到，在实施相同的方法时，这些步骤可以以不同的顺序执行。

在本申请的示图和详细说明中，公开了示例性的实施例。但是，可以对这些实施例进行许多变化和修改。相应的，尽管使用了具体的术语，但这些术语只是一般和描述性的，而不是出于限定的目的。

Claims

1.一种视频处理方法，包括：

标识第二标志位，以指示允许SBT的最大转换块TB尺寸，

2.根据权利要求1的方法，其中允许SBT的最大CU尺寸是最大CU宽度或最大CU高度。

3.根据权利要求1的方法，其中，确定允许所述SBT的最大CU尺寸被确定为等于所述最大TB尺寸。

4.根据权利要求1所述的方法，其中最大TB尺寸为32或64。

5.根据权利要求4的方法，进一步包括：

响应于最大TB尺寸为32，将所述第二标志位的值设置为0。

6.根据权利要求4的方法，进一步包括：

响应于最大TB尺寸为64，将所述第二标志位的值设置为1。

7.一种视频处理装置，包括：

至少一种用于存储指令集的存储器；和

至少有一个处理器执行指令集以使该装置执行：

标识第二标志位，以指示允许SBT的最大转换块TB尺寸，

8.根据权利要求7的装置，其中，允许所述SBT的最大CU尺寸是最大CU宽度或最大CU高度。

9.根据权利要求7的装置，其中允许所述SBT的最大CU尺寸被确定为等于所述最大TB尺寸。

10.根据权利要求7的装置，其中，所述最大TB尺寸是32或64。

11.根据权利要求10所述的装置，其中，至少一个处理器进一步执行所述指令集以使该装置执行：

响应于所述最大TB尺寸为32，将所述第二标志位的值设置为0。

12.根据权利要求10所述的装置，其中，至少一个处理器进一步执行所述指令集以使该设备执行：

响应于所述最大TB尺寸为64，将所述第二标志位的值设置为1。

13.一种非易失性的计算机可读存储介质，其存储一组由至少一个处理器执行的指令集，以使所述计算机执行一种视频处理方法，包括：

标识第二标志位，以指示允许SBT的最大转换块TB尺寸响应于表示所述SBT已启用的所述第一标志位，允许所述SBT的最大编码单元CU尺寸直接根据所述最大转换块TB尺寸确定。

14.根据权利要求13的非易失性计算机可读存储介质，其中允许SBT的最大CU尺寸是最大CU宽度或最大CU高度。

15.根据权利要求13的非易失性计算机可读存储介质，其中，允许SBT的最大CU尺寸被确定为等于最大TB尺寸。

16.根据权利要求13的非易失性计算机可读存储介质，其中，最大TB尺寸是32或64。

17.根据权利要求16所述的非易失性计算机可读存储介质，其中，由所述至少一个处理器执行的指令集使所述计算机进一步执行：

响应于最大TB尺寸为32，将所述第二标志位的值设置为0。

18.根据权利要求16所述的非易失性计算机可读存储介质，其中，由所述至少一个处理器执行的指令集使所述计算机进一步执行：