CN111492655A

CN111492655A - 用于视频压缩的基于纹理的分区决定

Info

Publication number: CN111492655A
Application number: CN201880080802.4A
Authority: CN
Inventors: F.莱林内克; F.加尔平; F.拉卡普; S.杰斯瓦尔
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2017-12-14
Filing date: 2018-12-12
Publication date: 2020-08-04
Also published as: US11412220B2; EP3725074A1; WO2019118536A1; US20210195187A1; US20220353502A1

Abstract

使用通过使用基于纹理的图像分区获得的分区选择，使用若干种可能的分区操作中的一个或多个来分割视频数据块。在至少一个实施例中，使用卷积神经网络在一个或多个分割操作中分割块。在另一个实施例中，卷积神经网络的输入来自沿着块的因果边界的像素。在另一个实施例中，纹理分析使用边界信息，诸如空间邻近块中的分区的位置。提供了用于编码的方法、装置和信号实施例。

Description

用于视频压缩的基于纹理的分区决定

技术领域

本原理涉及视频压缩领域。

背景技术

在HEVC视频压缩标准(国际电信联盟，ITU-T H.265高效视频编码)中，图片被划分为所谓的编码树单元(CTU)，其尺寸通常为64x64、128x128或256x256像素。

每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分，其中每个叶片称为编码单元(CU)，如图1所示。

然后，为每个CU提供一些帧内或帧间预测参数(预测信息)。为此，将其在空间上分区为一个或多个预测单元(PU)，每个PU均被分配有一些预测信息。帧内或帧间编码模式在CU级别分配，参见图2。

根据在位流中用信号通知的分区类型将编码单元分区为(一个或多个)预测单元。对于帧内编码单元，仅使用图3中所示的分区类型2Nx2N和NxN。这意味着在帧内编码单元中仅使用正方形预测单元。

相反，帧间编码单元可以使用图3所示的所有分区类型。

根据HEVC标准，在“变换树”之后，编码单元也以递归的方式被划分为所谓的变换单元。因此，变换树是编码单元的四叉树划分，并且变换单元是变换树的叶片。变换单元封装与所考虑的正方形空间区域对应的每个图片分量的正方形变换块。变换块是单个分量中样本的正方形块，其中应用相同的变换。

新兴的视频压缩工具包括压缩域中的编码树单元表示，为了在压缩域中以更灵活的方式表示图片数据而提出。编码树的这种灵活表示的优势在于，与HEVC标准的CU/PU/TU布置相比，它提供了更高的压缩效率。

四叉树加二叉树(QTBT)编码工具提供了这种增加的灵活性。它包含在编码树中，其中编码单元可以以四叉树和二叉树的方式进行分割。图4中图示了编码树单元的这种编码树表示。块上的QTBT表示在图5中示出。

通过率失真优化过程在编码器侧决定编码单元的分割，该过程包括以最小的率失真成本确定CTU的QTBT表示。

在QTBT技术中，CU具有正方形或矩形形状。编码单元的尺寸始终为2的幂，通常从4到256。

除了用于编码单元的各种矩形形状之外，与HEVC相比，这种新的CTU表示具有以下不同的特点。

首先，CTU的QTBT分解分两个阶段进行：首先以四叉树的方式分割CTU，然后可以以二元方式进一步划分每个四叉树的叶片。这在图4的右侧进行了图示，其中实线表示四叉树分解阶段，虚线表示空间分解嵌入四叉树叶片的二元分解。

其次，在帧内条带中，亮度和色度块分区结构被分开，并且是独立决定的。

接下来，不再采用CU分区成预测单元或变换单元。换句话说，每个编码单元系统地由单个预测单元(以前是2Nx2N个预测单元划分类型)和单个变换单元(不划分成变换树)组成。

但是，QTBT技术需要进一步提高压缩效率。

发明内容

所描述的实施例中的至少一个解决了现有技术的这些和其它缺点和不足，这些实施例针对用于编码或解码视频数据块的方法和装置。在至少一个实施例中，提出使用基于纹理的技术来生成分割的分区概率的集合。

根据本文所述的至少一个一般实施例，提供了一种用于对视频数据块进行编码的方法。该方法包括基于分区边界概率使用图像数据块的基于纹理的分析来生成分区概率的集合；使用所述分区概率的集合将所述图像数据块分区为两个或更多个更小的块；以及编码至少一个更小的块。

根据本文所述的另一个一般实施例，提供了一种用于对视频数据块进行编码的装置。该装置包括存储器和处理器，该处理器被配置为基于分区边界概率使用图像数据块的基于纹理的分析来生成分区概率的集合；使用所述分区概率的集合将所述图像数据块分区为两个或更多个更小的块；以及编码至少一个更小的块。

根据本文所述的另一方面，提供了一种非暂态计算机可读存储介质，其包含根据所述方法实施例中的任何一个的方法或由所述装置实施例中的任何一个的装置生成的数据内容，以供使用处理器进行回放。

根据本文描述的另一方面，提供了一种包括视频数据的信号，该视频数据根据用于对视频数据块进行编码的所述方法实施例中的任何一个的方法或者通过用于对视频数据块进行编码的所述装置实施例中的任何一个的装置而生成，以供使用处理器进行回放。

根据本文描述的另一方面，提供了一种包括指令的计算机程序产品，当该程序由计算机执行时，使计算机执行所述方法实施例中的任何一个的方法。

通过以下结合附图对示例性实施例的详细描述的阅读，本原理的这些和其它方面、特征和优点将变得明显。

附图说明

图1图示了表示压缩图片的编码树单元和编码树概念的一个示例。

图2图示了将编码树单元划分为编码单元、预测单元和变换单元的示例。

图3图示了编码单元的分区的示例。

图4图示了示例四叉树加二叉树编码树单元表示。

图5图示了在编码块上的四叉树加二叉树表示的一个实施例。

图6图示了块的三重模式分割。

图7图示了用于处理块不均匀性的块的不同分割。

图8图示了本文描述的视频编码方案中支持的所有编码单元分割模式的集合。

图9图示了具有基于深度学习的分割决定的编码树单元(CTU)的整个编码的示例实施例。

图10图示了标准的通用视频压缩方案的一个实施例。

图11示出了输入到卷积神经网络(CNN)的像素的示例。

图12图示了边界信息作为CNN的辅助输入通道。

图13图示了边界的结果矢量的示例。

图14图示了分区的基本原理的示例(左)和每个像素所表示的对应分数(右)。

图15图示了具有对应边界概率i，j，k…的示例性分割位置L。

图16图示了在树中不同级别上的四叉树分割的示例性概率的曲线图，其是对JEM(四叉树/二叉树)在QP＝32的19336个65x65补片(patch)的大型测试集上求平均值的。

图17图示了在树中不同级别上不分割的示例性概率，其是对JEM(四叉树/二叉树)在QP＝32的19336个65x65补片(patch)的大型测试集上求平均值的。

图18图示了压缩CTU的流程图的示例性实施例，其包括基于CNN的决定。

图19图示了使用所描述的方面的方法的一个实施例。

图20图示了使用所描述的方面的装置的一个实施例。

图21图示了概率的矢量，水平边界的每一侧分别求平均值。

图22图示了针对不分割决定的决定图。

图23图示了当垂直和水平边界均不存在时测试四叉树分割。

图24图示了对二元水平分割进行测试的示例。

图25图示了不对称顶部分割测试的示例。

具体实施方式

描述一种用于编码单元中的变换系数的改进的熵编码效率的途径，以提供良好的压缩和编码器设计复杂性的最小增加。

为了清楚，在本说明书中，“划分”，“分段”和“分割”都意味着相同的意思，其是对像素的块进行直线划分的动作。类似地，“分割”和“划分”意味着相同的意思，作为块或子块的划分、分割或分段的结果的像素分组。

在HEVC视频压缩标准中，将画面分为所谓的编码树单元(CTU)，其典型尺寸为64x64、128x128或256x256像素。

每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分，其中每个叶片称为编码单元(CU)，见图1。

然后，每个CU被给予一些帧内或帧间预测参数(预测信息)。为此，其在空间上被分区为一个或多个预测单元(PU)，每个PU被分配一些预测信息。帧内或帧间编码模式在CU级别被分配，见图2。

根据在比特流中用信号通知的分区类型，完成编码单元分区为预测单元。对于帧内编码单元，HEVC中仅使用图3例示的分区类型2Nx2N和NxN。这意味着在帧内编码单元中仅使用正方形预测单元。

相反，帧间编码单元可以使用图3所示的所有分区类型。

根据HEVC标准，在“变换树”之后，编码单元也以递归的方式被划分为所谓的变换单元。因此，变换树是编码单元的四叉树划分，并且变换单元是变换树的叶片。变换单元封装与考虑的正方形空间区域对应的每个画面分量的正方形变换块。变换块是单个分量中的样本的正方形块，其中，应用了相同的变换。

新兴的视频压缩工具包括压缩域中的编码树单元表示，以在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优势在于，与HEVC标准的CU/PU/TU布置相比，它提供了增加的压缩效率。

四叉树加二叉树(QTBT)编码工具提供这种增加的灵活性。其在于在其中编码单元可以以四叉树(4个子单元)和二叉树(2个子单元)两种方式分割的编码树。图4例示编码树单元的这种编码树表示。

通过率失真优化过程在编码器侧决定编码单元的分割，率失真优化过程在于以最小率失真成本确定CTU的QTBT表示。

在QTBT技术中，CU具有正方形或矩形形状。编码单元的尺寸通常为2的幂，典型从4到256。

除了用于编码单元的各种矩形形状之外，与HEVC相比，该新CTU表示具有以下不同的特性。

首先，CTU的QTBT分解由两个阶段组成：首先以四叉树的方式分割CTU，然后可以以二元的方式进一步划分每个四叉树叶片。这在图4的右侧被例示，其中，实线表示四叉树分解阶段，并且虚线表示在空间上被嵌入四叉树叶片的二元分解。

接下来，在帧内条带中，亮度和色度块分区结构被分开，并且被独立决定。

此外，不再采用CU分区成预测单元或变换单元。换句话说，每个编码单元系统地由单个预测单元(以前是2Nx2N预测单元分区类型)和单个变换单元(不分区成变换树)组成。

描述的实施例关注压缩中的画面编码单元表示的域，并且目的是进一步改进的压缩效率。

三叉树或三叉分割是将编码单元或子单元分割为三个部分。优点之一是所有子块可以是2的幂。主要缺点是，即使仅两个是必要的，例如，当对象的边界靠近边界通过时(见图7，三叉分割与非对称分割)，不提供优化地选取块的分区的多少灵活性，因为其强制三个子块。

编码单元分割模式，称为水平或垂直三叉树分割模式，在于将编码单元(CU)划分为3个子编码单元(子CU)，其在考虑的空间划分的方向上各自尺寸等于父CU尺寸的1/4，1/2和1/4。这在图6中例示。图8示出本文描述的视频编码方案中支持的所有编码单元分割模式的集合。

由描述的实施例中的至少一个解决的问题是如何改进和/或加速在编码器处执行的率失真优化(RDO)，这与由编码器做出的决定对应，以选择标准的最佳工具，从而压缩给定的块，宏块或编码树单元(CTU)。代替检查每个块级别的比特率/失真以找到最佳分区，CNN(卷积神经网络)网络例如提供每种可能划分成较小块的类型的概率分数。该分数的计算非常快，因为它可以高度并行化，并且比经典RDO操作复杂性低。这是一种示例性解决方案，但是所描述的实施例可以接收任何分割分数作为输入。

这些实施例被并入视频的压缩的框架中，特别是在编码阶段，其中，做出决定以将给定输入视频序列的图像划分为块。从H.264/MPEG4-AVC开始，混合编解码器已将图像划分为不同尺寸的块，以使其压缩工具适应纹理和对象。在H.265/HEVC中，例如，图像首先被划分为64x64个非重叠的编码树单元(CTU)，其然后潜在被分割为多个较小的编码单元(CU)，直至8x8像素。尽管该标准仅规定用信号通知这些CU的尺寸的语法，但取决于其压缩不同区域的能力，编码器仍要求高效的方式来选取和优化图像上的尺寸。该处理被包括在所谓的率失真优化(RDO)中，该率失真优化目的是找到重构的区域的目标质量和传输所要求的比特之间的最佳折衷。基本上，如果CTU包含被良好预测和重构的信号，则无需将其分割为会导致更多语法的小块。但是，当高度细节的纹理难以编码并且导致残差具有高能量时，将其分割成小块是有意义的，因为与残差的成本降低相比，语法的成本是值得的。然后完全RDO在于评估CTU的每个可能的块分区，这非常复杂。参考软件编码器使用完全RDO的子集，仅考虑CTU中的固定因果部分，并添加一些试探法，但组合性仍然很高。

经典编码器执行深度优先树搜索递归处理，以确定与CTU相关的编码树。在每个深度级别，选择给出最低率失真成本的编码单元分割模式(无分割、四叉树块划分、二元块划分或其它分割)。

在所描述的实施例中，从图像数据的块中和周围的像素的纹理分析计算出的分割的概率的集合或表被用于预测何时将给定块分割为更小的块。

为了以可接受的复杂度执行RDO，现有编解码器中已实现了若干种方法。

首先，将搜索分割为两遍：第一遍执行几乎所有的预测模式和分割选项，但是使用快速方法评估潜在残差的能量。然后，固定分区，并且第二遍精确评估选择的最佳模式，转换或其他工具的子集的成本。

此外，试探法可以用于避免在CU分区、编码模式、预测模式和变换索引的所有可能组合上进行完全穷尽性的搜索。作为示例，在父CU和/或第一空间划分模式的评估导致量化残差等于零的情况下(例如，跳过模式或CBF标志等于0)，将不评估给定CU到若干个子CU的空间划分。

试探法可以用于避免不太可能的分区，例如，通过考虑先前编码的邻近区域的分区。

本文提出的方法使得能够更快地选择分区，同时保持尽可能高的编码效率。

涉及用于RDO加速的基于CNN的方法的现有快速编码方法具有若干个限制。在该方法中，在HEVC的框架内，使用卷积网络来决定是否分割给定的块。

但是，CNN的输出是值的二元组，其给出有关是否将当前块分割为4个较小的四叉树块的概率的信息。本文描述的实施例使得能够考虑多种类型的分割：例如，四叉树，二叉树，如下面详述。

并且，首先通过平均化将8x8到32x32的所有块采样为8x8矩阵，以提供8x8矩阵作为对CNN的输入。尽管这清楚地示出在实现方式方面的优势，即，对于所有块尺寸的唯一的CNN，但是其降低了区分分区树的每个级别的边界的效率方面的性能。

提出的实施例的一个想法是使用基于纹理的分割预测来改善现有和将来编解码器的编码器侧的率失真优化。具体而言，这种技术允许系统根据准确性和速度来计算对图像进行分区的更好决定。

所描述的实施例是图9所示的框架的一部分。图9呈现了编码器侧的整体处理。附加的发明处理CNN(820)结构本身以及与编码器和试探法的交互(870)。

所描述的实施例集中于使用CNN的输出矢量来做出关于RDO对于每个块要考虑哪种分割类型的决定的方式，而无需考虑编码器中已经存在的试探法和加速。

它以边界概率的矢量作为输入(830)，并为率失真优化(RDO)考虑的每种分割类型输出决定(真；假)(860)。

还要注意的是，对于所描述的实施例，给出了示例CNN的输出，但是可以使用任何边界预测(纹理/对象分析)方法来执行分割预测和决定方案。

所描述的实施例旨在引导编码器决定，因此可应用于编码器并改善编码决定。它们与图10的步骤105相关。它们使得能够对编码树单元进行分区，同时避免穷尽性地计算所有候选块分区的率和失真，这意味着对每个候选块分区应用所有步骤。

本解决方案的描述基于由联合视频探索小组(JVET)设计的参考软件的示例性版本，以设计用于视频编码的下一个MPEG/ITU标准，当前已知为H.266。

在该框架中，像HEVC中一样，图像被划分为非重叠编码树单元(CTU)。然后，CTU与可以考虑用于编码给定区域的最大块对应。在当前版本中，CTU是尺寸256X256像素。

然后，当纹理难以在整个CTU的表面上被预测和编码时，可以考虑使用较小的块。这允许选取适合纹理的按块的不同预测/变换/编码工具。这以传输更多语法元素来描述那些选取和块形状为成本。因此，执行率失真优化以关于给定质量和/或比特率目标选择最佳模式和最佳分区。在预测和变换后的残差成本和描述编码工具的语法元素的成本之间需要找到平衡。细节区域上的块越大，残差的能量越大。另一方面，块越小，语法元素成本越高。

在HEVC中，块分区的结构遵循四叉树。因此，对于每个树深度，编码器可以决定是直接编码当前块还是将其划分为四个子块。这典型通过评估以其当前尺寸编码该块的成本并将其与子块的4个成本之和比较来完成。如果对于给定质量，花费较少的比特来传输较小块的语法，则编码器将继续评估编码树中下一个深度级别。这要求对于所有块尺寸尝试该标准的不同的预测模式和变换以及其他工具，直到编码器达到最小化成本的块尺寸为止，因此，与解码器相比，编码器的复杂性很高。

将考虑的CTU编码为256x256块与空间上被划分为两个或更多个更小的块的CTU的编码进行比较。为此，进行深度优先递归率失真优化处理。它导致以所谓的编码树的形式表示CTU。用参考模型获得的典型编码树在图4中示出。

编码树的叶片与未划分为更小CU的CU(编码单元，在本文档中也称为块)对应。它们通过预测、残差变换、量化和熵编码进行编码。总体率失真优化包括与非分割CU相关联的编码参数的RD最优选择。

而且，编码树的每个节点表示根据给定的分割模式在空间上划分为更小子CU的潜在CU。在所有分割模式候选中选择导致最小率失真成本的分割模式。一些语法元素指示导致每个对应CU的分割模式。在总体率失真最小化过程期间，当计算率成本时，考虑用于发信号通知每个CU的分割模式的比特。

对于HEVC，给定CU可能有两种分割模式：无分割或四叉树分割。

在H.266编码器的情况下，其复杂性甚至更高，原因有很多：

-块尺寸范围最大为256x256

-考虑不同的块形状：正方形和矩形块

-更多预测工具

-更多变换

以下段落描述示例性的基于CNN的结构，以描述所描述的实施例使用的输入的类型。

与现有解决方案相反，CNN的输入是像素的块或补片，其与整个CTU加上与CTU邻近的因果L形像素对应，如图11所示。例如，利用尺寸64x64的CTU，则输入补片是尺寸(64+N)x(64+N)，其中，N是因果边界的尺寸。实际上，我们选择取N＝1。添加边界的原因是编码器本身使用该因果边界来执行块的预测。

在第一实施例中，因果边界来自原始帧。在这种情况下，一个优点是每个CTU的CNN处理可以并行完成，因为其仅使用原始帧。

在第二实施例中，因果边界来自解码的邻域。在这种情况下，一个优点是CNN使用与编码器相同的输入用于预测，因此更加精确。然而，在该实施例中，每个CTU的处理不能被并行完成，因为其使用解码的帧。

在HEVC或H266中，顶部和左侧邻域的分割对当前CTU的分割的编码成本有一定影响。例如，在HEVC中，在树的每个级别处的分割标志基于取决于邻域的分割深度的上下文熵编码。

为了在CNN中考虑这个信息，可以添加辅助通道(输入的主要通道是纹理和因果边界)。图12示出了使用边界信息作为辅助输入通道的一个示例。

CNN的输出与其中每个值表示给定CTU中的一个可能边界的矢量对应。在H.266中，最小块尺寸为4x4，只有4x4网格上的像素边界可以考虑用于块分割。因此，对于每个潜在边界，CNN输出用于其的概率，以与两个块之间的实际边界对应。例如，对于CTU尺寸为64x64的情况，考虑尺寸480x1的矢量。图13描绘CTU中的潜在的4个像素长的边界(310)与它们在输出矢量(320)中的对应值之间的示例性映射。每个边界，例如边界#0(330)，被分配可以以预定顺序的索引。在所示的示例中，CTU为尺寸64x64，这导致480个值的矢量。在每个树深度处评估不同的边界概率(即，块的尺寸和形状)将有助于决定是否分割块，并且在决定分割的情况下，应当执行哪个分割。

所描述的实施例将边界概率的矢量作为输入。在这个示例中，使用CNN结构计算矢量。但是，以下实施例可以采用给出在每个可能的分割位置处分割的概率的任何信息。

在每个树深度处，编码器都需要决定分割、分割的哪个类型或不分割。

提醒一下，图9中描述的框架的这一部分包括图9中描述的两个步骤840和850。它以边界概率矢量830作为输入，并为要由率失真优化(RDO)860考虑的每个分割类型输出决定(真；假)。

图14在左侧示出了示例性的真实分区，这是使用H.266候选编码器进行编码的结果，以及以灰度级描绘的对应概率。边缘越白，在每个位置处进行分割的概率越高。要注意的是，这与将概率从矢量映射到CTU中对应边界位置的表示对应。

为了获得边界的概率，提出考虑每个分割中涉及的所有边界位置。图15描绘了示例性CTU，其中我们考虑沿着L的分割，以及矢量中对应的索引，其将被考虑用于计算分割的概率。

然后，该概率对应于

其中L表示给定分割的总边界，V表示概率的矢量。要注意的是，L可以包含“十字(cross)”。

所描述的实施例提出在三个主要选项之间进行区分：

-是边界：概率足够高以预测边界

-不是边界：这个边界不存在的概率足够高，因此无法考虑。

-不确定：概率不允许做出结论。

在另一个实施例中，分割概率被更保守地计算。在上式中，分割的概率是给定边界的平均概率。但是，保守起见，我们可以将概率重新定义为边界每一侧的平均值的最小值。例如，在图21中，从概率的矢量中，水平边界的每一侧(图中的0和1)分别求平均值：L₀＝(a0+b0+c0)/3和L₁＝(a1+b1+c1)/3。

那么具有水平边界的概率为

p(L)＝min(p(L₀),p(L₁)) (等式p2)

利用这种方法，可以确保确实需要二元分割(而不仅仅是从另一个垂直然后水平分割组合的一半分割)。特别地，对于四叉树，每个边界(水平和垂直)的概率都以这种方式重新定义。

对于给定的分割，考虑p(L)并针对每种分割类型生成分割预测，在JEM的示例性情况下，可以将其表示为：

splitPred[s]∈{假,未定义,真}，s∈{NO_SPLIT,QT_SPLT,HOR,VER}

因此，每种分割类型都需要两个阈值p(L)：一个用于分割的决定Th_S，另一个用于“不分割”的决定Th_NS。如果不满足这些条件中任何一个，那么边界预测将保持未定义，并执行经典RDO。

为了更好地理解概率与阈值之间的关系，图16在y轴上示出了正确边界的比例，取决于在分区树中为3个不同级别设置“边界存在”阈值Th_S(x轴)的位置。图17示出了关于Th_NS对应的“无边界/无分割”统计数据。

由于考虑的边界是JEM(四叉树/二叉树)中的水平和垂直中间边界，因此这些图示出了这两个边界的平均比率。

例如，对于在深度1处关于概率p的0.8的分割阈值，大约90％的样本在其上方，然后得到很好的预测。对于在深度1处0.3的无分割阈值，可以很好地预测大约80％的样本。

边界决定步骤(图9中的850)将上一节中详细介绍的边界预测作为输入。取决于编码器约束，它为要由RDO执行的每种分割类型输出分割决定：是或否。

在HEVC的情况下，四叉树驱动分区，并且在每个级别分割的唯一概率与划分为4个相等面积的正方形块对应。

为了评估分割的概率，所提出的方法随后考虑形成将CU划分为4的“十字”的矢量的所有索引。

图18描绘了在HEVC的示例性情况下在编码器侧压缩CTU的整个处理。在这个简单示例中，仅考虑一种分割类型。

它以CTU(410)作为输入并输出压缩数据(460)。首先，调用返回下一个CU的函数415，其返回当前CU的参数以进行处理。在第一次调用中，如果可以将整个CTU编码为CU，那么它将返回尺度为CTU的CU。在HEVC的示例性情况下，在帧内编码图像中，最大的CU是32×32，然后要处理的第一个CU是64×64CTU中的左上32×32块。这个函数还应当考虑图像边界处的情况。

第一步(420)包括评估CU是否可以被分割。例如，最小尺寸的CU无法进一步分割。

上面在边界预测的描述(图9中的步骤840)中描述的分割概率计算(425)以当前CU为输入，并输出表示分割的概率的分数p_s。在HEVC的示例性情况下，分割的唯一可能类型与四叉树分割对应。

如果p_s优于用于分割决定Th_S的预定阈值，那么模块465自动分割CU，而不检查其成本(430)。如果不是，那么其成本由模块445检查。

在这种情况下，将p_s与另一个阈值Th_NS进行比较，以决定是否直接对其进行编码而不检查分割的概率。如果p_s<Th_NS，那么CU不由模块450直接分割和编码。

如果Th_NS<p_s<Th_S，那么将子CU的成本收集起来，以与当前CU的成本进行比较，这是经典编码器中的经典做法。做出决定(450)，并且CU被编码455或被分割465，并且下一个CU被处理。

可以注意到，当p_s>Th_S时，无需在当前级别进行RD成本检查，这是编码器处的时间增益。当p_s>Th_NS可以省去子CU的检查时，情况也是如此，因此与经典RDO相比，该方法的速度更快。

在当前CTU的所有CU都被编码时，压缩数据被输出(470)。

以下段落描述了依赖于编解码器框架的一些实用选项。

在将来的视频编码中，会出现若干种类型的分割。在由JVET设计的参考软件JEM的情况下，已采用结合了四叉树和二叉树的混合结构。

对于每个CU，可以出现三种类型的分割：

-四分：四个正方形子块

-二元水平：2个相等的带有水平边界的表面块。取决于父母的形状，它们可以是正方形或矩形。

-二元垂直：2个相等的带有垂直边界的表面块。取决于父母的形状，它们可以是正方形或矩形。

表1详细列出了针对JEM中分割概率的提出的策略，取决于边界预测p_s(或p(L))，其与分割的阈值Th_S和非分割的阈值Th_NS进行比较。在JEM中，考虑了四叉树分割以及垂直和水平二叉分割。在树的顶部，可以选择四叉树分割。一旦选择了二元分割，就不能在下一级执行四叉树分割。这个表在第三列中考虑了编解码器的这种约束。无论四叉树分割是否可用，对于相同的p_s，分割的可能选择可能不同。最后一列提供了本专利中描述的系统的输出，即，对于每种分割类型{NS(不分割)，V(垂直)，H(水平)，Q(四叉树)}，检查率失真优化的布尔值{真，假}。

在这些实施例中描述的处理的最后，RDO获得布尔值的集合或表作为输入，其通知率失真检查中是否包括每种分割类型。

表1：JEM中的分割策略，取决于边界预测、阈值和可用分割的类型

在图22至25中，我们给出了若干分割决定的决定图的示例，使用之前定义的概率和2个阈值：t_m为低阈值，决定是否没有边界，t_M为高阈值，决定是否存在边界。在图中，M_x表示在x处具有边界的概率(x为v(垂直)、h(水平)、t(顶部)、b(底部)、l(左侧)、r(右侧))，使用等式p2计算。值S_x表示使用等式p1计算的概率。

在图22中，为不分割决定的决定图。当没有垂直和水平边界时，将测试不分割。此外，如果不对称分割可用，那么还测试4种分割(水平顶部、水平底部、垂直左侧和垂直右侧)的不存在。在图23中，在不存在垂直和水平边界的情况下测试四叉树分割。注意的是，边界的存在/不存在是使用等式p2计算的，这是边界的保守概率，使用边界每一侧的最小概率。

在图24中，测试二元水平分割的示例(可以通过交换h和v将相同的逻辑应用于二元垂直)。如果四叉树在这个拓扑级别上是可能的，那么仅在不可能为四叉树分割的情况下才对分割进行测试，否则，如果不存在水平边界，那么测试该分割。

在图25中，测试不对称TOP分割的示例(相同的逻辑适用于水平底部、垂直左侧或垂直右侧)。如果不存在顶部边界，那么测试该分割。

用于H.266的其它编解码器候选建议添加其它类型的分割，即，不对称二叉树和三叉树。不对称二叉树提供了将正方形或矩形的块分割成具有不同表面的2个子块的概率。分割可以是垂直的或者水平的。子块尺寸应符合变换尺寸，通常是父块尺寸的1/4和3/4。三叉树将块分割成3个子块。分割可以是垂直的也可以是水平的。子块尺寸也应符合变换尺寸，通常是父块尺寸的1/4、1/2和1/4。与JEM一样，提出的实施例可以适于考虑分割类型和用于每个分割类型的输出决定。图8示出了所描述的实施例考虑的分割类型。

到目前为止，已经详细描述了树的每个级别的分割预测和决定。本节给出如何管理整个树的处理。如果我们以帧内的JEM为例，那么考虑5个级别。

然后可以取决于设置阈值：

-树中的级别

-分割的类型(四叉树、二元、不对称等)

-块的尺寸/形状

-量化参数(QP)

-颜色分量

-条带类型

-随机访问和低延迟模式下的时间级别。

通过树级别设置阈值的示例由下式给出：

t_m[n]＝max(0,α(n+1)^β)

t_M[n]＝min(1,max(t_m[n]+∈,α′(n+1)^β′))

在这里，β、α、β和ε是设置加速和性能之间的权衡的参数。示例性值为α＝0.1，β＝0.5，α’＝0.9，β’＝0和ε＝0.1。在等式中，n表示分割级别。例如，分割树的第一级别是0。每次分割后，树级别增加1。可替代地，对于四叉树级别，级别增加2，对于二元分割，级别增加1。在第一个等式中，低阈值(决定边界不存在)遵循树级别的增加函数，这意味着边界的不存在随树深度而增加。在第二个等式中，我们注意高阈值(决定边界的存在)始终高于低阈值。在这种情况下，最小不确定度由ε控制。

至于阈值取决于块的尺寸/形状。因此，它们可以存储在2维表中或作为集合存储：

为了简化该方案，在实验上是一致的，对于水平/垂直块，阈值可以是对称的，即，T_ixj＝T_jxi，从而减少了要优化的阈值的数量。

所提出的方法的一个优点是，它们可以加快编码器确定块的分区的决定时间。

已经关于编码器或编码操作描述前述实施例。解码器将以使用描述的与利用RDO处理生成的分割相同的方式的实施例或任何其他类型的分割实施例，简单地解释在编码器处生成的分割。

图19示出了用于对视频数据块进行编码的方法1900的一个实施例。该方法开始于开始方框1901，并且前进到方框1910，用于基于分区边界概率使用图像数据块的基于纹理的分析来生成分区概率的集合。然后控制从方框1910前进到方框1920，以使用分区概率的集合将图像数据块分区为两个或更多个更小的块。控制然后从方框1920前进到方框1930，以对至少一个更小的块进行编码。

图20示出了用于对视频数据块进行编码或解码的装置2000的一个实施例。该装置包括处理器2010，其具有输入和输出端口并且与也具有输入和输出端口的存储器2020处于信号连通。该装置可以执行前面提到的方法实施例或其任何变型。

可以使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供附图中所示的各种元件的功能。当由处理器提供时，功能可以由单个专用处理器，由单个共用处理器或由多个单独的处理器(其中一些可以共用)提供。此外，术语“处理器”或“控制器”的明确使用不应解释为专门指代能够执行软件的硬件，而可以隐含包括但不限于数字信号处理器(“DSP”)硬件，用于存储软件的只读存储器(“ROM”)，随机存取存储器(“RAM”)和非易失性存储器。

也可以包括其他常规和/或定制的硬件。类似地，图中所示的任何开关仅是概念上的。它们的功能可以通过程序逻辑的操作，通过专用逻辑，通过程序控制和专用逻辑的交互，甚至手动来实施，具体技术可由实现者选择，如从上下文中更具体地理解。

本说明书例示本构思。因此，将认识到，本领域技术人员将能够设想尽管未在本文中明确描述或示出但体现本构思并且包括在其范围内的各种布置。

本文叙述的所有示例和条件语言旨在用于教学目的，以帮助读者理解(多个)发明人为促进本领域贡献的本原理和概念，并且要被解释为不限于这种具体叙述的示例和条件。

此外，本文中叙述本原理的原理，方面和实施例及其特定示例的所有陈述旨在涵盖其结构和功能上的等同物。另外，意图是这样的等同物包括当前已知的等同物以及将来开发的等同物二者，即，开发的执行相同功能的任何元件，而与结构无关。

因此，例如，本领域技术人员将认识到，本文呈现的块图表示体现本原理的例示性电路的概念图。类似地，将认识到，任何流程图表，流程图，状态转变图，伪代码等表示可以实质上在计算机可读介质中表示并因此由计算机或处理器执行的各种处理，无论这种计算机或处理器是否明确示出。

在本文的权利要求中，表达为用于执行特定功能的装置的任何部件旨在涵盖执行该功能的任何方式，包括例如a)执行该功能的电路元件的组合或b)任何形式的软件，因此，包括与用于执行该软件以执行功能的适当电路组合的固件，微代码等。由这种权利要求定义的本原理在于以下事实：由各种叙述的部件提供的功能以权利要求书要求的方式被组合在一起。因此可以提供那些功能的任何部件都视为等同于本文所示的那些。

在说明书中对本原理的“一个实施例”或“实施例”以及其其他变型的引用意味着结合该实施例描述的特定特征，结构，特性等至少包括在本原理的至少一个实施例。因此，在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其他变型的出现不一定都指的是相同实施例。

Claims

1.一种方法，包括：

基于分区边界概率使用图像数据块的基于纹理的分析来生成分区概率的集合；

使用所述分区概率的集合将所述图像数据块分区为两个或更多个更小的块；以及，

编码至少一个更小的块。

2.一种用于对图像数据块进行编码的装置，包括：

存储器，以及

处理器，被配置为：

编码至少一个更小的块。

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中所述基于纹理的分析是使用包括与所述图像数据块相邻的因果像素并且来自同一图像的像素来执行的。

4.根据权利要求1所述的方法或根据权利要求2所述的装置，其中所述基于纹理的分析是使用邻近块的边界分区位置来执行的。

5.根据权利要求1所述的方法或根据权利要求2所述的装置，其中所述分区概率的集合包括沿着用于分割的可能边界的边界分数。

6.根据权利要求1所述的方法或根据权利要求2所述的装置，其中边界概率是基于用于生成分割、不分割或不确定的决定的阈值。

7.根据权利要求6所述的方法或装置，其中所述阈值取决于量化参数。

8.根据权利要求6所述的方法或装置，其中所述阈值取决于树深度。

9.根据权利要求6所述的方法或装置，其中所述阈值取决于块尺寸和形状。

10.根据权利要求9所述的方法或装置，其中，按矩形形状存储阈值，而与方向朝向无关。

11.根据权利要求6所述的方法或装置，其中所述阈值取决于条带类型。

12.根据权利要求6所述的方法或装置，其中所述阈值取决于随机接入的时间级别和低延迟模式。

13.一种非瞬态计算机可读介质，其包含根据权利要求1和3至12中的任一项所述的方法或由根据权利要求2和3至12中的任一项所述的装置生成的数据内容，以用于使用处理器进行回放。

14.一种信号，其包括根据权利要求1和3至12中的任一项所述的方法或由根据权利要求2和3至12中的任一项所述的装置生成的视频数据，以用于使用处理器进行回放。

15.一种包括指令的计算机程序产品，当所述程序由计算机执行时，使所述计算机解码根据权利要求1和3至12中的任一项所述的方法或由根据权利要求2和3至12中的任一项所述的装置生成的流。