CN111954894A

CN111954894A - 用于视频压缩的基于深度学习的图像分区

Info

Publication number: CN111954894A
Application number: CN201980025073.7A
Authority: CN
Inventors: F.加尔平; F.拉卡普; P.博尔德斯
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2018-04-10
Filing date: 2019-04-09
Publication date: 2020-11-17
Anticipated expiration: 2039-04-09
Also published as: WO2019199716A1; EP3553748A1; US11128864B2; CN111954894B; US20210136371A1; EP3776473A1

Abstract

通过使用经由使用基于深度学习的图像分区获得的分区选择，使用几种可能的分区操作中的一种或多种来拆分视频数据块。在至少一个实施例中，使用卷积神经网络在一个或多个拆分操作中拆分块。在另一实施例中，卷积神经网络的输入来自运动向量场和对应的残差。提供了用于编码的方法、设备、和信号实施例。

Description

用于视频压缩的基于深度学习的图像分区

技术领域

本原理涉及视频压缩的领域。

背景技术

在HEVC视频压缩标准(国际电信联盟，ITU-T H.265高效视频编码)中，画面被划分为所谓的编码树单元(CTU)，其尺寸通常为64×64、128×128或256×256像素。

每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分，其中每个叶子称为编码单元(CU)，如图1所示。

然后，每个CU被给予一些帧内或帧间预测参数(预测信息)。为此，将其在空间上分区为一个或多个预测单元(PU)，每个PU均分配有一些预测信息。在CU级别上分配帧内或帧间编码模式，参见图2。

根据在比特流中用信号通知的分区类型，进行将编码单元分区为(多个)预测单元。对于帧内编码单元，仅使用图3中所示的分区类型2N×2N和N×N。这意味着在帧内编码单元中仅使用方形预测单元。

相反，帧间编码单元可以使用图3所示的所有分区类型。

根据HEVC标准，在“转换树”之后，编码单元也以递归的方式被划分成所谓的转换单元。因此，转换树是编码单元的四叉树划分，并且转换单元是转换树的叶子。转换单元封装与所考虑的方形空间区域相对应的每个画面分量的方形转换块。转换块是单个分量中样本的方形块，其中应用了相同的转换。

在"基于贝叶斯决策规则的HEVC的快速编码单元尺寸选择(Fast coding unitsize selection for HEVC based on Bayesian decision rule)"(在画面编码研讨会中；IEEE会议记录，2012年5月7日)中，X.Shen等人描述了贝叶斯决策规则，以通过率失真优化来协助决策编码器侧编码单元的拆分。但是，X.Shen等人的建模，其在输入处获取每个编码单元确定的标量值的集合(例如，每个CU的运动向量)，并输出关于是否将CU拆分为4个子CU的概率决策，未能解决最新视频压缩工具所涉及的更复杂的分区问题。

新出现的视频压缩工具包括压缩域中的编码树单元表示，这允许在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优点是，与HEVC标准的CU/PU/TU布置相比，它提供了增加的压缩效率。

四叉树加二叉树(QTBT)编码工具提供了这种增加的灵活性。该编码工具在于编码树，其中编码单元既可以按四叉树也可以按二叉树方式拆分。编码树单元的这种编码树表示如图4所示。块上的QTBT表示如图5所示。

通过率失真优化过程在编码器侧决策编码单元的拆分，所述率失真优化过程在于以最小的率失真成本确定CTU的QTBT表示。

在QTBT技术中，CU具有方形或矩形形状。编码单元的尺寸始终为2的幂，并且通常为从4到256。

除了用于编码单元的各种矩形形状之外，与HEVC相比，这种新的CTU表示具有以下不同的特性。

首先，CTU的QTBT分解由两个阶段组成：首先以四叉树的方式拆分CTU，然后可以以二进制方式进一步划分每个四叉树叶子。这在图4的右侧进行了说明，其中实线表示四叉树分解阶段，并且虚线表示空间嵌入在四叉树叶子中的二元分解。

其次，在帧内片段中，亮度和色度块分区结构是分开的，并且独立地决策。

接下来，不再采用CU分区为预测单元或转换单元。换句话说，每个编码单元系统地由单个预测单元(以前是2N×2N预测单元分区类型)和单个转换单元(不划分为转换树)组成。

但是，需要进一步改进的压缩效率用于QTBT技术。

发明内容

通过所描述的实施例中的至少一个，解决了现有技术的这些和其他缺陷和缺点，这些实施例针对用于对视频数据的块进行编码的方法和设备。在至少一个实施例中，提出了使用卷积神经网络来生成用于决策编码块的拆分的边界分区概率的向量。

根据本文所述的至少一个一般实施例，提供了一种用于对视频数据的块进行编码的方法。所述方法包括：使用卷积神经网络从至少一个输入数据生成用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据；使用所述边界可能性向量将所述图像数据块分区为一个或多个较小块；以及，编码所述一个或多个较小块。有利地，运动向量场包括用于所述图像数据块的每个基本子块的运动向量，并由此针对所述图像数据块的每个基本子块确定残差数据。

根据本文描述的另一一般实施例，提供了一种用于对视频数据块进行编码的设备。所述设备包括存储器和处理器，所述处理器被配置为：使用卷积神经网络从至少一个输入数据生成用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据；使用所述边界可能性向量将所述图像数据块分区为一个或多个较小分区；以及，编码所述一个或多个较小分区。

根据本文所述的另一方面，提供了一种非瞬态计算机可读储存介质，其包含根据所描述的方法实施例中的任一个的方法或由所描述的设备实施例中的任一个的设备所生成的数据内容，用于使用处理器进行回放。

根据本文描述的另一方面，提供了一种信号，包括根据用于编码视频数据块的所描述的方法实施例中的任一个的方法或由用于编码视频数据块的所描述的设备实施例中的任一个的设备生成的视频数据，用于使用处理器进行回放。

根据本文描述的另一方面，提供了一种包括指令的计算机程序产品，当由计算机执行程序时，所述指令促使计算机执行所描述的方法实施例中的任何一个的方法。

通过下面将结合附图阅读的示例性实施例的以下详细描述，本原理的这些和其他方面、特征和优点将变得清楚。

附图说明

图1说明编码树单元和编码树构思的一个示例以表示压缩画面。

图2说明将编码树单元划分为编码单元、预测单元和转换单元的示例。

图3说明编码单元的分区的示例。

图4说明示例四叉树加二叉树编码树单元表示。

图5说明关于编码块的四叉树加二叉树表示的一个实施例。

图6说明一种标准的通用视频压缩方案。

图7说明用于为CNN(卷积神经网络)构建训练数据集的实施例。

图8说明用于训练CNN的实施例。

图9说明具有多分量输入的CNN。

图10说明用于获得CNN输入的实施例。

图11说明用于编码块的运动场。

图12说明经典的CNN方案。

图13说明CNN方案的另一实施例。

图14说明来自CNN的输出的边界的所得向量的实施例。

图15说明来自CNN的输出的边界的所得向量的另一实施例。

图16说明从CNN输出导出拆分决策。

图17说明使用所描述的方面的方法的一个实施例。

图18说明使用所描述的方面的设备的一个实施例。

具体实施方式

为了清楚起见，在本说明书中，“划分”、“分段”和“拆分”均表示相同的事物，这是对像素块执行直线划分的动作。类似地，“拆分”和“划分”意味着相同的事物，作为对块或子块进行划分、拆分或分段的结果的像素分组。

在HEVC视频压缩标准中，将画面划分为所谓的编码树单元(CTU)，具有典型尺寸为64×64、128×128或256×256像素。

每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分，其中每个叶子称为编码单元(CU)，参见图1。

根据在比特流中用信号通知的分区类型，进行将编码单元分区为(多个)预测单元。对于帧内编码单元，HEVC中仅使用图3中所示的分区类型2N×2N和N×N。这意味着在帧内编码单元中仅使用方形预测单元。

相反，帧间编码单元可以使用图3所示的所有分区类型。

根据HEVC标准，在“转换树”之后，编码单元也以递归的方式被划分为所谓的转换单元。因此，转换树是编码单元的四叉树划分，并且转换单元是转换树的叶子。转换单元封装与所考虑的方形空间区域相对应的每个画面分量的方形转换块。转换块是单个分量中样本的方形块，其中应用了相同的转换。

新出现的视频压缩工具包括压缩域中的编码树单元表示，以便在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优点在于，与HEVC标准的CU/PU/TU布置相比，它提供了改进的压缩效率。

四叉树加二叉树(QTBT)编码工具提供了这种增加的灵活性。它在于编码树，其中可以以四叉树(4个子单元)和二叉树(2个子单元)两种方式拆分编码单元。图4中说明编码树单元的这种编码树表示。

通过率失真优化过程在编码器侧决策编码单元的拆分，所述过程在于以最小的率失真成本确定CTU的QTBT表示。

在QTBT技术中，CU具有方形或矩形形状。编码单元的尺寸通常为2的幂，并且通常从4到256。

接下来，在帧内片段中，亮度和色度块分区结构是分开的，并且独立地决策。

此外，不再采用CU分区为预测单元或转换单元。换句话说，每个编码单元系统地由单个预测单元(以前是2N×2N预测单元分区类型)和单个转换单元(不划分为转换树)组成。

所描述的实施例涉及压缩中的画面编码单元表示的领域，并且旨在进一步改进压缩效率。

所描述的实施例中的至少一个所解决的问题是如何改进和/或加速在编码器处执行的率失真优化(RDO)，其对应于编码器做出的、选择用于压缩给定块、宏块或编码树单元(CTU)的标准的最佳工具的决策。代替检查每个块级别的比特率/失真以找到用于帧间片段的最佳分区，CNN(卷积神经网络)网络提供了到较小块的每种可能拆分的概率分数。这个分数的计算非常快，因为它可以高度并行化，并且可以通过修剪可能的CTU分区树来探索，从而比经典的RDO操作更简单。

这些实施例被并入视频压缩的框架中，特别是在编码阶段，在所述阶段做出决策以将给定输入视频序列的图像分区为块。自从H.264/MPEG4-AVC以来，混合编解码器已将图像分区为不同尺寸的块，以使它们的压缩工具适应纹理和对象。例如，在H.265/HEVC中，图像首先被划分为64×64个非重叠的编码树单元(CTU)，其然后潜在地会被拆分为较小的编码单元(CU)，低至8×8像素。尽管标准仅规定了用信号通知这些CU的尺寸的语法，但编码器仍需要一种有效的方式来选择和优化图像的尺寸，这取决于其压缩不同区域的能力。这个处理被包括在所谓的率失真优化(RDO)中，所述率失真优化旨在在重构区域的目标质量和要传送的所需比特之间找到最佳折衷方案。基本上，如果CTU包含经过良好预测和重构的信号，则无需将其拆分为小块，这将导致更多语法。然而，当高度详细的纹理难以编码并导致具有高能量的残差时，将其拆分成小块是有重大意义的，因为与残差的成本降低相比，语法的价格是值得的。然后，完整的RDO将在于评估CTU的每个可能的块分区，这非常复杂。参考软件编码器使用完整RDO的子集，仅考虑CTU中的固定因果部分，并添加一些启发式方法，但组合性仍然很高。

经典编码器从评估更大的块开始，并在每个级别上进行拆分为较小块的决策。在本文描述的提出的实施例中，深度学习用于预测何时将给定块拆分为较小块以及如何进行拆分。

为了以可接受的复杂度执行RDO，已经在现有编解码器中实现了几种方法。

首先，将搜索拆分为两遍：第一遍执行几乎所有的预测模式和拆分选项，但是使用快速方法评估潜在残差的能量。然后，分区被固定，并且第二遍精确地评估最佳选择模式、转换或其他工具的子集的成本。

另外，例如通过考虑先前编码的相邻区域的分区，可以使用启发式方法以避免不太可能的分区。

本文中提出的方法使得能够更快地选择分区，同时保持出色的驱动精度。

同一申请人已在2018年1月26日提交的用于帧内片段的分区的欧洲专利申请17306773.7中公开了一种用于RDO加速的涉及基于CNN的方法的先前快速编码方法。在这种方法中，使用卷积网络来进行是否响应于给定块的像素以及与给定块相邻的因果像素来拆分给定块的决策。然而，仍然期望一种涉及基于CNN的方法的用于帧间片段的分区的方法。

所提出的实施例的基本思想是使用CNN来改进现有和未来编解码器的编码器侧的率失真优化。特别地，这种技术允许系统在精度和速度方面计算对图像进行分区的更好决策。

所描述的实施例提出了考虑初始块的属性的方法，诸如例如HEVC中的CTU，并且提供了将它们拆分成较小形状的可能性。

这些方法旨在引导编码器决策，并因此适用于编码器和改进编码决策。它与图6的元素105有关。它使能编码树单元的分区，同时避免对某些潜在块及其对应复杂性进行几次率失真检查，这导致图6中所述的整个处理。

本解决方案的描述基于由联合视频探索小组(JVET)设计的参考软件的示例版本，以设计用于视频编码的下一MPEG/ITU标准，当前已知为H.266。

在这个框架中，像HEVC中一样，图像被划分为不重叠的编码树单元(CTU)。然后，CTU对应于可以被考虑用于编码给定区域的最大块。在当前版本中，CTU具有256×256像素的尺寸。然后，当纹理难以在整个CTU的表面上预测和编码时，考虑较小块。这允许针对适合于纹理的每一块选择不同的预测/转换/编码工具。这是以传送更多语法元素来描述那些选择和块形状为代价的。因此，执行率失真优化以针对给定的质量和/或比特率目标来选择最佳模式和最佳分区。在预测和转换之后的残差成本与描述编码工具的语法元素的成本之间需要找到平衡。详细区域上的块越大，残差的能量越大。另一方面，块越小，语法元素的成本就越大。

在HEVC中，块分区的结构遵循四叉树。因此，对于每个树深度，编码器可以决策是对当前块进行直接编码还是将其拆分为四个子块。通常通过评估以其当前尺寸编码所述块的成本、并将其与子块的4个成本之和进行比较，来完成此操作。如果对于给定的质量，其花费较少的比特来传送较小块的语法，则编码器将继续进行编码树中下一深度级别的评估。这要求针对所有块尺寸尝试所述标准的不同预测模式和转换以及其他工具，直到编码器达到使成本最小化的块尺寸为止，因此与解码器相比，编码器的复杂性高。

在H.266编码器的情况下，其复杂性甚至更大，由于以下多个原因：

-块尺寸范围上至256×256，

-考虑不同的块形状：方形和矩形块，

-更多的预测工具，

-更多转换。

当所描述的实施例解决了块形状的选择的改进时，以下段落将集中于以上的前两个原因。

这些实施例提出使用基于卷积神经网络CNN的方法来加快基于为所述块收集的输入而决策是否拆分块的处理。在下文中，将不加区别地使用术语“CU”或“CTU”，其指代将被拆分的编码单元。CNN输出在块中一地点处具有边界的概率。然后，处理那些输出，以输出决策，诸如：

-不拆分：以其当前尺寸和形状编码所述块

-拆分(四叉/二叉/……)：执行选择的拆分并以下一深度级别继续编码。

-无动作：让编码器以经典方式执行成本评估并做出决策。

接下来的部分详细介绍了CNN体系结构、其输入/输出、如何对其进行训练、以及编码器如何使用它来处理分区树决策。

图7描绘了对于CNN构建训练数据集的框架。首先，收集补丁200的大数据集(输入块或CU以及对应的信息X)以构建训练集。在原始序列内搜集CU。对CU进行经典地编码240，以导出230将由实际编码器220选择的边界的地面真实向量Y。根据变体实施例，还从编码导出220一些附加信息X，并将其馈送到CNN。

图8描绘了用于训练CNN的框架。CNN 300使用其当前参数来提供边界可能性310的预测向量。稍后参考图14和图16描述预测向量及其操作。使用损失函数320比较向量。例如，使用均方误差来评估向量。然后，使用此损失以通过优化处理330来导出/调整CNN的新参数。一旦在非常大的图像集上训练该CNN、并且其参数被设置340，则编码器可直接使用该CNN。

在下文中描述根据各种非限制性实施例的CNN的输入。简而言之，在编码器中，在帧间片段的情况下，块的拆分主要取决于基础运动和来自运动补偿块的预测。因此，用于帧间图像分区的CNN的输入是从与所述块相关联的运动补偿信息中导出的。在下文中，术语“根CU”指示到CNN的输入CU的尺寸。它可以对应于CTU本身，例如256×256，或者用于CNN的根CU可以在CU分层分区树中以不同深度级别设置，例如128×128或64×64。根据该实施例，可以将经典的RDO或直接拆分推论用于第一深度，然后CNN对于剩余深度级别导引(pilots)所述拆分。

图9说明了具有多分量输入的CNN。每个分量400是尺寸等于一个根CU的信道。每个分量400是CNN 300的输入。CNN的输出是边界可能性的预测向量420。根据各种非限制性实施例，信道400对于根CU的每个地点包括与以下内容有关的信息：

-运动向量针对参考画面的水平(dy)分量，

-运动向量针对参考画面的垂直(dx)分量，

-来自基于运动向量的运动补偿的残差，或者在变体中在运动补偿中使用的预测(在预测的变体中，原始纹理分量是强制性的)，

-可选地，即CU的原始像素的原始纹理。

根据一个实施例，根CU的地点对应于尺寸为4×4(例如：16×16)的基本子块。根据另一实施例，根CU的地点对应于大于4×4的子块，例如16×16或64×64，以加速CNN。此外，地点的尺寸取决于根CU尺寸。对于尺寸64×64的根CU中的4×4子块定义运动向量和残差，而根据另一示例，对于尺寸256x256的根CU中的32x32子块定义运动向量和残差。因此，与X.Shen等人的在仅考虑每个块一个残差或运动向量幅度的“基于贝叶斯决策规则的HEVC的快速编码单元尺寸选择(Fast coding unit size selection for HEVC based onBayesian decision rule)”中不同，CNN实现有利地考虑在根CU内位于同一地点的输入(针对每个地点)而允许模型的更高复杂性。在变体中，用于运动向量和对应残差的信道的数目等于可能参考画面的数目。换句话说，CNN的输入信道包括针对多个参考图像中的每一个的、多个运动向量场和残差数据。

在另一变体中，CNN的输入信道包括残差(或预测)的每一亮度和色度分量(Y，U，V)的一个信道。残差(或预测)由3个分量Y、U和V组成，其中必要时U和V已按比例放大到与Y相同的比例。或者，仅将Y分量用作CNN的输入。

在另一变体中，CNN的输入信道包括原始纹理的每一亮度和色度分量(Y，U，V)的一个信道。原始纹理由3个分量Y、U和V组成，其中必要时U和V已按比例放大到与Y相同的比例。或者，仅将Y分量用作CNN的输入。

根据特定实施例，如下所述对这些分量值进行归一化。

因此，输入信道的数目可以计算如下：

-每个残差数据1到3个信道，

-每个运动场2个信道，

-可选用于纹理的1到3个信道，

此外，用于残差和运动场的信道的数目乘以所考虑的参考图像的数目N。因此，信道的数目在3(对于具有1个参考图像和用于残差的一个亮度分量的变体)到5×N+3(对于具有N个参考图像、用于残差和纹理两者的3个颜色分量的变体)之间。

有利地，使用关于运动场的信息作为CNN输入允许查找运动的不连续性，这将引起与编码器的分区选择相同的分区选择。实际上，编码器中的帧间预测基于运动补偿预测，因此编码器和CNN两者中的分区预测均基于相干信息。

为了完整起见，现在参照图10描述其任何实施例中的CNN的输入的生成。运动向量是从运动场520或530获得的，运动场520或530是由简化运动估计560或由编码循环的单边运动估计生成的。使用响应于所考虑的运动场520或530的运动补偿来获得残差块540(当已知原始块510时，等效于块预测)。从根CU 500获得原始纹理510。在归一化550之后，输入信道被馈送到CNN。

现在描述根据各种非限制性实施例的CNN的输入。

运动场

在典型的编码器中，如图11所示，经由运动估计获得每一根CU的运动场(例如256×256)。取决于预测的基本边界的尺寸，将所述根CU划分为上述各种尺寸的子块SB(例如，从4×4上至64×64)，并对于子块确定运动向量MV。在没有定义运动向量的情况下，带有运动估计的预测被认为是无效的。在这种情况下，可以使用如下所述的掩码的变体。该处理考虑了运动向量预测因子的因果性质。某些编码器，例如由X.Li和K.Suehring在“关于JEM软件开发的AHG3的报告(Report of AHG3 on JEM software development)”(在JVET-I0003，第9次会议：韩国光州，2018年1月20-26日)中描述的JEM编码器，可以使用该运动信息，以使用单边导出处理导出当前画面的运动场。因此，根据实施例，由编码器生成的运动场520用于馈送训练数据集200。根据另一实施例，从专用运动估计器530生成的运动场530用于馈送训练数据集200。这样的专用运动估计器560基于针对当前根CU的分层块匹配，来执行简化的因果运动估计560。可以取决于预测的基本边界的尺寸，对每个子块4×4或8×8执行块匹配。可以使用编码器从相邻CU产生的运动场，来初始化块匹配算法。这将有助于降低编码成本的均匀运动场，如同使用RDO驱动的常规编码器运动估计器那样(即，简化的运动估计器是因果的，响应于块匹配并在根CU级别上运行)。

一旦获得用于根CU的运动场，就沿水平轴和垂直轴如图11所示将其分别拆分成两个信道“dx”和“dy”。在一个实施例中，使用以下函数对每一运动分量进行归一化550：

其中，m是分量的当前根CU上的“dx”(分别，“dy”)的平均值，而“s”是比例因子。比例因子通常设置为s＝32，并且将上述值箝位在[-s；s]范围内，以便将f(x)限制在[-1；1]范围内。在一个实施例中，因子s可以取决于当前图像的时间深度逐帧适配，所述时间深度对应于当前图像到参考图像的时间距离(POC_cur POC_ref)。因此，响应于当前图像和参考图像之间的时间距离，对CNN输入设置相对权重。

在一个实施例中，人们在解码画面缓冲器(DPB)中使用第一参考画面，所述第一参考画面通常是具有更高质量的画面(更近的时间/POC距离和更低的QP/时间深度)。

在另一实施例中，人们可以创建几个N个运动场(每个参考画面一个)，并且将所述N个运动场用作CNN的输入。

在另一实施例中，掩码与运动场相关联，以指示运动信息在CU中何处有效。这个掩码也是CNN的输入。

图像预测或残差

根据上述运动场530和例如存储在编码器的DPB中的对应参考图像，使用运动补偿570确定块预测。因此，将残差540计算为原始纹理510和块预测之间的差。有利地，可以使用简单的运动补偿滤波器或甚至不使用滤波器来进行运动补偿(全像素运动补偿)，以降低复杂性。

在一个实施例中，例如使用m＝0且s等于2^bitdepth(比特深度)的函数(1)对残差进行归一化，其中“bitdepth”是原始输入画面比特深度。

在一个实施例中，输入数据是预测数据和原始纹理数据。在另一实施例中，输入数据是残差数据。

在另一实施例中，由于残差的亮度和色度分量可能不具有相同的空间精度，因此残差的色度分量被上采样或残差的亮度分量被下采样。

在另一实施例中，使用附加因子s’(其中s’在[0,1]中)将残差的色度分量的相对权重设置为低于残差的亮度分量。然后，将以下函数用于残差的色度分量：

原始纹理

根据可选特性，原始纹理数据520是对CNN的一个附加输入。在一个实施例中，利用函数(1)对残差进行归一化，其中，m＝0并且s＝2^bitdepth。

在图12中，我们示出卷积神经网络(CNN)的一般设计，其中第一部分A由卷积层组成，而部分B由全连接(FC)层组成，其将部分A的输出的维数降低到输出的维数。注意，部分A可以包含其他类型的层(MaxPool，Addition等)，而部分B可以包含其他维数降低层(MaxPool等)。MaxPool从先前层的每个神经元簇中取最大值。

由于拆分结果在很大程度上取决于目标QP，因此人们可以通过QP或每隔n QP训练网络。另一种方法是将QP输入为输入信道。在这种情况下，在输入之前将量化比例在0和1之间归一化。注意，它也允许通过子块设置QP。

在另一实施例中，在卷积部分之后，即在完全连接部分中，输入该块的QP。如图13所示，在归一化之后，它只是添加到卷积部分所得向量的分量。

在另一实施例中，CNN的输入占用几个分量信道，例如以推导色度分量的拆分树，输入U分量和V分量两者。在另一实施例中，当亮度和色度共享同一树时，输入所有3个分量。

现在描述根据各种非限制性实施例的CNN的输出。CNN的输出对应于这样的向量，其中每个值表示给定CTU内的一个可能边缘。在H.266中，最小块尺寸为4×4，能够考虑仅4×4网格上的像素边缘用于块拆分。因此，对于每个潜在边缘，CNN输出其对应于两个块之间的实际边缘的概率。例如，对于CTU尺寸为64×64的情况，考虑尺寸为480×1的向量。图14描绘了CTU 610中的潜在4个像素长的边缘与它们在输出向量620中的对应值之间的示例性映射。每个边界，例如边界#0 630，被分配有可以具有预定义顺序的索引。在所示示例中，CTU的尺寸为64×64，这导致480个值的向量。更一般地，向量的尺寸为S＝2*N*(N-1)，其中N＝W/w，其中W是以像素为单元的CTU尺寸(例如W＝64)，而w是子块尺寸(例如w＝4)。有利地，为了降低CNN的尺寸，基本子块尺寸被设置为大于4×4(例如16×16)，并且常规编码器RDO将按传统方式处置较小的分区。图15以具有关联概率的边界640的图像的形式描绘了输出向量620的另一示例性映射。

然后，在最后步骤，编码器可以从CNN输出预测向量中导出如图16所示的拆分决策。简言之，基于每个潜在边界对应于两个块之间的实际边界的概率，编码器确定拆分决策。拆分决策的集合取决于编解码器语法和支持的拆分类型。在图16的表(d)中给出了不同拆分类型的示例。同一申请人已在2018年1月26日提交的欧洲专利申请18305069.9以及在2018年3月27日提交的欧洲专利申请18305341.2中公开了一种用于从CNN输出中导出拆分决策和关联概率的技术。

帧间片段中的帧内CU

帧间片段可以包含以帧内和帧间编码的CU。

因此，在另一实施例中，所述卷积神经网络进一步生成用于图像数据块的帧间-帧内编码模式可能性的向量。然后，在另一实施例中，如欧洲专利申请17306773.7中所公开的，卷积神经网络进一步处理另一卷积神经网络，所述另一卷积神经网络用于从包括像素和因果相邻像素的图像数据块中生成用于所述图像数据块的边界可能性的向量。实际上，用于预测帧间的拆分决策的CNN首先与根CU一起使用，并允许使用帧间的传统RDO导出编码器要评估的分区集合。然后，使用如欧洲专利申请17306773.7中所述的帧内CNN(CNN-intra)以预测帧内的拆分决策，并使用帧内的传统RDO导出编码器要评估的分区集合。

在另一实施例中，在帧间的一个子CU的RDO评估之后，在以下条件C1和C2下做出是否使帧内CNN的决策：

1)C1：残差的能量优于一个阈值thR。残差的能量可以用例如SAD或转换系数的绝对值之和来测量。

2)C2：子CU尺寸大于阈值ThS。

基本原理是对于小的CU，与评估小分区的所有RDO模式的复杂性相比，在推断帧内CNN的资源(时间和计算负荷)方面的复杂性可能是高的。

图17示出了用于对视频数据块进行编码的方法1700的一个实施例。所述方法开始于开始框1701，并且进行到框1710，用于使用图像的像素对于图像数据块生成边界可能性的向量。控制从框1710行进到框1720，用于使用边界可能性的向量来对块进行分区。控制从块1720行进到块1730，用于对块的一个或多个较小块进行编码。

图18示出了用于对视频数据块进行编码的设备1800的一个实施例。所述设备包括处理器1810，其具有输入和输出端口，并且与也具有输入和输出端口的存储器1820具有信号连接。所述设备可以执行前述方法实施例或其任何变体。

可以使用专用硬件以及能够与适当的软件相关联地执行软件的硬件，来提供附图中所示的各种元素的功能。当由处理器提供时，这些功能可以由单个专用处理器、单个共享处理器、或多个单独的处理器提供，其中一些可以共享。此外，对术语“处理器”或“控制器”的明确使用不应解释为排他地指代能够执行软件的硬件，而是可以隐含包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)、和非易失性储存器。

也可以包括其他常规的和/或定制的硬件。类似地，图中所示的任何开关仅是概念上的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互、或者甚至手动地实现，特定技术可如从上下文中更具体地理解的那样由实现者选择。

本说明书说明了本思想。因此，将理解，本领域技术人员将能够设计出尽管未在本文中明确描述或示出、但体现了本思想并且包括在其范围内的各种布置。

本文叙述的所有示例和条件语言旨在用于教学目的，以帮助读者理解(多个)发明人为促进本领域而做出的本原理和构思，并且应解释为不限于这样具体阐述的示例和条件。

此外，本文中阐述本原理的原理、方面和实施例及其特定示例的所有陈述旨在涵盖其结构和功能上的等效物。另外，意图是这样的等效物包括当前已知的等效物以及将来开发的等效物，即，开发的执行相同功能的任何元件，而与结构无关。

因此，例如，本领域技术人员将认识到，本文呈现的框图表示体现本原理的说明性电路的概念图。类似地，将理解的是，任何流程图解、流程图、状态转变图、伪代码等表示可以实质上在计算机可读介质中表示并因此由计算机或处理器执行的各种处理，而不管这种计算机或处理器是否明确地示出。

在本文的权利要求书中，表达为用于执行特定功能的部件的任何元件旨在涵盖执行所述功能的任何方式，包括例如a)执行所述功能的电路元件的组合或b)任何形式的软件，因此包括固件、微代码等，与用于运行所述软件以执行功能的适当电路的组合。这样的权利要求书所定义的本原理在于以下事实：由各种所阐述的部件提供的功能以权利要求书所要求的方式被组合并集合在一起。因此认为可以提供那些功能的任何部件都等效于本文所示的部件。

说明书中对本原理的“一个实施例”或“实施例”及其其他变体的引用意味着结合所述实施例描述的特定特征、结构、特性等包括在本原理的至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其他变体的出现并非必须指代同一实施例。

Claims

1.一种方法，包括：

使用卷积神经网络从至少一个输入数据生成(1710)用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据，其中所述运动向量场包括用于所述图像数据块的每个基本子块的运动向量；

使用所述边界可能性向量将所述图像数据块分区(1720)为一个或多个较小块；以及，

编码(1730)所述一个或多个较小块。

2.一种用于对视频数据块进行编码的设备，包括：

存储器，以及

处理器，配置为：

使用卷积神经网络从至少一个输入数据生成用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据，其中所述运动向量场包括用于所述图像数据块的每个基本子块的运动向量；

使用所述边界可能性向量将所述图像数据块分区为一个或多个较小块；以及，

编码所述一个或多个较小块。

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中所述输入数据还包括所述块的图像数据。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中所述输入数据还包括针对多个参考图像中的每一个的多个运动向量场和残差数据，并且其中使用多个参考图像中的相应参考图像来获得多个运动向量场中的每个运动向量场。

5.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中针对参考图像来估计运动向量场，并且其中所述参考图像是用于重构所述编码块的解码画面缓冲器中的第一参考画面。

6.根据权利要求3所述的方法或根据权利要求3所述的设备，其中所述输入数据包括预测数据而不是残差数据，其中所述残差数据是从预测数据和原始图像数据获得的。

7.根据权利要求1、3-6中任一项所述的方法或根据权利要求2-6中任一项所述的设备，其中所述运动向量场的运动向量通过以下函数归一化：

其中m是x的平均值，x分别是基本子块上运动向量的水平分量和垂直分量，而“s”是比例因子。

8.根据权利要求1、3-6中任一项所述的方法或根据权利要求2-6中任一项所述的设备，其中所述残差通过以下函数归一化：

其中x是残差，s是等于2^bitdepth的比例因子，并且bitdepth是图像数据比特深度。

9.根据权利要求1、3-8中任一项所述的方法或根据权利要求2-8中任一项所述的设备，其中基本子块的尺寸为4×4。

10.根据权利要求1、3-9中的任一项所述的方法或根据权利要求2-9中的任一项所述的设备，其中，所述卷积神经网络包括卷积层和全连接层。

11.根据权利要求10所述的方法或设备，其中在所述全连接层之前，将卷积层的输出与和所述块的量化参数相关的信息链接。

12.根据权利要求1、3-11中任一项所述的方法或根据权利要求2-11中任一项所述的设备，其中通过所述卷积神经网络进一步生成用于图像数据块的帧间-帧内编码模式可能性向量。

13.根据权利要求12所述的方法或设备，其中所述卷积神经网络还处理另一卷积神经网络，所述另一卷积神经网络用于从包括像素和因果相邻像素的图像数据块中生成用于所述图像数据块的边界可能性向量。

14.一种非瞬态计算机可读介质，包含根据权利要求1、3-13中任一项所述的方法或由权利要求2-13中任一项所述的设备生成的数据内容，用于使用处理器进行回放。

15.一种信号，包括根据权利要求1、3-13中的任一项所述的方法或由权利要求2-13中的任一项所述的设备生成的视频数据，用于使用处理器进行回放。

16.一种包括指令的计算机程序产品，当由计算机执行程序时，所述指令促使所述计算机解码根据权利要求1、3-13中的任一项所述的方法或由权利要求2-13中的任何一项所述的设备生成的流。