CN110581993A

CN110581993A - 一种基于多用途编码中帧内编码的编码单元快速划分方法

Info

Publication number: CN110581993A
Application number: CN201910759583.9A
Authority: CN
Inventors: 张昊; 符婷; 冯冰雪; 李�诚
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-17

Abstract

本发明实施例提出了一种基于多用途编码中帧内编码的编码单元快速划分方法，该快速划分方法的核心思想是结合水平二叉划分编码信息及贝叶斯分类方法跳过不必要的垂直划分，以尽可能地降低编码时间，上述方法步骤简单，计算量小，可方便地投入实际应用。

Description

一种基于多用途编码中帧内编码的编码单元快速划分方法

技术领域

本发明属于视频编码技术领域，特别涉及一种基于多用途编码中帧内编码的编码单元快速划分方法。

背景技术

高效率视频编码(High Efficiency Video Coding，简称HEVC)虽然是目前全球主要的也是最新的视频编码技术，仍然无法满足日渐发展的视频应用和视频需求。因此，运动图像专家组(Moving Picture Epert Group，简称MPEG)和视频编码专家组(VideoCodingEpert Group，简称VCEG)于2015年10月成立了联合视频探索组(Joint Video EplorationTeam，简称JVET)，研究新一代视频编码技术，以期超越HEVC的压缩效率，适应当今视频业务的迅猛发展。

在2018年4月的第10次JVET会议上，JVET定义了新一代视频编码技术的第一份草案，并将新视频标准命名为多功能视频编码(Versatile Video Coding，简称VVC)，并且发布了相应的编码器测试模型VTM1.0。与HEVC的四叉树编码结构不同，VTM1.0采用了四叉树以及嵌套的多类型树结构(QTMT)，使得编码单元(Coding Unit，简称CU)的划分更加灵活。2018年7月到10月，JVET相继发布了VVC的第二和第三份草案，相应的测试模型也更新至VTM2.0和VTM3.0。

随着视频编码技术的发展，许多新的编码工具，例如亮度与色度分离的划分结构以及多变换选择(Multiple Transform Selection，简称MTS)均被VVC采用，并集成到VTM(Video Test Model)中，这些新工具大大提高了VTM的编码效率，但同时也极大地增加了编码尤其是帧内编码的时间复杂度。VTM的帧内编码时间复杂度大约是HEVC的数倍之多。如此高的复杂度不仅使得VVC的进一步开发和研究进程受阻，也不利于今后的推广和应用。

当一幅图像进入VVC编码器后，首先会被分割成若干个大小相等的编码树单元(CTU)，CTU是最大的编码单元，通常大小为128×128像素。QTMT划分技术以CTU为根节点进行四叉划分，四叉划分的叶子节点还能以多类型树结构进一步递归划分，直到将其划分至设定的最小值。在这种结构中的每一个节点都是编码单元(CU)。除特殊情况外，多类型树的节点每次划分都会遍历上述多类型树结构中的四种划分模式，四叉树的节点除了会遍历多类型树结构中的四种划分模式外还会尝试四叉划分模式。在此过程中，需要通过率失真优化来选取最优的划分模式以及划分深度。以64×64大小的帧内CU为例，对该CU依次进行帧内预测、四叉划分、水平二叉划分、垂直二叉划分、水平三叉划分、垂直三叉划分，并分别计算帧内预测以及这五种划分下的率失真代价，选率失真代价最小的模式为最终编码模式。

复杂的划分结构以及递归的搜索方式给编码器带来了沉重的计算负担，虽然VVC与HEVC都是在基于块的混合视频编码框架下设计的，且关于HEVC划分结构加速的研究已经非常成熟，然而并不适用于VVC。

贝叶斯分类方法是一种基于统计学的分类方法，它利用贝叶斯定理来预测一个未知实例所属的最大可能类别。贝叶斯分类器的设计通常分为“学习”和“预测”两部分。首先，在“学习”阶段，需要准备大量训练数据，并给每条数据标明其所属类别标签T_i。数据集中每个样本都由n个特征进行描述，称F＝{f₁,f₂,...,f_n}为样本F的特征向量，其中，f_i为F在第i个属性上的取值。然后从训练数据集中学习给定类标签T_i下每个特征属性f_i的条件概率。在“预测”阶段，运用贝叶斯定理计算一个特定实例F在已知其特征向量后，F属于类T_i的概率，最后选择最高后验概率对应的类别作为该实例的分类结果。贝叶斯定理所表述的含义是根据类别先验概率P(T_i)和给定的类条件概率P(F|T_i)计算后验概率P(T_i|F)的方法，即公式：

P(T_i|F)＝P(F|T_i)*P(T_i)/P(F)，相比其他分类方法，贝叶斯分类器应用在CU快速划分算法中具有以下优势：(1)数学基础坚实，分类效率稳定，容易解释；(2)所需估计的参数很少，对缺失数据不太敏感；(3)无需复杂的迭代求解框架，适用于规模巨大的数据集；(4)对于类别类的输入特征变量，效果非常好。鉴于贝叶斯分类器的以上特点，本文选择贝叶斯分类器对是否跳过CU的垂直划分模式这一二分类问题进行建模。在贝叶斯分类方法中，P(F|T₀)和P(F|T₁)可以从编码数据中离线估计，并存储在查找表中。P(F|T_i)可以通过参数估计和非参数估计等方法得到。参数估计首先假定研究的问题具有某种数学模型，如数据的分布要满足正态分布，指数分布，多项式分布等等。然后使用最大似然估计或者贝叶斯估计方法等来估计先验分布中的参数，最终得到数据的具体模型。参数估计法有着简单的数学美感，如果选择的统计模型恰好与样本中的数据具有一致的分布，那么参数估计是一个很好的密度估计方法。但是经验表明，参数模型的这种基本假定有时并不成立，常见的一些函数形式很难拟合实际的物理模型，经典的密度函数都是单峰的，而在许多现实情况中却是多峰的。此外，实际的数据往往也无法使用一个分布模型精确描述。此时应该考虑用非参数估计。非参数估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，直接用已知类别样本去估计总体密度分布，是一种从数据样本本身出发研究数据分布特征的方法。

在非参数估计法中，应用最为广泛的方法为直方图估计法。直方图估计法是一种不连续的估计方法，随着估计区间变小，直方图估计的结果会逐渐具有更好的平滑性，但是过小的估计区间也会导致在某一个具体区间上的样本量不足以完成估计。由于水平二叉划分后的可用特征多、参数记录过程复杂，对P(F|T₀)和P(F|T₁)的概率密度估计采用直方图估计法。如果采用其他方法(如平滑的核密度估计方法)，需要开辟大量的空间记录密度函数取值，不适于嵌入对性能要求比较苛刻的视频编码器。其次，直方图估计计算量相对高斯核密度法更少，更容易内嵌在编码器中。

发明内容

为解决现有技术中，VVC标准编码器VTM编码时间长的问题，本发明实施例提供了一种基于多用途编码帧内编码的编码单元快速划分方法，该方法利用了水平二叉划分时上下子CU的最优划分模式(Split_upper，Split_lower)及帧内预测模式(IntraMode_upper，IntraMode_lower)，以及当前CU的最优帧内预测模式(IntraMode_curr)并结合贝叶斯分类器对是否提前跳过垂直划分模式(包括垂直二叉划分及垂直三叉划分)进行预判，缩短了编码时间，提高了实际应用性。

为实现上述目的，本发明实施例采用以下技术方案：

一种基于多用途编码中帧内编码的编码单元快速划分方法，步骤包括：

S1：准备数据，通过统计编码数据得到分类器训练所需的数据，并为数据打上不选择垂直划分(T₀)和选择垂直划分(T₁)的标签；

S2：化简特征向量，令F(f_STU,f_STL,f_PDC,f_PDU,f_PDL)为输入特征向量；

S3：直方图初始化，初始化4×5×3×3×3大小的矩阵H₀和H₁，分别用于记录不选择垂直划分和选择垂直划分的样本数

H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0，

H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0；

S4：建立直方图，根据输入的样本F更新直方图：

H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)+1if F∈T₀，

H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)+1if F∈T₁；

S5：对直方图进行归一化得到概率密度函数估计

S6：基于贝叶斯分类方法决策是否跳过垂直划分，根据式：

决策是否跳过垂直划分，当满足时，跳过垂直划分。

步骤S1中，为了得到编码数据，基于VVC的官方测试软件VTM3.0对六个不同类型的视频序列编码码流进行统计分析，编码参数包括使用VVC的all-intra配置文件Encoder_intra_vtm.cfg，对六个序列CampfireParty、DaylightRoad2、Cactus、RaceHorsesC、BasketballPass和FourPeople在四个量化参数(qp)22、27、32和37下编码10帧。这六个视频序列均来自VVC发布的官方测试序列，具有不同的分辨率、运动场景及纹理特征。需要说明的是，编码数据的获取条件并不局限于上述条件，可以根据具体需求场景自行设置。

优选地，所述编码数据的获取条件包括对视频序列CampfireParty、DaylightRoad2、Cactus、RaceHorsesC、BasketballPass和FourPeople进行统计分析。

优选地，步骤S2所述f_STU为上子CU的划分模式，f_STL下子CU的划分模式，f_PDC为当前CU的帧内预测模式，f_PDU为上子CU的帧内预测模式，f_PDL为下子CU的帧内预测模式。

f_STU,f_STL＝{0,1,2,3}分别表示水平二叉划分、垂直二叉划分、水平三叉划分和垂直三叉划分模式。

为了降低算法的复杂度，帧内预测模式并不是直接作为输入特征，而是将其分为三类：模式9到27为水平方向类，其值为0；模式39到57为垂直方向类，其值为1；其他模式为对角模式，其值为2。

上述非参数概率密度估计将存储于一张查找表中，分类器在使用式

的决策规则时可通过查表得到P(F|T_i)。

优选地，步骤S5中，N₀为训练集中不选择垂直划分的样本总数，N₁为训练集中选择垂直划分的样本总数，P(F∣T₀)为CU在尝试完所有划分模式后不选择垂直划分的类条件概率密度函数，P(F∣T₁)为选择垂直划分的类条件概率密度函数。

优选地，步骤S6中，P(T₀)为类T₀的先验概率，P(T₁)为T₁的先验概率，τ为可调阈值。

进一步优选地，所述τ的取值为5。

在VTM的帧内编码模块中，灵活的QTMT划分结构以及新引入的编码工具如MTS等是编码复杂度增加的主要原因。

与HEVC以及H.264/AVC一样，VVC也采用了基于块的混合编码框架。基于这一框架，VVC编码技术对以上各种冗余都有相应模块优化。图1所示为典型的VVC视频编码流程。如图1中所示，输入的图像首先被划分为大小相等的正方形图像块，这些图像块被称为树形编码单元(Coding Tree Unit，简称CTU)，CTU是四叉树以及嵌套的多类型树划分结构的根节点。CTU将根据四叉树及嵌套多类型树的划分结构进一步划分为编码单元(Coding Unit，简称CU)，CU是编码器对视频信号进行后续处理的基本单位。一个CU首先会根据其帧内帧间属性进行帧内预测或者帧间预测。如果是帧内预测，则主要利用空间相邻的参考像素经过线性插值得到当前CU的像素预测值，如果是帧间预测，则是利用时间相邻(前一帧或前几帧)的参考像素经过位移补偿得到当前CU的像素预测值。然后将CU的预测值与原始值相减得到残差，残差经过变换进一步减少相邻像素点误差的空间相关性并得到相应的残差系数。残差系数经量化后一方面会结合编码模式以及相关的编码参数等信息进行熵编码，从而得到压缩后的码流。另一方面，量化后的残差系数会经反量化反变换，然后将残差和预测值相加得到重建像素，重建图像经滤波后生成参考帧并存储在解码图像缓存器中，用于后面的CU帧内预测或帧间预测时作参考像素。

VVC视频编码标准在图像划分技术上采用了一种更灵活的结构——基于四叉树及嵌套多类型树的结构，除了支持四叉划分还支持不同方向的二叉划分及三叉划分。VVC一共有五种划分模式，分别为四叉划分、垂直二叉划分(SPLIT_BT_VER)、水平二叉划分(SPLIT_BT_HOR)、垂直三叉划分(SPLIT_TT_VER)和水平三叉划分(SPLIT_TT_HOR)，其中，四叉划分称为四叉树结构，垂直二叉划分、水平二叉划分、垂直三叉划分和水平三叉划分称为多类型树结构。多类型树结构中的各个划分模式如图2～5所示，图2为垂直二叉划分示意图，图3为水平二叉划分示意图，图4为垂直三叉划分示意图，图5为水平三叉划分示意图。图2和图3中，CU的二叉划分为对称划分，图4和图5中，三叉划分则以边长1:2:1的比例划分。在多类型树划分结构下，VVC能更好地适应分辨率越来越大、内容越来越丰富、纹理越来越复杂的视频序列。

当一幅图像进入VVC编码器后，首先会被分割成若干个大小相等的CTU，CTU是最大的编码单元，通常大小为128×128像素。QTMT划分技术以CTU为根节点进行四叉划分，四叉划分的叶子节点还能以多类型树结构进一步递归划分，直到将其划分至设定的最小值。在这种结构中的每一个节点都是CU。除特殊情况外，多类型树的节点每次划分都会遍历上述多类型树结构中的四种划分模式，四叉树的节点除了会遍历多类型树结构中的四种划分模式外还会尝试四叉划分模式。在此过程中，需要通过率失真优化来选取最优的划分模式以及划分深度。以64×64大小的帧内CU为例，对该CU依次进行帧内预测、四叉划分、水平二叉划分、垂直二叉划分、水平三叉划分、垂直三叉划分，并分别计算帧内预测以及这五种划分下的率失真代价，选率失真代价最小的模式为最终编码模式。

本发明实施例的有益效果

1、本发明实施例提出了一种基于多用途编码中帧内编码的编码单元快速划分方法，该快速划分方法的核心思想是结合水平二叉划分编码信息及贝叶斯分类方法跳过不必要的垂直划分，以尽可能地降低编码时间；

2、本发明实施例提供的方法步骤简单，计算量小，可方便地投入实际应用。

附图说明

图1是典型的VCC视频编码流程图。

图2为垂直二叉划分示意图。

图3为水平二叉划分示意图。

图4为垂直三叉划分示意图。

图5为水平三叉划分示意图。

图6为实施例的流程示意图。

具体实施方式

本发明实施例通过提供一种基于多用途编码帧内编码模式的多变换选择加速方法，解决了现有技术中VVC标准编码器VTM编码时间长的问题，缩短了编码时间，扩大了应用性。

为了更好的理解上述技术方案，下面将结合具体的实施方式对上述技术方案进行详细地说明。

实施例

S2：化简特征向量，令F(f_STU,f_STL,f_PDC,f_PDU,f_PDL)为输入特征向量，其中f_STU和f_STL分别为上下子CU的划分模式，f_STU,f_STL＝{0,1,2,3}分别表示水平二叉划分、垂直二叉划分、水平三叉划分和垂直三叉划分模式。f_PDC,f_PDU,f_PDL分别为当前CU和上下子CU的帧内预测模式，为了降低算法的复杂度，帧内预测模式并不是直接作为输入特征，而是将其分为三类：模式9到27为水平方向类，其值为0；模式39到57为垂直方向类，其值为1；其他模式为对角模式，其值为2；

H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0

H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0；

S4：建立直方图，根据输入的样本F更新直方图

S5：对直方图进行归一化得到概率密度函数估计

其中N₀和N₁分别为训练集中不选择垂直划分和选择垂直划分的样本总数，P(F|T_i)为CU在尝试完所有划分模式后不选择垂直划分(当i＝0时)和选择垂直划分(当i＝1时)的类条件概率密度函数。这些非参数概率密度估计将存储于一张查找表中，分类器在使用式(3-6)的决策规则时可通过查表得到P(F|T_i)；

S6：基于贝叶斯分类方法决策是否跳过垂直划分，即根据下式

决策是否跳过垂直划分，其中，P(T₀)和P(T₁)分别为类T₀和T₁的先验概率，可以从编码数据中统计得到，τ为可调阈值，本文经过大量仿真实验，发现τ为5时，本发明方法能取得较好的编码质量和时间节省。当满足时，跳过垂直划分，否则不跳过垂直划分；

将实施例基于VVC官方参考平台VTM3.0实现，并在JEVT的通用测试条件下进行实验。在编码器的设置上，使用默认的All-Intra配置中的设置，测试所用视频序列为JVET推荐的六类共22个序列，B到E类测试视频序列与HEVC的标准测试视频序列相同，其输入比特深度为8比特，分辨率从1920×1080到416×240不等，A1到A2类测试视频序列为VVC新增的超高清测试视频序列，其输入比特深度为10比特。编码性能主要由BDBR(Bjotegaard DeltaBit rate)和TS两个指标进行评估，并以原始的VTM3.0编码器为基准评估算法的编码性能。其中，BDBR表示在同样的客观质量下两种编码方法的码率差值，由同一段视频在四个QP取值下(22，27，32，37)分别编码并计算码率和PSNR所得到，BDBR能够综合反映视频的码率和质量，其值越大说明所提出的快速算法相比原编码器码率更高，算法的压缩性能越差。TS则用于衡量快速算法在原编码器的基础上对编码时间的缩减程度，其计算方式如下：

其中，T_p为将快速算法嵌入VTM3.0后的总编码时间，T₀为原编码器VTM3.0的总编码时间。实验结果如表1所示。

表1 实验结果

表1中Y，U，V分别为亮度和色度分量的BDBR。根据实验结果，从平均意义上看，CU快速划分算法使Y，U，V分量的BDBR分别平均增加了1.02％，0.96％，1.05％，说明各分量的码率并无明显增加，有效地保证了编码器的压缩性能，而编码时间相比原编码器减少了45％，大大降低了编码复杂度。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越本发明所限定的范围。

Claims

1.一种基于多用途编码中帧内编码的编码单元快速划分方法，其特征在于，步骤包括：

H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0，

H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝0；

S4：建立直方图，根据输入的样本F更新直方图：

H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝H₀(f_STU,f_STL,f_PDC,f_PDU,f_PDL)+1 if F∈T₀，

H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)＝H₁(f_STU,f_STL,f_PDC,f_PDU,f_PDL)+1 if F∈T₁；

S5：对直方图进行归一化得到概率密度函数估计

S6：基于贝叶斯分类方法决策是否跳过垂直划分，根据式：

决策是否跳过垂直划分，当满足时，跳过垂直划分。

2.根据权利要求1所述的方法，其特征在于，所述编码数据的获取条件包括对视频序列CampfireParty、DaylightRoad2、Cactus、RaceHorsesC、BasketballPass和FourPeople进行统计分析。

3.根据权利要求1所述的方法，其特征在于，步骤S2所述f_STU为上子CU的划分模式，f_STL下子CU的划分模式，f_PDC为当前CU的帧内预测模式，f_PDU为上子CU的帧内预测模式，f_PDL为下子CU的帧内预测模式。

4.根据权利要求1所述的方法，其特征在于，步骤S5中，N₀为训练集中不选择垂直划分的样本总数，N₁为训练集中选择垂直划分的样本总数，P(F∣T₀)为CU在尝试完所有划分模式后不选择垂直划分的类条件概率密度函数，P(F∣T₁)为选择垂直划分的类条件概率密度函数。

5.根据权利要求1所述的方法，其特征在于，步骤S6中，P(T₀)为类T₀的先验概率，P(T₁)为T₁的先验概率，τ为可调阈值。

6.根据权利要求5所述的方法，其特征在于，所述τ的取值为5。