CN109361920A

CN109361920A - 一种面向多场景的自适应决策树选择的帧间快速预测算法

Info

Publication number: CN109361920A
Application number: CN201811287030.XA
Authority: CN
Inventors: 王健; 施腾芮; 朱鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-02-19
Anticipated expiration: 2038-10-31
Also published as: CN109361920B

Abstract

一种面向多场景的自适应决策树选择的帧间快速预测算法，包括以下步骤：1)预备部分：输入一个视频测试序列，对该视频序列中CU帧间预测的各个PU模式进行概率统计，得到帧间预测各个PU模式的概率情况；2)训练部分：分若干个场景类别输入视频测试序列，针对各个场景类别的视频序列收集其CU块的相关特征，将收集到的特征进一步进行筛选和优化，再针对各个场景类别基于优化后的特征生成8×8、16×16、32×32、64×64的决策树；3)执行部分：输入一段由各个场景所组成的视频序列，对输入视频根据视频内场景的变换进行分割，收集各个分割后视频序列CU块的相关特征并进行优化；确定是否继续遍历之后的PU预测模式，帧间预测结束。

Description

一种面向多场景的自适应决策树选择的帧间快速预测算法

技术领域

本发明属于HEVC视频编码领域，具体涉及一种面向多场景HEVC编码单元间利用自适应选择决策树的帧间预测优化编码方法。

背景技术

随着多媒体服务的多元化，如高清视频的普及，超高清分辨率(如4k x 2k，8k x4k等)的出现，对编码性能的要求已经越来越超出H.264的能力范围，渐渐无法满足一些技术或者性能上的需求。为了解决上述问题，动态图像专家组(Moving Picture ExpertsGroup，MPEG)和视频编码专家组(Video Coding Experts Group，VCEG)成立了视频编码联合组(Joint Collaborative Team on Video Coding，JCT-VC)于2013年2月份正式发布了高性能视频编码标准(High Efficiency Video Coding，HEVC)。

HEVC编码器框架采用与H.264/AVC标准类似的预测加变换的混合编码框架，具有帧内预测、帧间运动估计、帧间运动补偿、变换、量化、环路滤波、熵编码等模块。

HEVC标准采用了更为灵活有效的块划分结构，引入了编码树单元(Coding TreeUnit,CTU)，编码单元(Coding Unit,CU)，预测单元(Prediction Unit,PU)和变换单元(Transform Unit,TU)的概念。此外，编码树块(Coding Tree Block,CTB)，编码块(CodingBlock，CB)，预测块(Prediction Block，PB)和变换块(Transform Block，TB)为与CTU，CU，PU和TU相对应的存储颜色分量的二维矩阵。即一个CTU包含了一个亮度的CTB以及两个色度的CTB。CU，PU和TU也有类似的关系。

一个典型的编码过程如下所述：对于输入编码器的每一帧图像，将被分割成为若干个块状的CTU，一个CTU会被分成若干个CU，以此来适应本地不同的内容特性。我们可以将CU、CTU他们两者之间的关系用四叉树来表示，CTU是这棵四叉树的根节点，四叉树结构也称为编码树，被用来将CTU划分成多个CU。假设CTU的大小为2N×2N，其中N的取值可以为8，16或32，则一个CTU可以单独作为一个CU，或者分成4个大小为N×N的单元，它们都是四叉树的结点。帧间模式可以使用八种划分模式，包括两种正方形形状(PART_2N×2N，PART_N×N)，两种长方形形状(PART_2N×N，PART_N×2N)，四种非对称形状(PART_2N×nU，PART_2N×nD，PART_nL×2N，PART_nR×2N)。

帧间图像的模式判决与率失真代价RDcost有关，模式选择会遍历并计算所有模式的RDcost，最后选取使得RDcost最小的模式为最终模式，这导致极大程度复杂度的上升。因为即使最佳PU预测模式在最前面的几个模式之中，编码器还得继续测完剩余全部的PU预测模式，这就增加了一些不必要的计算。由于帧间模式判断占用了大量的时间，我们需要选择合适的快速模式选择方法来降低编码的计算复杂度。在CN105791826A李康等人所写的专利中是通过决策树的算法来对帧间预测的模式选择进行判断，而本发明采用自适应选择决策树的方法对帧间预测进行优化，针对多个场景混合的视频序列可以自适应地根据各个场景选用合适的决策树。

发明内容

本发明的目的在于，提供一种针对不同类别视频场景的HEVC帧间预测快速算法，实现了自适应地根据视频序列场景去选择最佳决策树，在保证编码率失真基本没有损失的同时，针对视频序列中各个场景自适应地降低HEVC的计算复杂度。

本发明的技术方案是：基于场景类别自适应选择决策树的帧间预测快速算法，根据视频序列场景类别自适应地选择最佳决策树来降低HEVC的编码复杂度，本快速算法基于预备、训练和执行三个模块：

预备模块：输入一个视频序列，统计该视频序列帧间预测过程中CU块的各个PU预测模式的概率，得到概率统计情况；

训练模块：分场景类别输入视频序列，针对各个场景类别视频序列收集其CU块的相关特征，将收集到的特征根据PU预测模式划分情况的相关性进一步进行筛选和优化，再针对各个场景类别基于优化后的特征生成8×8、16×16、32×32、64×64的决策树；

执行模块：将由各个场景组成的视频序列输入，对输入视频序列进行场景分割，收集分割之后的视频序列的特征并优化，使用收集后的特征数据判断场景类别并选择该场景类别所对应的决策树，将统计完的特征传入决策树进行判决，输出最终划分结果；

包括以下步骤：

(1)预备部分：输入一个视频测试序列，对该视频序列中CU帧间预测的各个PU模式进行概率统计，得到帧间预测各个PU模式(MSM、2N×2N、N×2N、2N×N、N×N、nL×2N、nR×2N、2N×nU、2N×nD)的概率情况；

(2)训练部分：分若干个场景类别输入视频测试序列，针对各个场景类别的视频序列收集其CU块的相关特征，将收集到的特征进一步进行筛选和优化，再针对各个场景类别基于优化后的特征生成8×8、16×16、32×32、64×64的决策树；

(3)执行部分：输入一段由各个场景所组成的视频序列，对输入视频根据视频内场景的变换进行分割，收集各个分割后视频序列CU块的相关特征并进行优化；利用优化后的特征对分割后的视频序列进行场景类别判断并选择合适的决策树，若无合适的决策树则转入训练部分更新决策树；将优化后的特征数据传入针对该场景的决策树进行判断；判断完成，确定是否继续遍历之后的PU预测模式，帧间预测结束；

所述步骤(2)包括以下步骤：

(2-1)选取一个标准视频测试序列输入，对帧间预测的各个模式进行概率统计；

(2-2)有着不同场景类别的标准视频序列，需依次输入，先选取一个场景类别的视频输入，记录视频序列中以CU为单位MSM、2Nx2N模式的一系列相关属性；

(2-3)测试(2)中MSM、2Nx2N模式的一系列相关属性与CU最佳划分模式的相关情况，筛选出相关性高的属性；由于大部分属性和视频序列自身纹理等因素相关，需要对属性进行优化，为了避免每个属性的特征值受视频序列本身的影响，对其进行归一化；

(2-4)根据筛选优化好的特征能够对当前CU的划分模式进行预测，选取机器学习中C4.5的算法使用机器学习软件WEKA来建立决策树，针对不同场景类别建立8×8、16×16、32×32、64×64的决策树；

其中步骤(3)执行模块包括以下步骤：

(3-1)输入一个由多种场景组成的视频序列；

(3-2)根据场景变化，将该视频序列分割为针对各个场景的若干小视频序列；

(3-3)帧间预测开始，若判断CU为8×8、16×16、32×32大小，则收集上层CU的划分模式，若判断CU为64×64大小，则跳过该步骤，最终8×8、16×16、32×32、64×64大小的CU都进入MSM以及2Nx2N模式收集率失真值、运动矢量值等数据，从而获得本发明列出的选取的特征；

(3-4)针对每个分割好的小视频序列，确定该小视频序列场景最适合的决策树，如没有则转入训练部分，更新这一场景的决策树种类；

(3-5)将该小视频序列的特征传入决策树进行判断；若判断结果为不划分，则跳过之后的所有预测模式，将最佳预测模式判定为MSM和2Nx2N模式中率失真值较小的模式；若判断结果为继续划分，则按照HM原始计算顺序正常进行遍历帧间预测中剩余所有模式的步骤，遍历结束后得到率失真值最小的那个模式为最佳预测模式；

(3-6)输出结果，帧间预测结束。

其中步骤(3-4)确定该小视频序列场景最适合的决策树，进行视频场景类别判断包括以下步骤：

(3-4-1)将由若干场景组成未分割的视频序列输入，进行数据收集；假设已有针对三种场景的决策树A、B、C，将该视频序列分别传入决策树A、B、C，输出针对三类决策树的时间节省率T₁、T₂、T₃；

(3-4-2)对该视频序列分割为针对各个场景的若干小视频序列；分割完的小视频序列先传入决策树A，输出时间节省率T₁₁，若小于T₁则直接舍去A决策树，否则留下决策树A的T₁₁；

(3-4-3)依次再传入决策树B、C，进行(2)的步骤；

(3-4-4)每个小视频序列都执行(2)、(3)步骤，从而各小视频序列获得最佳决策树，将所有小视频序列整合，即完整的视频序列获得最佳优化方式。

有益效果：本发明通过利用机器学习的决策树模型来降低帧间预测模式的计算复杂度，简单易行。本发明的主要优点为：

1、本发明使用机器学习中的决策树模型将视频序列中CU块自身的特征和CU块最终的模式划分情况相联系，得到通过决策树来进行判决从而省去一些不必要的PU预测模式检测步骤的方法，大大降低了编码的计算复杂度。

2、本发明在决策树判断的基础上针对各个场景，提出了一种自适应检测判断场景并选择决策树的优化算法，这使得不是由单一场景组成的视频序列获得最佳的优化，对于混合场景的视频序列可以自适应地选择针对各个场景地决策树，具有较强的适应性。

3、在WEKA中输入PartyScene场景类型视频序列判断PartyScene场景决策树，准确率为78.5％。输入混合场景视频序列特征使用PartyScene场景决策树判决，准确率为71.2％。由此可见使用场景自适应选择合适决策树可以有效提高判断准确率。

附图说明

图1所示为HEVC帧间预测的快速算法流程。

图2所示为帧间预测快速算法的决策树生成框图。

图3所示为PartyScene场景下CU为32×32大小的决策树。

图4所示为快速算法中帧间预测的具体过程。

图5所示为视频场景类别的判断框图。

具体实施方式

本发明提出了一种基于场景类别自适应选择决策树的帧间预测快速算法，主要包括预备、训练和执行三个模块，从而降低HEVC的计算复杂度。

图1给出了HEVC帧间预测快速算法预备、训练和执行三个模块的总流程：

(1)预备部分：输入一个视频测试序列，对该视频序列中CU帧间预测的各个PU模式进行概率统计，得到帧间预测各个PU模式(MSM、2N×2N、N×2N、2N×N、N×N、nL×2N、nR×2N、2N×nU、2N×nD)的概率情况。

(2)训练部分：分若干个场景类别输入视频测试序列，针对各个场景类别的视频序列收集其CU块的相关特征，将收集到的特征进一步进行筛选和优化，再针对各个场景类别基于优化后的特征生成8×8、16×16、32×32、64×64的决策树。

(3)执行部分：输入一段由各个场景所组成的视频序列。对输入视频根据视频内场景的变换进行分割，收集各个分割后视频序列CU块的相关特征并进行优化。利用优化后的特征对分割后的视频序列进行场景类别判断并选择合适的决策树，若无合适的决策树则转入训练部分更新决策树。将优化后的特征数据传入针对该场景的决策树进行判断。判断完成，确定是否继续遍历之后的PU预测模式，帧间预测结束。

如图2所示，HEVC帧间预测快速算法的决策树生成方法步骤如下：

(1)选取一个标准视频测试序列输入，尽管HM编码器会把所有可能的划分、预测模式(MSM、2N×2N、N×2N、2N×N、N×N、nL×2N、nR×2N、2N×nU、2N×nD)测试一遍，但是最终确定下来的的最佳帧间预测模式并不是等概率的，即有些预测模式出现的概率很大而有些又很小，故而我们在HM中测试该序列并输出所有CU对应的PU预测模式，最终得到各个尺寸CU对应的概率情况为：尺寸为8*8的CU块，PU预测模式不进行划分的概率达到了95％。

(2)有着不同场景类别的标准视频序列，需依次输入，先选取一个场景类别的视频输入(HEVC指定了24个不同分辨率、帧率、场景的标准视频序列如RaceHorses、BQMall、SlideShow、BasketballDrive等，设定此次场景类别为PartyScene)，记录对应场景视频序列中以CU为单位MSM、2Nx2N模式的一系列相关属性。

(3)根据(2)中所记录下来的MSM、2Nx2N模式的一系列相关属性，测试其与CU最佳划分模式的相关情况得到CU没有被划分成多个PU的率失真值和运动矢量数值比被划分成多个PU的率失真值要小得多，而上一层CU的划分模式与当前CU的最佳划分模式有高度的相关性，记录下以下特征：

abs_2Nx2N(2Nx2N的率失真值)，abs_MSM(MSM的率失真值)，abs_Ratio(2Nx2N的率失真值/MSM的率失真值)，abs_2Nx2N_var(2Nx2N的残差)，abs_mv_MSM(MSM的运动矢量)，abs_mv_2Nx2N(2Nx2N的运动矢量)，mv_ratio(2Nx2N的运动矢量/MSM的运动矢量)，Nei_Depth(CU的深度)和Usplit(上层CU的划分决定)。

由于大部分属性和视频序列自身纹理等因素相关，我们需要对属性进行优化，为了避免每个属性的特征值受视频序列本身的影响，本发明对其进行归一化，例如归一化后2Nx2N模式的率失真值为当前帧2Nx2N模式的率失真值除以前一帧2Nx2N模式的率失真值，进行一系列优化得到以下归一化后特征：

nor_2Nx2N(归一化2Nx2N的率失真值)，nor_MSM(归一化MSM的率失真值)，nor_Ratio(归一化2Nx2N的率失真值/MSM的率失真值)，nor_2Nx2N_var(归一化2Nx2N的残差)，nor_mv_MSM(归一化MSM的运动矢量)，nor_mv_2Nx2N(归一化2Nx2N的运动矢量)，nor_mv_ratio(归一化2Nx2N的运动矢量/MSM的运动矢量)。

(4)根据(3)中筛选优化好的特征能够对当前CU的划分模式进行预测，本文选取机器学习中C4.5的算法建立决策树，这是一个递归的过程，初始时所有的数据都集中在树的根部，根据最佳分类属性对数据进行分割，得到根的左右子树，接着对左右子树递归地进行分割，当所有的当前节点中的数据都属于同一类，或者其它的停止标准满足时，递归终止，从而得到一棵决策树。本发明使用机器学习软件WEKA来建立决策树，我们将以上所述特征的值以随机采样的方式从属于不划分分类的记录中抽取一部分数据，再从属于划分分类的记录中抽取另外一部分数据，合并成为CU尺寸对应的最终训练样本集，并且保证两者样本数各占50％，将特征数据整理成ARFF格式输入到WEKA中生成对应CU尺寸的决策树，重复此步骤而获得针对不同场景类别的8×8、16×16、32×32、64×64CU尺寸的决策树，本发明列出根据(2)中所列特征在PartyScene场景下生成的32×32CU大小的决策树，如图3所示。

如图4所示，快速算法中执行模块的具体过程如下：

(1)输入一个由多种场景组成的视频序列。

(2)根据场景变化，将该视频序列分割为针对各个场景的若干小视频序列。本发明使用ColorDirector软件对多场景组成的视频序列进行场景分割，最终分割为若干不同场景的小视频序列。关于场景分割还有其他许多方法及软件可以选择使用。

(3)帧间预测开始，若判断CU为8×8、16×16、32×32大小，则收集上层CU的划分模式，若判断CU为64×64大小，则跳过该步骤，最终8×8、16×16、32×32、64×64大小的CU都进入MSM以及2Nx2N模式收集率失真值、运动矢量值等数据，从而获得本发明列出的选取的特征。

(4)针对每个分割好的小视频序列，确定该小视频序列场景最适合的决策树，如没有则转入训练部分，更新这一场景的决策树种类。

(5)将该小视频序列的特征传入决策树进行判断。若判断结果为不划分，则跳过之后的所有预测模式，直接将最佳预测模式判定为MSM和2Nx2N模式中率失真值较小的模式。若判断结果为继续划分，则按照HM原始计算顺序正常进行遍历帧间预测中剩余所有模式的步骤，遍历结束后得到率失真值最小的那个模式为最佳预测模式。

(6)输出结果，帧间预测结束。

如图5所示，视频场景类别判断的具体步骤如下：

(1)将由若干场景组成未分割的视频序列输入，进行执行模块中步骤(3)的数据收集部分，若为64×64大小，则直接进入MSM以及2Nx2N模式收集率失真值、运动矢量值等，若为8×8、16×16、32×32大小的CU，除此以外收集上层CU的划分模式。假设已有针对三种场景的决策树A、B、C，将该视频序列分别传入决策树A、B、C，输出针对三类决策树的时间节省率T₁、T₂、T₃。

(2)按照执行模块的步骤(2)对该视频序列分割为针对各个场景的若干小视频序列。分割完的小视频序列先传入决策树A，输出时间节省率T₁₁，若小于T₁则直接舍去A决策树，否则留下决策树A的T₁₁。

(3)依次再传入决策树B、C，进行(2)的步骤。即继续传入决策树B，输出时间节省率T₂₁，若小于T₂则直接舍去B决策树，否则留下决策树B的T₂₁。然后传入决策树C，输出时间节省率T₃₁，若小于T₃则直接舍去C决策树，否则留下决策树C的T₃₁。比较所留下的T_i1之间的大小关系，留下时间节省率最低的决策树即获得针对该小视频序列的最佳决策树。

(4)每个小视频序列都执行(2)、(3)步骤，从而各小视频序列获得最佳决策树，将所有小视频序列整合，即完整的视频序列获得最佳优化方式。

Claims

1.一种面向多场景的自适应决策树选择的帧间快速预测算法，其特征在于，包括以下步骤：

(1)预备部分：输入一个视频测试序列，对该视频序列中CU帧间预测的各个PU模式进行概率统计，得到帧间预测各个PU模式MSM、2N×2N、N×2N、2N×N、N×N、nL×2N、nR×2N、2N×nU、2N×nD的概率情况；

(3)执行部分：输入一段由各个场景所组成的视频序列，对输入视频根据视频内场景的变换进行分割，收集各个分割后视频序列CU块的相关特征并进行优化；利用优化后的特征对分割后的视频序列进行场景类别判断并选择合适的决策树，若无合适的决策树则转入训练部分更新决策树；将优化后的特征数据传入针对该场景的决策树进行判断；判断完成，确定是否继续遍历之后的PU预测模式，帧间预测结束。

2.根据权利要求1所述的一种面向多场景的自适应决策树选择的帧间快速预测算法，其特征在于，所述步骤(2)包括以下步骤：

(2-3)测试(2)中MSM、2Nx2N模式的一系列相关属性与CU最佳划分模式的相关情况，筛选出相关性高的属性；由于大部分属性和视频序列自身纹理等因素相关，我们需要对属性进行优化，为了避免每个属性的特征值受视频序列本身的影响，对其进行归一化；

(2-4)根据筛选优化好的特征能够对当前CU的划分模式进行预测，选取机器学习中C4.5的算法使用机器学习软件WEKA来建立决策树，针对不同场景类别建立8×8、16×16、32×32、64×64的决策树。

3.根据权利要求1所述的一种面向多场景的自适应决策树选择的帧间快速预测算法，其特征在于，其中步骤(3)执行模块包括以下步骤：

(3-1)输入一个由多种场景组成的视频序列；

(3-6)输出结果，帧间预测结束。

4.根据权利要求3所述的一种面向多场景的自适应决策树选择的帧间快速预测算法执行模块，其特征在于，其中步骤(3-4)视频场景类别判断模块包括以下步骤：

(3-4-3)依次再传入决策树B、C，进行(3-4-2)的步骤；

(3-4-4)每个小视频序列都执行(3-4-2)、(3-4-3)步骤，从而各小视频序列获得最佳决策树，将所有小视频序列整合，即完整的视频序列获得最佳优化方式。

5.根据权利要求2所述的一种面向多场景的自适应决策树选择的帧间快速预测算法执行模块，其特征在于，

步骤(2)中得到决策树的具体过程如下：不同场景类别的标准视频序列，需依次输入，先选取一个场景类别的视频输入；partyscene场景的视频序列输入，记录视频序列中以CU为单位MSM、2Nx2N模式的一系列相关属性；

测试MSM、2Nx2N模式的一系列相关属性与CU最佳划分模式的相关情况得到CU没有被划分成多个PU的率失真值和运动矢量数值比被划分成多个PU的率失真值要小得多，而上一层CU的划分模式与当前CU的最佳划分模式有高度的相关性；

对属性进行归一化，归一化后2Nx2N模式的率失真值为当前帧2Nx2N模式的率失真值除以前一帧2Nx2N模式的率失真值，得到以下最终特征：

abs_2Nx2N(2Nx2N的率失真值)，nor_2Nx2N(归一化2Nx2N的率失真值)，abs_MSM(MSM的率失真值)，nor_MSM(归一化MSM的率失真值)，abs_Ratio(2Nx2N的率失真值/MSM的率失真值)，nor_Ratio(归一化2Nx2N的率失真值/MSM的率失真值)，abs_2Nx2N_var(2Nx2N的残差)，nor_2Nx2N_var(归一化2Nx2N的残差)，abs_mv_MSM(MSM的运动矢量)，nor_mv_MSM(归一化MSM的运动矢量)，abs_mv_2Nx2N(2Nx2N的运动矢量)，nor_mv_2Nx2N(归一化2Nx2N的运动矢量)，mv_ratio(2Nx2N的运动矢量/MSM的运动矢量)，nor_mv_ratio(归一化2Nx2N的运动矢量/MSM的运动矢量)，Nei_Depth(CU的深度)和Usplit(上层CU的划分决定)；

根据上述特征能够对当前CU的划分模式进行预测，选取机器学习中C4.5的算法建立决策树，这是一个递归的过程，初始时所有的数据都集中在树的根部，根据最佳分类属性对数据进行分割，得到根的左右子树，接着对左右子树递归地进行分割，当所有的当前节点中的数据都属于同一类，或者其它的停止标准满足时，递归终止，从而得到一棵决策树；

选取机器学习中C4.5的算法即使用机器学习的软件WEKA中的C4.5算法来建立决策树，以随机采样的方式从属于不划分分类的记录中抽取一部分数据，再从属于划分分类的记录中抽取另外一部分数据，合并成为最终的训练样本集，并且保证两者样本数各占50％，将特征数据整理成ARFF格式，针对不同场景类别建立8×8、16×16、32×32、64×64的决策树。