CN112601087A

CN112601087A - 一种针对h.266/vvc的快速cu分裂模式决策方法

Info

Publication number: CN112601087A
Application number: CN202011320958.0A
Authority: CN
Inventors: 张秋闻; 赵永博; 蒋斌; 赵进超; 黄立勋; 崔腾耀; 郭睿骁; 吴庆岗; 魏涛; 常化文; 王晓; 张伟伟; 孟颍辉; 李祖贺; 黄伟; 甘勇
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-04-02
Anticipated expiration: 2040-11-23
Also published as: CN112601087B

Abstract

本发明提出了一种针对H.266/VVC的快速CU分裂模式决策方法，用于解决H.266/VVC编码的计算复杂度高的技术问题。其步骤为：首先，采用原始VTM算法对待编码的当前帧的第一个CTU进行编码，并统计编码过程中该CTU所有CU的ASM，进而得到第一个CTU的最小阈值和最大阈值；其次，在对后续的视频序列编码时，将当前CU的ASM值与最小阈值和最大阈值进行对比，从而判断当前CU是否继续分裂。最后通过纹理方向算法计算需要进行分裂的CU的纹理方向，根据纹理方向选择出最佳CU分裂模式。本发明通过GLCM和SAD的结合，能够在节省大量计算量的前提下，提前预测最佳CU分裂模式，降低了计算复杂度，节省了编码时间。

Description

一种针对H.266/VVC的快速CU分裂模式决策方法

技术领域

本发明涉及图像处理技术领域，特别是指一种针对H.266/VVC的快速CU分裂决策方法。

背景技术

近年来，诸如360度和高动态范围(HDR)之类的视频显示出巨大的需求潜力。当前广泛使用的高效视频编码(HEVC)是ITU-T VCEG在2013年制定的视频编码标准。但是，HEVC很难应对视频的更高压缩率(例如360度和高动态范围(HDR))的需求。为了解决这个问题，联合视频探索小组(JVET)在2018年定义了VVC和VVC测试模型1(VTM 1)编码方法的初稿。在随后的会议中逐渐添加了一系列具有更高压缩效率的编码工具。例如，MTT拆分结构用于编码树单元(CTU)分区过程。在HEVC中，一个CU分为四个子CU。MTT拆分结构不像HEVC这样仅可以使用四叉树(QT)拆分结构，VVC在编码过程中可以使用QT、BT和TT结构。这允许在VVC中将CU分为两个，三个或四个CU，编码器可以更灵活地拆分CU，以降低视频比特率。这种结构对提高编码率有很大的作用。另外，对于I切片，亮度和色度CU的编码树结构是不同的。为了提高当前CU的预测精度，VVC的定向帧内模式的数量已经增加到65，这远远超过HEVC的33。在帧内预测过程中，所有大小的亮度和色度CU均可使用这65种模式。

由于引入了这些新的编码工具，因此VVC的编码效率比HEVC大约高50％。但是，这些编码工具也给编码过程带来了巨大的复杂性。尤其是MTT结构的灵活性导致很高的编码计算复杂度。与HEVC不同，VVC需要在CU分区过程中预测CU深度并选择CU拆分模式，其中CU拆分模式包括垂直二进制拆分、水平二进制拆分、垂直三元拆分或水平三元拆分。因此，MTT结构带来的计算复杂性限制了VVC的使用。在过去几年中，出现了许多基于QT拆分结构的方法来加速帧内预测编码。但是这些策略很少降低VVC的复杂性。因此，开发一种能够加快VVC编码快速的算法是非常有实用意义的。

许多研究人员提出了一些有效的方法，可以加快帧内预测并降低编码复杂度。T.Fu和M.Jamali都研究了SATD和CU深度之间的关系，其中可以根据邻近CU的SATD的大小和当前CU的SATD的大小提前消除一些不良的候选模式。为了进一步加速帧内编码，H.S.Lee等人使用相邻CU的CU深度信息来加快帧内预测，这可以大大减少当前CU分区过程中的计算。而且，由于它仅考虑相邻CU之间的时间相关性，因此受到限制。几乎所有这些算法都对RMD进行了初步评估，然后，将具有较小SATD的CU拆分模式添加到MPM，最后，执行RD计算以选择最佳分割模式。L.Shen提出了一种快速的TU大小决策算法，该算法使用Bayes决策方法以及残差因子和变换大小之间的方差关系，可以减少HEVC中变换大小的候选数量。Q.Zhang提出了一种HEVC-SCC有效的帧内模式决策方法，该方法有效地利用了HE树块的纹理复杂度。该方法根据亮度值的变化程度来分析SC树块的纹理复杂度。将来可以使用此方法来降低VVC的编码复杂度。上述这些方法可以节省大量的编码时间。但是，由于VVC的CU拆分结构与HEVC显著不同，因此这些方法无法直接应用于VVC。此外，Q.Hu和H.Huang等人已经提出了许多基于CNN的快速帧内预测算法，这些算法大多数是基于形状的CNN训练方案，使用CNN训练来加快CU分区模式和CU深度的预测。但是，将在VTM的编码过程中分别生成长宽比为1/8、1/4、1/2、1、2、4或8的矩形。因此，在VVC编码过程中使用CNN将大大增加CNN的参数，并导致CNN的复杂性显着。换句话说，很难实现与HEVC使用CNN相同的效率。

最近，许多研究人员研究了MTT结构的特性，以提高VVC的编码复杂度。J.Chen设计了一种基于方差和梯度的快速方法来加快VVC的编码。该算法首先终止平滑区域的进一步划分。然后，根据由Sobel算子计算出的梯度特征进一步选择更好的QT分区。最后，通过比较子CU的方差，直接从五个可能的分区模式中选择分区。Q.Zhang设计了一种快速编码单元(CU)分区和帧内模式决策算法，该算法包括基于随机森林分类器(RFC)模型的快速CU分区和基于纹理区域特征的快速帧内预测模式优化。S.De-Luxán-Hernández介绍了内部子分区(ISP)算法的用法，ISP将帧内预测块细分为2个或4个子分区(最多16个样本)，然后分别对每个分区进行编码。该方法可以提高帧内预测的编码率，但是增加了计算复杂度。Q.Zhang提出了一种基于改进的有向无环图支持向量机(DAG-SVM)模型的快速CU分区决策算法，设计了一种快速CU分区决策算法，该方法提出了减少编码复杂度的新思路。K.Fan提出了一种新的基于Karhunen-Loève变换(KLT)的可分离变换算法，该方法解决了传统KLT的缺点。M.Lei提出了基于前瞻性预测的CU大小修剪算法，以减少冗余的MTT分区，该方法通过提前识别不必要的划分方向来加快帧内预测模式决策过程。尽管这些方法可以加快VVC的帧内预测过程，但MTT结构与纹理特征之间的相关性并未得到很好的利用。因此，仍有很大的潜力来进一步降低VVC编码的复杂性。

发明内容

针对H.266/VVC编码的计算复杂度高的技术问题，本发明提出了一种针对H.266/VVC的快速CU分裂决策方法，通过改进的灰度共生矩阵纹理复杂度方法GLCM和改进的纹理方向计算方法SAD的结合，能够在节省大量计算量的前提下，提前预测最佳CU分裂模式，降低了计算复杂度，节省了编码时间。

本发明的技术方案是这样实现的：

一种针对H.266/VVC的快速CU分区决策方法，其步骤如下：

S1、采用原始VTM算法对待编码的当前帧的第一个编码树单元(CTU)进行编码，计算第一个CTU中的每个CU的纹理复杂度能量值(ASM)，统计编码过程中产生的所有CU的ASM，将所有未停止分裂的CU中最小的ASM作为阈值LowerLimit，将所有停止分裂的CU中最大的ASM作为阈值HigherLimit；

S2、将当前帧的下一个CTU作为当前CTU，对当前CTU进行编码时，根据当前CTU上方的CTU和CTU左侧的CTU采用自适应迭代算法计算当前CTU的阈值LowerLimit₀和HigherLimit₀；

S3、将当前CTU的每个CU的ASM分别与阈值LowerLimit₀和HigherLimit₀进行对比，若当前CTU的CU的ASM小于阈值LowerLimit₀，则当前CTU的CU停止分裂，跳至下一个CTU，返回步骤S2；若当前CTU的CU的ASM大于HigherLimit₀，则执行步骤S5继续分裂，若当前CTU的CU的ASM大于LowerLimit₀且小于HigherLimit₀，执行步骤S4；

S4、使用原始VTM算法判断当前CTU的CU是否进行分裂，若是，执行步骤S5，否则，当前CTU的CU停止分裂，跳至下一个CTU，返回步骤S2；

S5、使用纹理方向算法计算当前CTU的CU的纹理方向斜率Th_SAD，将Th_SAD与纹理方向阈值0.25和4作对比；若Th_SAD小于0.25，则当前CTU的CU的纹理方向是横向，执行步骤S6，若Th_SAD大于4，则当前CTU的CU的纹理方向是纵向，执行步骤S7，若Th_SAD位于0.25和4之间，对当前CTU的CU进行四叉树分裂模式进行分裂，跳至下一个CTU，返回步骤S2；

S6、对当前CTU的CU分别进行横向二叉树、横向三叉树分裂模式进行分裂，并对比横向二叉树、横向三叉树分裂后的率失真值，将最小的率失真值对应的分裂模式作为当前CTU的CU的分裂模式，跳至下一个CTU，返回步骤S2；

S7、对当前CTU的CU分别进行纵向二叉树、纵向三叉树分裂模式进行分裂，并对比纵向二叉树、纵向三叉树分裂后的率失真值，将最小的率失真值对应的分裂模式作为当前CU的分裂模式，跳至下一个CTU，返回步骤S2。

所述纹理复杂度能量值的计算方法为：

S11、首先将CU中图像的像素灰度值按一定比例压缩，压缩后的位置(i,j)处的像素灰度值为g_ij，其中，(i,j)为CU中像素位置，i表示横坐标，j表示纵坐标；

S12、利用像素相等性判别公式计算相同像素的数量，其中，0度、45度和90度像素相等性判别公式分别：

其中，M是压缩后的CU的长度，N是压缩后的CU的宽度，R_ij表示距离为δ的两个像素值相等的数量；

S13、统计压缩后的CU内所有相等像素的数量，组成灰度共生矩阵P_δ：

其中，δ是相比较的两个像素点的距离；

S14、统计0度、45度和90度的灰度共生矩阵的和，并将其归一化得到压缩后的CU的纹理复杂度能量值ASM_δ：

其中，Asm表示当前正在编码CU的纹理复杂度能量值。

所述根据当前CTU上方的CTU和CTU左侧的CTU采用自适应迭代算法计算当前CTU的阈值LowerLimit₀和HigherLimit₀的方法为：

其中，H_c,c是当前CTU的阈值HigherLimit₀，L_c,c是当前CTU的阈值LowerLimit₀，H_c-1,c′是当前CTU左侧的已经编码完成CTU的自校正后的阈值H_c-1,c，L_c-1,c′是当前CTU左侧的CTU的自校正后的阈值L_c-1,c，H_c,c-1′是当前CTU上方的CTU的自校正后的阈值H_c,c-1，L_c,c-1′是当前CTU上方的CTU的自校正后的阈值L_c,c-1；

其中，P_c-1,c,1为当前CTU上方的CTU中编码后的CU的ASM大于H_c-1,c的概率，P_c-1,c,2为当前CTU上方的CTU中编码后的CU的ASM小于L_c-1,c的概率，P_c-2,c,1为当前CTU上方的CTU的上方的CTU中编码后的CU的ASM大于H_c-2,c的概率，P_c-2,c,2为当前CTU上方的CTU的上方的CTU中编码后的CU的ASM小于L_c-2,c的概率，P_c-1,c-1,1为当前CTU上方的CTU的左侧的CTU中编码后的CU的ASM大于H_c-1,c-1的概率，P_c-1,c-1,2为当前CTU上方的CTU的左侧的CTU中编码后的CU的ASM小于L_c-1,c-1的概率，H_c-1,c为当前CTU上方的CTU的高阈值，L_c-1,c为当前CTU上方的CTU的低阈值，H_c-2,c为当前CTU上方的CTU的上方CTU的高阈值，L_c-2,c为当前CTU上方的CTU的上方CTU的低阈值，H_c-1,c-1为当前CTU上方的CTU的左侧CTU的高阈值，L_c-1,c-1为当前CTU上方的CTU的左侧CTU的低阈值；P_c,c-1,1为当前CTU左侧的CTU中编码后的CU的ASM大于H_c,c-1的概率，P_c,c-1,2为当前CTU左侧的CTU中编码后的CU的ASM小于L_c,c-1的概率，P_c,c-2,1为当前CTU左侧的CTU的左侧CTU中编码后的CU的ASM大于H_c,c-2的概率，P_c,c-2,2为当前CTU左侧的CTU的左侧CTU中编码后的CU的ASM小于L_c,c-2的概率，P_c-1,c-1,1为当前CTU左侧的CTU的上方CTU中编码后的CU的ASM大于H_c-1,c-1的概率，P_c-1,c-1,2为当前CTU左侧的CTU的上方CTU中编码后的CU的ASM小于L_c-1,c-1的概率，H_c,c-1为当前CTU左侧的CTU的高阈值，L_c,c-1为当前CTU左侧的CTU的低阈值，H_c,c-2为当前CTU左侧的CTU的左侧CTU的高阈值，L_c,c-2为当前CTU左侧的CTU的左侧CTU的低阈值。

所述使用纹理方向算法计算当前CTU的CU的纹理方向斜率Th_SAD的方法为：

S31、计算CU中每一行像素点的均值

和每一列的像素点均值

计算方式如下：

其中，Y(x,y)为位置(x,y)处的像素值，M₁为CU的长度，N₁为CU的宽度；

S32、分别计算CU的横向纹理复杂度和纵向纹理复杂度：

其中，SAD_hor为CU的横向纹理复杂度，SAD_ver为CU的纵向纹理复杂度；

S33、根据CU的横向和纵向纹理复杂度计算CU纹理方向的斜率Th_SAD：

其中，

表示CU的自适应因子。

本技术方案能产生的有益效果：本发明首先通过改进的灰度共生矩阵纹理复杂度方法GLCM计算正在编码的CTU中每个CU的纹理复杂度ASM；利用当前CTU上方和左侧已经编码CTU的深度预测阈值HigherLimit和LowerLimit来计算当前CTU的自适应阈值；其次，将每个CU的ASM与当前CTU的自适应阈值相比较，直接判断该CU是否需要继续分裂。若ASM小于LowerLimit则停止分裂，开始对下一个CU处理；若ASM大于HigherLimit则继续分裂；若ASM位于LowerLimit和HigherLimit之间，则使用原始的VTM算法判断CU是否需要继续分裂；然后，当该CU被判定为需要被继续分裂，计算该CU的横向纹理复杂度和纵向纹理复杂度SAD，计算纹理复杂度斜率与纹理方向阈值进行比较；若大于横向纹理阈值则可判定该CU的纹理方向是横向，此时可直接判定CU的分裂模式是横向二叉树分裂或横向三叉树分裂；若小于纵向纹理阈值则可判定该CU的纹理方向是纵向，此时可直接判定CU的分裂模式是纵向二叉树分裂或纵向三叉树分裂；因此，降低了计算复杂度，节省了编码时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的自适应变量LowerLimit和HigherLimit的向右迭代示意图；

图3为本发明的自适应变量LowerLimit和HigherLimit的向下迭代示意图；

图4为本发明方法与PV-CNN、FQPD-VG和RFCTRF方法的编码时间的节省情况对比结果；

图5为本发明方法与PV-CNN、FQPD-VG和RFCTRF方法的BDBR的增加情况对比结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种针对H.266/VVC的快速CU分区决策方法，具体步骤如下：

S1、采用原始VTM算法对待编码的当前帧的第一个编码树单元(CTU)进行编码，VTM会将CTU划分为4个大的CU，再对每个CU进行分裂。在这个过程中，计算第一个CTU中的每个CU的纹理复杂度能量值(ASM)，统计编码过程中产生的所有CU的ASM，将所有未停止分裂的CU中最小的ASM作为阈值LowerLimit，将所有停止分裂的CU中最大的ASM作为阈值HigherLimit。

所述纹理复杂度能量值的计算方法为：

S11、首先将CU中图像的像素灰度值按一定比例压缩，压缩后的位置(i,j)处的像素灰度值为g_ij，其中，(i,j)为CU中像素位置，i表示横坐标，j表示纵坐标；比如：CU中图像的像素灰度值是0-255，将图像中的灰度值按一定比例压缩，例如按照1/5进行压缩，压缩后的像素灰度值为0-51。

S12、利用像素相等性判别公式计算相同像素的数量，其中，0度、45度和90度像素相等性判别公式分别为：

其中，M是压缩后的CU的长度，N是压缩后的CU的宽度，R_ij表示距离为δ的两个像素值相等的数量；若距离为δ的两个像素值相等则R_ij等于1，若不相等则R_ij等于0。

其中，δ是相比较的两个像素点的距离；一般可将δ设置为1-3，因为一个CU的最小边长为4，超出最小边长时，P_δ的计算值无效。

其中，Asm表示当前正在编码CU的纹理复杂度能量值，ASM越大表示CU的纹理复杂度越高。R_ij表示0、45度和90度方向上相同像素的数量。

S2、将当前帧的下一个CTU作为当前CTU，对当前CTU进行编码时，根据当前CTU上方的CTU和CTU左侧的CTU采用自适应迭代算法计算当前CTU的阈值LowerLimit₀和HigherLimit₀；对当前帧第一个CTU之后的每个CTU编码时，均使用当前CTU的上方的CTU和左侧的CTU使用自适应迭代算法计算LowerLimit和HigherLimit。若其中一个被参考的CTU不存在，则只使用另一个单个CTU进行计算。然后，将当前CTU的每个CU的ASM与LowerLimit和HigherLimit对比；如图1中显示，若ASM小于LowerLimit，则当前CU停止分裂；若ASM大于HigherLimit则继续分裂，若ASM大于LowerLimit且小于HigherLimit则使用原始VTM算法进行判断。如图2和图3所示，具体方法为：

S31、计算CU中每一行像素点的均值

和每一列的像素点均值

计算方式如下：

S32、分别计算CU的横向纹理复杂度和纵向纹理复杂度：

其中，

表示CU的自适应因子。

为了评估本发明的方法，在H.266/VVC编码器(VTM7.0)上进行了仿真测试。BDBR反映了本发明的压缩性能，节省的时间(△T)体现了复杂性的降低。表1给出了本发明的编码性能，本发明可以节省48.58％编码运行时间，平均BDBR增量为0.91％。因此，本发明可以有效地节省编码时间，并且RD性能的损失可以忽略不计。

表1本发明的编码性能

从表1可以看出本发明与VTM相比RD性能和节省的编码运行时间。本发明可以有效地增加时间节省，并且具有良好的RD性能。与VTM相比，本发明方法可以减少48.58％的编码时间，同时BDBR可以忽略不计。对于不同的视频序列，实验结果会有小的波动，但是本发明提出的方法是有效的。

将本发明方法与最新的H.266/VVC快速方法相比较，这些算法包括PV-CNN、FQPD-VG、和RFCTRF方法。图4和图5分别给出了节省编码时间和BDBR的编码结果，由图4和图5可知，本发明方法可以节省时间并具有良好的RD性能，与CTDM、FIVG、FBDA和PDFD方法相比，本发明提出的方法在控制BDBR恶化方面具有更高的性能，本发明提出的方法与PV-CNN方法相比，本发明提出的方法节省了15.18％的编码节省时间，可将BDBR降低0.08％。与FQPD-VG和RFCTRF方法相比，本发明提出的方法虽然在节约编码时间减少2.63-7.82％，同比减少4.86-16.1％，但提出的方法将BDBR降低0.03-0.32％，同比降低8.79-26.02％。

仿真结果表明，本发明提出的方法对各种视频有效，在性能评估上优于最新快速方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。