CN111429497B

CN111429497B - 基于深度学习和多特征融合的自适应cu拆分决策方法

Info

Publication number: CN111429497B
Application number: CN202010201383.4A
Authority: CN
Inventors: 赵进超; 张秋闻; 王兆博; 王祎菡; 崔腾耀; 赵永博; 郭睿骁; 王晓; 蒋斌; 黄立勋; 张伟伟; 钱晓亮; 吴庆岗; 常化文; 魏涛; 孙丽君
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-05-05
Anticipated expiration: 2040-03-20
Also published as: CN111429497A

Abstract

本发明提出了一种基于深度学习和多特征融合的自适应CU拆分决策方法，其步骤为：首先，利用标准偏差计算当前CU的纹理复杂度SD，再利用量化参数函数和深度函数构建阈值模型，将当前CU分为复杂CU和均匀CU；其次，如果复杂CU属于边缘CU，则利用基于多特征融合的CNN结构对复杂CU进行判断是否拆分；否则，利用基于自适应的CNN结构对复杂CU进行判断是否拆分。本发明将深度学习和多特征融合相结合，解决了编码复杂性的问题。基于多特征融合的CNN结构和基于自适应的CNN结构均可成功处理训练样本，避免计算所有与复杂CU的率失真RDO，从而降低了计算复杂度，节省了编码时间。

Description

基于深度学习和多特征融合的自适应CU拆分决策方法

技术领域

本发明涉及图像处理技术领域，特别是指一种基于深度学习和多特征融合的自适应CU拆分决策方法。

背景技术

随着对视频压缩的更高要求，开发更有效的视频编码标准变得更加重要。JVET开发了下一代视频编码标准——H.266/VVC。H.266/VVC测试模型(VTM)实现了许多新颖的技术，可以显著提高编码效率。H.266/VVC使用四叉树嵌套多类型树(QTMT)的编码块体系结构进行块分区，这显示出更好的编码性能，但是导致极大的计算复杂度，可能是HEVC的5倍，并且H.266/VVC还包含67种帧内预测模式来进行帧内预测，其中，平面模式和DC模式与H.265/HEVC一样预测模式变得更加密集，因此可以获得更精确的预测，但同时计算复杂度也随之增加。此外，还引入了一些其他工具来提高编码效率，例如位置相关的帧内预测组合(Dependent Intra Prediction Combination，PDPC)和多变换选择(Multiple TransformSelection，MTS)，这些技术显著增强了H.266/VVC的编码性能，但导致了极高的计算复杂度。在“All Intra”的配置条件下，VTM的帧内编码复杂度是HEVC测试模型(HM)的18倍。因此，对于H.266/VVC来说，开发一种满足潜在市场实际需求的快速编码算法至关重要。

H.266/VVC帧内编码提出了一些基于有效视频编码H.265/HEVC的新技术，并扩展了一些先前的方法。其中块划分结构是编码层的核心，灵活的块大小可以实现出色的编码性能。H.266/VVC使用QTMT分区块结构获得更有效的编码性能，但导致了大多数复杂性的增加，所以获得最佳CU(Coding Unit，编码单元)的过程比HEVC中更加复杂。此外，更多的CU形状会大大增加帧内预测的复杂度并具有更长的编码时间。

鉴于上述问题，学者们对H.266/VVC的CU分区决策开发了一些工作来降低编码复杂度，目前文献中已经提出了许多快速的CU分区方法，包括启发式方法和基于学习的方法。启发式方法有：H.Yang等人提出了一种基于H.266/VVC的快速帧内编码方法，该方法结合了低复杂度CTU(Coding Tree Unit，编码树单元)结构的推导方法和快速帧内模式决策方法来加快运行速度。Z.Jin等人提出了一种有效的QTBT(Quadtree plus Binary Tree)分区决策方法，为了在编码的计算复杂度和RD(Rate Distortion，率失真)性能之间取得良好的平衡。T.Lin等人提出了一种基于空间特征的快速帧内CU二叉树划分决策方法，通过调整OS_BTD2(仅划分的二叉树深度)和ES_BTD3(早期划分的二叉树深度)的错误率获得自适应阈值。S.De-Luxán-Hernández等人提出了几种快速帧内算法，这些算法改善了H.266/VVC中的复杂度和增益之间的总体平衡。T.Fu等人提出了一种新的基于贝叶斯决策规则的快速块划分算法。J.Chen等人提出使用相邻最大编码单元(LCU)的平均深度信息来确定是否提前终止CU分割，通过使用相邻CU的编码模式来加速H.266/VVC编码，可以有效地消除不必要的RDO(Rate Distortion Optimization，率失真优化)。M.Lei等人引入了一种基于预测CU大小的修剪算法来减少冗余的MTT分区。S.Park等人提出了一种可以跳过针对H.266/VVC的冗余MTT修剪的方法。J.Chen等人设计了一种基于方差和梯度的快速拆分算法，来解决H.266/VVC中的矩形溢出问题。

近年来，基于学习的方法已引起越来越多的关注并且在性能上有了显著的提高，我们将介绍针对HEVC和H.266/VVC的学习的方法，Z.Liu等人提出了一个深层的CNN(Convolutional Neural Network，卷积神经网络)结构，来预测CTU分区。M.Xu等人提出了深度学习方法，以预测CU划分以降低HEVC的复杂性。另一部分是针对H.266/VVC提出基于深度学习、机器学习(Machine Learning，ML)或CNN方法的算法，来加快的编码过程。T.Amestoy等人引入了一种基于ML的快速QTBT分区方法，该方法利用随机森林分类器确定每个块的分区模式。Z.Jin等人提出了一种基于CNN的快速CU深度决策算法，将QTBT分区深度范围建模为多类分类问题。S.Ryu等人介绍了一种基于ML的快速帧内预测模式决策算法来减少编码时间。G.Tang等人提出了一种基于H.266/VVC的自适应CU拆分决策方法，使用CNN来避免使用完整RD。T.Amestoy等人提出了一种基于ML方法的轻量级可调QTBT分区方案，降低了复杂度和视频质量之间可调节的平衡。F.Galpin等人提供了一种基于深度学习的编码器方法的技术概述，旨在优化下一代混合视频编码器。Z.Wang等人引入了面向CNN的快速QTBT分区决策方案用于帧间编码，以统计方式分析了QTBT，有效地指导设计CNN的结构。

QTMT结构中CU块的划分深度和形状与纹理复杂度和纹理方向密切相关，而深度学习可以更好地汇总和分析数据，从而获得新知识和常规知识并利用这些知识来构建模型和支持决策。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种基于深度学习和多特征融合的自适应CU拆分决策方法，将深度学习和多特征融合相结合，解决了编码复杂性的技术问题。

本发明的技术方案是这样实现的：

一种基于深度学习和多特征融合的自适应CU拆分决策方法，其步骤如下：

S1、根据量化参数函数和深度函数构建阈值模型，并根据当前CU的量化参数和深度计算当前CU的纹理分类的阈值；

S2、利用标准偏差计算当前CU的纹理复杂度SD；

S3、判断纹理复杂度SD是否小于步骤S1中的阈值，若是，当前CU为均匀CU，不执行拆分，否则，当前CU为复杂CU，执行步骤S4；

S4、判断复杂CU是否位于图像的边缘，若是，执行步骤S5，否则，执行步骤S6；

S5、利用基于多特征融合的CNN结构对复杂CU进行分类，当分类结果为1，即复杂CU拆分后的率失真小于拆分前的率失真，对复杂CU进行拆分，否则，复杂CU不拆分；

S6、利用基于自适应的CNN结构对复杂CU进行分类，当分类结果为1，对复杂CU进行拆分，否则，复杂CU不拆分。

所述阈值模型为：

Th＝F(QP)×G(Depth)，

其中，Th表示纹理分类的阈值，Depth表示当前CU的深度，QP表示量化参数，F(·)表示量化参数函数，G(·)表示深度函数；

所述量化参数函数和深度函数分别为：

其中，R_{CU_Depth}表示深度为Depth的当前CU在一帧图像中所占的比率。

所述纹理复杂度SD的表达式为：

其中，W和H分别代表当前CU的宽度和高度，p(x,y)代表(x,y)处的像素值。

所述利用基于多特征融合的CNN结构对复杂CU进行分类的方法为：

S51、采集M组视频序列中位于边缘的复杂CU，并对复杂CU进行翻转与旋转后作为数据集，数据集分为训练集I和测试集I；

S52、分别计算训练集I中每个复杂CU的标准差和深度特征；

S53、搭建网络结构为卷积层I-池化层I-卷积层II-池化层II-卷积层III-池化层III-卷积层IV-池化层IV-全连接层I-全连接层II的子网络，将标准差和深度特征分别对应的训练集I数据输入子网络后经全连接层III进行融合，融合结果通过softmax分类器输出完成训练得到基于多特征融合的CNN结构；

S54、分别计算测试集I中每个复杂CU的标准差和深度特征，并输入基于多特征融合的CNN结构，得到分类结果，并利用损失函数计算预测误差；

S55、判断预测误差是否小于设定的误差ε，若是，保存基于多特征融合的CNN结构对复杂CU进行分类，否则，增加训练集I，返回步骤S52。

所述利用基于自适应的CNN结构对复杂CU进行分类的方法为：

S61、采集N组视频序列中尺寸相同的复杂CU对应的相邻块，作为数据集，相邻块分别为NB1、NB2、NB3和NB4，将数据集分为训练集II和测试集II；

S62、构建网络结构为卷积层I-池化层I-卷积层II-池化层II-全连接层I-全连接层II的子网络，将相邻块NB1、NB2、NB3和NB4分别对应的训练集II数据分别输入子网络后经全连接层III进行融合，融合结果通过softmax分类器输出完成训练得到自适应的CNN结构；

S63、将相邻块NB1、NB2、NB3和NB4分别对应的测试集II输入自适应的CNN结构，得到分类结果，并利用损失函数计算预测误差；

S64、判断预测误差是否小于ε，若是，保存自适应CNN结构对复杂CU进行分类，否则，增加训练集II，返回步骤S62。

所述损失函数为：

其中，

和

分别表示CNN结构的实际样本值和预测样本值，m表示样本数，i表示第i个样本，ρ₁和ρ₂表示加权系数，QP表示量化参数。

所述卷积层I、卷积层II、卷积层III和卷积层IV的内核大小均为3×3；所述全连接层I、全连接层II和全连接层III的激活函数均为ReLU；所述池化层I、池化层II、池化层III和池化层IV均采用最大池化层。

本技术方案能产生的有益效果：本发明通过建立基于阈值的纹理分类模型，将CU分为复杂CU和均匀CU，均匀CU不再进行拆分；对于位于边缘的复杂CU，则执行基于多特征融合的CNN结构对复杂CU进行分类；对于其余复杂CU，执行自适应CNN结构对复杂CU进行分类。复杂CU的划分取决于训练网络和CU的参数，基于多特征融合的CNN结构和自适应CNN结构的训练方案可以成功处理训练样本，避免整个RDO计算，从而降低了计算复杂度，节省了编码时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的当前CU块的相邻块位置分布图，C表示当前CU块，NB表示相邻块；

图3为本发明的基于多特征融合的卷积神经网络结构；

图4为本发明的自适应卷积神经网络结构；

图5为本发明与FPIC、ACSD和FCPD方法的编码时间的节省情况对比结果；

图6为本发明与FPIC、ACSD和FCPD方法的BD-rate的增加情况对比结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于深度学习和多特征融合的自适应CU拆分决策方法，首先，利用标准差SD计算CU的纹理复杂度，然后，基于量化参数QP和深度的函数建立了可以提高分割精度的阈值模型，以识别复杂CU和均匀CU；执行自适应的CNN结构，由于最佳CU大小取决于H.266/VVC的帧内编码中相邻块的复杂度并且相邻块的像素对于高预测精度是重要的元素，如果CU属于中间位置的复杂CU，则使用自适应的CNN结构来判断是否拆分；执行基于多特征融合的CNN结构，如果CU属于边缘位置的复杂CU，则无法参考相邻块，为了提高分类的准确性，将计算纹理复杂度的SD和深度特征作为基于多特征融合的CNN结构的输入，通过该CNN结构判断是否划分；最后，CU的划分取决于训练网络和CU的参数，上述两种CNN方案可以成功处理训练样本并终止一些复杂CU的率失真计算，从而降低了计算复杂度，节省了编码时间。具体步骤如下：

S1、根据量化参数函数和深度函数构建阈值模型，以提高分割精度，并根据当前CU的量化参数和深度计算当前CU的纹理分类的阈值；

所述阈值模型为：

Th＝F(QP)×G(Depth)，

其中，Th表示纹理分类的阈值，Depth表示当前CU的深度，QP表示量化参数，F(·)表示量化参数函数，G(·)表示深度函数，其中，量化参数函数和深度函数分别为：

其中，R_{CU_Depth}表示深度为Depth的CU在一帧图像中所占的比率；且量化参数函数和深度函数是通过大量实验获得的经验函数。

根据仿真实验，发现阈值与CU的深度和QP有关。在不同类型的帧中，CU的深度分布是不同的。深度的计算方式如下：

P_{CU_Depth}＝H_{CU_Depth}×W_{CU_Depth}，

P_Frame＝H_Frame×W_Frame，

其中，CU_Depth表示当前CU的深度，P_{CU_Depth}和P_Frame分别表示深度级别和一帧图像的像素，H_{CU_Depth}表示深度为Depth的当前CU的宽，W_{CU_Depth}表示深度为Depth的当前CU的高，N_{CU_Depth}表示深度为Depth的当前CU的数量。

S2、利用标准偏差计算当前CU的纹理复杂度SD，纹理复杂度SD的表达式为：

其中，W和H分别代表CU的宽度和高度，p(x,y)代表(x,y)处的像素值。

S3、判断纹理复杂度SD是否小于阈值，阈值是根据当前CU块实际情况来计算的，CU块不同，阈值也不同，若是，当前CU为均匀CU，不执行拆分，否则，当前CU为复杂CU，执行步骤S4；将纹理复杂度SD与阈值进行比较，如果纹理复杂度SD小于阈值，则CU是均匀CU，不再拆分。否则，将所提出的自适应CNN结构和基于多特征融合的CNN结构用于复杂CU的分类。

S4、判断复杂CU是否位于图像的边缘，若是，执行步骤S5，否则，执行步骤S6；如果没有检测到当前CU的相邻CU块，或相邻CU块的数量不够四块，即可确定当前CU位于图像的边缘。由于在先前关于HEVC的研究中，一般输入是固定大小的CU，而H.266/VVC中的QTMT分区结构得到方形和矩形CU块，但是对输入块进行下采样的方法又会丢失很多有价值的分类信息。因此，通过判断复杂CU是否位于边缘提出了两种CNN结构。

如果复杂CU不是边缘CU，最佳CU大小取决于H.266/VVC的帧内编码中相邻块的复杂度并且相邻块的像素对于高预测精度是重要的元素，图2给出了相邻块的块位置，将当前复杂CU块的相邻块的残差块作为CNN结构的输入建立的基于自适应的CNN结构，以实现复杂CU的分类。

如果复杂CU位于边缘，则边缘CU没有足够的参考块，不能采用相邻块的残差块进行处理，为了提高分类的准确性，在传统CNN结构的基础上，建立了基于纹理和深度特征融合的CNN结构对复杂CU进行分类。

S5、利用基于多特征融合的CNN结构对复杂CU进行分类；在基于特征融合的CNN结构中，执行一些操作来增加图像集的数量，例如对视频序列中的每个图片进行翻转和旋转，其中图像集分为训练集和测试集，在训练集中，计算训练集样本中的SD和深度特征，并基于多特征融合将其分为两个通道作为输入CNN结构。然后，将获得的信息汇总到最后一个全连接层FCL，作为softmax分类器的最终分类基础。测试集通过该CNN结构可以准确的将复杂区域边缘的CU进行分类(即分裂或不分裂)。在传统CNN结构的基础上，建立了基于纹理和深度特征融合的CNN结构，将计算出的SD和深度特征作为CNN结构的输入，并将CNN结构分为两个通道，其中每个通道由四个卷积层、四个池化层和三个FCL组成，激励函数采用ReLU函数，池化层的类型是传统CNN结构中的最大池化层，在输出层使用softmax分类器进行分类，同时使用损失函数对分类结果进行调整分类器，来提高分类精度。其中，两个通道的CNN一个输入为SD特征，另一个为深度特征，且最后一个全连接层是将两个通道的特征进行总和。与传统的编码过程相比，基于多特征融合的CNN结构不会造成多余的迭代计算率失真RDO，从而可以降低帧内编码的计算复杂度和编码时间。具体方法为：

S52、分别计算训练集中每个复杂CU的标准差和深度特征，并标准差和深度特征作为两个输入；

S53、搭建网络结构为卷积层I-池化层I-卷积层II-池化层II-卷积层III-池化层III-卷积层IV-池化层IV-全连接层I-全连接层II的子网络，将标准差和深度特征分别对应的训练集输入子网络后经全连接层III进行融合，融合结果通过softmax输出完成训练得到基于多特征融合的CNN结构，如图3所示；其中，卷积层I、卷积层II、卷积层III和卷积层IV的内核大小均为3×3；全连接层I、全连接层II和全连接层III的激活函数均为ReLU；池化层I、池化层II、池化层III和池化层IV均采用最大池化层。

在原有的划分模式决策中，计算所有可能模式的率失真值，然后选择最优的率失真值，虽然这种的方法可以实现良好的RD属性，但会导致极大的复杂性。而本发明采用的基于融合的CNN分类器和自适应的CNN分类器，将训练的模型导入到编码器中，可以快速得到划分结果，避免计算率失真，因此，降低了计算复杂度，节省编码时间。

所述损失函数为：

其中，

和

S55、判断预测误差是否小于设定的误差ε＝0.2，若是，保存基于多特征融合的CNN结构对复杂CU进行分类，否则，增加训练集I，返回步骤S52。

当步骤S55得到的分类结果为1时，即复杂CU拆分后的率失真小于拆分前的率失真，对复杂CU进行拆分，否则，复杂CU不拆分。

S6、利用基于自适应的CNN结构对复杂CU进行分类，在自适应CNN结构的训练过程中，根据输入训练数据的大小，将不同的CU形状分类为不同的批次，并将相同形状的CU块分组为一批，分别训练这种不同形状的CU，所有训练样本均从测试视频中提取，通过收集训练样本，将不同大小的CU分为不同的数据集。测试样本也从测试视频中提取，与训练样本的视频序列不同，经过测试该CNN结构基本可以准确预测CU属于哪一类(即分裂或者不分裂)。因此自适应CNN结构是可行的。在CNN结构中，卷积层，池化层和全连接层(fully connectedlayer)FCL的数量都会影响预测精度。本发明的自适应CNN网络结构包括两个卷积层、两个池化层和三个全连接层FCL，其中，两个池化层分别用于宽度大于32或高度大于16的复杂CU。如图4所示，自适应CNN结构输入的是当前CU块相邻CU的残差块，第一层是内核为3×3的卷积层；第二层是最大池化层，用于宽度和高度都大于32的复杂CU；第三层是内核为3×3的卷积层；第四层为最大池化层，用于宽度和高度都大于16的复杂CU；例如，如果输入CU形状的宽为32，高为16的CU块，则第一个池化层的大小为[2，1]，第二个池化层的大小为[2，2]，体现了CNN结构中的自适应，根据输入的大小来自适应调整池化层的大小。在卷积层和池化层之后，所有的输入块都将转换成大小为4×4的块，进入全连接层FCL，全连接层FCL将卷积层或池化层提取的特征进行合并，此外，为了改善CNN网络的性能，将CU的宽度，高度和QP添加为FCL的神经元，将影响最终的CU拆分决策，通常FCL中每个神经元将ReLU函数作为激活函数，激活函数负责将神经元的输入映射到输出层，并使用softmax分类器对CU进行分类，该函数能够把我们要分类的CU块映射到给定类别中。具体方法为：

S62、构建网络结构为卷积层I-池化层I-卷积层II-池化层II-全连接层I-全连接层II的子网络，将相邻块NB1、NB2、NB3和NB4分别对应的训练集II分别输入子网络后经全连接层III进行融合，融合结果通过softmax输出完成训练得到自适应的CNN结构，如图4所示；其中，卷积层I、卷积层II的内核大小均为3×3；全连接层I、全连接层II和全连接层III的激活函数均为ReLU；所述池化层I、池化层II均采用最大池化层。

S64、判断预测误差是否小于设定的误差ε＝0.2，若是，保存自适应CNN结构对复杂CU进行分类，否则，增加训练集II，返回步骤S62。

当步骤S64的分类结果为1时，对复杂CU进行拆分，否则，复杂CU不拆分。

为了评估本发明的方法，在最新的H.266/VVC编码器(VTM 7.0)上进行了仿真测试。测试视频序列在“All Intra”配置中使用默认参数进行编码。BD-rate反映了本发明的编码性能，节省的时间(TS)体现了复杂性的降低。

表1给出了所提出的整体方案的编码特性，该方案可以节省39.31％的编码运行时间，合成视图的平均BDBR增量为0.89％。因此，本发明可以有效地节省编码时间，并且RD性能的损失可以忽略不计。

表1本发明的编码特性

从表1可以看出本发明可节省39.31％的编码时间，并保持类似的RD性能。对于不同的测试视频，因为高清(HD)或超高清(UHD)视频倾向于更大的CU，所以实验结果可能会有所波动，但是对视频序列是有效的。与VTM相比，本发明具有更好的编码性能，这主要是由于本发明定义的阈值模型和两个改进的CNN结构。

将本发明方法与最新的H.266/VVC快速方法相比较。这些算法包括FPIC，ACSD和FCPD。图5和图6分别给出了节省编码时间和BDBR的编码结果，由图5和图6可知，与ACSD和FCPD方法相比，该方案在减轻计算负担方面具有更高的性能，可进一步节省约5.78％-9.82％的编码时间。与FPIC，ACSD和FCPD方法相比，本发明方法具有更好的编码效率，可以进一步降低BD率0.12％-0.51％。这些结果表明，本发明对于视频序列的所有分类都是有效的，并且计算复杂度优于H.266/VVC的最新快速方法。

以上结合附图详细说明了本发明的技术方案，具体地，将深度学习和多特征融合结合使用，来解决编码复杂性的问题。首先通过建立基于阈值的纹理分类模型，来识别复杂CU和均匀CU。如果复杂CU是边缘CU，则执行基于多特征融合的CNN结构对CU进行分类。否则，执行自适应CNN结构对CU进行分类。最后，CU的划分取决于训练网络和CU的参数。当拆分CU时，以上两种CNN结构训练方案可以成功处理训练样本，避免整个RDO计算，从而降低了计算复杂度，节省了编码时间。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。