CN111385585B

CN111385585B - 一种基于机器学习的3d-hevc深度图编码单元划分方法

Info

Publication number: CN111385585B
Application number: CN202010192422.9A
Authority: CN
Inventors: 贾克斌; 张儒依; 刘鹏宇; 孙中华
Original assignee: Beijing University of Technology
Current assignee: Beijing Ge Lei Information Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2022-05-24
Anticipated expiration: 2040-03-18
Also published as: CN111385585A

Abstract

本发明公开了一种基于机器学习的3D‑HEVC深度图编码单元快速决策方法，通过构建基于深度梯度提升(XGBoost)的深度图快速编码单元(CU)级别决策系统，用于解决3D‑HEVC中添加深度图和新的编码工具导致的编码复杂度高的问题。该方法包括两部分：XGBoost模型训练和快速CU分割决策。使用数据挖掘和机器学习，通过使用深度图的纹理信息作为特征属性矢量以及当前CU是否继续作为子类标签划分为子CU，来构建决策模型。从编码过程中提取了特征属性，并使用训练有素的模型来确定CU是否继续分区。与标准编码器相比，该方法具有更好的性能改善效果，与相关工作相比，在编码性能上有不同程度地提高。

Description

一种基于机器学习的3D-HEVC深度图编码单元划分方法

技术领域

本发明涉及基于3D-HEVC的视频编码技术，具体涉及一种3D-HEVC编码中基于机器学习的深度图编码单元划分快速决策方法

背景技术

随着计算机多媒体技术的兴起，电影、电视等方面的视频技术不断发展和完善，数字视频技术已经成为现代学术界和工业界的研究热点。三维视频不仅给人们感官上带来更高的体验感，而且也具有较为广泛的应用前景，如医学、教育等领域。为了满足用户对于观看舒适度和观看自由度的需求，3D视频应用设备也逐步向能提供更多视点数量的方向发展，比如自动立体显示器 (Autostereoscopic Display)和自由视点电视(Free ViewpointTelevision)，使得用户可以自己选择某一视点位置进行观看。因此，这类3D视频应用需要一种特殊的三维视频格式，使得播放端可以绘制出一组连续的视点或者非常多数量的不同视点。包含多个纹理视频序列和对应的多个深度图像序列的多视点视频加深度(Multi-viewVideo plus Depth,MVD)[1]格式应运而生(编码端)，该格式本身包含2～3个视点，因此解码端可以在这些已有的视点之间合成多个新的虚拟视点，能提供视点范围更广的多视点视频序列。MVD格式是目前表征三维视频最有效的表现形式，它在多视点纹理图的基础上引入了多视点深度图，因此可以在原有的视点之间合成新的虚拟视点，提供更为舒适和自由的立体视觉观感。国际三维视频编码联合工作组JCT-3V已于2015年2月颁布了基于HEVC[2]的三维视频编码扩展标准3D-HEVC[3]，旨在提高MVD格式的压缩效率。由于深度图的内容特征区别于纹理图，需要采取有效的深度图编码技术才能保证深度图的编码质量，从而保证虚拟视点质量，并且利用纹理图与深度图之间的相关性实现三维视频的高效压缩，而3D-HEVC在获得高效深度图编码性能的同时也带来了极高的编码复杂度。因此，为了满足三维视频高效传输和用户舒适观看的需求，如何采取有效的方法对三维视频中的深度图进行高质量和高效率的编码是3D视频处理技术中面临的新挑战。图1所示的是3D-HEVC标准下3D视频编码器的基本结构图，需要进行编码的三维视频包括三个视点的纹理图和对应的三个视点的深度图。

3D-HEVC编码中的深度图表示的是场景中目标物体的深度信息(物体与摄像机之间的距离远近)，从本质上讲，深度图就是一种灰度图像，通过普通的灰度图压缩方式就可以进行编码。对于3D-HEVC来说，关注深度图的编码特性，将有利于提高深度图的压缩率和保持深度图的质量，为视点合成提供保障，带来更好的三维视觉感受。3D-HEVC深度图编码中，其最大编码单元同HEVC 一样，为编码树单元(Coding Tree Unit，CTU)^[4]，待编码帧可以被划分为若干个CTU，其尺寸可以被编码器配置为64×64，32×32或16×16，默认大小为64×64。根据图像帧自身的特征，CTU可以进一步基于四叉树结构向下划分成多个编码单元(Coding Unit,CU)，如图2所示。CU是进行预测编码、变换、量化和熵编码等处理的基本单元，其尺寸可以在64×64，32×32，16×16和8×8间灵活选择，对应编码深度为0，1，2和3。3D-HEVC的四叉树编码结构支持将每个CU 递归划分为4个相等大小的子CU(CU尺寸可选范围:64×64～8×8)，直至达到四叉树的最大深度(Depth＝3)。在编码过程中，需要以深度优先的方式和Z扫描的顺序依次遍历完整四叉树中的每个节点(即CTU中的每个CU)；并计算其对应的率失真代价值(Rate-Distortion cost,RD cost)，进一步通过比较每个父CU 与其对应的4个子CU间的RD cost，确定RD cost最小的CU划分组合(若父 CU的RD cost小于4个子CU的RD cost之和，则保留父CU；若前者大于后者，则保留4个子CU)，将其作为最终的CTU划分结果。先进的四叉树划分结构在提高编码性能的同时也不可避免的造成了编码复杂度的急剧增加。

同样的四叉树划分过程同时应用在纹理视频和深度图编码过程中。深度图相比于纹理图，其特点表现为图中存在着大量的平坦区域以及锐利的边缘信息，而平坦区域采用64×64尺寸编码块，即Depth＝0的编码概率很大，对于复杂纹理的编码块进而用到32×32，16×16，8×8，即Depth＝1，Depth＝2，Depth＝3 这几种分割。同时，在不同QP配置下，编码单元尺寸划分也存在一定规律， QP值越大，选择大尺寸CU的概率越大，反之，则选择小尺寸CU的概率越高，如图3所示。如果每个编码块都要遍历完整的四叉树划分过程，无疑大大增加了编码复杂度，因此，如果能够根据不同区域的特性进行当前CU是否继续分割的提前判决，在一定程度上可减少计算开销，从而缩短编码时间。

附：参考文献

[1]Muller K,Merkle P,Wiegand T.3-D Video Representation Using DepthMaps[J].Proceedings of the IEEE,2011,99(4):643-656.

[2]Sullivan G J,Fellow,IEEE,et al.Overview of the High EfficiencyVideo Coding(HEVC) Standard[J].IEEE Transactions on Circuits and Systems forVideo Technology,2013, 22(12):1649-1668.

[3]Tech G,Chen Y,Muller K,et al.Overview of the Multiview and 3DExtensions of High Efficiency Video Coding[J].IEEE Transactions on Circuitsand Systems forVideo Technology, 2015,26(1):35-49.

[4]Kim I K,Min J,Lee T,et al.Block partitioning structure in the HEVCstandard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1697-1706.

发明内容

本发明的目的在于，针对基于HEVC的3D视频编码标准3D-HEVC中深度图编码单元四叉树划分方法计算复杂度高的问题，提出了一种基于机器学习的深度图编码单元划分快速决策方法，在保证视频成虚拟视点质量的前提下，有效降低编码复杂度，提高编码效率，缩短编码时间。

为解决上述技术问题，本发明采取的技术方案为：

一种基于机器学习的深度图编码单元划分快速决策方法，该算法首先利用数据挖掘的手段，获取与CU划分相关的特征量，其次利用机器学习来关联与 CU划分相关的属性，从而针对不同大小的CU构建XGBoost(eXtreme Gradient Boosting，极限梯度提升)决策模型，最后CTU编码过程中，对当前CU是否继续划分进行预判，从而跳过某些不必要的编码深度下的模式选择及率失真代价计算等过程，从而有效地降低编码复杂度。本发明的技术方案流程如图4所示。本发明的方法包含如下步骤：

S1判断当前CU是否属于为深度图，如为深度图继续进行步骤2，若为纹理图则进行传统的编码过程；

S2进行与编码单元划分相关的数据提取和特征量筛选：

S2.1：特征量获取：选择具有不同特征的视频序列进行编码以获得更令人信服的数据集。数据集包括Newspaper(前景和背景纹理都很复杂)，Dancer(仅前景发生变化，而背景纹理平坦且固定)和GT-Fly序列(前景和背景都有深度变化)。为了防止由相邻帧和重复的CU样本的相似性引起的数据不平衡，以进行模型训练，我们在每个序列中提取10个样本帧进行编码，以FrameSampleRatio ＝8，同时针对不同大小的CU(64×64，32×32，16×16)分别提取特征量及对应的CU是否划分标志构建数据集。实验选取的特征量见表1，其中N为当前编码单元边长，p(i,j)为(i,j)位置的像素值，mean表示当前CU的平均像素值。

表1特征量属性

G₀,G₄₅,G₉₀和G₁₃₅分别为当前编码单元PU中各像素点水平、45度角、垂直、和135度角方向的边缘梯度分量，p为像素点的亮度值

S2.2：将获得的数据集用作训练样本，并对不同的CU深度根据公式(6) ～(8)执行基于F-Score的特征重要性排序。计算出的F-Score值越大，此特征属性对CU划分结果的重要性就越高。图5展示了不同CU大小下各种属性的 F-Score。

TP(真阳性):正样本被正确预测为正样本；FP(假阳性):负样本被错误预测为正样本；TN(真阴性):负样本被正确预测为负样本；FN(假阴性):正样本被错误预测为负样本；β是用来平衡Precision,Recall在F-score计算中的权重,取值情况有以下三种: 如果取1,表示Precision与Recall一样重要；如果取小于1,表示Precision比Recall 重要；如果取大于1,表示Recall比Precision重要。在本实验中β取1。

S2.3：根据特征量重要性排序，针对不同大小的CU选取各自的特征量子集构建模型训练数据集。特征量选取如表2所示。

表2各CU特征量子集

CU大小	特征量子集
		CU＝64	NMSE,VAR,AVS,C
CU＝32	NMSE,QP,AVS,C,var_max,VAR
		CU＝16	QP,NMSE,C,AVS,VAR

S3基于XGBoost的CU划分决策模型训练

S3.1：针对不同大小的CU进行模型参数调整。

S3.2：针对不同大小的CU构建基于XGBoost的划分决策模型。

S4模型嵌入：将训练好的决策模型嵌入到HTM-16.0编码平台中。在深度图编码过程中，针对不同大小的CU调用各自的划分决策模型，进而得到编码单元的最优划分结果。

附图说明

图1是3D-HEVC标准下的三维视频编码器结构。

图2是四叉树编码结构示意图。

图3是深度图中各CU大小在不同QP配置下的分布情况。

图4是本发明方法的流程图。

图5是不同CU大小的各特征属性F-Score值。

具体实施方式

以下结合附图对本发明作进一步详细阐述。

本发明针对基于HEVC的3D视频编码标准3D-HEVC中深度图编码过程计算复杂度高的问题，提出了一种基于机器学习的3D-HEVC深度图编码单元划分快速决策方法，在保证视频成虚拟视点质量的前提下，有效降低编码复杂度，提高编码效率，缩短编码时间。

本发明方法的具体步骤如下：

步骤一：判断当前CU是否属于为深度图，如为深度图继续进行步骤2，若为纹理图则进行传统的编码过程；

步骤二：进行与编码单元划分相关的数据提取和特征量筛选：

2.1：特征量获取：选择具有不同特征的视频序列进行编码以获得更令人信服的数据集。数据集包括Newspaper(前景和背景纹理都很复杂)，Dancer(仅前景发生变化，而背景纹理平坦且固定)和GT-Fly序列(前景和背景都有深度变化)。为了防止由相邻帧和重复的CU样本的相似性引起的数据不平衡，以进行模型训练，我们在每个序列中提取10个样本帧进行编码，以FrameSampleRatio ＝8，同时针对不同大小的CU(64×64，32×32，16×16)分别提取特征量及对应的CU是否划分标志构建数据集。实验选取的特征量见表1。

表1特征量属性

2.2：将获得的数据集用作训练样本，并对不同的CU深度根据公式(6)～(8) 执行基于F-Score的特征重要性排序。计算出的F-Score值越大，此特征属性对 CU划分结果的重要性就越高。图5显示了不同CU大小下各种属性的F-Score。

TP(真阳性):正样本被正确预测为正样本；FP(假阳性):负样本被错误预测为正样本；TN(真阴性):负样本被正确预测为负样本；FN(假阴性):正样本被错误预测为负样本；β是用来平衡Precision,Recall在F-score计算中的权重,取值情况有以下三种: 如果取1,表示Precision与Recall一样重要；如果取小于1,表示Precision比Recall 重要；如果取大于1,表示Recall比Precision重要。在本实验中β取1.

2.3：根据特征量重要性排序，针对不同大小的CU选取各自的特征量子集构建模型训练数据集。特征量选取如表2所示。

表2各CU特征量子集

步骤三：基于XGBoost的CU划分决策模型训练

3.1：针对不同大小的CU进行模型参数调整。

3.2：针对不同大小的CU构建基于XGBoost的划分决策模型。

步骤四：模型嵌入：将训练好的决策模型嵌入到HTM-16.0编码平台中。在深度图编码过程中，针对不同大小的CU调用各自的划分决策模型，进而得到编码单元的最优划分结果。

为了对算法的可行性和有效性进行验证，本文在3D-HEVC测试平台 HTM-16.0上进行实验，采用全帧内编码配置文件进行编码。本实验选取分辨率为1024×768的Balloons、Kendo、Newspaper1序列以及分辨率为1920×1088的 GT_Fly、Poznan_Street、Undo_Dancer、Shark序列。测试序列具体参数见表3。实验的硬件配置及编码参数见表4。

表3视频序列参数

表4实验配置参数

依照公布的3D-HEVC的测试标准对3D-HEVC标准编码方法和引入基于机器学习的编码单元快速决策方法进行比较。ETR(Encoding Time reduction) 表示与原始HTM16.0测试平台相比，本文算法所能节省的时间百分比，计算公式如式(9)所示。在有效降低编码复杂度的同时，还需要保证各个视点视频编码质量以及合成视点的视频质量。因此，还需要对使用原始编码方法和本发明方法编码后的纹理视频和合成视点视频的质量进行比较。结果如图表5所示，其中video PSNR/totalbitrate(简称V/T)表示编码后的视频峰值信噪比(Peak signal-to-noise ratio,PSNR)与总比特率的BD-rate的比值；synth PSNR/totalbitrate(简称S/T)表示合成视点的PSNR与总比特率的BD-rate的比值。从表5 中可看出，与原始的3D-HEVC标准编码方法相比，本发明方法在保证较好的视频质量的前提下，可以较好的降低深度图编码的计算复杂度。从而证明本发明方法在3D-HEVC深度图编码的准确、高效方面具有先进性。

表5本发明方法与标准编码方法的编码性能比较结果(％)

Sequences	V/T	S/T	ETR
				Balloons	-0.07％	0.24％	42.64％
Kendo	-0.07％	1.01％	43.58％
				Newspaper	-0.18％	1.06％	45.26％
GT_Fly	-0.08％	-0.17％	49.35％
				Poznan_Street	-0.12％	0.14％	39.91％
Undo_Dancer	-0.05％	0.65％	45.87％
				Shark	-0.28％	-0.36％	38.06％
1024x768	-0.10％	0.77％	43.82％
				1920x1088	-0.13％	0.07％	43.30％
Average	-0.12％	0.37％	43.52％

Claims

1.一种基于机器学习的3D-HEVC深度图编码单元划分快速决策方法，其特征在于：本方法包含如下步骤：

S1判断当前CU是否属于为深度图，若为深度图继续进行S2，若为纹理图则进行编码；

S2进行与编码单元划分相关的数据提取和特征量筛选：

S2.1：特征量获取：选择具有不同特征的视频序列进行编码以获得数据集；数据集包括Newspaper、Dancer和GT-Fly序列；在每个序列中提取10个样本帧进行编码，以FrameSampleRatio＝8，同时针对不同大小的CU分别提取特征量及对应的CU是否划分标志构建数据集；选取的特征量中，N为当前编码单元边长，p(i,j)为(i,j)位置的像素值，mean表示当前CU的平均像素值；

VAR特征量描述为：

var_max特征量描述为：当前CU内小块的最大VAR；

MAX_mean特征量描述为：MAX_mean＝max{p(i,j)-mean}；

NMSE特征量描述为：

Complexity特征量描述为：

AVS特征量描述为：根据各向同性Sobel算子计算每个方向上的梯度值的平均值；

QP特征量描述为：量化参数；

S2.2：将获得的数据集用作训练样本，并对不同的CU深度执行基于F-Score的特征重要性排序；计算出的F-Score值越大，此特征属性对CU划分结果的重要性就越高；

TP为真阳性结果数量:正样本被正确预测为正样本；FP为假阳性结果数量:负样本被错误预测为正样本；TN为真阴性结果数量:负样本被正确预测为负样本；FN为假阴性结果数量:正样本被错误预测为负样本；β是用来平衡Precision,Recall在F-score计算中的权重,取值情况有以下三种:如果取1,表示Precision与Recall一样重要；如果取小于1,表示Precision比Recall重要；如果取大于1,表示Recall比Precision重要；

S2.3：根据特征量重要性排序，针对不同大小的CU选取特征量子集构建模型训练数据集；

CU＝64的特征量子集 NMSE,VAR,AVS,C

CU＝32特征量子集 NMSE,QP,AVS,C,var_max,VAR

CU＝16特征量子集 QP,NMSE,C,AVS,VAR

S3基于XGBoost的CU划分决策模型训练；

S3.1：针对不同大小的CU进行模型参数调整；

S3.2：针对不同大小的CU构建基于XGBoost的划分决策模型；

S4模型嵌入：将训练好的决策模型嵌入到HTM-16.0编码平台中；在深度图编码过程中，针对不同大小的CU调用各自的划分决策模型，进而得到编码单元的划分结果。