CN112770120A

CN112770120A - 基于深度神经网络的3d视频深度图帧内快速编码方法

Info

Publication number: CN112770120A
Application number: CN202011603013.XA
Authority: CN
Inventors: 伏长虹; 徐梦婷; 洪弘
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-07
Anticipated expiration: 2040-12-29
Also published as: CN112770120B

Abstract

本发明公开了一种基于深度神经网络的3D视频深度图帧内快速编码方法，方法包括：输入大小为64×64的编码树单元(CTU)和其深度帧内跳过模式(DIS)率失真值、量化参数QP，预处理后作为卷积神经网络的输入，经过卷积操作后，对最终特征反卷积，并与中间特征叠加起来，最终输出CTU中深度为0、1和2的21个预测结果，对一个CTU中三个深度层级的CU继续四叉树划分或者停止四叉树划分做出预测。本发明有效地降低了深度图编码单元四叉树划分的复杂度，减少了所需的编码时间；并在提高编码速度的同时，保证了最终解码端合成视角的视频质量。

Description

基于深度神经网络的3D视频深度图帧内快速编码方法

技术领域

本发明属于视频编解码技术领域，具体涉及一种基于深度神经网络的3D视频深度图帧内快速编码方法。

背景技术

3D视频能够在立体世界中给我们带来奇妙的用户体验。针对3D视频，高效视频编码(High Efficiency Video Coding,HEVC)的3D扩展(3D-HEVC)是最新的编码标准。3D-HEVC基于HEVC的四叉树编码架构，包括编码树单元(CTU)和编码单元(CU)、预测单元(PU)和变换单元(TU)。HEVC基本上是为纹理编码设计的，但是，3D-HEVC系统中的深度图具有一些特征，例如大量的平滑区域和尖锐的边缘，和与之对应的颜色纹理图完全不同。因此，当编码由平滑区域或边缘组成的深度图时，传统的HEVC编码器通常不能保持良好的编码效率。为此，深度图编码中新增了几种新的编码工具，例如深度建模模式(DMM)和深度帧内跳过模式(DIS)，更加加剧了算法复杂度。

如图1，编码块四叉树划分采用递归设计，面对平滑编码块，复杂的四叉树划分结构造成很多无效的冗余编码。因此，为降低深度图算法复杂度，快速判断编码结构划分是一种有效途径。文献“Mora E G,Jung J,Cagnazzo M,et al.Initialization,Limitation,and Predictive Coding of the Depth and Texture Quadtree in 3D-HEVC[J].IEEETransactions on Circuits and Systems for Video Technology,2014,24(9):1554-1565.”利用纹理视图和深度视图运动信息的相似性，以纹理视图的编码结构来限制深度视图的编码结构划分。文献“Zhang H B,Chan Y L,Fu C H,et al.Quadtree decision fordepth intra coding in 3D-HEVC by good feature[C]//2016 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2016.”设计了一个用像素域角点信息来衡量当前编码区域复杂度的方法，该方法依据当前编码块的复杂度来限制划分深度。

近年来，在视频编码框架内继续使用传统方法改进编码性能变得越来越困难，基于神经网络的视频编码逐渐成为可能。

发明内容

本发明的目的在于提供一种基于深度神经网络的3D视频深度图帧内快速编码方法，在保证合成视角中视频质量的前提下，降低编码单元四叉树划分计算复杂度，节约编码时间。

实现本发明目的的技术解决方案为：一种基于深度神经网络的3D视频深度图帧内快速编码方法，包括如下步骤：

步骤1：数据收集，选取深度图多种细节不同的视频，每隔20帧选取1帧，每个视频共计选取5帧，在不同量化参数QP下用原始3D-HEVC编码器进行编码，将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签，并采集深度0的64×64编码单元的DIS率失真值和量化参数QP，与所有划分标签记录在一个CTU中，作为训练数据集；

步骤2：数据训练，对于训练集中的CTU，将CTU的亮度值进行去均值预处理，作为卷积神经网络的输入，随后进行五次卷积计算，最终得到1×1的特征；将QP和DIS率失真值作为先验输入全连接层，并将输出的特征与CTU的特征叠加，经过softmax作为深度0的输出；随后对1×1的特征进行反卷积计算得到2×2的特征，并与中间对应大小特征叠加，经过softmax作为深度1的输出；继续进行反卷积，得到4×4的特征，并与中间对应大小特征叠加，经过softmax作为深度2的输出，经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络；

步骤3：数据测试，选取8个视频序列作为测试集，每一帧图像每一个CTU，在编码深度0的64×64的CTU后，将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中，得到每个CTU中不同深度编码单元的划分判断结果，根据判断结果进行后续编码。

本发明与现有技术相比，其显著优点在于：(1)对特征反卷积并与中间特征concatenate，将全局视野与局部视野融合，提高深度为1和2的CU的划分判断准确率；(2)网络直接得到深度0、1、2的所有CU的划分判断，无需对每个深度CU单独判断；(3)用一个神经网络完成三个深度层级的训练和判断，无需为每一层深度单独训练神经网络。

附图说明

图1是3D-HEVC中深度图CTU四叉树划分结构示意图。

图2是本发明基于深度神经网络的3D视频深度图帧内快速编码方法的模型训练图。

图3是本发明基于深度神经网络的3D视频深度图帧内快速编码方法的编码流程图。

具体实施方式

本发明利用深度神经网络来判断3D视频深度图编码块是否需要划分。结合图2，具体步骤如下：

步骤1：数据收集，选取深度图多种细节不同的视频，每隔20帧选取1帧，每个视频共计选取5帧，在不同量化参数QP下用原始3D-HEVC编码器进行编码，将每个编码树单元CTU中三种不同深度等级的编码单元CU是继续四叉树划分或者终止四叉树划分的结果作为标签，并采集深度0的64×64编码单元的深度帧内跳过模式(DIS)率失真值和量化参数QP，与所有划分标签记录在一个CTU中，作为训练数据集；

步骤2：数据训练，对于训练集中的CTU，将CTU的亮度值进行去均值预处理，作为卷积神经网络的输入，随后进行五次卷积计算，最终得到1×1的特征，维度为128；将QP和DIS率失真值作为先验输入全连接层，并将输出的特征与CTU的特征叠加，经过softmax作为深度0的输出；随后对1×1的特征进行反卷积计算得到2×2的特征，并与中间对应大小特征叠加，经过softmax作为深度1的输出；继续进行反卷积，得到4×4的特征，并与中间对应大小特征叠加，经过softmax作为深度2的输出，经过数据训练后得到一个用于3D-HEVC帧内快速编码的网络；

步骤3：数据测试，选取8个视频序列作为测试集，每一帧图像每一个CTU，在编码深度0的64×64的CTU后，将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中，得到每个CTU中不同深度编码单元的划分判断结果，根据判断结果进行预测编码。

进一步地，步骤1中所述用DIS率失真RD-cost的计算表达式如下：

J＝D_VSO+λ·B (1)

其中，J是指DIS模式的率失真RD-cost，Dvso是通过视点合成优化技术VSO得到的DIS模式的失真，λ是拉格朗日乘子，B表示用DIS模式编码当前块的比特数。

进一步地，步骤2的五次卷积计算，卷积核大小与步长相等，每次卷积的卷积核不重叠。

进一步地，步骤2将64×64大小CU得到的特征与QP的特征、DIS率失真值的特征concatenate在一起。

进一步地，步骤2将64×64大小CU得到的特征与QP的特征、DIS率失真值的特征concatenate后的特征向量进行反卷积计算，并与神经网络中间相同大小特征concatenate。

进一步地，步骤2搭建的卷积神经网络的判断方法如下：

64×64大小CTU经过五层卷积后的特征与QP的特征、DIS率失真值的特征concatenate得到1×1的复合特征，并输出为深度为0的1个编码单元的划分判断；

对1×1的复合特征反卷积得到2×2的特征，与CTU经过四层卷积的特征concatenate得到2×2的复合特征，并输出为深度为1的4个编码单元的划分判断；

对2×2的复合特征反卷积得到4×4的特征，与CTU经过三层卷积的特征concatenate得到4×4的复合特征，并输出为深度为2的16个编码单元的划分判断。

下面通过实施例，对本发明的技术方案作进一步具体的说明。

实施例

本实施例展示的是基于深度神经网络的3D视频深度图帧内快速编码方法，其流程如图2所示，其步骤包括：

步骤3：数据测试，选取8个视频序列作为测试集，每一帧图像每一个CTU，如图3所示，在编码深度0的64×64的CTU后，将CTU亮度值、QP、DIS率失真值输入到训练好的用于3D-HEVC帧内快速编码的网络中，得到每个CTU中不同深度编码单元的划分判断结果，根据判断结果进行预测编码，如图3所示，具体为：

若对深度0的64×64的CTU判断为不划分，则结束当前CTU编码，否则继续划分；

编码深度1的32×32的CU，若对深度1的32×32的CU判断为不划分，则编码下一个深度1的32×32的CU，直到深度1的4个CU编码完成，否则继续划分；

编码深度2的16×16的CU，若对深度2的16×16的CU判断为不划分，则编码下一个深度2的16×16的CU，直到深度2的4个CU编码完成，否则继续划分；

编码深度3的4个8×8的CU，并返回上一深度。

本发明不局限于权利要求和上述实施例所涉及的内容，只要是根据本发明的构思所创造出来的任何发明，都应归属于本发明的保护范围之内。

Claims

1.一种基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤1中所述DIS率失真的计算表达式如下：

J＝D_VSO+λ·B (1)

3.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤2所述的五次卷积计算，卷积核大小与步长相等，每次卷积的卷积核不重叠。

4.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤2将64×64大小CU得到的特征与QP的特征、DIS率失真值的特征concatenate在一起。

5.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤2将64×64大小CU得到的特征与QP的特征、DIS率失真值的特征concatenate后的特征向量进行反卷积计算，并与神经网络中间相同大小特征concatenate。

6.如权利要求1所述的基于深度神经网络的3D视频深度图帧内快速编码方法，其特征在于，步骤2搭建的卷积神经网络的判断方法如下：

64×64大小CTU经过五层卷积后的特征与QP的特征、DIS率失真值的特征concatenate得到1×1的复合特征，并输出为深度0的1个编码单元的划分判断；

对1×1的复合特征反卷积得到2×2的特征，与CTU经过四层卷积的特征concatenate得到2×2的复合特征，并输出为深度1的4个编码单元的划分判断；

对2×2的复合特征反卷积得到4×4的特征，与CTU经过三层卷积的特征concatenate得到4×4的复合特征，并输出为深度2的16个编码单元的划分判断。