CN105430415A

CN105430415A - 一种3d-hevc深度视频帧内快速编码方法

Info

Publication number: CN105430415A
Application number: CN201510873417.3A
Authority: CN
Inventors: 陈芬; 郭明松; 彭宗举; 蒋刚毅; 郁梅
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-03-23
Anticipated expiration: 2035-12-02
Also published as: CN105430415B

Abstract

本发明公开了一种3D-HEVC深度视频帧内快速编码方法，其在编码之前先对深度视频帧进行了平滑处理即预处理，降低了空域复杂度，提高了编码性能及虚拟视点质量；由于预处理后的深度视频帧更加平滑，更多的最大编码单元的最大划分深度集中在0和1，因此使用BP神经网络主动学习并预测最大编码单元的最大划分深度，再通过对应的彩色视频帧中的最大编码单元的最大划分深度及深度视频帧中的编码单元的边缘纹理信息赋值修正预测的最大划分深度，提前终止编码单元的划分，同时根据每层的编码单元的预测模式的统计结果及预测的最大编码单元的最大划分深度提前决定每层编码单元的预测模式的执行范围，最终在提高编码率失真性能的同时，大幅降低了编码复杂度。

Description

一种3D-HEVC深度视频帧内快速编码方法

技术领域

本发明涉及一种多视点视频信号的编码技术，尤其是涉及一种3D-HEVC深度视频帧内快速编码方法。

背景技术

随着视频技术的不断进步，3D(Three-dimensional)视频技术已经在消费娱乐、视频会议及远程医疗等很多方面得到了广泛应用。目前，基于多视点彩色加深度(MultiviewVideoplusDepth，MVD)的自由视点视频(FreeViewpointVideo，FVV)系统是3D视频的主要实现方式。在FVV系统中，观众可以自由选择观看角度，更好地获取身临其境的视觉感受，而为了达到这种目的，需要得到足够多的视点。在MVD格式视频中，可以利用已有的真实视点，通过基于深度图的绘制(DepthImageBasedRendering，DIBR)技术得到足够多的虚拟视点，其中，深度视频表征距离信息，同一场景像素点的深度值之间差别很小，因此深度视频纹理较为简单，边缘信息较为重要。

深度视频的获取方式包括深度相机、深度估计软件及Kinect等，由于成本限制，因此目前的深度视频主要通过深度估计软件获得，但这种估计得到的深度视频很不准确，本应平坦的区域存在很多纹理，会降低虚拟视点质量，且帧内编码时会增加空间冗余，消耗更多的编码码率，因此在编码之前对估计的深度视频进行处理是必要的。当前编码MVD格式视频的最新标准是3D-HEVC，它是在新一代高效视频编码标准(HighEfficiencyVideoCoding，HEVC)基础上的扩展。3D-HEVC帧内编码的复杂度很高，主要有两方面原因：一方面，为了适应高清和超高清视频编码，采用了更大的编码单元(CodingUnit，CU)，包括从64×64到8×8四个等级，分别用0到3四个CU深度表示，在CU递归划分过程中，需要遍历每个深度的CU；另一方面，为了提高帧内预测精度，HEVC采用了35种帧内预测模式，对每层CU进行编码时都需要遍历这35种预测模式，3D-HEVC为了适应深度视频的边缘信息较为重要的特点，在深度视频帧内编码时增加了4种深度模型模式(DepthModelingModes，DMMs)。统计表明，3D-HEVC深度视频的编码时间是彩色视频的编码时间的10倍左右，对于纹理更为简单的深度视频来说是不合理的。

目前，很多学者已经提出了降低3D-HEVC深度视频帧内编码复杂度的方法，但这些方法都集中在减少DMMs的执行或提出新的深度视频帧内预测模式代替DMMs，这些方法降低3D-HEVC深度视频帧内编码时间有限，主要是因为这些方法没有考虑深度视频较为简单，最优CU深度主要集中在0和1的特点。对于估计得到的深度视频，也没有在编码前提前处理，以提高编码和绘制性能。

发明内容

本发明所要解决的技术问题是提供一种3D-HEVC深度视频帧内快速编码方法，其在保证虚拟视点质量不下降的前提下，能够显著地降低3D-HEVC深度视频帧内编码复杂度。

本发明解决上述技术问题所采用的技术方案为：一种3D-HEVC深度视频帧内快速编码方法，其特征在于包括训练阶段和测试阶段两个过程，所述的训练阶段过程的具体步骤如下：

①-1、选取若干个深度视频，将选取的所有深度视频中的所有视频帧构成训练视频帧集合，将训练视频帧集合中当前待处理的视频帧定义为当前帧；

①-2、对当前帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理以完成对当前帧的预处理；

①-3a、按序处理预处理后的视频帧中的每个最大编码单元，将预处理后的视频帧中当前待处理的最大编码单元定义为当前最大编码单元，并记为CLCU；

①-3b、如果CLCU为预处理后的视频帧中最左侧的所有最大编码单元中的一个或最上侧的所有最大编码单元中的一个，则采用原始3D-HEVC编码平台对CLCU进行编码，再执行步骤①-3c；

如果CLCU不为预处理后的视频帧中最左侧的所有最大编码单元中的一个且不为最上侧的所有最大编码单元中的一个，则获取CLCU的特征向量，记为F^CLCU，然后采用原始3D-HEVC编码平台对CLCU进行编码，再执行步骤①-3c，其中，F^CLCU的维数为17，F^CLCU中的17个特征按序分别为MSE^CLCU、xMSE^CLCU、yMSE^CLCU、Sob^CLCU、MSE^LLCU、xMSE^LLCU、yMSE^LLCU、Sob^LLCU、MSE^ULCU、xMSE^ULCU、yMSE^ULCU、Sob^ULCU、SAD^C-LLCU、SAD^C-ULCU、LD_max、UD_max及TD_max，MSE^CLCU、xMSE^CLCU和yMSE^CLCU对应表示CLCU中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^CLCU表示CLCU中的所有像素点的像素值的Sobel梯度值之和，MSE^LLCU、xMSE^LLCU和yMSE^LLCU对应表示CLCU的左相邻最大编码单元LLCU中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^LLCU表示CLCU的左相邻最大编码单元LLCU中的所有像素点的像素值的Sobel梯度值之和，MSE^ULCU、xMSE^ULCU和yMSE^ULCU对应表示CLCU的上相邻最大编码单元ULCU中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^ULCU表示CLCU的上相邻最大编码单元ULCU中的所有像素点的像素值的Sobel梯度值之和，SAD^C-LLCU表示CLCU与LLCU之间的绝对差和，SAD^C-ULCU表示CLCU与ULCU之间的绝对差和，LD_max表示LLCU的最大划分深度，UD_max表示ULCU的最大划分深度，TD_max表示当前帧相对应的彩色视频帧中与CLCU对应的最大编码单元TLCU的最大划分深度；

①-3c、将预处理后的视频帧中下一个待处理的最大编码单元作为当前最大编码单元，并记为CLCU，然后返回步骤①-3b继续执行，直至预处理后的视频帧中的所有最大编码单元处理完毕；

①-4、将训练视频帧集合中下一帧待处理的视频帧作为当前帧，然后返回步骤①-2继续执行，直至训练视频帧集合中的所有视频帧处理完毕；

①-5、将训练视频帧集合中的所有视频帧中除最左侧的所有最大编码单元和最上侧的所有最大编码单元外的所有最大编码单元各自的特征向量作为输入参数，将训练视频帧集合中的所有视频帧中除最左侧的所有最大编码单元和最上侧的所有最大编码单元外的所有最大编码单元各自采用原始3D-HEVC编码平台编码时的最大划分深度作为输出参数，且所有最大编码单元各自的特征向量与最大划分深度一一对应输入到BP神经网络中进行训练，得到训练好的BP神经网络测试模型；

所述的测试阶段过程的具体步骤如下：

②-1、对于任意一帧待测试的深度视频帧，将其定义为测试帧；

②-2、对测试帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理以完成对测试帧的预处理；

②-3、按照步骤①-3a至步骤①-3c的过程，以相同的方式获取预处理后的测试帧中除最左侧的所有最大编码单元和最上侧的所有最大编码单元外的每个最大编码单元的特征向量；

②-4、将预处理后的测试帧中除最左侧的所有最大编码单元和最上侧的所有最大编码单元外的所有最大编码单元各自的特征向量作为输入参数，输入到训练好的BP神经网络测试模型中，预测得到预处理后的测试帧中除最左侧的所有最大编码单元和最上侧的所有最大编码单元外的每个最大编码单元的最大划分深度的预测值；

②-5、对预处理后的测试帧中的每个最大编码单元进行编码，具体过程为：

②-5a、按序处理预处理后的测试帧中的每个最大编码单元，将预处理后的测试帧中当前待处理的最大编码单元定义为当前最大编码单元，并记为CLCU’；

②-5b、如果CLCU’为预处理后的测试帧中最左侧的所有最大编码单元中的一个或最上侧的所有最大编码单元中的一个，则采用原始3D-HEVC编码平台对CLCU’进行编码，再执行步骤②-5c；

如果CLCU’不为预处理后的测试帧中最左侧的所有最大编码单元中的一个且不为最上侧的所有最大编码单元中的一个，则执行以下步骤：

b1、判断CLCU’的最大划分深度的预测值PD’与测试帧相对应的彩色视频帧中与CLCU’对应的最大编码单元TLCU’的最大划分深度TD’的大小关系，如果PD’的值大于TD’的值，则将PD’的值重置为TD’的值，然后执行步骤b2；如果PD’的值小于或等于TD’的值，则保持PD’的值不变，然后执行步骤b2；

b2、将CLCU’重新定义为当前编码单元，令CD’表示当前编码单元的划分深度，CD’的初始值为0，然后执行步骤b3；

b3、采用Canny边缘检测算法对当前编码单元进行边缘检测，得到当前编码单元的边缘信息，如果CD’大于或等于PD’，且满足下述条件之一：1)当前编码单元中不存在边缘信息，2)PD’的值已经被重置为TD’，3)CD’大于或等于TD’，则对当前编码单元不进行继续划分，至此已完成当前编码单元的编码，再执行步骤b4；如果CD’小于PD’，则对当前编码单元进行继续划分，执行步骤b5；

b4、如果CD’等于0，则执行步骤②-5c；

如果CD’等于1，则判断当前编码单元所在层的四个编码单元是否均已处理完毕，若已全部处理完毕，则执行步骤②-5c；若未全部处理完毕，则将当前编码单元所在层的四个编码单元中的下一个待处理的编码单元作为当前编码单元，再执行步骤b3；

如果CD’不等于0且不等于1，则判断当前编码单元所在层的四个编码单元是否均已处理完毕，如果已全部处理完毕，则将当前编码单元的上一层中下一个待处理的编码单元作为当前编码单元，再执行步骤b3；如果未全部处理完毕，则将当前编码单元所在层的四个编码单元中的下一个待处理的编码单元作为当前编码单元，再执行步骤b3；

b5、将当前编码单元的下一层四个编码单元中当前待处理的编码单元作为当前编码单元，并令CD’＝CD’+1，然后返回步骤b3继续执行，其中，CD’＝CD’+1中的“＝”为赋值符号；

在上述编码单元的递归划分过程中，当CD’为0时，如果PD’为0、当前编码单元中不存在边缘信息且PD’的值未被重置为TD’，或者PD’大于0，则当前编码单元的预测方向从编号为0、1及从24到34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到；

当CD’为1时，如果PD’为1、当前编码单元中不存在边缘信息且PD’的值未被重置为TD’，或者当PD’大于1，或者PD’小于1、当前编码单元中存在边缘信息且TD’大于1，则当前编码单元的预测方向从编号为0、1、9、10、11、37、38及20至34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到；

当CD’为2时，如果PD’为2、当前编码单元中不存在边缘信息、PD’的值未被重置为TD’，或者当PD’大于2，或者PD’小于2、当前编码单元中存在边缘信息且TD’大于2，则当前编码单元的预测方向从编号为0、1、37、38、8至12及20至34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到；

当CD’为3时，当前编码单元的预测方向从全部的预测方向中遍历得到；

②-5c、将预处理后的测试帧中下一个待处理的最大编码单元作为当前最大编码单元，并记为CLCU’，然后返回步骤②-5b继续执行，直至预处理后的测试帧中的所有最大编码单元处理完毕。

所述的步骤①-2的具体过程为：

①-2a、检测出当前帧中属于边缘的所有像素点；

①-2b、对当前帧进行分互不重叠的子块处理；

①-2c、确定当前帧中的每个子块中的所有像素点为边缘像素点或为非边缘像素点，对于当前帧中的任一个子块，如果该子块中存在属于边缘的像素点，则将该子块中的所有像素点都确定为边缘像素点；如果该子块中不存在属于边缘的像素点，则将该子块中的所有像素点都确定为非边缘像素点；

①-2d、对当前帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理，对于当前帧中的任一个像素点，如果该像素点为边缘像素点，则采用尺寸大小为5×5的窗口对该像素点进行中值滤波处理；如果该像素点为非边缘像素点，则对该像素点进行高斯滤波处理。

所述的步骤①-2a中采用Canny边缘检测算法检测出当前帧中属于边缘的所有像素点。

所述的步骤①-2b中假设当前帧的尺寸大小能够被8×8整除，则将当前帧划分成个互不重叠的尺寸大小为8×8的子块，其中，W表示训练视频帧集合中的视频帧的宽度，H表示训练视频帧集合中的视频帧的高度。

所述的步骤①-2d中对该像素点进行高斯滤波处理时，采用的滤波窗口的尺寸大小为5×5，高斯分布的标准差为1.1。

所述的步骤①-3b中的

{MSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}^{C L C U})}^{2},

{xMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{C L C U})}^{2},

{yMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{C L C U})}^{2},

{MSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}^{L L C U})}^{2},

{xMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{L L C U})}^{2},

{yMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{L L C U})}^{2},

{MSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}^{U L C U})}^{2},

{xMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{U L C U})}^{2},

{yMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{U L C U})}^{2},

其中，1≤i≤64,1≤j≤64，p^CLCU(i,j)表示CLCU中坐标位置为(i,j)的像素点的像素值，表示CLCU中的所有像素点的像素值的平均值，表示CLCU的第i行中的所有像素点的像素值的平均值，表示CLCU的第j列中的所有像素点的像素值的平均值，p^LLCU(i,j)表示LLCU中坐标位置为(i,j)的像素点的像素值，表示LLCU中的所有像素点的像素值的平均值，表示LLCU的第i行中的所有像素点的像素值的平均值，表示LLCU的第j列中的所有像素点的像素值的平均值，p^ULCU(i,j)表示ULCU中坐标位置为(i,j)的像素点的像素值，表示ULCU中的所有像素点的像素值的平均值，表示ULCU的第i行中的所有像素点的像素值的平均值，表示ULCU的第j列中的所有像素点的像素值的平均值。

所述的步骤①-3b中的

{SAD}^{C - L L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{L L C U} (i, j) |,

{SAD}^{C - U L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{U L C U} (i, j) |,

其中，1≤i≤64,1≤j≤64，p^CLCU(i,j)表示CLCU中坐标位置为(i,j)的像素点的像素值，p^LLCU(i,j)表示LLCU中坐标位置为(i,j)的像素点的像素值，p^ULCU(i,j)表示ULCU中坐标位置为(i,j)的像素点的像素值，符号“||”为取绝对值符号。

所述的步骤②-2的具体过程为：

②-2a、检测出测试帧中属于边缘的所有像素点；

②-2b、对测试帧进行分互不重叠的子块处理；

②-2c、确定测试帧中的每个子块中的所有像素点为边缘像素点或为非边缘像素点，对于测试帧中的任一个子块，如果该子块中存在属于边缘的像素点，则将该子块中的所有像素点都确定为边缘像素点；如果该子块中不存在属于边缘的像素点，则将该子块中的所有像素点都确定为非边缘像素点；

②-2d、对测试帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理，对于测试帧中的任一个像素点，如果该像素点为边缘像素点，则采用尺寸大小为5×5的窗口对该像素点进行中值滤波处理；如果该像素点为非边缘像素点，则对该像素点进行高斯滤波处理。

与现有技术相比，本发明的优点在于：

1)针对估计的深度视频不够准确，不仅会增加空域复杂度，消耗更多编码码率，而且还会降低虚拟视点质量的问题，本发明方法在编码深度视频帧之前先对深度视频帧进行了平滑处理即预处理，这不仅降低了深度视频的空域复杂度，而且提高了编码性能及虚拟视点质量。

2)由于预处理后的深度视频帧更加平滑，更多的最大编码单元的最大划分深度集中在0和1，因此本发明方法使用BP神经网络主动学习并预测最大编码单元的最大划分深度的预测值，再通过对应的彩色视频帧中的最大编码单元的最大划分深度及深度视频帧中的编码单元的边缘纹理信息赋值修正BP神经网络预测的最大编码单元的最大划分深度的预测值，从而提前终止编码单元的划分，同时，根据每层的编码单元的预测模式的统计结果及预测的最大编码单元的最大划分深度的预测值提前决定每层编码单元的预测模式的执行范围，最终在提高编码率失真性能的同时，大幅降低了3D-HEVC深度视频帧内编码复杂度。

附图说明

图1为本发明方法的总体实现框图；

图2为对当前帧预处理的流程框图；

图3a为“Ballons”测试序列的第1视点的第1帧原始深度图；

图3b为“Ballons”测试序列的第1视点的第1帧原始深度图中的所有边缘像素点；

图3c为“Ballons”测试序列的第1视点的第1帧原始深度图经预处理后得到的深度图；

图4为在深度视频帧编码时，CLCU与空域已编码的LLCU、ULCU及对应彩色视频帧中与CLCU对应的TLCU的相关性示意图；

图5为BP神经网络的基本结构；

图6为预处理后的测试帧中的编码单元递归划分的流程框图；

图7a为“Newspaper”测试序列的第4视点的第1帧彩色图像；

图7b为“Newspaper”测试序列的第4视点的第1帧深度图；

图7c为“Newspaper”测试序列的第4视点的第1帧深度图中的编码单元的划分结果；

图8为“Poznan_Street”测试序列的深度图中的最大编码单元的划分深度的分布示意图；

图9a为“Poznan_Street”测试序列的深度图中的编码单元的划分深度为0时帧内预测模式的分布示意图；

图9b为“Poznan_Street”测试序列的深度图中的编码单元的划分深度为1时帧内预测模式的分布示意图；

图9c为“Poznan_Street”测试序列的深度图中的编码单元的划分深度为2时帧内预测模式的分布示意图；

图9d为“Poznan_Street”测试序列的深度图中的编码单元的划分深度为3时帧内预测模式的分布示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出了一种3D-HEVC深度视频帧内快速编码方法，其针对估计的深度视频不够准确，增加了空间冗余度，消耗了更多编码码率而提出，其采用基于边缘信息的处理方法预处理深度视频帧，以提高虚拟视点质量，降低空间冗余度，同时为了主动预测深度视频帧中的最大编码单元的最大划分深度，采用BP神经网络学习并预测深度视频帧中的最大编码单元的最大划分深度的预测值，并根据彩色视频帧中的最大编码单元的最大划分深度及深度视频帧中的编码单元的边缘信息提前决定帧内预测模式，终止编码单元的分割。

本发明的3D-HEVC深度视频帧内快速编码方法的总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程，所述的训练阶段过程的具体步骤如下：

①-1、选取若干个深度视频，将选取的所有深度视频中的所有视频帧构成训练视频帧集合，将训练视频帧集合中当前待处理的视频帧定义为当前帧，其中，训练视频帧集合中包含的视频帧至少为20帧。

实际处理过程中，可选取若干个深度视频(如选取四个深度视频)，提取出每个深度视频中的前N₁帧视频帧，将提取出的共N₁×M帧视频帧构成训练视频帧集合；提取出每个深度视频中的剩余的N₂帧视频帧，将剩余的共N₂×M帧视频帧构成测试视频帧集合，其中，N₁≥20，如取N₁＝20，每个深度视频中包含N帧视频帧，N₁<N，N₂＝N-N₁，M表示选取的深度视频的总个数。

①-2、对当前帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理以完成对当前帧的预处理。

在此具体实施例中，如图2所示，步骤①-2的具体过程为：

①-2a、检测出当前帧中属于边缘的所有像素点。

在此，采用现有的Canny边缘检测算法检测出当前帧中属于边缘的所有像素点。

①-2b、对当前帧进行分互不重叠的子块处理。

在此，假设当前帧的尺寸大小能够被8×8整除，则将当前帧划分成个互不重叠的尺寸大小为8×8的子块，其中，W表示训练视频帧集合中的视频帧的宽度，H表示训练视频帧集合中的视频帧的高度。

①-2c、确定当前帧中的每个子块中的所有像素点为边缘像素点或为非边缘像素点，对于当前帧中的任一个子块，如果该子块中存在属于边缘的像素点，则将该子块中的所有像素点都确定为边缘像素点；如果该子块中不存在属于边缘的像素点，则将该子块中的所有像素点都确定为非边缘像素点。

在此，对该像素点进行高斯滤波处理时，采用的滤波窗口的尺寸大小为5×5，高斯分布的标准差为1.1。

图3a给出了“Ballons”测试序列的第1视点的第1帧原始深度图；图3b给出了“Ballons”测试序列的第1视点的第1帧原始深度图中的所有边缘像素点；图3c给出了“Ballons”测试序列的第1视点的第1帧原始深度图经预处理后得到的深度图。对比图3a和图3c，可以看出预处理后得到的深度图更为平滑，边缘更加完整。

①-3a、按序处理预处理后的视频帧中的每个最大编码单元，将预处理后的视频帧中当前待处理的最大编码单元定义为当前最大编码单元，并记为CLCU。

①-3b、如果CLCU为预处理后的视频帧中最左侧(第一列)的所有最大编码单元中的一个或最上侧(第一行)的所有最大编码单元中的一个，则采用原始3D-HEVC编码平台对CLCU进行编码，再执行步骤①-3c。

如果CLCU不为预处理后的视频帧中最左侧(第一列)的所有最大编码单元中的一个且不为最上侧(第一行)的所有最大编码单元中的一个，则获取CLCU的特征向量，记为F^CLCU，然后采用原始3D-HEVC编码平台对CLCU进行编码，再执行步骤①-3c，其中，F^CLCU的维数为17，F^CLCU中的17个特征按序分别为MSE^CLCU、xMSE^CLCU、yMSE^CLCU、Sob^CLCU、MSE^LLCU、xMSE^LLCU、yMSE^LLCU、Sob^LLCU、MSE^ULCU、xMSE^ULCU、yMSE^ULCU、Sob^ULCU、SAD^C-LLCU、SAD^C-ULCU、LD_max、UD_max及TD_max，MSE^CLCU、xMSE^CLCU和yMSE^CLCU对应表示CLCU中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^CLCU表示CLCU中的所有像素点的像素值的Sobel梯度值之和，MSE^CLCU、xMSE^CLCU、yMSE^CLCU和Sob^CLCU用于衡量CLCU的纹理复杂度，MSE^LLCU、xMSE^LLCU和yMSE^LLCU对应表示CLCU的左相邻最大编码单元LLCU(即为位于CLCU的左侧且与CLCU相邻的最大编码单元)中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^LLCU表示CLCU的左相邻最大编码单元LLCU中的所有像素点的像素值的Sobel梯度值之和，MSE^LLCU、xMSE^LLCU、yMSE^LLCU和Sob^LLCU用于衡量LLCU的纹理复杂度，MSE^ULCU、xMSE^ULCU和yMSE^ULCU对应表示CLCU的上相邻最大编码单元ULCU(即为位于CLCU的上侧且与CLCU相邻的最大编码单元)中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^ULCU表示CLCU的上相邻最大编码单元ULCU中的所有像素点的像素值的Sobel梯度值之和，MSE^ULCU、xMSE^ULCU、yMSE^ULCU和Sob^ULCU用于衡量ULCU的纹理复杂度，SAD^C-LLCU表示CLCU与LLCU之间的绝对差和，已编码的LLCU与CLCU具有空域相关性，因此采用SAD^C-LLCU衡量CLCU与LLCU之间的相关程度，SAD^C-ULCU表示CLCU与ULCU之间的绝对差和，已编码的ULCU与CLCU具有空域相关性，因此采用SAD^C-ULCU衡量CLCU与ULCU之间的相关程度，LD_max表示LLCU的最大划分深度，UD_max表示ULCU的最大划分深度，TD_max表示当前帧相对应的彩色视频帧中与CLCU对应的最大编码单元TLCU的最大划分深度，由于编码CLCU时LLCU、ULCU和TLCU已编码，因此LD_max、UD_max和TD_max的值已知，且由于彩色视频帧比深度视频帧的纹理更为复杂，因此TLCU的最大划分深度必然不小于CLCU的最大划分深度，图4给出了在深度视频帧编码时，CLCU与空域已编码的LLCU、ULCU及对应彩色视频帧中与CLCU对应的TLCU的相关性示意图。

在此具体实施例中，步骤①-3b中的

{MSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}^{C L C U})}^{2},

{xMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{C L C U})}^{2},

{yMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{C L C U})}^{2},

{MSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}^{L L C U})}^{2},

{xMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{L L C U})}^{2},

{yMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{L L C U})}^{2},

{MSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}^{U L C U})}^{2},

{xMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{U L C U})}^{2},

{yMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{U L C U})}^{2},

在此具体实施例中，步骤①-3b中的

{SAD}^{C - L L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{L L C U} (i, j) |,

{SAD}^{C - U L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{U L C U} (i, j) |,

①-3c、将预处理后的视频帧中下一个待处理的最大编码单元作为当前最大编码单元，并记为CLCU，然后返回步骤①-3b继续执行，直至预处理后的视频帧中的所有最大编码单元处理完毕。

①-4、将训练视频帧集合中下一帧待处理的视频帧作为当前帧，然后返回步骤①-2继续执行，直至训练视频帧集合中的所有视频帧处理完毕。

①-5、将训练视频帧集合中的所有视频帧中除最左侧(第一列)的所有最大编码单元和最上侧(第一行)的所有最大编码单元外的所有最大编码单元各自的特征向量作为输入参数，将训练视频帧集合中的所有视频帧中除最左侧(第一列)的所有最大编码单元和最上侧(第一行)的所有最大编码单元外的所有最大编码单元各自采用原始3D-HEVC编码平台编码时的最大划分深度作为输出参数，且所有最大编码单元各自的特征向量与最大划分深度一一对应输入到BP(BackPropagation)神经网络(BP神经网络的基本结构如图5所示)中进行训练，得到训练好的BP神经网络测试模型。

所述的测试阶段过程的具体步骤如下：

②-1、对于任意一帧待测试的深度视频帧，将其定义为测试帧。

在此，测试帧的尺寸大小可以与训练视频帧集合中的视频帧的尺寸大小一致，也可以不一致，但在本实施例中也需假设测试帧的尺寸大小能够被8×8整除，便于分子块处理。

②-2、对测试帧中的所有边缘像素点和所有非边缘像素点进行不同的滤波处理以完成对测试帧的预处理。

在此具体实施例中，对测试帧的预处理的过程采用与步骤①-2中对当前帧的预处理相同的方式，即步骤②-2的具体过程为：

②-2a、检测出测试帧中属于边缘的所有像素点。

②-2b、对测试帧进行分互不重叠的子块处理。

②-2c、确定测试帧中的每个子块中的所有像素点为边缘像素点或为非边缘像素点，对于测试帧中的任一个子块，如果该子块中存在属于边缘的像素点，则将该子块中的所有像素点都确定为边缘像素点；如果该子块中不存在属于边缘的像素点，则将该子块中的所有像素点都确定为非边缘像素点。

②-3、按照步骤①-3a至步骤①-3c的过程，以相同的方式获取预处理后的测试帧中除最左侧(第一列)的所有最大编码单元和最上侧(第一行)的所有最大编码单元外的每个最大编码单元的特征向量，即具体过程为：

②-3a、按序处理预处理后的测试帧中的每个最大编码单元，将预处理后的测试帧中当前待处理的最大编码单元定义为当前最大编码单元，并记为CLCU’。

②-3b、如果CLCU’为预处理后的测试帧中最左侧的所有最大编码单元中的一个或最上侧的所有最大编码单元中的一个，则对CLCU’不作处理，再执行步骤②-3c。

如果CLCU’不为预处理后的测试帧中最左侧的所有最大编码单元中的一个且不为最上侧的所有最大编码单元中的一个，则获取CLCU’的特征向量，记为F^CLCU'，再执行步骤②-3c，其中，F^CLCU'的维数为17，F^CLCU'中的17个特征按序分别为MSE^CLCU'、xMSE^CLCU'、yMSE^CLCU'、Sob^CLCU'、MSE^LLCU'、xMSE^LLCU'、yMSE^LLCU'、Sob^LLCU'、MSE^ULCU'、xMSE^ULCU'、yMSE^ULCU'、Sob^ULCU'、SAD^C ^-LLCU'、SAD^C-ULCU'、LD'_max、UD'_max及TD'_max，MSE^CLCU'、xMSE^CLCU'和yMSE^CLCU'对应表示CLCU’中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^CLCU'表示CLCU’中的所有像素点的像素值的Sobel梯度值之和，MSE^LLCU'、xMSE^LLCU'和yMSE^LLCU'对应表示CLCU’的左相邻最大编码单元LLCU’中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^LLCU'表示CLCU’的左相邻最大编码单元LLCU’中的所有像素点的像素值的Sobel梯度值之和，MSE^ULCU'、xMSE^ULCU'和yMSE^ULCU'对应表示CLCU’的上相邻最大编码单元ULCU’中的所有像素点的像素值的均方误差、水平方向的均方误差和垂直方向的均方误差，Sob^ULCU'表示CLCU’的上相邻最大编码单元ULCU’中的所有像素点的像素值的Sobel梯度值之和，SAD^C-LLCU'表示CLCU’与LLCU’之间的绝对差和，SAD^C-ULCU'表示CLCU’与ULCU’之间的绝对差和，LD'_max表示LLCU’的最大划分深度，UD'_max表示ULCU’的最大划分深度，TD'_max表示测试帧相对应的彩色测试帧中与CLCU’对应的最大编码单元TLCU’的最大划分深度。

②-3c、将预处理后的测试帧中下一个待处理的最大编码单元作为当前最大编码单元，并记为CLCU’，然后返回步骤②-3b继续执行，直至预处理后的测试帧中的所有最大编码单元处理完毕。

②-4、将预处理后的测试帧中除最左侧(第一列)的所有最大编码单元和最上侧(第一行)的所有最大编码单元外的所有最大编码单元各自的特征向量作为输入参数，输入到训练好的BP神经网络测试模型中，预测得到预处理后的测试帧中除最左侧(第一列)的所有最大编码单元和最上侧(第一行)的所有最大编码单元外的每个最大编码单元的最大划分深度的预测值。

②-5a、按序处理预处理后的测试帧中的每个最大编码单元，将预处理后的测试帧中当前待处理的最大编码单元定义为当前最大编码单元，并记为CLCU’。

②-5b、如果CLCU’为预处理后的测试帧中最左侧(第一列)的所有最大编码单元中的一个或最上侧(第一行)的所有最大编码单元中的一个，则采用原始3D-HEVC编码平台对CLCU’进行编码，再执行步骤②-5c。

如果CLCU’不为预处理后的测试帧中最左侧(第一列)的所有最大编码单元中的一个且不为最上侧(第一行)的所有最大编码单元中的一个，则执行以下步骤(流程框图如图6所示)：

b1、判断CLCU’的最大划分深度的预测值PD’与测试帧相对应的彩色视频帧中与CLCU’对应的最大编码单元TLCU’的最大划分深度TD’的大小关系，如果PD’的值大于TD’的值，则将PD’的值重置为TD’的值，然后执行步骤b2；如果PD’的值小于或等于TD’的值，则保持PD’的值不变，然后执行步骤b2。

b2、将CLCU’重新定义为当前编码单元，令CD’表示当前编码单元的划分深度，CD’的初始值为0，然后执行步骤b3。

b3、采用现有的Canny边缘检测算法对当前编码单元进行边缘检测，得到当前编码单元的边缘信息，如果CD’大于或等于PD’，且满足下述条件之一：1)当前编码单元中不存在边缘信息，2)PD’的值已经被重置为TD’，3)CD’大于或等于TD’，则对当前编码单元不进行继续划分，至此已完成当前编码单元的编码，再执行步骤b4；如果CD’小于PD’，则对当前编码单元进行继续划分，执行步骤b5。

b4、如果CD’等于0，则执行步骤②-5c。

如果CD’等于1，则判断当前编码单元所在层的四个编码单元是否均已处理完毕，若已全部处理完毕，则执行步骤②-5c；若未全部处理完毕，则将当前编码单元所在层的四个编码单元中的下一个待处理的编码单元作为当前编码单元，再执行步骤b3。

如果CD’不等于0且不等于1，则判断当前编码单元所在层的四个编码单元是否均已处理完毕，如果已全部处理完毕，则将当前编码单元的上一层中下一个待处理的编码单元作为当前编码单元，再执行步骤b3；如果未全部处理完毕，则将当前编码单元所在层的四个编码单元中的下一个待处理的编码单元作为当前编码单元，再执行步骤b3。

b5、将当前编码单元的下一层四个编码单元中当前待处理的编码单元作为当前编码单元，并令CD’＝CD’+1，然后返回步骤b3继续执行，其中，CD’＝CD’+1中的“＝”为赋值符号。

本发明在上述编码单元的递归划分过程中，即在对处于每一个划分深度的编码单元进行帧内预测时，每个划分深度的预测方向都限定在具体的选择范围内，具体为：当CD’为0时，如果PD’为0、当前编码单元中不存在边缘信息且PD’的值未被重置为TD’，或者PD’大于0，则当前编码单元的预测方向从编号为0、1及从24到34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到。

当CD’为1时，如果PD’为1、当前编码单元中不存在边缘信息且PD’的值未被重置为TD’，或者当PD’大于1，或者PD’小于1、当前编码单元中存在边缘信息且TD’大于1，则当前编码单元的预测方向从编号为0、1、9、10、11、37、38及20至34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到。

当CD’为2时，如果PD’为2、当前编码单元中不存在边缘信息、PD’的值未被重置为TD’，或者当PD’大于2，或者PD’小于2、当前编码单元中存在边缘信息且TD’大于2，则当前编码单元的预测方向从编号为0、1、37、38、8至12及20至34的预测方向中遍历得到；如果为其余情况，则当前编码单元的预测方向从全部的预测方向中遍历得到。

当CD’为3时，当前编码单元的预测方向从全部的预测方向中遍历得到。

图7a给出了“Newspaper”测试序列的第4视点的第1帧彩色图像；图7b给出了“Newspaper”测试序列的第4视点的第1帧深度图；图7c给出了“Newspaper”测试序列的第4视点的第1帧深度图中的编码单元的划分结果。

图8给出了“Poznan_Street”测试序列的深度图中的最大编码单元的划分深度的分布示意图；图9a给出了“Poznan_Street”测试序列的深度图中的编码单元的划分深度为0时帧内预测模式的分布示意图；图9b给出了“Poznan_Street”测试序列的深度图中的编码单元的划分深度为1时帧内预测模式的分布示意图；图9c给出了“Poznan_Street”测试序列的深度图中的编码单元的划分深度为2时帧内预测模式的分布示意图；图9d给出了“Poznan_Street”测试序列的深度图中的编码单元的划分深度为3时帧内预测模式的分布示意图。

以下为对本发明方法的编码性能进行测试，测试了如表1所列的4个3D-HEVC标准测试序列，测试平台选用HTM-10.0，每个3D-HEVC标准测试序列的总帧数为60帧，测试配置为baseCfg_2view+depth_AllIntra，测试是在Intel(R)Core(TM)i5-2500CPU3.30GHz，8.00GB内存，操作系统为Windows7的计算机上进行的。

表2为表1中所列的4个3D-HEVC标准测试序列经本发明方法中的预处理方法预处理后得到的深度视频帧对虚拟视点质量的影响。在表2中，PSNR_ori表示使用原始深度图绘制的虚拟视点的PSNR，PSNR_pro表示使用处理后的深度图绘制的虚拟视点的PSNR。从表2中可以看出，本发明方法对每个3D-HEVC标准测试序列的虚拟视点质量都有一定的提高，虽然部分3D-HEVC标准测试序列的虚拟视点质量提高不多，但图像得到了平滑，为利用BP神经网络提前终止编码单元的分割打下了基础。

本发明针对表1中所列的4个3D-HEVC标准测试序列(QP：(25,34)、(30,39)、(35,42)及(40,45))分别建立了如表3所示的四个BP神经网络。表3中QP一列中的第1个值为彩色视频帧的编码QP，第2个值为对应深度视频帧的编码QP。每个BP神经网络的预测精度如表4所示，从表4中可以看出平均的预测精度为92.8％，当把该BP神经网络用于提前终止编码单元的划分时，能够保证纹理较为简单的深度视频帧的质量。

表5给出了本发明方法的时间节省情况。表5中，TD_ori为利用原始3D-HEVC编码平台编码深度视频的编码时间，TS_ori为利用原始3D-HEVC编码平台编码彩色视频和深度视频的总编码时间，TD_pro为利用加入本发明方法后的3D-HEVC编码平台编码深度视频的编码时间，TS_pro为利用加入本发明方法后的3D-HEVC编码平台编码彩色视频和深度视频的总编码时间，

Δ T D = \frac{{TD}_{p r o} - {TD}_{o r i}}{{TD}_{o r i}} \times 100 %, Δ T S = \frac{{TS}_{p r o} - {TS}_{o r i}}{{TS}_{o r i}} \times 100 % .

从表5中可以看出，本发明方法能够使深度视频的编码时间平均节省54.76％，总编码时间平均节省49.15％，这主要有两方面原因：(1)编码前的深度视频处理使深度视频更为平滑，使得编码单元的划分等级更小；(2)BP神经网络主动预测出最大编码单元的最大划分深度的预测值，并根据彩色视频帧中的最大编码单元的最大划分深度提前选定预测模式，终止编码单元的分割。

表6给出了本发明方法的率失真性能，计算率失真性能时，编码码率采用的是深度视频和彩色视频编码的总码率，PSNR采用的是由编码后彩色视频和深度视频绘制的虚拟视点的PSNR。从表6中可以看出，本发明方法在相同PSNR下使码率平均下降了2.573％，在相同码率下使虚拟视点PSNR平均升高了0.017dB。这主要是因为本发明方法在深度视频编码之前对深度视频进行了平滑处理，不仅保证了虚拟视点质量，还降低了编码码率。

表1测试序列的详细信息

表2虚拟视点PSNR(dB)

表3训练参数设置

表4BP神经网络的预测精度

表5时间节省情况

表6率失真性能

Claims

1.一种3D-HEVC深度视频帧内快速编码方法，其特征在于包括训练阶段和测试阶段两个过程，所述的训练阶段过程的具体步骤如下：

所述的测试阶段过程的具体步骤如下：

b4、如果CD’等于0，则执行步骤②-5c；

2.根据权利要求1所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-2的具体过程为：

①-2a、检测出当前帧中属于边缘的所有像素点；

①-2b、对当前帧进行分互不重叠的子块处理；

3.根据权利要求2所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-2a中采用Canny边缘检测算法检测出当前帧中属于边缘的所有像素点。

4.根据权利要求2所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-2b中假设当前帧的尺寸大小能够被8×8整除，则将当前帧划分成个互不重叠的尺寸大小为8×8的子块，其中，W表示训练视频帧集合中的视频帧的宽度，H表示训练视频帧集合中的视频帧的高度。

5.根据权利要求2所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-2d中对该像素点进行高斯滤波处理时，采用的滤波窗口的尺寸大小为5×5，高斯分布的标准差为1.1。

6.根据权利要求1至5中任一项所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-3b中的

{MSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}^{C L C U})}^{2},

{xMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{C L C U})}^{2},

{yMSE}^{C L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{C L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{C L C U})}^{2},

{MSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}^{L L C U})}^{2},

{xMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{L L C U})}^{2},

{yMSE}^{L L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{L L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{L L C U})}^{2},

{MSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}^{U L C U})}^{2},

{xMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{i}^{U L C U})}^{2},

{yMSE}^{U L C U} = \frac{1}{64 \times 64} Σ_{i = 1}^{64} Σ_{j = 1}^{64} {(p^{U L C U} (i, j) - {\overset{&OverBar;}{p}}_{j}^{U L C U})}^{2},

7.根据权利要求6所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤①-3b中的

{SAD}^{C - L L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{L L C U} (i, j) |,

{SAD}^{C - U L C U} = Σ_{i = 1}^{64} Σ_{j = 1}^{64} | p^{C L C U} (i, j) - p^{U L C U} (i, j) |,

8.根据权利要求1所述的一种3D-HEVC深度视频帧内快速编码方法，其特征在于所述的步骤②-2的具体过程为：

②-2a、检测出测试帧中属于边缘的所有像素点；

②-2b、对测试帧进行分互不重叠的子块处理；