CN106791768B

CN106791768B - 一种基于图割优化的深度图帧率提升方法

Info

Publication number: CN106791768B
Application number: CN201611168318.6A
Authority: CN
Inventors: 陈耀武; 郭莉琳; 田翔; 周凡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2019-01-04
Anticipated expiration: 2036-12-16
Also published as: CN106791768A

Abstract

本发明公开了一种基于图割优化的深度图帧率提升方法，首先，对于每个编码单元树，具体执行运动估计和补偿的块大小和搜索范围是根据纹理图中对应块的运动信息决定的；其次，每个块的运动搜索不是相对独立的，而是考虑了块间运动矢量场的平滑，将一个编码单元树中所有块的运动搜索当作一个能量最小化过程。其中，平滑项是相邻块运动矢量的差，而数据项是用来评价被插入深度图质量的合成视点失真；最后，这个能量最小化过程转化为一个标签最优分配过程，用图割优化算法来解决。本发明适用于3D视频编码效率的优化、深度视频的容错和增强。

Description

一种基于图割优化的深度图帧率提升方法

技术领域

本发明涉及三维视频处理领域，具体涉及一种基于图割优化的深度图帧率提升方法。

背景技术

深度图在三维视频处理系统中有很重要的作用。虽然不直接显示，但深度图中包含的几何信息可以用来将有限的已知视点合成额外的虚拟视点，支持自由视点观看，增强视觉体验效果。一方面，由于工艺限制，深度相机采集到的深度图往往帧率不高，导致合成的虚拟视点时间分辨率太低，容易产生视频抖动和运动不连续现象。另一方面，多视点视频加深度图(Multi-view video plus depth，MVD)的格式数据量非常大，为了方便传输和存储，需要高效的视频编码进行压缩。编码器可以跳过深度视频中的一些帧不编，即对深度图以低于采集帧率的较低帧率编码，这样可以减少消耗的比特率。但为了能在接收端流畅显示，低帧率的深度视频解码后，必须通过时域插值的方式来重建出跳过的深度帧。

最简单的帧率提升方法是重复前一帧或者取前后帧的平均值，但这样的方法容易在物体边缘处产生运动模糊和伪影。所以，当前主流的帧率提升方法都是通过运动估计找出前后两帧间的运动矢量，沿着运动轨迹插入中间帧。基于运动补偿的帧插入方法大致分为两类，一类是像素级匹配，另一类是块匹配。像素级匹配的效果很好，但计算量太大，不实用；块匹配更为常用，但需要解决块间运动矢量不连续，物体边缘模糊等问题。

大多数帧率提升方法都是针对纹理视频设计的，但深度图具有不同于自然纹理图的特征属性。深度图中的每个像素代表拍摄景物到摄像机之间的距离，是一幅包含大量匀质区域的灰度图，而平坦区域又被明显的边缘所分割。不同区域对运动失真的敏感度是不同的，因此亟需一种针对深度图的帧率提升方法。

发明内容

本发明提供了一种基于图割优化的深度图帧率提升方法，实现低复杂度下深度视频的高质量时域插值。

为了减小带宽占用量，深度图在编码端以较低帧率压缩，解码后为了保证3D视频观看的流畅性，深度图的显示帧率需要在传输帧率的基础上进行提升，即通过运动补偿帧插入的方式实现帧率转换。为了降低复杂度，整体流程是在一个接一个的编码单元树中进行的。

一种基于图割优化的深度图帧率提升方法，包括以下步骤：

(1)编码端深度帧的跳过：在3D视频编码端，多视点的纹理图和深度图以访问单元为单位顺序编码，编号为奇数(从0起计数)的访问单元中的深度图跳过不编码；

(2)插值块尺寸的确定：每个插值帧的运动估计和补偿过程是以编码单元树(Coding Tree Unit，CTU)为基本单位进行的，在每个CTU中，具体用来运动估计和插值的块大小由对应纹理图中编码预测单元的大小决定；

(3)运动搜索范围的确定：插值块的运动搜索范围由对应纹理图中预测单元的运动矢量来决定，水平方向和垂直方向的运动搜索范围的计算分别如式(Ⅰ)和式(Ⅱ)所示：

SR_h＝|TMV_x|/4 (Ⅰ)

SR_v＝|TMV_y|/4 (Ⅱ)

式(Ⅰ)和(Ⅱ)中，TMV_x和TMV_y分别表示对应纹理图预测单元运动矢量的水平分量和垂直分量，对于纹理图中的帧内预测单元，运动矢量认为是0；

(4)候选运动矢量标签初始化：深度图前后两帧的块匹配程度用视点合成失真(View Synthesis Distortion，VSD)来衡量，对运动搜索范围内的每一个运动矢量都计算出相应的VSD，作为后续步骤的初始化过程；

视点合成失真的计算如式(Ⅲ)所示：

式(Ⅲ)中，B_t表示待插入的块，V表示运动矢量，p表示块中像素，F_t-1(p+V)和F_t+1(p-V)分别表示前一帧和后一帧中的匹配点，▽T(p)表示对应纹理块像素p的水平梯度：

▽T(p)＝|T(x,y)-T(x-1,y)|+|T(x,y)-T(x+1,y)| (Ⅳ)

式(Ⅳ)中，x，y表示纹理块中像素p的横坐标和纵坐标，T(x-1,y)，T(x,y)，和T(x+1,y)表示纹理块中水平相邻的三个像素值；

α是一个比例系数，代表深度误差到合成视点误差的转换关系：

式(Ⅴ)中，f表示摄像机焦距，L表示视点间基线距离，Z_near和Z_far分别表示场景中深度最近和最远的距离；

(5)最终运动矢量的计算：为了使运动矢量场在块匹配的基础上还能保证空域平滑，将最终运动矢量的计算转化为一个能量最小化方程的求解，能量最小化方程表示为：

E(f)＝E_D(f)+λE_S(f) (Ⅵ)

式(Ⅵ)中，f表示编码单元树中所有块的运动矢量场，这个能量最小化方程包含一个数据项E_D(f)和一个平滑项E_S(f)，系数λ定为10，数据项E_D(f)代表块匹配的程度，用编码单元树中所有块视点合成失真的和表示；平滑项E_S(f)表示为四邻域块的运动矢量差的范数：

式(Ⅶ)中，i和j表示CTU中相邻的两个块，V_i和V_j表示各自的运动矢量；

将能量最小化方程的求解转化为一个离散二维标签的优化分配问题，用图割优化算法解决，每个块为一个节点，每个运动矢量都是一个二维标签，图割优化通过最大流算法找出整个节点图的最小割，最小割时每个节点的标签就是最终的运动矢量。

以上步骤是在3D-HEVC的框架下进行的，3D-HEVC是3D视频编码扩展联合协作组(JCT-3V)在HEVC的基础上扩展出的一种新的3D视频编码标准，较以前的标准可以实现更高的压缩比。

在步骤(1)中，为了简化示例同时不失一般性，选用两个视点来编码。每个访问单元包含同一时刻所有视点的纹理帧和深度帧。访问单元按时间顺序编码，以0起计数。通常情况下，同一访问单元中的纹理图先于深度图编码。

在步骤(2)中，CTU是HEVC的基本编码单元，具有四叉树的分割结构，可以更好地根据场景的纹理分布和运动复杂程度决定编码块大小。本发明中用于运动估计的块尺寸在每个CTU范围内是相等的，不同的CTU内插值块的尺寸可能不同，具体由待插值的深度块对应纹理块的最小预测单元大小决定。

步骤(3)中，因为编码中的运动矢量是四分之一像素精度的，为了转化为整像素精度，运动矢量要除以4。

本发明基于图割优化的深度图帧率提升方法，在编码端跳过一些深度帧，在解码端通过双向运动补偿插入的方式重建出跳过的深度帧。对于每个编码单元树，插值块的尺寸和搜索范围是根据纹理图中对应预测单元的运动信息决定的；为了保证块间运动矢量场的平滑，将一个编码单元树中所有块的运动搜索当作一个能量最小化过程；这个能量最小化过程用低复杂度的图割优化算法来解决。本发明适用于3D视频编码效率的优化、深度视频的容错和增强。

附图说明

图1为本发明基于图割优化的深度图帧率提升方法的流程示意图；

图2为本发明中3D视频编码的帧结构示意图；

图3为本发明中块尺寸决策示意图，其中：(a)为纹理CTU中的最小预测单元的尺寸，(b)为待插值深度CTU的块尺寸。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明方法是在3D-HEVC的编码框架上实现，3D-HEVC是基于MVD格式的，将采集到的多个视点视频以及对应的深度图编码到一个3D视频比特流中。纹理视频和深度数据解码后，利用基于深度的图像绘制技术(Depth image based rendering，DIBR)可以合成额外的中间视点来显示。

如图1所示，本发明基于图割优化的深度图帧率提升方法，具体包括如下步骤：

步骤1，编码端深度帧的跳过：在3D视频编码端，多视点的纹理图和深度图以访问单元为单位顺序编码，编号为奇数(从0起计数)的访问单元中的深度图跳过不编码；

3D视频编码端的帧跳过结构如图2所示，同一时刻的纹理帧和深度帧包含在一个访问单元中，访问单元按时间顺序编码(从0起计数)。通常情况下，同一访问单元中的纹理图先于深度图编码。为了不失一般性，本实施例中选用左右两个视点来编码。如图2所示，编号为奇数的访问单元中的深度图跳过不编码，被跳过的深度帧将在解码端通过前后帧双向运动预测重建出来。

步骤2，插值块尺寸的确定：在每个CTU中，根据纹理图中编码预测单元的大小来确定与其对应的用来运动估计和插值的块大小；

此步骤中，插值块尺寸不是固定的，而是根据图像内容自适应确定的。平坦区域适宜用大的块进行运动补偿，而纹理复杂的区域适宜用较小的块插值。HEVC较H.264最大的改进在于采用了四叉树分割的编码结构，即把一帧图像划分为若干最大尺寸可达64×64的CTU，CTU可进一步划分为更小的编码和预测单元。为了满足后续步骤中图割算法的实现需要，本实施例中的插值块尺寸在每个CTU范围内是相等的。因为同一访问单元中的纹理图先于深度图编码，所以解码当前深度帧时，对应纹理图的编码信息已经得到。如图3(a)所示的待插值深度CTU的块尺寸由如图3(b)所示的对应纹理CTU中的最小预测单元的尺寸决定。此处不考虑非正方形或非对称划分的预测单元。

步骤3，运动搜索范围的确定：每个插值块的运动搜索范围根据对应纹理图中编码预测单元的运动矢量来确定；

此步骤中，插值块的运动搜索范围，在其他方法中取一个固定值，但如果搜索范围太小，找到的运动矢量会不准确或偏离最优值较远；如果搜索范围太大，耗用太多无用时间。考虑到纹理图和深度图对应区域的运动情况是相似的，插值块的运动搜索范围可根据对应纹理图中预测单元的运动矢量来决定，水平方向和垂直方向搜索范围的计算分别如式(Ⅰ)和式(Ⅱ)所示：

SR_h＝|TMV_x|/4 (Ⅰ)

SR_v＝|TMV_y|/4 (Ⅱ)

式(Ⅰ)和(Ⅱ)中，TMV_x和TMV_y分别表示对应纹理图预测单元运动矢量的水平分量和垂直分量。因为编码中的运动矢量是四分之一像素精度的，为了转化为整像素精度，运动矢量要除以4。对于纹理图中的帧内预测单元，运动矢量认为是0。由此可见，当计算出的SR_h和SR_v不相等时，得到的搜索范围不是方形的。

步骤4，候选运动矢量标签初始化：对运动搜索范围内的每一个运动矢量都计算出相应的VSD，作为后续步骤的初始化过程；

此步骤中，运动矢量通过在前后两帧的给定搜索范围内找匹配块得到，匹配代价通常用块中像素的绝对误差和表示。但深度图的质量不是由深度图本身评价的，而是由以其合成的虚拟视点的质量评价的。这里深度图的块匹配程度用视点合成失真VSD来衡量。VSD的计算考虑了深度块对应纹理块的图像信息，纹理复杂的区域对深度失真更敏感。因此，视点合成失真的计算如式(Ⅲ)所示：

式(Ⅳ)中，x，y表示纹理块中像素p的横坐标和纵坐标，T(x-1,y)，T(x,y)，和T(x+1,y)表示纹理块中水平相邻的三个像素值。

式(Ⅴ)中，f表示摄像机焦距，L表示视点间基线距离，Z_near和Z_far分别表示场景中深度最近和最远的距离。

如果每个块都通过最小化VSD独立预测出各自的运动矢量，而不考虑相邻块之间运动矢量的相关性，则必然产生很多运动矢量离群值，降低插入帧的质量。因此，对搜索范围内的每一个运动矢量都计算出相应的VSD仅是后续步骤的一个初始化过程。

步骤5，最终运动矢量的计算：将最终运动矢量的计算转化为一个能量最小化方程的求解，这个求解过程可以当作一个二维标签分配过程，用图割优化算法来计算出结果；

此步骤中，能量最小化方程表示为：

E(f)＝E_D(f)+λE_S(f) (Ⅵ)

式(Ⅵ)中，f表示CTU中所有块的运动矢量场。这个能量最小化方程包含一个数据项E_D(f)和一个平滑项E_S(f)。系数λ定为10。数据项E_D(f)代表块匹配的程度，用CTU中所有块VSD的和表示；平滑项E_S(f)表示为四邻域块的运动矢量差的范数：

式(Ⅶ)中，i和j表示CTU中相邻的两个块，V_i和V_j表示各自的运动矢量。

为了求E(f)的最小值从而得到最终的运动矢量，可以将方程求解转化为一个离散二维标签的优化分配问题，用图割算法解决。图割优化算法常用于图像分割和视差匹配。此处，每个块为一个节点，每个运动矢量都是一个二维标签，图割优化通过最大流算法找出整个节点图的最小割，最小割时每个节点的标签就是最终的运动矢量。

图割优化算法是一个全局优化算法，一般比较耗时。但本发明的计算复杂度相对较低，原因有两方面：第一，步骤(3)中运动搜索范围通过自适应决策，大多数接近于0，这样导致候选标签数比较少；第二，图割优化算法是在一个CTU范围内而不是一整帧内进行的。表1显示了不同测试序列的运动搜索范围(SR)分布情况，以及平均每帧深度图插值时间(T_int)与编码时间(T_enc)的对比。

表1

序列	分辨率	SR<＝3(％)	SR>3(％)	T<sub>int</sub>(s)	T<sub>enc</sub>(s)
						Poznan_Hall2	1920×1088	79.04	20.96	1.53	62.25
Poznan_Street	1920×1088	73.35	26.65	4.90	100.51
						Undo_Dancer	1920×1088	69.73	30.27	1.40	72.13
Kendo	1024×768	84.22	15.78	0.31	30.13
						Balloons	1024×768	93.65	6.35	0.13	28.53
Newspaper	1024×768	96.82	3.18	0.07	27.19

从表1中可以看出，帧插值时间远小于编码时间，因此本发明有助于将编码端的计算负担部分转移给解码端，平衡系统的整体负载。

为了评估本发明的性能，在3D-HEVC的参考软件HTM-16.0上进行了实验。实验使用了6个由JCT-3V指定的测试序列：Poznan_Hall2(1920×1088)、Poznan_Street(1920×1088)、Undo_Dancer(1920×1088)、Kendo(1024×768)、Balloons(1024×768)和Newspaper(1024×768)。在编码端，纹理图与深度图的量化参数(QP)组合为(25，34)，编号为奇数的访问单元中的深度图跳过不编码。在解码端，被跳过的深度帧被插值重建，然后在两个相邻视点间利用基于深度图像绘制(DIBR)合成三个虚拟视点。表2列出了用插入的深度图合成的虚拟视点的平均质量。

表2实验结果

序列	峰值信噪比(PSNR)	结构相似性(SSIM)
			Poznan_Hall2	47.8437	0.9975
Poznan_Street	47.4959	0.9973
			Undo_Dancer	37.8598	0.9933
Kendo	46.8444	0.9973
			Balloons	46.1040	0.9980
Newspaper	43.6772	0.9958
			平均	44.9708	0.9965

表2中的PSNR和SSIM是通过比较用插值出的深度图合成的虚拟视点与正常编码的深度图合成的虚拟视点求出的。PSNR平均大于40dB，可见采用本发明的方法，跳过一部分深度图不编码，对最后的观看效果影响很小，但可以减少消耗的码率。因此本发明适用于低码率条件下3D视频编码的优化。

以上公开的仅为本发明的具体实施例，但是本发明的保护范围并不局限于此，任何熟悉本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，都应涵盖在本实用发明的保护范围之内。

Claims

1.一种基于图割优化的深度图帧率提升方法，包括以下步骤：

(1)编码端深度帧的跳过：在3D视频编码端，多视点的纹理图和深度图以访问单元为单位顺序编码，编号为奇数的访问单元中的深度图跳过不编码；

(2)插值块尺寸的确定：每个插值帧的运动估计和补偿过程是以编码单元树为基本单位进行的，在每个编码单元树中，根据纹理图中编码预测单元的大小确定与其对应的用来运动估计和插值的块大小；

SR_h＝|TMV_x|/4 (Ⅰ)

SR_v＝|TMV_y|/4 (Ⅱ)

(4)候选运动矢量标签初始化：深度图前后两帧的块匹配程度用视点合成失真来衡量，对运动搜索范围内的每一个运动矢量计算出相应的视点合成失真，作为后续步骤的初始化过程；

视点合成失真的计算如式(Ⅲ)所示：

▽T(p)＝|T(x,y)-T(x-1,y)|+|T(x,y)-T(x+1,y)| (Ⅳ)

(5)最终运动矢量的计算：将最终运动矢量的计算转化为一个能量最小化方程的求解，能量最小化方程表示为：

E(f)＝E_D(f)+λE_S(f) (Ⅵ)

式(Ⅶ)中，i和j表示编码单元树中相邻的两个块，V_i和V_j表示各自的运动矢量；

2.根据权利要求1所述基于图割优化的深度图帧率提升方法，其特征在于：所述步骤(1)～步骤(5)是在3D-HEVC的框架下进行的。

3.根据权利要求1所述基于图割优化的深度图帧率提升方法，其特征在于：每个访问单元包含同一时刻所有视点的纹理帧和深度帧，访问单元按时间顺序编码，以0起计数。