CN105915886B

CN105915886B - 一种基于视频压缩域的深度图推理算法

Info

Publication number: CN105915886B
Application number: CN201610299323.4A
Authority: CN
Inventors: 冯杰; 马汉杰
Original assignee: Hangzhou Maquan Information Technology Co Ltd
Current assignee: Hangzhou Maquan Information Technology Co Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2017-10-31
Anticipated expiration: 2036-05-06
Also published as: CN105915886A

Abstract

本发明公开了一种基于视频压缩域的深度图推理算法，其通过对压缩域中的帧内宏块和帧间宏块分别进行处理，得到了更加完整而准确的运动信息，进而通过运动补偿和上采样双边滤波推理得到深度图，可以实现图像质量与推理速度的平衡。与普通基于像素域的深度图推理算法相比，本发明算法由于利用了压缩域的信息，所占用时间是基于像素域算法时间的60％左右，并且深度图质量也与像素域推理产生的深度图质量相当；与基于块的运动补偿法相比，本发明算法生成的深度图质量PSNR值有1～3dB的提升，主观上也能明显察觉到比基于块的运动补偿法生成的深度图具有更加平滑的效果，为2D到3D视频转换打下良好的基础。

Description

一种基于视频压缩域的深度图推理算法

技术领域

本发明属于三维视频生成技术领域，具体涉及一种基于视频压缩域的深度图推理算法。

背景技术

人类在自然界中看到的是真实的3D世界，人类所能感知到的周围环境是也是3D的，因此，能够在屏幕上再现这种真实的3D场景一直是人类梦寐以求的理想。就目前的3D发展状况而言，3D内容的极度匮乏是造成3D视频产业成长一个主要障碍。为了解决这一问题，首先需要了解人类对3D视频的感应机理。人眼的3D视觉是通过双眼间的视网膜视差来感知对象的距离即深度信息的，而目前的3D设备正是利用了人眼双目视觉系统的这一感知特点，通过分别给左右眼以对应的平面图像，根据几何成像关系，这两幅图像中不同深度位置的对象在图像间具有不同大小的视差，然后在大脑中完成视觉场景中对象间相对深度的感知重建，这样人眼就可以获得具有深度感知的立体视觉效果。为了生成3D视频，目前比较普遍的做法是采用基于深度图的绘制(depth image-based rendering，DIBR)方法来生成具有视差的左右视点图像。因此如何利用原有的2D视频得到对应的深度图是2D到3D的转换领域一个非常重要的研究方向。

目前，深度图生成算法主要分成两大类：全自动算法和半自动算法。全自动算法在2D到3D转换过程中不需要人工参与，直接利用2D视频所提供的信息和深度线索估计视频帧的深度。该类方法在很多场景下可以获得比较好的深度图，但对于一些特殊的景物(如悬挂的物体等)还是不能正确获得它的深度。因此，为了获得转换速度和转换效果的平衡，目前很多研究更倾向于略有人工参与的半自动的转换方式。半自动方法首先将整段视频分成关键帧和非关键帧，并对关键帧采用人工参与方式赋予比较精确的深度值，对于非关键帧则采用深度推理方式得到相应的深度图。其中，直接对已有深度图进行推理或滤波的方法主要包括基于块的运动补偿法，双向KLT跟踪算法，基于块的运动估计结合三边滤波器，基于扫描线的推理滤波，Graph Cut与Random Walks相结合的推理等。半自动方法中由于有了人工的参与可以有效的避免前期很多自动算法造成的物体前后位置误判，因而可以获得更加准确的深度图。但是目前大部分算法都是基于像素域进行的，这在实际应用中会消耗大量的计算资源。并且，目前很多视频都是用压缩方式进行存储的，如果在压缩域就可以对视频内容进行分析和处理可以大大提升处理速度，并且压缩视频数据都是以块为基本单位，所需要处理的数据量仅是像素域的1/64(基于8×8块)或1/16(基于4×4块)。因此，需要在保证深度图质量的前提下尽可能利用压缩域中隐含的信息对2D视频进行分析处理，就可以达到深度图生成效率与质量的平衡。

发明内容

针对现有技术所存在的上述技术局限，本发明提供了一种基于视频压缩域的深度图推理算法，可以获得平滑而可靠的深度图像，并且具有更好的深度图像质量，为2D到3D视频转换打下良好的基础。

一种基于视频压缩域的深度图推理算法，包括如下步骤：

(1)对视频中非关键帧的码流进行解码，以还原得到非关键帧的图像信息和编码信息；

(2)选择性地对非关键帧中的帧内编码宏块进行运动估计，得到帧内编码宏块的运动矢量；

(3)对非关键帧中的帧间编码宏块的运动矢量进行修正；

(4)对于当前非关键帧的任一像素点i，通过以下公式计算该像素点i的深度值：

其中：D_h(i)为当前非关键帧中像素点i的深度值，D_l(j)为当前非关键帧低分辨率深度图中像素点j的深度值，当前非关键帧低分辨率深度图中每一像素点即对应当前非关键帧中一4×4大小的编码块，S为以像素点i所属编码块在当前非关键帧低分辨率深度图中对应的像素点i_l为中心的星形像素点集合，该星形像素点集合包含像素点i_l以及当前非关键帧低分辨率深度图中以像素点i_l为中心距离为r从上下左右四个方向上扩展得到的4r个像素点，r为大于1的自然数；w(i,j)为像素点i与像素点j的权重系数；深度值D_l(j)的表达式如下：

其中：为前一帧深度图中像素点q的深度值，Ω为前一帧中左上顶点坐标为(j_x×4+mv_x(j)-2,j_y×4+mv_y(j)-2)右下顶点坐标为(j_x×4+mv_x(j)+1,j_y×4+mv_y(j)+1)的矩形区块，j_x和j_y分别为像素点j在当前非关键帧低分辨率深度图中的横纵坐标，mv_x(j)和mv_y(j)分别为像素点j在当前非关键帧中对应编码块的运动矢量在水平和垂直方向上的分量。

所述的步骤(2)中选择性地对非关键帧中的帧内编码宏块进行运动估计，其选择标准如下：对于非关键帧中的任一帧内编码宏块，取该帧内编码宏块周围四个宏块的运动矢量中的最大值，若该最大值大于一定阈值，则对该帧内编码宏块进行运动估计，否则不对其进行运动估计。

所述的步骤(2)中根据以下算式对帧内编码宏块进行运动估计：

其中：(mv_x,mv_y)为帧内编码宏块的运动矢量，其中mv_x和mv_y分别为该运动矢量在水平和垂直方向上的分量，IMB表示帧内编码宏块，p表示帧内编码宏块IMB中的任一像素点，p_x和p_y分别为像素点p在当前非关键帧中的横纵坐标，v_x和v_y分别当前非关键帧相对前一帧在水平和垂直方向上的偏置量，dec(p_x,p_y)为当前非关键帧中像素点p的亮度值，dec^*(p_x+v_x,p_y+v_y)表示前一帧中横坐标为p_x+v_x纵坐标为p_y+v_y的像素点的亮度值。

所述的步骤(3)中对非关键帧中的帧间编码宏块的运动矢量进行修正，具体过程如下：

3.1将非关键帧分割成多个4×4大小的残差块，每个残差块继承其所在宏块的运动矢量；

3.2计算帧间编码宏块中每个残差块的能量值；

3.3按照整帧从左往右从上往下的顺序对逐个对非关键帧中归属于帧间编码宏块的所有残差块的运动矢量进行修正；

3.4按照整帧从右往左从下往上的顺序对逐个对非关键帧中归属于帧间编码宏块的所有残差块的运动矢量再次进行修正。

所述的步骤3.2中对于帧间编码宏块中的任一残差块，通过以下公式计算其能量值：

EN＝|DC|+|AC₀₁|+|AC₁₀|+|AC₁₁|

其中：EN为残差块的能量值，对于帧间编码宏块经熵解码后得到对应该残差块的DCT(离散余弦变换)系数矩阵，DC、AC₀₁、AC₁₀和AC₁₁分别为该DCT系数矩阵中左上角的四个DCT系数。

所述的步骤3.3中当残差块同时满足以下三个条件时，将其运动矢量置为0；

A.其能量值为0；

B.其左边残差块的当前运动矢量为0；

C.其当前运动矢量小于一定阈值。

所述的步骤3.4中当残差块同时满足以下三个条件时，将其运动矢量置为0；

A.其能量值为0；

B.其右边残差块的当前运动矢量为0；

C.其当前运动矢量小于一定阈值。

所述权重系数w(i,j)的计算表达如下：

若像素点j在当前非关键帧中对应编码块所属的宏块为Skip编码宏块，则w(i,j)＝1；

若像素点j在当前非关键帧中对应编码块所属的宏块为帧间编码宏块，则：

w(i,j)＝GS_0.1(des_h(i)-des_l(j))

若像素点j在当前非关键帧中对应编码块所属的宏块为帧内编码宏块，则：

w(i,j)＝GS_0.2(des_h(i)-des_l(j))

其中：GS_0.1()和GS_0.2()表示均值为0方差值分别为0.1和0.2的高斯函数，des_h(i)为当前非关键帧中像素点i的亮度值，des_l(j)像素点j在当前非关键帧中对应编码块的像素平均亮度值。

本发明利用直接从压缩域中获取的信息来进行深度图推理的算法，通过对压缩域中的帧内宏块和帧间宏块分别进行处理，得到了更加完整而准确的运动信息，进而通过运动补偿和上采样双边滤波推理得到深度图，可以实现图像质量与推理速度的平衡。与普通基于像素域的深度图推理算法相比，本发明深度图推理算法由于利用了压缩域的信息，所占用时间是基于像素域算法时间的60％左右，并且深度图质量也与像素域推理产生的深度图质量相当；与基于块的运动补偿法相比，本发明深度图推理算法生成的深度图质量PSNR(峰值信噪比)值有1～3dB的提升，主观上也能明显察觉到比基于块的运动补偿法生成的深度图具有更加平滑的效果，为2D到3D视频转换打下良好的基础。

附图说明

图1为本发明深度图推理算法的步骤流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，本发明基于视频压缩域的深度图推理算法包括如下步骤：

(1)帧内编码宏块的处理。

在视频编码过程中，一般采用基于率失真的策略来进行模式选择，进而确定某一个宏块采用何种类型来进行编码。当帧内模式具有比帧间模式更小的率失真时，编码器将对该宏块采用帧内模式来进行编码，此时该宏块的运动矢量信息部分将不会保存，而被设置为0。因此，为了获得该类型宏块的运动信息，我们需要采用运动估计来预测这些帧内宏块的运动矢量。和编码过程一样，运动矢量的获得也是通过最小化解码帧中的宏块和前一帧中各块差的绝对值而得到的，如下式所示：

其中：IMB^(k)为第k个帧内宏块，是第k个帧内宏块计算得到的运动矢量。绝对差值函数absdiff(x,y,v_x,v_y)由下式所定义：

absdiff≡|dec^(t)(x,y)-dec^(t-1)(x+v_x,y+v_y)|

其中：dec^(t)为t时刻的解码帧亮度分量。v_x和v_y是在一定水平和垂直预设搜索范围的偏置。如果该帧中存在过多的帧内编码宏块，那么运算时间将会由于运动搜索的复杂性而大大增加。为了减少帧内宏块的运动估计计算量，我们采用下式来决定是否对帧内宏块采用运动估计策略。

其中：MEFlag^(k)代表第k个帧内编码宏块是否需要进行运动估计，是该帧内宏块周围宏块中运动矢量的最大值。TH是一个预先设定的阈值，可以采用该帧所有运动矢量的中值来确定。

这样，对帧内宏块进行运动估计的比例可以大大降低，可以有效节省计算资源。

(2)帧间编码宏块的处理。

通过观察分析可知，并非所有的运动矢量都代表宏块真正的运动信息。为了得到更可靠而准确的运动信息，首先，我们通过基于块能量的零运动矢量判别机制来消除平滑区域内的不可靠运动矢量。帧间编码宏块经过熵解码后得到残差块的DCT系数信息，利用该信息可以获得每个4×4残差块的能量大小，该能量值En_4×4(i,j)可以通过下式进行计算：

其中：DC(i,j)，AC₀₁(i,j)，AC₁₀(i,j)，AC₁₁(i,j)分别是第(i,j)个残差块的左上角DCT系数。DC系数是DCT变换中最重要的系数，它可以代表整个残差块的总体平均能量值。其他三个系数AC₀₁、AC₁₀、AC₁₁分别代表残差块水平分量、垂直分量和对角线分量的能量值。这四个系数可以代表4×4残差块的能量大小。当该块处于平滑区域时，该能量通常为0。

接下来，采用两步滤波处理来对每个块的运动矢量进行滤波。第一步将每一个原始的运动矢量按照从上到下从左到右的顺序进行滤波处理，当该块满足以下三个条件时，该块的运动矢量将被置为0。

条件1：该块的能量大小En_4×4(i,j)为0；

条件2：该块左边块的运动矢量为0；

条件3：该块的运动矢量值小于一定阈值。该阈值的设定有两种方式，一种采用该帧中所有块运动矢量的平均值，另一种采用用户自定义的值。

第二步仍然采用与第一步相似的方法进行滤波处理，区别在于处理的顺序变为从下到上从右到左。相应的条件2换为该块右边块的运动矢量为0。通过这两步滤波可以将大部分平滑区域的运动矢量置为0，大大提高了后续处理的准确度。

(3)深度图的赋值和推理。

本实施方式中非关键帧的深度图可以经过帧内编码宏块处理和帧间编码宏块处理得到的完整可靠的运动矢量来获得。不同分块的运动矢量都被直接映射到其覆盖的4×4块中，然后我们就可以利用每个4×4块的运动矢量推理得到一个缩小为原始图像大小1/16的深度图，水平和垂直方向长度分别为原始帧大小的1/4。该低分辨率深度图像的每个点的深度值都采用运动补偿的方法从前一帧的深度图中获得，如下式所示：

其中：为t时刻的低分辨率深度图，为t-1时刻的原始高分辨率深度图，z和q分别为像素位置值。Ω是像素z的范围，该范围可以通过q点位置和其对应的运动矢量值进行计算。例如，q的坐标为(q_x,q_y)，q点整像素的运动矢量为(mv_x,mv_y)，那么Ω的范围将是从左上角坐标(q_x×4+mv_x-2,q_y×4+mv_y-2)到右下角坐标为(q_x×4+mv_x+1,q_y×4+mv_y+1)这样一个矩形区域。

然后，为了获得与原始图像大小一样的深度图像，我们采用一个自适应上采样双边滤波器对上式得到的深度图进行滤波处理，处理算法如下式所示：

其中：S是滤波器模板，可以选择不同的模板类型。在本实施方式中，我们选择半径为5的星形模板作为滤波器。w(p,q)是权重系数，可以由下式计算得到：

其中：函数r是一个均值为0，具有不同方差σ²的高斯函数。在滤波过程中，我们针对不同的宏块编码类型采用不同的滤波强度。如果宏块是帧间编码类型，高斯函数的方差值设为0.1；如果宏块是帧内编码类型，那么高斯函数的方差值设为0.2。更高的方差值有助于增加该像素深度值对周围像素深度值的影响。如果宏块类型为SKIP模式，我们不对其进行滤波处理。I^h是高分辨率图像的亮度值，I^l是低分辨率图像的亮度值。

每一个P帧(非关键帧)的深度图都利用前一帧的深度图和本帧的运动信息和宏块信息进行推理，最终将得到整个视频序列的深度图。

由此可见，本发明利用直接从压缩域中获取的信息来进行深度图推理的算法，通过对压缩域中的帧内宏块和帧间宏块分别进行处理，得到了更加完整而准确的运动信息，进而通过运动补偿和上采样双边滤波推理得到深度图。实验结果表明本发明算法可以获得图像质量与推理速度的平衡，为2D到3D视频转换打下良好的基础。

上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于视频压缩域的深度图推理算法，包括如下步骤：

(2)选择性地对非关键帧中的帧内编码宏块进行运动估计，得到帧内编码宏块的运动矢量；具体选择标准为：对于非关键帧中的任一帧内编码宏块，取该帧内编码宏块周围四个宏块的运动矢量中的最大值，若该最大值大于一定阈值，则对该帧内编码宏块进行运动估计，否则不对其进行运动估计；

(3)对非关键帧中的帧间编码宏块的运动矢量进行修正，具体过程如下：

3.2计算帧间编码宏块中每个残差块的能量值；

3.4按照整帧从右往左从下往上的顺序对逐个对非关键帧中归属于帧间编码宏块的所有残差块的运动矢量再次进行修正；

<mrow> <msub> <mi>D</mi> <mi>h</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <msub> <mi>D</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>D</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>16</mn> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>&Element;</mo> <mi>&Omega;</mi> </mrow> </munder> <msubsup> <mi>D</mi> <mi>h</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow>

2.根据权利要求1所述的深度图推理算法，其特征在于：所述的步骤(2)中根据以下算式对帧内编码宏块进行运动估计：

<mrow> <mo>(</mo> <msub> <mi>mv</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>mv</mi> <mi>y</mi> </msub> <mo>)</mo> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>I</mi> <mi>M</mi> <mi>B</mi> </mrow> </munder> <mo>|</mo> <mi>d</mi> <mi>e</mi> <mi>c</mi> <mo>(</mo> <msub> <mi>p</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>y</mi> </msub> <mo>)</mo> <mo>-</mo> <msup> <mi>dec</mi> <mo>*</mo> </msup> <mo>(</mo> <msub> <mi>p</mi> <mi>x</mi> </msub> <mo>+</mo> <msub> <mi>v</mi> <mi>x</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>y</mi> </msub> <mo>+</mo> <msub> <mi>v</mi> <mi>y</mi> </msub> <mo>)</mo> <mo>|</mo> </mrow>

3.根据权利要求1所述的深度图推理算法，其特征在于：所述的步骤3.2中对于帧间编码宏块中的任一残差块，通过以下公式计算其能量值：

EN＝|DC|+|AC₀₁|+|AC₁₀|+|AC₁₁|

其中：EN为残差块的能量值，对于帧间编码宏块经熵解码后得到对应该残差块的DCT系数矩阵，DC、AC₀₁、AC₁₀和AC₁₁分别为该DCT系数矩阵中左上角的四个DCT系数。

4.根据权利要求1所述的深度图推理算法，其特征在于：所述的步骤3.3中当残差块同时满足以下三个条件时，将其运动矢量置为0；

A.其能量值为0；

B.其左边残差块的当前运动矢量为0；

C.其当前运动矢量小于一定阈值。

5.根据权利要求1所述的深度图推理算法，其特征在于：所述的步骤3.4中当残差块同时满足以下三个条件时，将其运动矢量置为0；

A.其能量值为0；

B.其右边残差块的当前运动矢量为0；

C.其当前运动矢量小于一定阈值。

6.根据权利要求1所述的深度图推理算法，其特征在于：所述权重系数w(i,j)的计算表达如下：

w(i,j)＝GS_0.1(des_h(i)-des_l(j))

w(i,j)＝GS_0.2(des_h(i)-des_l(j))