CN104883558A

CN104883558A - 基于k均值聚类的深度图编码方法

Info

Publication number: CN104883558A
Application number: CN201510306260.6A
Authority: CN
Inventors: 王安红; 刘瑞珍
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2015-09-02
Anticipated expiration: 2035-06-05
Also published as: CN104883558B

Abstract

一种基于K均值聚类的深度图编码方法，属于3D视频中深度图的编解码领域，其特征包含以下步骤：采用K均值聚类将深度图像分割为n类；将深度图分割后每一类形成的新的深度图的边界提取出来进行熵编码并传送到解码端；非边界区域像素值进行下采样，对下采样值熵编码；编码后的比特流传输到解码端；在解码端，对每一类数据利用偏微分方程PDE的方法恢复得到n幅重建的深度图；将恢复得到的n幅重建深度图叠加到一起形成一幅完整的深度图；利用基于深度图的视点合成技术合成我们所需要的虚拟视点图像。其优点是利用该方案压缩得到的深度图指导合成的虚拟视点质量高于JPEG和JPEG2000压缩标准。

Description

基于K均值聚类的深度图编码方法

技术领域

本发明属于3D视频中深度图的编解码领域，具体涉及一种基于聚类的深度图编码方法。

背景技术

目前，由于三维视频中用户可以自由选择观看的视角和立体感知能力,三维视频成为了视频编码及通信领域的研究热点。“多视点视频+深度”即MVD格式是目前普遍采用的三维视频表示方法，MVD是在原有多视点视频的基础上给每个视频信号增加了深度序列，深度图仅仅是用来进行视点合成的，而不直接显示给用户观看，深度图结合其所对应的纹理图可以用来合成任意位置虚拟视点的图像，深度图的失真会导致合成视点的色度或亮度的失真，也会导致虚拟合成视点图像的几何失真，从而影响合成虚拟视点的质量。由于深度图像有与纹理图像截然不同的性质，传统的图像编码标准例如JPEG和JPEG2000等都是对深度图进行分块处理，但是由于深度图是由边界和平滑区域所构成的，传统的规则块的处理方法对深度图的边界会有损伤，因此不能极其有效的对深度图进行编码压缩。同时，由于深度图像和纹理图像在特性上的不同，所以适用于纹理图像编码的帧内预测、率失真优化准则和DCT变换等压缩技术也不能直接用来进行深度图像的压缩。为解决这些挑战，Krishnamurthy等人提出了一种基于感兴趣区域ROI的编码方案，可以有效的减小深度图边缘的失真；G.Shen等人提出了一种新的方法用以取代传统的DCT变换，即边缘自适应变换EAT通过这种方法也可以有效的减少边缘的失真，从而较好的保持了深度图像的边缘。然而，目前的这些方法中，对深度图不同于纹理图像的特性分析仍然不充分，比如在深度图内没有任何物体表面的纹理信息，这就使得一个物体内部所包含的区域有极为相似的深度值，只是在物体的边缘呈现出尖锐的边缘，且有明显的灰度级差别，并且在MVD的结构中，每幅彩色图像都有其对应的深度图像，且深度图在虚拟视点的合成和显示中起到了至关重要的作用，深度图像数据量巨大，因此传输的时候带宽压力也大，目前所使用的深度图编码方案性能欠佳，且不能很好的保证深度图的边缘完整性。

发明内容

本发明的目的是提供一种基于K均值聚类的深度图编码方法，能够有效提高利用解码的深度图与其对应的纹理图所合成的虚拟视点图像质量。

本发明是这样实现的，其特征包括下列步骤：

(1).读入一幅深度图，根据聚类级数level和聚类中心C的不同设定将深度图聚为n类，n为正整数，聚类之后读入的深度图被分割为n幅新的图像，具体做法是：设一个与原图像相同维数的零矩阵A1，将聚类之后第一类中的像素点对应位置的原深度值赋值到零矩阵A1中，从而形成第1幅新的深度图D1，如此反复，直到所有的类都执行完毕就得到第1、第2、…、第n幅不同的深度图D1、D2、…、Dn；

(2).对得到的新的第1、第2、…、第n幅深度图D1、D2、…、Dn分别进行操作：

a：边缘检测：首先对第1幅深度图D1进行边缘检测，在边缘检测的过程中，如果一个非零像素点周围8个方向位置上的像素值有一个为零，则将这个像素点定义为边界点，反之如果8个方向位置上的像素值都不为零，则定义为非边界点，通过这种方法得到第1幅深度图D1的边界点，且通过边界点将第1幅深度图D1分为两部分，即边界区域和非边界区域；

b：边界区域的编码：包括边界位置和边界像素点的编码：

b1：边界位置的编码：设一个与原图像维数大小相同的零矩阵B，并将形成的第1、第2、…、第n幅新的深度图D1、D2、…、Dn中非零的像素值在零矩阵B中对应的位置依次标记为0、1、…、m，m为正整数，然后对更新后的零矩阵B进行游程编码，在解码端得到n类深度图数据的对应位置；

b2：边界像素点的编码：通过边缘检测得到第1幅深度图D1的边界点，将其取出放入到一个一维矢量中进行差值运算，通过公式(1)进行：

e(x+1)＝e(x+1)-e(x) (I)

式中，e代表的是一维矢量中的元素即边界位置的像素值，x代表的是一维矢量中每个元素对应的位置，在上式中x是正整数，最后将残差进行熵编码并传送到解码端；

c：非边界区域的编码：对于第1幅深度图D1去除边界点之后剩余的像素点，首先将其取出并放入一个一维矢量中，然后对其进行下采样，在下采样的过程中，其步长QP＝1,2,3，…，QP为正整数，最后将下采样得到的值进行熵编码并传送到解码端；

d：解码端恢复第1幅深度图D1：在解码端，首先设一个零矩阵Rec，根据解码得到的第一类中边界的位置和第一类中的边界点的像素值将第一类中的边界点无损的恢复出来，然后将熵解码得到下采样的非边界点按对应位置填充到零矩阵Rec中，最后用偏微分方程PDE的方法进行恢复得到新的矩阵new_Rec，即解码得到的第一类形成的第1幅深度图D1，PDE最经典的一个例子就是热传导方程，它主要描述了在实数域R中，上的一个函数U₀，如公式(2)：

\{\begin{matrix} \frac{&PartialD; u}{&PartialD; t} = Δu \\ u (x, y, 0) = u_{0} (x, y) \end{matrix} - - - (2)

其边界条件是Ω,本方案使用的PDE方法主要是采用有限差分法来实现重建的，每个丢失的像素点通过利用其已知像素点周围八个方向的像素值进行迭代重建,根据公式(3)和(4)进行深度图的重建：

{\overset{&OverBar;}{Rec}}_{I = 0} = Rec - - - (3)

\begin{matrix} {\overset{&OverBar;}{Rec}}_{I = i} (x, y) = \frac{1}{8} ({\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y + 1) \\ + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y) + \\ {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y - 1)) \end{matrix} - - - (4)

其中I指迭代次数，是要恢复的未知像素，迭代终止的条件是

{\overset{&OverBar;}{Rec}}_{I = i} (x, y) - {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y) \leq 10^{- 7};

e：按上述步骤(a)、(b)、(c)、(d)，对第2、第3、…、第n幅深度图D2、D3、…、Dn进行操作，得到n类重建的深度图；

(3).将n类重建的深度图叠加起来，最终得到恢复的整个图像。

本发明的优点及积极效果是：

在进行深度图的压缩过程中，通过聚类思想把像素值相近的一类值聚集到一起，并非是将位置相近的像素值进行聚集，这样更好的利用了深度图在灰度级分布上与纹理图的差别，通过聚类形成的每一类中都包含极为相似的深度值，便于对其进行有效的压缩，并且利用解码出来的深度图与其对应的纹理图指导合成的虚拟视点图像的质量高于JPEG和JPEG2000压缩标准。

附图说明

图1是本发明的算法流程图；

图2是本发明中经过聚类之后每一类数据形成的新的深度图，以level＝5为例，图2(a)为Kendo视频序列中视点1位置的纹理图像对应的深度图像，图2(b)为聚类中心为62时形成的第1幅深度图D1，图2(c)为聚类中心为78时形成的第2幅深度图D2，图2(d)为聚类中心为101时形成的第3幅深度图D3，图2(e)为聚类中心为130时形成的第4幅深度图D4，图2(f)为聚类中心为152时形成的第5幅深度图D5；

图3是本发明方案与现有的算法JPEG和JPEG2000编码压缩后的深度图的率失真性能比较，图3(a)中当level＝10，C＝20时，通过K均值聚类将Kendo图像聚为7类，level＝5，C＝5时，通过K均值聚类将Kendo图像聚为5类，level＝5，C＝20时，通过K均值聚类将Kendo图像聚为3类，level＝4，C＝5时，通过K均值聚类将Kendo图像聚为4类，level＝4，C＝20时，通过K均值聚类将Kendo图像聚为3类，level＝6，C＝5时，通过K均值聚类将Kendo图像聚为6类；图3(b)中当level＝6，C＝5时，通过K均值聚类将Ballet图像聚为6类，当level＝5，C＝5时，通过K均值聚类将Ballet图像聚为5类，当level＝4，C＝5时，通过K均值聚类将Ballet图像聚为4类，当level＝7，C＝5时，通过K均值聚类将Ballet图像聚为7类；图3(c)中当level＝7，C＝5时，通过K均值聚类将BookArrival图像聚为7类，当level＝6，C＝5时，通过K均值聚类将BookArrival图像聚为6类，当level＝5，C＝5时，通过K均值聚类将BookArrival图像聚为5类，当level＝4，C＝5时，通过K均值聚类将BookArrival图像聚为4类，当level＝3，C＝5时，通过K均值聚类将BookArrival图像聚为3类；

图4是本发明方案与现有的算法JPEG和JPEG2000编码压缩后的深度图指导合成的虚拟视点的率失真性能比较，图4是利用图3得到的深度图指导合成的虚拟视点的率失真性能对比图。

具体实施方式

本实施例如图2所示，采用三幅1024×768的图像Kendo，BookArrival和Ballet作为测试图像，其中Kendo和BookArrival取自其多视点深度图序列中的视点1和视点8，Ballet取自其多视点深度图序列中的视点4，在利用DIBR技术进行视点的合成过程中，使用3D映射和中值滤波。

具体步骤如下所述：

步骤一：读入一幅深度图Kendo，根据聚类级数level＝5和聚类中心C＝5将深度图聚为5类。聚类之后读入的深度图Kendo被分割为5幅新的图像，具体做法是：设一个与原图像相同维数的零矩阵A1，将聚类之后第一类中的像素点对应位置的原深度值赋值到零矩阵A1中，从而形成第1幅新的深度图D1，如此反复，直到所有的类都执行完毕就得到第1、第2、第3、第4、第5幅不同的深度图D1、D2、D3、D4、D5；

步骤二：对得到的第1、第2、第3、第4、第5幅深度图D1、D2、D3、D4、D5分别进行操作：

a：边缘检测：首先对第1幅深度图D1进行边缘检测。在边缘检测的过程中，如果一个非零像素点周围8个方向位置上的像素值有一个为零，则将这个像素点定义为边界点，反之如果8个方向位置上的像素值都不为零，则定义为非边界点。通过这种方法得到第1幅深度图D1的边界点，且通过边界点将第1幅深度图D1分为两部分，即边界区域和非边界区域；

b：边界区域的编码：包括边界位置和边界像素点的编码：

b1：边界位置的编码：设一个与原图像维数大小相同的零矩阵B，并将形成的第1、第2、第3、第4、第5幅深度图D1、D2、D3、D4、D5中非零的像素值在零矩阵B中对应的位置依次标记为0、1、2、3、4，然后对更新后的零矩阵B进行游程编码，在解码端得到5类数据的对应位置；

e(x+1)＝e(x+1)-e(x) (1)

c：非边界区域的编码：对于第1幅深度图D1去除边界点之后剩余的像素点，首先将其取出并放入一个一维矢量中，然后对其进行下采样，在下采样的过程中，其步长QP＝1,2,3…，QP为正整数，最后将下采样得到的值进行熵编码并传送到解码端；

d：解码端恢复第1幅深度图D1：在解码端，首先设一个零矩阵Rec，根据解码得到的第一类中边界的位置和第一类中的边界点的像素值将第一类中的边界点无损的恢复出来，然后将熵解码得到下采样的非边界点按对应位置填充到矩阵Rec中，最后用偏微分方程PDE的方法进行恢复得到新的矩阵new_Rec，即解码得到的第一类形成的第1幅深度图D1，PDE最经典的一个例子就是热传导方程，它主要描述了在实数域R中，上的一个函数U₀，如公式(2)：

\{\begin{matrix} \frac{&PartialD; u}{&PartialD; t} = Δu \\ u (x, y, 0) = u_{0} (x, y) \end{matrix} - - - (2)

其边界条件是Ω，本方案使用的PDE方法主要是采用有限差分法来实现重建的，每个丢失的像素点通过利用其已知像素点周围八个方向的像素值进行迭代重建,根据公式(3)和(4)进行深度图的重建：

{\overset{&OverBar;}{Rec}}_{I = 0} = Rec - - - (3)

\begin{matrix} {\overset{&OverBar;}{Rec}}_{I = i} (x, y) = \frac{1}{8} ({\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y + 1) \\ + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y) + \\ {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y - 1)) \end{matrix} - - - (4)

其中I指迭代次数，是要恢复的未知像素，迭代终止的条件是

{\overset{&OverBar;}{Rec}}_{I = i} (x, y) - {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y) \leq 10^{- 7};

e：按上述步骤(a)、(b)、(c)、(d)，对第2、第3、第4、第5幅深度图D2、D3、D4、D5进行操作，得到5类重建的深度图；

步骤三：将5类重建的深度图叠加起来，最终得到恢复的整个图像。

在本实验中，使用了峰值信噪比Peak Signal-to-Noise Ratio作为实验结果的客观质量评价测度。从图3可以看出当深度图聚类级数多时其编码压缩的率失真性能好，这是因为聚类级数多时每一类中的像素值相关性大，便于编码压缩，其压缩效果就好。由图4可以得出，当聚类级数多时，我们的方案压缩得到的深度图指导合成的虚拟视点的图像质量均高于JPEG和JPEG2000。结合图3和图4我们可以得出，深度图的率失真性能和合成视点图像的率失真性能并不是成线性关系的，深度图并不在终端进行显示，只是用来合成新的虚拟视点，因此本方案将合成虚拟视点图像的率失真性能作为衡量标准。

Claims

1.一种基于K均值聚类的深度图编码方法，其特征是包括下列步骤：

(1).读入一幅深度图，根据聚类级数level和聚类中心C的不同设定将深度图聚为n类，n为正整数，聚类之后读入的深度图被分割为n幅新的图像，具体做法是：设一个与原图像相同维数的零矩阵A1，将聚类之后第一类中的像素点对应位置的原深度值赋值到零矩阵A1中，从而形成第1幅新的深度图D1，如此反复，直到所有的类都执行完毕就得到第1、第2、...、第n幅不同的深度图D1、D2、...、Dn；

(2).对得到的新的第1、第2、...、第n幅深度图D1、D2、...、Dn分别进行操作：

b：边界区域的编码：包括边界位置和边界像素点的编码：

b1：边界位置的编码：设一个与原图像维数大小相同的零矩阵B，并将形成的第1、第2、...、第n幅新的深度图D1、D2、...、Dn中非零的像素值在零矩阵B中对应的位置依次标记为0、1、...、m，m为正整数，然后对更新后的零矩阵B进行游程编码，在解码端得到n类深度图数据的对应位置；

e(x+1)＝e(x+1)-e(x) (1)

式中，e代表的是一维矢量中的元素即边界位置的像素值，x代表的是一维矢量中每个元素对应的位置，在上式中x是正整数,最后将残差进行算术编码并传送到解码端；

c：非边界区域的编码：对于第1幅深度图D1去除边界点之后剩余的像素点，首先将其取出并放入一个一维矢量中，然后对其进行下采样，在下采样的过程中，其步长QP＝1，2，3，...，QP为正整数，最后将下采样得到的值进行算术编码并传送到解码端；

d：解码端恢复第1幅深度图D1：在解码端，首先设一个零矩阵Rec，根据解码得到的第一类中边界的位置和第一类中的边界点的像素值将第一类中的边界点无损的恢复出来，然后将算术解码得到下采样的非边界点按对应位置填充到零矩阵Rec中，最后用偏微分方程PDE的方法进行恢复得到新的矩阵new_Rec，即解码得到的第一类形成的第1幅深度图D1,PDE最经典的一个例子就是热传导方程，它主要描述了在实数域R中，上的一个函数U₀，如公式(2)：

\{\begin{matrix} \frac{&PartialD; u}{&PartialD; t} = Δu \\ u (x, y, 0) = u_{0} (x, y) \end{matrix} - - - (2)

{\overset{&OverBar;}{Rec}}_{I = 0} = Rec - - - (3)

\begin{matrix} {\overset{&OverBar;}{Rec}}_{I = i} (x, y) = \frac{1}{8} ({\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x - 1, y + 1) \\ + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y + 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y) + \\ {\overset{&OverBar;}{Rec}}_{I = i - 1} (x + 1, y - 1) + {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y - 1)) \end{matrix} - - - (4)

其中I指迭代次数，是要恢复的未知像素，迭代终止的条件是

{\overset{&OverBar;}{Rec}}_{I = i} (x, y) - {\overset{&OverBar;}{Rec}}_{I = i - 1} (x, y) \leq 10^{- 7};

e：按上述步骤(a)、(b)、(c)、(d)，对第2、第3、...、第n幅深度图D2、D3、...、Dn进行操作，得到n类重建的深度图；