CN102316352B

CN102316352B - 一种基于区域连通图的立体视频深度图的制作方法和装置

Info

Publication number: CN102316352B
Application number: CN 201110226447
Authority: CN
Inventors: 戴琼海; 李振尧; 王好谦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-08-08
Filing date: 2011-08-08
Publication date: 2013-11-06
Anticipated expiration: 2031-08-08
Also published as: CN102316352A

Abstract

本发明公开了一种基于区域连通图的立体视频深度图的制作方法，包括如下步骤：输入多帧图像，提取多帧图像的每一帧的图像信息，包括每帧图像的每个像素点信息；对像素点信息进行聚类得到聚类后的像素点信息，根据聚类后的像素点信息生成图像的区域连通图；输入深度值标记信息，区域连通图根据深度值标记信息生成区域深度图；当区域深度图满足所述第一预设条件时，根据区域深度图获取像素深度图，否则继续输入深度值标记信息直至区域深度图满足第一预设条件。本发明还公开了一种基于区域连通图的立体视频深度图的制作装置。采用本发明提供的方法和装置能够及时查看深度图的效果并进行必要修改，提高了人工标记的效率，缩短了深度图制作的时间。

Description

一种基于区域连通图的立体视频深度图的制作方法和装置

技术领域

本发明涉及计算机图像处理领域，特别涉及一种基于区域连通图的立体视频深度图的制作方法和装置。

背景技术

立体视频是视觉信息的一种重要的表示方式，其研究涉及计算机视觉、图像视频处理、模式识别等领域，在航空航天、军事训练、医疗教育、游戏传媒等领域有着广阔的应用前景。立体视频可以通过多种方式进行制作，例如：立体摄像机拍摄、三维建模软件制作、平面视频立体化转换等。但是立体摄像机拍摄的制作成本较高，并且对设备校准、拍摄环境、后期制作的要求很高。并且，三维建模软件制作需要专业人员花费大量精力进行场景、对象建模，其经济成本和制作时间同样居高不下。因此，专业人员通常采用通过计算机视觉、图像处理等技术将平面视频转换为立体视频，相对于立体视频制作技术具有成本低、速度快等优势。

现有的平面视频转立体视频方法按照是否使用深度图分为两类：1)不基于深度图的转换方法通过在原始平面图像上直接进行逐像素的平移操作，获得另一视角的图像。这种方法的人力成本很高，速度较慢且不便于调节视差大小；2)基于深度图的转换方法首先逐帧生成深度图，然后利用基于深度图的图像渲染(DIBR，Depth-Image-BasedRendering)算法将每一帧平面图像转换为立体图像。由于DIBR算法已经较为成熟，所以如何生成高质量的深度图成为本领域技术人员研究的重点。

就目前而言，大多数深度图制作流程都可分为前景对象提取和深度赋值两个阶段。在前景对象提取阶段，操作者需要使用多种工具对图像进行分割从而得到所关注的前景物体。在接下来的深度赋值阶段中，操作者可以选择利用已有的深度赋值模型或各种画笔工具绘制各个对象的深度并组合成完整的深度图。操作者可能无法准确的将人工深度标记放置在合适的位置，因此需要一个标记——查看——再标记的人机交互过程。虽然像素深度图制作阶段能够生成精度较高的结果，但是该阶段耗时较长，人机交互效率较低，用户体验较差，不能快速、及时的查看深度图的效果并修改人工深度标记。这类深度图制作流程存在以下缺陷：前景对象提取和深度赋值两个阶段都需要大量的人工操作，使得深度图的制作周期较长，制作成本较高，从而限制了平面视频转立体视频技术的推广。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为此，本发明的第一个目的在于提出一种基于区域连通图的立体视频深度图的制作方法，该方法可以有效降低深度图制作的所需时间，减少深度图制作成本。

本发明的第二个目的在于提出一种基于区域连通图的立体视频深度图的制作装置。

为达到上述目的，本发明第一方面的实施例提出了一种基于区域连通图的立体视频深度图的制作方法，包括如下步骤：

向内存中输入多帧图像，提取所述多帧图像的每一帧的图像信息，所述图像信息包括每帧图像的每个像素点信息；

对所述每帧图像的每个像素点信息进行聚类得到聚类后的像素点信息，根据所述聚类后的像素点信息生成每一帧图像的区域连通图；

向内存中输入深度值标记信息，所述区域连通图根据所述深度值标记信息生成区域深度图；

判断所述区域深度图是否满足第一预设条件后，当所述区域深度图满足所述第一预设条件时，根据所述区域深度图获取像素深度图，否则继续向所述内存中输入深度值标记信息直至所述区域深度图满足所述第一预设条件。

根据本发明的一个实施例，在对所述每帧图像的每个像素点信息进行聚类之前，还包括如下步骤：

对提取得到所述的每一帧的图像信息进行图像去噪。

根据本发明的一个实施例，对所述每帧图像的每个像素点信息进行聚类，包括如下步骤：

设置初始种子点，将所述每帧图像划分成多个相同的矩形区域；

计算所述每个矩形区域内像素点的五维空间坐标的平均值，并根据每个矩形区域内像素点的五维空间坐标的平均值得到所述初始种子点的五维空间坐标值；

对所述每帧图像的每个像素点，计算所述像素点与所述像素点对应的搜索范围内的每个所述初始种子点的五维空间距离，并将所述像素点归类至所述五维空间距离最小的初始种子点所属的类别；

更新聚类后的每个初始种子点的信息，并统计每一类别所包括的像素点信息，根据每一类别中五维空间坐标的平均值作为新的种子点的五维空间坐标值；

计算所述每帧图像中每个像素点距离所述新的种子点的最小五维空间距离之和，根据所述最小五维空间距离之和判断是否满足预设的聚类结束条件，当所述最小五维空间距离之和满足所述预设的聚类结束条件时，结束对像素点进行聚类，得到所述聚类后的像素点信息。

根据本发明的一个实施例，根据所述聚类后的像素点信息生成每一帧图像的区域连通图，包括如下步骤：

读取所述聚类后的像素点信息，获取所述每帧图像的每个像素点的所属类别信息，并遍历所述每帧图像中的每个像素点；

对所述每帧图像中的每个像素点划分至相应的区域内，生成初始区域连通图；

将所述初始区域连通图进行优化，得到所述每一帧图像的区域连通图。

根据本发明的一个实施例，所述对所述每帧图像中的每个像素点划分至相应的区域内，包括如下步骤：

如果当前像素点已划分至一个区域内，则对所述当前像素点不作处理；

如果所述当前像素点未划分至一个区域内，则生成一个大小为预设尺寸的区域，然后将所述当期像素点的多个邻域像素点压入待处理堆栈中，从所述待处理堆栈中弹出一个像素点；

如果所述弹出的像素点不是当前区域的一部分且所述弹出的像素点的类别与当前区域的类别相同，则将所述弹出的像素点加入至所述当前区域，再将所述弹出的像素点的多个邻域像素点压入所述待处理堆栈中，直至所述待处理堆栈中的所有像素点均被弹出且处理完毕后停止，得到初始区域连通图。

根据本发明的一个实施例，将所述初始区域连通图进行优化，包括如下步骤：

判断所述初始区域连通图中每个区域的面积是否小于区域面积阈值，如果当前区域的面积小于所述区域面积阈值时，计算所述当前区域的五维空间坐标的平均值和所述当前区域的邻域的五维空间坐标的平均值的距离，并将所述当前区域合并到与所述当前区域的距离最近的所述邻域中，输出区域连通图。

根据本发明的一个实施例，所述区域连通图根据所述深度值标记信息得到区域深度图，包括如下步骤：

对所述区域连通图的每个区域进行深度值标记，得到标记区域；

在所述标记区域中，对于具有相同深度值的标记区域进行聚类，得到聚类后的标记区域；

根据所述聚类后的标记区域计算区域深度权重，得到区域深度权重值；

根据每一个所述区域权重值，通过下述公式获取每一个区域的区域深度值；

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

其中，depth0为区域的深度值，val表示深度标记信息中的深度值，weight0_val表示待获取区域深度值的区域对于深度值为val的标记的深度权重，total_weight0表示所述深度值标记信息中所有标记的权重值之和；

根据所述每一个区域的区域深度值得到区域深度图。

根据本发明的一个实施例，所述根据所述区域深度图获取像素深度图，包括如下步骤：

对所述深度值标记信息进行聚类，得到聚类后的深度值标记信息；

根据所述聚类后的深度值标记信息计算像素深度权重，得到像素权重值，并计算每一个像素的深度值；

根据每一个的所述像素深度值生成像素深度图。

根据本发明的一个实施例，所述生成像素深度图之后，进一步包括如下步骤：

判断所述像素深度图是否满足第二预设条件，当所述区域深度图满足第二预设条件时，根据所述区域深度图获取像素深度图，否则继续向所述内存中输入深度值标记信息直至所述像素深度图满足所述第二预设条件。

根据本发明实施例的基于区域连通图的立体视频深度图的制作方法，在像素深度图制作阶段前加入区域深度图制作阶段，通过人工深度标记快速生成区域深度图。区域深度图是基于区域进行运算，耗时只有像素深度图的几百分之一，可以做到实时操作，从而提高人机交互过程的效率，使得操作者可以较快的将人工深度标记放置在准确的位置。在随后的像素深度图制作阶段，操作者可以导入区域深度图制作阶段中得到的较为准确的人工深度标记，自动生成高质量的像素级深度图，从而减少了平面视频转立体视频过程中深度图的制作成本，提高了立体视频的转换效率。

本发明第二方面的实施例提出一种基于区域连通图的立体视频深度图的制作装置，包括：

输入模块，所述输入模块用于向内存中输入多帧图像，提取所述多帧图像的每一帧的图像信息，所述图像信息包括每帧图像的每个像素点信息；

区域连通图生成模块，用于对所述每帧图像的每个像素点信息进行聚类得到聚类后的像素点信息，根据所述聚类后的像素点信息生成每一帧图像的区域连通图；

深度值标记模块，用于向内存中输入深度值标记信息；

区域深度图生成模块，所述区域深度图制作模块分别与所述区域连通图生成模块和所述深度值标记模块相连，用于根据所述区域连通图和所述深度值标记信息生成区域深度图，且判断所述区域深度图是否满足第一预设条件；

像素深度图生成模块，所述像素深度图生成模块与所述区域深度图生成模块相连，当所述区域深度图满足所述第一预设条件时，则所述像素深度图生成模块根据所述区域深度图获取像素深度图，否则由所述深度值标记模块继续向所述内存中输入深度值标记信息，并由所述区域深度图生成模块重新生成区域深度图直至所述区域深度图满足所述第一预设条件。

根据本发明的一个实施例，所述基于区域连通图的立体视频深度图的制作装置还包括：去噪模块，所述去噪模块分别与所述输入模块和所述区域连通图生成模块相连，用于对提取得到所述的每一帧的图像信息进行图像去噪。

根据本发明的一个实施例，所述区域连通图生成模块设置初始种子点，将所述每帧图像划分成多个相同的矩形区域；计算所述每个矩形区域内像素点的五维空间坐标的平均值，并根据每个矩形区域内像素点的五维空间坐标的平均值得到所述初始种子点的五维空间坐标值；对所述每帧图像的每个像素点，计算所述像素点与所述像素点对应的搜索范围内的每个所述初始种子点的五维空间距离，并将所述像素点归类至所述五维空间距离最小的初始种子点所属的类别；更新聚类后的每个初始种子点的信息，并统计每一类别所包括的像素点信息，根据每一类别中五维空间坐标的平均值作为新的种子点的五维空间坐标值；计算所述每帧图像中每个像素点距离所述新的种子点的最小五维空间距离之和，根据所述最小五维空间距离之和判断是否满足预设的聚类结束条件，当所述最小五维空间距离之和满足所述预设的聚类结束条件时，结束对像素点进行聚类，得到所述聚类后的像素点信息。

根据本发明的一个实施例，所述区域连通图生成模块根据所述聚类后的像素点信息生成每一帧图像的区域连通图读取所述聚类后的像素点信息，获取所述每帧图像的每个像素点的所属类别信息，并遍历所述每帧图像中的每个像素点；对所述每帧图像中的每个像素点划分至相应的区域内，生成初始区域连通图；将所述初始区域连通图进行优化，得到所述每一帧图像的区域连通图。

根据本发明的一个实施例，如果当前像素点已划分至一个区域内，则对所述当前像素点不作处理；

根据本发明的一个实施例，所述区域连通图生成模块判断所述初始区域连通图中每个区域的面积是否小于区域面积阈值，如果当前区域的面积小于所述区域面积阈值时，计算所述当前区域的五维空间坐标的平均值和所述当前区域的邻域的五维空间坐标的平均值的距离，并将所述当前区域合并到与所述当前区域的距离最近的所述邻域中，输出区域连通图。

根据本发明的一个实施例，所述区域深度图生成模块用于对所述区域连通图的每个区域进行深度值标记，得到标记区域；在所述标记区域中，对于具有相同深度值的标记区域进行聚类，得到聚类后的标记区域；根据所述聚类后的标记区域计算区域深度权重，得到区域深度权重值；

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

所述区域深度图生成模块根据所述每一个区域的区域深度值得到区域深度图。

根据本发明的一个实施例，所述像素深度图生成模块判断所述像素深度图是否满足第二预设条件，当所述像素深度图满足所述第二预设条件时，输出所述像素深度图，否则所述深度值标记模块继续向所述内存中输入深度值标记信息，所述区域深度图生成模块生成所述区域深度图，所述像素深度图生成模块根据所述区域深度图生成像素深度图直至所述像素深度图满足所述第二预设条件。

根据本发明实施例的基于区域连通图的立体视频深度图的制作装置，在像素深度图制作阶段前加入区域深度图制作阶段，通过人工深度标记快速生成区域深度图。区域深度图是基于区域进行运算，耗时只有像素深度图的几百分之一，可以做到实时操作，从而提高人机交互过程的效率，使得操作者可以较快的将人工深度标记放置在准确的位置。在随后的像素深度图制作阶段，操作者可以导入区域深度图制作阶段中得到的较为准确的人工深度标记，自动生成高质量的像素级深度图，从而减少了平面视频转立体视频过程中深度图的制作成本，提高了立体视频的转换效率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于区域连通图的立体视频深度图的制作方法流程图；

图2为图1中预处理的流程图；

图3为图1中生成区域深度图的流程图；

图4为图1中生成像素深度图的流程图；以及

图5为本发明实施例的基于区域连通图的立体视频深度图的制作装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面参考图1至图4描述根据本发明实施例的基于区域连通图的立体视频深度图的制作方法。

如图1所示，本发明实施例提供的基于区域连通图的立体视频深度图的制作方法，包括如下步骤：

S11：输入图片；

首先，用户向内存中输入多帧图像，然后提取多帧图像的每一帧的图像信息，其中所提取的图像信息包括每帧图像的每个像素点信息。

S12：预处理，在本步骤中，对图像中空间距离较小、颜色较为相似的像素点进行聚类操作。

S121：图像去噪；

由于用户输入的图像信息中存在图像噪声，需要对图像进行去噪。在本发明的一个实施例中，采用高斯滤波的方式对图像进行去噪处理，从而减弱图像噪声对后续的聚类算法的影响。可以理解的是，对图像进行去噪的方式并不仅限于高斯滤波的方式，也可以为其他图像去噪方法。

可以理解的是，对初始输入的图像进行去噪是可选步骤，换言之，也可以将步骤S11中输入的图像直接送至步骤S122进行处理。

S122：设置初始种子点；

对步骤S11提取的图像信息或步骤S121去噪后的图像信息，首先按照固定的长度和宽度将图像分成多个相同的矩形区域，然后计算每个矩形区域中像素点的五维空间坐标的平均值，将计算出的五维空间坐标平均值作为初始种子点的五维空间坐标值。若图像的长度无法被矩形区域的长度整除，则将相除后的余数作为最后一个矩形区域的长度。相应的，若图像的宽度无法被矩形方块的宽度整除，则将相除后的余数作为最后一个矩形区域的宽度。

S123：将像素点按照五维空间坐标聚类；

在本发明的一个实施例中，采用K-means算法将像素点按照五维空间坐标聚类。具体而言，根据S122步骤得到的初始种子点的五维空间坐标值，对图像中的每个像素点，首先计算每个像素点与该像素点搜索范围内的各个初始种子点的五维空间距离，然后将该像素点归类于五维空间距离最近的初始种子点所属的类别。

在本发明的一个实施例中，可以采用下列公式计算五维空间距离：

{dist}_{color}^{2} = {(R_{p} - R_{s})}^{2} + {(G_{p} - G_{s})}^{2} + {(B_{p} - B_{s})}^{2}

{dist}_{pos}^{2} = {(X_{p} - X_{s})}^{2} + {(Y_{p} - Y_{s})}^{2}

{dist}_{ps} = \sqrt{{dist}_{pos}^{2} + {dist}_{color}^{2}}

\min_{dist}_{p} = \min_{S} {dist}_{ps}

其中，(R_p，G_p，B_p，X_p，Y_p)为像素点p的五维空间坐标，(R_s，G_s，B_s，X_s，Y_s)为初始种子点s的五维空间坐标；dist_color为像素点p与初始种子点S的颜色空间距离，dist_pos为像素点p与初始种子点S的位置距离；dist_ps为像素点p与初始种子点S的五维空间距离；min_dist_p为像素点p与初始种子点S的最小五维空间距离。

S124：更新聚类后的种子点信息

更新聚类后的每个初始种子点的信息，统计每一类别所包括的像素点，然后计算该类别中像素点的五维空间坐标的平均值，将平均值作为新的种子点的五维空间坐标值。

S125：判断是否达到聚类结束条件

首先计算经步骤S123得到的图像中像素点距离种子点的最小五维空间距离之和。在本发明的一个实施例中，可以采用下面的公式进行计算最小五维空间距离之和：

total_dist = \underset{p}{Σ} \min_{dist}_{p}

其中，total_dist为图像中所有像素点的最小五维空间距离之和，min_dist_p为像素点p与种子点最小五维空间距离。

然后根据下面的公式判断是否达到聚类结束条件：

total_dist_previous-total_dist_current≤Threshold

iter_num＞max_iter

当上述两个公式有一个成立时，即可判断聚类结束条件成立。其中，total_dist_previous为前一次循环计算得到的距离和，total_dist_current为当前循环计算得到的距离和，Threshold为给定的阈值，iter_num为当前循环执行次数，max_iter为最大循环执行次数。

如果聚类结束条件不成立，返回步骤S123继续进行循环计算；如果聚类结束条件成立，则结束对像素点的聚类，得到聚类后的像素点的信息，并进入步骤S13。

可以理解的是，上述公式只是对本发明的一个实施例的举例说明，进行结束条件判断时不局限于采用上述公式。

S13：生成区域连通图；

S131：采用初始区域连通图算法生成初始区域连通图

首先，根据上述步骤聚类的结果，得到图像中每个像素点的所属类别信息。然后按照下面的步骤依次遍历图像中的每个像素点。其中，对图像的每个像素点进行遍历包括以下几种情况：

(1)如果当前像素点已划分至一个区域内，则对当前像素点不作处理.

(2)如果当前像素点未划分至一个区域内，则生成一个大小为预设尺寸的区域，然后将当前像素点的多个邻域像素点压入待处理堆栈中，其次从待处理堆栈中弹出一个像素点。在本发明的一个示例中，将当前像素点的四个邻域像素点压入待处理堆栈。

在本发明的一个实施例中，预设尺寸的区域可以是1X1的区域。可以理解的是，预设尺寸的区域根据图像的尺寸和处理速度的要求可以预设成其它的数值，而不是局限于上述实施例提供的数值。

(3)如果弹出的像素点不是当前区域的一部分且弹出的像素点的类别与当前区域的类别相同，则将弹出的像素点加入至所述当前区域，再将弹出的像素点的多个邻域像素点压入待处理堆栈中，直至待处理堆栈中的所有像素点均被弹出且处理完毕后停止。重复本步骤直至图像中所有的像素点都处理完毕，得到初始区域连通图。

本发明的一个示例中，将弹出的像素点中的四个邻域像素点压入待处理堆栈中。

在本发明的一个实施例中，可以从图像的左上角依次遍历图像中的像素点，即从图像的左上角选取遍历的第一个像素点。可以理解的是，遍历的起始点可以是图像中的任意一个像素点，例如，从图像的右上角或右下角或左下角开始遍历图像中的像素点。

S132：合并面积较小的区域。

如果经步骤S131处理后的某一区域面积小于预设的区域面积阈值，则计算当前区域与邻域的五维空间坐标的平均值之间的距离，然后将当前区域合并到距离最近的邻域中。合并完成后，输出更新后的完整的区域连通图。

S14：人工深度标记；

S141：输入人工深度标记；

在本发明的一个实施例中，用户首先选择具有特定深度值的标记，然后用它标记图像中的特定区域，被标记的区域具有标记所示的深度值。具体而言，用于可以在[0，255]的深度值区间内选取深度值进行标记，得到标记区域

在本发明的一个实施例中，深度值标记可以选取为0、25、50、75、100、130、160、190、220或250。

S142：人工深度标记聚类；

经过步骤S141对图像的区域进行深度值标记，得到标记区域之后，在本发明的一个实施例中，可以采用K-means算法对具有相同深度值标记的区域进行聚类，得到聚类后的标记区域。若具有某个深度值的标记像素点个数大于聚类阈值cluster_num，则利用K-means算法将其聚成cluster_num个类别，然后取每个类别的聚类中心作为最终的深度标记点。如果具有某个深度值的标记像素点个数小于等于聚类阈值cluster_num，则不进行聚类，而是直接将这些像素点作为最终的深度标记点。

S143：计算区域深度权重；

对于图像中的每个区域，首先计算区域与各个深度标记点之间的最小五维空间距离，然后根据最小五维空间距离，采用如下公式计算区域深度权重值：

weight 0_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 0 = \underset{val}{Σ} weight 0_{val}

其中，weight0_val表示该区域对于深度值为val的标记的深度权重，min_dist_val表示该区域与深度值为val的标记间的最小五维空间距离，total_weight0表示所有标记的深度权重之和。

S15：生成区域深度图；

当步骤S143计算完毕所有区域的深度权重之后，生成区域深度图。

在本发明的一个实施例中，可以采用下面的公式计算区域深度值

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

S16：判断区域深度图是否满足要求；

判断区域深度图是否满足第一预设条件，如果区域深度图满足第一预设条件，则执行步骤S17，根据区域深度图获取像素深度图，则输出完整的区域深度图。如果区域深度图不满足第一预设条件，则重复执行步骤S14至S16直至区域深度图满足第一预设条件，即继续输入深度值标记信息，生成相应的区域深度图，并对新生成的区域深度图进行判断，直至新生成的区域深度图满足第一预设条件。

在本发明的一个实施例中，当区域深度图准确的反映了图像中各个对象的深度前后次序时，可以判断该区域深度图满足第一预设条件。

S17：生成像素深度图；

本步骤用于对经步骤S16输出的完整的区域深度图进行细化，生成高质量的像素深度图。

S171：读入人工深度标记；

人工深度标记可以通过以下两种方式之一获取：

1)对步骤S141所输入的人工深度标记进行聚类操作，为计算深度权重做好准备。

2)直接读取步骤S142聚类处理后的像素点标记。采用这种方式不需要再次对人工深度标记聚类，从而节省了运算时间。

S172：计算像素深度权重；

对于图像中的每个像素点，计算该像素点与各个深度标记之间的最小五维空间距离。

在本发明的一个实施例中，采用下面的公式进行计算：

{weight 1}_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 1 = \underset{val}{Σ} {weight 1}_{val}

其中，weight1_val表示该像素点对于深度值为val的标记的深度权重，min_dist_val表示该像素点与深度值为val的标记间的最小五维空间距离，total_weight1表示所有像素点的深度权重之和。

S173：生成像素深度图；

对图像中的每个像素点，按照下面公式进行计算，生成初始像素深度图：

depth 1 = \frac{1}{total_weight 1} \underset{val}{Σ} val \times {weight 1}_{val}

其中，depth1为像素的深度值，val表示深度标记信息中的深度值标记，weight1_val表示该像素对于深度值为val的标记的深度权重，total_weight1表示所有标记的权重值之和。

S18：判断像素深度图是否满足要求；

判断步骤S17中得到的像素深度图是否满足第二预设条件，如果不满足则返回到步骤S14重新输入人工深度标记；如果像素深度图满足第二预设条件，则将初始像素深度图作为最终的像素深度图输出。

在本发明的一个实施例中，当像素深度图精确的反映了图像中各个对象的深度前后次序及各个对象内部的深度渐变效果时，可以判断该像素深度图满足第二预设条件。

下面结合图5描述根据本发明实施例提供的基于区域连通图的立体视频深度图的制作装置20。

如图5所示，本发明实施例提供的基于区域连通图的立体视频深度图的制作装置20包括：输入模块21、区域连通图生成模块23、深度值标记模块24、区域深度图生成模块25、像素深度图生成模块26。其中，区域深度图生成模块25分别与区域连通图生成模块23和深度值标记模块24相连，像素深度图生成模块26与区域深度图生成模块25相连。

输入模块21用于向内存中输入多帧图像，提取多帧图像的每一帧的图像信息，所提取的图像信息包括每帧图像的每个像素点信息；

在本发明的一个实施例中，基于区域连通图的立体视频深度图的制作装置20还包括去噪模块22，去噪模块22分别与输入模块21和区域连通图生成模块23相连，由于用户输入的图像信息中存在图像噪声，需要对图像进行去噪。在本发明的一个实施例中，采用高斯滤波的方式对图像进行去噪处理，从而减弱图像噪声对后续的聚类算法的影响。可以理解的是，对图像进行去噪的方式并不仅限于高斯滤波的方式，也可以为其他图像去噪方法。

可以理解的是，去噪模块22只是个可选实施例，换言之，也可以将输入模块21中输入的图像直接进行后续处理。

对输入模块21提取的图像信息，首先设置初始种子点，按照固定的长度和宽度将图像分成多个相同的矩形区域，然后计算每个矩形区域中像素点的五维空间坐标的平均值，将计算出的五维空间坐标平均值作为初始种子点的五维空间坐标值。若图像的长度无法被矩形区域的长度整除，则将相除后的余数作为最后一个矩形区域的长度。相应的，若图像的宽度无法被矩形区域的宽度整除，则将相除后的余数作为最后一个矩形区域的宽度。

在本发明的一个实施例中，采用K-means算法将像素点按照五维空间坐标进行聚类。具体而言，根据上述运算得到的初始种子点的五维空间坐标值，对图像中的每个像素点，首先计算每个像素点与其搜索范围内的各个初始种子点的五维空间距离，然后将该像素点归类于五维空间距离最近的初始种子点所属的类别。

{dist}_{color}^{2} = {(R_{p} - R_{s})}^{2} + {(G_{p} - G_{s})}^{2} + {(B_{p} - B_{s})}^{2}

{dist}_{pos}^{2} = {(X_{p} - X_{s})}^{2} + {(Y_{p} - Y_{s})}^{2}

{dist}_{ps} = \sqrt{{dist}_{pos}^{2} + {dist}_{color}^{2}}

\min_{dist}_{p} = \min_{S} {dist}_{ps}

更新聚类后的每次初始种子点的信息，统计每一类别所包括的像素点，然后计算该类别中像素点的五维空间坐标的平均值，将平均值作为新的种子点的五维空间坐标值。

计算得到的图像中像素点距离种子点的最小五维空间距离之和。在本发明的一个实施例中，可以采用下面的公式进行计算最小五维空间距离之和：

total_dist = \underset{p}{Σ} \min_{dist}_{p}

然后根据下面的公式判断是否达到聚类结束条件：

total_dist_previous-total_dist_current≤Threshold

iter_num＞max_iter

如果聚类结束条件不成立，继续进行循环计算；如果聚类结束条件成立，则结束对像素点的聚类，得到聚类后的像素点的信息，进入区域连通图生成模块23。

区域连通图生成模块23，用于对所述每帧图像的每个像素点信息进行聚类得到聚类后的像素点信息，根据所述聚类后的像素点信息生成每一帧图像的区域连通图；

(1)如果当前像素点已划分至一个区域内，则对当前像素点不作处理。

(2)如果当前像素点未划分至一个区域内，则生成一个大小为预设尺寸的区域，然后将当前像素点的多个邻域像素点压入待处理堆栈中，其次从待处理堆栈中弹出一个像素点。

在本发明的一个实施例中，将当前像素点的四个邻域像素点压入待处理堆栈。在本发明的一个实施例中，预设尺寸的区域可以是1X1的区域。可以理解的是，预设尺寸的区域根据图像的尺寸和处理速度的要求可以预设成其它的数值，而不是局限于上述实施例提供的数值。

在本发明的一个实施例中，将弹出的像素点中的四个邻域像素压入待处理堆栈中。

如果生成后的某一区域面积小于预设的区域面积阈值，则计算当前区域与其邻域的五维空间坐标的平均值之间的距离，然后将当前区域合并到距离最近的邻域中。合并完成后，输出更新后的完整的区域连通图。

深度值标记模块24，用于向内存中输入深度值标记信息。在本发明的一个实施例中，用户首先选择具有特定深度值的标记，然后用它标记图像中的特定区域，被标记的区域具有标记所示的深度值。具体而言，用于可以在[0，255]的深度值区间内选取深度值进行标记，得到标记区域。

在本发明的一个实施例中，深度值标记可以选取0、25、50、75、100、130、160、190、220或250。

深度值标记模块24完成对图像的区域进行深度值标记，得到标记区域之后，在本发明的一个实施例中，可以采用K-means算法对具有相同深度值标记的区域进行聚类，得到聚类后的标记区域。若具有某个深度值的标记像素点个数大于聚类阈值cluster_num，则利用K-means算法将其聚成cluster_num个类别，然后取每个类别的聚类中心作为最终的深度标记点。如果具有某个深度值的标记像素点个数小于等于聚类阈值cluster_num，则不进行聚类，而是直接将这些像素点作为最终的深度标记点。

weight 0_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 0 = \underset{val}{Σ} weight 0_{val}

区域深度图制作模块25用于生成区域深度图，首先计算完毕所有区域的深度权重，在本发明的一个实施例中，可以采用下面的公式计算区域深度值：

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

判断区域深度图是否满足第一预设条件，如果区域深度图满足第一预设条件，则根据区域深度图获取像素深度图，输出完成的区域深度图。如果区域深度图不满足第一预设条件，则深度值标记模块24继续输入深度值标记信息，区域深度图生成模块25生成相应的区域深度图，并对新生成的区域深度图进行判断，直至新生成的区域深度图满足第一预设条件。

像素深度图生成模块26用于根据对区域深度图生成模块25输出的区域深度图进行细化，生成高质量的像素深度图。

人工深度标记可以通过以下两种方式之一获取：

1)对深度值标记模块24的人工深度标记进行聚类操作，为计算权重做好备。

2)直接读取深度值标记模块24聚类处理后的像素点标记。采用这种方式不需要再次对人工深度标记聚类，从而节省了运算时间。

在本发明的一个实施例中，采用下面的公式进行计算：

{weight 1}_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 1 = \underset{val}{Σ} {weight 1}_{val}

在本发明的一个实施例中，像素深度图生成模块26对图像中的每个像素，按照下面公式进行计算，生成初始像素深度图：

depth 1 = \frac{1}{total_weight 1} \underset{val}{Σ} val \times {weight 1}_{val}

在本发明的一个实施例中，像素图生成模块26判断初始像素深度图是否满足第二预设条件，如果不满足则返回到深度值标记模块24重新获得人工深度标记；如果初始像素深度图满足第二预设条件，则将初始像素深度图作为最终的像素深度图输出。

根据本发明实施例的基于区域连通图的立体视频深度图的制作装置，在像素深度图制作阶段前加入区域深度图制作阶段，通过人工深度标记快速生成区域深度图。区域深度图基于区域进行运算，耗时只有像素深度图的几百分之一，可以做到实时操作，提高人机交互过程的效率，使得操作者可以较快的将人工深度标记放置在准确的位置。在随后的像素深度图制作阶段，操作者可以导入区域深度图制作阶段中得到的较为准确的人工深度标记，自动生成高质量的像素级深度图。减少了平面视频转立体视频过程中深度图的制作成本，提高了立体视频的转换效率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于区域连通图的立体视频深度图的制作方法，其特征在于，包括如下步骤：

判断所述区域深度图是否满足第一预设条件，当所述区域深度图准确的反映了每帧图像的每个像素点的深度前后次序时，则判定所述区域深度图满足所述第一预设条件；

当所述区域深度图满足所述第一预设条件时，根据所述区域深度图得到像素深度图，否则继续向所述内存中输入深度值标记信息重新生成区域深度图直至所述区域深度图满足所述第一预设条件；

根据所述区域深度图得到像素深度图，包括以下步骤：

根据所述聚类后的深度值标记信息计算像素深度权重，得到像素权重值，并计算每一个像素的深度值，对于每一个像素，计算每一个像素与所述聚类后的深度值标记信息之间的最小五维空间距离：

weighg 1_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 1 = \underset{val}{Σ} {weight 1}_{val}

weight1_val表示每一个像素对于聚类后的深度值标记信息为val的像素深度权重，min_dist_val表示每一个像素与聚类后的深度值标记信息为val的最小五维空间距离，total_weight1表示所有像素的像素深度权重之和；

根据所述的每一个像素深度值生成像素深度图：

depth 1 = \frac{1}{total_weight 1} \underset{val}{Σ} val \times weight 1_{val}

depth1为像素的深度值。

2.如权利要求1所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，在对所述每帧图像的每个像素点信息进行聚类之前，还包括如下步骤：

对提取得到的所述每一帧的图像信息进行图像去噪。

3.如权利要求1所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，对所述每帧图像的每个像素点信息进行聚类，包括如下步骤：

计算所述每个矩形区域内像素点的五维空间坐标的平均值，并根据每个矩形区域内像素点的五维空间坐标的平均值得到所述初始种子点的五维空间坐标值。；

4.如权利要求3所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，根据所述聚类后的像素点信息生成每一帧图像的区域连通图，包括如下步骤：

5.如权利要求4所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，对所述每帧图像中的每个像素点划分至相应的区域内，包括如下步骤：

如果所述当前像素点未划分至一个区域内，则生成一个大小为预设尺寸的区域，然后将所述当前像素点的多个邻域像素点压入待处理堆栈中，从所述待处理堆栈中弹出一个像素点；

6.如权利要求5所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，将所述初始区域连通图进行优化，包括如下步骤：

7.如权利要求1所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，所述区域连通图根据所述深度值标记信息得到区域深度图，包括如下步骤：

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

根据所述每一个区域的区域深度值得到区域深度图。

8.如权利要求1所述的基于区域连通图的立体视频深度图的制作方法，其特征在于，所述生成像素深度图之后，进一步包括如下步骤：

判断所述像素深度图是否满足第二预设条件，当所述像素深度图精确的反映了每帧图像的每个像素点的深度前后次序及每帧图像的每个像素点内部的深度渐变效果时，则判定所述像素深度图满足所述第二预设条件；

当所述像素深度图满足所述第二预设条件时，输出所述像素深度图，否则继续向所述内存中输入深度值标记信息，生成所述区域深度图，根据所述区域深度图生成像素深度图直至所述像素深度图满足所述第二预设条件。

9.一种基于区域连通图的立体视频深度图的制作装置，其特征在于，包括：

深度值标记模块，用于向内存中输入深度值标记信息；

区域深度图生成模块，所述区域深度图生成模块分别与所述区域连通图生成模块和所述深度值标记模块相连，用于根据所述区域连通图和所述深度值标记信息生成区域深度图，且判断所述区域深度图是否满足第一预设条件，当所述区域深度图准确的反映了每帧图像的每个像素点的深度前后次序时，则判定所述区域深度图满足所述第一预设条件；

像素深度图生成模块，所述像素深度图生成模块与所述区域深度图生成模块相连，当所述区域深度图满足所述第一预设条件时，则所述像素深度图生成模块根据所述区域深度图获取像素深度图，否则由所述深度值标记模块继续向所述内存中输入深度值标记信息，并由所述区域深度图生成模块重新生成区域深度图直至所述区域深度图满足所述第一预设条件；

所述像素深度图生成模块根据所述区域深度图获取像素深度图包括：

weighg 1_{val} = \frac{1}{\min_{dist}_{val}}

total_weight 1 = \underset{val}{Σ} {weight 1}_{val}

根据所述的每一个像素深度值生成像素深度图：

depth 1 = \frac{1}{total_weight 1} \underset{val}{Σ} val \times weight 1_{val}

depth1为像素的深度值。

10.如权利要求9所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，还包括：

去噪模块，所述去噪模块分别与所述输入模块和所述区域连通图生成模块相连，用于对提取得到的所述每一帧的图像信息进行图像去噪。

11.如权利要求9所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，所述区域连通图生成模块设置初始种子点，将所述每帧图像划分成多个相同的矩形区域，计算所述每个矩形区域内像素点的五维空间坐标的平均值，并根据每个矩形区域内像素点的五维空间坐标的平均值得到所述初始种子点的五维空间坐标值，对所述每帧图像的每个像素点，计算所述像素点与所述像素点对应的搜索范围内的每个所述初始种子点的五维空间距离，并将所述像素点归类至所述五维空间距离最小的初始种子点所属的类别；更新聚类后的每个初始种子点的信息，并统计每一类别所包括的像素点信息，根据每一类别中五维空间坐标的平均值作为新的种子点的五维空间坐标值；计算所述每帧图像中每个像素点距离所述新的种子点的最小五维空间距离之和，根据所述最小五维空间距离之和判断是否满足预设的聚类结束条件，当所述最小五维空间距离之和满足所述预设的聚类结束条件时，结束对像素点进行聚类，得到所述聚类后的像素点信息。

12.如权利要求11所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，所述区域连通图生成模块读取所述聚类后的像素点信息，获取所述每帧图像的每个像素点的所属类别信息，并遍历所述每帧图像中的每个像素点，对所述每帧图像中的每个像素点划分至相应的区域内，生成初始区域连通图；将所述初始区域连通图进行优化，得到所述每一帧图像的区域连通图。

13.如权利要求12所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，

如果当前像素点已划分至一个区域内，则所述区域连通图生成模块对所述当前像素点不作处理；

如果所述当前像素点未划分至一个区域内，则所述区域连通图生成模块生成一个大小为预设尺寸的区域，然后将所述当前像素点的多个邻域像素点压入待处理堆栈中，从所述待处理堆栈中弹出一个像素点；

如果所述弹出的像素点不是当前区域的一部分且所述弹出的像素点的类别与当前区域的类别相同，则所述区域连通图生成模块将所述弹出的像素点加入至所述当前区域，再将所述弹出的像素点的多个邻域像素点压入所述待处理堆栈中，直至所述待处理堆栈中的所有像素点均被弹出且处理完毕后停止，得到初始区域连通图。

14.如权利要求13所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，所述区域连通图生成模块判断所述初始区域连通图中每个区域的面积是否小于区域面积阈值，如果当前区域的面积小于所述区域面积阈值时，计算所述当前区域的五维空间坐标的平均值和所述当前区域的邻域的五维空间坐标的平均值的距离，并将所述当前区域合并到与所述当前区域的距离最近的所述邻域中，输出区域连通图。

15.如权利要求9所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，所述区域深度图生成模块对所述区域连通图的每个区域进行深度值标记，得到标记区域，在所述标记区域中，对于具有相同深度值的标记区域进行聚类，得到聚类后的标记区域，根据所述聚类后的标记区域计算区域深度权重，得到区域深度权重值，根据每一个所述区域权重值，通过下述公式获取每一个区域的区域深度值；

depth 0 = \frac{1}{total_weight 0} \underset{val}{Σ} val \times weight 0_{val}

16.如权利要求9所述的基于区域连通图的立体视频深度图的制作装置，其特征在于，所述像素深度图生成模块判断所述像素深度图是否满足第二预设条件，当所述像素深度图精确的反映了每帧图像的每个像素点的深度前后次序及每帧图像的每个像素点内部的深度渐变效果时，则判定所述像素深度图满足所述第二预设条件；

当所述像素深度图满足所述第二预设条件时，输出所述像素深度图，否则所述深度值标记模块继续向所述内存中输入深度值标记信息，所述区域深度图生成模块生成所述区域深度图，所述像素深度图生成模块根据所述区域深度图生成像素深度图直至所述像素深度图满足所述第二预设条件。