CN102750711A

CN102750711A - 一种基于图像分割和运动估计的双目视频深度图求取方法

Info

Publication number: CN102750711A
Application number: CN2012101816535A
Authority: CN
Inventors: 戴琼海; 马潇; 曹汛; 王好谦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-06-04
Filing date: 2012-06-04
Publication date: 2012-10-24
Anticipated expiration: 2032-06-04
Also published as: CN102750711B

Abstract

本发明提出了一种基于图像分割和运动估计的双目视频深度图求取方法，其包括如下步骤：对两幅图像分别进行单帧图像分割；利用基于图像分割的立体匹配算法进行深度计算；利用运动估计修正深度提取的结果。该基于图像分割和运动估计的双目视频深度图求取方法提取的深度图边缘准确，在遮挡部分也能够得到理想效果，能够兼顾准确性和实时性，真实地反映出场景物体的远近关系。

Description

一种基于图像分割和运动估计的双目视频深度图求取方法

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种基于图像分割和运动估计的双目视频深度图求取方法。

背景技术

立体视频是一种能够使人产生立体感的新型视频技术，它可以使人通过视频看到与真实世界几乎完全一样的景象，产生真实感和临场感，所以必将成为未来多媒体技术的发展方向。目前，通常采用的立体视频体系结构为：同时传输两段视频，其中一段是待转换的平面视频序列，另一段是相对应的深度图序列，其包含了各帧中每个像素的深度信息，通过DIBR（Depth Image BasedRendering,基于深度图渲染）技术，获得真实世界场景在一个或多个方向上的虚拟视角，最终合成立体视频。

这种使用DIBR技术的立体视频体系结构，最重要的和最困难的一步就是深度图的获取，目前，一种获取方法是通过软件算法，由一对从不同视角拍摄到的场景图像恢复出场景的深度图，还有一种方法是通过对平面图像进行手工或半自动地处理，得到伪深度图。

但是，上述获取双目视频深度图的方法存在很多缺陷，例如边缘不够准确，在遮挡部分得不到理想效果，准确性和实时性无法兼顾，深度图不能够较真实的反映场景物体的远近关系等。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于图像分割和运动估计的双目视频深度图求取方法。

为了实现本发明的上述目的，本发明提供了一种基于图像分割和运动估计的双目视频深度图求取方法，其包括如下步骤：

S1：对两幅图像分别进行单帧图像分割；

S2：利用基于图像分割的立体匹配算法进行深度计算；

S3：利用运动估计修正深度提取的结果。

本发明的基于图像分割和运动估计的双目视频深度图求取方法提取的深度图边缘准确，在遮挡部分也能够得到理想效果，能够兼顾准确性和实时性，真实地反映出场景物体的远近关系。

在本发明的优选实施例中，采用自适应grabcut算法对两幅图像分别进行分割。该自适应grabcut算法为：假设前景为一个圆形，先对图片进行hough变换寻找前景，再进行grabcut算法进行分割。

本发明的图像分割方法充分利用彩色图像的彩色信息将图像分割成不同区域，有效克服了视差图边界模糊问题，能较好处理大的低纹理区域。

在本发明的另一优选实施例中，计算初始匹配点的方法为：计算各像素在不同视差的叠加匹配代价时采用改进的SSD算法，窗口选取为3*3，在分析和利用计算图像每个窗口的SSD值时的模板在水平方向和竖直方向上具有的平移特性，以及前后上下窗口模板的相互关系，利用已计算的值，来计算新的窗口的SSD值。

本发明改进了grabcut和SSD算法，提出了新的能量函数和评价函数，得到了较好的深度图效果。

在本发明的另一优选实施例中，进行深度计算的方法时引入模板优化和模板分配。该模板优化和模板分配的方法为：将不同时刻的同一不可靠区域的模板作为不同阶段，此时对应的全局能量函数值即为此阶段的状态，每次改变一个不可靠区域的模板，而同时其他区域模板均不作改变，采用自底向上的方式计算最优值，最不同时刻的值依次计算，计算完成后，计算临近帧能量函数值相差最小的一条最优轨迹，同时，更新这些帧的模板区域分配，下一帧使用更新后的结果。

本发明区域模板及模板优化的引入使得整个算法具有更好的鲁棒性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明基于图像分割和运动估计的双目视频深度图求取方法的流程图；

图2是本发明一个优选实施例中提供的单帧场景图像对；

图3是图2中所示单帧场景图像对利用基于图像分割的立体匹配算法进行深度计算后的深度图；

图4是图3中所示图像利用运动估计进行修正后的深度图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

图1是本发明基于图像分割和运动估计的双目视频深度图求取方法的流程图，从图中可见，该基于图像分割和运动估计的双目视频深度图求取方法包括如下步骤：

S1：对两幅图像分别进行单帧图像分割；

S2：利用基于图像分割的立体匹配算法进行深度计算；

S3：利用运动估计修正深度提取的结果。

在本实施方式中，步骤S1中采用自适应grabcut算法对两幅图像分别进行分割。该自适应grabcut算法为：假设前景为一个圆形，先对图片进行hough变换寻找前景，再进行grabcut算法进行分割。对图片进行hough变换寻找前景的方法为：先在2维平面的每个切面上检测圆形，将每个切片圆心的累计值加到同一个二维累计数组中，最终累计数组最大值所在位置就是二维平面上的球心，利用这个球心在每个切片上估计圆的半径，在第三维和半径平面上进行累计，取最大值即可得到球心在第三维位置和半径。

具体地，采用grabcut算法需要首先在图像上人工通过笔画标定前景和背景，为了达到自适应grabcut算法的效果，第一步需要标定前景位置，为了处理方便，将物体的前景假设为圆形，采用hough变化确定位置。首先在xyz三维景物上做平行于xy平面的各个切片的采样，并在这些平面上检测圆形，先将所有检测到的所有边界标记下来，将所有不过同一直线的边界上3个点的组合看作一个圆形，计算这个圆形的圆心，将每个切片的圆心位置统计下来，将这些圆心的累计值都加到一个二维数组中，将数组中每个圆心对应位置记为1，最终累计数组中最大值的所在位置就作为球心在xy平面上的投影位置，利用这个坐标，可以得到关于这个坐标在每个切片上圆半径的估计值，利用这些值再关于z轴和球半径r做累计，得到的累计最大值就作为球的半径。估计出球心位置和半径之后，可以得到在z轴上的起始和终止位置，将能量函数定义为：

R (A) = \underset{t &Element; T}{Σ} R_{t} (A_{t}) + &PartialD; P_{t} (A_{t}) - - - (1)

其中，R_t(A_t)为grabcut算法中定义的参量，R_t=-lnR(I_t)表示在对象中t像素的亮度I出现的概率，应该由统计人工笔画像素点在前景和背景出现的概率而决定，在本实施方式中将这个概率看成是正态分布，其中，在检测到的圆形中搜索亮度最小值和最大值，将最小值定位于正态分布x轴左端，将最大值定位于正态分布x轴右端，均值定位于原点，其余值按照比例关系分别定位，由此估计出各个亮度I的概率。能量函数中的

是定义的代价项，其中

为加权值，由点I出现在正态分布y轴的左边或者右边决定，出现在左边即取人工设定的

在右边即取设定的

P_t(A_t)为代价值，由t点与圆心直接的像素距离和亮度差决定，记为：

P_{t} (A_{t}) = \frac{I_{p} - I_{o}}{{(x_{p} - x_{o})}^{2} + {(y_{p} - y_{o})}^{2}} - - - (2)

按照此能量函数迭代后即可估计出前景和背景的标定，同时基于防止错分情况的发生，设定硬性阈值条件，前景亮度值与当前圆中亮度最小值的差须大于当前圆中亮度最大值与最小值差的25%。

按照求得的前景和背景标记结果利用grabcut算法对单帧图像进行分割，具体地，使用GMM模型来建立彩色图像数据模型。前景和背景的每一个GMM都可以看作是一个K维的协方差，在本实施方式中，K取为5。为了方便处理GMM，在优化过程中引入向量k=(k1，…,kn，…,kN)作为每个像素的独立GMM参数，且kn∈{1,2,…,K},相应像素点上的不透明度α=0或1。能量函数改写为：

E(α,k,θ，z)=U(α,k,θ，z)+V(α,z) （3）

其中，U为数据项，V为平滑项，α为相应像素点上的不透明度，k为像素对应的GMM里的高斯模型序号，θ为GMM参数，z为图像的像素。grabcut算法中的能量最小化通过迭代来实现,不像Graph cuts算法是一次完成的，优点是可自动修改不透明度α值,并利用从初始三元图的像素中重新确定的像素来校正彩色模型GMM的参数θ。

grabcut算法的主要流程描述如下:

1)确定前景和背景的标定点，用α=0或者1初始化前景和背景的GMM模型；

2)迭代最小化，求得每个像素n所对应的GMM参数kn，从数据Z中获取GMM参数θ，用最小能量来得到初始分割:

开始迭代重复执行，直至收敛；

3)边界优化，对于边界优化应该用连续的α值来处理。可以进一步优化硬分割，这种方法允许在硬分割边界附近存在一条完全透明的窄带，这就足以处理当前待分割物体边界处的模糊和像素重叠问题。边界优化主要任务是统计这个窄带的α图,恢复前景的颜色。

图2是本发明一个优选实施例中提供的单帧场景图像对，在采用步骤S1对两幅图像分别进行单帧图像分割后，进行步骤S2，即利用基于图像分割的立体匹配算法进行深度计算。具体是先计算初始匹配点，然后计算模板和不同区域的合并，最后进行模板优化和模板分配。在本实施方式中，计算初始匹配点的方法为：计算各像素在不同视差的叠加匹配代价时采用改进的SSD算法，窗口选取为3*3，在分析和利用计算图像每个窗口的SSD值时的模板在水平方向和竖直方向上具有的平移特性，以及前后上下窗口模板的相互关系，利用已计算的值，来计算新的窗口的SSD值。计算模板和不同区域的合并的方法为：利用加权最小二乘法计算可靠区域的模板参数，对于不可靠区域，利用相同或相近的可靠区域模板代替，取可靠区域模板集合中相似度匹配代价最小的模板作为该区域的初始模板。模板优化和模板分配的方法为：将不同时刻的同一不可靠区域的模板作为不同阶段，此时对应的全局能量函数值即为此阶段的状态，每次改变一个不可靠区域的模板，而同时其他区域模板均不作改变，采用自底向上的方式计算最优值，最不同时刻的值依次计算，计算完成后，计算临近帧的能量函数值相差最小的一条最优轨迹，同时，更新这些帧的模板区域分配，下一帧使用更新后的结果。

对两幅分割好的图像进行初始匹配点计算时，匹配点视差的初始值的准确性对模板的估计影响很大，除了通常用的交叉校验外，本发明还采用了相似点误差滤除，从而进一步增强了初始值的可靠性。

在计算各像素在不同视差的叠加匹配代价时采用改进的SSD算法，窗口大小为3×3。如果扩大窗口大小，在低纹理区将获得更加可靠的初始匹配结果，但同时也会不可避免的增强基于区域算法中的“前景膨胀效应”。位于背景层的遮挡区域，这种区域与前景物体形成匹配关系后，将会造成物体边界扩大，形成所谓的“前景膨胀效应”。所以遮挡区域对深度图的结果有很大影响。显然，窗口越大，上述的前景膨胀效应越大，所以在本算法中所有的叠加匹配代价都用3×3小窗口进行计算。

在分析和利用计算图像每个窗口的SSD值时的模板在水平方向和竖直方向上具有的平移特性，以及前后上下窗口模板的相互关系，利用已计算的值，来计算新的窗口的SSD值，这样能够有效的降低计算量，而且可以使初始匹配点结果更为平滑，这对最后深度图的平滑和精度是很重要的。

在获取可靠点的视差值之后，开始计算模板，采用的是加权最小二乘法，并进行多次迭代直至参数收敛。可靠区域确定之后，为了使模板计算更为准确，需要充分利用可靠区域里的匹配点数。采用加权最小二乘法，并多次迭代求取可靠区域的模板参数。对于每个不可靠区域，无法直接计算其模板参数，可以利用相同或相近的可靠区域模板代替，以便模板参数优化阶段使用。取可靠区域模板集合中相似度匹配代价最小的一个模板作为该区域的初始模板。

由于通过对每个不可靠区域进行模板分配使得全局能量函数取得最小值是一个NP（Non-Deterministic Polynomial，非确定多项式）问题。为此本发明采用动态规划算法求全局最优解来得到更好的效果。这里选用动态规划算法的原因是本发明使用的是双目视频，每一帧都有前后帧的信息，在这种情况下，动态规划法能很好的利用到前后帧的信息，得到更好的精度。在求解过程中，首先进行镜头检测，将视频相邻两帧所有像素亮度值相减，据此得到一个统计直方图，视为一个高斯模型，并由此模型判断当相邻帧像素亮度差大于某一阈值时，此镜头结束。本发明将不同时刻的同一不可靠区域的模板作为不同阶段，对应的全局能量函数值即为此阶段的状态：

E=E_data+E_smooth （4）

其中，E为总的能量函数，数据项

E_K为计算的这几帧每帧的全局能量函数，N为帧间改变的点的个数，P为人工设定的加权系数，其中E_K=∑C(x.y.d)+n*p，其中，C(x.y.d)为单帧图像各个像素的能量函数，n为遮挡点的个数，p为对遮挡点的惩罚项系数，E_smooth=L*∑Z，L为当前不可靠区域的长度，Z为两帧同一区域内平滑项，其中的两帧同一区域取两帧同一区域并集，在这个并集中，当所有像素两帧间的亮度值的差大于某一帧当前像素亮度值的20%时，Z=1，其余都有Z=0，当∑Z大于此区域像素数的40%时，视为镜头检测错误，此镜头结束。每次改变一个不可靠区域的模板，而同时其他区域模板均不作改变，采用自底向上的方式计算最优值，将不同时刻的值依次计算，计算完成后，计算临近帧的能量函数值相差最小的一条最优轨迹，同时，更新这些帧的模板区域分配，下一帧使用更新后的结果。图3即是图2中所示单帧场景图像对利用基于图像分割的立体匹配算法进行深度计算后的深度图。

在利用基于图像分割的立体匹配算法进行深度计算后，进行步骤S3，即利用运动估计修正深度提取的结果。图4即是图3中所示图像利用运动估计进行修正后的深度图。在本实施方式中，具体是首先利用光流法进行运动估计，利用同一镜头内其他帧信息提高预测精度，即提取出当前帧前后的多个帧，用当前帧和所有提取出来的帧之间寻找最优匹配块进行运动补偿，利用BP算法求解融入时间项后的能量函数。

在本实施方式中，采用OpenCV光流法进行运动估计，首先利用goodFeatures To Track函数得到图像中的强边界作为跟踪的特征点，接下来调用calcOptical Flow PyrLK函数，输入两幅连续的图像，并在第一幅图像里选择一组特征点，输出是这组特征点在下一幅图像中的位置。再把得到的跟踪结果过滤一下，去掉不好的特征点，再把特征点的跟踪路径标示出来。据此在原能量函数式中加入时间项：

E=E_data+E_smooth+E_time （5）

其中，E_time=E_time-r+E_time+r，

E_{time - r} = Σ_{n = 1}^{k} \underset{p, d}{Σ} (ρ (L (p, d) - L (p - r, d)) + ρ (L (p, d) - L (p, d - r)))

E_{time + r} = Σ_{n = 1}^{k} \underset{p, d}{Σ} (ρ (L (p, d) - L (p + r, d)) + ρ (L (p, d) - L (p, d + r)))

其中，k为当前镜头中帧数，p为图像中的像素，d为视差值，-r为当前点之前帧的取值，+r为当前点之后帧的取值，∑ρ(L(p,d)-L(p-r,d))为在当前帧p点与同一镜头内当前帧之前每一帧d视差下的光流运动估计路径代价的总和。

本发明在修正了之前的能量函数后利用BP（Error Back Propagation，误差反向传播）算法求解新的能量函数，求得利用运动估计后提取的视差图。将时间维的颜色、几何信息融入到能量函数中，不仅增加同一视角前后帧深度图的连续性，同时也能利用旁帧的深度图对当前帧的一些错误深度进行纠正。此外，引入运动估计，正确时能增加正确视差的权重，在不准确的情况下，也不会对能量函数带来负面的影响，确保深度图至少能保证单帧求取的结果。

本发明在求取深度图后，利用求取的深度图进行多目DIBR，具体地，对于一张求得的降采样深度图，首先移除其中的遮挡区域，进行双边滤波以及有向非遮挡区域的填充，边缘增强得到一张平滑的深度图。深度图后处理之后，需要经过立体渲染来得到能够观赏的多目视图。立体渲染的方法包括两步：像素偏移和空洞填充。像素偏移将两幅图像作为输出的多目视图中的两部分，根据前面得到的双目图像匹配点信息为基础，对其中的视差进行插值计算，得出相邻图像每一像素应有的平移量，根据这个平移量设计DIBR参数。对于不同的视角来说，部分区域无法在所有视角中都看到，这种遮挡区域在经过像素偏移后需要进行填充，因为多目视图在像素平移后容易产生较大的空洞，所以使用Inpainting的方法进行填充，这种方法可以使空洞点很好地融合于周围的像素之中。

本发明针对目前双目视频深度提取中存在的边缘不够准确，在遮挡部分得不到理想效果，准确性和实时性无法兼顾，深度图不能较真实的反映出场景物体的远近关系等问题，通过单帧图像分割、计算双目图像初始匹配点、初始模板计算、不同区域模板计算、区域合并、模板优化、模板分配、计算前后帧运动估计纠正深度图错误、多目DIBR等步骤来实现。其中图像分割和初始匹配点的获取充分利用彩色图像的彩色信息将图像分割成不同区域，有效克服了视差图边界模糊问题，能较好处理大的低纹理区域。区域模板及模板优化的引入使得算法具有更好的鲁棒性。本发明改进了的grabcut算法及SSD算法，提出了新的能量函数和评价函数，得到和较好的深度图效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，包括如下步骤：

S1：对两幅图像分别进行单帧图像分割；

S2：利用基于图像分割的立体匹配算法进行深度计算；

S3：利用运动估计修正深度提取的结果。

2.如权利要求1所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，采用自适应grabcut算法对两幅图像分别进行分割。

3.如权利要求2所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述自适应grabcut算法为：假设前景为一个圆形，先对图片进行hough变换寻找前景，再进行grabcut算法进行分割。

4.如权利要求3所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述对图片进行hough变换寻找前景的方法为：先在2维平面的每个切面上检测圆形，将每个切片圆心的累计值加到同一个二维累计数组中，最终累计数组最大值所在位置就是二维平面上的球心，利用这个球心在每个切片上估计圆的半径，在第三维和半径平面上进行累计，取最大值即可得到球心在第三维位置和半径。

5.如权利要求1所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述利用基于图像分割的立体匹配算法进行深度计算的方法为：先计算初始匹配点，然后计算模板和不同区域的合并，最后进行模板优化和模板分配。

6.如权利要求5所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述计算初始匹配点的方法为：计算各像素在不同视差的叠加匹配代价时采用改进的SSD算法，窗口选取为3*3，在分析和利用计算图像每个窗口的SSD值时的模板在水平方向和竖直方向上具有的平移特性，以及前后上下窗口模板的相互关系，利用已计算的值，来计算新的窗口的SSD值。

7.如权利要求5所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述计算模板和不同区域的合并的方法为：利用加权最小二乘法计算可靠区域的模板参数，对于不可靠区域，利用相同或相近的可靠区域模板代替，取可靠区域模板集合中相似度匹配代价最小的模板作为该区域的初始模板。

8.如权利要求5所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述模板优化和模板分配的方法为：将不同时刻的同一不可靠区域的模板作为不同阶段，此时对应的全局能量函数值即为此阶段的状态，每次改变一个不可靠区域的模板，而同时其他区域模板均不作改变，采用自底向上的方式计算最优值，最不同时刻的值依次计算，计算完成后，计算临近帧的能量函数值相差最小的一条最优轨迹，同时，更新这些帧的模板区域分配，下一帧使用更新后的结果。

9.如权利要求1所述的基于图像分割和运动估计的双目视频深度图求取方法，其特征在于，所述利用运动估计修正深度提取的结果的方法为：首先利用光流法进行运动估计，利用同一镜头内其他帧的信息提高预测精度，即提取出当前帧前后的多个帧，用当前帧和所有提取出来的帧之间寻找最优匹配块进行运动补偿，利用BP算法求解融入时间项后的能量函数。