CN103268604B

CN103268604B - 双目视频深度图求取方法

Info

Publication number: CN103268604B
Application number: CN201310173129.8A
Authority: CN
Inventors: 戴琼海; 马潇; 索津莉; 王竞瑶
Original assignee: BEIJING TSING HUA VISION TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: BEIJING TSING HUA VISION TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2016-06-01
Anticipated expiration: 2033-05-10
Also published as: CN103268604A

Abstract

本发明提出一种双目视频深度图求取方法，包括以下步骤：对两幅图像进行边缘检测；对两幅图像进行图像分割；利用图像分割结果对检测到的边缘进行分类；以及利用改进BP算法进行深度计算。本发明通过改进canny算子得到边缘检测结果，再分析边缘与分割结果的关系，然后改进BP算法，在不同区域内进行单独传播，改变消息传播机制；对遮挡部分进行单独处理，使其不影响正确消息的传播，增加了迭代速度，提高了精度。

Description

双目视频深度图求取方法

技术领域

本发明涉及计算机多媒体技术领域，特别涉及一种双目视频深度图求取方法。

背景技术

立体视频是一种能够使人产生立体感的新型视频技术，能使用户产生明显的真实感和临场感，是未来多媒体技术的发展方向。目前普遍采用的立体视频体系结构为：同时传输两段视频，其中一段是待转换的平面视频序列，而另一段是相对应的深度图序列，包含了各帧中每一像素的深度信息，通过DIBR（Depth-Image-BasedRendering,基于深度图渲染）技术，就可以获得真实世界场景在一个或多个方向上的虚拟视角，最终合成立体视频。使用DIBR技术的立体视频体系结构，最重要的和最困难的步骤为深度图的获取。

目前可以通过软件算法，由一对从不同视角拍摄到的场景图像恢复出场景的深度图；还可以对平面图像进行手工或半自动地处理，得到伪深度图。在现有技术通过BP(ErrorBackPropagation,误差反向传播)算法求取深度图时通常会存在很多缺陷，例如求取速度过慢，分块过多，边缘不精确，深度图不能较真实的反映出场景物体的远近关系等。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本发明的目的在于提出一种计算速度快，真实性好的双目视频深度图求取方法。

根据本发明实施例的双目视频深度图求取方法，包括：S1.对两幅图像进行边缘检测；S2.对两幅图像进行图像分割；S3.利用图像分割结果对检测到的边缘进行分类；以及S4.利用改进BP算法进行深度计算。

在本发明的一个实施例中，所述步骤S1中，利用改进的canny算子对图像进行边缘检测。

在本发明的一个实施例中，所述步骤S1进一步包括：S11.输入图像，进行中值滤波平滑；S12.对平滑后的所述图像进行改进梯度计算；以及S13.进行自适应阈值检测。

在本发明的一个实施例中，所述步骤S3包括：S31.根据图像分割结果，对不同边缘线段进行初步分类；以及S32.利用所述初步分类的结果，考虑实际区域的定义，找出遮挡区域和非遮挡区域。

在本发明的一个实施例中，所述对不同边缘线段初步分类包括：第一类边缘线段：经过多个分割区域的边缘线段；第二类边缘线段：只经过同一分割区域但接近分割边界的边缘线段；第三类边缘线段：只经过同一分割区域且不接近分割边界的边缘线段；以及第四类边缘线段：只经过同一分割区域且不接近分割边界的短边缘线段。

在本发明的一个实施例中，所述初步分类结果与所述实际区域的对应关系为：所述第一类边缘线段和所述第二类边缘线段属于遮挡区域与非遮挡区域间的边缘；所述第三类边缘线段属于同一区域内由于纹理或图案产生的边缘；以及所述第四类边缘线段属于同一区域内由于颜色跳变点或者噪声点引起的边缘。

在本发明的一个实施例中，所述步骤S4包括：对所述遮挡区域和所述非遮挡区域分别进行双向BP运算，其中所述非遮挡区域迭代采用传统迭代方式，所述遮挡区域按照遮挡程度重新定义所述遮挡区域的迭代消息值和阈值进行迭代。

在本发明的一个实施例中，所述遮挡区域和所述非遮挡区域的传播过程结合了BP算法和PM算法。

在本发明的一个实施例中，所述传播过程中，在边缘位置时，左图边缘位置只能向左传播，右图边缘位置只能向右传播，即：

E(f)=∑D_p(f_p)+∑V(f_p-f_q)

m_{p &RightArrow; q}^{t} (f_{q}) = \min_{f_{p} &Element; Ω} (D_{p} (f_{p}) + V (f_{p} - f_{q}) + \underset{s &Element; N (p) \ q}{Σ} m_{s &RightArrow; p}^{t - 1} (f_{p}))

其中为第t次迭代时p点传输给点q的消息，N(p)为p点的接受消息集，接收消息的象素q不包括在其中，D_p(f_p)为p点视差为f_p时的非相似性测度；V(f_p-f_q)为两象素分配视差f_p,f_q的视差不连续量。

本发明通过改进canny算子得到边缘检测结果，再分析边缘与分割结果的关系，然后改进BP算法，在不同区域内进行单独传播，改变消息传播机制；对遮挡部分进行单独处理，使其不影响正确消息的传播。本发明的双目视频深度图求取方法增加了迭代速度，提高了精度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的双目视频深度图求取方法的流程图；

图2为本发明实施例的边缘检测过程示意图；

图3为本发明实施例利用改进canny算子得到的边缘检测结果；

图4为本发明实施例的检测到的边缘线段与分割结果间的关系的示意图；

图5为本发明实施例的利用图像分割结果对检测到的边缘进行分类结果；

图6为本发明实施例的整个BP迭代的框架；

图7为本发明实施例的每次迭代中采用传播方式的示意图；

图8为本发明实施例的最终求取得到的深度结果图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

图1为本发明实施例的双目视频深度图求取方法的流程图。如图，该方法包括以下步骤：

S1.对两幅图像进行边缘检测。图2为边缘检测过程的具体流程图。具体地：

S11.边缘检测的第一步是用滤波器将图像平滑。图像的平滑总是要以一定的细节的模糊为代价，因此如何尽量平滑图像的噪声点，又要尽量保持图像的细节，是图像平滑研究的主要目的。图像的平滑技术主要有空域法和频域法两大类，主要包括:邻域平均法，中值滤波法和低通滤波法。其中低通滤波中又包含:理想低通滤波器；巴特沃斯低通滤波器；高斯滤波器等。而Canny算子中使用的就是高斯滤波器，前面已经介绍过使用高斯滤波器对图像进行平滑存在一些缺陷，所以在这里选择使用其他滤波器来代替高斯滤波器。

在本发明的一个实施例中采取中值滤波器。中值滤波器是一种常用的去除噪声的非线性平滑滤波处理方法，使用中值虑波器进行平滑产生的模数较少，比低通滤波消除噪声点更有效。因为噪声多为尖峰干扰状，低通滤波虽然能去除噪声但是陡峭的边缘将被模糊。而中值滤波能去除点状尖峰干扰并且边缘不会变坏。中值滤波的算法原理是：首先，确定一个奇数像素的窗口W，窗口内的各象素按照灰度的大小排队后用中间位置的灰度值代替原f(x,y)的灰度值成为窗口心的灰度值g(x,y)。通常情矿下，窗口W内的像素取为奇数，以便于取中间像素。若窗内的像素为偶数时，时中值就取中间两像素灰度值得平均值。

中值滤波的工作步骤为：将模板在图中漫游，并将模板的中心与图像中的某个像素位置重合；读取模板下每个对应的像素的灰度值；然后将模板对应的像素灰度值进行从小到大的顺序排序；选取灰度序列里排列在中间的一个像素的灰度值；将这个灰度赋值给对应模板中心位置的像素作为像素的灰度值。

S12.将平滑后的图像进行梯度计算。Canny算子在进行梯度计算的时候是采用了计算2×2领域内的一阶偏导求梯度幅值以及方向。仅仅计算了相邻像素的灰度差，这样的算法对噪声是非常敏感的，不能够很好的抑制噪声的影响。

在本发明的一个优选实施例中，采取改进的canny算子，即，用计算3×3领域内的一阶偏导来求梯度幅值和方向。首先计算x，y，45度以及135度由这四个方向的一阶偏导数可以求得水平方向上的差分，进而求得梯度幅值和梯度方向。因为在计算梯度的时候采用了3×3领域内计算，并且引入了水平和垂直方向上的差分，所以能够得到更精确的边缘,并且能够较好的抑制噪声的干扰。

S13.进行自适应阈值检测。Canny边缘检测算子是由双阈值来分割图像，其中高低阈值是由人为确定的，而固定的阈值对于不同的图像的检测效果差异很大。本文使用最大类间方差法来确定自适应阈值。最大类间方差法是由日本学者大津1979年提出来的，是一种自适应的阈值确定方法，也被称为大津法（OTSU）。最大类方差法是按照图像的灰度特征，把图像分成背景和目标两部分。如果背景和目标之间的类间方差越大，就说明分解出来的两部分的差别也就越大。如果一部分目标被错分为背景或者一部分背景被错分为目标都会导致分解出来的目标差别变小。因此类间方差最大的时候就意味着错分的概率最小。一个好的分割，应该使得类方间差得到最大，这就是OTSU算法选择阈值的原理。因此，OTSU算法具有广泛的适用性，虽然有可能OTSU算法得到的阈值并不是最佳阈值，但是具有一定的质量保证，进行分割的效果也是比较满意的。改进最大类方间差法求双阈值:在OTSU算法中求取最佳阈值的时候需要对图像中所有灰度级求一次类间方差，然后再来比较类间方差值，取到最大的类间方差的阈值就是所求的最佳阈值。这样的运算量是相当大的。并且所求得的阈值只有一个，而Canny算子需要求的一高一低两个阈值。结合这两点提出一种新的确定双阈值的方法。首先，在一幅图像中像素的灰度值往往不是完整的由0到255，每一个灰度级的像素在不一定都会出现在一幅图像中，所以在计算最佳阈值的时候可以先对图像进行优化，把那些出现概率为0的灰度级去除掉。因为在进行图像阈值处理前，对图像中灰度出现概率为零的点去除掉了，所以这种方法极大的简化了最大类间方差法的运算量。用一个好的阈值来划分图像，那么用类间方差只表示了一种差异性，即划分后区域之间的灰度的不一致性，而一个好的阈值应该使得同一区域内像素之间的灰度值差异不大，并且还要使不同区域内的像素之间的灰度值相差很大，这样得到的阈值才是最合理的阈值。为了满足同一区域内像素之间的灰度值差异不大，而不同区域内的像素之间的灰度值相差很大，需要要求划分后的区域的类内方差很小，类间方差很大。然后对类间方差和类内方差做比值，得到的比值最大的时候就可以确定最合理的阈值。最后再结合两个阈值处理的结果得到最终的边缘。而且从理论上来说这里的高，低阈值是最优的阈值，而且是根据图像灰度自身的特点来求得的，并非人为的确定的，也避免了受到人为因素的影响，是一种自适应的阈值。

如图3所示，展示了本发明实施例的利用改进canny算子得到的边缘检测结果。我们可以看出传统Canny算法检测到的边缘信息较少,尤其是对缓变的边缘检测到的信息更少,而且边缘闭合性较差。但本实施例中不仅检测到了更加丰富的边缘信息,而且提高了边缘的闭合性。

S2.对两幅图像进行图像分割

具体的，对对每一时刻的两幅图中的两幅图像进行分割。现有技术中通常利用分水岭变换的图像分割方法。但直接的分水岭变化会产生严重的过分割现象，会使得错误区域过多，影响后面的深度图计算，所以使用了标记分水岭变换来减少过分割现象。先基于非下采样Contourlet变换来修正图像的梯度矩阵，再对修正后的梯度矩阵做标记分水岭变换，最终得到图像的分割图，这样处理既减少了分水岭变换时产生的过分割现象，又较好地保持了图像中的边缘，得到较好的分割效果，最后，在已得到的图像分割结果的基础上，基于深度密度的区域提取方法，进一步判别分割后的子区域为边缘区域、平滑区域还是纹理区域。分割后，针对分割结果，对两幅图像按照从左至右，从上到下的顺序为不同区域的每个像素赋值，标记为1、2、3、4等等。标记后，对两幅图像分别检索，先检索所有赋值为1的像素，将两幅图像检索到的像素的并集记为1号区域，同理，检索所有赋值为其他值的区域，记为各个不同的区域，直至图像上每个像素都被检索和标记过。这时，有的像素可能会同时处于两个区域，造成这种现象是因为有的像素因为视角的原因在左视图中处于前景的位置而在右视图中处于背景的位置，这部分像素就被视为物体的左遮挡点或右遮挡点。

S3.利用图像分割结果对检测到的边缘进行分类。具体地：

S31.根据图像分割结果，对不同边缘线段进行初步分类。图4为检测到的边缘线段与分割结果间的关系的示意图。其中检测到的边缘线段与分割结果间的关系有如下几种：

第一类边缘线段：经过多个分割区域的边缘线段

第二类边缘线段：只经过同一分割区域但接近分割边界的边缘线段

第三类边缘线段：只经过同一分割区域且不接近分割边界的边缘线段

第四类边缘线段：只经过同一分割区域且不接近分割边界的短边缘线段

其中边缘线段定义：将任意边缘点与八邻域内的边缘点连接，直至连接线段中所有点八邻域内不含有其他线段外边缘点。

S32.利用所述初步分类的结果，考虑实际区域的定义，找出遮挡区域和非遮挡区域。

实际边缘种类有如下几种：

a）遮挡区域与非遮挡区域间的边缘

b）同一区域内由于纹理或图案产生的边缘

c）同一区域内由于颜色跳变点或者噪声点引起的边缘

参见图5，为利用图像分割结果对检测到的边缘进行分类结果。如图所示：

经过多个分割区域的边缘线段（即第一类边缘线段）和只经过同一分割区域但接近分割边界的边缘线段（即第二类边缘线段）属于遮挡区域与非遮挡区域间的边缘。只经过同一分割区域且不接近分割边界的边缘线段（即第三类边缘线段）属于同一区域内由于纹理或图案产生的边缘。只经过同一分割区域且不接近分割边界的短边缘线段（即第四类边缘线段）属于同一区域内由于颜色跳变点或者噪声点引起的边缘。

S4.利用改进BP算法进行深度计算。

具体地，传统的BP算法是在稠密视差场的连续性假设的基础上，将一幅图像的稠密视差场抽象为一种马尔科夫场，通过置信传播将四邻域内像素的视差信息在马尔科夫图上互相传递，通过迭代计算得到最终全局最优的视差估计结果。

然而，在物体遮挡区域周围，遮挡物体与背景并没有直接联系，视差场并不能满足连续性假设，遮挡区域内的像素视差信息传递给非遮挡区域内的像素时，也就是一个错误消息的传递，会造成视差误匹配，减缓迭代的收敛速度，每次迭代的精度下降，并会影响最终的深度图结果。所以改进BP算法将对遮挡区域和非遮挡区域分别进行双向BP运算，以降低遮挡区域对BP迭代的影响。观察发现，在图像对中，遮挡区域都位于左图边缘的左边，右图边缘的右边。由于在边缘位置消息只能由非遮挡区域向遮挡区域传播，所以左图边缘位置只能向左传播，右图边缘位置只能向右传播，即

E(f)=∑D_p(f_p)+∑V(f_p-f_q)

m_{p &RightArrow; q}^{t} (f_{q}) = \min_{f_{p} &Element; Ω} (D_{p} (f_{p}) + V (f_{p} - f_{q}) + \underset{s &Element; N (p) \ q}{Σ} m_{s &RightArrow; p}^{t - 1} (f_{p}))

经过上述处理后可以大大降低遮挡区域像物体传递的错误消息的数目，可以增加迭代的速度。大大降低达到收敛所需的迭代次数，每次迭代结果也更加精确。

针对整个BP迭代的框架，加入了双向BP的内容，即具体地，参见图6，为整个BP迭代的框架。首先对左图进行图像分割和边缘检测，对边缘分类，并对初始深度图进行BP迭代计算，当迭代到i次时，利用边缘分类的结果和当前i次的数据项预测迭代计算出i+1次迭代的数据项，最后将预测出的i+1次迭代的能量函数加到i次中，作为i次迭代的能量函数。

而每次迭代的传播方式，采用PM（Perturbationmethod,小参算法）与BP（ErrorBackPropagation,误差反向传播）的混合传播方法。具体地，参见图7，为每次迭代中采用传播方式。传播方式采用BP与PM结合的方式，即每一步优化传播均在一定限制和区域内寻找把当前像素赋予目标像素数据项后整体能量函数是否会更小，如果更小的话就用目标像素数据项给当前像素赋值。寻找过程为首先寻找另一视角上与当前像素相同坐标的像素作为目标像素，然后寻找同一图像中与当前像素颜色一样的像素作为目标像素，然后寻找同一图像中与当前像素初始视差一样的像素作为目标像素。然后更新数据项，最后寻找与当前像素属于同一区域的各个像素作为目标像素。

参见图8，为提取深度图操作的最终结果。从中可以看出根据本发明的双目视频深度图求取方法得到的结果精确度较高。

本发明实施例的有益效果是：针对双目视频深度图求取过程中目前存在的在遮挡部分并不属于马尔科夫模型，若完全的马尔科夫模型进行传递会使错误消息流入置信传播的迭代网络中，对精度和速度都有很大影响问题，通过改进BP算法，在不同区域内进行单独传播；改变消息传播机制；对遮挡部分进行单独处理，使其不影响正确消息的传播，增加了迭代速度，大大提高了精度。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种双目视频深度图求取方法，其特征在于，包括以下步骤：

S1.对两幅图像进行边缘检测；

S2.对两幅图像进行图像分割；

S3.利用图像分割结果对检测到的边缘进行分类，其中，所述步骤S3进一步包括：

S31.根据图像分割结果，对不同边缘线段进行初步分类，所述对不同边缘线段初步分类包括：

第一类边缘线段：经过多个分割区域的边缘线段；

第二类边缘线段：只经过同一分割区域但接近分割边界的边缘线段；

第三类边缘线段：只经过同一分割区域且不接近分割边界的边缘线段；

第四类边缘线段：只经过同一分割区域且不接近分割边界的短边缘线段；

S32.利用所述初步分类的结果，考虑实际区域的定义，找出遮挡区域和非遮挡区域，所述初步分类结果与所述实际区域的对应关系为：

所述第一类边缘线段和所述第二类边缘线段属于遮挡区域与非遮挡区域间的边缘；

所述第三类边缘线段属于同一区域内由于纹理或图案产生的边缘；

所述第四类边缘线段属于同一区域内由于颜色跳变点或者噪声点引起的边缘；以及

S4.利用改进BP算法进行深度计算，其中，所述步骤S4包括：

对所述遮挡区域和所述非遮挡区域分别进行双向BP运算，其中所述非遮挡区域迭代采用传统迭代方式，所述遮挡区域按照遮挡程度重新定义所述遮挡区域的迭代消息值和阈值进行迭代，所述遮挡区域和所述非遮挡区域的传播过程结合了BP算法和PM算法，所述传播过程中，在边缘位置时，左图边缘位置只能向左传播，右图边缘位置只能向右传播，即：

E(f)＝ΣD_p(f_p)+ΣV(f_p-f_q)

2.如权利要求1所述的双目视频深度图求取方法，其特征在于，所述步骤S1中，利用改进的canny算子对图像进行边缘检测，其中，所述改进的canny算子为通过计算3×3邻域内的一阶偏导得到梯度幅值和方向。

3.如权利要求2所述的双目视频深度图求取方法，其特征在于，所述步骤S1进一步包括：

S11.输入图像，进行中值滤波平滑；

S12.对平滑后的所述图像进行改进梯度计算，所述改进梯度计算为计算x，y，45度以及135度由这四个方向的一阶偏导数求得水平方向上的差分，进而求得梯度幅值和梯度方向；以及

S13.通过改进的最大类间方差法进行自适应阈值检测，所述改进的最大类间方差法为在OTSU算法中求取最佳阈值的时候对图像中所有灰度级求一类间方差，然后再来比较类间方差值，取得到最大的类间方差的阈值就是所求的最佳阈值。