CN105069808B

CN105069808B - 基于图像分割的视频图像深度估计方法

Info

Publication number: CN105069808B
Application number: CN201510547222.XA
Authority: CN
Inventors: 刘然; 贾瑞双; 何云鹏; 高君效; 黄振伟; 邓泽坤; 曹东华; 徐苗; 许进波; 李德豪; 刘明明
Original assignee: Chongqing University; Sichuan Hongwei Technology Co Ltd
Current assignee: Chongqing University; Sichuan Hongwei Technology Co Ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2017-09-26
Anticipated expiration: 2035-08-31
Also published as: CN105069808A

Abstract

本发明公开了一种基于图像分割的视频图像深度估计方法，首先将需要进行深度估计的原始图像进行运动目标分割，同时进行图像分割得到若干个图像分割区域，并得到原始图像对应的显著图；通过显著图从图像分割区域中筛选出包含运动目标的图像分割区域，对该图像分割区域的连通域进行标记；通过显著图从原始图像的运动目标分割结果中筛选出真实运动目标区域，在图像分割区域中搜索与真实运动目标区域的连通域作为前景物体；得到原始图像的深度图，然后对每个前景物体区域内的深度值进行修正，使其连续，从而提高深度图中前景物体深度值的一致性。

Description

基于图像分割的视频图像深度估计方法

技术领域

本发明属于图像深度估计技术领域，更为具体地讲，涉及一种基于图像分割的视频图像深度估计方法。

背景技术

深度估计是从一幅或多幅图像中有效地提取深度信息，重建的深度图可以用于3D建模、虚拟视角渲染、视频编辑等多个方面。作为计算机视觉中的一个基本问题，一直以来都是研究的热点。高质量的深度图不仅要体现图像中每个点在空间对应点的正确深度，还要能准确的处理图像噪声、低纹理区域的深度以及区域遮挡问题。作为众多应用的基础，深度估计的效果在立体视觉中也起到至关重要的作用。

对于深度估计问题，目前主要针对的是静态图片(即摄像机静止，场景也静止)，静态图像的深度估计方法主要通过2D图片中的众多单目深度线索来估计其三维信息。

针对单幅静态图像的深度估计问题，一般可通过两种途径来获取图像中场景的三维信息，一种是使用先验知识进行学习，即用大量的图片来获得场景的三维结构与其图像颜色、纹理等的相关性，然后通过机器学习的方法来恢复未知图片的三维结构；另外一种是直接从各种单目线索出发，直接恢复给定图片的三维结构，这些单目线索包括：聚焦散焦、相对高度、大气散射、线性透视、阴影、遮挡、纹理等等。

虽然图像深度估计存在多种方法，但是现有方法所得到的深度图中前景物体的内部深度值存在与实际场景中物体的深度信息不符的问题，例如采用基于相对高度深度线索的深度估计方法得到的深度图中前景物体的深度值不连续，需要进行修正。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图像分割的视频图像深度估计方法，基于运动目标分割和图像分割来得到前景物体，并对前景物体区域的深度值进行修正，提高深度图中前景物体深度值的一致性。

为实现上述发明目的，本发明基于图像分割的视频图像深度估计方法，包括以下步骤：

S1：将需要进行深度估计的原始图像进行运动目标分割，得到其运动目标，将背景像素点标记为0，将各个运动目标采用不同的非0符号对其像素点进行标记，得到运动目标标记结果图；

S2：对原始图像进行图像分割，得到若干个图像分割区域；

S3：采用视觉注意算法获取原始图像对应的显著图，遍历各个像素点的显著值，如果大于预设阈值，则不作任何操作，否则将该像素点的显著值置为0，从而得到滤波后显著图；

S4：将包含滤波后显著图中显著值非0的像素点最多的图像分割区域作为运动目标区域，对该图像分割区域的各个连通域采用不同符号进行标记，得到图像分割区域标记结果图；

S5：遍历滤波后显著图中显著值非0的像素点，如果在运动目标标记结果图中对应像素点的标记值非0，则该像素点对应的运动目标区域为真实运动目标区域，否则不为真实运动目标区域；在图像分割区域标记结果图中搜索与真实运动目标区域对应的连通域，作为前景物体；

S6：对原始图像进行深度估计，得到深度图；

S7：对每个前景物体区域，修正该区域中每个像素点(i,j)的深度值，得到最终深度图；深度值修正公式为：

d(i,j)′＝M+((d_max-M)/(d_max-d_min))×d(i,j)

其中，d(i,j)、d(i,j)′分别表示修正前后像素点(i,j)的深度值，d_max、d_min分别表示该前景物体区域中所有像素点的最大深度值和最小深度值，M表示预设的修正后该前景物体区域中深度值下限。

本发明基于图像分割的视频图像深度估计方法，首先将需要进行深度估计的原始图像进行运动目标分割，同时进行图像分割得到若干个图像分割区域，并得到原始图像对应的显著图；通过显著图从图像分割区域中筛选出包含运动目标的图像分割区域，对该图像分割区域的连通域进行标记；通过显著图从原始图像的运动目标分割结果中筛选出真实运动目标区域，在图像分割区域中搜索与真实运动目标区域的连通域作为前景物体；得到原始图像的深度图，然后对每个前景物体区域内的深度值进行修正，使其连续，从而提高深度图中前景物体深度值的一致性。

附图说明

图1是本发明基于图像分割的视频图像深度估计方法的流程图；

图2是结合对称差分法和联合双边滤波的运动目标分割方法的流程图；

图3是运动目标分割结果示例图；

图4是本实施例的图像分割结果图；

图5是图4中各个分割部分在原图中的还原图；

图6是滤波后显著图示例图；

图7是本实施例获取显著图的流程图；

图8是筛选得到的图像分割区域示例图；

图9是本实施例得到的前景物体示例图；

图10是基于相对高度深度线索的深度估计方法的流程图；

图11是本实施例中深度估计结果示例图；

图12是深度值修正结果示例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于图像分割的视频图像深度估计方法的流程图。如图1所示，本发明基于图像分割的视频图像深度估计方法的具体步骤包括：

S101：运动目标分割：

首先将需要进行深度估计的原始图像进行运动目标分割，得到其运动目标，将背景像素点标记为0，将各个运动目标采用不同的非0符号对其像素点进行标记，得到运动目标标记结果图。

运动目标分割作为多媒体技术应用的一个关键技术，在视频编码、检索、多媒体交互等应用中有着广泛应用，而且在计算机视觉中也有着极为重要的应用。在不使用任何模型的运动目标分割算法中，最常用的为背景差分，光流法和时域差分法，可以根据实际需要来先用具体的运动目标分割算法。

本实施例中选用结合对称差分法和联合双边滤波的运动目标分割方法，该方法属于时空分割结合的方法，它不仅利用视频图像的时域信息还利用空间信息，利用时域信息检测出运动目标，利用空间信息来修正和增强时域分割结果，其详细内容可以参见“四川虹微技术有限公司，重庆大学.一种背景静止的运动目标分割方法.中国专利，CN103514610A，20140115”。图2是结合对称差分法和联合双边滤波的运动目标分割方法的流程图。如图2所示，结合对称差分法和联合双边滤波的运动目标分割方法的具体步骤包括：

S201：对称差分：

对称差分是利用原始图像及其前后一帧图像的时域信息检测出原始图像的运动目标，其具体方法是：首先对原始图像分别与其前后帧图像进行差分，得到两幅包括运动目标区域的差分图，然后将两幅差分图合并，得到对称差分图。然后将对称差分图中大于0的值通过直方图规定化匹配到155-255上，来增加对称差分图中0与其他值的对比度，方便后续联合双边滤波的处理。

S202：联合双边滤波：

虽然对称差分法是一种鲁棒性很强的运动目标检测算法，但是它很难提取到完整的运动信息，还需要进一步的后续处理。一般的，区域融合(regional integration)或分水岭算法(watershed algorithm)被用来进行对称差分法的后处理。本实施例中使用联合双边滤波来代替区域融合或分水岭算法来填充对称差分法获得的不完整运动目标。其具体方法为：采用不同的滤波模板对经直方图规定化后的对称差分图进行联合双边滤波，将滤波后结果进行线性相加，得到运动目标图。联合双边滤波是一种常用的图像处理方法，其具体过程在此不再赘述。

S203：Canny边缘检测：

因Canny边缘检测具有信噪比大和检测精度高的优点，本实施例采用Canny边缘检测算法进行边缘检测。为获得更完整的运动目标边缘，先分别对原始图像的灰度图及运动目标图提取边缘，然后将灰度图和运动目标图的边缘使用2×2模板窗膨胀后，然后通过取并值联合在一起得到最终的边缘图。

S204：去除边缘扩散部分：

该步骤的基本思想是将得到的边缘图作为区分运动目标和背景的边界。先将步骤S203得到的边缘图叠加到步骤S202得到的运动目标图上，在运动目标图上标记出边缘，然后对叠加后的运动目标图从上到下、从左到右进行扫描，当碰到标记的边缘时，对其上下左右四个方向进行搜索：在搜索时，遇到0即停止搜索，并将经过此搜索路径的像素值赋值为0；或者遇到新边缘标记点时停止搜索，经过此搜索路径的像素值保持不变；搜索赋值完毕后，继续扫描，碰到标记的边缘进行相同的搜索赋值，直到所有的像素点扫描完毕，扫描搜索赋值完毕后运动目标图像中非0像素点构成的图像即为分割出来的运动目标。

经过以上处理后，可能仍有部分扩散的边缘未被消除，因此通过形态学开操作(模板为2×2)可以去掉边角及细长的背景，从而得到运动目标分割图

然后调用Matlab自带的bwlabel对分割的图像进行标记，这一函数将图像中不同的闭合区域标记为不同的数字，同一闭合区域标记为同一个数字，背景像素全部标记为0，以便以后续利用标记进行图像处理。

图3是运动目标分割结果示例图。如图3所示，本实施例中采用Ballet序列中的第1帧图像进行深度估计，即作为原始图像，将Ballet序列中的第2帧图像作为前一帧图像，第3帧图像作为后一帧图像。从图3可以看出，单纯采用运动目标分割还不能得到准确的前景物体。

S102：图像分割：

对原始图像进行图像分割，得到若干个图像分割区域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程，它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。

本实施例中选用Gunhee Kim,Eric P.Xing,Li Fei-Fei,Takeo Kanade提出了一种基于各向异性扩散模优化的图像分割法，这一分割方法参照了基于各向异性热量扩散的温度最大化模型，也就是在一个系统中如何放置K个热源可以使系统温度达到最大，类比到图像分割中，就是要找到K个分割中心，使得一个图中每个像素点的分割置信度最大化。通过大量实验表明，该算法具有较好的分割性能，并且这一方法可以自动的选择分割中心个数K。该算法的详细过程请参见文献“Gunhee,K.,et al.Distributed cosegmentation viasubmodular optimization on anisotropic diffusion.in Computer Vision(ICCV),2011 IEEE International Conference on.2011.”本实施例中当K＝4时，分割效果较好。图4是本实施例的图像分割结果图。图5是图4中各个分割部分在原图中的还原图。从图4和图5可以看出，本实施例中将图像划分为地板、左侧墙壁、右侧墙壁、人物(前景物体)4个区域。

S103：获取显著图：

对于步骤S101和步骤S102中分割得到的区域，还需要通过显著图来进行前景物体判定。因此需要采用视觉注意算法获取原始图像对应的显著图。视觉注意算法用于获取图像中人们感兴趣的内容，并在显著图中标记出来：人们越感兴趣的区域或物体，赋值越大；反之，人们不感兴趣的区域或物体赋给小的灰度值或0值。依据这一原理，本发明设置了一个显著值的阈值作为感兴趣区域选取的依据，该阈值可以根据实际情况设置，本实施例中设置为120。遍历显著图中各个像素点的显著值，如果大于预设阈值，则不作任何操作，否则将该像素点的显著值置为0，该操作相当是对从而得到滤波后显著图。这样就能得到图像中人们相对感兴趣的部分。图6是滤波后显著图示例图。如图6所示，本实施例通过阈值滤波后，得到的感兴趣区域较小，都集中在前景物体上，因此可以通过滤波后的显著图来进行前景物体判定。

视觉注意算法一般由计算模型来实现，在视觉注意计算模型中，用显著图来表示视觉区域的显著性，显著图不仅表达视觉区域每个位置的显著性，并且通过显著性分布来引导注意区域的选择。视觉注意计算模型可以根据实际情况来选择。本实施例中选用的是文献“Kim,J.,et al.2D-to-3D conversion by using visual attention analysis.inStereoscopic Displays and Applications XXI,January 18,2010-January 20,2010.2010.San Jose,CA,United states:SPIE.”所提出的计算模型。

图7是本实施例获取显著图的流程图。如图7所示，本实施例中所采用计算模型主要包含5步：颜色空间转换模块将单目图像从其他颜色空间(如RGB颜色空间)转换到YCbCr颜色空间；矩形金字塔模块用于对图像进行下采样以获得分层图像；局部距离计算模块用于计算分层得到的图像各个分量中当前块与周围块的差异(如均值，方差，偏度)；多尺度融合模块将局部距离计算模块得到的差异度图进行上采样，直到其分辨率与输入图像一致，然后将各层的差异度图融合为显著图；联合双边滤波模块对初始显著图进行滤波，消除其毛刺和噪声，并平滑物体内部的差异，同时也将保留物体的边缘，得到显著图。

S104：筛选图像分割区域：

将包含滤波后显著图中显著值非0的像素点最多的图像分割区域作为包含运动目标区域，对该图像分割区域的各个连通域采用不同符号进行标记，得到图像分割区域标记结果图。图8是筛选得到的图像分割区域示例图。如图8所示，通过使用滤波后显著图可以准确地筛选得到包含运动目标区域的图像分割区域。

S105：确定前景物体：

遍历滤波后显著图中显著值非0的像素点，如果在运动目标标记结果图中对应像素点的标记值也非0，则该像素点对应的运动目标区域为真实运动目标区域，否则不为真实运动目标区域；在图像分割区域标记结果图中搜索真实运动目标区域对应的连通域，作为前景物体。图9是本实施例得到的前景物体示例图。如图9所示，采用本发明判定得到的前景物体是符合实际的。

S106：深度估计：

对原始图像进行深度估计，得到深度图。初始深度估计的具体算法可以根据需要进行选择，本实施例中采用的是基于相对高度深度线索的深度估计方法。图10是基于相对高度深度线索的深度估计方法的流程图。如图10所示，基于相对高度深度线索的深度估计方法的具体步骤包括：

S1001：获取初始深度图：

将原始图像转为灰度图，对灰度图进行边缘检测得到相应的边缘图。然后使用霍夫变换(hough transform)检测直线的交点位置，判断出图像场景：左近右远、右近左远和下近上远；对于霍夫变换未判断出的场景，则为下近上远场景。然后根据选定的场景，选择相应的模板进行深度估计，得到初始深度图：

若是下近上远模板，线轨迹追踪是在给定约束的条件下得到水平的不交叉的线轨迹图，根据线轨迹图及下近上远的顺序进行深度赋值；若是左近右远模板，线轨迹追踪是在给定约束的条件下得到垂直的不交叉的线轨迹图，根据线轨迹图及左近右远的顺序进行深度赋值；若是右近左远模板，线轨迹追踪是在给定约束的条件下得到垂直的不交叉的线轨迹图，根据线轨迹图及右近左远的顺序进行深度赋值。

S1002：联合双边滤波：

对初始深度图进行联合双边滤波，滤除毛刺和噪声，得到滤波后深度图。

S1003：生成显著图：

步骤S1001得到的深度图虽然基本消除了毛刺，物体内部也更加平滑，但对于人们感兴趣的部分深度值并不一致。本发明将视觉注意机制(visual attention analysis)的显著图叠加到深度图上，用于改善此类情况。因此采用视觉注意算法获取原始图像对应的显著图，进行联合双边滤波得到滤波后显著图。

S1004：判断是否需要将显著图叠加到深度图，如果是，进入步骤S1005，否则将步骤S1002得到的滤波后深度图作为原始图像的深度图，深度估计结束。判断方法为：

如果步骤S1001中霍夫变换判断结果为下近上远场景，显著图中显著性最大区域位于图片顶部，则不叠加显著图，否则需要叠加；

如果步骤S1001中霍夫变换判断结果为左近右远场景，显著图中显著性最大区域位于图片右边，则不叠加显著图，否则需要叠加；

如果步骤S1001中霍夫变换判断结果为右近左远场景，显著图中显著性最大区域位于图片左部，则不叠加显著图，否则需要叠加。

S1005：显著图叠加到深度图：

先将显著图和滤波后的深度图中的值归一化到0～255，然后进行叠加，叠加公式为：

D_f＝αS+βD_l+255

其中D_f表示叠加后的深度图，α为预设的显著图权重，S表示滤波后显著图，β为预设的深度图的权重，D_l为滤波后深度图，加上255是为了在归一化时限制最大值和最小值之差的大小。

叠加完成后将叠加后深度图中的值归一化到0～255，得到原始图像的深度图。

图11是本实施例中深度估计结果示例图。如图11所示，其背景信息的深度值基本一致，而深度图的前景物体内部深度值不连续，且深度值较小，与实际场景中物体的深度信息不符。因而为了更好的表达物体之间的深度信息，需要对前景物体的深度值进行修正。

S107：深度值修正：

对每个前景物体区域，修正该区域中每个像素点(i,j)的深度值，得到最终深度图。通过实验可以得出，将各个前景物体的深度值变化到[M,d_max]这一范围时，深度值修正效果比较好。深度值修正公式为：

d(i,j)′＝M+((d_max-M)/(d_max-d_min))×d(i,j)

其中，d(i,j)、d(i,j)′分别表示修正前后像素点(i,j)的深度值，d_max、d_min分别表示该前景物体区域中所有像素点的最大深度值和最小深度值。经过实验发现，M＝d_max-50时修正效果较好。

图12是深度值修正结果示例图。从主观上来看，图12所示的深度值很大程度上改善了图11所示深度图中物体内部深度值不连续、与实际场景中物体的深度信息不符的现象，所得到的深度信息与实际情况符合。

从客观上来看，将图11所示深度图与标准深度图求PSNR(Peak Signal to NoiseRatio，峰值信噪比)，求得的结果为10.8076，将图12所示深度图与标准深度图求得的PSNR值为11.0562。由此可见，运用本发明所提出的基于图像分割的视频序列图像深度估计方法所求得的深度图更趋近于标准深度图。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于图像分割的视频图像深度估计方法，其特征在于，包括以下步骤：

S2：对原始图像进行图像分割，得到若干个图像分割区域；

S4：将包含滤波后显著图中显著值非0的像素点的图像分割区域作为运动目标区域，对该图像分割区域的各个连通域采用不同符号进行标记，得到图像分割区域标记结果图；

S6：对原始图像进行深度估计，得到深度图；

d(i,j)′＝M+((d_max-M)/(d_max-d_min))×d(i,j)

其中，d(i,j)、d(i,j)′分别表示修正前后像素点(i,j)的深度值，d_max、d_min分别表示该前景物体区域中所有像素点的最大深度值和最小深度值，M表示预设的修正后该前景物体区域中尝试值下限。

2.根据权利要求1所述的视频图像深度估计方法，其特征在于，所述步骤S1中运动目标分割的具体方法包括以下步骤：

S1.1：首先对原始图像分别与其前后帧图像进行差分，得到两幅包括运动目标区域的差分图，然后将两幅差分图合并，得到对称差分图，然后将对称差分图中大于0的值通过直方图规定化匹配到155-255上；

S1.2：采用不同的滤波模板对经直方图规定化后的对称差分图进行联合双边滤波，将滤波后结果进行线性相加，得到运动目标图；

S1.3：分别对原始图像的灰度图及运动目标图提取边缘，然后将灰度图和运动目标图的边缘使用2×2模板窗膨胀后，然后通过取并值联合在一起得到最终的边缘图；

S1.4：将步骤S1.3得到的边缘图叠加到步骤S1.2得到的运动目标图上，在运动目标图上标记出边缘，然后对叠加后的运动目标图从上到下、从左到右进行扫描，当碰到标记的边缘时，对其上下左右四个方向进行搜索：在搜索时，遇到0即停止搜索，并将经过此搜索路径的像素值赋值为0；或者遇到新边缘标记点时停止搜索，经过此搜索路径的像素值保持不变；搜索赋值完毕后，继续扫描，碰到标记的边缘进行相同的搜索赋值，直到所有的像素点扫描完毕，扫描搜索赋值完毕后运动目标图像中非0像素点构成的图像即为分割出来的运动目标；然后进行形态学开操作，得到运动目标分割图。

3.根据权利要求1所述的视频图像深度估计方法，其特征在于，所述步骤S2中图像分割方法采用基于各向异性扩散模优化的图像分割法。

4.根据权利要求1所述的视频图像深度估计方法，其特征在于，所述步骤S6中深度估计包括以下步骤：

S6.1：将原始图像转为灰度图，对灰度图进行边缘检测得到相应的边缘图；然后使用霍夫变换检测直线的交点位置，判断出图像场景：左近右远、右近左远和下近上远；对于霍夫变换未判断出的场景，则为下近上远场景；然后根据选定的场景，选择相应的模板进行深度估计，得到初始深度图：

若是下近上远模板，线轨迹追踪是在给定约束的条件下得到水平的不交叉的线轨迹图，根据线轨迹图及下近上远的顺序进行深度赋值；若是左近右远模板，线轨迹追踪是在给定约束的条件下得到垂直的不交叉的线轨迹图，根据线轨迹图及左近右远的顺序进行深度赋值；若是右近左远模板，线轨迹追踪是在给定约束的条件下得到垂直的不交叉的线轨迹图，根据线轨迹图及右近左远的顺序进行深度赋值；

S6.2：对初始深度图进行联合双边滤波，得到滤波后深度图；

S6.3：采用视觉注意算法获取原始图像对应的显著图，进行联合双边滤波得到滤波后显著图；

S6.4：判断是否需要将显著图叠加到深度图，如果是，进入步骤S6.5，否则将步骤S6.2得到的滤波后深度图作为原始图像的深度图，深度估计结束；判断方法为：

如果步骤S6.1中霍夫变换判断结果为下近上远场景，显著图中显著性最大区域位于图片顶部，则不叠加显著图，否则需要叠加；

如果步骤S6.1中霍夫变换判断结果为左近右远场景，显著图中显著性最大区域位于图片右边，则不叠加显著图，否则需要叠加；

如果步骤S6.1中霍夫变换判断结果为右近左远场景，显著图中显著性最大区域位于图片左部，则不叠加显著图，否则需要叠加；

S6.5：先将显著图和滤波后的深度图中的值归一化到0～255，然后进行叠加，叠加公式为：

D_f＝αS+βD_l+255

其中D_f表示叠加后的深度图，α为预设的显著图权重，S表示滤波后显著图，β为预设的深度图的权重，D_l为滤波后深度图；

5.根据权利要求1所述的视频图像深度估计方法，其特征在于，所述步骤S7中M＝d_max-50。