CN103413347B - 基于前景背景融合的单目图像深度图提取方法 - Google Patents

基于前景背景融合的单目图像深度图提取方法 Download PDF

Info

Publication number
CN103413347B
CN103413347B CN201310280435.1A CN201310280435A CN103413347B CN 103413347 B CN103413347 B CN 103413347B CN 201310280435 A CN201310280435 A CN 201310280435A CN 103413347 B CN103413347 B CN 103413347B
Authority
CN
China
Prior art keywords
depth
depth map
image
monocular image
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310280435.1A
Other languages
English (en)
Other versions
CN103413347A (zh
Inventor
刘天亮
莫一鸣
朱秀昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310280435.1A priority Critical patent/CN103413347B/zh
Publication of CN103413347A publication Critical patent/CN103413347A/zh
Application granted granted Critical
Publication of CN103413347B publication Critical patent/CN103413347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于前景背景融合的单目图像深度图提取方法,属于计算机视觉的三维图像重建领域。本发明方法包括以下步骤:步骤A、采用非参数化机器学习的方法,提取原始单目图像的前景深度图;步骤B、对原始单目图像,采用线性透视方法估计具有整体分布趋势的背景深度图;步骤C、对原始单目图像的前景深度图、背景深度图进行全局融合,得到所述原始单目图像最终的深度图。相比现有技术,本发明不需要计算相机参数,计算复杂度低,简单易行。

Description

基于前景背景融合的单目图像深度图提取方法
技术领域
本发明涉及一种单目图像深度图提取方法,属于计算机视觉的三维图像重建技术领域。
背景技术
近年来,随着社会经济的发展和科技水平的提高,3D产业迅猛发展,然而,利用立体摄像机和距离传感器捕捉三维素材成本昂贵,操作困难,而且需要耗费大量时间。因此,二维图像的三维化重建工作成为3D及图像处理领域的研究热点。二维图像指普通摄像机拍摄的单目图像,由单目图像恢复场景的深度信息,可以合成三维立体图像效果。
二维图像的三维化重建过程中最关键的步骤是实现二维图像深度图的提取。目前深度图提取算法中有不少在提取图像深度图时需要依赖图像的相机参数。但是,对于某些已有的二维图像,其相机参数的获取并不简单,甚至比较困难或不可能。因此,探索一种仅依赖二维图像的内容,而忽略其相机参数的深度图提取算法具有很大的发展前景。
斯坦福大学三维重建组首先提出利用机器学习的方法估计单目图像深度图,主要流程包括:基于过分割的图像超像素描述;超像素特征提取;马尔科夫随机场概率模型建立。该方法奠定了利用机器学习思想估计单目图像深度图的基础。随后,斯坦福大学的Liu等人利用场景语义标签,估计单目图像深度图,他们认为具有相似语义的场景具有相似的深度。最近,伊利诺伊大学的Karsch等人,使用非参数采样的方法从单目视频中提取深度信息。但以上学习方法得到的深度图边界模糊,场景位置关系并不清晰,目标深度图与真实深度图之间的差异较大。
利用几何线索估计图像深度图,可以反映图像深度的大致分布。几何线索主要包括消失线索、结构线索等。然而,单纯利用几何线索估计深度图,约束信息过少,估计深度图不能反映细节深度,只能反映深度图的大致分布趋势。
结合前景背景的深度图提取方案曾在视频深度图提取算法中被提出,依靠Structure-from-Motion(SFM)算法提取相机参数、前后帧之间的运动估计提取显著区域。近年来,利用显著度检测提取前景信息,从而实现结合前景背景的深度图提取被提出,但是这些算法大大提高了运算复杂度。另外,前景背景融合的系数仅依赖于经验值,存在较大的误差。
发明内容
本发明所要解决的技术问题在于针对单目图像深度图提取技术的不足,提供一种基于前景背景融合的单目图像深度图提取方法,避免了普通三维图像重建方法中所需的利用SFM计算相机参数的过程,更为简单实用且易于操作;并且得到的深度图边界更清晰,相对位置关系正确。
本发明基于前景背景融合的单目图像深度图提取方法,包括以下步骤:
步骤A、采用非参数化机器学习的方法,提取原始单目图像的前景深度图;
步骤B、对原始单目图像,采用线性透视方法估计具有整体分布趋势的背景深度图;
步骤C、按照以下公式对原始单目图像的前景深度图、背景深度图进行全局融合,得到所述原始单目图像最终的深度图:
Dfuse=αDf+(1-α)Db
式中,Dfuse表示融合后的深度图;Df为前景深度图;Db为背景深度图;α为范围在[0,1]的全局平衡系数,其具体取值采用以下方法预先确定:步骤1、选取一个测试样本数据库,其中每一个测试样本包括一幅单目图像及其相应的真实深度图;
步骤2、对每一个测试样本中的单目图像,分别按照步骤A、步骤B中的方法获取其前景深度图、背景深度图;并通过求解以下数学模型,得到该训练样本的最优平衡系数α:
min E ave ( α ) = 1 N Σ i = 1 N ( α D f ( i ) + ( 1 - α ) D b ( i ) - D t ( i ) ) ,
其中,Df(i)、Db(i)、Dt(i)分别表示该测试样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值,Eave代表深度估计误差平均值,N为该训练样本中的单目图像像素个数;
步骤3、根据所有测试样本中最优平衡系数的分布情况,选取出现频次最大的最优平衡系数作为全局平衡系数的取值。
优选地,对于作为输入图像的单目图像,其前景深度图具体按照以下方法提取:
步骤A1、从预先建立的训练样本数据库中搜索出与输入图像场景语义最接近的K幅单目图像,这K幅单目图像作为候选图像,与其对应的K幅深度图一起构成候选子集,K为自然数;所述训练样本数据库为一个图像-深度对数据库,包括若干对单目图像及对应的标准深度图;
步骤A2、利用SIFT流映射的方法,将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配,得到SIFT流场,进而利用SIFT流场方程得到映射方程,依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置,进行场景重排,得到K幅场景重排后的候选深度图;
步骤A3、利用K幅场景重排后的候选深度图,通过最小化非参数化采样的全局能量函数,重构出一幅新的深度图,以该深度图作为输入图像的前景深度图;所述非参数化采样的全局能量函数具体如下:
E ( D le ) = Σ i = 1 N Σ j = 1 K w j ( i ) [ φ ( D le ( i ) - ψ j C j ( i ) ) + γ ( φ ( ▿ x D le ( i ) - ▿ x ( ψ j C j ( i ) ) ) + φ ( ▿ y D le ( i ) - ▿ y ( ψ j C j ( i ) ) ) ) ]
+ Σ i = 1 N λ [ s x ( i ) φ ( ▿ x D le ( i ) ) + s y ( i ) φ ( ▿ y D le ( i ) ) ]
式中,E(Dle)表示所重构的深度图Dle的全局能量;N表示输入的单目图像中的像素个数,也表示每幅候选图像的像素个数;K为候选深度图总数,表示第j幅场景重排后的候选深度图中第i个像素的深度值的置信度权值;S(i)是输入图像中第i个像素的SIFT特征矢量;Sj(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量;ψjSj(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量;||·||2为二范数操作符,表示两个向量矩阵的直线距离,||S(i)-ψjSj(i)||2表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离;代表重构的深度图Dle中第i个像素处的水平与垂直方向的深度梯度;;Cj(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值;ψjCj(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值;为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度;φ(·)为距离度量函数,其表达式为ε=10-4;γ为权系数,取值范围为[0,50]; s x ( i ) = ( 1 + e ( | | ▿ x L ( i ) | | - 0.05 / 0.01 ) - 1 , s y ( i ) = ( 1 + e ( | | ▿ y L ( i ) | | - 0.05 / 0.01 ) - 1 , 为输入图像中第i个像素的水平梯度与垂直梯度;λ为平衡系数,取值范围为[0,200]。
进一步地,所述前景深度图的提取方法还包括:以步骤A3获得的深度图作为初始前景深度图,对其进行基于分段诱导的深度优化,具体如下:
步骤A4、对原始单目图像进行基于场景结构的图像分割,并按照原始单目图像的分割结果对原始单目图像的初始前景深度图进行同样的分割;
步骤A5、采用以下两种方式之一对初始前景深度图进行深度优化:
方式一、对分割后的初始前景深度图中的每一区域,将该区域中所有像素的深度值修改为该区域所有像素深度值的平均值;
方式二、对分割后的初始前景深度图中的每一区域,利用基于最小二乘法的平面拟合方法进行深度值的平滑。
优选地,步骤B具体包括以下子步骤:
步骤B1、利用哈夫变换检测原始单目图像中的直线段;
步骤B2、对于检测到的直线段,采用交叉点邻域聚类分析估计消失点;
步骤B3、沿着直线段的消失方向,整体渐进性地分布深度梯度,得到原始单目图像的背景深度图。
相比现有技术,本发明具有以下有益效果:
本发明采用机器学习结合线性透视的方法求解单目图像深度图,避免了借助相机参数重建三维图像中所需的SFM、捆集调整优化等计算复杂度较高的操作流程,况且,有些单目图像因为信息丢失,无法恢复相机参数。本发明所采用的机器学习方法无需摄像机参数,只需建立两个图像-深度对数据库,分别用来学习与预估全局系数;采用的线性透视方法,对背景的分类准确,可以恢复出图像深度轮廓;采用的前景背景融合技术对全局平衡系数的选择采用统计直方图的形式,具有广泛实用性。本发明中方法无需人工协助,可以实现全自动的深度图提取。
附图说明
图1为本发明基于前景背景融合的单目图像深度图提取方法的整体流程图;
图2为实施例中利用非参数化分段诱导的前景深度图提取方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明的思路是根据具有相似语义的场景具有相似的深度信息,对单目图像利用非参数化机器学习提取前景深度信息;利用单目几何信息估计背景深度整体走势;进一步融合前景背景深度得到最优深度。避免了单目图像三维重建过程中所需的复杂的相机参数估计。
本发明的基于前景背景融合的单目图像深度图提取方法,其基本流程如图1所示,包括以下步骤:
步骤A、采用非参数化机器学习的方法,提取原始单目图像的前景深度图。
利用非参数化机器学习提取单目图像深度图,可采用现有的各种方法,例如[AshutoshSaxena,MinSun,andAndrewYNg.Make3d:Learning3dscenestructurefromasinglestillimage.PatternAnalysisandMachineIntelligence,IEEETransactionson,31(5):824–840,2009.];[JanuszKonrad,MengWang,andPrakashIshwar.2d-to-3dimageconversionbylearningdepthfromexamples.InComputerVisionandPatternRecognitionWorkshops(CVPRW),2012IEEEComputerSocietyConferenceon,pages16–22.IEEE,2012.]等文献中公开的方法。本发明首先使用K-近邻搜索的方法,在训练样本数据库中搜索最优候选子集,使候选子集中的候选图像与目标图像具有相似的场景语义;接着,使用SIFT流映射的方法,逐像素地调整候选图像及对应深度图中的像素位置,进行候选子集场景重排;通过最小化非参数采样全局能量函数,获得初始前景深度图;最后,对初始前景深度图进行基于结构信息引导的深度优化,得到最终的前景深度图,其基本流程如图2所示,具体如下:
步骤A1、从预先建立的训练样本数据库中搜索出与输入图像场景语义最接近的K幅单目图像,这K幅单目图像作为候选图像,与其对应的K幅深度图一起构成候选子集,K为自然数;所述训练样本数据库为一个图像-深度对数据库,包括若干对单目图像及对应的标准深度图。
本发明中用于学习的训练样本数据库为一个图像-深度对数据库,数据库中包括若干组数据对,每对数据由一幅单目图像及一幅对应的标准深度图构成。数据库可以自已创建,也可直接采用现有的各种图像-深度对数据库,例如斯坦福大学三维重建组提供的Make3d训练数据集Train400,该数据集包括400幅训练图像及对应的400幅由3D扫描仪采集的“真实”深度图。
首先使用K-近邻搜索的方法,在训练样本数据库中搜索最优候选子集,使候选子集中的候选图像与目标图像具有相似的场景语义。K-近邻搜索是指基于某种视觉特征,搜索与目标样本最接近的K个样本,本发明优选使用的搜索特征是图像的方向梯度直方图特征,该特征对图像几何的和光学的形变都能保持很好的不变性,可以反映图像的全局语义信息。详细内容可参见[NavneetDalalandBillTriggs.Histogramsoforientedgradientsforhumandetection.InComputerVisionandPatternRecognition,2005.CVPR2005.IEEEComputerSocietyConferenceon,volume1,pages886–893.IEEE,2005.]。比较数据库中单目图像的方向梯度直方图算子与输入的目标单目图像(原始单目图像)的方向梯度直方图算子的欧氏距离,其欧氏距离H(Pn)-H(L)2最小的K幅图像及对应深度图列入候选子集。其中,H(Pn)为数据库中的第n幅图像的方向梯度直方图,H(L)为输入图像的方向梯度直方图。
步骤A2、利用SIFT流映射的方法,将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配,得到SIFT流场,进而利用SIFT流场方程得到映射方程,依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置,进行场景重排,得到K幅场景重排后的候选深度图。
本发明场景重排的目的是使重排后的候选图像与输入图像具有更相似的光学度量,则重排后的候选图像在场景语义上更接近目标图像,进而重排后的候选深度图在一定程度上接近目标深度图。
本发明场景重排时使用的映射方程通过SIFT流场方程得到。使用SIFT流[CeLiu,JennyYuen,andAntonioTorralba.Siftflow:Densecorrespondenceacrossscenesanditsapplications.PatternAnalysisandMachineIntelligence,IEEETransactionson,33(5):978–994,2011.]映射的方法,可以将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配,进而利用SIFT流场方程得到映射方程,实现稠密场景重排。
SFIT流方法步骤如下:(a)点特征的提取。对输入图像及各候选图像中的每个像素点分别提取SIFT局部描述子,各自生成128维的SIFT特征向量;(b)SIFT运动流场估计。对每一点计算SIFT描述子后,我们需要计算候选图像与输入图像之间像素点的SIFT匹配,以输入图像为基准,计算各候选图像中SIFT匹配点的运动流场W(i)=(u(i),v(i)),其中,W(i)代表第i个像素处的SIFT流矢量(两SIFT匹配点间的偏移矢量),u(i)代表第i个像素处的水平SIFT流矢量(水平偏移矢量),v(i)代表第i个像素处的垂直SIFT流矢量(垂直偏移矢量)。
其中SIFT特征提取及匹配包含四个重要步骤:生成尺度空间,检测尺度空间极值点,描述符生成,匹配SIFT特征。
给定高斯卷积核G(x,y,σ)和不同的尺度σ,对图像I(x,y)进行卷积操作得到尺度空间L(x,y,σ):
L(x,y,σ)=G(x,y,σ)*I(x,y)(1)
对尺度σ乘以不同的系数k得到不同的高斯卷积核G(x,y,kσ),根据不同高斯核生成尺度空间中的一组图像,相邻图像间尺度相差k倍。高斯差分核DoG(x,y,σ)可以得到图像中稳定的极值点:
DoG(x,y,σ)=G(x,y,kσ)-G(x,y,σ)(2)
确定特征点后需要为特征点构造具体的特征描述符。以特征点为中心,选择特征点周围16×16的邻域,在邻域中统计梯度方向直方图,形成128维的矢量,作为特征点描述符。对于输入图像中的一个SIFT特征点,候选图像中与该特征点具有最小欧式距离的SIFT特征点被判定为与其匹配的SIFT特征点。
利用SIFT流进行稠密场景配准可以具体描述如下:找到输入图像与候选图像之间SIFT特征点匹配关系后,以输入图像为基准,得到输入图像与候选图像间的SIFT流场Wj=(uj,vj),j∈{1,...,K},Wj代表第j幅候选图像与输入图像之间的SIFT流场(描述SIFT匹配点间的偏移),uj代表第j幅候选图像与输入图像之间的水平SIFT流场(水平偏移),vj代表第j幅候选图像与输入图像之间的垂直SIFT流场(垂直偏移)。为每一幅候选图像估计到输入图像的映射方程ψj,j∈{1,...,K},每个映射方程即为对应的SIFT流场方程。SIFT特征匹配时,可以是一对多的匹配方式。
步骤A3、利用K幅场景重排后的候选深度图,通过最小化非参数化采样的全局能量函数,重构出一幅新的深度图,以该深度图作为输入图像的前景深度图。
尽管K幅经过场景重排后的候选深度图分别与目标深度图相似,但各候选深度图的深度并不精确且不具有空间平滑性。本发明通过最小化非参数采样全局能量函数,获得前景深度图,本发明所定义的全局能量函数的数学模型如下:
E ( D le ) = Σ i = 1 N Σ j = 1 K w j ( i ) [ φ ( D le ( i ) - ψ j C j ( i ) ) + γ ( φ ( ▿ x D le ( i ) - ▿ x ( ψ j C j ( i ) ) ) + φ ( ▿ y D le ( i ) - ▿ y ( ψ j C j ( i ) ) ) ) ] (3)
+ Σ i = 1 N λ [ s x ( i ) φ ( ▿ x D le ( i ) ) + s y ( i ) φ ( ▿ y D le ( i ) ) ]
式中,E(Dle)表示所重构的深度图Dle的全局能量;N表示输入的单目图像中的像素个数,也表示每幅候选图像的像素个数;K为候选深度图总数,,表示第j幅场景重排后的候选深度图中第i个像素的深度值的置信度权值;S(i)是输入图像中第i个像素的SIFT特征矢量;Sj(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量;ψjSj(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量;||·||2为二范数操作符,表示两个向量矩阵的直线距离,||S(i)-ψjSj(i)||2表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离;Cj(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值;代表重构的深度图Dle中第i个像素处的水平与垂直方向的深度梯度;ψjCj(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值;为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度;φ(·)为距离度量函数,其表达式为ε=10-4
度量重构的深度图Dle的第i个像素的水平、垂直梯度与候选深度图相应像素的水平、垂直深度梯度之间的相似度;γ为权系数,,取值范围为[0,50],优选地,γ=10; s x ( i ) = ( 1 + e ( | | ▿ x L ( i ) | | - 0.05 / 0.01 ) - 1 , s y ( i ) = ( 1 + e ( | | ▿ y L ( i ) | | - 0.05 / 0.01 ) - 1 ; 为输入图像中第i个像素的水平梯度与垂直梯度;
构成平滑项,表示利用sigmoidal方程sx(i)和sy(i)函数,通过输入图像的水平与垂直位置的亮度梯度来约束重构的深度图Dle的水平与垂直深度梯度;λ为该平滑项的平衡系数,,取值范围为[0,200],优选地,λ=50。
以全局能量函数最小为目标对上述模型进行求解,即可重构出一幅使得全局能量E最小的深度图Dle,即为原始单目图像的前景深度图。该深度图可以直接用于后续的全局融合,为了充分利用原始单目图像的结构信息,对学习得到的相对杂乱的深度值进行约束与修订,使得到的深度图满足原始图像的结构信息,本发明又进一步地以步骤A3获得的深度图作为初始前景深度图,对其进行基于分段诱导的深度优化,具体如下:
步骤A4、对原始单目图像进行基于场景结构的图像分割,并按照原始单目图像的分割结果对原始单目图像的初始前景深度图进行同样的分割。
本具体实施方式中,基于场景结构的图像分割采用基于图模型的图像分割法,该方法具体描述如下:首先,对输入图像,构造由结点(node)和连接结点的边(edge)组成的带权无向图,vi代表第i个结点,vi∈V,(vi,vj)∈E代表连接结点vi和vj的边,结点和边的集合分别记做V和E,图记做G=(V,E),在基于图模型的图像分割法中,结点为各像素点,边为连接两像素点的边界;接着,计算各条边界(vi,vj)∈E对应的权值w(vi,vj),vi和vj分别表示第i个和第j个结点,权值计算公式为w(vi,vj)=|I(vi)-I(vj)|,其中,I(vi)和I(vj)分别表示第i个、第j个像素的亮度,反映了两个像素之间的差异程度,为非负度量;最后,进行图像分割,V被分割成独立的区域Ci,1≤i≤n,n为区域的个数,则有:其中,Ci是一个连通区域。图像分割原则是:在同一区域元素尽可能相似,在不同区域元素尽可能相异。也就是同一区域的元素之间具有较小的权重,在不同区域元素之间具有较大的权重。更详细内容可参见[PedroFFelzenszwalbandDanielPHuttenlocher.Efficientgraph-basedimagesegmentation.InternationalJournalofComputerVision,59(2):167–181,2004.]。这样,输入单目图像被分割成了若干不同区域,进而,初始前景深度图就被分割成了充分反映原始单目图像结构信息的若干不同区域。步骤A5、对初始前景深度图进行深度优化,从而利用原始单目图像的结构信息,对相对杂乱的初始前景深度图,进行约束与修订,使最终得到的前景深度图满足原始单目图像的结构信息。本发明的深度优化可以采用均值法和平面拟合法这两种方式,具体如下:均值法深度优化:对分割后的初始前景深度图中的每一区域,将该区域中所有像素的深度值修改为该区域所有像素深度值的平均值。
平面拟合法深度优化:根据平面拟合方程(4),此处(x,y)为图像中像素的二维坐标(即该像素在图像中的行值和列值),z为对应的初始深度值。
ax+by+cz+d=0,(c≠0)(4)
可以得到 z = - a c x - b c y - d c , a 0 = - a c , a 1 = - b c , a 2 = - d c , 则有z=a0x+a1y+a2,对于块内n个像素点(n≥3),(xi,yi,zi),i=1,2,...,n,其中,xi,yi,zi分别代表第i个像素点的水平坐标、垂直坐标、深度值。根据最小二乘法则,用这n个点拟合上述平面方程,则要使下式的值最小: S = Σ i = 1 n ( a 0 x i + a 1 x i + a 2 - z i ) , 要使S最小,应满足 ∂ S ∂ a k = 0 , k = 0,1,2 ,
Σ 2 ( a 0 x i + a 1 y i + a 2 - z i ) x i = 0 Σ 2 ( a 0 x i + a 1 y i + a 2 - z i ) y i = 0 Σ 2 ( a 0 x i + a 1 y i + a 2 - z i ) = 0 , a 0 Σ x i 2 + a 1 Σ x i y i + a 2 Σ x i = Σ x i z i a 0 Σ x i y i + a 1 Σ y i 2 + a 2 Σ y i = Σ y i z i a 0 Σ x i + a 1 Σ y i + a 2 n = Σ z i , 进而得到
Σ x i 2 Σ x i y i Σ x i Σ x i y i Σ y i 2 Σ y i Σ x i Σ y i n a 0 a 1 a 2 = Σ x i z i Σ y i z i Σ z i , 因此 a 0 a 1 a 2 = Σ x i 2 Σ x i y i Σ x i Σ x i y i Σ y i 2 Σ y i Σ x i Σ y i n - 1 Σ x i z i Σ y i z i Σ z i , 由上式可以解出a0、a1、a2,即得到平面拟合方程z=a0x+a1y+a2,进而对任意(x,y)坐标,可以确定每块区域内各像素位置处拟合后的深度值z=a0x+a1y+a2
比较而言,均值法更简单,而平面拟合的方法得到的深度图比均值法更精细。
步骤B、对原始单目图像,采用线性透视方法估计具有整体分布趋势的背景深度图。
采用线性透视的方法估计背景深度,包括以下步骤:
步骤1、利用哈夫变换检测输入单目图像中的直线段,详细内容可参见[AdamHerout,MarkétaDubská,andJirHavel.Reviewofhoughtransformforlinedetection.Real-TimeDetectionofLinesandGrids,pages3–16.Springer,2013.];
步骤2、对提取到的单目图像直线段,采用交叉点邻域聚类分析估计消失点,可参考文献[FrankSchmittandLutzPriese.Vanishingpointdetectionwithanintersectionpointneighborhood.InDiscreteGeometryforComputerImagery,pages132–143.Springer,2009.],进而得到水平消失线和垂直消失线;
步骤3、沿着消失方向,渐进地分布深度值,可参考文献[Yeong-KangLai,Yu-FanLai,andYing-ChangChen.Aneffectivehybriddepth-generationalgorithmfor2d-to-3dconversionin3ddisplays.JournalofDisplayTechnology,9(3):154–161,2013.]。
此处,采用线性分布的方式估计背景深度值。方法为:定义图像的左上角第一个像素位置为坐标原点,x轴沿着图像最上方水平向右,y轴沿着图像最左方垂直向下,Xvp为图像垂直消失线的水平偏移量(单位为像素),Yvp为图像水平消失线的垂直偏移量(单位为像素),H为图像高度(单位为像素),W为图像宽度(单位为像素),Dmax为最大深度值(单位为米),Dmin为最小深度值(单位为米),Db为所得背景深度图,其中,各点的深度值度量单位为米。
背景深度大致分为以下几类:(a)当只有水平消失线的时候,背景深度呈上-下型分布,深度分布法则见公式(5);(b)当只有垂直消失线,且垂直消失线靠左的时候,背景深度呈左-右分布,深度分布法则见公式(6);(c)当只有垂直消失线,且垂直消失线靠右的时候,背景深度呈右-左分布,深度分布法则见公式(7);(d)当既有水平消失线,又有垂直消失线的时候,若垂直消失线靠左,背景深度呈左上角-右下角分布,深度分布法则见公式(8);(e)当既有水平消失线,又有垂直消失线的时候,若垂直消失线靠右,背景深度呈右上角-左下角分布,深度分布法则见公式(9)。
D b = { D max 0 < y < Y vp D max - D max y - Y vp H - Y vp Y vp < y < H - - - ( 5 )
D b = { D max 0 < x < X vp D max - D max x - X vp W - X vp X vp < x < W - - - ( 6 )
D b = { D max x X vp 0 < x < X vp D max X vp < x < W - - ( 7 )
D b = { D max 0 < x < X vp , 0 < y < Y vp D max - D max H H 2 + W 2 y - Y vp H - Y vp 0 < x < X vp , Y vp < y < H D max - D max W H 2 + W 2 x - X vp W - X vp X vp < x < W , 0 < y < Y vp D max - D max H 2 + W 2 ( W x - X vp W - X vp + H y - Y vp H - Y vp ) X vp < x < W , Y vp < y < H - - - ( 8 )
D b = D max - D max W H 2 + W 2 X vp - x X VP 0 < x < X vp , 0 < y < Y vp D max - D max H 2 + W 2 ( W X vp - x X vp + H y - Y vp H - Y vp ) 0 < x < X vp , Y vp < y < H D max X vp < x < W , 0 < y < Y vp D max - D max H H 2 + H 2 y - Y vp H - Y vp X vp < x < W , Y vp < y < H - - - ( 9 )
公式(5)、(6)、(7)、(8)、(9)中,x和y分别为像素点的水平坐标和垂直坐标。步骤C、对原始单目图像的前景深度图、背景深度图进行全局融合,得到所述原始单目图像最终的深度图。
本发明使用全局平衡权重系数α,利用公式(10)对前景深度和背景深度,进行全局深度图融合。
Dfuse=αDf+(1-α)Db(10)
其中,Df为前景深度图,Db为背景深度图,Dfuse为融合后的深度图,α为范围在[0,1]的全局平衡系数,其具体取值区间采用以下方法预先确定:
步骤1、选取一个测试样本数据库,其中每一个测试样本包括一幅单目图像及其相应的真实深度图;测试样本数据库可以自已创建,也可直接采用现有的各种图像-深度对数据库,本具体实施方式中这个测试样本数据库采用斯坦福大学三维重建组提供的Make3d测试数据集Test134,该数据集包括134幅测试图像及对应的134幅由3D扫描仪采集的“真实”深度图。
步骤2、对每一个训练样本中的单目图像,分别按照步骤A、步骤B中的方法获取其前景深度图、背景深度图;并通过求解以下数学模型,得到该训练样本的最优平衡系数α:
min E ave ( &alpha; ) = 1 N &Sigma; i = 1 N ( &alpha; D f ( i ) + ( 1 - &alpha; ) D b ( i ) - D t ( i ) ) , - - - ( 11 )
其中,Df(i)、Db(i)、Dt(i)分别表示该训练样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值,Eave代表深度估计误差平均值,N为该训练样本中的单目图像的像素个数。
步骤3、根据所有训练样本中最优平衡系数的分布情况,选取出现频次最大的最优平衡系数作为全局平衡系数的取值。本具体实施方式采用统计直方图的形式,依据最大频数,选择出适用于大多数场景的通用的全局平衡系数。
步骤D、对步骤C得到的深度图进行滤波。
由于本发明中前景深度图采用基于图像分段的引导优化,背景深度图采用线性透视的方式,两者融合得到的深度图会产生一定的块效应,为了进一步平滑融合后的深度图,本发明进一步采用滤波的方法对其进行深度平滑,本发明优选采用双边带滤波方法,最好采用文献[ChaoTianandShankarKrishnan.Acceleratedbilateralfilteringwithblockskipping.IEEESIGNALPROCESSINGLETTERS,20(5):419,2013.]中公开的加权双边带滤波器。加权双边带滤波器不仅可以保证边界平滑,还可以使深度图像的边界与输入单目图像的外观纹理边界更一致且匹配吻合。

Claims (8)

1.一种基于前景背景融合的单目图像深度图提取方法,其特征在于,包括以下步骤:
步骤A、采用非参数化机器学习的方法,提取原始单目图像的前景深度图;
步骤B、对原始单目图像,采用线性透视方法估计具有整体分布趋势的背景深度图;
具体包括以下子步骤:
步骤B1、利用哈夫变换检测原始单目图像中的直线段;
步骤B2、对于检测到的直线段,采用交叉点邻域聚类分析估计消失点;
步骤B3、沿着直线段的消失方向,整体渐进性地分布深度梯度,得到原始单目图像的背景深度图;
步骤C、按照以下公式对原始单目图像的前景深度图、背景深度图进行全局融合,得到所述原始单目图像最终的深度图:
Dfuse=αDf+(1-α)Db
式中,Dfuse表示融合后的深度图;Df为前景深度图;Db为背景深度图;α为范围在[0,1]的全局平衡系数,其具体取值采用以下方法预先确定:
步骤1、选取一个训练样本数据库,其中每一个训练样本包括一幅单目图像及其相应的真实深度图;
步骤2、对每一个训练样本中的单目图像,分别按照步骤A、步骤B中的方法获取其前景深度图、背景深度图;并通过求解以下数学模型,得到该训练样本的最优平衡系数α:
其中,Df(i)、Db(i)、Dt(i)分别表示该训练样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值,Eave(α)代表关于某一最优平衡系数α的深度估计误差平均值,N为该训练样本中的单目图像像素个数;
步骤3、根据所有训练样本中最优平衡系数的分布情况,选取出现频次最大的最优平衡系数作为全局平衡系数的取值。
2.如权利要求1所述基于前景背景融合的单目图像深度图提取方法,其特征在于,对于作为输入图像的单目图像,其前景深度图具体按照以下方法提取:
步骤A1、从预先建立的训练样本数据库中搜索出与输入图像场景语义最接近的K幅单目图像,这K幅单目图像作为候选图像,与其对应的K幅深度图一起构成候选子集,K为自然数;所述训练样本数据库为一个图像-深度对数据库,包括若干对单目图像及对应的标准深度图;
步骤A2、利用SIFT流映射的方法,将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配,得到SIFT流场,进而利用SIFT流场方程得到映射方程,依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置,进行场景图像的映射重排,得到K幅映射重排后的候选深度图;
步骤A3、利用K幅映射重排后的候选深度图,通过最小化非参数化采样的全局能量函数,重构出一幅新的深度图,以该深度图作为输入图像的前景深度图;所述最小化非参数化采样的全局能量函数具体如下:
式中,E(Dle)表示所重构的深度图Dle的全局能量;N表示输入的单目图像中的像素个数,也表示每幅候选图像的像素个数;K为候选深度图总数,表示第j幅映射重排后的候选深度图中第i个像素的深度值的置信度权值;S(i)是输入图像中第i个像素的SIFT特征矢量;Sj(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量;ψjSj(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量;||·||2为二范数操作符,表示两个向量矩阵的直线距离,||S(i)-ψjSj(i)||2表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离;代表重构的深度图Dle中第i个像素处的水平与垂直方向的深度梯度;Cj(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值;ψjCj(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值;为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度;φ(·)为距离度量函数,其表达式为ε=10-4;γ为权系数,取值范围为[0,50]; 为输入图像中第i个像素的水平梯度与垂直梯度;λ为平衡系数,取值范围为[0,200]。
3.如权利要求2所述基于前景背景融合的单目图像深度图提取方法,其特征在于,所述前景深度图的提取方法还包括:以步骤A3获得的深度图作为初始前景深度图,对其进行基于分段诱导的深度优化,具体如下:
步骤A4、对原始单目图像进行基于场景结构的图像分割,并按照原始单目图像的分割结果对原始单目图像的初始前景深度图进行同样的分割;
步骤A5、采用以下两种方式之一对初始前景深度图进行深度优化:
方式一、对分割后的初始前景深度图中的每一区域,将该区域中所有像素的深度值修改为该区域所有像素深度值的平均值;
方式二、对分割后的初始前景深度图中的每一区域,利用基于最小二乘法的平面拟合方法进行深度值的平滑。
4.如权利要求2所述基于前景背景融合的单目图像深度图提取方法,其特征在于,步骤A1中采用K-近邻搜索算法从训练样本数据库中搜索出与输入图像的场景语义最接近的K幅单目图像,搜索所使用的衡量场景语义相似度的全局特征为图像的方向梯度直方图特征,距离度量采用欧氏距离。
5.如权利要求4所述基于前景背景融合的单目图像深度图提取方法,其特征在于,K的取值范围为3~7。
6.如权利要求1所述基于前景背景融合的单目图像深度图提取方法,其特征在于,还包括:
步骤D、对步骤C得到的深度图进行滤波。
7.如权利要求6所述基于前景背景融合的单目图像深度图提取方法,其特征在于,所述滤波为双边带滤波。
8.如权利要求2所述基于前景背景融合的单目图像深度图提取方法,其特征在于,权系数γ的取值为10、平衡系数λ的取值为50。
CN201310280435.1A 2013-07-05 2013-07-05 基于前景背景融合的单目图像深度图提取方法 Active CN103413347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310280435.1A CN103413347B (zh) 2013-07-05 2013-07-05 基于前景背景融合的单目图像深度图提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310280435.1A CN103413347B (zh) 2013-07-05 2013-07-05 基于前景背景融合的单目图像深度图提取方法

Publications (2)

Publication Number Publication Date
CN103413347A CN103413347A (zh) 2013-11-27
CN103413347B true CN103413347B (zh) 2016-07-06

Family

ID=49606352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310280435.1A Active CN103413347B (zh) 2013-07-05 2013-07-05 基于前景背景融合的单目图像深度图提取方法

Country Status (1)

Country Link
CN (1) CN103413347B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593474B (zh) * 2013-11-28 2017-03-01 中国科学院自动化研究所 基于深度学习的图像检索排序方法
CN104077603B (zh) * 2014-07-14 2017-04-19 南京原觉信息科技有限公司 类地重力场环境下室外场景单目视觉空间识别方法
CN105530502B (zh) * 2014-09-28 2018-05-22 株式会社理光 根据立体相机拍摄的图像帧生成视差图的方法和装置
CN105184784B (zh) * 2015-08-28 2018-01-16 西交利物浦大学 基于运动信息的单目相机获取深度信息的方法
CN105976378B (zh) * 2016-05-10 2019-05-10 西北工业大学 基于图模型的显著性目标检测方法
CN106504191B (zh) * 2016-10-12 2019-08-23 华侨大学 基于景深图片拼接算法的3d壁画设计方法及其应用的app
CN106599805B (zh) * 2016-12-01 2019-05-21 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN106952338B (zh) * 2017-03-14 2020-08-14 网易(杭州)网络有限公司 基于深度学习的三维重建的方法、系统及可读存储介质
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107155101A (zh) * 2017-06-20 2017-09-12 万维云视(上海)数码科技有限公司 一种3d播放器使用的3d视频的生成方法及装置
CN107610218B (zh) * 2017-08-25 2020-10-23 武汉工程大学 一种面向立体结构网点三维图像重建的层面数据获取方法
CN107582001B (zh) * 2017-10-20 2020-08-11 珠海格力电器股份有限公司 洗碗机及其控制方法、装置和系统
CN109977981B (zh) * 2017-12-27 2020-11-24 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN108932734B (zh) * 2018-05-23 2021-03-09 浙江商汤科技开发有限公司 单目图像的深度恢复方法及装置、计算机设备
CN109146941A (zh) * 2018-06-04 2019-01-04 成都通甲优博科技有限责任公司 一种基于网格区域划分的深度图像优化方法及系统
WO2020058763A1 (en) * 2018-09-17 2020-03-26 Vr Emoji Limited Systems and methods for collecting data used in machine learning for object recognition
CN109461162B (zh) * 2018-12-03 2020-05-12 中国科学技术大学 图像中目标分割的方法
GB2580691B (en) * 2019-01-24 2022-07-20 Imperial College Innovations Ltd Depth estimation
CN110135382B (zh) * 2019-05-22 2021-07-27 北京华捷艾米科技有限公司 一种人体检测方法和装置
CN110930411B (zh) * 2019-11-20 2023-04-28 浙江光珀智能科技有限公司 一种基于深度相机的人体分割方法及系统
CN111447428A (zh) * 2020-03-12 2020-07-24 黄胜海 平面至立体图像的转换方法、装置、计算机可读存储介质及设备
CN111967485B (zh) * 2020-04-26 2024-01-05 中国人民解放军火箭军工程大学 一种基于概率超图学习的空地红外目标跟踪方法
CN116563638B (zh) * 2023-05-19 2023-12-05 广东石油化工学院 一种基于情景记忆的图像分类模型优化方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640809A (zh) * 2009-08-17 2010-02-03 浙江大学 一种融合运动信息与几何信息的深度提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012153513A1 (ja) * 2011-05-12 2012-11-15 パナソニック株式会社 画像生成装置、及び画像生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640809A (zh) * 2009-08-17 2010-02-03 浙江大学 一种融合运动信息与几何信息的深度提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Coloring night vision imagery for depth perception;Xiaojing Gu等;《CHINESE OPTICS LETTERS》;20090510;第7卷(第5期);第396-399页 *
超分辨率图像重建方法研究;徐忠强等;《自动化仪表》;20061120;第26卷(第11期);第1-4页 *

Also Published As

Publication number Publication date
CN103413347A (zh) 2013-11-27

Similar Documents

Publication Publication Date Title
CN103413347B (zh) 基于前景背景融合的单目图像深度图提取方法
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
Piasco et al. A survey on visual-based localization: On the benefit of heterogeneous data
CN106709568B (zh) 基于深层卷积网络的rgb-d图像的物体检测和语义分割方法
Silberman et al. Indoor segmentation and support inference from rgbd images
Aggarwal et al. Human activity recognition from 3d data: A review
Aubry et al. Painting-to-3D model alignment via discriminative visual elements
Shao et al. An interactive approach to semantic modeling of indoor scenes with an rgbd camera
Wu et al. Automatic eyeglasses removal from face images
Yang et al. Saliency detection via graph-based manifold ranking
CN107481279A (zh) 一种单目视频深度图计算方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN104850850A (zh) 一种结合形状和颜色的双目立体视觉图像特征提取方法
Sudderth et al. Depth from familiar objects: A hierarchical model for 3D scenes
CN106446890B (zh) 一种基于窗口打分和超像素分割的候选区域提取方法
Yan et al. Revisiting sparsity invariant convolution: A network for image guided depth completion
Efraty et al. Profile-based 3D-aided face recognition
AliAkbarpour et al. Fast structure from motion for sequential and wide area motion imagery
Diaz et al. Detecting dynamic objects with multi-view background subtraction
Zhang Innovation of English teaching model based on machine learning neural network and image super resolution
Zhao et al. 2d-image to 3d-range registration in urban environments via scene categorization and combination of similarity measurements
Koo et al. Recovering the 3D shape and poses of face images based on the similarity transform
CN106952301A (zh) 一种rgb‑d图像显著性计算方法
WO2023214093A1 (en) Accurate 3d body shape regression using metric and/or semantic attributes
Shao A Monocular SLAM System Based on the ORB Features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131127

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000208

Denomination of invention: Extraction method of monocular image depth map based on foreground and background fusion

Granted publication date: 20160706

License type: Common License

Record date: 20161110

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000208

Date of cancellation: 20180116

EC01 Cancellation of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131127

Assignee: Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: X2019980001257

Denomination of invention: Extraction method of monocular image depth map based on foreground and background fusion

Granted publication date: 20160706

License type: Common License

Record date: 20191224

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131127

Assignee: Jiangsu Tuoyou Information Intelligent Technology Research Institute Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2021320000043

Denomination of invention: Monocular image depth map extraction method based on Foreground Background fusion

Granted publication date: 20160706

License type: Common License

Record date: 20210616

EE01 Entry into force of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: NANJING NANYOU INSTITUTE OF INFORMATION TECHNOVATION Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2019980001257

Date of cancellation: 20220304

EC01 Cancellation of recordation of patent licensing contract