CN103413347B

CN103413347B - 基于前景背景融合的单目图像深度图提取方法

Info

Publication number: CN103413347B
Application number: CN201310280435.1A
Authority: CN
Inventors: 刘天亮; 莫一鸣; 朱秀昌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2016-07-06
Anticipated expiration: 2033-07-05
Also published as: CN103413347A

Abstract

本发明公开了一种基于前景背景融合的单目图像深度图提取方法，属于计算机视觉的三维图像重建领域。本发明方法包括以下步骤：步骤A、采用非参数化机器学习的方法，提取原始单目图像的前景深度图；步骤B、对原始单目图像，采用线性透视方法估计具有整体分布趋势的背景深度图；步骤C、对原始单目图像的前景深度图、背景深度图进行全局融合，得到所述原始单目图像最终的深度图。相比现有技术，本发明不需要计算相机参数，计算复杂度低，简单易行。

Description

基于前景背景融合的单目图像深度图提取方法

技术领域

本发明涉及一种单目图像深度图提取方法，属于计算机视觉的三维图像重建技术领域。

背景技术

近年来，随着社会经济的发展和科技水平的提高，3D产业迅猛发展，然而，利用立体摄像机和距离传感器捕捉三维素材成本昂贵，操作困难，而且需要耗费大量时间。因此，二维图像的三维化重建工作成为3D及图像处理领域的研究热点。二维图像指普通摄像机拍摄的单目图像，由单目图像恢复场景的深度信息，可以合成三维立体图像效果。

二维图像的三维化重建过程中最关键的步骤是实现二维图像深度图的提取。目前深度图提取算法中有不少在提取图像深度图时需要依赖图像的相机参数。但是，对于某些已有的二维图像，其相机参数的获取并不简单，甚至比较困难或不可能。因此，探索一种仅依赖二维图像的内容，而忽略其相机参数的深度图提取算法具有很大的发展前景。

斯坦福大学三维重建组首先提出利用机器学习的方法估计单目图像深度图，主要流程包括：基于过分割的图像超像素描述；超像素特征提取；马尔科夫随机场概率模型建立。该方法奠定了利用机器学习思想估计单目图像深度图的基础。随后，斯坦福大学的Liu等人利用场景语义标签，估计单目图像深度图，他们认为具有相似语义的场景具有相似的深度。最近，伊利诺伊大学的Karsch等人，使用非参数采样的方法从单目视频中提取深度信息。但以上学习方法得到的深度图边界模糊，场景位置关系并不清晰，目标深度图与真实深度图之间的差异较大。

利用几何线索估计图像深度图，可以反映图像深度的大致分布。几何线索主要包括消失线索、结构线索等。然而，单纯利用几何线索估计深度图，约束信息过少，估计深度图不能反映细节深度，只能反映深度图的大致分布趋势。

结合前景背景的深度图提取方案曾在视频深度图提取算法中被提出，依靠Structure-from-Motion（SFM）算法提取相机参数、前后帧之间的运动估计提取显著区域。近年来，利用显著度检测提取前景信息，从而实现结合前景背景的深度图提取被提出，但是这些算法大大提高了运算复杂度。另外，前景背景融合的系数仅依赖于经验值，存在较大的误差。

发明内容

本发明所要解决的技术问题在于针对单目图像深度图提取技术的不足，提供一种基于前景背景融合的单目图像深度图提取方法，避免了普通三维图像重建方法中所需的利用SFM计算相机参数的过程，更为简单实用且易于操作；并且得到的深度图边界更清晰，相对位置关系正确。

本发明基于前景背景融合的单目图像深度图提取方法，包括以下步骤：

步骤A、采用非参数化机器学习的方法，提取原始单目图像的前景深度图；

步骤B、对原始单目图像，采用线性透视方法估计具有整体分布趋势的背景深度图；

步骤C、按照以下公式对原始单目图像的前景深度图、背景深度图进行全局融合，得到所述原始单目图像最终的深度图：

D_fuse=αD_f+(1-α)D_b，

式中，D_fuse表示融合后的深度图；D_f为前景深度图；D_b为背景深度图；α为范围在[0，1]的全局平衡系数，其具体取值采用以下方法预先确定：步骤1、选取一个测试样本数据库，其中每一个测试样本包括一幅单目图像及其相应的真实深度图；

步骤2、对每一个测试样本中的单目图像，分别按照步骤A、步骤B中的方法获取其前景深度图、背景深度图；并通过求解以下数学模型，得到该训练样本的最优平衡系数α：

\min E_{ave} (α) = \frac{1}{N} Σ_{i = 1}^{N} (α D_{f} (i) + (1 - α) D_{b} (i) - D_{t} (i)),

其中，D_f(i)、D_b(i)、D_t(i)分别表示该测试样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值，E_ave代表深度估计误差平均值，N为该训练样本中的单目图像像素个数；

步骤3、根据所有测试样本中最优平衡系数的分布情况，选取出现频次最大的最优平衡系数作为全局平衡系数的取值。

优选地，对于作为输入图像的单目图像，其前景深度图具体按照以下方法提取：

步骤A1、从预先建立的训练样本数据库中搜索出与输入图像场景语义最接近的K幅单目图像，这K幅单目图像作为候选图像，与其对应的K幅深度图一起构成候选子集，K为自然数；所述训练样本数据库为一个图像-深度对数据库，包括若干对单目图像及对应的标准深度图；

步骤A2、利用SIFT流映射的方法，将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配，得到SIFT流场，进而利用SIFT流场方程得到映射方程，依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置，进行场景重排，得到K幅场景重排后的候选深度图；

步骤A3、利用K幅场景重排后的候选深度图，通过最小化非参数化采样的全局能量函数，重构出一幅新的深度图，以该深度图作为输入图像的前景深度图；所述非参数化采样的全局能量函数具体如下：

E (D_{le}) = Σ_{i = 1}^{N} Σ_{j = 1}^{K} w^{j} (i) [φ (D_{le} (i) - ψ_{j} C^{j} (i)) + γ (φ ({&dtri;}_{x} D_{le} (i) - {&dtri;}_{x} (ψ_{j} C^{j} (i))) + φ ({&dtri;}_{y} D_{le} (i) - {&dtri;}_{y} (ψ_{j} C^{j} (i))))]

+ Σ_{i = 1}^{N} λ [s_{x} (i) φ ({&dtri;}_{x} D_{le} (i)) + s_{y} (i) φ ({&dtri;}_{y} D_{le} (i))]

式中，E(D_le)表示所重构的深度图D_le的全局能量；N表示输入的单目图像中的像素个数，也表示每幅候选图像的像素个数；K为候选深度图总数，表示第j幅场景重排后的候选深度图中第i个像素的深度值的置信度权值；S(i)是输入图像中第i个像素的SIFT特征矢量；S^j(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量；ψ_jS^j(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量；||·||₂为二范数操作符，表示两个向量矩阵的直线距离，||S(i)-ψ_jS^j(i)||₂表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离；和代表重构的深度图D_le中第i个像素处的水平与垂直方向的深度梯度；；C^j(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值；ψ_jC^j(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值；和为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度；φ(·)为距离度量函数，其表达式为ε=10^-4；γ为权系数，取值范围为[0,50]；

s_{x} (i) = {(1 + e^{(| | {&dtri;}_{x} L (i) | | - 0.05 / 0.01})}^{- 1},

s_{y} (i) = {(1 + e^{(| | {&dtri;}_{y} L (i) | | - 0.05 / 0.01})}^{- 1},

和为输入图像中第i个像素的水平梯度与垂直梯度；λ为平衡系数，取值范围为[0，200]。

进一步地，所述前景深度图的提取方法还包括：以步骤A3获得的深度图作为初始前景深度图，对其进行基于分段诱导的深度优化，具体如下：

步骤A4、对原始单目图像进行基于场景结构的图像分割，并按照原始单目图像的分割结果对原始单目图像的初始前景深度图进行同样的分割；

步骤A5、采用以下两种方式之一对初始前景深度图进行深度优化：

方式一、对分割后的初始前景深度图中的每一区域，将该区域中所有像素的深度值修改为该区域所有像素深度值的平均值；

方式二、对分割后的初始前景深度图中的每一区域，利用基于最小二乘法的平面拟合方法进行深度值的平滑。

优选地，步骤B具体包括以下子步骤：

步骤B1、利用哈夫变换检测原始单目图像中的直线段；

步骤B2、对于检测到的直线段，采用交叉点邻域聚类分析估计消失点；

步骤B3、沿着直线段的消失方向，整体渐进性地分布深度梯度，得到原始单目图像的背景深度图。

相比现有技术，本发明具有以下有益效果：

本发明采用机器学习结合线性透视的方法求解单目图像深度图，避免了借助相机参数重建三维图像中所需的SFM、捆集调整优化等计算复杂度较高的操作流程，况且，有些单目图像因为信息丢失，无法恢复相机参数。本发明所采用的机器学习方法无需摄像机参数，只需建立两个图像-深度对数据库，分别用来学习与预估全局系数；采用的线性透视方法，对背景的分类准确，可以恢复出图像深度轮廓；采用的前景背景融合技术对全局平衡系数的选择采用统计直方图的形式，具有广泛实用性。本发明中方法无需人工协助，可以实现全自动的深度图提取。

附图说明

图1为本发明基于前景背景融合的单目图像深度图提取方法的整体流程图；

图2为实施例中利用非参数化分段诱导的前景深度图提取方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的思路是根据具有相似语义的场景具有相似的深度信息，对单目图像利用非参数化机器学习提取前景深度信息；利用单目几何信息估计背景深度整体走势；进一步融合前景背景深度得到最优深度。避免了单目图像三维重建过程中所需的复杂的相机参数估计。

本发明的基于前景背景融合的单目图像深度图提取方法，其基本流程如图1所示，包括以下步骤：

步骤A、采用非参数化机器学习的方法，提取原始单目图像的前景深度图。

利用非参数化机器学习提取单目图像深度图，可采用现有的各种方法，例如[AshutoshSaxena,MinSun,andAndrewYNg.Make3d:Learning3dscenestructurefromasinglestillimage.PatternAnalysisandMachineIntelligence,IEEETransactionson,31(5):824–840,2009.]；[JanuszKonrad,MengWang,andPrakashIshwar.2d-to-3dimageconversionbylearningdepthfromexamples.InComputerVisionandPatternRecognitionWorkshops(CVPRW),2012IEEEComputerSocietyConferenceon,pages16–22.IEEE,2012.]等文献中公开的方法。本发明首先使用K-近邻搜索的方法，在训练样本数据库中搜索最优候选子集,使候选子集中的候选图像与目标图像具有相似的场景语义；接着，使用SIFT流映射的方法，逐像素地调整候选图像及对应深度图中的像素位置，进行候选子集场景重排；通过最小化非参数采样全局能量函数，获得初始前景深度图；最后，对初始前景深度图进行基于结构信息引导的深度优化，得到最终的前景深度图，其基本流程如图2所示，具体如下：

步骤A1、从预先建立的训练样本数据库中搜索出与输入图像场景语义最接近的K幅单目图像，这K幅单目图像作为候选图像，与其对应的K幅深度图一起构成候选子集，K为自然数；所述训练样本数据库为一个图像-深度对数据库，包括若干对单目图像及对应的标准深度图。

本发明中用于学习的训练样本数据库为一个图像-深度对数据库，数据库中包括若干组数据对，每对数据由一幅单目图像及一幅对应的标准深度图构成。数据库可以自已创建，也可直接采用现有的各种图像-深度对数据库，例如斯坦福大学三维重建组提供的Make3d训练数据集Train400，该数据集包括400幅训练图像及对应的400幅由3D扫描仪采集的“真实”深度图。

首先使用K-近邻搜索的方法，在训练样本数据库中搜索最优候选子集,使候选子集中的候选图像与目标图像具有相似的场景语义。K-近邻搜索是指基于某种视觉特征，搜索与目标样本最接近的K个样本，本发明优选使用的搜索特征是图像的方向梯度直方图特征，该特征对图像几何的和光学的形变都能保持很好的不变性，可以反映图像的全局语义信息。详细内容可参见[NavneetDalalandBillTriggs.Histogramsoforientedgradientsforhumandetection.InComputerVisionandPatternRecognition,2005.CVPR2005.IEEEComputerSocietyConferenceon,volume1,pages886–893.IEEE,2005.]。比较数据库中单目图像的方向梯度直方图算子与输入的目标单目图像（原始单目图像）的方向梯度直方图算子的欧氏距离，其欧氏距离H(Pⁿ)-H(L)₂最小的K幅图像及对应深度图列入候选子集。其中，H(Pⁿ)为数据库中的第n幅图像的方向梯度直方图，H(L)为输入图像的方向梯度直方图。

步骤A2、利用SIFT流映射的方法，将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配，得到SIFT流场，进而利用SIFT流场方程得到映射方程，依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置，进行场景重排，得到K幅场景重排后的候选深度图。

本发明场景重排的目的是使重排后的候选图像与输入图像具有更相似的光学度量，则重排后的候选图像在场景语义上更接近目标图像，进而重排后的候选深度图在一定程度上接近目标深度图。

本发明场景重排时使用的映射方程通过SIFT流场方程得到。使用SIFT流[CeLiu,JennyYuen,andAntonioTorralba.Siftflow:Densecorrespondenceacrossscenesanditsapplications.PatternAnalysisandMachineIntelligence,IEEETransactionson,33(5):978–994,2011.]映射的方法，可以将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配，进而利用SIFT流场方程得到映射方程，实现稠密场景重排。

SFIT流方法步骤如下：（a）点特征的提取。对输入图像及各候选图像中的每个像素点分别提取SIFT局部描述子，各自生成128维的SIFT特征向量；（b）SIFT运动流场估计。对每一点计算SIFT描述子后，我们需要计算候选图像与输入图像之间像素点的SIFT匹配，以输入图像为基准，计算各候选图像中SIFT匹配点的运动流场W(i)=(u(i),v(i))，其中，W(i)代表第i个像素处的SIFT流矢量（两SIFT匹配点间的偏移矢量），u(i)代表第i个像素处的水平SIFT流矢量（水平偏移矢量），v(i)代表第i个像素处的垂直SIFT流矢量（垂直偏移矢量）。

其中SIFT特征提取及匹配包含四个重要步骤：生成尺度空间，检测尺度空间极值点，描述符生成，匹配SIFT特征。

给定高斯卷积核G(x,y,σ)和不同的尺度σ，对图像I(x,y)进行卷积操作得到尺度空间L(x,y,σ)：

L(x,y,σ)=G(x,y,σ)*I(x,y)（1）

对尺度σ乘以不同的系数k得到不同的高斯卷积核G(x,y,kσ)，根据不同高斯核生成尺度空间中的一组图像，相邻图像间尺度相差k倍。高斯差分核DoG(x,y,σ)可以得到图像中稳定的极值点：

DoG(x,y,σ)=G(x,y,kσ)-G(x,y,σ)（2）

确定特征点后需要为特征点构造具体的特征描述符。以特征点为中心，选择特征点周围16×16的邻域，在邻域中统计梯度方向直方图，形成128维的矢量，作为特征点描述符。对于输入图像中的一个SIFT特征点，候选图像中与该特征点具有最小欧式距离的SIFT特征点被判定为与其匹配的SIFT特征点。

利用SIFT流进行稠密场景配准可以具体描述如下：找到输入图像与候选图像之间SIFT特征点匹配关系后，以输入图像为基准，得到输入图像与候选图像间的SIFT流场W_j=(u_j,v_j),j∈{1,...,K}，W_j代表第j幅候选图像与输入图像之间的SIFT流场（描述SIFT匹配点间的偏移），u_j代表第j幅候选图像与输入图像之间的水平SIFT流场（水平偏移），v_j代表第j幅候选图像与输入图像之间的垂直SIFT流场（垂直偏移）。为每一幅候选图像估计到输入图像的映射方程ψ_j,j∈{1,...,K}，每个映射方程即为对应的SIFT流场方程。SIFT特征匹配时，可以是一对多的匹配方式。

步骤A3、利用K幅场景重排后的候选深度图，通过最小化非参数化采样的全局能量函数，重构出一幅新的深度图，以该深度图作为输入图像的前景深度图。

尽管K幅经过场景重排后的候选深度图分别与目标深度图相似，但各候选深度图的深度并不精确且不具有空间平滑性。本发明通过最小化非参数采样全局能量函数，获得前景深度图，本发明所定义的全局能量函数的数学模型如下：

E (D_{le}) = Σ_{i = 1}^{N} Σ_{j = 1}^{K} w^{j} (i) [φ (D_{le} (i) - ψ_{j} C^{j} (i)) + γ (φ ({&dtri;}_{x} D_{le} (i) - {&dtri;}_{x} (ψ_{j} C^{j} (i))) + φ ({&dtri;}_{y} D_{le} (i) - {&dtri;}_{y} (ψ_{j} C^{j} (i))))]

（3）

+ Σ_{i = 1}^{N} λ [s_{x} (i) φ ({&dtri;}_{x} D_{le} (i)) + s_{y} (i) φ ({&dtri;}_{y} D_{le} (i))]

式中，E(D_le)表示所重构的深度图D_le的全局能量；N表示输入的单目图像中的像素个数，也表示每幅候选图像的像素个数；K为候选深度图总数，，表示第j幅场景重排后的候选深度图中第i个像素的深度值的置信度权值；S(i)是输入图像中第i个像素的SIFT特征矢量；S^j(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量；ψ_jS^j(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量；||·||₂为二范数操作符，表示两个向量矩阵的直线距离，||S(i)-ψ_jS^j(i)||₂表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离；C^j(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值；和代表重构的深度图D_le中第i个像素处的水平与垂直方向的深度梯度；ψ_jC^j(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值；为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度；φ(·)为距离度量函数，其表达式为ε=10^-4；

度量重构的深度图D_le的第i个像素的水平、垂直梯度与候选深度图相应像素的水平、垂直深度梯度之间的相似度；γ为权系数，，取值范围为[0,50]，优选地，γ=10；

s_{x} (i) = {(1 + e^{(| | {&dtri;}_{x} L (i) | | - 0.05 / 0.01})}^{- 1},

s_{y} (i) = {(1 + e^{(| | {&dtri;}_{y} L (i) | | - 0.05 / 0.01})}^{- 1};

和为输入图像中第i个像素的水平梯度与垂直梯度；

构成平滑项，表示利用sigmoidal方程s_x(i)和s_y(i)函数，通过输入图像的水平与垂直位置的亮度梯度来约束重构的深度图D_le的水平与垂直深度梯度；λ为该平滑项的平衡系数，，取值范围为[0,200]，优选地，λ=50。

以全局能量函数最小为目标对上述模型进行求解，即可重构出一幅使得全局能量E最小的深度图D_le，即为原始单目图像的前景深度图。该深度图可以直接用于后续的全局融合，为了充分利用原始单目图像的结构信息，对学习得到的相对杂乱的深度值进行约束与修订，使得到的深度图满足原始图像的结构信息，本发明又进一步地以步骤A3获得的深度图作为初始前景深度图，对其进行基于分段诱导的深度优化，具体如下：

步骤A4、对原始单目图像进行基于场景结构的图像分割，并按照原始单目图像的分割结果对原始单目图像的初始前景深度图进行同样的分割。

本具体实施方式中，基于场景结构的图像分割采用基于图模型的图像分割法，该方法具体描述如下：首先，对输入图像，构造由结点（node）和连接结点的边（edge）组成的带权无向图，v_i代表第i个结点，v_i∈V,(v_i,v_j)∈E代表连接结点v_i和v_j的边，结点和边的集合分别记做V和E，图记做G=(V,E)，在基于图模型的图像分割法中，结点为各像素点，边为连接两像素点的边界；接着，计算各条边界(v_i,v_j)∈E对应的权值w(v_i,v_j)，v_i和v_j分别表示第i个和第j个结点，权值计算公式为w(v_i,v_j)=|I(v_i)-I(v_j)|，其中，I(v_i)和I(v_j)分别表示第i个、第j个像素的亮度，反映了两个像素之间的差异程度，为非负度量；最后，进行图像分割，V被分割成独立的区域C_i,1≤i≤n，n为区域的个数，则有：其中，C_i是一个连通区域。图像分割原则是：在同一区域元素尽可能相似，在不同区域元素尽可能相异。也就是同一区域的元素之间具有较小的权重，在不同区域元素之间具有较大的权重。更详细内容可参见[PedroFFelzenszwalbandDanielPHuttenlocher.Efficientgraph-basedimagesegmentation.InternationalJournalofComputerVision,59(2):167–181,2004.]。这样，输入单目图像被分割成了若干不同区域，进而，初始前景深度图就被分割成了充分反映原始单目图像结构信息的若干不同区域。步骤A5、对初始前景深度图进行深度优化，从而利用原始单目图像的结构信息，对相对杂乱的初始前景深度图，进行约束与修订，使最终得到的前景深度图满足原始单目图像的结构信息。本发明的深度优化可以采用均值法和平面拟合法这两种方式，具体如下：均值法深度优化：对分割后的初始前景深度图中的每一区域，将该区域中所有像素的深度值修改为该区域所有像素深度值的平均值。

平面拟合法深度优化：根据平面拟合方程（4），此处(x,y)为图像中像素的二维坐标（即该像素在图像中的行值和列值），z为对应的初始深度值。

ax+by+cz+d=0,(c≠0)（4）

可以得到

z = - \frac{a}{c} x - \frac{b}{c} y - \frac{d}{c},

令

a_{0} = - \frac{a}{c}, a_{1} = - \frac{b}{c}, a_{2} = - \frac{d}{c},

则有z=a₀x+a₁y+a₂，对于块内n个像素点(n≥3)，(x_i,y_i,z_i),i=1,2,...,n,其中，x_i,y_i,z_i分别代表第i个像素点的水平坐标、垂直坐标、深度值。根据最小二乘法则，用这n个点拟合上述平面方程，则要使下式的值最小：

S = Σ_{i = 1}^{n} (a_{0} x_{i} + a_{1} x_{i} + a_{2} - z_{i}),

要使S最小，应满足

\frac{&PartialD; S}{{&PartialD; a}_{k}} = 0, k = 0,1,2,

即

\{\begin{matrix} Σ 2 (a_{0} x_{i} + a_{1} y_{i} + a_{2} - z_{i}) x_{i} = 0 \\ Σ 2 (a_{0} x_{i} + a_{1} y_{i} + a_{2} - z_{i}) y_{i} = 0 \\ Σ 2 (a_{0} x_{i} + a_{1} y_{i} + a_{2} - z_{i}) = 0 \end{matrix},

\{\begin{matrix} a_{0} Σ x_{i}^{2} + a_{1} Σ x_{i} y_{i} + a_{2} Σ x_{i} = Σ x_{i} z_{i} \\ a_{0} Σ x_{i} y_{i} + a_{1} Σ y_{i}^{2} + a_{2} Σ y_{i} = Σ y_{i} z_{i} \\ a_{0} Σ x_{i} + a_{1} Σ y_{i} + a_{2} n = Σ z_{i} \end{matrix},

进而得到

(\begin{matrix} Σ x_{i}^{2} & Σ x_{i} y_{i} & Σ x_{i} \\ Σ x_{i} y_{i} & Σ y_{i}^{2} & Σ y_{i} \\ Σ x_{i} & Σ y_{i} & n \end{matrix}) (\begin{matrix} a_{0} \\ a_{1} \\ a_{2} \end{matrix}) = (\begin{matrix} Σ x_{i} z_{i} \\ Σ y_{i} z_{i} \\ Σ z_{i} \end{matrix}),

因此

(\begin{matrix} a_{0} \\ a_{1} \\ a_{2} \end{matrix}) = {(\begin{matrix} Σ x_{i}^{2} & Σ x_{i} y_{i} & Σ x_{i} \\ Σ x_{i} y_{i} & Σ y_{i}^{2} & Σ y_{i} \\ Σ x_{i} & Σ y_{i} & n \end{matrix})}^{- 1} (\begin{matrix} Σ x_{i} z_{i} \\ Σ y_{i} z_{i} \\ Σ z_{i} \end{matrix}),

由上式可以解出a₀、a₁、a₂，即得到平面拟合方程z=a₀x+a₁y+a₂，进而对任意(x,y)坐标，可以确定每块区域内各像素位置处拟合后的深度值z=a₀x+a₁y+a₂。

比较而言，均值法更简单，而平面拟合的方法得到的深度图比均值法更精细。

步骤B、对原始单目图像，采用线性透视方法估计具有整体分布趋势的背景深度图。

采用线性透视的方法估计背景深度，包括以下步骤：

步骤1、利用哈夫变换检测输入单目图像中的直线段，详细内容可参见[AdamHerout,MarkétaDubská,andJirHavel.Reviewofhoughtransformforlinedetection.Real-TimeDetectionofLinesandGrids,pages3–16.Springer,2013.]；

步骤2、对提取到的单目图像直线段，采用交叉点邻域聚类分析估计消失点，可参考文献[FrankSchmittandLutzPriese.Vanishingpointdetectionwithanintersectionpointneighborhood.InDiscreteGeometryforComputerImagery,pages132–143.Springer,2009.]，进而得到水平消失线和垂直消失线；

步骤3、沿着消失方向，渐进地分布深度值，可参考文献[Yeong-KangLai,Yu-FanLai,andYing-ChangChen.Aneffectivehybriddepth-generationalgorithmfor2d-to-3dconversionin3ddisplays.JournalofDisplayTechnology,9(3):154–161,2013.]。

此处，采用线性分布的方式估计背景深度值。方法为：定义图像的左上角第一个像素位置为坐标原点，x轴沿着图像最上方水平向右，y轴沿着图像最左方垂直向下，X_vp为图像垂直消失线的水平偏移量（单位为像素），Y_vp为图像水平消失线的垂直偏移量（单位为像素），H为图像高度（单位为像素），W为图像宽度（单位为像素），D_max为最大深度值（单位为米），D_min为最小深度值（单位为米），D_b为所得背景深度图，其中，各点的深度值度量单位为米。

背景深度大致分为以下几类：（a）当只有水平消失线的时候，背景深度呈上-下型分布，深度分布法则见公式（5）；（b）当只有垂直消失线，且垂直消失线靠左的时候，背景深度呈左-右分布，深度分布法则见公式（6）；（c）当只有垂直消失线，且垂直消失线靠右的时候，背景深度呈右-左分布，深度分布法则见公式（7）；（d）当既有水平消失线，又有垂直消失线的时候，若垂直消失线靠左，背景深度呈左上角-右下角分布,深度分布法则见公式（8）；（e）当既有水平消失线，又有垂直消失线的时候，若垂直消失线靠右，背景深度呈右上角-左下角分布，深度分布法则见公式（9）。

D_{b} = {\begin{matrix} D_{\max} & 0 < y < Y_{vp} \\ D_{\max} - D_{\max} \frac{y - Y_{vp}}{H - Y_{vp}} & Y_{vp} < y < H \end{matrix} - - - (5)

D_{b} = {\begin{matrix} D_{\max} & 0 < x < X_{vp} \\ D_{\max} - D_{\max} \frac{x - X_{vp}}{W - X_{vp}} & X_{vp} < x < W \end{matrix} - - - (6)

D_{b} = {\begin{matrix} D_{\max} \frac{x}{X_{vp}} & 0 < x < X_{vp} \\ D_{\max} & X_{vp} < x < W \end{matrix} - -- (7)

D_{b} = {\begin{matrix} D_{\max} & 0 < x < X_{vp}, 0 < y < Y_{vp} \\ D_{\max} - D_{\max} \frac{H}{\sqrt{H^{2} + W^{2}}} \frac{y - Y_{vp}}{H - Y_{vp}} & 0 < x < X_{vp}, Y_{vp} < y < H \\ D_{\max} - D_{\max} \frac{W}{\sqrt{H^{2} + W^{2}}} \frac{x - X_{vp}}{W - X_{vp}} & X_{vp} < x < W, 0 < y < Y_{vp} \\ D_{\max} - \frac{D_{\max}}{\sqrt{H^{2} + W^{2}}} (W \frac{x - X_{vp}}{W - X_{vp}} + H \frac{y - Y_{vp}}{H - Y_{vp}}) & X_{vp} < x < W, Y_{vp} < y < H \end{matrix} - - - (8)

D_{b} = \{\begin{matrix} D_{\max} - \frac{D_{\max} W}{\sqrt{H^{2} + W^{2}}} \frac{X_{vp} - x}{X_{VP}} & 0 < x < X_{vp}, 0 < y < Y_{vp} \\ D_{\max} - \frac{D_{\max}}{\sqrt{H^{2} + W^{2}}} (W \frac{X_{vp} - x}{X_{vp}} + H \frac{y - Y_{vp}}{H - Y_{vp}}) & 0 < x < X_{vp}, Y_{vp} < y < H \\ D_{\max} & X_{vp} < x < W, 0 < y < Y_{vp} \\ D_{\max} - \frac{D_{\max} H}{\sqrt{H^{2} + H^{2}}} \frac{y - Y_{vp}}{H - Y_{vp}} & X_{vp} < x < W, Y_{vp} < y < H \end{matrix} - - - (9)

公式（5）、（6）、（7）、（8）、（9）中，x和y分别为像素点的水平坐标和垂直坐标。步骤C、对原始单目图像的前景深度图、背景深度图进行全局融合，得到所述原始单目图像最终的深度图。

本发明使用全局平衡权重系数α，利用公式（10）对前景深度和背景深度，进行全局深度图融合。

D_fuse=αD_f+(1-α)D_b（10）

其中，D_f为前景深度图，D_b为背景深度图，D_fuse为融合后的深度图，α为范围在[0，1]的全局平衡系数，其具体取值区间采用以下方法预先确定：

步骤1、选取一个测试样本数据库，其中每一个测试样本包括一幅单目图像及其相应的真实深度图；测试样本数据库可以自已创建，也可直接采用现有的各种图像-深度对数据库，本具体实施方式中这个测试样本数据库采用斯坦福大学三维重建组提供的Make3d测试数据集Test134，该数据集包括134幅测试图像及对应的134幅由3D扫描仪采集的“真实”深度图。

步骤2、对每一个训练样本中的单目图像，分别按照步骤A、步骤B中的方法获取其前景深度图、背景深度图；并通过求解以下数学模型，得到该训练样本的最优平衡系数α：

\min E_{ave} (α) = \frac{1}{N} Σ_{i = 1}^{N} (α D_{f} (i) + (1 - α) D_{b} (i) - D_{t} (i)), - - - (11)

其中，D_f(i)、D_b(i)、D_t(i)分别表示该训练样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值，E_ave代表深度估计误差平均值，N为该训练样本中的单目图像的像素个数。

步骤3、根据所有训练样本中最优平衡系数的分布情况，选取出现频次最大的最优平衡系数作为全局平衡系数的取值。本具体实施方式采用统计直方图的形式，依据最大频数，选择出适用于大多数场景的通用的全局平衡系数。

步骤D、对步骤C得到的深度图进行滤波。

由于本发明中前景深度图采用基于图像分段的引导优化，背景深度图采用线性透视的方式，两者融合得到的深度图会产生一定的块效应，为了进一步平滑融合后的深度图，本发明进一步采用滤波的方法对其进行深度平滑，本发明优选采用双边带滤波方法，最好采用文献[ChaoTianandShankarKrishnan.Acceleratedbilateralfilteringwithblockskipping.IEEESIGNALPROCESSINGLETTERS,20(5):419,2013.]中公开的加权双边带滤波器。加权双边带滤波器不仅可以保证边界平滑，还可以使深度图像的边界与输入单目图像的外观纹理边界更一致且匹配吻合。

Claims

1.一种基于前景背景融合的单目图像深度图提取方法，其特征在于，包括以下步骤：

具体包括以下子步骤：

步骤B1、利用哈夫变换检测原始单目图像中的直线段；

步骤B3、沿着直线段的消失方向，整体渐进性地分布深度梯度，得到原始单目图像的背景深度图；

D_fuse＝αD_f+(1-α)D_b，

式中，D_fuse表示融合后的深度图；D_f为前景深度图；D_b为背景深度图；α为范围在[0，1]的全局平衡系数，其具体取值采用以下方法预先确定：

步骤1、选取一个训练样本数据库，其中每一个训练样本包括一幅单目图像及其相应的真实深度图；

其中，D_f(i)、D_b(i)、D_t(i)分别表示该训练样本中的单目图像第i个像素的前景深度值、背景深度值、真实深度值，E_ave(α)代表关于某一最优平衡系数α的深度估计误差平均值，N为该训练样本中的单目图像像素个数；

步骤3、根据所有训练样本中最优平衡系数的分布情况，选取出现频次最大的最优平衡系数作为全局平衡系数的取值。

2.如权利要求1所述基于前景背景融合的单目图像深度图提取方法，其特征在于，对于作为输入图像的单目图像，其前景深度图具体按照以下方法提取：

步骤A2、利用SIFT流映射的方法，将候选子集中的每幅候选图像分别与输入图像进行逐像素的稠密匹配，得到SIFT流场，进而利用SIFT流场方程得到映射方程，依据映射方程逐像素地调整各候选图像及其对应深度图中的像素位置，进行场景图像的映射重排，得到K幅映射重排后的候选深度图；

步骤A3、利用K幅映射重排后的候选深度图，通过最小化非参数化采样的全局能量函数，重构出一幅新的深度图，以该深度图作为输入图像的前景深度图；所述最小化非参数化采样的全局能量函数具体如下：

式中，E(D_le)表示所重构的深度图D_le的全局能量；N表示输入的单目图像中的像素个数，也表示每幅候选图像的像素个数；K为候选深度图总数，表示第j幅映射重排后的候选深度图中第i个像素的深度值的置信度权值；S(i)是输入图像中第i个像素的SIFT特征矢量；S^j(i)是第j幅未经映射重排的候选图像在第i个像素处的SIFT特征矢量；ψ_jS^j(i)为第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量；||·||₂为二范数操作符，表示两个向量矩阵的直线距离，||S(i)-ψ_jS^j(i)||₂表示输入图像中第i个像素的SIFT特征矢量与第j幅经过映射重排后的候选图像在第i个像素处的SIFT特征矢量的距离；和代表重构的深度图D_le中第i个像素处的水平与垂直方向的深度梯度；C^j(i)为未经映射重排的第j幅候选深度图中的第i个像素处的深度值；ψ_jC^j(i)为第j幅映射重排后的候选深度图中的第i个像素的深度值；和为第j幅映射重排后的候选深度图中的第i个像素的水平与垂直方向的深度梯度；φ(·)为距离度量函数，其表达式为ε＝10^-4；γ为权系数，取值范围为[0,50]；和为输入图像中第i个像素的水平梯度与垂直梯度；λ为平衡系数，取值范围为[0，200]。

3.如权利要求2所述基于前景背景融合的单目图像深度图提取方法，其特征在于，所述前景深度图的提取方法还包括：以步骤A3获得的深度图作为初始前景深度图，对其进行基于分段诱导的深度优化，具体如下：

4.如权利要求2所述基于前景背景融合的单目图像深度图提取方法，其特征在于，步骤A1中采用K-近邻搜索算法从训练样本数据库中搜索出与输入图像的场景语义最接近的K幅单目图像，搜索所使用的衡量场景语义相似度的全局特征为图像的方向梯度直方图特征，距离度量采用欧氏距离。

5.如权利要求4所述基于前景背景融合的单目图像深度图提取方法，其特征在于，K的取值范围为3～7。

6.如权利要求1所述基于前景背景融合的单目图像深度图提取方法，其特征在于，还包括：

步骤D、对步骤C得到的深度图进行滤波。

7.如权利要求6所述基于前景背景融合的单目图像深度图提取方法，其特征在于，所述滤波为双边带滤波。

8.如权利要求2所述基于前景背景融合的单目图像深度图提取方法，其特征在于，权系数γ的取值为10、平衡系数λ的取值为50。