CN104616286A

CN104616286A - 快速的半自动多视图深度修复方法

Info

Publication number: CN104616286A
Application number: CN201410784782.2A
Authority: CN
Inventors: 章国锋; 鲍虎军; 陈伟峰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2015-05-13
Anticipated expiration: 2034-12-17
Also published as: CN104616286B

Abstract

本发明公开了一种快速的半自动多视图深度修复方法。首先利用Structure-from-montion技术，得到相机的参数信息；利用多视图深度恢复技术，得到稠密的初始深度信息；然后用户在关键帧上画几笔，将深度错误的区域分割出来，自动得到对应区域在相邻一系列参考帧的分割结果；对分割出来的区域，利用用户提供的几何先验信息，自适应调节参数，重新计算深度；重复步骤上述的交互操作，直至得到几乎没有错误的深度。本发明在交互操作方面操作非常简单方便，只需要一笔或者几笔就能够得到目标区域的粗糙的分割结果。其次，根据分割结果和一些先验信息，就能很好的纠正错误的深度。最后，在分割的结果不准确的情况下，也能够得到边缘过渡自然、相邻帧深度一致的修复结果。

Description

快速的半自动多视图深度修复方法

技术领域

本发明涉及视频序列深度修复方法，尤其涉及一种对已知摄像机参数和初始深度信息的视频序列的深度修复方法。

背景技术

基于图像的立体重建(Stereo Reconstruction)是计算机视觉、图形学领域中一个非常重要的问题，主要研究如何从对物体或场景拍摄的多幅图像中恢复出物体或场景的三维信息。场景的深度信息在视频立体化、三维模型获取、虚拟现实、视频编辑、自动导航以及基于图像的绘制等领域中有广泛应用。

虽然多视图立体视觉已经研究出了多种方法，但是由于种种原因，从自然像或者视频序列中自动地获取准确的稠密深度信息问题仍然没有完全被解决。也有一些交互式的基于图像的建模方法被提出，但这些方法只能够修复特定的静态物体(植物、树或者城市建筑等)、或者相对简单的模型，这些方法明显不满足许多应用对高精度几何的需求。

近年来的一些研究工作已经证明：基于相对粗糙的深度也能够创造出很好的立体效果，比如：J.J.Koenderink,A.J.van Doorn,A.M.L.Kappers,andJ.T.Todd.“Ambiguity and the‘mentaleye’in pictorial relief”.Perception,30(4):431C 448,2000.以及P.Harman,J.Flack,S.Fox,and M.Dowley.Rapid 2d to 3dconversion.In in Stereoscopic Displays and Virtual RealitySystems IX,Andrew,pages 78–86,2002.，还有M.Guttmann,L.Wolf,and D.Cohen‐or.Semi‐automaticstereo extractionfrom video footage.In ICCV,2009.等。因此很多借助简单的用户交互来生成视觉上可接受的深度信息的方法被相继提出，Varekamp等人提出了一种半自动的方法：先修改关键帧深度，然后关键帧之间的深度通过传播获得。还有一些研究者提出了基于目标跟踪的2D转3D的办法，他们通常使用交互式的分割方法(即惰性抠图)，把一些关键帧中的前景物体从背景中分离出来，同时假设前景和北京的深度都为常量，并手动设置关键帧的前、背景深度，然后每一帧的物体轮廓被跟踪传递，深度也就在每一帧之间得到了传递。总之，这些方法生成的深度或许能够用于立体视频的合成，但对应高质量的3D建模还不够。

目前也有许多交互式的视频分割技术。大部分的分割方法认为背景是已经知道的，从而简化分割。后来Bai等人在X.Bai,J.Wang,D.Simons,and G.Sapiro.Video snapcut:“robust videoobject cutout using localized classifiers”.ACMTrans.Graph.,28(3),2009.中提出了一种能够处理复杂场景视频序列的、鲁棒的交互式视频分割系统，在这个系统中，第一次提出在背景边缘构造一系列局部分类器的方法，然后将这些分类器顺序传递到其他帧来完成目标物体的提取。Price等人在B.L.Price,B.L.Price,and S.Cohen.Livecut:“Learning‐based interactive videosegmentation by evaluation of multi‐ple propagated cues”.In ICCV,pages 779–786,2009.中提出了一种结合各种线索构建相似目标分割的框架。最经，Zhong等人在F.Zhong,X.Qin,Q.Peng,andX.Meng.“Discontinuity‐aware video object cutout”.ACM Trans.Graph.,31(6):175,2012.中提出了一种双向的传播策略，并用基于学习的方法整合不同的分类器。然而，这写方法通常被设计用来处理运动的物体，没有对处理静态物体、深度修复做相应的优化。

发明内容

本发明目的是弥补全自动深度恢复技术的不足，提供一种快速的半自动多视图深度修复方法。

快速的半自动多视图深度修复方法步骤如下：

1)对视频序列，利用Structure-from-motion技术，得到相机的参数信息；利用多视图深度恢复技术，得到稠密的初始深度信息。

2)用户在关键帧上画几笔，将深度错误的区域分割出来，自动得到对应区域在相邻一系列参考帧的的分割结果。

3)对分割出来的区域，利用用户提供的先验信息，自适应调节参数，重新计算(优化)深度。

4)重复步骤2)～3)的交互操作，直至得到几乎没有错误的深度；

本发明的有益效果是：

1.现有的基于视差的深度恢复方法在存在遮挡、反光以及无纹理区域的例子中表现不佳，生成的深度会存在大量瑕疵。我们的方法通过加入几何约束来对具有瑕疵的深度进行修复，获得具有时空一致性的结果。

2.现有的区域跟踪与分割方法在存在遮挡的情况下无法分割出被遮挡的区域，而我们的方法通过加入遮挡边缘的跟踪成功地解决了上述问题，获得较好结果。

附图说明

图1(a)为带有很明显遮挡边缘的源图像；

图1(b)为遮挡区域放大后的图像；

图1(c)为另一帧上对应区域，红色区域为不再被遮挡的区域；

图2(a)为三张源图像；

图2(b)为普通算法的分割结果；

图2(c)为本发明对遮挡处理后的分割效果；

图3(a)为带分割结果的源图像；

图3(b)为原始深度；

图3(c)为带有遮挡处理的深度结果；

图3(d)为带有遮挡处理还带有平面拟合的深度结果；

图4(a)为是一示例；

图4(b)是(a)对应的深度图；

图4(c)是将几何原型与图中物体手工对应后的结果；

图4(d)是将几何原型根据对应点关系进行刚性变换后的结果；

图4(e)是直接根据系数的对应点关系进行形变后的结果；

图4(f)是添加了圆形对称关系后进行形变的结果；

图4(g)是进行时空一致性变换后的深度结果；

图4(h)是(g)对应的三角形网格。

具体实施方式

快速的半自动多视图深度修复方法步骤如下：

步骤2)中对分割区域的求解，以及分割结果的传递处理如下:

1)根据用户画出的前景、背景，采样像素，建立相应的颜色高斯混合模型，然后，使用全局优化算法(如Graph Cut、Belief Propagation)解能量方程：

E_{B} (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{x &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y}))

其中E_s(α_x,α_y)为平滑项，表示相邻像素间差异的惩罚值。E_d(α_x)为数据项，定义为：

E_{d} (α_{x}) = \{\begin{matrix} - {\log p}_{c} (I_{x} | F), & α_{x} = 1 \\ - {\log p}_{c} (I_{x} | B), & α_{x} = 0 \end{matrix},

其中I_x表示像素x的RGB颜色值，α_x只能取两个值，当像素x属于前景区域时，α_x＝1，否则α_x＝0。F和B分别表示前景和背景的高斯混合模型。p_c(I_x|F)和p_c(I_x|B)是通过相应高斯混合模型计算所得到的概率。如果分割结果不准确，用户可以使用背景刷工具来改善分割结果。

对于相邻的像素x和y，其平滑项E_s(α_x,α_y)定义如下：

E_s(α_x,α_y)＝|α_x-α_y|·exp(-β||I_x-I_y||²)

这里β的取值为(<||I_x-I_y||²>)^-1，<·>为期望值操作符。分割完成之后，将保存的前景和背景高斯混合模型分别记为Φ_f和Φ_b。

2)在t帧前景区域内随机的采样一些像素(通常个数不超过1000)，记作V_t，然后利用KLT跟踪方法，在t+1帧上找到对应的像素集合，记作V_t+1。同时利用RANSAC算法，根据V_t和V_t+1的对应关系，计算得到对应的单应矩阵。然后，根据单应矩阵，将t帧的前景区域M^t(x)投映到t+1帧上，将通过映射得到的t+1帧上的前景区域记作再对区域做高斯滤波，就得到了t+1帧上该区域的先验概率，即：其中表示以σ_s为标准差的高斯滤波器，σ_s的取值为2～4。有了映射后区域的概率，就可以将规范项定义如下：

E_{r} (α_{x}) = ω_{r} \underset{x}{Σ} | α_{x} - p_{s} (x) |,

本发明允许用户显式地指示出遮挡区域的边界，这一边界在背景区域S_o上，与前景区域相邻，而且遮挡了前景区域。然后，本发明会随着S_o自动跟踪该边界。背景区域S_o的跟踪则是通过最小化下面的能量方程实现的：

E_{tracking} = \underset{x &Element; S_{o}}{Σ} {| | I_{x} - {I^{'}}_{x^{'}} | |}^{2} + λ_{Δ} \underset{x &Element; Ω_{o}}{Σ} {(| {ΔI}_{x} | - | {ΔI}^{'}_{x^{'}} |)}^{2}

其中λ_Δ是权重，设置为18～22，I_x为第t帧的图像，I′_x为第t帧的图像，Δ是拉普拉斯操作符，Ω_o表示遮挡区域的边界。x′是像素x的对应像素，这里A为一个2×3的仿射矩阵。可以通过Levenberg‐Marquardt算法来优化求解本式。

根据跟踪的结果，然后在Ω_o的附近采样一些像素，如果像素在区域S_o中，就将它加入V_B作为背景，否则就加入V_F作为前景。加入这一约束后，可以重新定义如下的能量方程：

E (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{x &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y})) + E_{r} (α_{x}) + ω_{c} (\underset{x &Element; V_{B}}{Σ} {| α_{x} - 0 |}^{2} + \underset{x &Element; V_{F}}{Σ} {| α_{x} - 1 |}^{2})

其中ω_c是权重，设置为200。本发明使用全局优化算法(如Graph Cut、Belief Propagation)来优化能量方程求解。

步骤3)中对深度的计算、优化以及参数的自适应调节如下:

1)立体匹配问题，通常被构造为如下的马尔科夫随机场(MRF)能量最小化问题：

E_{D} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x))

这里L_d是数据项，定义为：这里表示在给定视差d(即深度的倒数)的情况下，像素x_t所选择的参考帧集合；σ_c为常量参数(通常设置为10)；x′为像素x在在视差为d的情况下，在t′帧上的对应像素；F_t表示t上需要更新深度的区域；L_s(x)表示视差平滑项，其定义为：L_s(x)＝s_s∑_y∈N(x)min|D_t(x)-D_t(y)|,η),这里λ_s为平滑项的权重，η为截断参数(防止深度边界过度平滑)。这个能量方程通过全局优化算法(如Graph Cut、Belief Propagation)快速求解。

对于视差范围[d_min,d_max]，有两种方法确定：1)用户进行指定，2)遍历F_t区域周围的最大视差和最小视差，然后将最大的赋值给d_max，最小的赋值给d_min；设置λ_s＝5/(d_max-d_min)，η＝0.1(d_max-d_min)；

给定视差d，对于每个像素x∈F_t，将其投到另一帧t′，得到对应像素x′。把F_t扩大100个像素的带宽得到更大的区域我们将F_t的环绕区域定义为通常内的深度是准确的。根据估计的深度信息可以把投影到帧t′上，对应的投影区域表示为如果则此时通常有遮挡发生。依靠此方法我们可以可靠地推断遮挡关系，为每个像素选出可见帧集即如果帧那么它必须保证x_t在t′帧上的投影点

本发明还允许将待修复区域表述为一个由参数[a,b,c]确定三维平面，即对每个像素x，满足D_t(x)＝ax+by+c，那么估计深度就等价于估计平面参数，本发明使用视频序列一致性深度恢复方法(Guofeng Zhang,Jiaya Jia,Tien‐Tsin Wong,and Hujun Bao.Consistent Depth MapsRecovery from a Video Sequence.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),31(6):974‐988,2009)中的平面拟合方法进行计算。

如果待修复区域几乎没有任何纹理信息的话，本发明引入先验知识和场景约束来进行求解。首先需要用户在其他区域画几笔，告诉系统：待修复的区域和所画的区域应该有相似的深度或者平面法向量。然后使用最小二乘法来估计出所画区域的三维平面的参数[a^*,b^*,c^*]，并将下面两项中一项作为软约束，添加到能量方程中。

L_p(a,b,c)＝‖a^*-a‖+‖b^*-b‖+‖c^*-c‖

L_p(a,b,c)＝‖a^*-a‖+‖b^*-b‖

两方程分别要求两区域具有相似的参数、或者相似的法向量。将这一平面先验信息加入到能量方程，得到新的能量方程：

E_{D} (a, b, c) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x)) + | F_{t} | λ_{p} L_{p} (a, b, c)

其中λ_p是权重。该函数可以先通过三次Hermite插值将其变成一个连续函数，然后通过Levenberg‐Marquardt算法进行高效的求解。

2)上述的深度计算基于粗糙的分割，而且每一帧的深度是相对独立的。所以，上面所得到的深度没有时间一致性约束，尤其是在分割边界附近的深度。为了得到较好的结果，还需要进行时空一致性优化。

为了去除边界的不一致性，这里对每一帧中的分割区域进行扩张，t帧上扩张后的分割区域记为F_t’。假设分割区域出现的帧的范围为[i,j]，那么将要优化所有区域记为{F_i’,F_i+1’,…,F_j’}。然后通过求解如下的能量方程来完成对F_t’的优化：

E_{D}^{'} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}^{'}}{Σ} (L_{d}^{'} (x, D_{t} (x)) + L_{s} (x))

这里的L′_d(x,D_t(x))同时加入了颜色一致性约束和几何一致性约束后的数据项。具体定义为：这里的p_υ(·)为几何一致性约束，定义为：这里的x′为为像素x在t′帧上的投射点。P_t′→t(D_t′(x′))表示将x′，根据深度D_t′(x′)反投回t帧上的深度，根据几何一致性约束，P_t′→t(D_t′(x′))应等于D_t(x)。

对于每一个F_t’，先固定下其他帧的的深度，然后，利用全局优化算法(如Graph Cut、BeliefPropagation)，通过解能量方程来优化F_t’的深度。

3)本发明允许对参数σ_d的自适应调节。对与区域F_t’，定义他的颜色一致性错误率ε_c和深度一致性错误率ε_d如下:

在第一遍时空一致性优化时，通常设置参数

σ_{d} = \max {1, {(\frac{ϵ_{c}}{K})}^{2}} \cdot \max {0.02 (d_{\max} - d_{\min}), ϵ_{d}},

这里K是一个常量参数(通常设置为4～6)。原理是：如果ε_c比较小，那么由颜色一致性带来的噪声就较少，这种情况下，σ_d就应该接近深度误差的标准差；对应的，如果ε_c比较大，那么初始深度与真实的深度的差别就比较大，这种情况下，σ_d的值就应该大一点，从而使颜色一致起到主导作用。第一遍优化之后，每次都设置σ_d＝s·ε_d，这里s是一个常量参数(取值范围通常设置为0.5～0.9)。随着时空一致性优化的多次处理，ε_c和ε_d会变得越来越小，并在迭代中快速收敛。

另外，如果F_t’是一个非朗伯面(即不满足颜色一致约束)，这种参数调节就不合适了，这个时候，就将σ_c设置的非常大来削弱颜色一致性约束，而σ_d则被设置为max{0.02(d_max-d_min),max{0.001(d_max-d_min),s·ε_d}}。

4)基于几何原型的初始修复

除了1)所述的引入三维平面来作为先验约束之外，还可以引入诸如圆柱、球体、长方体等几何原型作为几何先验约束。本发明提供一种交互方式来协助用户加入几何先验约束。用户首先从系统提供的几种几何原型中选择一种，并且以拖曳的方式将几何原型引入场景之中。用户通过平移、旋转、缩放、拉伸等方式使得几何原型与场景中待修复区域对应的物体的尽量吻合。一般情况下，系统所提供的几何原型与场景中的待修复区域对应的物体不会完全一致，此时可以通过模型变形算法对几何原型进行变形。模型变形法需要找到几何原型与图中物体的三维对应关系，但由于图中待修复物体的现有深度是有瑕疵的，因此需要找到待修复的物体上的可信的深度。对于这样的几何原型，首先需要对其进行参数化，使其能更好地符合图中的物体。比方说，圆柱体可以表示成一圈一圈的圆形叠加而成，可以对每一个圆形的半径进行修正使其可表示成圆锥或者更加复杂的图形。对于待修复物体上的一个像素x，其深度为d₀，则其深度的可信度C(x)定义如下：

C (x) = {(\frac{1}{| h (d_{0}) |} \underset{d &Element; h (d_{0})}{Σ} e^{- \frac{L_{d}^{2} (x, d) - L_{d}^{2} (x, d_{0})}{σ^{2}}})}^{- 1}

其中σ是一个常量，h(d₀)＝{d₀-2Δd,d₀-Δd,d₀+Δd,d₀+2Δd}，ΔΔ＝0.02(d_max-d_min)。当C(x)大于一个阈值的时候，认为该像素所对应的深度可信。除此自动的方法以外，用户也可以手动在图中选择认为可信的像素。

当已经选择好可信的三维点之后，这些三维点自动寻找之前已经人工调整的几何原型上的对应点，对应点的挑选原则为：对于每个可信的三维点X_i，找到在几何原型上的几何距离最近的点V_i。如果||X_i-V_i||小于一个阈值，则认为X_i与V_i为对应点对。利用所得点对，优化下述能量函数，可得刚性变换(R,T)：

E_{align} (R, T) = \underset{i}{Σ} {| | {RX}_{i} + T - V_{i} | |}^{2}

根据刚性变换(R,T)对几何原型进行调整之后，V_i的坐标变成V_i′。根据X_i与V_i′的对应关系可利用模型变形算法对几何原型进行变形。重复刚性变换与模型变形2次，可得到与图中物体基本吻合的模型。在这里，采取拉普拉斯变形算法。定义在模型上一点v_i的拉普拉斯坐标δ_i为：

δ_{i} = L (v_{i}) = v_{i} - \frac{1}{d_{i}} \underset{j &Element; N_{i}}{Σ} v_{j}

其中N_i为v_i在网格上的一环邻域。

假设变形前模型V上点的数目为n，其中第i个点的坐标为v_i，其对应的拉普拉斯坐标为δ_i；变形后的模型为V’，v_i对应变形后坐标为v_i′，对应的拉普拉斯坐标为L(v_i′)。并且假设V上编号为m到n的总共(n‐m+1)个点是之前根据可信度所得到的几何原型与图中物体的三维对应关系(即上述的X_i与V_i)，记u_i为图中的三维点的坐标(即上述X_i)。优化下述的能量函数，即可获得变形后的坐标V’：

E (V^{'}) = Σ_{i = 1}^{n} {| | T_{i} δ_{i} - L ({v_{i}}^{'}) | |}^{2} + Σ_{i = m}^{n} {| | v_{i}^{'} - u_{i} | |}^{2}

其中T_i表示第i个点在变形中所对应的变换，由旋转与位移表示。该函数的意义在于，一方面模型在变形前后的的每个点的拉普拉斯坐标要尽量保持一致，另一方面模型变形之后拥有三维对应关系的点的坐标要尽量与目标坐标一致。变形的示例如图4所示。

将此刚性变换以及模型变形后的模型的深度值渲染进场景，记渲染前的深度为d_x，渲染后的深度为d′_x，可计算每个像素的对于d_x的可信度此时设置σ_c＝5/u(x)。以d′_x作为初始深度。

实施例

视频图像序列表示为：这里I_t(x)表示像素x在t帧上的颜色值。本发明的目的就是得到每一帧的准确的深度的图其中视差D_t(x)的定义为：D_t(x)＝1/z_x，这里z_x是像素x在t帧上的深度值。在求的过程中，经过多次交互来修复错误的深度。

1.求解摄像机参数和原始稠密深度信息。利用视频序列一致性深度恢复的方法(Guofeng Zhang,Jiaya Jia,Tien‐Tsin Wong,and Hujun Bao.Consistent Depth Maps Recoveryfrom a Video Sequence.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),31(6):974‐988,2009.)，估计出每一帧图像的相机参数及其稠密深度图，这一方法在已在公开的软件ACTS 2.0(http://www.zjucvg.net/acts/acts.html)中被实现。但是这里求得的稠密深度信息往往有一些错误的区域，尤其是在纹理不够丰富，有遮挡的区域。

2.错误深度区域的快速分割。由于利用视频序列一致性深度恢复的方法求得的深度不够完美，需要对深度不正确的区域进行修复。这些区域可能不止一处，本发明的处理流程是先对一处进行分割，修复深度，然后再处理另一处。另外，由于本发明中的修复深度部分能够很好的利用时空一致性对边缘进行优化，所以在分割时不要求边界很精确。

2.1.基于全局颜色模型的交互式分割(Paint Selection)

像其他双层分割方法一样，将要扣出来的目标区域称为“前景”，其他区域称为“背景”。与交互式分割方法类似，首先在前景区域画出一笔或者几笔，评估出前景颜色的高斯混合模型(GMM)，通常为4～6个components。从背景区域随机采样一些像素，建立相应的背景颜色模型，通常为8～12个components。然后，使用全局优化算法(如Graph Cut、Belief Propagation)解能量方程：

E_{B} (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{x &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y})), - - - (1)

其中E_d(α_x)为数据项；E_s(α_x,α_y)为平滑项，表示相邻像素间差异的惩罚值。E_d(α_x)的具体定义如下：

E_{d} (α_{x}) = \{\begin{matrix} - {\log p}_{c} (I_{x} | F), & α_{x} = 1 \\ - {\log p}_{c} (I_{x} | B), & α_{x} = 0 \end{matrix}, - - - (2)

其中I_x表示像素x的RGB颜色值。α_x只能取两个值，当像素x属于前景区域时，α_x＝1，否则α_x＝0。F和B分别表示前景和背景的高斯混合模型。p_c(I_x|F)和p_c(I_x|B)是通过相应高斯混合模型计算所得到的概率。如果分割结果不准确，用户可以使用背景刷工具来改善分割结果(背景刷工具用来更新背景的高斯混合模型)。

对于相邻的像素x和y，其平滑项E_s(α_x,α_y)定义如下：

E_s(α_x,α_y)＝|α_x-α_y|·exp(-β||I_x-I_y||²), (3)

这里β的取值为(<||I_x-I_y||²>)^-1，<·>为期望值操作符。

分割完成之后，将保存的前景和背景高斯混合模型分别记为Φ_f和Φ_b，他们将在后面多帧之间颜色模型的传播中用到。

2.2.能够处理遮挡的鲁棒传播

与Snapcut算法(X.Bai,J.Wang,D.Simons,and G.Sapiro.Video snapcut:“robust video objectcutout using localized classifiers”.ACMTrans.Graph.,28(3),2009.)的处理相似，通过将当前帧的颜色信息和形状信息整合在一起，将分割传播到接下来的帧上。但是与之最大的不同之处是：本发明通过计算全局的单应矩阵(Homograph)来传播分割结果，而不是传递一个相互重叠的局部窗口集合。

经过2.1小节中的处理，已经得到了t帧的前景分割结果，然后在前景区域内随机的采样一些像素(通常个数不超过1000)，记作V_t，然后利用KLT跟踪方法，在t+1帧上找到对应的像素集合，记作V_t+1。同时利用RANSAC算法，根据V_t和V_t+1的对应关系，计算得到对应的单应矩阵。然后，根据单应矩阵，将t帧的前景区域M^t(x)投映到t+1帧上，将通过映射得到的t+1帧上的前景区域记作再对区域做高斯滤波，就得到了t+1帧上该区域的先验概率，即：

p_{s} (x) = G_{σ_{s}} &CircleTimes; M_{warp}^{t + 1} (x),

其中表示以σ_s为标准差的高斯滤波器，σ_s的取值为2～4。有了映射后区域的概率，就可以将规范项定义如下：

E_{r} (α_{x}) = ω_{r} \underset{x}{Σ} | α_{x} - p_{s} (x) |,

这个定义，能够很有效地规范化分割信息，但是它对遮挡却相当敏感；图1就是一个例子。虽然通过调整权重ω_r的大小，可以适当地减轻遮挡所带来的影响，但是，如果凸出边缘附近的像素颜色很相似的话，就会出现问题。

为了鲁棒地控制强遮挡，本发明允许用户显式地指示出遮挡区域的边界，这一边界在背景区域S_o上，与前景区域相邻，而且遮挡了前景区域。然后，本发明会随着S_o自动跟踪该边界。背景区域S_o的跟踪则是通过最小化下面的能量方程实现的：

E_{tracking} = \underset{x &Element; S_{o}}{Σ} {| | I_{x} - {I^{'}}_{x^{'}} | |}^{2} + λ_{Δ} \underset{x &Element; Ω_{o}}{Σ} {(| {ΔI}_{x} | - | {ΔI}^{'}_{x^{'}} |)}^{2}, - - - (4)

其中λ_Δ是权重，设置为18～22，I_x为第t帧的图像，I′_x为第t帧的图像，Δ是拉普拉斯操作符，Ω_o表示遮挡区域的边界。x′是像素x的对应像素，这里A为一个2×3的仿射矩阵。

式(4)中的第二项使得遮挡区域边界Ω_o与颜色的变化保持一致，本发明通过Levenberg‐Marquardt算法来优化求解式(4)。

\begin{matrix} E (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{x &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y})) + E_{r} (α_{x}) \\ + ω_{c} (\underset{x &Element; V_{B}}{Σ} {| α_{x} - 0 |}^{2} + \underset{x &Element; V_{F}}{Σ} {| α_{X} - 1 |}^{2}), \end{matrix} - - - (5)

其中ω_c是权重，设置为200。本发明使用全局优化算法(如Graph Cut、Belief Propagation)来优化能量方程(5)。在图2中，对具有遮挡的源图像进行分割效果进行了对比，图2(a)是选出来的三张源图像；图2(b)是没有对遮挡进行处理的分割、以及传播后的结果；很明显，在传播之后，遮挡区域被错误的分割为背景；图2(c)是使用本发明，对遮挡进行处理后的分割、以及传播后的结果，被遮挡区域被正确地分割为前景了。

3.深度修复。根据多视图几何理论，如果匹配准确的话，静态物体的深度是能够被精确的计算出来的，然而，即使最好的算法也无法解决由于遮挡、光照变化等引起的匹配失败问题，所以传统的多视图深度恢复无法处理带有强烈的高光、反射区域的场景。本发明通过将先验约束加入到多视图立体模型，很好地解决的这些难题。

3.1.初始修复

全局的立体匹配问题，通常被构造为如下的马尔科夫随机场(MRF)能量最小化问题：

E_{D} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x)), - - - (6)

这里L_d是数据项，定义为：

表示在给定视差d(即深度的倒数)的情况下，像素x_t所选择的参考帧集合；σ_c为常量参数(通常设置为10)；x′为像素x在在视差为d的情况下，在t′帧上的对应像素；F_t表示t上需要更新深度的区域；L_s(x)表示视差平滑项，其定义为：L_s(x)＝λ_s∑_y∈N(x)min|D_t(x)-D_t(y)|,η),这里λ_s为平滑项的权重，η为截断参数(防止深度边界过度平滑)。这个能量方程通过全局优化算法(如Graph Cut、Belief Propagation)快速求解。

对于立体匹配，数据项的定义是非常重要的；如果大部分像素都被错误的约束，那么深度估计也将会是错误的，实验表明，大部分不准确的区域是由剧烈的遮挡造成的。为了更加可靠的匹配，对特定像素，最好选择存在对应像素的帧进行立体匹配，这就需要对所选择的帧区分出可见像素和遮挡像素。本发明利用分割的先验信息，进行帧的选择。

对于视差范围[d_min,d_max]，有两种方法确定：1)用户进行指定，2)遍历F_t区域周围的最大视差和最小视差，然后将最大的赋值给d_max，最小的赋值给d_min。设置λ_s＝5/(d_max-d_min)，η＝0.1(d_max-d_min)；

图3展示了在上述约束上求得的深度结果。为了更好地处理遮挡区域，本发明还允许将待修复区域表述为一个由参数[a,b,c]确定三维平面，即对每个像素x，满足D_t(x)＝ax+by+c，那么估计深度就等价于估计平面参数，本发明使用视频序列一致性深度恢复方法(GuofengZhang,Jiaya Jia,Tien‐Tsin Wong,and Hujun Bao.Consistent Depth Maps Recovery from a VideoSequence.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),31(6):974‐988,2009)中的平面拟合方法进行计算。

如果待修复区域几乎没有任何纹理信息的话，通过匹配、平面拟合均无法估计出正确的深度。针对这种情况，本发明引入先验知识和场景约束来进行求解。

首先需要用户在其他区域画几笔，告诉系统：待修复的区域和所画的区域应该有相似的深度或者平面法向量。然后使用最小二乘法来估计出所画区域的三维平面的参数[a^*,b^*,c^*]，并将下面两项中一项作为软约束，添加到能量方程中。

L_p(a,b,c)＝‖a^*-a‖+‖b^*-b‖+‖c^*-c‖, (7)

L_p(a,b,c)＝‖a^*-a‖+‖b^*-b‖, (8)

方程(7)和(8)分别要求两区域具有相似的参数、或者相似的法向量。将这一平面先验信息加入到能量方程，那么能量方程(6)就改为：

E_{D} (a, b, c) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x)) + | F_{t} | λ_{p} L_{p} (a, b, c), - - - (9)

其中λ_p是权重，本方程通过Levenberg‐Marquardt算法进行高效的求解。

3.2.基于几何原型的初始修复

除了3.1所述的引入三维平面来作为先验约束之外，还可以引入诸如圆柱、球体、长方体等几何原型作为几何先验约束。本发明提供一种交互方式来协助用户加入几何先验约束。用户首先从系统提供的几种几何原型中选择一种，并且以拖曳的方式将几何原型引入场景之中。用户通过平移、旋转、缩放、拉伸等方式使得几何原型与场景中待修复区域对应的物体的尽量吻合。一般情况下，系统所提供的几何原型与场景中的待修复区域对应的物体不会完全一致，此时可以通过模型变形算法对几何原型进行变形。模型变形法需要找到几何原型与图中物体的三维对应关系，但由于图中待修复物体的现有深度是有瑕疵的，因此需要找到待修复的物体上的可信的深度。对于这样的几何原型，首先需要对其进行参数化，使其能更好地符合图中的物体。比方说，圆柱体可以表示成一圈一圈的圆形叠加而成，可以对每一个圆形的半径进行修正使其可表示成圆锥或者更加复杂的图形。对于待修复物体上的一个像素x，其深度为d₀，则其深度的可信度C(x)定义如下：

C (x) = {(\frac{1}{| h (d_{0}) |} \underset{d &Element; h (d_{0})}{Σ} e^{- \frac{L_{d}^{2} (x, d) - L_{d}^{2} (x, d_{0})}{σ^{2}}})}^{- 1}

其中σ是一个常量，h(d₀)＝{d₀-2Δd,d₀-Δd,d₀+Δd,d₀+2Δd}，Δd＝0.02(d_max-d_min)。当C(x)大于一个阈值的时候，认为该像素所对应的深度可信。除此自动的方法以外，用户也可以手动在图中选择认为可信的像素。

E_{align} (R, T) = \underset{i}{Σ} {| | {RX}_{i} + T - V_{i} | |}^{2}

根据刚性变换(R,T)对几何原型进行调整之后，V_i的坐标变成V_i′。根据X_i与V_i′的对应关系可利用模型变形算法对几何原型进行变形。重复刚性变换与模型变形2次，可得到与图中物体基本吻合的模型。在这里，我们采取的是拉普拉斯变形算法。定义在模型上一点v_i的拉普拉斯坐标δ_i为：

δ_{i} = L (v_{i}) = v_{i} - \frac{1}{d_{i}} \underset{j &Element; N_{i}}{Σ} v_{j}

其中N_i为v_i在网格上的一环邻域。

E (V^{'}) = Σ_{i = 1}^{n} {| | T_{i} δ_{i} - L ({v_{i}}^{'}) | |}^{2} + Σ_{i = m}^{n} {| | v_{i}^{'} - u_{i} | |}^{2}

将此刚性变换以及模型变形后的模型的深度值渲染进场景，以此深度作为初始深度。

3.3.时空一致性优化

以上的处理都是基于粗糙的分割，而且每一帧的深度是相对独立的。所以，上面所得到的深度没有时间一致性约束，尤其是在分割边界附近的深度。为了得到较好的结果，还需要进行时空一致性优化。

与视频序列一致性深度恢复方法中的的Bundle Optimization相似，但是做了修改。为了去除边界的不一致性，这里对每一帧中的分割区域进行扩张，t帧上扩张后的分割区域记为F_t’。假设分割区域出现的帧的范围为[i,j]，那么将要优化所有区域记为{F_i’,F_i+1’,…,F_j”。然后通过求解如下的能量方程来完成对F_t’的优化：

E_{D}^{'} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}^{'}}{Σ} (L_{d}^{'} (x, D_{t} (x)) + L_{s} (x)), - - - (10)

这里的L′_d(x,D_t(x))同时加入了颜色一致性约束和几何一致性约束后的数据项。具体定义如下：

这里的p_v(·)为几何一致性约束，定义如下：

p_{v} (x, D_{t} (x)) = \frac{σ_{d}^{2}}{σ_{d}^{2} + | | P_{t^{'} &RightArrow; t} (D_{t^{'}} (x^{'})) - D_{t} (x) | |}, - - - (12)

这里的x′为为像素x在t′帧上的投射点。P_t′→t(D_t′(x′))表示将x′，根据深度D_t′(x′)反投回t帧上的深度，根据几何一致性约束，P_t′→t(D_t′(x′))应等于D_t(x)。

对于每一个F_t’，先固定下其他帧的的深度，然后，利用全局优化算法(如Graph Cut、BeliefPropagation)，通过最小化方程(12)的能量(值)来优化F_t’的深度。

3.4.自适应参数调节

虽然立体匹配的本质是依赖颜色一致性约束，但是如果过分强调颜色一致性的话，就会引入很多噪声和奇异值。加入几何一致性约束就够帮助避免这些噪声和奇异值，因此在这两种约束之间找到一个平衡点就尤为重要了。对与区域F_t’，定义他的颜色一致性错误率ε_c和深度一致性错误率ε_d如下:

在第一遍时空一致性优化时，通常设置参数

σ_{d} = \max {1, {(\frac{ϵ_{c}}{K})}^{2}} \cdot \max {0.02 (d_{\max} - d_{\min}), ϵ_{d}},

这里K是一个常量参数(通常设置为4～6)。原理是：如果ε_d比较小，那么由颜色一致性带来的噪声就较少，这种情况下，σ_d就应该接近深度误差的标准差；对应的，如果ε_c比较大，那么初始深度与真实的深度的差别就比较大，这种情况下，σ_d的值就应该大一点，从而使颜色一致起到主导作用。第一遍优化之后，每次都设置σ_d＝s·ε_d，这里s是一个常量参数(取值范围通常设置为0.5～0.9)。随着时空一致性优化的多次处理，ε_c和ε_d会变得越来越小，并在迭代中快速收敛。

以上策略通常能够取得比较好的效果，但是如果F_t’是一个非朗伯面(即不满足颜色一致约束)，这种参数调节就不合适了，这个时候，就将σ_c设置的非常大来削弱颜色一致性约束，而σ_d则被设置为max{0.02(d_max-d_min),max{0.001(d_max-d_min),s·ε_d}}。

综合以上各种策略，对一般的场景能够快速获得很好的效果，对复杂场景，经过修复之后也能得到较好的效果。

Claims

1.一种快速的半自动多视图深度修复方法，其特征在于可以修复具有瑕疵的深度数据，所述方法包括如下步骤：1)摄像机参数恢复；2)多视图深度恢复；3)瑕疵区域的交互式分割；4)基于几何先验的瑕疵修复。

2.根据权利要求1所述的一种快速的半自动多视图深度修复方法，其特征在于所述的步骤3)具体为：用户首先利用笔刷画出前景像素和背景像素，前景像素即瑕疵区域，背景像素即无瑕疵区域，利用前景像素与背景像素进行建模，分割出周边瑕疵区域，并将分割结果自动传递到下一帧处，分割使用马尔科夫随机场进行建模分析，并且利用全局优化算法Graph Cut或Belief Propagation求解能量方程。

3.如权利要求2所述方法，其特征在于所述的马尔科夫随机场进行建模分析具体为：根据用户画出的前景像素和背景像素，采样像素，建立相应的颜色高斯混合模型，然后，使用全局优化算法Graph Cut或Belief Propagation求解能量方程：

E_{B} (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{y &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y}))

其中α_x指像素x的标记，E_s(α_x,α_y)为平滑项，表示相邻像素间差异的惩罚值，ω_s为平滑项的权重，N(x)表示像素x的一环邻域，E_d(α_x)为数据项，定义为：其中I_x表示像素x的RGB颜色值，α_x只能取两个值，当像素x属于前景区域时，α_x＝1，否则α_x＝0，F和B分别表示前景和背景的高斯混合模型，p_c(I_x|F)和p_c(I_x|B)是通过相应高斯混合模型计算所得到的概率，如果分割结果不准确，用户可以使用背景刷工具来改善分割结果；

对于相邻的像素x和y，其平滑项E_s(α_x,α_y)定义如下：

E_s(α_x,α_y)＝|α_x-α_y|·exp(-β||I_x-I_y||²)

这里β的取值为(〈||I_x-I_y||²〉)^-1，〈·〉为期望值操作符。

4.如权利要求2所述方法，其特征在于所述的将分割结果自动传递到下一帧处，具体为：首先在第t帧的前景区域内随机的采样像素，记作V_t，然后利用KLT跟踪方法，在t+1帧上找到对应的像素集合，记作V_t+1，同时利用RANSAC算法，根据V_t和V_t+1的对应关系，计算得到对应的单应矩阵，然后，根据单应矩阵，将t帧的前景区域M^t(x)投映到t+1帧上，将通过映射得到的t+1帧上的前景区域记作再对区域做高斯滤波，就得到了t+1帧上该区域的先验概率，即：其中表示以σ_s为标准差的高斯滤波器，σ_s的取值为2～4，有了映射后区域的概率，就可以将规范项定义如下：

E_{r} (α_{x}) = ω_{r} \underset{x}{Σ} | α_{x} - p_{s} (x) |,

ω_r为一个权重系数，用户显式地指示出遮挡区域的边界，这一边界在背景区域S_o上，与前景区域相邻，而且遮挡了前景区域，然后，本方法随着S_o自动跟踪该边界，背景区域S_o的跟踪则是通过最小化下面的能量方程实现的：

E_{tracking} = \underset{x &Element; S_{o}}{Σ} {| | I_{x} - {I^{'}}_{x^{'}} | |}^{2} + λ_{Δ} \underset{x &Element; Ω_{o}}{Σ} {(| {ΔI}_{x} | - | {ΔI}^{'}_{x^{'}} |)}^{2}

其中λ_Δ是权重，设置为18～22，I_x为第t帧的图像，I′_x为第t帧的图像，Δ是拉普拉斯操作符，Ω_o表示遮挡区域的边界。x′是像素x的对应像素，这里A为一个2×3的仿射矩阵，通过Levenberg‐Marquardt算法来优化求解本式；

根据跟踪的结果，在Ω_o的附近采样像素，如果像素在区域S_o中，就将它加入V_B作为背景，否则就加入V_F作为前景，加入这一约束后，能量方程为：

E (α) = \underset{x}{Σ} (E_{d} (α_{x}) + ω_{s} \underset{x &Element; N (x)}{Σ} E_{s} (α_{x}, α_{y})) + E_{r} (α_{x}) + ω_{c} (\underset{x &Element; V_{B}}{Σ} {| α_{x} - 0 |}^{2} + \underset{x &Element; V_{F}}{Σ} {| α_{x} - 1 |}^{2})

其中ω_c是权重，设置为200。使用全局优化算法Graph Cut或Belief Propagation优化能量方程求解。

5.根据权利要求1所述的一种快速的半自动多视图深度修复方法，其特征在于所述的步骤4)具体为:

a)立体匹配问题，被构造为如下的MRF能量最小化问题：

E_{D} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x))

D_t表示第t帧深度，这里L_d是数据项，定义如下：

表示在给定视差d(即深度的倒数)的情况下，像素x_t所选择的参考帧集合；σ_c为常量参数，设置为10；x′为像素x在视差为d的情况下，在t′帧上的对应像素；F_t表示t上需要更新深度的区域；L_s(x)表示视差平滑项，其定义如下：

L_{s} (x) = λ_{s} \underset{y &Element; N (x)}{Σ} \min (| D_{t} (x) - D_{t} (y) |, η),

这里λ_s为平滑项的权重，η为截断参数，用于防止深度边界过度平滑，这个能量方程通过全局优化算法Graph Cut或Belief Propagation快速求解；

将待修复区域表述为一个由参数[a,b,c]确定三维平面，即对每个像素x，满足D_t(x)＝ax+by+c，那么估计深度就等价于估计平面参数，使用视频序列一致性深度恢复方法(GuofengZhang,Jiaya Jia,Tien‐Tsin Wong,and Hujun Bao.Consistent Depth Maps Recovery from a VideoSequence.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),31(6):974‐988,2009)中的平面拟合方法进行计算；

如果待修复区域几乎没有任何纹理信息，引入先验知识和场景约束进行求解；首先需要用户使用笔刷在其他无瑕疵区域进行采样，告诉系统：待修复的区域和所采样的区域应该有相似的深度或者平面法向量，然后使用最小二乘法估计出所画区域的三维平面的参数[a^*,b^*,c^*]，并将下面两项中一项作为软约束，添加到能量方程中；

L_p(a,b,c)＝||a^*-a||+||b^*-b||+||c^*-c||

L_p(a,b,c)＝||a^*-a||+||b^*-b||

两方程分别要求两区域具有相似的参数、或者相似的法向量，将这一平面先验信息加入到能量方程，得到新的能量方程：

E_{D} (a, b, c) = \underset{x &Element; F_{t}}{Σ} (L_{d} (x, D_{t} (x)) + L_{s} (x)) + | F_{t} | λ_{p} L_{p} (a, b, c)

其中λ_p是权重，本方程通过Levenberg‐Marquardt算法进行高效的求解；

b)上述的深度计算基于粗糙的分割，而且每一帧的深度是相对独立的，所以，上面所得到的深度没有时间一致性约束，尤其是在分割边界附近的深度，为了得到较好的结果，还需要进行时空一致性优化；

为了去除边界的不一致性，对每一帧中的分割区域进行扩张，t帧上扩张后的分割区域记为F′_t，假设分割区域出现的帧的范围为[i,j]，那么将要优化所有区域记为{F′_i,F′_i+1,…,F′_j}，然后通过求解如下的能量方程来完成对F′_t的优化：

E_{D}^{'} (D_{t}; \hat{I}) = \underset{x &Element; F_{t}^{'}}{Σ} (L_{d}^{'} (x, D_{t} (x)) + L_{s} (x))

这里的L′_d(x,D_t(x))同时加入了颜色一致性约束和几何一致性约束后的数据项，具体定义为：p_v(·)为几何一致性约束，定义为：x′为为像素x在t′帧上的投射点，P_t′→t(D_t′(x′))表示将x′，根据深度D_t′(x′)反投回t帧上的深度，根据几何一致性约束，P_t′→t(D_t′(x′))应等于D_t(x)，

对于每一个F_t’，先固定下其他帧的的深度，然后，利用全局优化算法Graph Cut或BeliefPropagation，通过解能量方程来优化F_t’的深度；

c)本方法允许对参数σ_d的自适应调节，对与区域F_t’，定义他的颜色一致性错误率ε_c和深度一致性错误率ε_d如下：

在第一遍时空一致性优化时，通常设置参数

σ_{d} = \max {1, {(\frac{ϵ_{c}}{K})}^{2}} \cdot \max {0.02 (d_{\max} - d_{\min}), ϵ_{d}},

这里K是一个常量参数，设置为4～6，原理是：如果ε_c比较小，那么由颜色一致性带来的噪声就较少，这种情况下，σ_d就应该接近深度误差的标准差；对应的，如果ε_c比较大，那么初始深度与真实的深度的差别就比较大，这种情况下，σ_d的值就应该更大，从而使颜色一致起到主导作用，第一遍优化之后，每次都设置σ_d＝s·ε_d，这里s是一个常量参数，设置为0.5～0.9，随着时空一致性优化的多次处理，ε_c和ε_d会变得越来越小，并在迭代中快速收敛；

另外，如果F_t’是一个非朗伯面，即不满足颜色一致约束，这种参数调节则无意义，这时，将σ_c设置为1000来削弱颜色一致性约束，而σ_d则被设置为max{0.02(d_max-d_min),max{0.001(d_max-d_min),s·ε_d}}。

6.根据权利要求5所述的一种快速的半自动多视图深度修复方法，其特征在于所述待修复区域，除了可以引入三维平面来作为先验约束之外，还可以引入除三维平面外的几何原型作为几何先验约束，用户首先从系统提供的几种几何原型中选择一种，并且以拖曳的方式将几何原型引入场景之中，用户通过平移、旋转、缩放、拉伸使得几何原型与场景中待修复区域对应的物体吻合，系统所提供的几何原型与场景中的待修复区域对应的物体通常不会完全一致，此时通过模型变形算法对几何原型进行变形，所述的模型变形算法为拉普拉斯变形法或泊松变形法，模型变形法需要找到几何原型与图中物体的三维对应关系，但由于图中待修复物体的现有深度是有瑕疵的，因此需要找到待修复的物体上的可信的深度，对于待修复物体上的一个像素x，其深度为d₀，则其深度的可信度C(x)定义如下：

C (x) = {(\frac{1}{| h (d_{0}) |} \underset{d &Element; h (d_{0})}{Σ} e^{- \frac{L_{d}^{2} (x, d) - L_{d}^{2} (x, d_{0})}{σ^{2}}})}^{- 1}

其中σ是一个常量，h(d₀)＝{d₀-2Δd,d₀-Δd,d₀+Δd,d₀+2Δd}，Δd＝0.02(d_max-d_min)，当C(x)大于设定阈值时，认为该像素所对应的深度可信，用户也可以手动在图中选择认为可信的像素；

当选择好可信的三维点之后，这些三维点自动寻找之前已经人工调整的几何原型上的对应点，对应点的挑选原则为：对于每个三维点X_i，找到在几何原型上的几何距离最近的点V_i，如果||X_i-V_i||小于设定阈值，则认为X_i与V_i为对应点对，利用所得点对，优化下述能量函数，可得刚性变换(R,T)：

E_{alingn} (R, T) = \underset{i}{Σ} {| | {RX}_{i} + T - V_{i} | |}^{2}

根据刚性变换(R,T)对几何原型进行调整之后，V_i的坐标变成V′_i，根据X_i与V′_i的对应关系利用模型变形算法对几何原型进行变形，重复刚性变换与模型变形2次，得到与图中物体基本吻合的模型；

将此修正后的模型的深度值渲染进场景之后，记渲染前的深度为d_x，渲染后的深度为d′_x，可计算每个像素的对于d_x的可信度此时设置σ_c＝5/u(x)。以d′_x作为初始深度，根据权利5中步骤c)所述方法进行优化，即可获得具有时空一致性的深度。