CN103049929A

CN103049929A - 基于联合优化的多摄像机动态场景3d重建方法

Info

Publication number: CN103049929A
Application number: CN2012104752643A
Authority: CN
Inventors: 章国锋; 鲍虎军; 姜翰青
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-11-20
Filing date: 2012-11-20
Publication date: 2013-04-17

Abstract

本发明公开了一种基于联合优化的多摄像机动态场景3D重建的方法。能够对时空一致态分割，方法鲁棒而且不需要对于背景的先验知识。此方法允许参与拍摄的多目摄性深度恢复和静态/动态双层分割同时进行求解，亦不需要精确的静态/动像机自由独立地移动，能处理仅个的摄像机拍摄的动态场景。步骤如下：利用每个时刻

的跨越个摄像机的同步视频帧

来初始化

时刻的深度图

；二、展开时空一致性深度优化及静态/动态双层分割，迭代地执行

Description

基于联合优化的多摄像机动态场景3D重建方法

技术领域

本发明涉及的立体匹配和深度恢复方法，尤其涉及基于联合优化的多摄像机动态场景3D重建方法。

背景技术

视频的稠密深度恢复技术是计算机中层视觉领域的基础技术之一，其在3D建模、3D影像、增强现实和运动捕获等众多领域中有及其重要的应用。这些应用通常要求深度恢复结果具有很高精度和时空一致性。

视频的稠密深度恢复技术的难点在于：对于场景中的静态和动态物体，所恢复的深度值具有很高的精度和时空一致性。虽然目前对于静态场景的深度恢复技术已能够恢复具有较高精度的深度信息，但是自然界处处充满了运动的物体，对于视频场景中包含的动态物体来说，现有的深度恢复方法都很难达到较高的精度及时空域上的一致性。这些方法通常要求较多个固定放置的同步摄像机对场景进行捕获，在每个时刻对同步的多目视频帧利用多视图几何的方法进行立体匹配，从而恢复每个时刻的深度信息。而这种拍摄方法更多是被应用于实验室内动态场景的拍摄工作，实际拍摄过程中这种拍摄模式会有很多限制。另外现有的方法在时序上优化深度的过程中，通常利用光流寻找到不同时刻视频帧上对应像素点，然后将对应点的深度值或3D点位置进行线性或曲线拟合，从而估计出当前帧像素点的深度信息。这种时域上3D光顺化的方法只能使得时序上对应像素点的深度更为一致，并不能优化出真正准确的深度值；同时由于光流估计不鲁棒性的普遍存在，使得动态点的深度优化问题变得更为复杂难解。

现有的视频深度恢复方法主要分为两大类：

1.对于单目静态场景视频的时域一致性深度恢复

此类方法较为典型的是Zhang于09年提出的方法：G. Zhang, J. Jia, T.-T. Wong, and H. Bao. Consistent depth maps recovery from a video sequence. IEEE Transactions onPattern Analysis and Machine Intelligence, 31(6): 974–988, 2009.。此方法首先利用传统多视图几何的方法初始化每帧图像的深度，然后在时域上利用bundle optimization技术统计多个时刻的几何和颜色一致性来优化当前帧的深度。此方法对于静态场景能够恢复出高精度的深度图；对于包含动态物体的场景，此方法不能恢复动态物体的深度值。

2.对于多目动态场景视频的深度恢复

此类方法较为典型的是Zitnick的方法：C. L. Zitnick, S. B.Kang, M. Uyttendaele, S. Winder, and R. Szeliski. High-quality video view interpolation using a layered representation. ACM Transactions on Graphics, 23:600–608, August 2004.、Larsen的方法：E. S. Larsen, P. Mordohai, M. Pollefeys, and H. Fuchs. Temporally consistentreconstruction from multiple video streams using enhanced belief propagation. In ICCV, pages 1–8, 2007.以及Lei的方法：C. Lei, X. D. Chen, and Y. H. Yang. Anew multi-view spacetime-consistent depth recovery framework for free viewpoint video rendering. In ICCV, pages 1570–1577, 2009.。这些方法都利用同一时刻的多目同步视频帧恢复深度图，要求利用较多数目的固定放置的同步摄像机拍摄动态场景，不适合用于户外实际拍摄。Larsen和Lei的方法分别利用时空域上置信度传递（belief propagation）和时域3D光顺化的方法来优化深度值，使得这些方法不够鲁棒，不能处理光流估计产生严重错误的情况。

3.基于联合优化的多摄像机动态场景3D重建的方法的步骤1）使用了Tola提出的DAISY特征描述符：E. Tola, V. Lepetit, and P.Fua. Daisy: An efficient dense descriptor applied towide-baseline stereo. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(5):815–830, 2010.

发明内容

本发明的目的在于针对现有“动态场景深度恢复技术”的不足，提供一种基于联合优化的多摄像机动态场景3D重建方法。

基于联合优化的多摄像机动态场景3D重建的方法的步骤如下：

1）利用多视图几何方法结合DAISY特征向量，对于同一时刻的多目视频帧进行立体匹配，得到多目视频每一时刻的初始化深度图，并且对于遮挡区域出现的明显深度错误，利用同步帧之间的可见性图来加以处理以获得更为精确的初始深度；

2）利用步骤1）得到的初始化的深度图，每个像素点具有两套变量需要推断：一为像素点深度值，二为像素点静态/动态分类，对像素点给出不同数据项惩罚函数来统一地衡量，对于静态点，用Bundle Optimization算法其数据项惩罚值，对于动态点，引入时空一致性约束来计算其数据惩罚值，然后迭代地优化方程，从而在优化深度图的同时对像素点的静态/动态标记进行推断。

所述的步骤1）为：

（1）利用多视图几何方法结合DAISY特征描述符，对于同一时刻的多目视频帧进行立体匹配，通过如下能量优化方程式求解每一时刻图像帧的初始化深度图：

E_{D} (D_{m}^{t}; \hat{I} (t)) = E_{d} (D_{m}^{t}; \hat{I} (t)) + E_{s} (D_{m}^{t})

其中

表示在t时刻的M个多目同步视频帧，

表示第m个视频的t时刻的图像帧，

表示第m个视频的t时刻的深度图；是数据项，表示

中像素点与根据

计算的

中其余图像帧投影点之间的DAISY特征相似度，其定义如下：

E_{d} (D_{m}^{t}; \hat{I} (t)) \underset{x_{m}^{t}}{Σ} \frac{\underset{m^{'} &NotEqual; m}{Σ} I_{d} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t})}{M - 1}

其中

是用来估计对应像素的DAISY特征相似度的惩罚函数，

表示像素点的DAISY特征描述符，是

利用

投影至

中的投影位置；是平滑项，表示相邻像素x、y之间的深度平滑程度，其定义如下：

E_{s} (D_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \min {| D_{m}^{t} (x) - D_{m}^{t} (y) |, η}

其中平滑权重λ为0.008，深度差的截断值η为3；

（2）利用多目视频帧的初始化深度在3D空间中的一致性来判断每帧图像中的每个像素点在同一时刻其余摄像机中是否可见，从而得到同一时刻多个摄像机两两之间的可视性图；可视性图的定义如下：

V_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) = \{\begin{matrix} 1 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | \leq δ_{d} \\ 0 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | > δ_{d} \end{matrix}

其中

表示

在

中是否可见，1表示可见，0表示不可见；δ_d是深度差异的阈值，

是通过利用

将

投影至

上计算得到的；利用所得到的可视性图，对每个像素

计算总体可视性

，如果

在t时刻所有其余视频帧中均不可见，则为0，否则

为1；

（3）对于总体可见性为

的点，利用传统的对于时域相邻帧的颜色一致性约束来估计不可见像素点的深度值；

给定一个候选深度值d_i以及序列m′中的参考帧t′，基于和

之间的颜色相似度定义以下深度一致性函数：

L_{c} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}})

，

其中p_c衡量对应像素点和

的颜色相似度，定义如下：

p_{c} (x_{m}^{t}, x_{n^{'}}^{t^{'}}) = \frac{σ}{σ_{c} + | | I_{m}^{t} (x_{m}^{t}) - I_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}}) {| |}_{l}}

其中σ_c控制颜色差异的敏感度，像素点

是

根据候选深度d_i和摄相机参数投影至帧得到的对应点；

累积最邻近的20帧序列在相邻时刻的深度一致性，并利用以下公式计算总体可见的像素点的数据项：

E_{d} (D_{m}^{t}; \hat{I}) = \underset{x_{m}^{t}}{Σ} 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{c} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t^{'}})}{M | N (t) |},

其中N(t)表示t的相邻帧集合。

获得改进的深度图结果，利用Mean-shift算法来分割每帧图像，并将每个分割区域利用计算得到的数据惩罚值拟合为一个参数为[a,b,c]的3D平面。分割区域内的深度利用以下方法重新计算：d_x=ax+by+c。

所述的步骤2）为：

（1）每个像素点

具有两套变量需要推断：一为像素点深度值

，二为像素点

静态/动态分类

，0为静态且1表示动态，通过优化一个新的能量方程来为每帧图像

估计一套联合标记图。新的能量方程定义如下：

E_{L} (L_{m}^{t}; \hat{I}, \hat{D}) = E_{d} (L_{m}^{t}; \hat{I}, \hat{D}) + E_{s} (L_{m}^{t}) .

对于

和

利用不同的数据项惩罚函数，分别记为

和。

（2）如果某个像素点为静态，用集束优化算法来计算其对于候选深度d_i的数据项惩罚值，给定视频序列m′中的一个参考帧t′，依据深度d_i将像素点投影至

，投影点记为

，通过衡量和

之间的颜色和几何一致性来计算

的深度度量函数：

L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}),

其中p_c为颜色相似度，p_v为几何一致性，是通过计算反向投影误差而得到的，其定义如下：

p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) = \frac{σ_{w}}{σ_{w} + | | x_{m}^{t} - l_{m^{'} &RightArrow; m}^{t^{'} &RightArrow; t} (x_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}})) {| |}_{l}}

为将

投影至所得到的投影点；

累积对于最邻近的20帧序列相邻时刻的深度度量值L_d，并利用以下公式计算静态像素点前提条件下的像素点

的数据惩罚值：

e_{d}^{0} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) = 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}})}{M | N (t) |} .

如果像素点

为动态,采用时空一致性约束来计算动态像素点的数据惩罚值，这个数据惩罚函数结合了所有序列最邻近的10个时刻的一致性约束，其定义如下：

e_{d}^{1} (x_{m}^{t}, d_{i}, \hat{I}, \hat{D}) = 1 - \frac{\underset{t^{'} &Element; N (t)}{Σ} \underset{m^{'} &NotEqual; m}{Σ} L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m}^{t^{'}}; I_{m}^{t^{'}}, I_{m^{'}}^{t^{'}}, D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}})}{(M - 1) | N (t) |}

,

其中为

依据光流跟踪至t′时刻的对应点。L_g为动态点

的深度度量函数，是通过衡量

和

之间的颜色和几何一致性来计算的，其定义如下：

L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m}^{t^{'}}; I_{m}^{t^{'}}, I_{m^{'}}^{t^{'}}, D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}}) = p_{c} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})

,

其中p_c为颜色相似度，p_g为几何一致性，是通过计算对称投影误差得到的，其定义：

p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) = \frac{σ_{w}}{σ_{w} + d_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}; D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}})}

,

其中d_g为对称投影误差。

利用

和

重新定义公式:

E_{d} (L_{m}^{t}, \hat{I}, \hat{D}) = \underset{x_{m}^{t}}{Σ} e_{d} (x_{m}^{d}, L_{m}^{t}, (x_{m}^{t}); \hat{I}, \hat{D}),

L_d和L_g均为相同形式的颜色和几何一致性的乘积，

和

可以公平地竞争以推断出每个像素点的真实深度值；

（3）利用重新定义的数据惩罚项，迭代地优化方程从而在优化深度图的同时对像素点的静态/动态标记进行推断，每轮优化从第1帧开始，当所有序列全部帧的深度图优化和静态/动态分割完成时，一轮迭代宣告结束；经迭代优化之后，所有静态和动态区域的深度图均有大幅度的改进。

本发明与现有技术相比具有有益效果

1）深度恢复和双层分割是紧密相结合的，因此我们的方法更为鲁棒并且不需要对于背景的先验知识。

2）双层分割的最终目的是为了更好地实现深度优化。某个像素点被分类为“静态”还是“动态”取决于哪种时空一致性约束能更好地模拟其运动。因此，我们的方法不需要精确的静态/动态分割，并且对于复杂场景所产生的错误分割信息会更具有鲁棒性，因而在3D立体影像、3D动画、增强现实和运动捕获等领域将会有很高的应用价值。

附图说明

图1是基于联合优化的多摄像机动态场景3D重建的方法流程图；

图2(a)是视频序列的一帧图像；

图2(b)是与图2(a)同步的一帧图像；

图2(c)是图2(a) 的初始化深度图；

图2(d)是利用图2(a)和图2(b)估计出的可视性图；

图2(e)是利用图2(d)进行遮挡区域深度处理的初始化深度图；

图2(f)是利用图2(e)进行平面拟合纠正的初始化深度图；

图3(a)是视频序列的一帧图像；

图3(b)是图3(a) 的初始化深度图；

图3(c)是图3(a) 的第一轮迭代优化后的深度和分割结果；

图3(d)是图3(a) 的第二轮迭代优化后的深度和分割结果；

图3(e)是图3(a)-(d)中方框区域的局部放大图；图3(f)是视频序列的一帧源图像；图3(g)是图3(f)的时空一致性深度优化结果；图3(h)利用(g)中的深度重建的三维表面模型，以及纹理映射的结果。

具体实施方式

所述的步骤1）为：

E_{D} (D_{m}^{t}; \hat{I} (t)) = E_{d} (D_{m}^{t}; \hat{I} (t)) + E_{s} (D_{m}^{t})

其中表示在t时刻的M个多目同步视频帧，

表示第m个视频的t时刻的图像帧，

表示第m个视频的t时刻的深度图；

是数据项，表示中像素点与根据

计算的中其余图像帧投影点之间的DAISY特征相似度，其定义如下：

E_{d} (D_{m}^{t}; \hat{I} (t)) \underset{x_{m}^{t}}{Σ} \frac{\underset{m^{'} &NotEqual; m}{Σ} I_{d} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t})}{M - 1}

其中

是用来估计对应像素的DAISY特征相似度的惩罚函数，

表示像素点

的DAISY特征描述符，

是

利用

投影至

中的投影位置；

是平滑项，表示相邻像素x、y之间的深度平滑程度，其定义如下：

E_{s} (D_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \min {| D_{m}^{t} (x) - D_{m}^{t} (y) |, η}

其中平滑权重λ为0.008，深度差的截断值η为3；

V_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) = \{\begin{matrix} 1 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | \leq δ_{d} \\ 0 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | > δ_{d} \end{matrix}

其中

表示

在中是否可见，1表示可见，0表示不可见；δ_d是深度差异的阈值，是通过利用

将

投影至

上计算得到的；利用所得到的可视性图，对每个像素

计算总体可视性

，如果

在t时刻所有其余视频帧中均不可见，则

为0，否则

为1；

（3）对于总体可见性为

给定一个候选深度值d_i以及序列m′中的参考帧t′，基于

和

之间的颜色相似度定义以下深度一致性函数：

L_{c} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}})

，

其中p_c衡量对应像素点

和

的颜色相似度，定义如下：

p_{c} (x_{m}^{t}, x_{n^{'}}^{t^{'}}) = \frac{σ}{σ_{c} + | | I_{m}^{t} (x_{m}^{t}) - I_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}}) {| |}_{l}}

其中σ_c控制颜色差异的敏感度，像素点

是

根据候选深度d_i和摄相机参数投影至帧

得到的对应点；

E_{d} (D_{m}^{t}; \hat{I}) = \underset{x_{m}^{t}}{Σ} 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{c} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t^{'}})}{M | N (t) |},

其中N(t)表示t的相邻帧集合。

获得改进的深度图结果，利用Mean-shift算法来分割每帧图像，并将每个分割区域利用计算得到的数据惩罚值拟合为一个参数为[a,b,c][a,b,c]的3D平面。分割区域内的深度利用以下方法重新计算：d_x=ax+by+c。

所述的步骤2）为：

（1）每个像素点

具有两套变量需要推断：一为像素点

深度值，二为像素点

静态/动态分类

估计一套联合标记图

。新的能量方程定义如下：

E_{L} (L_{m}^{t}; \hat{I}, \hat{D}) = E_{d} (L_{m}^{t}; \hat{I}, \hat{D}) + E_{s} (L_{m}^{t}) .

对于

和利用不同的数据项惩罚函数，分别记为

和

。

（2）如果某个像素点

为静态，用集束优化算法来计算其对于候选深度d_i的数据项惩罚值，给定视频序列m′中的一个参考帧t′，依据深度d_i将像素点投影至

，投影点记为

，通过衡量

和

之间的颜色和几何一致性来计算

的深度度量函数：

L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}),

p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) = \frac{σ_{w}}{σ_{w} + | | x_{m}^{t} - l_{m^{'} &RightArrow; m}^{t^{'} &RightArrow; t} (x_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}})) {| |}_{l}}

为将

投影至

所得到的投影点；

的数据惩罚值：

e_{d}^{0} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) = 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}})}{M | N (t) |} .

如果像素点为动态,采用时空一致性约束来计算动态像素点的数据惩罚值，这个数据惩罚函数结合了所有序列最邻近的10个时刻的一致性约束，其定义如下：

e_{d}^{1} (x_{m}^{t}, d_{i}, \hat{I}, \hat{D}) = 1 - \frac{\underset{t^{'} &Element; N (t)}{Σ} \underset{m^{'} &NotEqual; m}{Σ} L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m}^{t^{'}}; I_{m}^{t^{'}}, I_{m^{'}}^{t^{'}}, D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}})}{(M - 1) | N (t) |}

,

其中

为

依据光流跟踪至t′时刻的对应点。L_g为动态点

的深度度量函数，是通过衡量

和之间的颜色和几何一致性来计算的，其定义如下：

L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m}^{t^{'}}; I_{m}^{t^{'}}, I_{m^{'}}^{t^{'}}, D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}}) = p_{c} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})

,

p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) = \frac{σ_{w}}{σ_{w} + d_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}; D_{m}^{t^{'}}, D_{m^{'}}^{t^{'}})}

,

其中d_g为对称投影误差。

利用

和

重新定义公式:

E_{d} (L_{m}^{t}, \hat{I}, \hat{D}) = \underset{x_{m}^{t}}{Σ} e_{d} (x_{m}^{d}, L_{m}^{t}, (x_{m}^{t}); \hat{I}, \hat{D}),

with e_{d} (x_{m}^{t}, l_{i}^{s}; \hat{I}, \hat{D}) = \{\begin{matrix} e_{d}^{0} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) & s = 0 \\ e_{d}^{1} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) & s = 1 \end{matrix}

L_d和L_g均为相同形式的颜色和几何一致性的乘积，

和可以公平地竞争以推断出每个像素点的真实深度值；

实施例

本发明公开了一种基于联合优化的多摄像机动态场景3D重建的方法，能够对时空一致性深度恢复和静态/动态双层分割同时进行求解，亦不需要精确的静态/动态分割，方法鲁棒而且不需要对于背景的先验知识。此方法允许参与拍摄的多目摄像机自由独立地移动，并能够处理仅2~3个的摄像机拍摄的动态场景。如图1所示，此方法主要包括三个步骤：一、我们利用每个时刻t的跨越M个摄像机的同步视频帧

来初始化t时刻的深度图

；二、同时展开时空一致性深度优化以及静态/动态双层分割，我们迭代地执行2~3轮的时空一致性优化，从而最终实现高质量的动态3D重建。以下介绍每一步骤的实施细节。

对于多目视频

，每个视频包含n帧图像：

。

表示第m个视频的t时刻的图像帧。表示第m个视频的t时刻的深度图。首先利用运动推断结构（structure from motion，简称SfM）的方法恢复每个视频m的每帧图像t的摄相机参数

，其中K为摄像机内部参数，包括焦距、光心及镜像畸变等参数信息；R是摄像机的旋转参数；T是摄像机平移参数。

1、对于图2(a)和(b)所示的两个同步视频序列，我们利用每个时刻t的跨越M个摄像机的同步视频帧来初始化t时刻的深度图

1）利用多视图几何方法结合DAISY特征描述符，对于同一时刻的多目视频帧进行立体匹配，通过如下能量优化方程式求解每一时刻图像帧的初始化深度图：

E_{D} (D_{m}^{t}; \hat{I} (t)) = E_{d} (D_{m}^{t}; \hat{I} (t)) + E_{s} (D_{m}^{t})

其中

表示在t时刻的M个多目同步视频帧，

表示第m个视频的t时刻的图像帧，

表示第m个视频的t时刻的深度图；是数据项，表示

中像素点与根据

E_{d} (D_{m}^{t}; \hat{I} (t)) \underset{x_{m}^{t}}{Σ} \frac{\underset{m^{'} &NotEqual; m}{Σ} I_{d} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t})}{M - 1}

其中

是用来估计对应像素DAISY特征相似度的惩罚函数，

表示像素点

的DAISY特征描述符，

是

利用

投影至

中的投影位置；

E_{s} (D_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \min {| D_{m}^{t} (x) - D_{m}^{t} (y) |, η}

其中平滑权重λ为0.008，深度差的截断值η为3；图2(c)展示了图2(a)的初始化深度图；

2）利用多目视频帧的初始化深度在3D空间中的一致性来判断每帧图像中的每个像素点在同一时刻其余摄像机中是否可见，从而得到同一时刻多个摄像机两两之间的可视性图；可视性图的定义如下：

V_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) = \{\begin{matrix} 1 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | \leq δ_{d} \\ 0 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | > δ_{d} \end{matrix}

其中表示

在

中是否可见，1表示可见，0表示不可见；δ_d是深度差异的阈值，是通过利用将

投影至

上计算得到的；利用所得到的可视性图，对每个像素

计算总体可视性

，如果

在t时刻所有其余视频帧中均不可见，则

为0，否则

为1；图2(d)展示了图2(a)的可视性图；

对于那些总体可见性为

的点，我们利用传统的对于时域相邻帧的颜色一致性约束来估计不可见像素点的深度值；给定一个候选深度值d以及序列m′中的参考帧t′，我们基于

和

之间的颜色相似度定义以下深度一致性函数：

L_{c} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}})

，

其中p_c衡量对应像素点

和

的颜色相似度，定义如下：

p_{c} (x_{m}^{t}, x_{n^{'}}^{t^{'}}) = \frac{σ}{σ_{c} + | | I_{m}^{t} (x_{m}^{t}) - I_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}}) {| |}_{l}}

其中σ_c控制颜色差异的敏感度。像素点

是

根据候选深度d_i和摄相机参数投影至帧

得到的对应点。

我们累积所有序列在相邻时刻（我们实验中取最邻近的20帧）的深度一致性，并利用以下公式计算总体可见的像素点的数据项：

E_{d} (D_{m}^{t}; \hat{I}) = \underset{x_{m}^{t}}{Σ} 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{c} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t^{'}})}{M | N (t) |},

其中N(t)表示t的相邻帧集合。

这样我们就可以获得改进的深度图结果，如图2(e)所示；此外，为了更好处理无纹理特征的区域以及深度噪声，我们利用Mean-shift算法来分割每帧图像，并将每个分割区域利用计算得到的数据惩罚值拟合为一个参数为[a,b,c][a,b,c]的3D平面。分割区域内的深度可以利用以下方法重新计算：d_x=ax+by+c。经过平面拟合改进后得到的深度图如图2(f)所示；

2、同时展开时空一致性深度优化以及静态/动态双层分割，我们迭代地执行2~3轮的时空一致性优化，从而最终实现高质量的动态3D重建。

1）如图3(c)(d)和(g)所示，对于每个像素点，我们不仅估计其深度，而且还同时推断其为静态还是动态。因此，每个像素点

具有两套变量需要推断：一为其深度值，二为其静态/动态分类（标记）

（0为静态且1表示动态）。交替迭代地优化这两套变量值可能很容易陷入局部最小化。相反，我们将这两套变量结合为一个扩展标记表达形式，其定义如下：

每种标记

清楚地代表着一个静态/动态标记s∈{0,1}以及一个候选深度值d_i的组合，其中i=1,2,…,k。根据这种组合表达形式，我们现在可以通过优化一个新的能量方程来为每帧图像

估计一套联合标记图

（）。新的能量方程定义如下：

E_{L} (L_{m}^{t}; \hat{I}, \hat{D}) = E_{d} (L_{m}^{t}; \hat{I}, \hat{D}) + E_{s} (L_{m}^{t}) .

由于静态和动态像素点的时空一致性约束是不同的，我们对于

和

利用不同的数据项惩罚函数，我们将其分别记为

和。

2）我们结合了两种不同的数据项惩罚函数来统一地衡量在静态/动态两种假设条件下的时域一致性。两种函数均用来衡量在多个摄像机及多个时域帧上的颜色和几何一致性。

如果某个像素点为静态，我们可以沿用Bundle Optimization（集束优化）算法来计算其对于候选深度d_i的数据项惩罚值。给定视频序列m′中的一个参考帧t′，我们可以依据深度d_i将像素点

投影至

。投影点记为

。我们可以通过衡量和

之间的颜色和几何一致性来计算

的深度度量函数：

L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}),

其中p_c为颜色相似度。p_v为几何一致性，是通过计算反向投影误差而得到的，其定义如下：

p_{v} (x_{m}^{t}, x_{m^{'}}^{t^{'}}) = \frac{σ_{w}}{σ_{w} + | | x_{m}^{t} - l_{m^{'} &RightArrow; m}^{t^{'} &RightArrow; t} (x_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}} (x_{m^{'}}^{t^{'}})) {| |}_{l}}

为将

投影至

所得到的投影点。

我们累积对于所有序列相邻时刻（最邻近的20帧）的深度度量值L_d，并利用以下公式计算静态像素点前提条件下的像素点

的数据惩罚值：

e_{d}^{0} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) = 1 - \frac{Σ_{m^{'} = 1}^{M} \underset{t^{'} &Element; N (t)}{Σ} L_{d} (x_{m}^{t}, d_{i}; I_{m}^{t}, I_{m^{'}}^{t^{'}}, D_{m^{'}}^{t^{'}})}{M | N (t) |} .

如果像素点

为动态，数据惩罚值的计算则更为复杂。一种最直接的方法是同样利用Bundle Optimization方法，仅结合在t时刻多个同步视频帧来优化其深度。

然而，我们大部分实验数据仅包含2~3个摄像机。较少数目的同步帧会严重地降低Bundle Optimization的有效性。为解决此问题，我们引入时空一致性约束来计算动态像素点的数据惩罚值，我们的数据惩罚函数结合了所有序列多个相邻时刻（在我们实验中取最邻近的10个时刻）的一致性约束L_g，因此对于动态点的深度优化会更为鲁棒。

至此，我们可以利用以上定义的两种数据惩罚函数

和

重新定义公式:

E_{d} (L_{m}^{t}, \hat{I}, \hat{D}) = \underset{x_{m}^{t}}{Σ} e_{d} (x_{m}^{d}, L_{m}^{t}, (x_{m}^{t}); \hat{I}, \hat{D}),

with e_{d} (x_{m}^{t}, l_{i}^{s}; \hat{I}, \hat{D}) = \{\begin{matrix} e_{d}^{0} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) & s = 0 \\ e_{d}^{1} (x_{m}^{t}, d_{i}; \hat{I}, \hat{D}) & s = 1 \end{matrix}

由于L_d和L_g均为相同形式的颜色和几何一致性的乘积，

和

可以公平地竞争以推断出每个像素点的真实深度值。

3）利用重新定义的数据惩罚项，我们迭代地优化方程，从而在优化深度图的同时对像素点的静态/动态标记进行推断。这里的平滑项在待优化的变量为新定义的扩展标记而不是深度值。由于新的候选标记数目较之前翻倍，我们通常在实验中仅使用70个深度层以适应BP算法的内存限制。深度层的扩展问题可以利用层次BP优化技术加以解决。在优化

之时，我们保持其余帧的深度和分割信息不变。每轮优化从第1帧开始。当所有序列全部帧的深度图优化和静态/动态分割完成时，一轮迭代宣告结束，迭代结果如图3(d)和(g)。迭代优化之后，所有静态和动态区域的深度图均有大幅度的改进。

我们的方法结合了

和

，因而能够鲁棒地为静态和动态像素点推断真实准确的深度值。无论其被判断为静态还是动态点，均能够可靠地推断出其真实深度值。