CN102663772A

CN102663772A - 一种针对多视频序列的运动推断结构方法

Info

Publication number: CN102663772A
Application number: CN2012100690084A
Authority: CN
Inventors: 章国锋; 鲍虎军; 刘浩敏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2012-09-12
Anticipated expiration: 2032-03-15
Also published as: CN102663772B

Abstract

本发明公开了一种针对多视频序列的运动推断结构方法。它的步骤如下：1）基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；2）基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；3）使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。本发明能够高效匹配分布于非相邻子序列中的特征轨迹，改善各子图的求解质量；针对大尺度场景，突破传统求解方法的内存和效率瓶颈，在有限内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。

Description

一种针对多视频序列的运动推断结构方法

技术领域

本发明涉及运动推断结构，尤其涉及一种针对多视频序列的运动推断结构方法。

背景技术

运动推断结构技术，指的是由图像集合或视频序列中，自动估计场景中特征点的三维位置及每张图像对应的相机运动参数。找到特征点在图像中的对应位置，对于运动推断结构的求解质量来说至关重要。相比图像集合，视频序列包含了更丰富的几何信息和场景的结构信息。针对视频序列，常用的方法是在每相邻两帧之间使用特征点跟踪算法，如Lucas，B.D.，Kanade，T.：An iterative imageregistration technique with an application to stereo vision.In：IJCAI，pp.674-679(1981)；Shi，J.，Tomasi，C.：Good features to track.In：CVPR，pp.593-600(1994)；Georgescu，B.，Meer，P.：Point matching under large image deformations andillumination changes.IEEE Trans.Pattern Anal.Mach.Intell.26，674-688(2004)；Lowe，D.G.：Distinctive image features from scale-invariant keypoints.InternationalJournal of Computer Vision 60，91-110(2004)等。然而，这些连续的特征跟踪不能处理特征点分布在非连续帧中的情况。比如，随着相机运动，某物体离开画面若干帧后又重新进入画面，那么该物体将包含在两段不相连的子序列中。即使该物体上的每个特征点在这两个子序列中均能被稳定跟踪上，连续的特征跟踪将导致特征点在两个子序列中分别产生一条特征轨迹。将这样的两条特征轨迹匹配上，可以缓解运动推断结构中的漂移现象，从而提高三维重建的质量。另外，在针对多视频序列的运动推断结构中，必须将分布在不同视频序列中对应于相同场景的特征轨迹匹配起来，才能将多个视频序列注册到同一场景中。为将非相邻帧中的特征轨迹匹配起来，一个简单的方法是对每对非相邻的两帧都匹配一次。通常，大部分非相邻帧对之间不存在相同的特征点，无需匹配。此外，同一对特征轨迹将被反复地匹配多次。因此，这样的策略中绝大多数匹配所消耗的时间是毫无意义的，对于长序列的情况，更是不可行的。本发明针对这一问题，提出了一种高效的非连续帧的特征匹配算法。

除特征匹配外，运动推断结构面临的另一个难题是如何为大规模的视频序列进行精确的运动和结构估计。Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp 422-435提出针对小规模的视频序列的运动推断结构方法，使用集束调整(Triggs B，McLauchlan PF，Hartley RI，Fitzgibbon AW(1999)Bundle adjustment-a modern synthesis.In：Workshop on Vision Algorithms，pp 298-372)，同时优化每帧的运动参数及特征点的三维坐标。对于大规模视频序列，Ni K，Steedly D，Dellaert F(2007)Out-of-core bundle adjustment for large-scale 3d reconstruction.In：ICCV，pp 1-8将场景分为若干子图，对每一子图分别进行局部集束调整，并使用核外集束调整进行全局优化。Snavely N，Seitz SM，Szeliski R(2008)Skeletal setsfor efficient structure from motion.In：Computer Vision and Pattern Recognition(CVPR)从所有图像集合中提取一个骨架集合，仅优化骨架集合中相应的相机参数，并用位置估计算法求解其他相机。Crandall DJ，Owens A，Snavely N，Huttenlocher D(2011)Discrete-continuous optimization for large-scale structurefrom motion.In：CVPR，pp 3001-3008结合GPS信息，使用离散置信度传播法对变量进行离散优化，并以此为初值进行连续的迭代优化。然而，由于存在大量的大量优化变量，优化效率和内存需求仍是运动推断结构的两大瓶颈。

发明内容

本发明的目的在于针对现有技术的不足，提供一种针对多视频序列的运动推断结构方法。

针对多视频序列的运动推断结构方法的步骤如下：

1)基于SIFT特征描述量，使用连续特征跟踪算法和非连续特征匹配算法，匹配分布于不同图像上对应于相同场景点的SIFT特征点；

2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点，使用运动推断结构算法，恢复各视频序列相应的子图，并将各视频序列相应的子图注册到统一的坐标系下；

3)使用基于分段的渐进式优化算法，迭代地将各视频序列相应的子图中存在的误差扩散并消除。

所述的步骤1)为：

(1)使用Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点，并为每个SIFT特征点x计算一个SIFT描述量，标记为p(x)；

(2)使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹，每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合，χ＝{x_t|t∈f(χ)}其中x_t为第t帧图像中对应于该场景点的SIFT特征点位置，f(χ)为χ跨越的连续帧集合；

(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹，并将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。

步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：

①使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵，标记为M，将M中最大元素值记为M_max；

②令k＝0，选择具有最大M(t₁，t₂)的帧对，标记为

将M中以

为中心3为半径的区域置0，使用Lowe，D.G.：Distinctive image features fromscale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT匹配算法匹配

得到

间的特征点匹配集合，标记为由

构造特征轨迹匹配集合C_χ：

C_χ＝{(χ₁，χ₂)|(x₁，x₂)∈C_x，x₁∈χ₁，x₂∈χ₂}

及帧对集合C_f：

C_f＝{(t₁，t₂)|M(t₁，t₂)≠0，t₁∈f(χ₁)，t₂∈f(χ₂)，(χ₁，χ₂)∈C_χ}

使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合

为

估计3x3的基础矩阵，标记为

为C_χ中的每个特征轨迹匹配(χ₁，χ₂)设置一个误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(0)}, t_{2}^{(0)}}, x_{1}^{(0)}, x_{2}^{(0)})}^{2}

N_{(χ_{1}, χ_{2})} = 1

其中

分别为χ₁、χ₂在第

帧图像中对应的特征点位置，d(F，x₁，x₂)表示点x₂到直线

间的距离，

表示一个二维点x的齐次坐标

为C_f中的每个帧对(t₁，t₂)设置一个计数器

N_{t_{1}, t_{2}} = | {(χ_{1}, χ_{2}) | t_{1} &Element; f (χ_{1}), t_{2} &Element; f (χ_{2}), (χ_{1}, χ_{2}) &Element; C_{χ}} |

③令k＝k+1，选择具有最大且M(t₁，t₂)≠0的帧对，标记为

将M中以

为中心3为半径的区域置0，在C_χ中找到已匹配上的

间的特征点集合，标记为

C_{x}^{(k)} = {(x_{1}, x_{2}) | x_{1} &Element; χ_{1}, x_{2} &Element; χ_{2}, (χ_{1}, χ_{2}) &Element; C_{χ}}

为

估计3x3的基础矩阵，标记为

更新C_χ中的每个特征轨迹匹配(χ₁，χ₂)的误差量

和计数器

e_{(χ_{1}, χ_{2})} = e_{(χ_{1}, χ_{2})} + d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}^{(k)}, x_{2}^{(k)})}^{2}

N_{(χ_{1}, χ_{2})} = N_{(χ_{1}, χ_{2})} + 1

其中

分别为χ₁、χ₂在第

帧图像中对应的特征点位置；

④使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的平面运动分割算法由集合

为

估计若干个3x3的单应矩阵，标记为H₁，Λ，

N_H为这样的单应矩阵的个数，对每个第

帧中尚未匹配上的特征点x₁，用H₁，Λ，

进行测试，将x₁经过第i个平面运动后的位置标记为

这里H_i为第i个单应矩阵，将第

帧图像中以为中心，2为半径的区域内的所有尚未匹配上的特征点x₂都作为x₁的候选匹配，当N_H个平面运动均测试完毕后，将x₁的所有候选匹配构成的集合标记为

选出

中与x₁的SIFT描述量最为相近的特征点，标记为

x_{2}^{*} = \underset{x_{2} &Element; t_{x_{1}}}{\arg \min} {| | p (x_{1}) - p (x_{2}) | |}^{2}

若则将

视作一个新的特征点匹配，对应的特征轨迹匹配为(χ₁，χ₂)，xx∈χ₁，

设置(χ₁，χ₂)的误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}, x_{2}^{*})}^{2}

N_{(χ_{1}, χ_{2})} = 1

更新C_χ、C_f、

C_χ＝C_χY{(χ₁，χ₂)}

C_f＝C_fY{(t₁，t₂)|t₁∈f(χ₁)，t₂∈f(χ₂)}

N_{t_{1}, t_{2}} = N_{t_{1}, t_{2}} + 1, &ForAll; t_{1} &Element; f (χ_{1}), &ForAll; t_{2} &Element; f (χ_{2})

⑤重复步骤③、步骤④，直至

对C_χ中的每个(χ₁，χ₂)，若

将(χ₁，χ₂)合并成一条特征轨迹；

⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2M_max。

所述的步骤2)为：

(1)将所有输入视频序列标记为V₁，Λ，

其中N_V为输入视频序列总数，使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V₁，Λ，

恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成N_V个局部坐标系下的子图，将第j个序列的第k帧在V_j的局部坐标系下的相机运动参数标记为(R_j，k，t_j，k)，其中R_j，k为一个3x3的旋转矩阵，t_j，k为一个3维平移向量，若第i个场景点在V_j中可见，则将第i个场景在V_j的局部坐标系下的坐标标记为X_ij；

(2)利用序列间匹配点构造匹配图，每个节点表示一个序列，若

间存在公共点，则在

间添加一条边，用集合

表示

间的公共点，

则连接

的边的权值为

令v＝0，选择具有最多公共点的序列

即

为每个序列设置一个状态变量F_j，表示V_j是否注册到全局坐标系，令

F_{j} = \{\begin{matrix} 0, j &NotEqual; j_{0} \\ 1, j = j_{0} \end{matrix};

(3)令v＝v+1，

使用MARQUARDT，D.1963.Analgorithm for the least-squares estimation of nonlinear parameters提出的LM算法求解

的局部坐标系到全局坐标系的相似变换变换

\underset{T_{S}^{j_{v}}}{\arg \min} \underset{r = 0, Λ, v - 1}{Σ} \underset{(X_{i j_{v}}, X_{i j_{r}}) &Element; S_{j_{v} j_{r}}}{Σ} {| | s^{j_{v}} R_{S}^{j_{v}} X_{i j_{v}} + t_{s}^{j_{v}} - X_{i j_{r}} | |}^{2}

其中

为标量，表示一个尺度因子，

为一个3x3的旋转矩阵，

为一个3维平移向量，用

对

作坐标变换，更新

中每个相机的运动参数

和每个三维点坐标

R_{j_{v}, k} = R_{j_{v}, k} {(R_{s}^{j_{v}})}^{T}

t_{j_{v}, k} = s^{j_{v}} t_{j_{v}, k} - R_{j_{v}, k} t_{s}^{j_{v}}

X_{i j_{v}} = s^{j_{v}} R_{s}^{j_{v}} X_{i j_{v}} + t_{s}^{j_{v}}

令

F_{j_{v}} = 1;

(4)重复步骤(3)直至v＝N_V-1，使用MARQUARDT，D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法，全局优化所有子图的相似变换

\underset{T_{s}^{1}, Λ, T_{s}^{N_{V}}}{\arg \min} \underset{j_{1} = 1, Λ N_{V}}{Σ} \underset{j_{2} = j_{1}, Λ N_{V}}{Σ} \underset{(X_{i j_{1}}, X_{i j_{2}}) &Element; s_{j_{1} j_{2}}}{Σ} {| | (s^{j_{1}} R_{s}^{j_{1}} X_{i j_{1}} + t_{s}^{j_{1}}) - (s^{j_{2}} R_{s}^{j_{2}} X_{i j_{2}} + t_{s}^{j_{2}}) | |}^{2}

用每个

更新其相应的V_j中每个相机的运动参数(R_jk，t_jk)和每个三维点坐标X_ij：

R_{j, k} = R_{j, k} {(R_{s}^{j})}^{T}

t_{j, k} = s^{j} t_{j, k} - R_{j, k} t_{s}^{j} .

X_{ij} = s^{j} R_{s}^{j} X_{ij} + t_{s}^{j}

所述的步骤3)为：

(1)为每个序列V_j的每相邻的k、k+1两帧计算重投影误差：

e^{2} (k, k + 1) = \frac{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1} ({| | π (K_{j, k}, R_{j, k}, t_{j, k}, X_{i}) - x_{i, j, k} | |}^{2} + {| | π (K_{j, k + 1}, R_{j, k + 1}, t_{j, k + 1}, X_{i}) - x_{i, j, k + 1} | |}^{2})}{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1}}

其中，N_P为场景中三维点的个数，若第i个三维点X_i在V_j的第k帧可见，则b_i，j，k＝1且x_i，j，k为对应的图像特征点的二维图像坐标，否则b_i，j，k＝0，K_j，k为V_j的第k帧对应的相机内参矩阵，π(K，R，t，X)为投影函数，利用相机的内参矩阵K和运动参数(R，t)将三维点X投影为二维图像点x：

x = (\begin{matrix} f_{x} \frac{{(RX + t)}_{[1]}}{{(RX + t)}_{[3]}} + c_{x} \\ f_{y} \frac{{(RX + t)}_{[2]}}{{(RX + t)}_{[3]}} + c_{y} \end{matrix})

这里假设内参矩阵为

K = (\begin{matrix} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{matrix}),

下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量；

(2)对每个序列V_j，将其头尾两端点和所有e²(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，假设N_V个输入序列被划分N_S个分段，为每个分段分配一个刚性变换，标记为其中的第j个分段的刚性变换表示为

为一个3x3的旋转矩阵，

为一个3维向量，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术求解优化方程：

(T_{R}^{1}, Λ, T_{R}^{N_{s}}, X_{1}, Λ, X_{N_{P}}) \underset{T_{R}^{1}, Λ, T_{R}^{N_{S}}, X_{1}, Λ, X_{N_{P}}}{\arg \min} Σ_{i = 1}^{N_{P}} Σ_{j = 1}^{N_{S}} Σ_{k = 1}^{N_{F}^{j}} b_{i, j, k} {| | π (K_{j, k}, R_{j, k}, t_{j, k}, R_{R}^{j} X_{i} + t_{R}^{j}) - x_{i, j, k} | |}^{2}

其中

表示第j个分段的帧数，用这N_S个刚性变换更新原序列每帧的相机运动参数：

R_{j, k} = R_{j, k} R_{R}^{j}

t_{j, k} = R_{j, k} t_{R}^{j} + t_{j, k}

(3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e²(k，k+1)＜25。

本发明与现有技术相比具有的有益效果：1)能够高效、鲁棒地匹配分布于非相邻子序列中的特征跟踪轨迹，以改善各子图的求解质量并统一各子图的坐标系；2)针对大尺度场景，能有效突破传统求解方法的内存和效率瓶颈，能在有限的内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。

附图说明

图1(a)是拍摄街道场景的18个视频序列的快照；

图1(b)是对街道场景恢复的相机运动轨迹和场景点云；

图1(c)是将恢复的相机运动轨迹重叠于Google Earth的卫星图上。

图2(a)是拍摄桌面场景的一个视频序列的快照；

图2(b)是估计的匹配矩阵；

图2(c)是本发明算法识别匹配矩阵高亮区域的示意图；

图3(a)是采用连续帧特征跟踪的重建结果；

图3(b)-(d)是采用连续帧特征跟踪导致的漂移现象；

图3(e)是采用基于匹配矩阵的特征轨迹匹配算法的重建结果；

图3(f)-(h)是采用基于匹配矩阵的特征轨迹匹配后漂移现象消除；

图4(a)是对街道场景的18个序列的相似变换局部优化的结果；

图4(b)是对街道场景的18个序列的相似变换全局优化的结果；

图4(c)是对街道场景采用基于分段的渐进式优化第1次迭代结果；

图4(d)是对街道场景采用基于分段的渐进式优化第2次迭代结果；

图4(e)是对街道场景采用基于分段的渐进式优化第19次迭代结果；

具体实施方式

针对多视频序列的运动推断结构方法的步骤如下：

所述的步骤1)为：

步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：

②令k＝0，选择具有最大M(t₁，t₂)的帧对，标记为

将M中以

得到间的特征点匹配集合，标记为

由

构造特征轨迹匹配集合C_χ：

C_χ＝{(χ₁，χ₂)|(x₁，x₂)∈C_x，x₁∈χ₁，x₂∈χ₂}

及帧对集合C_f：

使用Richard I.Hartley：In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6)：580-593(1997)提出的基础矩阵估计算法由集合为

估计3x3的基础矩阵，标记为

为C_χ中的每个特征轨迹匹配(χ₁，χ₂)设置一个误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(0)}, t_{2}^{(0)}}, x_{1}^{(0)}, x_{2}^{(0)})}^{2}

N_{(χ_{1}, χ_{2})} = 1

其中

分别为χ₁、χ₂在第

帧图像中对应的特征点位置，d(F，x₁，x₂)表示点x₂到直线间的距离，

表示一个二维点x的齐次坐标

为C_f中的每个帧对(t₁，t₂)设置一个计数器

N_{t_{1}, t_{2}} = | {(χ_{1}, χ_{2}) | t_{1} &Element; f (χ_{1}), t_{2} &Element; f (χ_{2}), (χ_{1}, χ_{2}) &Element; C_{χ}} |

③令k＝k+1，选择具有最大

且M(t₁，t₂)≠0的帧对，标记为

将M中以

为中心3为半径的区域置0，在C_χ中找到已匹配上的

间的特征点集合，标记为

C_{x}^{(k)} = {(x_{1}, x_{2}) | x_{1} &Element; χ_{1}, x_{2} &Element; χ_{2}, (χ_{1}, χ_{2}) &Element; C_{χ}}

为

估计3x3的基础矩阵，标记为

更新C_χ中的每个特征轨迹匹配(χ₁，χ₂)的误差量和计数器

e_{(χ_{1}, χ_{2})} = e_{(χ_{1}, χ_{2})} + d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}^{(k)}, x_{2}^{(k)})}^{2}

N_{(χ_{1}, χ_{2})} = N_{(χ_{1}, χ_{2})} + 1

其中

分别为χ₁、χ₂在第

帧图像中对应的特征点位置；

为

估计若干个3x3的单应矩阵，标记为H₁，Λ，

N_H为这样的单应矩阵的个数，对每个第

帧中尚未匹配上的特征点x₁，用H₁，Λ，

进行测试，将x₁经过第i个平面运动后的位置标记为

这里

H_i为第i个单应矩阵，将第

帧图像中以

为中心，2为半径的区域内的所有尚未匹配上的特征点x₂都作为x₁的候选匹配，当N_H个平面运动均测试完毕后，将x₁的所有候选匹配构成的集合标记为选出中与x₁的SIFT描述量最为相近的特征点，标记为

x_{2}^{*} = \underset{x_{2} &Element; T_{x_{1}}}{\arg \min} {| | p (x_{1}) - p (x_{2}) | |}^{2}

若

则将

视作一个新的特征点匹配，对应的特征轨迹匹配为(χ₁，χ₂)，x₁∈χ₁，

设置(χ₁，χ₂)的误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}, x_{2}^{*})}^{2}

N_{(χ_{1}, χ_{2})} = 1

更新C_χ、C_f、

C_χ＝C_χY{(χ₁，χ₂)}

C_f＝C_fY{(t₁，t₂)|t₁∈f(χ₁)，t₂∈f(χ₂)}

N_{t_{1}, t_{2}} = N_{t_{1}, t_{2}} + 1, &ForAll; t_{1} &Element; f (χ_{1}), &ForAll; t_{2} &Element; f (χ_{2})

⑤重复步骤③、步骤④，直至

对C_χ中的每个(χ₁，χ₂)，若

将(χ₁，χ₂)合并成一条特征轨迹；

⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2M_max。

所述的步骤2)为：

(1)将所有输入视频序列标记为V₁，Λ，

间存在公共点，则在

间添加一条边，用集合

表示

间的公共点，

则连接

的边的权值为

令v＝0，选择具有最多公共点的序列

即

F_{j} = \{\begin{matrix} 0, j &NotEqual; j_{0} \\ 1, j = j_{0} \end{matrix};

(3)令v＝v+1，

的局部坐标系到全局坐标系的相似变换变换

\underset{T_{S}^{j_{v}}}{\arg \min} \underset{r = 0, Λ, v - 1}{Σ} \underset{(X_{i j_{v}}, X_{i j_{r}}) &Element; S_{j_{v} j_{r}}}{Σ} {| | s^{j_{v}} R_{S}^{j_{v}} X_{i j_{v}} + t_{S}^{j_{v}} - X_{i j_{r}} | |}^{2}

其中

为标量，表示一个尺度因子，

为一个3x3的旋转矩阵，

为一个3维平移向量，用

对

作坐标变换，更新

中每个相机的运动参数

和每个三维点坐标

R_{j_{v}, k} = R_{j_{v}, k} {(R_{S}^{j_{v}})}^{T}

t_{j_{v}, k} = s^{j_{v}} t_{j_{v}, k} - R_{j_{v}, k} t_{S}^{j_{v}}

X_{i j_{v}} = s^{j_{v}} R_{S}^{j_{v}} X_{i j_{v}} + t_{S}^{j_{v}}

令

F_{j_{v}} = 1;

(4)重复步骤(3)直至v＝N_V-1，使用MARQUARDT，D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法，全局优化所有子图的相似变换Λ，

\underset{T_{S}^{1}, Λ, T_{S}^{N_{V}}}{\arg \min} \underset{j_{1} = 1, Λ N_{V}}{Σ} \underset{j_{2} = j_{1}, Λ N_{V}}{Σ} \underset{(X_{i j_{1}}, X_{i j_{2}}) &Element; S_{j_{1} j_{2}}}{Σ} {| | (s^{j_{1}} R_{S}^{j_{1}} X_{i j_{1}} + t_{S}^{j_{1}}) - (s^{j_{2}} R_{S}^{j_{2}} X_{i j_{2}} + t_{S}^{j_{2}}) | |}^{2}

用每个

R_{j, k} = R_{j, k} {(R_{S}^{j})}^{T}

t_{j, k} = s^{j} t_{j, k} - R_{j, k} t_{S}^{j} .

X_{ij} = s^{j} R_{S}^{j} X_{ij} + t_{S}^{j}

所述的步骤3)为：

(1)为每个序列V_j的每相邻的k、k+1两帧计算重投影误差：

e^{2} (k, k + 1) = \frac{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1} ({| | π (K_{j, k}, R_{j, k} t_{j, k}, X_{i}) - x_{i, j, k} | |}^{2} + {| | π (K_{j, k + 1}, R_{j, k + 1}, t_{j, k + 1}, X_{i}) - x_{i, j, k + 1} | |}^{2})}{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1}}

x = (\begin{matrix} f_{x} \frac{{(RX + t)}_{[1]}}{{(RX + t)}_{[3]}} + c_{x} \\ f_{y} \frac{{(RX + t)}_{[2]}}{{(RX + t)}_{[3]}} + c_{y} \end{matrix})

这里假设内参矩阵为

K = (\begin{matrix} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{matrix}),

(2)对每个序列V_j，将其头尾两端点和所有e²(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，假设N_V个输入序列被划分N_S个分段，为每个分段分配一个刚性变换，标记为

其中的第j个分段的刚性变换表示为

为一个3x3的旋转矩阵，

(T_{R}^{1}, Λ, T_{R}^{N_{S}}, X_{1}, Λ, X_{N_{P}}) \underset{T_{R}^{1}, Λ, T_{R}^{N_{S}}, X_{1}, Λ, X_{N_{P}}}{\arg \min} Σ_{i = 1}^{N_{P}} Σ_{j = 1}^{N_{S}} Σ_{k = 1}^{N_{F}^{j}} b_{i, j, k} {| | π (K_{j, k}, R_{j, k}, t_{j, k}, R_{R}^{j} X_{i} + t_{R}^{h}) - x_{i, j, k} | |}^{2}

其中表示第j个分段的帧数，用这N_S个刚性变换更新原序列每帧的相机运动参数：

R_{j, k} = R_{j, k} R_{R}^{j}

t_{j, k} = R_{j, k} t_{R}^{j} + t_{j, k}

实施例

使用针对多视频序列的运动推断结构方法，为一个拍摄大规模场景的18个视频序列估计相机运动路径和场景点云。输入序列共包含27600帧，快照见图1(a)，恢复的相机路径和场景点云见图1(b)。图1(c)中将恢复的相机路径重叠于Google Earth的卫星图上，以验证求解精度。包含所有计算在内，每帧平均处理时间为0.6秒。所有计算未涉及硬件加速，在单线程运行。

针对多视频序列的运动推断结构方法的步骤如下：

所述的步骤1)为：

(1)使用Lowe，D.G.：Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60，91-110(2004)中提出的SIFT算法，为每个视频序列的每帧图像提取SIFT特征点；

(2)使用Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中提出的连续帧特征跟踪算法为18个视频序列分别进行特征跟踪，每个序列分别得到一系列特征跟踪轨迹；

(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹；如图2(a)所示的序列中包含940帧，选择24062条步骤(2)产生的特征跟踪轨迹估计匹配矩阵，如图2(b)，耗时3秒；算法自动识别匹配矩阵中高亮区域的形状，见图2(c)，并匹配对应于相同场景点的特征跟踪轨迹；与Zhang G，Dong Z，Jia J，Wong TT，Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In：ECCV(5)，pp422-435中的匹配策略相比，匹配时间由212秒减少为75秒，且匹配上的特征轨迹数由7676增加为13746；对单视频序列来说，匹配分布于非相邻子序列上的特征跟踪轨迹后，运动推断结构的求解质量得到明显提高，如图3(a)-(d)，传统的连续跟踪导致重建结果存在严重的漂移现象，使用基于匹配矩阵的特征轨迹匹配算法后，漂移现象消除，如图3(e)-(h)；对于多视频序列，将所有视频序列首尾相邻形成一段虚拟序列，再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹，如图1中的18个视频序列，使用基于匹配矩阵的特征轨迹匹配算法共耗时64分钟；

所述的步骤2)为：

(1)使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-AnnHeng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法为图1中的18个输入序列分别恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成18个局部坐标系下的子图；

(2)利用步骤1)中得到的序列间匹配点构造匹配图，每个节点表示一个序列，若

间存在公共点，则在

间添加一条边，用集合表示

间的公共点，选择具有最多公共点的序列即

将的局部坐标系设置为全局坐标系；

(3)由

出发遍历匹配图，每遍历到一个新的节点时，为该节点所对应序列求解一个局部坐标系到全局坐标系的相似变换；由于子图内部本身存在误差，基于局部优化的渐进式策略容易产生误差累积现象，如图4(a)，循环回路无法闭合；

(4)全局优化所有子图的相似变换；如图4(b)，虽各子图的内部误差虽未被消除，但却被迫相对均匀地分布到各序列上，为进一步优化提供了良好的初值；

所述的步骤3)为：

(1)为每个序列V_j的每相邻的k、k+1两帧计算重投影误差，标记为e²(k，k+1)；

(2)对每个序列V_j，将其头尾两端点和所有e²(k，k+1)＞25的位置都定义为断点，断点将每个序列划分为若干个子序列，再将长度大等于2的子序列一分为二，将18个输入序列重新分段，为每个分段分配一个刚性变换，使用Manolis I.A.Lourakis，Antonis A.Argyros：SBA：A software package for generic sparse bundleadjustment.ACM Trans.Math.Softw.36(1)：(2009)中的集束调整技术联合优化各分段的刚性变换和三维点坐标；

(3)重复步骤(1)、步骤(2)，直至对于所有序列的所有相邻两帧，均有e²(k，k+1)＜25；随着迭代的进行，误差不断被扩散并减小，终得以消除，如图4(c)、(d)分别为第1次迭代和第2次迭代的优化结果，第19次迭代时算法收敛，如图4(e)。

Claims

1.一种针对多视频序列的运动推断结构方法，其特征在于它的步骤如下：

2.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤1)为：

3.根据权利要求2所述的一种针对多视频序列的运动推断结构方法，其特征在于步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为：

②令k＝0，选择具有最大M(t₁，t₂)的帧对，标记为将M中以

得到

间的特征点匹配集合，标记为

由

构造特征轨迹匹配集合C_χ：

C_χ＝{(χ₁，χ₂)|(x₁，x₂)∈C_x，x₁∈χ₁，x₂∈χ₂}

及帧对集合C_f：

为

估计3x3的基础矩阵，标记为为C_χ中的每个特征轨迹匹配(χ₁，χ₂)设置一个误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(0)}, t_{2}^{(0)}}, x_{1}^{(0)}, x_{2}^{(0)})}^{2}

N_{(χ_{1}, χ_{2})} = 1

其中

分别为χ₁、χ₂在第帧图像中对应的特征点位置，d(F，x₁，x₂)表示点x₂到直线

间的距离，表示一个二维点x的齐次坐标

为C_f中的每个帧对(t₁，t₂)设置一个计数器

N_{t_{1}, t_{2}} = | {(χ_{1}, χ_{2}) | t_{1} &Element; f (χ_{1}), t_{2} &Element; f (χ_{2}), (χ_{1}, χ_{2}) &Element; C_{χ}} |

③令k＝k+1，选择具有最大

且M(t₁，t₂)≠0的帧对，标记为将M中以

为中心3为半径的区域置0，在C_χ中找到已匹配上的间的特征点集合，标记为

C_{x}^{(k)} = {(x_{1}, x_{2}) | x_{1} &Element; χ_{1}, x_{2} &Element; χ_{2}, (χ_{1}, χ_{2}) &Element; C_{χ}}

估计3x3的基础矩阵，标记为

更新C_χ中的每个特征轨迹匹配(χ₁，χ₂)的误差量

和计数器

e_{(χ_{1}, χ_{2})} = e_{(χ_{1}, χ_{2})} + d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}^{(k)}, x_{2}^{(k)})}^{2}

N_{(χ_{1}, χ_{2})} = N_{(χ_{1}, χ_{2})} + 1

其中

分别为χ₁、χ₂在第

帧图像中对应的特征点位置；

为估计若干个3x3的单应矩阵，标记为H₁，Λ，

N_H为这样的单应矩阵的个数，对每个第

帧中尚未匹配上的特征点x₁，用H₁，Λ，

进行测试，将x₁经过第i个平面运动后的位置标记为

这里

H_i为第i个单应矩阵，将第

选出

中与x₁的SIFT描述量最为相近的特征点，标记为

x_{2}^{*} = \underset{x_{2} &Element; T_{x 1}}{\arg \min} {| | p (x_{1}) - p (x_{2}) | |}^{2}

若

则将

设置(χ₁，χ₂)的误差量

和计数器

e_{(χ_{1}, χ_{2})} = d {(F_{t_{1}^{(k)}, t_{2}^{(k)}}, x_{1}, x_{2}^{*})}^{2}

N_{(χ_{1}, χ_{2})} = 1

更新C_χ、C_f、

C_χ＝Cχ_Y{(χ₁，χ₂)}

C_f＝C_fY{(t₁，t₂)|t₁∈f(χ₁)，t₂∈f(χ₂)}

N_{t_{1}, t_{2}} = N_{t_{1}, t_{2}} + 1, &ForAll; t_{1} &Element; f (χ_{1}), &ForAll; t_{2} &Element; f (χ_{2})

⑤重复步骤③、步骤④，直至

对C_χ中的每个(χ₁，χ₂)，若

将(χ₁，χ₂)合并成一条特征轨迹；

⑥重复步骤②～步骤⑤，直至M中所有元素值均小于0.2M_max。

4.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤2)为：

(1)将所有输入视频序列标记为V₁，Λ，

其中N_V为输入视频序列总数，使用Guofeng Zhang，Xueying Qin，Wei Hua，Tien-Tsin Wong，Pheng-Ann Heng，Hujun Bao：Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V₁，Λ，恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置，形成N_V个局部坐标系下的子图，将第j个序列的第k帧在V_j的局部坐标系下的相机运动参数标记为(R_j，k，t_j，k)，其中R_j，k为一个3x3的旋转矩阵，t_j，k为一个3维平移向量，若第i个场景点在V_j中可见，则将第i个场景在V_j的局部坐标系下的坐标标记为X_ij；

间存在公共点，则在

间添加一条边，用集合

表示

间的公共点，

则连接

的边的权值为

令v＝0，选择具有最多公共点的序列

即

F_{j} = \{\begin{matrix} 0, j &NotEqual; j_{0} \\ 1, j = j_{0} \end{matrix};

(3)令v＝v+1，

的局部坐标系到全局坐标系的相似变换变换

\underset{T_{S}^{j_{v}}}{\arg \min} \underset{r = 0, Λ, v - 1}{Σ} \underset{(X_{i j_{v}}, X_{i j_{r}}) &Element; S_{j_{v} j_{r}}}{Σ} {| | s^{j_{v}} R_{S}^{j_{v}} X_{i j_{v}} + t_{S}^{j_{v}} - X_{i j_{r}} | |}^{2}

其中

为标量，表示一个尺度因子，

为一个3x3的旋转矩阵，

为一个3维平移向量，用

对

作坐标变换，更新

中每个相机的运动参数

和每个三维点坐标

R_{j_{v}, k} = R_{j_{v}, k} {(R_{S}^{j_{v}})}^{T}

t_{j_{v}, k} = S^{j_{v}} t_{j_{v}, k} - R_{j_{v}, k} t_{S}^{j_{v}}

X_{i j_{v}} = s^{j_{v}} R_{S}^{j_{v}} X_{i j_{v}} + t_{S}^{j_{v}}

令

F_{j_{v}} = 1;

Λ，

\underset{T_{S}^{1}, Λ, T_{S}^{N_{V}}}{\arg \min} \underset{j_{1} = 1, Λ N_{V}}{Σ} \underset{j_{2} = j_{1}, Λ N_{V}}{Σ} \underset{(X_{i j_{1}}, X_{i j_{2}}) &Element; j_{1} j_{2}}{Σ} {| | (s^{j_{1}} R_{S}^{j_{1}} X_{i j_{1}} + t_{S}^{j_{1}}) - (s^{j_{2}} R_{S}^{j_{2}} X_{i j_{2}} + t_{S}^{j_{2}}) | |}^{2}

用每个

R_{j, k} = R_{j, k} {(R_{S}^{j})}^{T}

t_{j, k} = s^{j} t_{j, k} - R_{j, k} t_{S}^{j} .

X_{ij} = s^{j} R_{S}^{j} X_{ij} + t_{S}^{j}

5.根据权利要求1所述的一种针对多视频序列的运动推断结构方法，其特征在于所述的步骤3)为：

(1)为每个序列V_j的每相邻的k、k+1两帧计算重投影误差：

e^{2} (k, k + 1) = \frac{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1} ({| | π (K_{j, k}, R_{j, k} t_{j, k}, X_{i}) - x_{i, j, k} | |}^{2} + {| | π (K_{j, k + 1}, R_{j, k + 1}, t_{j, k + 1}, X_{i}) - x_{i, j, k + 1} | |}^{2})}{Σ_{i = 1}^{N_{P}} b_{i, j, k} b_{i, j, k + 1}}

其中，

N_P为场景中三维点的个数，若第i个三维点X_i在V_j的第k帧可见，则b_i，j，k＝1且x_i，j，k为对应的图像特征点的二维图像坐标，否则b_i，j，k＝0，K_j，k为V_j的第k帧对应的相机内参矩阵，π(K，R，t，X)为投影函数，利用相机的内参矩阵K和运动参数(R，t)将三维点X投影为二维图像点x：

x = (\begin{matrix} f_{x} \frac{{(RX + t)}_{[1]}}{{(RX + t)}_{[3]}} + c_{x} \\ f_{y} \frac{{(RX + t)}_{[2]}}{{(RX + t)}_{[3]}} + c_{y} \end{matrix})

这里假设内参矩阵为

K = (\begin{matrix} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \end{matrix}),

其中的第j个分段的刚性变换表示为

为一个3x3的旋转矩阵，

(T_{R}^{1}, Λ, T_{R}^{N_{s}}, X_{1}, Λ, X_{N_{P}}) \underset{T_{R}^{1}, Λ, T_{R}^{N_{S}}, X_{1}, Λ, X_{N_{P}}}{\arg \min} Σ_{i = 1}^{N_{P}} Σ_{j = 1}^{N_{S}} Σ_{k = 1}^{N_{F}^{j}} b_{i, j, k} {| | π (K_{j, k}, R_{j, k}, t_{j, k}, R_{R}^{j} X_{i} + t_{R}^{j}) - x_{i, j, k} | |}^{2}

其中

R_{j, k} = R_{j, k} R_{R}^{j}

t_{j, k} = R_{j, k} t_{R}^{j} + t_{j, k}