CN102663772A - 一种针对多视频序列的运动推断结构方法 - Google Patents

一种针对多视频序列的运动推断结构方法 Download PDF

Info

Publication number
CN102663772A
CN102663772A CN2012100690084A CN201210069008A CN102663772A CN 102663772 A CN102663772 A CN 102663772A CN 2012100690084 A CN2012100690084 A CN 2012100690084A CN 201210069008 A CN201210069008 A CN 201210069008A CN 102663772 A CN102663772 A CN 102663772A
Authority
CN
China
Prior art keywords
chi
algorithm
point
motion
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100690084A
Other languages
English (en)
Other versions
CN102663772B (zh
Inventor
章国锋
鲍虎军
刘浩敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shangtang Technology Development Co Ltd
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201210069008.4A priority Critical patent/CN102663772B/zh
Publication of CN102663772A publication Critical patent/CN102663772A/zh
Application granted granted Critical
Publication of CN102663772B publication Critical patent/CN102663772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种针对多视频序列的运动推断结构方法。它的步骤如下:1)基于SIFT特征描述量,使用连续特征跟踪算法和非连续特征匹配算法,匹配分布于不同图像上对应于相同场景点的SIFT特征点;2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点,使用运动推断结构算法,恢复各视频序列相应的子图,并将各视频序列相应的子图注册到统一的坐标系下;3)使用基于分段的渐进式优化算法,迭代地将各视频序列相应的子图中存在的误差扩散并消除。本发明能够高效匹配分布于非相邻子序列中的特征轨迹,改善各子图的求解质量;针对大尺度场景,突破传统求解方法的内存和效率瓶颈,在有限内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。

Description

一种针对多视频序列的运动推断结构方法
技术领域
本发明涉及运动推断结构,尤其涉及一种针对多视频序列的运动推断结构方法。
背景技术
运动推断结构技术,指的是由图像集合或视频序列中,自动估计场景中特征点的三维位置及每张图像对应的相机运动参数。找到特征点在图像中的对应位置,对于运动推断结构的求解质量来说至关重要。相比图像集合,视频序列包含了更丰富的几何信息和场景的结构信息。针对视频序列,常用的方法是在每相邻两帧之间使用特征点跟踪算法,如Lucas,B.D.,Kanade,T.:An iterative imageregistration technique with an application to stereo vision.In:IJCAI,pp.674-679(1981);Shi,J.,Tomasi,C.:Good features to track.In:CVPR,pp.593-600(1994);Georgescu,B.,Meer,P.:Point matching under large image deformations andillumination changes.IEEE Trans.Pattern Anal.Mach.Intell.26,674-688(2004);Lowe,D.G.:Distinctive image features from scale-invariant keypoints.InternationalJournal of Computer Vision 60,91-110(2004)等。然而,这些连续的特征跟踪不能处理特征点分布在非连续帧中的情况。比如,随着相机运动,某物体离开画面若干帧后又重新进入画面,那么该物体将包含在两段不相连的子序列中。即使该物体上的每个特征点在这两个子序列中均能被稳定跟踪上,连续的特征跟踪将导致特征点在两个子序列中分别产生一条特征轨迹。将这样的两条特征轨迹匹配上,可以缓解运动推断结构中的漂移现象,从而提高三维重建的质量。另外,在针对多视频序列的运动推断结构中,必须将分布在不同视频序列中对应于相同场景的特征轨迹匹配起来,才能将多个视频序列注册到同一场景中。为将非相邻帧中的特征轨迹匹配起来,一个简单的方法是对每对非相邻的两帧都匹配一次。通常,大部分非相邻帧对之间不存在相同的特征点,无需匹配。此外,同一对特征轨迹将被反复地匹配多次。因此,这样的策略中绝大多数匹配所消耗的时间是毫无意义的,对于长序列的情况,更是不可行的。本发明针对这一问题,提出了一种高效的非连续帧的特征匹配算法。
除特征匹配外,运动推断结构面临的另一个难题是如何为大规模的视频序列进行精确的运动和结构估计。Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficient non-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp 422-435提出针对小规模的视频序列的运动推断结构方法,使用集束调整(Triggs B,McLauchlan PF,Hartley RI,Fitzgibbon AW(1999)Bundle adjustment-a modern synthesis.In:Workshop on Vision Algorithms,pp 298-372),同时优化每帧的运动参数及特征点的三维坐标。对于大规模视频序列,Ni K,Steedly D,Dellaert F(2007)Out-of-core bundle adjustment for large-scale 3d reconstruction.In:ICCV,pp 1-8将场景分为若干子图,对每一子图分别进行局部集束调整,并使用核外集束调整进行全局优化。Snavely N,Seitz SM,Szeliski R(2008)Skeletal setsfor efficient structure from motion.In:Computer Vision and Pattern Recognition(CVPR)从所有图像集合中提取一个骨架集合,仅优化骨架集合中相应的相机参数,并用位置估计算法求解其他相机。Crandall DJ,Owens A,Snavely N,Huttenlocher D(2011)Discrete-continuous optimization for large-scale structurefrom motion.In:CVPR,pp 3001-3008结合GPS信息,使用离散置信度传播法对变量进行离散优化,并以此为初值进行连续的迭代优化。然而,由于存在大量的大量优化变量,优化效率和内存需求仍是运动推断结构的两大瓶颈。
发明内容
本发明的目的在于针对现有技术的不足,提供一种针对多视频序列的运动推断结构方法。
针对多视频序列的运动推断结构方法的步骤如下:
1)基于SIFT特征描述量,使用连续特征跟踪算法和非连续特征匹配算法,匹配分布于不同图像上对应于相同场景点的SIFT特征点;
2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点,使用运动推断结构算法,恢复各视频序列相应的子图,并将各视频序列相应的子图注册到统一的坐标系下;
3)使用基于分段的渐进式优化算法,迭代地将各视频序列相应的子图中存在的误差扩散并消除。
所述的步骤1)为:
(1)使用Lowe,D.G.:Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT算法,为每个视频序列的每帧图像提取SIFT特征点,并为每个SIFT特征点x计算一个SIFT描述量,标记为p(x);
(2)使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹,每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合,χ={xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置,f(χ)为χ跨越的连续帧集合;
(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹,并将所有视频序列首尾相邻形成一段虚拟序列,再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。
步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为:
①使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵,标记为M,将M中最大元素值记为Mmax
②令k=0,选择具有最大M(t1,t2)的帧对,标记为
Figure BDA0000143819620000031
将M中以
Figure BDA0000143819620000032
为中心3为半径的区域置0,使用Lowe,D.G.:Distinctive image features fromscale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT匹配算法匹配
Figure BDA0000143819620000033
得到
Figure BDA0000143819620000034
间的特征点匹配集合,标记为
Figure BDA0000143819620000036
构造特征轨迹匹配集合Cχ
Cχ={(χ1,χ2)|(x1,x2)∈Cx,x1∈χ1,x2∈χ2}
及帧对集合Cf
Cf={(t1,t2)|M(t1,t2)≠0,t1∈f(χ1),t2∈f(χ2),(χ1,χ2)∈Cχ}
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure BDA0000143819620000037
Figure BDA0000143819620000038
估计3x3的基础矩阵,标记为
Figure BDA0000143819620000039
为Cχ中的每个特征轨迹匹配(χ1,χ2)设置一个误差量
Figure BDA00001438196200000310
和计数器
Figure BDA00001438196200000311
e ( χ 1 , χ 2 ) = d ( F t 1 ( 0 ) , t 2 ( 0 ) , x 1 ( 0 ) , x 2 ( 0 ) ) 2
N ( χ 1 , χ 2 ) = 1
其中
Figure BDA00001438196200000314
Figure BDA00001438196200000315
分别为χ1、χ2在第
Figure BDA00001438196200000317
帧图像中对应的特征点位置,d(F,x1,x2)表示点x2到直线
Figure BDA00001438196200000318
间的距离,
Figure BDA00001438196200000319
表示一个二维点x的齐次坐标
Figure BDA00001438196200000320
为Cf中的每个帧对(t1,t2)设置一个计数器
Figure BDA00001438196200000321
N t 1 , t 2 = | { ( χ 1 , χ 2 ) | t 1 ∈ f ( χ 1 ) , t 2 ∈ f ( χ 2 ) , ( χ 1 , χ 2 ) ∈ C χ } |
③令k=k+1,选择具有最大且M(t1,t2)≠0的帧对,标记为
Figure BDA0000143819620000042
将M中以
Figure BDA0000143819620000043
为中心3为半径的区域置0,在Cχ中找到已匹配上的
Figure BDA0000143819620000044
间的特征点集合,标记为
Figure BDA0000143819620000045
C x ( k ) = { ( x 1 , x 2 ) | x 1 ∈ χ 1 , x 2 ∈ χ 2 , ( χ 1 , χ 2 ) ∈ C χ }
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure BDA0000143819620000047
Figure BDA0000143819620000048
估计3x3的基础矩阵,标记为
Figure BDA0000143819620000049
更新Cχ中的每个特征轨迹匹配(χ1,χ2)的误差量
Figure BDA00001438196200000410
和计数器
Figure BDA00001438196200000411
e ( χ 1 , χ 2 ) = e ( χ 1 , χ 2 ) + d ( F t 1 ( k ) , t 2 ( k ) , x 1 ( k ) , x 2 ( k ) ) 2
N ( χ 1 , χ 2 ) = N ( χ 1 , χ 2 ) + 1
其中
Figure BDA00001438196200000414
Figure BDA00001438196200000415
分别为χ1、χ2在第
Figure BDA00001438196200000416
Figure BDA00001438196200000417
帧图像中对应的特征点位置;
④使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的平面运动分割算法由集合
Figure BDA00001438196200000418
Figure BDA00001438196200000419
估计若干个3x3的单应矩阵,标记为H1,Λ,
Figure BDA00001438196200000420
NH为这样的单应矩阵的个数,对每个第
Figure BDA00001438196200000421
帧中尚未匹配上的特征点x1,用H1,Λ,
Figure BDA00001438196200000422
进行测试,将x1经过第i个平面运动后的位置标记为
Figure BDA00001438196200000423
这里Hi为第i个单应矩阵,将第
Figure BDA00001438196200000425
帧图像中以为中心,2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配,当NH个平面运动均测试完毕后,将x1的所有候选匹配构成的集合标记为
Figure BDA00001438196200000427
选出
Figure BDA00001438196200000428
中与x1的SIFT描述量最为相近的特征点,标记为
Figure BDA00001438196200000429
x 2 * = arg min x 2 ∈ t x 1 | | p ( x 1 ) - p ( x 2 ) | | 2
则将
Figure BDA00001438196200000432
视作一个新的特征点匹配,对应的特征轨迹匹配为(χ1,χ2),xx∈χ1
Figure BDA00001438196200000433
设置(χ1,χ2)的误差量
Figure BDA00001438196200000434
和计数器
Figure BDA00001438196200000435
e ( χ 1 , χ 2 ) = d ( F t 1 ( k ) , t 2 ( k ) , x 1 , x 2 * ) 2
N ( χ 1 , χ 2 ) = 1
更新Cχ、Cf
Figure BDA00001438196200000438
Cχ=CχY{(χ1,χ2)}
Cf=CfY{(t1,t2)|t1∈f(χ1),t2∈f(χ2)}
N t 1 , t 2 = N t 1 , t 2 + 1 , ∀ t 1 ∈ f ( χ 1 ) , ∀ t 2 ∈ f ( χ 2 )
⑤重复步骤③、步骤④,直至
Figure BDA00001438196200000440
对Cχ中的每个(χ1,χ2),若
Figure BDA00001438196200000441
将(χ1,χ2)合并成一条特征轨迹;
⑥重复步骤②~步骤⑤,直至M中所有元素值均小于0.2Mmax
所述的步骤2)为:
(1)将所有输入视频序列标记为V1,Λ,
Figure BDA0000143819620000051
其中NV为输入视频序列总数,使用Guofeng Zhang,Xueying Qin,Wei Hua,Tien-Tsin Wong,Pheng-Ann Heng,Hujun Bao:Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1,Λ,
Figure BDA0000143819620000052
恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置,形成NV个局部坐标系下的子图,将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj,k,tj,k),其中Rj,k为一个3x3的旋转矩阵,tj,k为一个3维平移向量,若第i个场景点在Vj中可见,则将第i个场景在Vj的局部坐标系下的坐标标记为Xij
(2)利用序列间匹配点构造匹配图,每个节点表示一个序列,若
Figure BDA0000143819620000053
Figure BDA0000143819620000054
间存在公共点,则在
Figure BDA0000143819620000055
Figure BDA0000143819620000056
间添加一条边,用集合
Figure BDA0000143819620000057
表示
Figure BDA0000143819620000059
间的公共点,
Figure BDA00001438196200000510
则连接
Figure BDA00001438196200000511
Figure BDA00001438196200000512
的边的权值为
Figure BDA00001438196200000513
令v=0,选择具有最多公共点的序列
Figure BDA00001438196200000514
Figure BDA00001438196200000515
为每个序列设置一个状态变量Fj,表示Vj是否注册到全局坐标系,令 F j = 0 , j ≠ j 0 1 , j = j 0 ;
(3)令v=v+1,
Figure BDA00001438196200000517
使用MARQUARDT,D.1963.Analgorithm for the least-squares estimation of nonlinear parameters提出的LM算法求解
Figure BDA00001438196200000518
的局部坐标系到全局坐标系的相似变换变换
Figure BDA00001438196200000519
arg min T S j v Σ r = 0 , Λ , v - 1 Σ ( X i j v , X i j r ) ∈ S j v j r | | s j v R S j v X i j v + t s j v - X i j r | | 2
其中
Figure BDA00001438196200000521
为标量,表示一个尺度因子,
Figure BDA00001438196200000522
为一个3x3的旋转矩阵,
Figure BDA00001438196200000523
为一个3维平移向量,用
Figure BDA00001438196200000524
Figure BDA00001438196200000525
作坐标变换,更新
Figure BDA00001438196200000526
中每个相机的运动参数
Figure BDA00001438196200000527
和每个三维点坐标
Figure BDA00001438196200000528
R j v , k = R j v , k ( R s j v ) T
t j v , k = s j v t j v , k - R j v , k t s j v
X i j v = s j v R s j v X i j v + t s j v
F j v = 1 ;
(4)重复步骤(3)直至v=NV-1,使用MARQUARDT,D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法,全局优化所有子图的相似变换
arg min T s 1 , Λ , T s N V Σ j 1 = 1 , Λ N V Σ j 2 = j 1 , Λ N V Σ ( X i j 1 , X i j 2 ) ∈ s j 1 j 2 | | ( s j 1 R s j 1 X i j 1 + t s j 1 ) - ( s j 2 R s j 2 X i j 2 + t s j 2 ) | | 2
用每个
Figure BDA0000143819620000062
更新其相应的Vj中每个相机的运动参数(Rjk,tjk)和每个三维点坐标Xij
R j , k = R j , k ( R s j ) T
t j , k = s j t j , k - R j , k t s j .
X ij = s j R s j X ij + t s j
所述的步骤3)为:
(1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差:
e 2 ( k , k + 1 ) = Σ i = 1 N P b i , j , k b i , j , k + 1 ( | | π ( K j , k , R j , k , t j , k , X i ) - x i , j , k | | 2 + | | π ( K j , k + 1 , R j , k + 1 , t j , k + 1 , X i ) - x i , j , k + 1 | | 2 ) Σ i = 1 N P b i , j , k b i , j , k + 1 其中,NP为场景中三维点的个数,若第i个三维点Xi在Vj的第k帧可见,则bi,j,k=1且xi,j,k为对应的图像特征点的二维图像坐标,否则bi,j,k=0,Kj,k为Vj的第k帧对应的相机内参矩阵,π(K,R,t,X)为投影函数,利用相机的内参矩阵K和运动参数(R,t)将三维点X投影为二维图像点x:
x = f x ( RX + t ) [ 1 ] ( RX + t ) [ 3 ] + c x f y ( RX + t ) [ 2 ] ( RX + t ) [ 3 ] + c y
这里假设内参矩阵为 K = f x 0 c x 0 f y c y 0 0 1 , 下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量;
(2)对每个序列Vj,将其头尾两端点和所有e2(k,k+1)>25的位置都定义为断点,断点将每个序列划分为若干个子序列,再将长度大等于2的子序列一分为二,假设NV个输入序列被划分NS个分段,为每个分段分配一个刚性变换,标记为其中的第j个分段的刚性变换表示为
Figure BDA00001438196200000611
为一个3x3的旋转矩阵,
Figure BDA00001438196200000612
为一个3维向量,使用Manolis I.A.Lourakis,Antonis A.Argyros:SBA:A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1):(2009)中的集束调整技术求解优化方程:
( T R 1 , Λ , T R N s , X 1 , Λ , X N P ) arg min T R 1 , Λ , T R N S , X 1 , Λ , X N P Σ i = 1 N P Σ j = 1 N S Σ k = 1 N F j b i , j , k | | π ( K j , k , R j , k , t j , k , R R j X i + t R j ) - x i , j , k | | 2 其中
Figure BDA0000143819620000072
表示第j个分段的帧数,用这NS个刚性变换更新原序列每帧的相机运动参数:
R j , k = R j , k R R j
t j , k = R j , k t R j + t j , k
(3)重复步骤(1)、步骤(2),直至对于所有序列的所有相邻两帧,均有e2(k,k+1)<25。
本发明与现有技术相比具有的有益效果:1)能够高效、鲁棒地匹配分布于非相邻子序列中的特征跟踪轨迹,以改善各子图的求解质量并统一各子图的坐标系;2)针对大尺度场景,能有效突破传统求解方法的内存和效率瓶颈,能在有限的内存环境下对整个场景三维结构和摄像机变量进行全局高效的优化。
附图说明
图1(a)是拍摄街道场景的18个视频序列的快照;
图1(b)是对街道场景恢复的相机运动轨迹和场景点云;
图1(c)是将恢复的相机运动轨迹重叠于Google Earth的卫星图上。
图2(a)是拍摄桌面场景的一个视频序列的快照;
图2(b)是估计的匹配矩阵;
图2(c)是本发明算法识别匹配矩阵高亮区域的示意图;
图3(a)是采用连续帧特征跟踪的重建结果;
图3(b)-(d)是采用连续帧特征跟踪导致的漂移现象;
图3(e)是采用基于匹配矩阵的特征轨迹匹配算法的重建结果;
图3(f)-(h)是采用基于匹配矩阵的特征轨迹匹配后漂移现象消除;
图4(a)是对街道场景的18个序列的相似变换局部优化的结果;
图4(b)是对街道场景的18个序列的相似变换全局优化的结果;
图4(c)是对街道场景采用基于分段的渐进式优化第1次迭代结果;
图4(d)是对街道场景采用基于分段的渐进式优化第2次迭代结果;
图4(e)是对街道场景采用基于分段的渐进式优化第19次迭代结果;
具体实施方式
针对多视频序列的运动推断结构方法的步骤如下:
1)基于SIFT特征描述量,使用连续特征跟踪算法和非连续特征匹配算法,匹配分布于不同图像上对应于相同场景点的SIFT特征点;
2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点,使用运动推断结构算法,恢复各视频序列相应的子图,并将各视频序列相应的子图注册到统一的坐标系下;
3)使用基于分段的渐进式优化算法,迭代地将各视频序列相应的子图中存在的误差扩散并消除。
所述的步骤1)为:
(1)使用Lowe,D.G.:Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT算法,为每个视频序列的每帧图像提取SIFT特征点,并为每个SIFT特征点x计算一个SIFT描述量,标记为p(x);
(2)使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹,每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合,χ={xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置,f(χ)为χ跨越的连续帧集合;
(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹,并将所有视频序列首尾相邻形成一段虚拟序列,再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。
步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为:
①使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵,标记为M,将M中最大元素值记为Mmax
②令k=0,选择具有最大M(t1,t2)的帧对,标记为
Figure BDA0000143819620000081
将M中以
Figure BDA0000143819620000082
为中心3为半径的区域置0,使用Lowe,D.G.:Distinctive image features fromscale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT匹配算法匹配
Figure BDA0000143819620000083
得到间的特征点匹配集合,标记为
Figure BDA0000143819620000085
Figure BDA0000143819620000086
构造特征轨迹匹配集合Cχ
Cχ={(χ1,χ2)|(x1,x2)∈Cx,x1∈χ1,x2∈χ2}
及帧对集合Cf
Cf={(t1,t2)|M(t1,t2)≠0,t1∈f(χ1),t2∈f(χ2),(χ1,χ2)∈Cχ}
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure BDA0000143819620000092
估计3x3的基础矩阵,标记为
Figure BDA0000143819620000093
为Cχ中的每个特征轨迹匹配(χ1,χ2)设置一个误差量
Figure BDA0000143819620000094
和计数器
Figure BDA0000143819620000095
e ( χ 1 , χ 2 ) = d ( F t 1 ( 0 ) , t 2 ( 0 ) , x 1 ( 0 ) , x 2 ( 0 ) ) 2
N ( χ 1 , χ 2 ) = 1
其中
Figure BDA0000143819620000098
Figure BDA0000143819620000099
分别为χ1、χ2在第
Figure BDA00001438196200000910
Figure BDA00001438196200000911
帧图像中对应的特征点位置,d(F,x1,x2)表示点x2到直线间的距离,
Figure BDA00001438196200000913
表示一个二维点x的齐次坐标
Figure BDA00001438196200000914
为Cf中的每个帧对(t1,t2)设置一个计数器
Figure BDA00001438196200000915
N t 1 , t 2 = | { ( χ 1 , χ 2 ) | t 1 ∈ f ( χ 1 ) , t 2 ∈ f ( χ 2 ) , ( χ 1 , χ 2 ) ∈ C χ } |
③令k=k+1,选择具有最大
Figure BDA00001438196200000917
且M(t1,t2)≠0的帧对,标记为
Figure BDA00001438196200000918
将M中以
Figure BDA00001438196200000919
为中心3为半径的区域置0,在Cχ中找到已匹配上的
Figure BDA00001438196200000920
间的特征点集合,标记为
Figure BDA00001438196200000921
C x ( k ) = { ( x 1 , x 2 ) | x 1 ∈ χ 1 , x 2 ∈ χ 2 , ( χ 1 , χ 2 ) ∈ C χ }
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure BDA00001438196200000923
Figure BDA00001438196200000924
估计3x3的基础矩阵,标记为
Figure BDA00001438196200000925
更新Cχ中的每个特征轨迹匹配(χ1,χ2)的误差量和计数器
e ( χ 1 , χ 2 ) = e ( χ 1 , χ 2 ) + d ( F t 1 ( k ) , t 2 ( k ) , x 1 ( k ) , x 2 ( k ) ) 2
N ( χ 1 , χ 2 ) = N ( χ 1 , χ 2 ) + 1
其中
Figure BDA00001438196200000930
分别为χ1、χ2在第
Figure BDA00001438196200000932
Figure BDA00001438196200000933
帧图像中对应的特征点位置;
④使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的平面运动分割算法由集合
Figure BDA00001438196200000934
Figure BDA00001438196200000935
估计若干个3x3的单应矩阵,标记为H1,Λ,
Figure BDA00001438196200000936
NH为这样的单应矩阵的个数,对每个第
Figure BDA00001438196200000937
帧中尚未匹配上的特征点x1,用H1,Λ,
Figure BDA00001438196200000938
进行测试,将x1经过第i个平面运动后的位置标记为
Figure BDA00001438196200000939
这里
Figure BDA00001438196200000940
Hi为第i个单应矩阵,将第
Figure BDA00001438196200000941
帧图像中以
Figure BDA00001438196200000942
为中心,2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配,当NH个平面运动均测试完毕后,将x1的所有候选匹配构成的集合标记为选出中与x1的SIFT描述量最为相近的特征点,标记为
Figure BDA00001438196200000945
x 2 * = arg min x 2 ∈ T x 1 | | p ( x 1 ) - p ( x 2 ) | | 2
Figure BDA0000143819620000102
则将
Figure BDA0000143819620000103
视作一个新的特征点匹配,对应的特征轨迹匹配为(χ1,χ2),x1∈χ1
Figure BDA0000143819620000104
设置(χ1,χ2)的误差量
Figure BDA0000143819620000105
和计数器
e ( χ 1 , χ 2 ) = d ( F t 1 ( k ) , t 2 ( k ) , x 1 , x 2 * ) 2
N ( χ 1 , χ 2 ) = 1
更新Cχ、Cf
Figure BDA0000143819620000109
Cχ=CχY{(χ1,χ2)}
Cf=CfY{(t1,t2)|t1∈f(χ1),t2∈f(χ2)}
N t 1 , t 2 = N t 1 , t 2 + 1 , ∀ t 1 ∈ f ( χ 1 ) , ∀ t 2 ∈ f ( χ 2 )
⑤重复步骤③、步骤④,直至
Figure BDA00001438196200001011
对Cχ中的每个(χ1,χ2),若
Figure BDA00001438196200001012
将(χ1,χ2)合并成一条特征轨迹;
⑥重复步骤②~步骤⑤,直至M中所有元素值均小于0.2Mmax
所述的步骤2)为:
(1)将所有输入视频序列标记为V1,Λ,
Figure BDA00001438196200001013
其中NV为输入视频序列总数,使用Guofeng Zhang,Xueying Qin,Wei Hua,Tien-Tsin Wong,Pheng-Ann Heng,Hujun Bao:Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1,Λ,
Figure BDA00001438196200001014
恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置,形成NV个局部坐标系下的子图,将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj,k,tj,k),其中Rj,k为一个3x3的旋转矩阵,tj,k为一个3维平移向量,若第i个场景点在Vj中可见,则将第i个场景在Vj的局部坐标系下的坐标标记为Xij
(2)利用序列间匹配点构造匹配图,每个节点表示一个序列,若
Figure BDA00001438196200001015
间存在公共点,则在
Figure BDA00001438196200001018
间添加一条边,用集合
Figure BDA00001438196200001019
表示
Figure BDA00001438196200001020
Figure BDA00001438196200001021
间的公共点,
Figure BDA00001438196200001022
则连接
Figure BDA00001438196200001023
Figure BDA00001438196200001024
的边的权值为
Figure BDA00001438196200001025
令v=0,选择具有最多公共点的序列
Figure BDA00001438196200001026
Figure BDA00001438196200001027
为每个序列设置一个状态变量Fj,表示Vj是否注册到全局坐标系,令 F j = 0 , j ≠ j 0 1 , j = j 0 ;
(3)令v=v+1,
Figure BDA00001438196200001029
使用MARQUARDT,D.1963.Analgorithm for the least-squares estimation of nonlinear parameters提出的LM算法求解
Figure BDA00001438196200001030
的局部坐标系到全局坐标系的相似变换变换
Figure BDA00001438196200001031
arg min T S j v Σ r = 0 , Λ , v - 1 Σ ( X i j v , X i j r ) ∈ S j v j r | | s j v R S j v X i j v + t S j v - X i j r | | 2
其中
Figure BDA0000143819620000112
为标量,表示一个尺度因子,
Figure BDA0000143819620000113
为一个3x3的旋转矩阵,
Figure BDA0000143819620000114
为一个3维平移向量,用
Figure BDA0000143819620000115
Figure BDA0000143819620000116
作坐标变换,更新
Figure BDA0000143819620000117
中每个相机的运动参数
Figure BDA0000143819620000118
和每个三维点坐标
Figure BDA0000143819620000119
R j v , k = R j v , k ( R S j v ) T
t j v , k = s j v t j v , k - R j v , k t S j v
X i j v = s j v R S j v X i j v + t S j v
F j v = 1 ;
(4)重复步骤(3)直至v=NV-1,使用MARQUARDT,D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法,全局优化所有子图的相似变换Λ,
arg min T S 1 , Λ , T S N V Σ j 1 = 1 , Λ N V Σ j 2 = j 1 , Λ N V Σ ( X i j 1 , X i j 2 ) ∈ S j 1 j 2 | | ( s j 1 R S j 1 X i j 1 + t S j 1 ) - ( s j 2 R S j 2 X i j 2 + t S j 2 ) | | 2
用每个
Figure BDA00001438196200001117
更新其相应的Vj中每个相机的运动参数(Rjk,tjk)和每个三维点坐标Xij
R j , k = R j , k ( R S j ) T
t j , k = s j t j , k - R j , k t S j .
X ij = s j R S j X ij + t S j
所述的步骤3)为:
(1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差:
e 2 ( k , k + 1 ) = Σ i = 1 N P b i , j , k b i , j , k + 1 ( | | π ( K j , k , R j , k t j , k , X i ) - x i , j , k | | 2 + | | π ( K j , k + 1 , R j , k + 1 , t j , k + 1 , X i ) - x i , j , k + 1 | | 2 ) Σ i = 1 N P b i , j , k b i , j , k + 1 其中,NP为场景中三维点的个数,若第i个三维点Xi在Vj的第k帧可见,则bi,j,k=1且xi,j,k为对应的图像特征点的二维图像坐标,否则bi,j,k=0,Kj,k为Vj的第k帧对应的相机内参矩阵,π(K,R,t,X)为投影函数,利用相机的内参矩阵K和运动参数(R,t)将三维点X投影为二维图像点x:
x = f x ( RX + t ) [ 1 ] ( RX + t ) [ 3 ] + c x f y ( RX + t ) [ 2 ] ( RX + t ) [ 3 ] + c y
这里假设内参矩阵为 K = f x 0 c x 0 f y c y 0 0 1 , 下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量;
(2)对每个序列Vj,将其头尾两端点和所有e2(k,k+1)>25的位置都定义为断点,断点将每个序列划分为若干个子序列,再将长度大等于2的子序列一分为二,假设NV个输入序列被划分NS个分段,为每个分段分配一个刚性变换,标记为
Figure BDA0000143819620000123
其中的第j个分段的刚性变换表示为
Figure BDA0000143819620000124
Figure BDA0000143819620000125
为一个3x3的旋转矩阵,
Figure BDA0000143819620000126
为一个3维向量,使用Manolis I.A.Lourakis,Antonis A.Argyros:SBA:A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1):(2009)中的集束调整技术求解优化方程:
( T R 1 , Λ , T R N S , X 1 , Λ , X N P ) arg min T R 1 , Λ , T R N S , X 1 , Λ , X N P Σ i = 1 N P Σ j = 1 N S Σ k = 1 N F j b i , j , k | | π ( K j , k , R j , k , t j , k , R R j X i + t R h ) - x i , j , k | | 2 其中表示第j个分段的帧数,用这NS个刚性变换更新原序列每帧的相机运动参数:
R j , k = R j , k R R j
t j , k = R j , k t R j + t j , k
(3)重复步骤(1)、步骤(2),直至对于所有序列的所有相邻两帧,均有e2(k,k+1)<25。
实施例
使用针对多视频序列的运动推断结构方法,为一个拍摄大规模场景的18个视频序列估计相机运动路径和场景点云。输入序列共包含27600帧,快照见图1(a),恢复的相机路径和场景点云见图1(b)。图1(c)中将恢复的相机路径重叠于Google Earth的卫星图上,以验证求解精度。包含所有计算在内,每帧平均处理时间为0.6秒。所有计算未涉及硬件加速,在单线程运行。
针对多视频序列的运动推断结构方法的步骤如下:
1)基于SIFT特征描述量,使用连续特征跟踪算法和非连续特征匹配算法,匹配分布于不同图像上对应于相同场景点的SIFT特征点;
2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点,使用运动推断结构算法,恢复各视频序列相应的子图,并将各视频序列相应的子图注册到统一的坐标系下;
3)使用基于分段的渐进式优化算法,迭代地将各视频序列相应的子图中存在的误差扩散并消除。
所述的步骤1)为:
(1)使用Lowe,D.G.:Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT算法,为每个视频序列的每帧图像提取SIFT特征点;
(2)使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的连续帧特征跟踪算法为18个视频序列分别进行特征跟踪,每个序列分别得到一系列特征跟踪轨迹;
(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹;如图2(a)所示的序列中包含940帧,选择24062条步骤(2)产生的特征跟踪轨迹估计匹配矩阵,如图2(b),耗时3秒;算法自动识别匹配矩阵中高亮区域的形状,见图2(c),并匹配对应于相同场景点的特征跟踪轨迹;与Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中的匹配策略相比,匹配时间由212秒减少为75秒,且匹配上的特征轨迹数由7676增加为13746;对单视频序列来说,匹配分布于非相邻子序列上的特征跟踪轨迹后,运动推断结构的求解质量得到明显提高,如图3(a)-(d),传统的连续跟踪导致重建结果存在严重的漂移现象,使用基于匹配矩阵的特征轨迹匹配算法后,漂移现象消除,如图3(e)-(h);对于多视频序列,将所有视频序列首尾相邻形成一段虚拟序列,再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹,如图1中的18个视频序列,使用基于匹配矩阵的特征轨迹匹配算法共耗时64分钟;
所述的步骤2)为:
(1)使用Guofeng Zhang,Xueying Qin,Wei Hua,Tien-Tsin Wong,Pheng-AnnHeng,Hujun Bao:Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法为图1中的18个输入序列分别恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置,形成18个局部坐标系下的子图;
(2)利用步骤1)中得到的序列间匹配点构造匹配图,每个节点表示一个序列,若
Figure BDA0000143819620000141
间存在公共点,则在
Figure BDA0000143819620000143
间添加一条边,用集合表示
Figure BDA0000143819620000145
Figure BDA0000143819620000146
间的公共点,选择具有最多公共点的序列
Figure BDA0000143819620000149
的局部坐标系设置为全局坐标系;
(3)由
Figure BDA00001438196200001411
出发遍历匹配图,每遍历到一个新的节点时,为该节点所对应序列求解一个局部坐标系到全局坐标系的相似变换;由于子图内部本身存在误差,基于局部优化的渐进式策略容易产生误差累积现象,如图4(a),循环回路无法闭合;
(4)全局优化所有子图的相似变换;如图4(b),虽各子图的内部误差虽未被消除,但却被迫相对均匀地分布到各序列上,为进一步优化提供了良好的初值;
所述的步骤3)为:
(1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差,标记为e2(k,k+1);
(2)对每个序列Vj,将其头尾两端点和所有e2(k,k+1)>25的位置都定义为断点,断点将每个序列划分为若干个子序列,再将长度大等于2的子序列一分为二,将18个输入序列重新分段,为每个分段分配一个刚性变换,使用Manolis I.A.Lourakis,Antonis A.Argyros:SBA:A software package for generic sparse bundleadjustment.ACM Trans.Math.Softw.36(1):(2009)中的集束调整技术联合优化各分段的刚性变换和三维点坐标;
(3)重复步骤(1)、步骤(2),直至对于所有序列的所有相邻两帧,均有e2(k,k+1)<25;随着迭代的进行,误差不断被扩散并减小,终得以消除,如图4(c)、(d)分别为第1次迭代和第2次迭代的优化结果,第19次迭代时算法收敛,如图4(e)。

Claims (5)

1.一种针对多视频序列的运动推断结构方法,其特征在于它的步骤如下:
1)基于SIFT特征描述量,使用连续特征跟踪算法和非连续特征匹配算法,匹配分布于不同图像上对应于相同场景点的SIFT特征点;
2)基于匹配分布于不同图像上对应于相同场景点的SIFT特征点,使用运动推断结构算法,恢复各视频序列相应的子图,并将各视频序列相应的子图注册到统一的坐标系下;
3)使用基于分段的渐进式优化算法,迭代地将各视频序列相应的子图中存在的误差扩散并消除。
2.根据权利要求1所述的一种针对多视频序列的运动推断结构方法,其特征在于所述的步骤1)为:
(1)使用Lowe,D.G.:Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT算法,为每个视频序列的每帧图像提取SIFT特征点,并为每个SIFT特征点x计算一个SIFT描述量,标记为p(x);
(2)使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的连续帧特征跟踪算法为每个视频序列分别进行特征跟踪得到一系列特征跟踪轨迹,每条特征跟踪轨迹χ定义为对应某场景点的SIFT特征点的集合,χ={xt|t∈f(χ)}其中xt为第t帧图像中对应于该场景点的SIFT特征点位置,f(χ)为χ跨越的连续帧集合;
(3)使用基于匹配矩阵的特征轨迹匹配算法为每个视频序列匹配分布于非相邻子序列上的特征跟踪轨迹,并将所有视频序列首尾相邻形成一段虚拟序列,再次使用基于匹配矩阵的特征轨迹匹配算法为虚拟序列匹配分布于非相邻子序列上的特征跟踪轨迹。
3.根据权利要求2所述的一种针对多视频序列的运动推断结构方法,其特征在于步骤(3)中所述的基于匹配矩阵的特征轨迹匹配算法为:
①使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的匹配矩阵估计算法为输入序列估计一个匹配矩阵,标记为M,将M中最大元素值记为Mmax
②令k=0,选择具有最大M(t1,t2)的帧对,标记为将M中以
Figure FDA0000143819610000012
为中心3为半径的区域置0,使用Lowe,D.G.:Distinctive image features fromscale-invariant keypoints.International Journal of Computer Vision 60,91-110(2004)中提出的SIFT匹配算法匹配
Figure FDA0000143819610000021
得到
Figure FDA0000143819610000022
间的特征点匹配集合,标记为
Figure FDA0000143819610000023
Figure FDA0000143819610000024
构造特征轨迹匹配集合Cχ
Cχ={(χ1,χ2)|(x1,x2)∈Cx,x1∈χ1,x2∈χ2}
及帧对集合Cf
Cf={(t1,t2)|M(t1,t2)≠0,t1∈f(χ1),t2∈f(χ2),(χ1,χ2)∈Cχ}
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure FDA0000143819610000025
Figure FDA0000143819610000026
估计3x3的基础矩阵,标记为为Cχ中的每个特征轨迹匹配(χ1,χ2)设置一个误差量
Figure FDA0000143819610000028
和计数器
Figure FDA0000143819610000029
e ( χ 1 , χ 2 ) = d ( F t 1 ( 0 ) , t 2 ( 0 ) , x 1 ( 0 ) , x 2 ( 0 ) ) 2
N ( χ 1 , χ 2 ) = 1
其中
Figure FDA00001438196100000212
Figure FDA00001438196100000213
分别为χ1、χ2在第 帧图像中对应的特征点位置,d(F,x1,x2)表示点x2到直线
Figure FDA00001438196100000216
间的距离,表示一个二维点x的齐次坐标
Figure FDA00001438196100000218
为Cf中的每个帧对(t1,t2)设置一个计数器
N t 1 , t 2 = | { ( χ 1 , χ 2 ) | t 1 ∈ f ( χ 1 ) , t 2 ∈ f ( χ 2 ) , ( χ 1 , χ 2 ) ∈ C χ } |
③令k=k+1,选择具有最大
Figure FDA00001438196100000221
且M(t1,t2)≠0的帧对,标记为将M中以
Figure FDA00001438196100000223
为中心3为半径的区域置0,在Cχ中找到已匹配上的间的特征点集合,标记为
Figure FDA00001438196100000225
C x ( k ) = { ( x 1 , x 2 ) | x 1 ∈ χ 1 , x 2 ∈ χ 2 , ( χ 1 , χ 2 ) ∈ C χ }
使用Richard I.Hartley:In Defense of the Eight-Point Algorithm.IEEE Trans.Pattern Anal.Mach.Intell.19(6):580-593(1997)提出的基础矩阵估计算法由集合
Figure FDA00001438196100000228
估计3x3的基础矩阵,标记为
Figure FDA00001438196100000229
更新Cχ中的每个特征轨迹匹配(χ1,χ2)的误差量
Figure FDA00001438196100000230
和计数器
Figure FDA00001438196100000231
e ( χ 1 , χ 2 ) = e ( χ 1 , χ 2 ) + d ( F t 1 ( k ) , t 2 ( k ) , x 1 ( k ) , x 2 ( k ) ) 2
N ( χ 1 , χ 2 ) = N ( χ 1 , χ 2 ) + 1
其中
Figure FDA00001438196100000234
Figure FDA00001438196100000235
分别为χ1、χ2在第
Figure FDA00001438196100000236
帧图像中对应的特征点位置;
④使用Zhang G,Dong Z,Jia J,Wong TT,Bao H(2010)Efficientnon-consecutive feature tracking for structure-from-motion.In:ECCV(5),pp422-435中提出的平面运动分割算法由集合
Figure FDA00001438196100000238
估计若干个3x3的单应矩阵,标记为H1,Λ,
Figure FDA0000143819610000031
NH为这样的单应矩阵的个数,对每个第
Figure FDA0000143819610000032
帧中尚未匹配上的特征点x1,用H1,Λ,
Figure FDA0000143819610000033
进行测试,将x1经过第i个平面运动后的位置标记为
Figure FDA0000143819610000034
这里
Figure FDA0000143819610000035
Hi为第i个单应矩阵,将第
Figure FDA0000143819610000036
帧图像中以为中心,2为半径的区域内的所有尚未匹配上的特征点x2都作为x1的候选匹配,当NH个平面运动均测试完毕后,将x1的所有候选匹配构成的集合标记为
Figure FDA0000143819610000038
选出
Figure FDA0000143819610000039
中与x1的SIFT描述量最为相近的特征点,标记为
Figure FDA00001438196100000310
x 2 * = arg min x 2 ∈ T x 1 | | p ( x 1 ) - p ( x 2 ) | | 2
Figure FDA00001438196100000312
则将
Figure FDA00001438196100000313
视作一个新的特征点匹配,对应的特征轨迹匹配为(χ1,χ2),x1∈χ1
Figure FDA00001438196100000314
设置(χ1,χ2)的误差量
Figure FDA00001438196100000315
和计数器
Figure FDA00001438196100000316
e ( χ 1 , χ 2 ) = d ( F t 1 ( k ) , t 2 ( k ) , x 1 , x 2 * ) 2
N ( χ 1 , χ 2 ) = 1
更新Cχ、Cf
Cχ=CχY{(χ1,χ2)}
Cf=CfY{(t1,t2)|t1∈f(χ1),t2∈f(χ2)}
N t 1 , t 2 = N t 1 , t 2 + 1 , ∀ t 1 ∈ f ( χ 1 ) , ∀ t 2 ∈ f ( χ 2 )
⑤重复步骤③、步骤④,直至
Figure FDA00001438196100000321
对Cχ中的每个(χ1,χ2),若
Figure FDA00001438196100000322
将(χ1,χ2)合并成一条特征轨迹;
⑥重复步骤②~步骤⑤,直至M中所有元素值均小于0.2Mmax
4.根据权利要求1所述的一种针对多视频序列的运动推断结构方法,其特征在于所述的步骤2)为:
(1)将所有输入视频序列标记为V1,Λ,
Figure FDA00001438196100000323
其中NV为输入视频序列总数,使用Guofeng Zhang,Xueying Qin,Wei Hua,Tien-Tsin Wong,Pheng-Ann Heng,Hujun Bao:Robust Metric Reconstruction from Challenging Video Sequences.CVPR 2007提出的运动推断结构算法分别为V1,Λ,恢复每帧对应的相机运动参数和每条特征轨迹对应的三维点位置,形成NV个局部坐标系下的子图,将第j个序列的第k帧在Vj的局部坐标系下的相机运动参数标记为(Rj,k,tj,k),其中Rj,k为一个3x3的旋转矩阵,tj,k为一个3维平移向量,若第i个场景点在Vj中可见,则将第i个场景在Vj的局部坐标系下的坐标标记为Xij
(2)利用序列间匹配点构造匹配图,每个节点表示一个序列,若
Figure FDA00001438196100000325
Figure FDA00001438196100000326
间存在公共点,则在
Figure FDA00001438196100000327
Figure FDA00001438196100000328
间添加一条边,用集合
Figure FDA00001438196100000329
表示
Figure FDA00001438196100000330
Figure FDA00001438196100000331
间的公共点,
Figure FDA00001438196100000332
则连接
Figure FDA00001438196100000333
的边的权值为
Figure FDA00001438196100000335
令v=0,选择具有最多公共点的序列
Figure FDA0000143819610000041
Figure FDA0000143819610000042
为每个序列设置一个状态变量Fj,表示Vj是否注册到全局坐标系,令 F j = 0 , j ≠ j 0 1 , j = j 0 ;
(3)令v=v+1,
Figure FDA0000143819610000044
使用MARQUARDT,D.1963.Analgorithm for the least-squares estimation of nonlinear parameters提出的LM算法求解
Figure FDA0000143819610000045
的局部坐标系到全局坐标系的相似变换变换
Figure FDA0000143819610000046
arg min T S j v Σ r = 0 , Λ , v - 1 Σ ( X i j v , X i j r ) ∈ S j v j r | | s j v R S j v X i j v + t S j v - X i j r | | 2
其中
Figure FDA0000143819610000048
为标量,表示一个尺度因子,
Figure FDA0000143819610000049
为一个3x3的旋转矩阵,
Figure FDA00001438196100000410
为一个3维平移向量,用
Figure FDA00001438196100000411
Figure FDA00001438196100000412
作坐标变换,更新
Figure FDA00001438196100000413
中每个相机的运动参数
Figure FDA00001438196100000414
和每个三维点坐标
Figure FDA00001438196100000415
R j v , k = R j v , k ( R S j v ) T
t j v , k = S j v t j v , k - R j v , k t S j v
X i j v = s j v R S j v X i j v + t S j v
F j v = 1 ;
(4)重复步骤(3)直至v=NV-1,使用MARQUARDT,D.1963.An algorithmfor the least-squares estimation of nonlinear parameters提出的LM算法,全局优化所有子图的相似变换
Figure FDA00001438196100000420
Λ,
arg min T S 1 , Λ , T S N V Σ j 1 = 1 , Λ N V Σ j 2 = j 1 , Λ N V Σ ( X i j 1 , X i j 2 ) ∈ j 1 j 2 | | ( s j 1 R S j 1 X i j 1 + t S j 1 ) - ( s j 2 R S j 2 X i j 2 + t S j 2 ) | | 2
用每个
Figure FDA00001438196100000423
更新其相应的Vj中每个相机的运动参数(Rjk,tjk)和每个三维点坐标Xij
R j , k = R j , k ( R S j ) T
t j , k = s j t j , k - R j , k t S j .
X ij = s j R S j X ij + t S j
5.根据权利要求1所述的一种针对多视频序列的运动推断结构方法,其特征在于所述的步骤3)为:
(1)为每个序列Vj的每相邻的k、k+1两帧计算重投影误差:
e 2 ( k , k + 1 ) = Σ i = 1 N P b i , j , k b i , j , k + 1 ( | | π ( K j , k , R j , k t j , k , X i ) - x i , j , k | | 2 + | | π ( K j , k + 1 , R j , k + 1 , t j , k + 1 , X i ) - x i , j , k + 1 | | 2 ) Σ i = 1 N P b i , j , k b i , j , k + 1 其中,
NP为场景中三维点的个数,若第i个三维点Xi在Vj的第k帧可见,则bi,j,k=1且xi,j,k为对应的图像特征点的二维图像坐标,否则bi,j,k=0,Kj,k为Vj的第k帧对应的相机内参矩阵,π(K,R,t,X)为投影函数,利用相机的内参矩阵K和运动参数(R,t)将三维点X投影为二维图像点x:
x = f x ( RX + t ) [ 1 ] ( RX + t ) [ 3 ] + c x f y ( RX + t ) [ 2 ] ( RX + t ) [ 3 ] + c y
这里假设内参矩阵为 K = f x 0 c x 0 f y c y 0 0 1 , 下标符号[1]、[2]、[3]分别表示三维向量(RX+t)中的第1、2、3维分量;
(2)对每个序列Vj,将其头尾两端点和所有e2(k,k+1)>25的位置都定义为断点,断点将每个序列划分为若干个子序列,再将长度大等于2的子序列一分为二,假设NV个输入序列被划分NS个分段,为每个分段分配一个刚性变换,标记为
Figure FDA0000143819610000053
其中的第j个分段的刚性变换表示为
Figure FDA0000143819610000054
Figure FDA0000143819610000055
为一个3x3的旋转矩阵,
Figure FDA0000143819610000056
为一个3维向量,使用Manolis I.A.Lourakis,Antonis A.Argyros:SBA:A software package for generic sparse bundle adjustment.ACM Trans.Math.Softw.36(1):(2009)中的集束调整技术求解优化方程:
( T R 1 , Λ , T R N s , X 1 , Λ , X N P ) arg min T R 1 , Λ , T R N S , X 1 , Λ , X N P Σ i = 1 N P Σ j = 1 N S Σ k = 1 N F j b i , j , k | | π ( K j , k , R j , k , t j , k , R R j X i + t R j ) - x i , j , k | | 2 其中
Figure FDA0000143819610000058
表示第j个分段的帧数,用这NS个刚性变换更新原序列每帧的相机运动参数:
R j , k = R j , k R R j
t j , k = R j , k t R j + t j , k
(3)重复步骤(1)、步骤(2),直至对于所有序列的所有相邻两帧,均有e2(k,k+1)<25。
CN201210069008.4A 2012-03-15 2012-03-15 一种针对多视频序列的运动推断结构方法 Active CN102663772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210069008.4A CN102663772B (zh) 2012-03-15 2012-03-15 一种针对多视频序列的运动推断结构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210069008.4A CN102663772B (zh) 2012-03-15 2012-03-15 一种针对多视频序列的运动推断结构方法

Publications (2)

Publication Number Publication Date
CN102663772A true CN102663772A (zh) 2012-09-12
CN102663772B CN102663772B (zh) 2014-08-20

Family

ID=46773250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210069008.4A Active CN102663772B (zh) 2012-03-15 2012-03-15 一种针对多视频序列的运动推断结构方法

Country Status (1)

Country Link
CN (1) CN102663772B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574311A (zh) * 2015-01-06 2015-04-29 华为技术有限公司 图像处理方法和装置
CN107798687A (zh) * 2017-09-26 2018-03-13 上海大学 一种基于稀疏时变图的幻灯片切换检测方法
US9940524B2 (en) 2015-04-17 2018-04-10 General Electric Company Identifying and tracking vehicles in motion
US10043307B2 (en) 2015-04-17 2018-08-07 General Electric Company Monitoring parking rule violations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383046A (zh) * 2008-10-17 2009-03-11 北京大学 一种基于图像的三维重建方法
CN101655982A (zh) * 2009-09-04 2010-02-24 上海交通大学 基于改进Harris角点的图像配准方法
CN101714254A (zh) * 2009-11-16 2010-05-26 哈尔滨工业大学 联合多尺度sift和区域不变矩特征的配准控制点提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383046A (zh) * 2008-10-17 2009-03-11 北京大学 一种基于图像的三维重建方法
CN101655982A (zh) * 2009-09-04 2010-02-24 上海交通大学 基于改进Harris角点的图像配准方法
CN101714254A (zh) * 2009-11-16 2010-05-26 哈尔滨工业大学 联合多尺度sift和区域不变矩特征的配准控制点提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
章国锋 等: "面向增强视频的基于结构和运动恢复的摄像机定标", 《计算机学报》, vol. 29, no. 12, 31 December 2006 (2006-12-31), pages 2104 - 2111 *
章国锋: "视频场景的重建与增强处理", 《中国博士学位论文全文数据库 信息科技辑》, no. 7, 15 July 2010 (2010-07-15), pages 138 - 43 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574311A (zh) * 2015-01-06 2015-04-29 华为技术有限公司 图像处理方法和装置
CN104574311B (zh) * 2015-01-06 2017-08-11 华为技术有限公司 图像处理方法和装置
US10382737B2 (en) 2015-01-06 2019-08-13 Huawei Technologies Co., Ltd. Image processing method and apparatus
US10630956B2 (en) 2015-01-06 2020-04-21 Huawei Technologies Co., Ltd. Image processing method and apparatus
US9940524B2 (en) 2015-04-17 2018-04-10 General Electric Company Identifying and tracking vehicles in motion
US10043307B2 (en) 2015-04-17 2018-08-07 General Electric Company Monitoring parking rule violations
US10380430B2 (en) 2015-04-17 2019-08-13 Current Lighting Solutions, Llc User interfaces for parking zone creation
US10872241B2 (en) 2015-04-17 2020-12-22 Ubicquia Iq Llc Determining overlap of a parking space by a vehicle
US11328515B2 (en) 2015-04-17 2022-05-10 Ubicquia Iq Llc Determining overlap of a parking space by a vehicle
CN107798687A (zh) * 2017-09-26 2018-03-13 上海大学 一种基于稀疏时变图的幻灯片切换检测方法
CN107798687B (zh) * 2017-09-26 2021-08-06 上海大学 一种基于稀疏时变图的幻灯片切换检测方法

Also Published As

Publication number Publication date
CN102663772B (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
Lim et al. Real-time 6-DOF monocular visual SLAM in a large-scale environment
Botterill et al. Real-time aerial image mosaicing
Zhang et al. Efficient non-consecutive feature tracking for robust structure-from-motion
US10269148B2 (en) Real-time image undistortion for incremental 3D reconstruction
Raposo et al. Theory and practice of structure-from-motion using affine correspondences
US8442307B1 (en) Appearance augmented 3-D point clouds for trajectory and camera localization
US20180315232A1 (en) Real-time incremental 3d reconstruction of sensor data
CN103646391A (zh) 一种针对动态变化场景的实时摄像机跟踪方法
CN110135455A (zh) 影像匹配方法、装置及计算机可读存储介质
CN110555901A (zh) 动静态场景的定位和建图方法、装置、设备和存储介质
Košecka Detecting changes in images of street scenes
Nassar et al. Simultaneous multi-view instance detection with learned geometric soft-constraints
Pautrat et al. Gluestick: Robust image matching by sticking points and lines together
CN102663772B (zh) 一种针对多视频序列的运动推断结构方法
Li et al. 4FP-structure: A robust local region feature descriptor
Bellavia et al. Challenges in image matching for cultural heritage: an overview and perspective
Zhao et al. RTSfM: Real-time structure from motion for mosaicing and DSM mapping of sequential aerial images with low overlap
JP2024008869A (ja) マルチターゲット・マルチカメラヘッド追跡のための方法及び装置
Gao et al. Pose refinement with joint optimization of visual points and lines
Abdellali et al. L2D2: Learnable line detector and descriptor
Zhang et al. Convmatch: Rethinking network design for two-view correspondence learning
Wang et al. Construction Photo Localization in 3D Reality Models for Vision-Based Automated Daily Project Monitoring
Huang et al. Life: Lighting invariant flow estimation
Long et al. Detail preserving residual feature pyramid modules for optical flow
Wang et al. PointIT: A fast tracking framework based on 3D instance segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210708

Address after: Room 288-8, 857 Shixin North Road, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG SHANGTANG TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 310027 No. 38, Zhejiang Road, Hangzhou, Zhejiang, Xihu District

Patentee before: ZHEJIANG University