CN104463962B

CN104463962B - 基于gps信息视频的三维场景重建方法

Info

Publication number: CN104463962B
Application number: CN201410752454.4A
Authority: CN
Inventors: 汪萌; 张鹿鸣; 郭丹; 刘奕群; 孙茂松; 鲁志红
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2017-02-22
Anticipated expiration: 2034-12-09
Also published as: CN104463962A

Abstract

本发明公开了一种基于GPS信息视频的三维场景重建方法，其特征是按如下步骤进行：1、构建基于GPS信息的FOV模型集合并去除冗余帧数据；2、构建重建帧矩阵；3、抽取关键帧；4、三维重建所述目标场景。本发明能快速准确地提取视频关键帧，从而提高三维场景重建方法的精度和效率。

Description

基于GPS信息视频的三维场景重建方法

技术领域

本发明属于计算机视觉、计算机图形学、人工智能技术领域，主要涉及一种基于地理标签视频的3D场景自动重建系统。

背景技术

三维场景重建方法是一种智能图像分析方法，其目的就是为了获得现实世界中物体的空间位置数据和表面纹理图像，并重建出物理尺寸和表面特征均具有高度真实感三维数字模型，即构造出物体的三维信息，是计算机视觉领域热门研究课题之一。三维场景重建可应用于工业制造、建筑、三维计算机游戏、面部动画、机器人导航、视觉监控等方面。

随着现代传感技术和信息处理技术的发展，三维场景重建也得到了巨大的发展，但是仍然面临以下两点问题：

一：现有的三维场景重建方法，在关键帧的提取过程中是基于几何模型来确定帧之间的匹配点，这些几何模型集中在视频各帧内容级或点级之间的处理，从而导致了计算的过程很复杂；而且依赖视频中连续两帧进行对比的重建方法，计算数量比较大，使得三维场景重建的效率比较低；

例如2010年，Mirza Tahir Ahmed等作者在国际会议Computer Vision Theoryand Applications上发表的文章《Robust Key Frame Extraction for 3DReconstruction from Video Streams》中提出的一种三维重建方法，该方法中利用两帧之间对应点的数目和两帧之间的对应点对极线的成本这两个特征来选择关键帧，在选择关键帧之前没有对帧做筛选处理，依次选择视频中连续两帧进行对比的重建方法，使得计算量大，数学模型复杂，从而导致应用推广复杂度比较高；

二：现有基于地理信息的三维场景重建方法基于启发式预测视频帧所对应的摄像头位置信息，实现重建，但是用这种方法导致重构的精度不高；

例如2007年，Philippos Mordohai等作者在工作组ISPRS上发表的《Real-timeVideo-based Reconstruction ofUrban Environments》这篇文章中提到的利用全球定位系统(GPS)数据，就是视频各帧所对应的地理信息来完成一个三维场景重建系统，该方法基于启发式预测视频所对应的摄像头位置，而且仅仅考虑了地理位置的信息，例如经纬度；直接简单地从视频流中的挑选连续帧作为关键帧对比，常常超出三维场景重建的基准线，存在精度问题，从而导致重建效果不好，该方法实用性不高；

因此，到目前为止，缺乏一种重建精度高而且效率高的3D场景自动重建技术。

发明内容

本发明为解决上述现有技术存在的不足之处，提出一种基于GPS信息视频的三维场景重建方法，以期快速准确地提取视频关键帧，从而提高三维场景重建方法的精度和效率。

本发明为解决方法问题采用如下方法方案：

本发明一种基于GPS信息视频的三维场景重建方法的特点是按如下步骤进行：

步骤1、构建基于GPS信息的FOV模型集合并去除冗余帧数据：

步骤1.1、利用带有摄像头和GPS功能的移动设备获取含有GPS信息的M帧目标场景的视频数据，所述GPS信息包括：摄像头的经纬度向量、摄像头的仰角和摄像头的视角，由所述M帧视频数据构建M个FOV模型三元组，从而构建基于GPS信息的FOV模型集合，记为1≤m≤M；表示第m帧视频数据的FOV模型三元组；并有：p_m∈R^2×1表示第m帧视频数据所对应的摄像头的经纬度向量；θ_m表示第m帧视频数据所对应的摄像头的仰角；η_m表示第m帧视频数据所对应的摄像头的视角；

步骤1.2、利用式(1)去除所述M帧视频数据中不含有所述目标场景的冗余帧数据，从而获得N帧剩余帧数据：

式(1)中，表示所述目标场景的经纬度向量，表示第m帧视频数据所对应的摄像头的经纬度向量到所述目标场景的经纬度向量之间的角度；

步骤2、构建重建帧矩阵Q：

步骤2.1、利用图像特征提取方法获取所述N帧剩余帧数据的颜色特征向量和HOG特征；并由所述N帧剩余帧数据所对应的摄像头的经纬度向量、颜色特征向量和HOG特征构建所述N帧剩余帧数据的联合特征矩阵P；并有：所述联合特征矩阵P的转置矩阵P^T∈R^d×N；表示第n帧剩余帧的联合特征向量；d表示所述联合特征向量的维度；并有：1≤n≤N；p_n表示第n帧剩余帧数据所对应的摄像头的经纬度向量；表示第n帧剩余帧图像的颜色特征向量；表示第n帧剩余帧图像的HOG特征；

步骤2.2、采用最小二乘方法对式(2)进行求解，获得重建贡献矩阵W，W∈R^N×N；

目标函数：

约束条件：

式(2)中，w_ij表示所述重建贡献矩阵W的第i行第j列元素；表示第i帧剩余帧的联合特征向量；f_j表示第j帧剩余帧；Ψ(f_i)表示第i帧剩余帧f_i在所述M帧视频数据中所对应帧的邻域帧集合，1≤i≤N；

式(3)表示第j帧剩余帧f_j不属于第i帧剩余帧f_i的邻域帧集合时，所述重建贡献矩阵W的第i行第j列元素w_ij＝0；

式(4)表示重建贡献矩阵W的第i行各元素满足归一化约束；

步骤2.3、利用式(5)构建重建代价矩阵U：

U＝(I-W)^T(I-W) (5)

式(5)中，I表示对角线为1的对角矩阵；U,I∈R^N×N；

步骤2.4、选择所述N帧剩余帧的前χ帧数据作为候选关键帧，并利用式(6)获得重建选择帧矩阵Γ的第u行第u列元素e_u,u，从而获得重建选择帧矩阵Γ；

式(6)中，所述重建选择帧矩阵Γ为对角矩阵；Γ∈R^N×N；

步骤2.5、利用式(7)获得重建帧矩阵Q，Q∈R^N×d：

Q＝(μU+Γ)^-1ΓP (7)

式(7)中，μ表示正则化参数；

步骤3、抽取关键帧：

步骤3.1、定义第一轮抽取次数为t；并初始化所述第一轮抽取次数t＝0；0≤t≤χ；定义第t次抽取关键帧集合为F_t，并初始化所述第t次抽取关键帧集合F_t为空；

步骤3.2、利用式(8)获得所述第一轮第t次抽取的选择矩阵Λ_t的第v行第v列元素从而获得选择矩阵Λ_t：

式(8)中，选择矩阵Λ_t为对角矩阵，Λ_t∈R^N×N；

步骤3.3、利用式(9)获得抽取过渡矩阵H_t，H_t∈R^N×N：

H_t＝(μU+Λ_t)^-1 (9)

步骤3.4、将t+1的值赋值给t；

步骤3.5、利用式(10)在剩余帧集合中抽取第t帧关键帧f_t：

式(10)中，F_t-1表示第t-1次抽取的抽取关键帧集合；表示所述抽取过渡矩阵H_t的第τ个行向量；表示所述抽取过渡矩阵H_t的第τ个列向量；表示所述抽取过渡矩阵H_t的第τ行第τ列元素；

步骤3.6、利用式(11)获得第t次抽取关键帧集合F_t：

F_t＝F_t-1∪{f_t} (11)

步骤3.7、重复执行步骤3.2-步骤3.6，直到所述第一轮抽取次数t＝L，从而获得第L次抽取关键帧集合F_L＝{f₁,...,f_l,...,f_L}；1≤l≤L；f_l表示所述第一轮第l次抽取的关键帧；L为所设定的抽取次数，并有1≤L≤χ；

步骤4、三维重建所述目标场景：

步骤4.1、获得所述第L次抽取关键帧集合F_L中各关键帧的FOV模型三元组

步骤4.2更新关键帧，从而获得更新的抽取关键帧集合F_b'＝{f₁′,...,f_s′,...,f_S′}，1≤s≤S；S表示所述更新的抽取关键帧集合F_b'的总帧数，1≤S≤L；

步骤4.3再次更新关键帧，从而获得再次更新的抽取关键帧集合F_c″＝{f₁′,′...,f_k″,...,f_K″}；1≤k≤K；K表示所述再次更新的抽取关键帧集合F_c″的总帧数，1≤K≤S；

步骤4.4、将所述再次更新的抽取关键帧集合F_c″＝{f₁″,...,f_k″,...,f_K″}及所述再次更新的抽取关键帧集合F_c″所对应的FOV模型集合输入到CMVS系统中映射成聚类的视图；根据所述聚类的视图，采用PMVS2系统生成定向点，从而利用所述定向点重建所述目标场景的三维场景。

本发明所述的基于GPS信息视频的三维场景重建方法的特点也在于：

所述步骤4.1是按如下步骤进行：

步骤4.1.1、采用尺度不变的特征转换法提取所述第L次抽取关键帧集合F_L中第l次抽取的关键帧f_l的局部性特征SIFT特征，从而获得所述第L次抽取关键帧集合F_L中各关键帧的局部性特征SIFT特征；

步骤4.1.2、利用SfM和Bundler工具包对所述第l次抽取的关键帧f_l的局部性特征SIFT特征在所述M帧视频数据中进行匹配，获得与所述第l次抽取的关键帧f_l匹配精度最高的帧g_l；并记为成对帧二元组(f_l,g_l)；

步骤4.1.3、基于所述成对帧二元组(f_l,g_l)，采用稀疏Bundler调整方法和直接线性变换解法优化所述第l次抽取的关键帧f_l的FOV模型三元组并有表示第l次抽取的关键帧f_l所对应的摄像头的经纬度向量；表示第l次抽取的关键帧f_l所对应的摄像头的仰角；表示第l次抽取的关键帧f_l所对应的摄像头的视角；从而获得所述第L次抽取帧集合F_L中各关键帧的FOV模型三元组，记为所述第L次抽取关键帧集合F_L中各帧的FOV模型三元组即为所述各关键帧视频数据所对应的摄像头的经纬度向量、仰角及视角。

所述步骤4.2是按如下步骤进行：

步骤4.2.1、由所述第一轮第l次抽取的关键帧f_l的FOV模型三元组获得第l次抽取的关键帧f_l所对应的摄像头覆盖区域从而获得所述抽取关键帧集合F_L中各关键帧所对应的摄像头覆盖区域

步骤4.2.2、定义第二轮抽取次数b，并初始化所述第二轮抽取次数b＝1；定义第b次更新的抽取关键帧集合为F_b'；初始化所述更新的抽取关键帧集合F_b'＝{f₁}；

步骤4.2.3、将b+1的值赋值给b；

步骤4.2.4、利用式(12)获得所述更新的抽取关键帧集合F_b'：

式(12)中，f_b表示所述第L次抽取关键帧集合F_L中排序第b次的关键帧；

步骤4.2.5、重复执行步骤4.2.3-步骤4.2.4，直到所述第二轮抽取次数b＝L，从而获得所述更新的抽取关键帧集合F_b'＝{f₁′,...,f_s′,...,f_S′}；f_s′表示所述更新的抽取关键集合F_b'中第s个的关键帧。

所述步骤4.3是按如下步骤进行：

步骤4.3.1、由所述更新的抽取关键帧集合F_b'＝{f₁′,...,f_s′,...,f_S′}；获得所述更新的抽取关键帧集合F_b'中各关键帧的FOV模型集合表示第s个的关键帧f_s′的FOV模型三元组即为所述第s个的关键帧f_s′所对应的摄像头的经纬度向量、仰角及视角；

步骤4.3.2、定义第三轮抽取次数c，并初始化所述第三轮抽取次数c＝1；定义第c次再次更新的抽取关键帧集合为F_c″；初始化所述再次更新的抽取关键帧集合F_c″为空；

步骤4.3.3、将c+1的值赋值给c；

步骤4.3.4、获取所述更新的抽取关键帧集合F_b'中第c个的关键帧f_c′，基于SIFT描述符投影误差方法检测第c个的关键帧f_c′是否大于误差阈值Δ，Δ∈(0,0.1]；若大于，则表示第c个的关键帧f_c′属于异常关键帧，并利用式(13)获得再次更新的抽取关键帧集合F_c″：

步骤4.3.5、重复执行步骤4.3.3-步骤4.3.4，直到所述第三轮抽取次数c＝S，从而获得再次更新的抽取集合F_c″＝{f₁′,′...,f_k″,...,f_K″}；f_k″表示所述再次更新的抽取关键帧集合F_c″中第k个的关键帧；

步骤4.3.6、获取所述再次更新的抽取关键帧集合F_c″中各关键帧的FOV模型集合表示所述第k个的关键帧f_k″所对应的摄像头的经纬度向量、仰角及视角。

与已有技术相比，本发明有益效果体现在：

1、本发明通过三次抽取关键帧的方法，从视频中选择适用于目标场景三维重建的关键帧，抽取的关键帧能实现重建代价小且重建精度高：第一次抽取，通过构建联合特征矩阵和重构代价矩阵获得重建帧矩阵，抽取使得重建代价最小的关键帧，此抽取过程属于主动学习算法，保证抽取关键帧的有效性；第二次抽取，去除摄像头覆盖区域重复的冗余关键帧，获得更新的抽取关键帧集合，减少不必要的冗余计算；第三次抽取，去除异常关键帧获得再次更新的抽取关键帧集合，去除干扰三维重建精度的异常帧，既能保证三维重建精度也降低了计算量，本发明抽取过程中的使用的数学模型简单有效，计算量低，运算简单，效率得到了提高。

2、和以往研究的基于地理信息的三维场景重建方法相比，本发明构建地理信息的FOV模型三元组，包括：视频拍摄时摄像头的经纬度向量、仰角和视角，关键帧包含的摄像头的地理信息更加丰富，解决了以往技术仅利用摄像头位置信息，例如仅利用GPS系统采集的摄像头经纬度向量，简单抽取连续帧实现三维场景重建而导致的精度问题。

3、本发明通过使用移动设备中的全球定位系统获取GPS信息，获取方法便捷。当使用移动设备拍摄视频时，这信息的元数据可以自动的产生，应用领域多，实用效率高，利于推广。

附图说明

图1为本发明流程图。

具体实施方式

本实施例中，如图1所示，一种基于带GPS信息视频的三维场景重建方法是按照如下步骤进行：

步骤1、构建基于GPS信息的FOV模型集合并去除冗余帧数据：

步骤1.1、利用带有摄像头和GPS功能的移动设备获取含有GPS信息的M帧目标场景的视频数据，GPS信息包括：摄像头的经纬度向量、摄像头的仰角和摄像头的视角；除了利用带有摄像头和GPS功能的移动设备获取视频数据，还可以通过带GPS信息的视频共享平台获取视频数据，例如GeoVid视频共享平台(http://api.geovid.org)获得视频数据；由M帧视频数据构建M个FOV(Field-Of-View，简称FOV)模型三元组，从而构建基于GPS信息的FOV模型集合，记为1≤m≤M；表示第m帧视频数据的FOV模型三元组；并有：p_m∈R^2×1表示第m帧视频数据所对应的摄像头的经纬度向量；θ_m表示第m帧视频数据所对应的摄像头的仰角；η_m表示第m帧视频数据所对应的摄像头的视角；具体的FOV模型可参考文献《Viewable Scene Modeling for Geospatial VideoSearch》中的介绍。

步骤1.2、利用式(1)去除M帧视频数据中不含有目标场景的冗余帧数据，从而获得N帧剩余帧数据：

式(1)中，表示目标场景的经纬度向量，表示第m帧视频数据所对应的摄像头的经纬度向量到目标场景的经纬度向量之间的角度；

步骤2、构建重建帧矩阵Q：

步骤2.1、利用图像特征提取方法获取N帧剩余帧数据的颜色特征向量和HOG特征；并由N帧剩余帧数据所对应的摄像头的经纬度向量、颜色特征向量和HOG特征构建N帧剩余帧数据的联合特征矩阵P；并有：联合特征矩阵P的转置矩阵P^T∈R^d×N；表示第n帧剩余帧的联合特征向量；d表示联合特征向量的维度；并有：1≤n≤N；p_n表示第n帧剩余帧数据所对应的摄像头的经纬度向量；表示第n帧剩余帧图像的颜色特征向量，例如本发明中为9维向量；表示第n帧剩余帧图像的HOG特征；例如本方法HOG特征为128维向量；

颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质，是基于像素点的特征，经典的图像颜色特征提取方法主要有颜色直方图法、颜色集法、颜色矩法等等，例如本发明就可以利用颜色矩法提取子图的颜色特征，因为颜色分布信息主要集中在低阶矩中，因此，仅采用颜色的一阶矩、二阶矩和三阶矩就足以表达图像的颜色分布，又由于每个像素具有颜色空间的三个颜色通道，因此图像的颜色矩有9个分量来描述，本发明中用此方法可以使得提取的颜色特征更加完整准确；

方向梯度直方图(Histogram ofOriented Gradient,HOG)特征是一种局部特征，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。在一副图像中，局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。与其他的特征描述方法相比，HOG有很多优点。首先，由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间邻域上。其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，可以容许目标物体有一些细微的变化，这些细微的变化可以被忽略而不影响检测效果。本发明中用此方法可以使得视频数据的局部特征更加完整准确；

目标函数：

约束条件：

式(2)中，w_ij表示重建贡献矩阵W的第i行第j列元素，w_ij描述了第j帧对第i帧重构的贡献作用；表示第i帧剩余帧的联合特征向量；f_j表示第j帧剩余帧；Ψ(f_i)表示第i帧剩余帧f_i在M帧视频数据中所对应帧的邻域帧集合，1≤i≤N；例如用户设定邻域集合的帧数为6，有Ψ(f_i)表示与第i帧剩余帧f_i在M帧视频数据中所对应帧的前3帧及后3帧集合；

式(3)表示第j帧剩余帧f_j不属于第i帧剩余帧f_i的邻域帧集合时，重建贡献矩阵W的第i行第j列元素w_ij＝0，即第j帧剩余帧f_j对第i帧剩余帧f_i的重建贡献代价为0；

式(4)表示重建贡献矩阵W的第j列各元素满足归一化约束；

最小二乘法又称最小平方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配，利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小，本发明中利用该方法对重构贡献矩阵进行求解，使得求得的重构贡献矩阵更加精确，优化问题变得简单易求；本方法采用最小二乘法的具体实施步骤为：

步骤A、利用获得相关性矩阵C的第i行第j列元素C_ij；从而获得相关性矩阵C；

步骤B、获得相关性矩阵C的逆矩阵C^-1；

步骤C、利用式(5)进行归一化处理获得归一化分子参数λ₁：

式(5)中，表示相关性矩阵C^-1中第j行第k列元素；

步骤D、利用式(6)进行归一化处理获得归一化分母参数λ₂：

步骤E、利用式(7)获得拉格朗日乘子λ：

λ＝λ₁/λ₂ (7)

步骤F、利用式(8)获得重构贡献矩阵W的第j列元素从而获得重构贡献矩阵W：

步骤2.3、利用式(9)构建重建代价矩阵U：

U＝(I-W)^T(I-W) (9)

式(9)中，I表示对角线为1的对角矩阵；U,I∈R^N×N；

步骤2.4、选择N帧剩余帧的前χ帧数据作为候选关键帧，本发明中χ的取值可以设置为20；并利用式(10)获得重建选择帧矩阵Γ的第u行第u列元素e_u,u，从而获得重建选择帧矩阵Γ；

式(10)中，重建选择帧矩阵Γ为对角矩阵；Γ∈R^N×N；

步骤2.5、利用式(11)获得重建帧矩阵Q，Q∈R^N×d：

Q＝(μU+Γ)^-1ΓP (11)

式(11)中，μ表示正则化参数；μ∈(0,0.1]，例如μ为0.05；

步骤3、抽取关键帧：

步骤3.1、定义第一轮抽取次数为t；并初始化第一轮抽取次数t＝0；0≤t≤χ；定义第t次抽取关键帧集合为F_t，并初始化第t次抽取关键帧集合F_t为空，即F_t＝{}；

步骤3.2、利用式(12)获得第一轮第t次抽取的选择矩阵Λ_t的第v行第v列元素从而获得选择矩阵Λ_t：

式(12)中，选择矩阵Λ_t为对角矩阵，Λ_t∈R^N×N；

步骤3.3、利用式(13)获得抽取过渡矩阵H_t，H_t∈R^N×N：

H_t＝(μU+Λ_t)^-1 (13)

步骤3.4、将t+1的值赋值给t；

步骤3.5、利用式(14)在剩余帧集合中抽取第t帧关键帧f_t：

式(14)中，F_t-1表示第t-1次抽取的抽取关键帧集合；表示抽取过渡矩阵H_t的第τ个行向量；表示抽取过渡矩阵H_t的第τ个列向量；表示抽取过渡矩阵H_t的第τ行第τ列元素；

步骤3.6、利用式(15)获得第t次抽取关键帧集合F_t：

F_t＝F_t-1∪{f_t} (15)

步骤3.7、重复执行步骤3.2-步骤3.6，直到第一轮抽取次数t＝L，从而获得第L次抽取关键帧集合F_L＝{f₁,...,f_l,...,f_L}；1≤l≤L；f_l表示第一轮第l次抽取的关键帧；L为所设定的抽取次数，并有1≤L≤χ；

步骤4、三维重建目标场景：

步骤4.1、获得第L次抽取关键帧集合F_L中各帧视频数据所对应的FOV模型集合：

步骤4.1.1、采用尺度不变的特征转换法提取第L次抽取关键帧集合F_L中第l次抽取的关键帧f_l的局部性特征SIFT特征，从而获得第L次抽取关键帧集合F_L中各关键帧的局部性特征SIFT特征；

SIFT特征法(Scale-invariant feature transform，尺度不变特征转换法)是一种计算机视觉的算法，用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，对于光线、噪声、微视角改变的容忍度也相当高，对图像不仅有尺度不变性，而且具有旋转不变性，因此本发明利用尺度不变的特征转换法提取关键帧的局部SIFT特征，便于后续步骤4.1.2中实现两帧图像的特征匹配，使得匹配信息更加丰富和完整，效率比较高；

步骤4.1.2、利用SfM方法和Bundler工具包对第l次抽取的关键帧f_l的局部性特征SIFT特征在M帧视频数据中进行匹配，获得与第l次抽取的关键帧f_l匹配精度最高的帧g_l；并记为成对帧二元组(f_l,g_l)；

SfM方法(Structure from Motion)是一种成像方法，它指的是从含有局部运动图像的一系列的二维图像中估计三维图像结构的过程，即从运动信息中恢复三维场景信息；而Bundler是一个采用C和C++开发的称为SfM(struct-from-motion)的工具包，它能够利用无序的图片集合(例如来自网络的图片)重建出场景的三维模型；Bundler的输入是一些图像、图像特征以及图像匹配信息，输出则是一个根据这些图像反应的场景的三维重建模型，伴有识别得到的摄像头以及场景几何信息；本方法采用SfM方法和Bundler工具包工具包实现特征提取与相对定向；

步骤4.1.3、基于成对帧二元组(f_l,g_l)，采用稀疏Bundler调整方法和直接线性变换解法优化第l次抽取的关键帧f_l的FOV模型三元组并有表示第l次抽取的关键帧f_l所对应的摄像头的经纬度向量；表示第l次抽取的关键帧f_l所对应的摄像头的仰角；表示第l次抽取的关键帧f_l所对应的摄像头的视角；从而获得第L次抽取帧集合F_L中各关键帧的FOV模型三元组，记为第L次抽取关键帧集合F_L中各帧的FOV模型三元组即为各关键帧视频数据所对应的摄像头的经纬度向量、仰角及视角；

SfM工具包得到的的图像有大量重叠，为了减少数据量，提高密集匹配效率；本方法采用稀疏Bundler调整方法的工具包，可以得到较为稀疏的点云数据，并且得到摄像头的经纬度、仰角及视角；具体的稀疏Bundler调整方法参考开发技术报告《The Design andImplementation of a Generic Sparse Bundle Adjustment Software Package basedon the Levenberg-MarquardtAlgorithm》的介绍。

直接线性变换(Direct Linear Transformation，简称DLT)解法，是建立像点的坐标仪坐标和相应物点的物方空间坐标直接的线性关系的解法，计算中不需要内、外方位元素；在非地形摄影测量中，用像点坐标与其对应的物方空间坐标直接变换关系式进行图像数学处理的方法，通过求解线性方程的手段就可以求的摄像机的经纬度、仰角及视角，用非线性优化方法对其进行修正优化。

稀疏Bundler调整方法得到的不是全局最优解，因此加入DLT解法后，提供可靠的参数初始值以避免局部最优化，本发明可以利用此方法较好的获得每帧图像的摄像头的经纬度、仰角及视角。本发明中利用此方法可以提高3D场景自动重建的精确度。

步骤4.2更新关键帧：

步骤4.2.1、由第一轮第l次抽取的关键帧f_l的FOV模型三元组获得第l次抽取的关键帧f_l所对应的摄像头覆盖区域从而获得抽取关键帧集合F_L中各关键帧所对应的摄像头覆盖区域

步骤4.2.2、定义第二轮抽取次数b，并初始化第二轮抽取次数b＝1；定义第b次更新的抽取关键帧集合为F_b'；初始化更新的抽取关键帧集合F_b'＝{f₁}；

步骤4.2.3、将b+1的值赋值给b；

步骤4.2.4、利用式(16)获得更新的抽取关键帧集合F_b'：

式(16)中，f_b表示第L次抽取关键帧集合F_L中排序第b次的关键帧；

步骤4.2.5、重复执行步骤4.2.3-步骤4.2.4，直到第二轮抽取次数b＝L，从而获得更新的抽取关键帧集合F_b'＝{f₁′,...,f_s′,...,f_S′}；1≤s≤S；f_s′表示更新的抽取关键集合F_b'中第s个的关键帧；S表示更新的抽取关键帧集合F_b'的总帧数，1≤S≤L；

步骤4.3再次更新关键帧：

步骤4.3.1、由更新的抽取关键帧集合F_b'＝{f₁′,...,f_s′,...,f_S′}；获得更新的抽取关键帧集合F_b'中各关键帧的FOV模型集合表示第s个的关键帧f_s′的FOV模型三元组即为第s个的关键帧f_s′所对应的摄像头的经纬度向量、仰角及视角；

步骤4.3.2、定义第三轮抽取次数c，并初始化第三轮抽取次数c＝1；定义第c次再次更新的抽取关键帧集合为F_c″；初始化再次更新的抽取关键帧集合F_c″为空；

步骤4.3.3、将c+1的值赋值给c；

步骤4.3.4、获取更新的抽取关键帧集合F_b'中第c个的关键帧f_c′，基于SIFT描述符投影误差方法检测第c个的关键帧f_c′是否大于误差阈值Δ，Δ∈(0,0.1]；例如阈值Δ设置为0.03，若大于，则表示第c个的关键帧f_c′属于异常关键帧，并利用式(17)获得再次更新的抽取关键帧集合F_c″：以保证F_c″中选用来重建的帧的质量最优：

步骤4.3.5、重复执行步骤4.3.3-步骤4.3.4，直到第三轮抽取次数c＝S，从而获得再次更新的抽取关键帧集合F_c″＝{f₁″,...,f_k″,...,f_K″}；1≤k≤K；f_k″表示再次更新的抽取关键帧集合F_c″中第k个的关键帧；K表示再次更新的抽取关键帧集合F_c″的总帧数，1≤K≤S；

步骤4.3.6、获取再次更新的抽取关键帧集合F_c″中各关键帧的FOV模型集合表示第k个的关键帧f_k″所对应的摄像头的经纬度向量、仰角及视角；

步骤4.4、将再次更新的抽取关键帧集合F_c″＝{f₁″,...,f_k″,...,f_K″}及再次更新的抽取关键帧集合F_c″所对应的FOV模型集合输入到CMVS系统中映射成聚类的视图；根据聚类的视图，采用PMVS2系统生成定向点，从而利用定向点重建目标场景的三维场景。

CMVS(cluster multi view stereo，简称CMVS)是一个场景聚类程序，程序下载地址为http://www.di.ens.fr/cmvs/，输入SfM点集,先通过CMVS对影像进行聚簇，以减少数据量；聚簇以后再由PMVS2(patch based multiview stereo，简称PMVS2)通过匹配、膨胀、过滤三个主要步骤完成最终的密集匹配，PMVS2下载地址为http://www.di.ens.fr/pmvs/；生成更稠密的点云，在局部光度一致性和全局可见性约束下完成密集匹配并写成ply格式的三维数据，整个过程中算法能自动剔除外点与障碍物，最终输出结果为覆盖整个重建目标表面的小型矩形贴片。本方法采用此方法实现三维场景重建，生成高精度的三维场景模型。

以上，仅为本发明较佳的一种实施方式，其他研究人员根据上面，完全可以实现目标场景三维重建，包含目标物体三维重建等，取得相同的效果。必须说明的是，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或相关参数改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于GPS信息视频的三维场景重建方法，其特征是按如下步骤进行：

步骤1、构建基于GPS信息的FOV模型集合并去除冗余帧数据：

步骤1.1、利用带有摄像头和GPS功能的移动设备获取含有GPS信息的M帧目标场景的视频数据，所述GPS信息包括：摄像头的经纬度向量、摄像头的仰角和摄像头的视角，由所述M帧视频数据构建M个FOV模型三元组，从而构建基于GPS信息的FOV模型集合，记为表示第m帧视频数据的FOV模型三元组；并有：p_m∈R^2×1表示第m帧视频数据所对应的摄像头的经纬度向量；θ_m表示第m帧视频数据所对应的摄像头的仰角；η_m表示第m帧视频数据所对应的摄像头的视角；

步骤2、构建重建帧矩阵Q：

目标函数：

约束条件：

Σ_{j = 1}^{N} w_{i j} = 1 - - - (4)

式(4)表示重建贡献矩阵W的第i行各元素满足归一化约束；

步骤2.3、利用式(5)构建重建代价矩阵U：

U＝(I-W)^T(I-W) (5)

式(5)中，I表示对角线为1的对角矩阵；U,I∈R^N×N；

e_{u, u} = \{\begin{matrix} 1 & i f (u &Element; {1, 2, ..., χ}) \\ 0 & e l s e \end{matrix} - - - (6)

式(6)中，所述重建选择帧矩阵Γ为对角矩阵；Γ∈R^N×N；

步骤2.5、利用式(7)获得重建帧矩阵Q，Q∈R^N×d：

Q＝(μU+Γ)^-1ΓP (7)

式(7)中，μ表示正则化参数；

步骤3、抽取关键帧：

e_{v, v}^{t} = \{\begin{matrix} 1 & i f (f_{v} &Element; F_{t}) \\ 0 & e l s e \end{matrix} - - - (8)

式(8)中，选择矩阵Λ_t为对角矩阵，Λ_t∈R^N×N；

步骤3.3、利用式(9)获得抽取过渡矩阵H_t，H_t∈R^N×N：

H_t＝(μU+Λ_t)^-1 (9)

步骤3.4、将t+1的值赋值给t；

步骤3.5、利用式(10)在剩余帧集合中抽取第t帧关键帧f_t：

f_{t} = \underset{f_{t} &NotElement; F_{t - 1}}{argmin} \frac{1}{1 + H_{τ τ}^{t}} (\frac{H_{τ *}^{t} H_{* τ}^{t} H_{τ *}^{t} {UQQ}^{T} {UH}_{t} H_{* τ}^{t}}{1 + H_{τ τ}^{t}} - 2 H_{τ *}^{t} {UQQ}^{T} {UH}_{t} H_{* τ}^{t}) - - - (10)

步骤3.6、利用式(11)获得第t次抽取关键帧集合F_t：

F_t＝F_t-1∪{f_t} (11)

步骤4、三维重建所述目标场景：

步骤4.3再次更新关键帧，从而获得再次更新的抽取关键帧集合F_c″＝{f₁″,...,f_k″,...,f_K″}；1≤k≤K；K表示所述再次更新的抽取关键帧集合F_c″的总帧数，1≤K≤S；

2.根据权利要求1所述的基于GPS信息视频的三维场景重建方法，其特征是，所述步骤4.1是按如下步骤进行：

3.根据权利要求1所述的基于GPS信息视频的三维场景重建方法，其特征是，所述步骤4.2是按如下步骤进行：

步骤4.2.3、将b+1的值赋值给b；

步骤4.2.4、利用式(12)获得所述更新的抽取关键帧集合F_b'：

4.根据权利要求1所述的基于GPS信息视频的三维场景重建方法，其特征是，所述步骤4.3是按如下步骤进行：

步骤4.3.3、将c+1的值赋值给c；

步骤4.3.5、重复执行步骤4.3.3-步骤4.3.4，直到所述第三轮抽取次数c＝S，从而获得再次更新的抽取集合F_c″＝{f₁″,...,f_k″,...,f_K″}；f_k″表示所述再次更新的抽取关键帧集合F_c″中第k个的关键帧；