CN104200523B

CN104200523B - 一种融合附加信息的大场景三维重建方法

Info

Publication number: CN104200523B
Application number: CN201410460622.2A
Authority: CN
Inventors: 胡占义; 崔海楠; 申抒含; 高伟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2017-09-26
Anticipated expiration: 2034-09-11
Also published as: CN104200523A

Abstract

一种融合附加信息的大场景三维重建方法，包括：提取所有图像的SIFT点，进行图像匹配，构建外极几何图，得到对应于所有三维场景点的轨迹；根据惯性测量单元信息或者指南针角度得到每幅图像的初始摄像头旋转矩阵，迭代地搜寻外极几何图中当前可靠的连接边，并利用这些边进行全局优化；初始化摄像头的中心为对应图像的GPS，根据图像初始焦距信息，旋转矩阵和摄像头中心位置得到每幅图像的初始投影矩阵，根据这些投影矩阵和三维场景点轨迹迭代地三角化和捆绑调整。本发明方法计算迅速，得到的三维场景合理可靠，对图像误匹配敏感度低，泛化性能强，对有序和无序图像集都适用。

Description

一种融合附加信息的大场景三维重建方法

技术领域

本发明涉及一种计算机视觉领域的三维重建方法，尤其是一种融合附加信息的大场景三维重建方法。

背景技术

融合附加信息辅助三维重建是计算机视觉的重要研究方向之一，其在三维地貌生成、古迹遗址数字文化遗产保存、三维街景城市导航等方面有着广泛的应用。在三维重建的过程中，如何有效地融合含有噪声的先验信息对于是否可以快速鲁棒地三维重建具有重要影响，现有方法中尚没有一套完整思路算法来充分融合各种先验信息辅助各种场景下的快速鲁棒三维重建。

经对现有技术的文献检索发现，Pollefeys等于2008年在《2008InternationalJournal of Computer Vision》(2008年的《计算机视觉》国际期刊)上发表的论文“Detailed real-time urban 3 d reconstruction from video”(基于视频的精细实时城市3D重建)提出通过GPS、惯性测量单元等附加信息辅助实时三维重建。该方法计算准确，但是需要很高精度的GPS和惯性测量单元设备才能完成，这对于一般的无人机设备和街景车设备来讲是不现实的。David J.Crandall等于2013年在《IEEE Transactions on PatternAnalysis and Machine Intelligence》(IEEE：模式分析与机器智能会刊)上发表的论文“SfM with MRFs：Discrete-Continuous Optimization for Large-Scale Structurefrom Motion”(基于运动的大场景离散连续优化)提出利用马尔科夫随机场与GPS附加信息来首先求解离散朝向和离散摄像头位置，然后连续优化场景。该方法具有较高的计算效率，但无法适用于无人机图像，且该方法鲁棒性不够好，对误匹配的三维场景点对应的轨迹过于敏感。

发明内容

为了克服现有技术中存在的上述缺陷，本发明提出了一种融合附加信息的大场景三维重建方法，以实现大场景的快速鲁棒三维重建。

本发明的融合附加信息的大场景三维重建方法，包括以下步骤：

步骤1，提取所有图像的SIFT点，进行图像匹配，构建外极几何图，得到对应于所有三维场景点的轨迹；

步骤2，根据惯性测量单元信息或者指南针角度得到每幅图像初始摄像头旋转矩阵，迭代地搜寻所述外极几何图中可靠的连接边，并利用所述可靠边进行全局优化；

步骤3，初始化摄像头的中心为对应图像的GPS，根据图像初始焦距信息，旋转矩阵和摄像头中心位置得到每幅图像的初始投影矩阵，根据这些投影矩阵和三维场景点的轨迹迭代地三角化和捆绑调整。

其中，所述附加信息包括拍摄图像时与图像同步存储的GPS、惯性测量单元信息、指南针角度以及可交换图像文件。

其中，所述步骤1进一步包括下列步骤：

提取所有图像的SIFT特征点，根据所述图像SIFT特征点建立图像语义树，得到初始的匹配图像对，然后再根据GPS去除距离较远的图像对，对剩余的图像对进行特征匹配；

将图像作为外极几何图的顶点，根据5点法求取两幅图像的极几何关系，如果他们之间匹配特征点超过20个，这两幅图像之间有边连接，以此得到外极几何图；

在由此得到的所述外极几何图上，构建场景对应的三维场景点轨迹。

其中，所述步骤2进一步包括下列步骤：

将全局坐标系与GPS坐标系设为一致，在这个全局坐标系下定义初始旋转矩阵，根据步骤1中得到的所述外极几何图，每条边定义一个残差：

其中，R_ij表示两幅图像i与j之间的相对旋转矩阵，R_i与R_j分别表示图像i与图像j的绝对旋转矩阵，||*||_F表示矩阵的F范数，当残差∈小于阈值T时，认为该条边是当前可靠边；其中，T的计算方法如下：

其中，M表示外极几何图中边的总数目，N表示图像的总数目；p表示第p次迭代；是一个0-1函数，当在第p次迭代，外极几何图中的边ij的残差∈_ij大于T时设为1，否则为0；α为一个预设的阈值，初始值定为0.9；

迭代进行上述操作，每次都要重新确定哪些边是当前可靠边，然后优化这些当前可靠边获取摄像头旋转矩阵，直到相邻两次迭代中当前可靠边不再发生变化时迭代收敛。

其中，所述将全局坐标系与GPS坐标系设为一致的步骤为将全局坐标系与GPS坐标系均设为东-北-上分别表示x-y-z轴方向。

其中，在所述计算阈值T的步骤中，如果当前可靠边不能覆盖所有图像时，需要增大α来满足覆盖约束。

其中，所述步骤3进一步包括下列步骤：

如下计算任意一幅图像i的初始投影矩阵P_i：

其中，f_i表示图像i的焦距，来源于图像的可交换图像文件信息，R_i是步骤2的结果，表示第i幅图像的绝对旋转矩阵，GPS_i表示第i幅图像的GPS坐标；根据投影矩阵和步骤1得到的三维场景点的轨迹集合，做三角化得到初始的三维点；

当三维点的平均重投影误差大于阈值H时，认为该三维点是当前可靠三维点；其中H的计算方式如下：

其中，K表示三维场景点对应的轨迹总数目；是一个0-1函数，当在第p次迭代中，第q个三维点的平均重投影误差的残差大于H时设为1，否则为0；β是一个设定的阈值，设为0.8；

对于错误投影点，采用Huber形式的重投影误差函数，考虑到可交换图像文件中的焦距可靠性，计算最小化的优化函数如下：

其中：g(P，X)表示Huber函数形式重投影误差函数；v_ij表示第j个三维点是否在第i幅图像中可见，可见设为1，不可见设为0；N表示图像的数目，K表示三维场景点对应的轨迹的数目；x_ij表示二维图像的坐标；γ(*)表示重投影函数，这里重投影时只考虑径向畸变参数的中前两个参数，分别对应二阶项和四阶项；表示在第1次迭代中，第j个三维点是不是当前可靠的三维点，如果是设为1，如果不是设为0；表示第1次迭代时第i幅图像当前焦距，表示第i图像中可交换图像文件中读取出的焦距；以及

迭代进行上述步骤3：每次都要重新确定哪些三维场景点是当前可靠场景点，然后优化这些当前可靠点获取新的摄像头投影矩阵，利用新的投影矩阵做下一次迭代的三角化操作；当相邻两次迭代中可靠场景点不再发生变化迭代收敛。

其中，在计算阈值H的步骤中，当所有三维场景点的轨迹的可见图像所组成的集合不能覆盖所有图像时，增大β来满足覆盖约束。

所述的融合附加信息的大场景三维重建方法进一步包括下列步骤：将得到的所述数据最终三维点云和摄像头姿态写成vrml语言表示的形式。

通过上述技术方案可知，本发明的融合附加信息的大场景三维重建方法开创性地利用了GPS、惯性测量单元信息、指南针方向等有噪声的附加信息作为摄像头姿态的初值，通过检测并优化可靠外极几何边和三维场景点轨迹的方式进行迭代地三维重建。它的收敛速度很快，迭代次数一般在5次左右，既不像传统增量式重建那样耗费大量时间进行不断地捆绑调整，也不像全局式重建那样只进行一次捆绑调整。从某种意义上来说它是一种中间方式，可以称之为迭代式的全局重建方法，因为它的每一次迭代过程都是一次全局式的重建，将误差均匀的分布在了所有图像上，这样做是为了防止出现因误差累积造成场景漂移问题。由此，本发明的融合附加信息的大场景三维重建方法，不仅能够适用于普通的无序图像重建，而且尤其能够对无人机、街景等有序图像进行快速鲁棒大场景三维重建。该方法对误匹配鲁棒性强，可拓展性高，计算迅速，得到的三维场景合理可靠，对图像泛化性能强，对有序和无序图像集都适用。

附图说明

图1是本发明的融合附加信息的大场景三维重建方法的流程图；

图2是本发明的三维重建方法在一具体应用场景中两幅图像进行匹配的示意图；

图3四幅图是本发明的三维重建方法在一具体应用场景中迭代时对应的外极几何图边上的残差分布直方图；

图4是本发明的三维重建方法在一具体应用场景中迭代时对应的场景和摄像头位置的变化示意图；

图5是本发明的三维重建方法在一具体应用场景中输出的最终稀疏三维点云场景和摄像头姿态的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出了一种融合附加信息的大场景三维重建方法，使其不仅能够适用于普通的无序图像重建，而且尤其能够对无人机、街景等有序图像进行快速鲁棒三维重建。该方法对误匹配鲁棒性强，可拓展性高。

本发明的融合附加信息的大场景三维重建方法，包括下列步骤：

步骤1，提取所有图像上的SIFT特征点，对其进行图像匹配，构建外极几何图，得到对应于所有三维场景点的三维场景点对应的轨迹；

步骤2，根据惯性测量单元信息或者指南针角度得到每幅图像的初始摄像头旋转矩阵，迭代地搜寻外极几何图中当前可靠的连接边，并利用这些边进行迭代全局优化；

步骤3，初始化摄像头的中心为对应图像的GPS，根据图像初始焦距信息，旋转矩阵和摄像头中心位置得到每幅图像的初始投影矩阵，根据这些投影矩阵和三维场景点对应的轨迹迭代地三角化和捆绑调整，在每次迭代过程中，只利用当前可靠的三维点进行捆绑调整。

下面结合附图对本发明的技术方案作进一步的阐述。

为了快速有效地计算出可靠的外极几何边和可靠的三维场景点对应的轨迹，本发明主要利用GPS、惯性测量单元信息、指南针角度等附加信息迭代的检测外极几何边和三维场景点对应的轨迹的可靠性。算法流程如图1所示，最顶端为本发明的输入，包括所有的输入图像以及各自对应的附加信息；最底端为本发明的输出结果，即稀疏的三维点云和对应于每幅图像的摄像头姿态。

参照图1，该方法包括以下各步骤：

步骤1，预处理：提取所有图像上的SIFT特征点，对其进行图像匹配，构建外极几何图，得到场景中所有的三维场景点对应的轨迹。

在该步骤，使用具有仿射不变性的检测子提取所有图像的SIFT特征点，对提取出的特征点进行图像匹配，两幅图像之间匹配采用的是哈希匹配方法。具有仿射不变性的检测子方法属于本领域的公知技术。图2是以两幅无人机拍摄的图像为例，上面两幅图像表示要匹配的图像，下面的一幅拼接在一起的图表示哈希匹配过后的结果，一条线段的两个端点分别对应了两幅图像对应的SIFT特征匹配点。根据GPS的位置，每幅图像都仅对最近的d幅图像(参数d通常根据实际图像总数目大小设计)进行匹配，匹配完成后，根据5点法计算外极几何关系，剔除误匹配点。以图像为顶点，两幅图像之间如果匹配点个数超过20个，那么这两个顶点之间存在边，建立外极几何图。在这个外极几何图上，构建三维场景点对应的轨迹。在获得外极几何图之后，计算出外极几何图对应的最大连接子图，接下来的重建仅在最大连接子图上进行。

步骤2，为了方便计算，首先需要以经度、纬度、海拔形式存储的GPS转换到普通地表系统坐标系下，然后将全局坐标系与普通地表系统坐标系设为一致(东-北-上分别表示x-y-z轴)，在这个全局坐标系下定义初始旋转矩阵。根据步骤1中得到的外极几何图，图中的每条边定义一个残差

其中，R_ij表示两幅图像i与j之间的相对旋转矩阵，R_i与R_j分别表示图像i与图像j的绝对旋转矩阵，||*||_F表示矩阵的F范数。这里初始绝对旋转矩阵由附加信息惯性测量单元或者指南针指北方向夹角得到。当残差∈小于阈值T时，认为该条边是当前可靠边。T的计算方法如下：

其中，M表示外极几何图中边的总数目，N表示图像的总数目；p表示第p次迭代；是一个0-1函数，当在第p次迭代，外极几何图中的边ij的残差∈_ij大于T时设为1，否则为0；α是一个设定的阈值，这里定为0.9。该式子的主要含义是每次只保留前90％的边作为当前可靠边来进行优化，在附加信息有一定精度保证的情况下，这样的操作可以提高优化输入中真实可靠边在优化输入的比例。优化函数定义如下：

其中，表示待优化的所有图像的旋转矩阵的集合，N表示图像的总数目，p表示第p次迭代，是一个标识：如果在第p次迭代中，边ij为当前可靠边时被设为1，为当前不可靠边时被设为0。迭代优化可以使旋转矩阵越来越准确。但是，当这些当前可靠边不能覆盖所有图像时，需增大α来满足这覆盖约束。迭代进行上述操作，每次都要重新确定哪些边是可靠边，然后优化获取新的旋转矩阵，直到当前可靠边在相邻两次迭代中不再发生变化时迭代收敛。

图3表示在一组特定数据(145幅无人机图像对应外极几何图上2977条边)上随着迭代进行，误差∈_ij(i，j＝1...N，)的分布直方图。通过观察可以发现，直方图整体越来越趋近于左侧，表示摄像头旋转矩阵随着迭代过程的进行，正逐步趋向于准确。

步骤3，在通过步骤2获取完图像的绝对旋转矩阵之后，图像i初始投影矩阵P_i，计算如下：

其中f_i表示图像i的焦距来源于图像的可交换图像文件信息，R_i是步骤2的结果，表示第i幅图像的绝对旋转矩阵，GPS_i表示第i幅图像的GPS坐标(已转化到米为单位)。根据投影矩阵和步骤1得到的三维场景点对应的轨迹集合，做三角化得到初始的三维点。

与步骤2一致，当三维点的平均重投影误差大于阈值H时，认为该三维点是当前可靠三维点。H计算方式如下：

其中K表示三维场景点对应的轨迹总数目；是一个0-1函数，当在第p次迭代中，第q个三维点的平均重投影误差的残差大于H时设为1，否则为0；β是一个设定的阈值，这里设为0.8。这个式子的主要含义为：每次迭代只要保留前80％的三维点作为当前迭代可靠三维点，只利用这些三维点做捆绑调整优化。这样做的主要目的是，在GPS有精度保证的前提下，提高了真实三维点在优化输入中所占的比例，使得摄像头姿态随着迭代的进行越来越准确。

进一步，当前可靠三维点对应的三维场景点对应的轨迹仍然可能包括错误匹配点，这里采用Huber形式的重投影误差函数。同时，考虑到可交换图像文件中的焦距可靠性，需要最小化的优化函数如下：

其中：g(P，X)表示Huber函数形式重投影误差函数；v_ij表示第j个三维点是否在第i幅图像中可见，可见设为1，不可见设为0；N表示图像的数目，K表示三维场景点对应的轨迹的数目；x_ij表示二维图像的坐标；γ(*)表示重投影函数，这里重投影时只考虑径向畸变参数的中前两个参数，分别对应二阶项和四阶项；表示在第1次迭代中，第j个三维点是不是当前可靠的三维点，如果是，那么设为1如果不是设为0；表示第1次迭代时第i幅图像当前焦距，表示第i图像中可交换图像文件中读取出的焦距。

同样类似于步骤2，所有三维场景点对应的轨迹的可见图像所组成的集合必须覆盖外极几何图中的最大连接子图的所有图像，如果没有覆盖，就需要提高β的值来满足该覆盖约束。迭代进行上述三角化和对可靠三维点捆绑调整操作，当相邻两次迭代中可靠三维点不再发生变化时迭代收敛。

图4表示在一组特定数据(145幅航拍图像)下，迭代优化场景过程中场景和摄像头位置的变化，场景上面的红色点和绿色点都表示摄像头的中心位置。通过观察可以看到，摄像头位置慢慢趋向准确，场景中可靠三维点越来越多，结构越来越准确。图5表示将该组数据最终三维点云和摄像头姿态写成vrml语言表示出来的结果。

与现有技术相比，本发明能够充分融合附加信息快速鲁棒地进行大场景三维重建，这里的附加信息是有噪声的，不能直接用来做三维重建。它的关键在于利用这些有噪声的附加信息，提供旋转矩阵和摄像头中心位置的初始值，通过迭代的优化当前可靠的外极几何约束或者当前可靠的三维点，使得摄像头姿态和场景结构随着迭代的进行变得越来越准确。本发明通过多种类型的数据实验，比如航拍图像、街景图像、自由拍摄图像等证明了它的高效率、鲁棒性和可拓展性。本发明主要针对解决现有设备在拍摄图像时获取的附加信息是有噪声的这一现实状况，利用这些有噪声的附加信息来辅助重建，特别适合大场景下的快速鲁棒三维重建。更进一步，基于本发明的这套稀疏重建算法，后续的各种稠密重建算法都可以被使用。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合附加信息的大场景三维重建方法，所述附加信息包括拍摄图像时与图像同步存储的GPS、惯性测量单元信息、指南针角度以及可交换图像文件，该方法包括以下步骤：

步骤2，根据惯性测量单元信息或者指南针角度得到每幅图像的初始旋转矩阵，迭代地搜寻所述外极几何图中可靠的连接边，并利用所述可靠的连接边进行全局优化，得到优化后的绝对旋转矩阵；

2.根据权利要求1所述的融合附加信息的大场景三维重建方法，其中所述步骤1进一步包括下列步骤：

3.根据权利要求1所述的融合附加信息的大场景三维重建方法，其中所述步骤2进一步包括下列步骤：

<mrow> <msub> <mo>&Element;</mo> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mi>R</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mi>F</mi> </msub> </mrow>

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msup> <mi>T</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msup> <mo>:</mo> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msubsup> <mi>&delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>&alpha;</mi> <mo>*</mo> <mi>M</mi> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>}</mo> <mo>;</mo> </mrow>

4.根据权利要求3所述的融合附加信息的大场景三维重建方法，其中所述将全局坐标系与GPS坐标系设为一致的步骤为将全局坐标系与GPS坐标系均设为东-北-上分别表示x-y-z轴方向。

5.根据权利要求3所述的融合附加信息的大场景三维重建方法，其中在所述计算阈值T的步骤中，如果当前可靠边不能覆盖所有图像时，需要增大α来满足覆盖约束。

6.根据权利要求1所述的融合附加信息的大场景三维重建方法，其中所述步骤3进一步包括下列步骤：

如下计算任意一幅图像i的初始投影矩阵P_i：

<mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msup> <mo>:</mo> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msubsup> <mi>&delta;</mi> <mi>q</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>&beta;</mi> <mo>*</mo> <mi>K</mi> <mo>,</mo> <mi>q</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>K</mi> <mo>}</mo> </mrow>

其中：表示Huber函数形式重投影误差函数；v_ij表示第j个三维点是否在第i幅图像中可见，可见设为1，不可见设为0；N表示图像的数目，K表示三维场景点对应的轨迹的数目；x_ij表示二维图像的坐标；γ(*)表示重投影函数，这里重投影时只考虑径向畸变参数的中前两个参数，分别对应二阶项和四阶项；表示在第1次迭代中，第j个三维点是不是当前可靠的三维点，如果是设为1，如果不是设为0；f_i ^(l)表示第1次迭代时第i幅图像当前焦距，表示第i图像中可交换图像文件中读取出的焦距；以及

7.根据权利要求6所述的融合附加信息的大场景三维重建方法，其中在计算阈值H的步骤中，当所有三维场景点的轨迹的可见图像所组成的集合不能覆盖所有图像时，增大β来满足覆盖约束。

8.根据权利要求6所述的融合附加信息的大场景三维重建方法，其中进一步包括下列步骤：将最终迭代收敛后得到的三维点云和摄像头投影矩阵写成vrml语言表示的形式。