CN102496183A

CN102496183A - 基于互联网照片集的多视角立体重构方法

Info

Publication number: CN102496183A
Application number: CN2011103443845A
Authority: CN
Inventors: 齐越; 沈旭昆; 余思佳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-11-03
Filing date: 2011-11-03
Publication date: 2012-06-13
Anticipated expiration: 2031-11-03
Also published as: CN102496183B

Abstract

本发明是一种基于互联网照片集的多视角立体重构方法，利用从互联网上获取的同一场景的不同视角下的多幅图片，同时恢复场景的稀疏三维点云并获得相机参数，然后对稀疏三维点加密，从而恢复场景的稠密三维点云，具体步骤包括：同时恢复场景的几何和运动，即对相机进行标定并恢复场景的稀疏三维点云；图像筛选，为每幅图像选择最近邻图像集合、为每个三维点选择最佳的图像子集；对三维点加密计算新的三维点，使用区域生长的方法以已有的三维点为中心，向邻域方向生长。过滤剔除误差较大的三维点。本方法提供了一种图像筛选的方法，避免了冗余的计算，加快了生成模型的速度；过滤策略剔除了不够精确的三维点，提高了生成模型的准确度。

Description

基于互联网照片集的多视角立体重构方法

技术领域

本发明属于计算机视觉领域，具体地说，是一种基于互联网照片集的多视角立体重构方法。

背景技术

随着数码相机和互联网的普及，人们拍摄了大量的室外场景照片，并上传到照片共享网站，构成了海量的互联网照片集。它们的优点包括：覆盖面广，几乎涵盖了全世界的建筑、雕塑等名胜古迹；往往有大量不同的照片反映同一场景在不同的视点、时间(一年四季，一天从早到晚)、光照条件(阴天、晴天等)下场景的不同外观(appearance)；获取成本很低，例如从Google上可以搜索到超过2万张天安门，近万张天坛的高分辨率照片。但另一方面这些照片在拍摄时的光照条件没经过测量，使用的相机没经过标定，分辨率大小不一，许多包含杂乱的遮挡等问题，为其使用带来了新的挑战。为了挖掘和利用现有照片中的信息，降低数据采集成本，丰富用于室外场景建模的数据来源，方便、快捷地构造虚拟场景，近年来，基于互联网图像集的室外场景建模技术逐渐成为计算机图形学和计算机视觉领域的一个研究热点，国内外的研究人员在这方面开展了一系列的研究，提出了许多不同的策略和算法。

多视角立体方法(Multi-View Stereo，MVS)，即利用从多个视角拍摄的同一场景的多幅照片来构造其三维模型。但传统的多视角立体方法是基于序列图像集或者视频。

光度立体(photometric stereo)方法，即利用在固定视点、不同光照条件下拍摄的多幅场景图像中像素的亮度变化，求解物体表面法向量，进而重建三维模型。传统光度立体方法往往需要使用可控或已知的方向光源，因而不适用于互联网照片。

发明内容

本发明的目的是提供一种基于互联网照片集的稠密三维几何模型的重构方法，以从互联网上获取的同一场景的多幅图像为输入图像集合，使用已有的同时恢复场景和几何运动的方法计算相机的参数且恢复场景的稀疏三维点，以每个稀疏的三维点为种子点，采用图像筛选的方法为每一个种子点计算一个图像子集，然后采用区域生长的方法向种子点的邻域方向扩充估计新的三维点，以上述计算得到的图像子集为基础对新的三维点进行优化，最后进一步检测优化后的三维点，剔除误差较大的点，最后得到稠密的三维点云模型。

为达到上述目的，本发明提出一种基于互联网照片集的立体重构方法，具体的做法如下：

1)从互联网上搜索从不同角度拍摄的某一场景的多幅图像，搜索结果作为输入图像集合。

2)利用同时恢复场景的几何和运动的方法，提取并匹配图像的特征点，利用特征点对相机进行标定得到相机的参数矩阵，同时恢复场景的稀疏三维点云。

3)图像筛选，为每幅输入图像选择最近邻图像集合，为每个稀疏三维点选择一幅参考图像。

4)区域生长，每次从当前的三维点中选择置信度最高的三维点为种子点，向其邻域方向生长，估算新的三维点并优化。对优化后的三维点进一步检测，剔除误差较大的三维点，得到更精确的三维点。

上述技术方案中，步骤2)中，相机参数和稀疏三维点云采用Snavely 2006提出的同时恢复场景的几何和运动(Structure from motion，Sfm)的方法计算得到。

上述技术方案中，步骤3)中，包括图像之间相似性的度量，每个三维点参考图像的选择。

两幅图像相似性的度量依据三个标准：尽可能多的特征匹配点；尽可能宽的基线；尽可能相容的尺度。每个三维点参考图像的选择准则为：相机的视线方向与三维点的法线方向的夹角尽可能小，即相机的视线方向尽可能的垂直三维点。

上述技术方案中，步骤4)中区域生长是每次选择置信度最高的三维点为种子点，以种子点为中心，估算邻域点的三维点信息并优化，基于深度变化连续性的假设，过滤掉误差较大的三维点。

本发明的优点在于：

1、图像筛选避免了大量的冗余计算，使得模型的生成速度加快。

2、提供了一种过滤方法，剔除误差较大的三维点，提高了模型的精确度。

附图说明

图1示出本发明的实施流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明的主要流程图如图1所示，首先从互联网上获取从不同角度拍摄的同一场景的多幅图片，以该图像集作为输入图像集合，最终重构出场景的几何模型。具体步骤如下：

(1)首先从互联网上获取从不同角度拍摄的同一场景的多幅图片，以该图像集作为输入图像集合。例如，为了获取自由女神像的不同角度的图像，我们在“flickr”上用关键字“自由女神像”进行搜索则会得到相关结果。

(2)同时恢复场景的几何和运动。

同时恢复场景几何和运动的方法，首先提取每幅输入图像的SIFT特征点，两两图像之间进行特征点匹配，根据特征点匹配情况，从所有输入图像中选择两幅图像作为基准图像对，然后利用RASAC参数模型估计算法计算基准图像对的基础矩阵F，其中基础矩阵F满足方程x′Fx＝0，x′和x是一对图像匹配点。以从图像的EXIF头中获取的焦距信息为初值，估计基准图像对的内参矩阵初值K′和K，已知了相机的内参矩阵和两幅图像之间的基础矩阵F，可计算图像对之间的本质矩阵，通过分解本质矩阵提取相机运动分量，即旋转和平移分量。已知基准图像对的相机内参、相机运动、以及对应特征点集，利用三角测量方法可求出与特征点对应的空间点坐标，即得到初始三维重构。基于已有的特征点和三维点，从剩余的图像中，选择一个相机，计算该相机的投影矩阵，然后能够求出该相机其他特征点对应的空间点。同理，计算剩下的相机和三维场景点。

(3)图像筛选，为每幅输入图像选择K副最近邻图像，为每个三维点选择一幅参考图像。

最近邻图像的选取主要是通过度量两幅图像之间的相似性。对每幅图像，从剩余的图像中选取K副与之最相似的图像。判断两幅图像是否相似主要有三个判断标准：尽可能多的特征匹配点；尽可能宽的基线；尽可能接近的尺度大小。即，相似的两幅图像的特征匹配点的个数最多；两相机位置相距的距离(即基线)要足够宽，以提供足够的视差；两幅图像单位像素所对应的实际物体大小接近。

计算每幅图像的视线方向与三维点法线方向的夹角，选择最小的夹角对应的图像为该三维点的参考图像，三维点的法线方向即三维点所在物体区域在该点的朝向。

(4)采用区域生长的方法，以稀疏三维点集为种子点，基于深度变化连续性的假设计算种子点的邻域三维点，从而重构出更为稠密的三维点云。具体过程如下：

首先计算每个种子点的置信度，具体计算方法如下：将种子点投影到它的参考图像以及参考图像的最近邻图像集中，分别取以投影像素点为中心的n×n的像素窗口，然后采用ZNCC(Zero-mean Normalized Cross-Correlation)的方法分别计算参考图像中的像素窗口与最近邻图像中的像素窗口的相似度，并以相似度的平均值作为该种子点的置信度，相似度越高表明该种子点越可信。然后将种子点以及种子点的相关信息放入到优先队列中。

每次从优先队列中选取置信度最高的三维点为种子点，记为P3，将P3投影到它的参考图像得到投影像素位置p(x，y)，在参考图像上以p(x，y)为中心取大小为n×n的像素窗口，窗口内的像素称为p(x，y)的邻域像素，已知P3的位置可计算出其对应的深度h(x.y)，即相机位置与三维点连线的距离，基于深度变化连续性的假设，邻域像素p(x+i，y+j)的深度可得h(x+i，y+j)＝h(x，y)+h_x(x，y)·i+h_y(x，y)·j(其中 h_x(x，y)和h_y(x，y)分别为在x方向和y方向变化单位像素时深度的变化量)，根据深度从而可估算出邻域点的三维位置，并以此作为初始值，然后将该n×n窗口中的像素对应的三维点利用相机的参数矩阵分别投影到基准图像的k幅最近邻图像，即

其中(x，y，z)为三维点的坐标，(u_i，v_i)为三维点在第i幅最近邻图像中的投影像素位置，K_i、R_i、T_i为第i幅最近邻图像的拍摄相机的内参矩阵、旋转矩阵和平移矩阵，i＝1…k。通过最大化投影像素窗口之间的相似性来达到优化邻域三维点的目的，进而得到更为准确的三维点信息。然后判断新得到的三维点是否满足深度变化连续性的准则，若新的三维点的深度与邻域点的深度之差小于某一阈值则认为满足准则且将其加入到优先队列中，否则删除该点。重复上述过程，直到没有任何新的三维点产生。

Claims

1.一种基于互联网照片集的多视角立体重构方法，其特征在于它包括以下步骤：

1)在互联网上进行搜索，获取某一场景从不同角度拍摄的多幅图像，把获取到的图像作为输入图像集合；

2)同时恢复场景的几何和运动，即计算相机的参数，同时获得场景的稀疏三维点云；

3)图像筛选，即为每幅图像选择最近邻图像集合、为每个三维点选择最佳的图像子集；

4)区域生长方法，选择置信度最高的三维点为种子点，向种子点的邻域方向生长估算新的三维点且优化，进一步检测优化后的三维点过，滤剔除误差较大的三维点，获得更精确的三维模型。

2.按照权利要求1所述基于互联网照片集的多视角立体重构方法，其特征在于，步骤2)中，相机参数和稀疏的三维点云是利用同时恢复场景的几何和运动的方法计算得到的。

3.按照权利要求1所述的基于互联网照片集的多视角立体重构方法，其特征在于：步骤3)中，具体包括图片之间相似性的度量以及利用该度量方法为每幅图像选择K副最近邻图像；为每个已有的稀疏三维点选择一幅参考图像。

4.按照权利要求1所述的基于互联网照片集的多视角立体重构方法，其特征在于：步骤4)中，从当前三维点中选择置信度最高的三维点为种子点估计新的三维候选点，并对三维候选点进行优化，得到优化后的三维点，然后基于同一块区域中的三维点深度变化的连续性假设，进一步检测优化后的三维点，剔除误差较大的三维点。