CN103988226B

CN103988226B - 用于估计摄像机运动以及用于确定实境三维模型的方法

Info

Publication number: CN103988226B
Application number: CN201180073209.5A
Authority: CN
Inventors: S·本希马宁; 希巴斯汀·利贝克内希特; 安德里亚·休伯
Original assignee: Metaio GmbH
Current assignee: Apple Inc
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2017-09-26
Anticipated expiration: 2031-08-31
Also published as: CN103988226A; EP2751777A1; EP2751777B1; US9525862B2; WO2013029675A1; US20140293016A1

Abstract

一种用于估计摄像机运动以及用于确定环境的三维模型的方法，包括以下步骤：a.提供摄像机的固有参数；b.提供一组由摄像机以第一摄像机位姿拾取的参考二维成像点，以及与该组参考二维成像点关联的参考深度样本；c.使用参考深度样本和固有参数确定环境的三维模型；d.提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点，以及与该组当前二维成像点关联的当前深度样本，并使用当前深度样本和固有参数确定当前三维模型；e.利用图像配准方法估计第一摄像机位姿与第二摄像机位姿之间的摄像机运动；f.基于所述估计的摄像机运动确定所述三维模型和所述当前三维模型之间的相似性度量，并且如果确定该相似性度量满足第一条件，用该当前三维模型的至少一个点更新环境的三维模型，并将该组当前二维成像点加入到该组参考二维成像点。

Description

用于估计摄像机运动以及用于确定实境三维模型的方法

本发明涉及一种用于估计摄像机运动以及用于确定环境的三维模型的方法。

关于已知或未知的场景的可视化的实时跟踪是基于视觉的增强现实(AR)应用的必要的和无疑的组成部分。使用终端用户硬件确定摄像机关于未知环境的相对运动成为可能得益于参考文件[1]的方法的启发。这种方法是执行从拾取图像提取视觉特征的实时跟踪。

特征是图像中的显著元素，其可为一点(通常被称为关键点或兴趣点)、一直线、一曲线、一连接区域或任何一组像素。特征通常在尺度空间中提取，即以不同的尺度。因此，除了在图像中的其二维位置之外，每个特征具有一可重复的尺度。此外，可重复的方向(旋转)通常从在围绕该特征的区域中像素的强度计算，例如作为强度梯度的主导方向。最后，为了使特征的比较和匹配成为可能，需要一特征描述符。常见的方法使用一特征的计算的尺度和方向来转换描述符的坐标，其为旋转和尺度提供了不变性。最终，该描述符是一n维的向量，这通常是通过连接局部图像强度的函数的直方图构建，如在参考文献[13]中公开的梯度。

特征需要在许多图像中可见，为此摄像机已经执行了为估计深度和以此重建特征的3D坐标系足够充分的一运动。这通常基于结构来自运动原理。为了获得重建点的正确缩放的3D坐标系并因此获得正确缩放的摄像机运动，这些方法通常需要环境的某些部分的一明确的手工测量或需要用已知的物体配备它。另一种引起尺度的可能性是要求用户执行一有约束的摄像机运动–通常摄像机需要在两个已知帧之间移动以至于它的光学中心位置随一米制的已知缩放平移(metrically known scaled translation)而变化。

然而，这种类型的方法有一些限制。在重建一点并将其添加到特征图之前，该点需要在具有一估计的摄像机位姿的多个帧之上被跟踪。这延迟了在完整的摄像机运动的估计中新的可视物理点的参与。此外，要么环境需要被部分地测量或预先配备，要么用户需要具有关于系统的一些经验以便正确地执行允许正确尺度估计的有约束的摄像机运动。最后，由于现有的方法主要是基于视觉特征(通常从某些纹理梯度可得到处提取)，即使在后期处理和网合(meshing)之后，为遮蔽处理或诸如可能需要环境的网状版本的类似AR任务，从现有的方法中获得的在线特征图通常是稀疏的且无法使用。

参考文献[2]的作者表明，利用一单一标准手持式摄像机被连接到一功能强大的PC的一更高的计算能力，并利用图形处理单元(GPU)的计算能力，当使用参考文献[3]的PTAM方法执行跟踪时，有可能获得一桌面尺度环境的一密集表示和高纹理场景(highlytextured scene)。在线创建的图的密度随立体稠密匹配和基于GPU的实现而增加。

存在现有方法处理组合的范围强度数据。除了强度图像，他们利用与该强度图像相关的包含密集深度信息的一范围图。像素的深度指的是拾取装置的主点和在该像素上成像的物理3D表面之间的距离。

图8显示了包含两组玩偶S1和S2(每组包含一高和一矮玩偶)的一场景，以及一拾取装置CD。S1组的一物理点PP1用该拾取装置在像素IP1上成像。这个像素的深度为D1，拾取装置光学中心OC和物理点PP1之间的距离，该光学中心OC定义了摄像机坐标系的原点。类似地，S2组的一第二物理点PP2在IP2上成像并具有深度D2。注意，摄像机固有参数(特别是焦距)的估计允许在给定其深度D1及其在图像平面IP1上像素位置的一点PP1的笛卡尔坐标(Cartesian coordinates)中计算3D位置。

参考文献[4]的作者们用一组合：一飞行时间(204x204)分辨率摄像机和一(640x480)RGB摄像机和改进的度量模型和被参考文献[1]的MonoSLAM使用的扩展卡尔曼滤波器的创新公式，代替通常使用的标准手持式视频摄像机，以改善跟踪结果。由于这种方法是基于扩展卡尔曼滤波器，相较于基于关键帧的方法它提供了较低的精确度。如在参考文献[5]中精彩讨论的，在现代的应用和系统中，基于关键帧的方法给予每单位计算时间以最佳精度。

微软的终端用户设备的Xbox360Kinect是一低成本和相对高的分辨率的RGB-D摄像机，包含由红外结构光投影仪结合一红外摄像机组成的一立体音响系统，其允许像素深度计算，并且用于提供强度图像的一摄像机被记录到其中。这个设备已由参考文献[6]直接地用于室内环境的基于面元(surfel)的建模。然而，该所提出的系统不实时运行且处理已记录的视频；它不执行任何实时或帧间跟踪。

因此，提供同时估计一摄像机运动以及为确定考虑到上述各方面的一真实环境的一三维模型的一跟踪方法将是有必要的。

本发明的说明

根据本发明的一方面，公开了用于估计摄像机运动以及用于确定环境的三维模型的方法，包括以下步骤：

a)提供摄像机的固有参数；

b)提供一组由摄像机以第一摄像机位姿拾取的参考二维成像点，以及与该组参考二维成像点关联的参考深度样本；

c)使用参考深度样本和固有参数确定环境的三维模型；

d)提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点，以及与该组当前二维成像点关联的当前深度样本，并使用当前深度样本和固有参数确定当前三维模型；

e)利用图像配准方法估计第一摄像机位姿与第二摄像机位姿之间的摄像机运动；

f)基于所述估计的摄像机运动确定所述三维模型和所述当前三维模型之间的相似性度量，并且

如果确定该相似性度量满足第一条件，用该当前三维模型的至少一个点更新环境的三维模型，并将该组当前二维成像点加入到该组参考二维成像点。

特别地，利用图像配准方法可估计第一摄像机位姿和第二摄像机位姿之间的相对摄像机运动。

例如，可使用所述估计的摄像机运动在通用坐标系中进行三维模型和当前三维模型之间的一相似性度量的确定。

在本发明的另一方面，采用三维模型和由步骤d)至f)的一前一次迭代产生的该组参考二维成像点，为每一新组当前二维成像点和与那组当前二维成像点关联的当前深度样本重复步骤d)至f)。

在本发明的上下文中，其中，一组二维点可相当于诸如一色彩图像或一灰度图像的强度图像的至少一部分，例如，在一强度图像中的一感兴趣区域，源于一强度图像或来源于在一强度图像上执行一分割算法及类似行为的一簇二维点或特征点。贯穿本公开，当我们谈到强度图像时，我们指的是图像表示从环境反射的不同数量的光，主要取决于环境的材质和光亮情况。强度图像可将强度按照不同的位分辨率(例如8位或高动态范围)编码入一个(例如灰度级)或多于一个的通道(例如RGB-红-绿-蓝)。

因此，本发明提出利用一组参考二维成像点及相关联的深度样本。例如，该方法可使用包括至少一个由摄像机以第一摄像机位姿拾取的参考强度图像的一组参考强度图像，以及与该至少一个参考强度图像关联的深度样本。此外，提出利用一相似性度量来确定该当前组二维成像点和该当前摄像机位姿是否被添加到一组用于跟踪的参考二维成像点中，以及该当前组二维成像点和与该当前组二维成像点关联的当前深度样本是否被用于创建和/或更新三维模型。换句话说，对于跟踪，因为假设来自环境的附加信息的贡献并不足够高，当一当前组二维成像点或与该当前组二维成像点关联的当前深度样本并不有助于三维模型时，诸如一当前强度图像的一当前组二维成像点可不被用作诸如一参考图像的一组参考二维成像点之内。因此，本发明关闭跟踪过程和重构过程之间的循环，使得能够同时估计摄像机运动并确定环境的三维模型。

作为根据本发明的方法的一结果，所述确定的摄像机运动估计被正确地缩放，例如在一AR应用中能够使一跟踪不需要测量环境或用诸如基准标记(fiducial markers)的已知尺寸的对象配备它，且不需要初步已知的和/或受约束的摄像机运动。通过利用环境的三维模型作为一遮蔽模型，该方法可用于处理在挑战性的AR场景和应用中的中速到快速摄像机运动和显示遮蔽。

本发明的另一方面是提供一种用于估计摄像机运动和确定环境的三维模型的方法，包括以下步骤：

a)提供摄像机的固有参数；

b)提供一组由摄像机以第一摄像机位姿拾取的参考二维成像点以及与该组参考二维成像点相关联的参考深度样本；

c)使用该参考深度样本和固有参数确定环境的一三维模型；

d)提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点以及与该组当前二维成像点相关联的当前深度样本，并使用该当前深度样本和固有参数确定当前三维模型；

e)利用图像配准方法估计第一摄像机位姿和第二摄像机位姿之间的摄像机运动；

f)基于所述估计的摄像机运动确定所述三维模型中至少一个三维点与所述当前三维模型中相关联的三维点之间的相似性度量，并且

如果确定该相似性度量满足第一条件，改善该当前三维模型和/或该三维模型。

特别地，利用图像配准方法可估计第一摄像机位姿和第二摄像机位姿之间的一相对摄像机运动。

例如，使用所述估计的摄像机运动在通用坐标系中可进行在三维模型中至少一个三维点和在当前三维模型中一关联的三维点之间的一相似性度量的确定。

更深层面，本发明的实施例和有益特点从下面的公开的实施例中是显而易见的。

本发明的另一方面还与一种计算机程序产品有关，其适于被加载到数字计算机的内部存储器中并且包括软件代码段，当所述产品运行在所述计算机上时利用该代码段执行根据本发明的方法。

本发明现参照说明本发明的各种实施例的附图将更详细地描述。

图1比较用于组合跟踪以及未知环境的三维重构的标准方法(1a)和本发明(1b)；

图2表示了根据本发明的一实施例，a)初始三维参考模型的创建和b)同步跟踪及未知环境的三维重构；

图3表示了根据本发明，当前图像是否被用于更新环境的三维模型的决策过程的详细实施例；

图4表示了在通用坐标系中两个局部网格的对准所得为一组合网格；

图5表示了通过摄像机(左)及其相应的纹理网格(右)从一个摄像机观察点拾取的一输入3D点云；

图6表示了在两幅图像之间基于确定的摄像机运动的一三维点的深度值的一优化；

图7给出了用于所提出的方法以及几个PTAM初始化的所述估计的摄像机位姿的所有序列的评估结果；

图8表示了由两组玩偶和一拾取装置组成的典型场景，每组玩偶包括一高和一矮玩偶；

图9说明了关于FAST转角检测器和SIFT特征描述符的特征的尺度或尺寸，作为检测点特征的方法的常见例子；

图10a表示了根据本发明的一实施例的方法的流程图；

图10b表示了根据本发明另一实施例的方法的流程图；

图10c表示了根据本发明另一实施例的方法的流程图；

图11说明了根据本发明实施例的技术与标准方法相比较的一典型场景，该场景显示了一设置，其中拾取装置拾取由两组玩偶组成的场景。

如上所述，一组二维强度成像点可由强度图像的至少一部分表示。为求简化说明的缘故，根据本发明的一方法的一实施例是关于这样的附图进行描述：其中的参考组和当前二维成像点是以强度图像的形式提供。然而本领域技术人员势必了解这仅表示本方法的一个实施例且不将本发明限制在完整的强度图像的使用上。当然，这对在计算过程中使用二维强度成像点的一组或子组和深度样本而不是完整的强度图像和/或深度图像对本发明的目的是足够的。

在图1a中，参考文献[6]根据技术状况描述了用于来自未知环境的三维模型的组合跟踪和重构的一标准方法。在这个例子中，重构过程是一网合(meshing)过程(P2)。换句话说，以经网合(meshed)的三维点云的形式获得三维模型。但对本领域技术人员显而易见的是在此附图和下面的附图中描述的实施例不应将根据本发明的方法限制在经网合(meshed)的三维点云的确定上。本领域技术的人理解，通过使用合适的重构方法，三维模型也可以被确定为来自该组当前和/或参考二维成像点及关联的深度样本的一三维点云、一基于边缘的模型、一Bezier曲面模型、一三维CAD模型或一容积模型。

在图1a描述的实施例中，由摄像机拾取的至少一个当前强度图像被提供给跟踪过程(P1)。此外，与当前强度图像关联的当前深度样本被提供给网合(meshing)过程(P2)。用于提供与强度图像关联的深度样本的方法在下文中更详细地公开。在跟踪过程P1中，首先基于当前强度图像和一组参考图像估计一当前摄像机位姿(见下文)。可选地，该摄像机位姿估计也可利用当前深度样本。

在下一步骤中，然后确定当前摄像机位姿和与该组参考图像之内的参考强度图像(多个图像)关联的参考摄像机位姿(多个位姿)之间的差值是否大于一定阈值。例如，所述确定的摄像机位姿具有比来自与该组参考图像之内的参考强度图像相关联的参考摄像机位姿的一定义的阈值更远的一平移，这表明当前强度图像已被从一相对新的观察点拾取。如果经确定该差值大于该阈值，当前强度图像和所述确定的当前摄像机位姿被添加到该组参考图像中以用于在P1中进一步跟踪。

此外，当前摄像机位姿，与该当前组二维成像点关联的当前深度样本用作至网合(meshing)过程P2的输入。这里，在第一步中，一相似性度量在现存网格，即三维模型，和由基于当前摄像机位姿的当前深度样本提供的附加信息之间确定。当相似性度量超过一定义的阈值时，该当前组二维成像点，例如当前图像，以及该当前摄像机位姿被用于更新现存网格。例如，该相似性度量可被定义，使得当前深度样本之内的至少一个三维点必须尚未被包括在网格中，以便用于更新网格。一初始网格可在网合(meshing)过程P2的最初迭代中创建。在这种情况下，如上述定义的相似性度量将表明，来自当前摄像机观察点的所有三维点尚未包括在网格中，且因此当前深度样本将被用于创建该网格的第一估计。有利的是，诸如颜色和纹理信息的附加信息可从当前强度图像获得并被用于着色三维模型。

综上所述，在图1a中显而易见，用于跟踪过程P1和网合(meshing)过程P2的决策实例，即三维模型的创建，是完全独立的。即使其对重构环境的三维模型没有贡献(即如果其在相似性测试中失败)，当前强度图像可被添加到该组参考图像中。另一方面，正因为摄像机的平移运动不够大，因此例如对于基于SLAM跟踪需要的基线不足够，即使旋转运动可能显著，当前强度图像可被丢弃。在图1b中描述的本发明的典型实施例中，根据现有技术对于上述过程的一差异变得清晰可见。代替具有用于追踪过程P1和三维模型的重构过程P2的两个独立的决策实例，它是基于相似性度量来确定是否当前强度图像和当前摄像机位姿被添加到用于追踪的该组参考图像，以及是否当前强度图像和/或与当前强度图像相关联的当前深度样本被用于创建和/或更新该三维模型。换句话说，像假定来自环境的附加信息的贡献不够高，当其对该三维模型没有贡献时当前图像可能不被用作用于跟踪的参考图像。因此，本发明关闭跟踪过程P1和重构过程P2之间的循环，使得能同步地估计摄像机运动和构建环境的三维模型。此外，如上所解释的，根据本发明的方法能够从最初第一帧跟踪。

本发明的更详细的观点在图2a和图2b中的实施例中介绍。图2a表示源自与至少一个参考强度图像关联的参考深度样本的初始三维参考模型的创建。在步骤S1中，参考三维点云使用与参考强度图像关联的深度样本计算。对于每一个具有一度量的深度值z_i的均匀2D图像点p_i，相应的非均匀3D点x_i为：

x_i＝z_ik^-1p_i

其中，K为摄像机固有参数的(3×3)上三角矩阵。

给定所述记录的参考强度图像，如图5所示颜色可以被关联至每个三维点。(在下面更详细解释)。

根据本发明的一实施例，三维点到摄像机的距离的一阈值可被定义，且具有低于该阈值的距离的最合适的三维点被选择用于网合(meshing)。换句话说，如果确定深度值高于一定义的阈值，至少当前深度样本其中之一可被丢弃。那么，距深度传感器不远于一定距离的最合适的点被保存在当前三维模型中。这有助于在深度度量的不确定性随着深度显著增加的情况下改善当前三维模型的品质。

在接下来的步骤S2中，参考网格从三维点云确定，例如，通过在三维点云内确定三角形。可选地，当参考强度图像被额外考虑时，网合(meshing)可通过使用已知的邻域优化。

在图2b中描述了根据本发明的一实施例的未知环境的同步追踪和三维重构，其中至少一个参考强度图像，与至少一个参考强度图像关联的参考深度样本和至少一个关联的摄像机位姿，以及环境的三维模型(如上文所述已确定的)的初始估计作为输入。根据所述实施例，提供了一当前强度图像和与该当前强度图像关联的当前深度样本。然后一当前三维点云，即一当前三维模型，利用与该当前强度图像关联的当前深度样本和固有参数(S3)确定。可选地，该当前三维点云也可在S3中相网合(meshed)(未示于图2b)。

此外，通过图像配准方法确定摄像机在一组参考图像中至少一个参考强度图像和当前强度图像之间的运动(S4)，以便确定当拾取当前强度图像时摄像机的位姿。

步骤S3和S4可在不同实例或当前强度图像的副本上顺序地或并行地处理。

使用所述确定的当前摄像机位姿，在S6中在通用坐标系中确定环境的参考三维模型和当前三维模型之间的相似性度量。例如，使用所述确定的当前摄像机位姿，可以完成将三维模型渲染至摄像机的当前视野的坐标系(即渲染至当前三维模型的坐标系)并对此在摄像机的当前视野的坐标系中确定参考三维模型的深度图(S5)。然后该相似性度量可在诸如通过使用参考三维模型的参考深度图的三维模型和诸如未经网合(meshed)或已网合(meshed)的三维点云(S6)的当前三维模型之间确定。

该相似性度量是表示参考三维模型和当前三维模型之间的重叠。当执行诸如在AR应用中常见的实时跟踪时，摄像机具有一典型的微小帧间运动，即在两个图像之间。例如，这意味着在两个连续图像的两个创建的网格之间有一巨大的重叠。这种重叠需要被重视，因为否则，当每个新拾取的强度图像和与该强度图像关联的深度样本被集成到参考三维模型中时，由于潜在的大量冗余数据，将在几分钟后溢出主存储器的容量。例如，在图4中描述了以第一网格M1形式的第一三维模型和以第二网格M2形式的第二三维模型。当在通用坐标系中对准M1和M2时，在这种情况下两个网格之间的重叠很小。通过将两个网格组合入一组合的三维模型CM中，无需增加大量的冗余数据即可实现一更加全面的环境的重构。

在接下来的步骤S7中，它被确定取决于相似性度量是否使用从与当前强度图像(S8a)关联的当前深度样本确定的三维点云的至少一个点更新环境的三维模型的估计，以及是否包括其确定的关联的摄像机位姿的当前强度图像被加入参考图像组(S8b)。例如，如果相似性度量不满足第一条件，例如不超过一定义的阈值，当前强度图像和与当前强度图像关联的当前深度样本将被丢弃。在这种情况下，为新的当前强度图像和与该新的当前强度图像关联的当前深度样本重复步骤S3至S7，该新的当前强度图像基于未更新的三维模型和包括至少一个参考图像的一组参考图像。如果该相似性度量超过该阈值，处理步骤8，并在之后基于更新的环境的参考三维模型以及至少包括参考图像和作为附加参考强度图像的前一次循环的当前强度图像的更新组参考图像重复步骤S3至S7。环境的三维模型的更新(S8a)可由连接的两个可通过用与当前强度图像关联的摄像机位姿的翻转来转换的三维点实现的三维点云组成。其它诸如在参考文献[7]中披露的结合两个或多个网格的方法对本领域的技术人员是已知的。

图3表示了根据本发明的一实施例，是否将与一当前强度图像的当前深度样本用于更新环境的三维模型(图2中的步骤S7至S8a)的决策过程的一详细的实施例。

如上所述，由于噪声随距离增加，其可以被定义为距当前摄像机视野不远于一定距离的最合适的三维点被保存。根据本发明的另一方面，对于在当前三维点云中的至少一个点而言，其可进一步确定是否关联的三维点存在于参考三维模型中。此外，它可确定是否在所述当前三维点云中的点的深度和在所述参考三维模型中确定的关联的的三维点的深度之间的差值高于一定义的阈值。

基于这个信息，三维点的滤波可被执行或相似性度量可以各种方式定义。例如，可以定义对于每个拾取的当前强度图像和与该当前强度图像关联的当前深度样本，仅首次成像的三维点可被用于扩展参考三维模型。换句话说，可以定义只有在三维模型中没有相关联的三维点被确定的当前三维点云中的点被用于在步骤S8a中更新三维模型。然后用于步骤S7的相似性度量被定义为使得在参考三维模型中没有相关联的三维点被确定的当前三维点云中的点的数量(像素数(numPixel)，S6b)必须超出一定阈值，该阈值可等于1。

如该图3所述，这可通过使用二元掩模和深度缓冲实现。例如，在S6a中创建二元掩模，其中当参考网格中的深度值与当前深度值之间的差值大于0时，它可以被定义为在参考网格中具有非关联的三维点的当前三维点云中的一点，对此深度样本是可使用的。为了在特别是出现在该记录的深度图的边界上的参考网格中关闭小缝隙，二元掩模可能被破坏，使得尽管已经存在的几何结构比所述阈值更接近，新的几何结构也可被添加在边界上。三维点将被暴露且可被直接考虑用于更新网格(S8a)，对此在其再投影二维位置上非几何结构被渲染。

然而，仅依靠二元掩模会阻止增加来自被首次在已经重构的几何结构前观测的对象的信息，例如当围绕固定对象移动摄像机试图扫描其几何结构时发生的情况。根据本发明的另一方面，利用至少一些定义的阈值，可以检察被掩蔽的像素是否储存在该经渲染的深度缓存中的深度大于深度图的值，也可以用于添加接近的对象。

根据另一方面，相似性度量可被定义，使得被添加至三维模型的参考网格的三角形的数量必须超过一定阈值。根据另一方面，该相似性度量可以被定义，使得所述添加的网格的物理尺寸必须超过一定尺寸，例如以平方毫米给定。

可选地，在S8中，基于至少一个参考强度图像和当前强度图像的所述估计的摄像机运动可被用来改善当前三维点云和/或参考三维模型。这可通过以下方式实现：基于所述估计的摄像机运动确定在三维模型中的三维点的深度和与该组当前二维成像点关联的当前深度样本的三维点的深度；从在三维模型中的三维点的深度以及在当前三维模型中关联的三维点的深度确定一改善的三维点的深度；和用所述确定的改善的深度(见图6)更新当前三维点云中和/或三维模型中三维点的深度。例如，使用图像匹配方法，来自参考强度图像中的特征点F1在当前强度图像中确定。然后，一改善的深度值可从与参考强度图像中的特征点F1关联的深度值和与当前强度图像中所述确定的匹配的特征点F1关联的深度值确定。

根据本发明的一方面，该方法可以进一步包括记录相似性度量和/或相似性度量随时间的方差，且如果经确定该相似性度量和/或该相似性度量在一定义的时间帧内的的方差满足第二条件，三维模型不再更新且该当前组二维成像点不再加入该参考组二维成像点。此外，该方法可包括确定满足第一条件的相似性度量的频率以及如果经确定更新的频率降到一定义的阈值以下，三维模型不再更新且该当前组二维成像点不再加入到该参考组二维成像点。

本发明的进一步的方面是提供一种用于确定环境的三维模型的方法，其中三维模型中至少一个三维点和基于所述确定的估计的摄像机运动的当前三维模型中关联的三维点之间的相似性度量被确定，且如果经确定该相似性度量满足第一条件，改善所述当前三维模型和/或所述三维模型。基于所述估计的摄像机运动，所述当前三维模型中关联的三维点可被确定。

在这种情况下，该相似性度量可以被定义为三维模型中三维点的深度和当前三维模型中关联的三维点的深度之间的差值。三维点该改善的深度可从三维模型中的三维点的深度和当前三维模型中关联的三维点的深度确定，并被用于更新所述当前三维模型和/或所述三维模型中三维点的深度。

下面，将更详细地说明本发明的几个方面的优选实施例。

提供深度样本的可能的方法

有几种方法可以提供一图像中一元素，例如一像素，的深度，其可以通过根据将在下面的段落中描述的本发明的方法所使用。

来自校准摄像机的深度：

根据一实施例以确定强度图像中至少一个元素的深度，具有已知的相对位置和/或方向的至少两个拾取装置每个拾取各自的强度图像，其中，在图像中发现对应，拾取装置的相对位置和/或方向用于计算强度图像中至少一个元素的深度，该元素是至少所述对应其中之一的一部分。

具体地讲，提供深度数据的一种可能性如下：记录具有已知相对位姿和理论上已知固有参数的强度的至少两个摄像机，可以在大约相同的时间，或当不动时，在不同的时间拾取图像。可以在两个图像中找到对应，而摄像机的相对位姿和固有可用于计算任一图像坐标系中的对应深度。在试图找到对应之前检索相对位姿和固有参数是有利的，因为它们可以用于通过引入额外的约束条件(例如，极几何)，以简化建立对应关系。

例如，基于点特征的对应的发现可如下实现：为了匹配从一个图像到另一个的二维特征，在另一图像中搜索指定大小的二维特征周围的斑块。例如，平方差的和(SSD)或归一化互相关(NCC)可以分别用作距离或相似性度量。为了减少搜索相应的补丁所需比较的次数，仅沿另一图像中的特征点的极线搜索它。为了简化沿极线的搜索到一维搜索，首先纠正图像。具有最高相似性的两个补丁被设定成关联。如果最高相似性的所述比第二高相似性具有显著地更相似，前者将被认为是匹配的对应。

当然，专家很清楚，存在很多的可能性以获得对应。也有可能不考虑极线而获得对应。当然，该过程也可以以迭代的方式实现，采用初始深度估计与我们提出的真实尺度特征描述符一起工作，并重新计算具有更高精度的特征的对应和位置。

来自至少一个移动摄像机的深度：

根据另一实施例，为了确定强度图像中至少一个元素的深度，至少一个拾取装置在不同的时间点从不同的位置拾取强度图像，其中，在不同图像中发现对应，不同图像和对应的一结构之间的拾取装置的相对位置和/或方向被恢复并用于计算强度图像中至少一个元素的深度，该元素是至少所述对应其中之一的一部分。

例如，至少一个摄像机在不同的时间点从不同的位置拾取图像。理想的情况是一些附加的传感器量度可用(例如GPS位置)。图像和附加信息，如果可用，于是进行分析。例如通过从图像到图像跟踪特征，或通过检测局部特征以及使用尺度不变量描述符来匹配它们，在不同图像中发现对应。然后，使用来自运动的所谓的结构(SfM)的方法来恢复在不同图像和对应的结构之间的相对位姿。本领域技术人员已知许多不同的方法。理想的情况下，附加的传感器数据，如GPS位置或摄像机的已知运动(例如在汽车中通过测量汽车的运动)可以用来为该对应的结构提供一物理尺度。另外，如果在任何一图像中检索到具有已知大小的已知对象(例如一美元的钞票或一标记)，也可以检索到物理尺度。如果不能检索到物理尺度，假定一尺度，仍然可以使用我们的方法，但仅对在这个确切情况下的进一步的匹配有意义。例如，为了为视频游戏添加游戏角色以跟踪摄像机的运动，运动的确切大小可能并不重要，但现实的相对运动是重要的。这里，通过真实尺度特征描述符的增强匹配可以有帮助。

此外，这个过程可以以迭代的方式来实现，使用初始尺度估计来改善该对应，导致位姿估计和结构中更高的准确度。

来自图像匹配的深度：

根据另一实施例，为确定强度图像中至少一个元素的深度，提供强度图像的至少一个数据库，其中，已知每个强度图像的总体深度，或至少一个图像区域的深度，或一个或多个像素的深度，将拾取装置拾取到的强度图像(当前强度图像)与该数据库进行匹配。匹配的结果被用来计算当前强度图像中的至少一个元素的深度。

例如，为了检索关联到一图像的深度的方法如下：我们假设图像的数据库存在并且已知每个图像的一个总体深度(例如，10米)，或各个图像区域的深度，或每个像素的深度。所拾取的当前图像现在匹配这个数据库。为了加速该过程和/或增加鲁棒性，可使用一可选的步骤，为图像匹配创建优化的数据结构。例如，其可以从特征描述符建立一词汇树或KD-树。

该方法可以尝试使用来自数据库图像的详细的深度信息(如果存在)和我们所提出的真实尺度特征描述符，或使用其他方法来记录这两个图像。如果这不可能或未提供详细的深度信息，返回一个给定深度或平均深度。

来自三维模型信息和传感器信息的深度：

根据另一实施例，为确定强度图像中至少一个元素的深度，当拾取关于环境模型(其可能是初始估计)的强度图像时，提供环境模型和关于拾取装置的位置和/或方向的信息，其中，所述环境模型和关于拾取装置的位置和/或方向的信息相结合，并用来计算强度图像中的至少一个元素的深度。

例如，假定可以提供环境模型，例如，其可以是构造的三维模型或环境的扫描。当获取到关于环境模型的图像时，如果已知关于拾取装置的位置和/或方向的任何信息，可将两者结合。例如，通过渲染具有假定的摄像机位姿和摄像机固有的三维模型，每一个像素的深度可以从由环境模型所提供的深度缓冲区中获得，并在渲染过程中使用。虽然对于这种方法，初始位姿估计是必需的，通过使用假定的深度以及具有纹理的环境模型的本发明，位姿可以随后被改善，并且在其他应用中变得更加准确。当然这个过程也可能被反复使用。

来自专用传感器的深度：

根据另一实施例，为确定强度图像中的至少一个元素的深度，提供至少一个传感器，用于检索深度信息或范围数据，以及关于拾取装置的至少一个传感器的至少一个相对位置和/或方向，其中，所述深度信息或范围数据被用来计算强度图像中的至少一个元素的深度。优选地，已知传感器和拾取装置两者的位姿(位置和方向)和固有参数。

特别地，检索深度信息的一种方法是使用专用传感器，其专用于检索深度信息或范围数据。例如，这可以是飞行装置如激光扫描仪的时间，或飞行摄像机的时间。另一例子是传感器，其将光的已知图案投射到环境中，并且在具有传感器的环境反射后检索该图案。通过匹配投射的信息和接收到的图案并通过知道面向检索传感器的投影仪的位姿并通过知道投影仪和传感器两者的固有参数，可以计算出深度。

允许深度数据的检索的另一传感器是全光照相机，见参考文献[14]。

为了使用深度传感器的信息与强度图像，两者的位姿和固有是已知的。深度信息可以随后被转换到摄像机的坐标系中并被使用。

摄像机运动估计

本发明的一方面是用图像配准方法估计第一和第二摄像机位姿之间，即拾取该组参考二维成像点和拾取该组当前二维成像点之间，的相对摄像机运动。根据本发明的一方面，所述图像配准方法可以是基于特征的或基于强度的。它可以是基于二维成像点，例如仅强度图像，或者它可能还考虑到与该组参考二维成像点关联的深度样本和与该组当前二维成像点关联的深度样本。

在基于特征的图像配准方法中，可以从该组参考二维成像点，如至少一个参考强度图像，提取二维图像特征，并且，基于所述提取的图像特征，通过确定二维对应，可以估计摄像机运动。此外，从该组当前二维成像点，例如当前的强度图像，提取二维图像特征，并且使用除了从该组参考二维成像点提取的图像特征的提取的当前特征确定对应，可能是有利的。

基于亮度的图像配准方法可以基于迭代最小化过程，其中，将来自该组参考二维成像点的第一组像素与来自该组当前二维成像点的一计算组像素比较，并且用于比较的来自该组当前二维成像点的该计算组像素在每一次迭代时变化。例如，图像配准方法中的比较可以基于图像强度的差异，如参考文献[8]中所述。

给出两个RGB-D图像之间的二维-二维对应，通过如在公式(1)中给出的公式未投射它们，可以计算参考图像二维特征的三维位置。这给出了一组二维-三维对应，其可以用于位姿估计，例如通过应用参考文献[3]的PTAM方法。

可选地，可以基于三维-三维对应确定摄像机位姿估计，该三维-三维对应从二维-二维匹配建立。从这些对应，例如可以使用参考文献[9]的方法，其具有比二维-三维方法计算成本更低的优点。当使用三维-三维对应时，从当前深度样本计算出的深度图像也将被作为输入提供给图2b中的S4(未示出)。

此外，通过应用基于深度数据的方法，例如参考文献[10]、[11]中的迭代最接近点(ICP)方法，可以进一步改善该位姿。在这种情况下，通过根据本发明的方法可以实现初始化或连续跟踪，并且可以获得该位姿的附加改善。

如果提出的方法获得一纹理三维模型，建立图像配准的另一种可能性，是要遵循跟踪的“综合分析”指示，其中，利用当前摄像机位姿估计，迭代地渲染整个纹理模型，随后二维光流从合成的生成视图跟踪到拾取的摄像机图像，直到收敛。

可选地，在S4中，参考二维成像点的一最接近的子组可从该组参考二维成像点中选择，用于估计摄像机运动，基于关联的摄像机位姿(多个位姿)之间的差异或图像对准。使用最接近的子组，例如一最接近的图像，而不是多个图像，对该方法的速度明显具有积极的效果，同时它也通过合理的假设所支持，即在视觉上，诸如物理上最接近的参考图像也应该是在视觉上最相似的一个，这相应地导致了一更好的配准。

特征检测和描述

如上所述，根据本发明的方法可使用基于特征的图像配准方法。任何二维的计算机视觉方法的强烈限制是，它在投影空间工作。这使得无法区分对象到摄像机的距离产生的尺度，和对象的实际的物理尺度产生的尺度。在许多应用中，摄像机到对象的距离产生的尺度不变性是显著期望的，并且是尺度不变性的原始动机。然而，在不同的物理尺度存在类似特征的情况下，尺度不变性使得它们难以区分。例如，如参考文献[13]中所述的描述符将无法区分真实的建筑物和它的一缩微模型。除此之外，提供尺度不变性的方法，通过计算图像亮度特征的可重复的尺度，高度依赖于这个所述计算的尺度的精确度和可重复性。

根据本发明的实施例，该方法因此还包括一种从强度图像检测和描述特征的方法，该强度图像对于由摄像机和对象之间的距离产生的尺度是不变的，但是对于用于一各种应用的一对象的真实的(物理的)尺度是敏感的。这个方法可以用于针对提供由摄像机拾取的该组参考和/或当前的二维成像点，以及根据步骤b或d的参考和/或当前的深度样本。在这方面，这种方法的各种实施例可以阐述如下：

在一个实施例中，所述方法可包括以下步骤：提供由摄像机拾取的强度图像，提供一种用于确定该强度图像中的至少一个元素的深度的方法，在特征检测过程中检测该强度图像中的至少一个特征，其中，通过以一取决于该强度图像中至少一个元素的深度的尺度处理该强度图像的图像强度信息，并提供至少一个检测到的特征的特征描述符，来执行该特征检测。

根据一实施例，该特征描述符包含基于该强度图像所提供的图像强度信息的至少一个第一参数，并且包含描述符坐标，其依靠是检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放，或者该特征描述符基于由所述检测到的特征周围的一支撑域中的强度图像所提供的信息描述所述检测到的特征，其中，所述支撑域依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放。

根据本发明的另一实施例，所述方法可以包括一种用于从强度图像中检测和描述特征的方法，包括如下步骤：提供由摄像机拾取的强度图像，提供一种用于确定该强度图像中至少一个元素的深度的方法，基于由该强度图像提供的图像强度信息检测该强度图像中的至少一个特征，提供至少一个检测到的特征的特征描述符，其中，所述特征描述符包含基于由该强度图像提供的图像强度信息的至少一个第一参数，并且包含描述符坐标，其依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放，或者其中，所述特征描述符基于由所述检测到的特征周围的一支撑域中的强度图像所提供的信息描述所述检测到的特征，其中，所述支撑域依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放。

根据本发明的另一实施例，所述方法可以包括一种用于从强度图像中检测和描述特征的方法，包括如下步骤：提供由摄像机拾取的强度图像，提供一种用于确定该强度图像中至少一个元素的深度的方法，基于由该强度图像提供的图像强度信息检测该强度图像中的至少一个特征，并提供至少一个具有特定尺度的指示符的所述检测到的特征的特征描述符，所述特征描述符包括基于由该强度图像提供的信息的至少一个第一参数，以及表示是所述检测到的特征的一部分的强度图像中的至少一个元素的尺度和深度的组合的至少一个第二参数。当涉及描述符的坐标时，我们指的是强度值的坐标，从所述强度值的坐标建立与一定义的特征中心相关的描述符。图3有助于理解这个概念。

因此，为了在强度图像中那个特定元素(像素)的特征检测和/或描述，建议使用该强度图像中一元素(例如，一像素)的深度。由此，可以在真实的(物理的)尺度检测和描述特征，提供相比于强度图像的标准尺度不变特征描述符的一种改善的独特性，不引入摄像机运动的任何约束。

根据一实施例，在所提出的方法中，在特征检测过程中，根据该强度图像中的强度值，无论该强度图像中的至少一个元素是否属于一检测到的特征，都会作出决定。

特别地，根据本发明的一实施例，所提出的方法仅基于强度图像检测和描述。特别地，特征的深度用于通过与真实的(物理的)尺度关联而改进该过程，但与现有技术的情况相反，不使用特征周围的局部几何形状的任何其他知识。

根据这些实施例的方法在一方面中仅使用一个标量值，该标量值是距离的一指示，以改进特征的检测和/或描述，该特征是仅从二维强度图像中检测并描述的。

存在不同的方法，用来提供关联到强度图像中特定像素的深度信息。例证包括立体视觉，飞行时间摄像机和使用结构光的方法。在下文中，我们假定，我们提供强度图像和用于一种确定所述强度图像中的至少一个元素的深度的方法。这种方法可以是例如在关联的深度图中的查找操作(可能使用内插和/或外推)，或者可以是立体照片深度的计算，并且给出包含来自一不同视图的相应物理元素的第二强度图像。

1、根据本发明的一实施例，在真实的尺度上的特征检测：

通常，根据该方面的方法包括以下步骤：提供由拾取装置拾取的强度图像，提供一种用于确定该强度图像中至少一个元素的深度的方法，在特征检测过程中，检测该强度图像中的至少一个特征，其中，通过以某一尺度处理该强度图像的图像强度信息来执行该特征检测，所述尺度取决于该强度图像中至少一个元素的深度，并提供所述至少一个检测到的特征的一特征描述符。

根据一实施例，所述特征描述符包含基于由所述强度图像提供的图像强度信息的至少一个第一参数，以及指示所述尺度的至少一个第二参数。

根据一实施例，所述特征描述符包含基于由所述强度图像提供的图像强度信息的至少一个第一参数，并且包含描述符坐标，其依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放，或者所述特征描述符基于由所述检测到的特征周围的一支撑域中的强度图像所提供的信息描述所述检测到的特征，其中，所述支撑域依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放。

特征是图像中的一显著元素，其可以是一点(在文献中通常称为关键点或兴趣点)、一直线、一曲线、一区域或该图像的任何其它子组。特征检测算法通常是特点检测器。例如，它们发现线、边、或微分算子的局部极值。特征检测器可以被看作是将像素的区域映射到响应的函数。在文献中，这个区域被称为特征检测器的采样窗口、支撑域或测量孔径。该响应最终被阈值化，以决定哪些元素是特征，而哪些不是。为了以一定尺度提取特征，可以相应地缩放该采样窗口或该支撑域，或者在计算该特征检测器的响应之前，用逆缩放因子缩放该图像。特征的尺度(或尺寸)随后被定义为用来检测它的采样窗口或支撑域的尺寸。

在这种情况下，图9示出了FAST转角检测器(图上的左侧)的尺寸，作为用于检测点特征的方法的常见例子。在这个例子中，如图所示，特征F的尺度(或尺寸)被定义为“尺度1”或“尺度2”，相应于用于检测它的采样窗口或支撑域的尺寸(在这里由圆形组像素定义)。在图9的左侧，决定像素是否是特征(采样窗口或支撑域)的图像区域(这里由圆形组像素分隔)以两种不同尺度显示，尺度1和尺度2指定该支撑域的两种不同尺寸。

例如，在本发明的一方面，所述方法包括以下步骤：将支撑域定义为覆盖所述强度图像的一部分的区域，基于该特征周围的支撑域中的信息检测该强度图像中的至少一个特征，其中，相应于所述尺度确定该支撑域的尺寸，以该尺度检测所述至少一个特征。

根据一实施例，检测至少一个特征的尺度取决于用于该支撑域的深度样本。例如，与所述强度图像的至少一个元素的深度成反比缩放所述支撑域，对其来说，该特征检测过程确定它是否是所述检测到的特征的一部分。

关于特征检测方法的常见例子包括：高斯拉普拉斯(LoG)、高斯差分(DoG)、Hessian行列式(DoH)、最大稳定极值区域(MSER)、哈里斯特征、或基于学习的转角检测器，如FAST。为了检测边缘特征，可以使用广为人知的算法，例如Canny、Sobel或Prewitt。

例如，在至少一个尺度执行特征检测，该尺度成反比取决于该强度图像中至少一个元素的深度，对其来说，该特征检测过程确定它是否是所述检测到的特征的一部分。

根据一实施例，检测所述至少一个特征的至少一个尺度相应于该特征的物理尺寸。

在本发明的一个可能的实施方式中，如果元素是特征，或者不取决于强度图像中的值和该元素的深度，那么建议作出决定。更具体地，对于每个检测到的元素，在成反比依赖于推定的元素的深度的一个或多个尺度执行所述特征检测。

在本发明的一个实施方式中，特征检测仅使用一个真实的尺度(例如，以mm)来检测特征。在另一个实施方式中，一个以上的真实的尺度(例如，以mm)，其依赖于深度并用于检测特征(例如，30mm和60mm，对于特征，离开50cm更远，且比100cm更近)。因此，当图像尺度(以像素)转向真实尺度时，例如通过使它与所述深度成反比，可以不同地且独立地缩放米制距离的物理的或真实的尺度。

因此，检测特征的尺度(多个尺度)相应于一真实的(物理的)尺寸，而不是摄像机像素单元的尺度。

该拾取装置的焦距的估计需要在绝对真实尺度检测特征。

图10a显示了根据本发明的该方面的这种方法的一示例性实施例的流程图。步骤S51，使用拾取装置，例如摄像机，拾取强度图像，或者加载强度图像，并且提供了一种方法，用于确定该强度图像中的至少一个元素，例如特定像素，的深度(上文提供了关于这种方法的可能的实施方式的进一步的细节)。步骤S52，其定义在哪个尺度提取特征，这取决于深度样本。对于每个支撑域，其可以小到一像素，检测该强度图像中特征的尺度(多个尺度)取决于该区域的深度样本。在本发明的一个实施方式中，支撑域由多于8个像素组成。如上面所解释的，确定来自该深度的尺度的一种可能的方式是一种反比关系，其产生真实的(物理的)尺度。此后，步骤S53生成为不同尺度所提供的强度图像的表示。在步骤S54中，在所希望的尺度中检测特征。特别地，在特征检测过程中生成不同尺度的强度图像的各自的表示，并在各自的尺度检测该强度图像中的特征。对于特征描述，在步骤S55中指定至少一个方向，例如，作为相邻像素的主导梯度方向，或使用方向传感器测量，例如，引力校准。最终，在步骤S56中，考虑其尺度和方向来描述所述特征，并且步骤S57如同以标准的方法使用所述描述的特征。

请注意，特别地，步骤S53和S54是示范性的。任何允许在不同尺度检测特征的方法可以在这里应用，包括那些缩放它们的取样孔径(或支撑域)，而不是处理该强度图像的缩放版本的方法。

本发明的一实施例使用点特征(即关键点或兴趣点)。在这种情况下，如果一图像中的单个点(即一像素)是一特征或者不是，基于该点周围的采样窗口中的图像强度，用一种决定上述的方法来执行所述特征检测。

例如，经常被用作特征检测器的FAST转角检测器，将在本发明的实施方式中使用如下。给定一像素，该检测器依靠其强度和它周围以3.5个像素为半径的圆上像素的强度，确定它是否是一特征(转角)。提出的方法将首先确定来自深度提供方法的该像素的深度。给定了此深度(Depth_real)、对应于所期望的真实尺度的：期望的真实尺度(Radius_real)、和像素中拾取装置的焦距(FocalLength_pixel)，像素中的直径或半径(Radius_pixel)可以计算如下：

Radius_pixel＝FocalLength_pixel*Radius_real/Depth_real

如上面所解释的，对应于该表面的一些真实尺度的图像中的该尺度与深度成反比例变化。这是确定来自深度的尺度的一种可能的方式。

对于FAST转角检测器，为了在对应于半径Radius_real的真实尺度检测一特征，或者将使用原始检测器的一修改，其以Radius_pixel个像素，而不是默认的3.5个像素为半径进行操作，或者由Radius_pixel/3.5的因子缩放半径为Radius_pixel的候选像素周围的斑块，并使用标准检测器在那个缩放的图像斑块上执行检测。

代替为每个深度提供一单独的尺度，为尺度指定一深度范围在计算上可能是有利的。例如，5-10m的范围被指定到100mm的尺度，而10m以上的范围被指定到300mm。

如上所述，本发明的另一可能的实施例可以使用其他深度指示值，而不是深度。一个实施例使用以摄像机为中心的笛卡尔坐标系的z值，其中，z轴与摄像机的光轴共线。

通常，也清楚的是，不必从摄像机的中心精确地测量深度或距离。

可选地，在提取特征或建立描述符之前，根据附加的固有参数，所述图像或图像的一部分可以不失真。

本发明不需要正常计算(这需要密集的深度数据)、将图像背投射至三维、以及三角测量的昂贵步骤。代替图像网格，本发明的方法使用简单的二维强度图像，用于创建尺度空间。它不执行任何基于切面的近邻标准化，也根本不考虑所述特征描述中的标准。

特别地，根据本发明，在特征检测过程期间，不创建基于该深度数据的三维网格。

2、根据本发明的一进一步的实施例，在真实尺度的特征描述：

通常，根据该方面的方法包括以下步骤：提供由摄像机拾取的强度图像，提供一种用于确定该强度图像中至少一个元素的深度的方法，基于由该强度图像提供的图像强度信息检测该强度图像中的至少一个特征，并提供所述至少一个检测到的特征的一特征描述符。

在第一种可能性中，所述特征描述符包含基于由所述强度图像提供的图像强度信息的至少一个第一参数，并且包含依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放的描述符的坐标。

另外，在第二种可能性中，所述特征描述符基于由所述检测到的特征周围的一支撑域中的强度图像所提供的图像强度信息描述所述检测到的特征，其中，所述支撑域依靠是所述检测到的特征的一部分的强度图像中的至少一个元素的深度来缩放。

特征描述符基于在围绕特征的图像的支撑域中的可用信息描述特征。特征描述符的尺度是支撑域的尺寸。为清楚起见，并作为一例子，图9在图的右侧示出了在两个不同尺度的SIFT描述符的支撑域(此处由框架或具有描绘为直线的对比度的矩形定义)，指定该支撑域的不同尺寸的尺度3和尺度4，此处是框架或矩形。

通常依靠该特征的尺度线性地选择描述符的尺度来描述。在本发明一个优选的实施例中，用于构造该特征描述符的支撑像素由像素周围的几何图形指定的像素组成(例如，在圆的边缘上，或椭圆内的所有像素)，该像素已被识别为特征，其中，该几何图形只根据深度而变化。变化可以是调整几何图形的大小，或改变在不同的深度的几何图形的形状。不同深度可以是间隔，例如0-0.5m和0，5m–5m和5m以上。请注意，对于支撑域，我们指的是具有非零贡献权重的支撑域的部分。

例如，强度图像中的支撑点用于提供特征描述符，其包括由所述点中的一个点周围的几何图形所指定的点，所述点在特征检测过程中作为所述检测到的特征的一部分已被识别，其中，所述几何图形根据所述点中的一个点的深度变化，特别是其中，所述变化可以是调整几何图形的大小，或改变在不同的深度的几何图形的形状。

根据一实施例，使用在不同的真实尺度的支撑域，在这些支撑域中，一支撑域在较小的确定深度时被确定为较小，而在较大的确定深度时较大。

特征描述符可以是一实数(real-numbered)的矢量，如SIFT或SURF，但也可以是基于分类的方法，如随机FERNS。此外，可以使用统计描述符，比如轮廓的曲率或(物理的)长度。在本质上，任何允许特征匹配的方法被认为是在本公开的用语中的特征描述符。

根据一实施例，建议依靠通过上述的方法所提供的强度图像中的值和特征的深度来描述一特征。这个建议更具体的实施方式说明如下。

根据一实施例，特征描述符的支撑域与是所述检测到的特征的一部分的强度图像中的至少一个元素的深度成反比例进行缩放。

根据另一实施例，特征描述符的描述符坐标与是所述检测到的特征的一部分的强度图像中的至少一个元素的深度成反比进行缩放。

尤其是，建议将坐标或该特征描述符的支撑域与该特征的深度成反比例进行缩放。这将导致对应于真实尺度的特征描述符的尺度，并且不仅提高了特征描述符尺度的重复性，而且还允许区分在不同的物理尺度的相似特征。

如果真实尺度应该对应于可以在不同的装置中使用的绝对尺度，则需要估计拾取装置的焦距。在一定距离(Depth_real)对应于绝对真实尺度(S_real)的像素(S_pixels)中的尺度随后被计算为

S_pixels＝FocalLength_pixels*S_real/Depth_real.

图10b示出了根据本发明这方面的一实施例的方法的流程图。在步骤S61中，在用拾取装置拾取强度图像，或加载强度图像，并提供给出的所请求的像素的深度的方法之后，以步骤S62中定义的尺度在步骤S63中检测特征。这些尺度与真实的(物理的)尺度不具有已知的关联，但在图像坐标系中定义。为描述步骤S65中的特征，我们合并通过深度提供方法所提供的特征的深度。使用该深度缩放描述符坐标，以对应于一真实尺度，如上面所解释的。在步骤S66中，在指定方向之后，在步骤S67中，使用对应于一真实尺度的描述符尺度来描述所述特征。最后，在步骤S68中，在应用中使用所述描述的特征。在本发明的可能的实施方式中，提取特征，以便提供深度(例如，使用立体摄像机)。在这种情况下，所述特征可以立即被传递到步骤S65，而不必(再)进行步骤S62、S63和S64(即图10a中对应于步骤S53 和S54的特征提取FE)。

在本节中提出的方法的一实施例使用点特征(即关键点或兴趣点)和关于这样的特征的特征描述符。给定一图像中的一二维点、一尺度和一任选的方向，它计算一描述符，其可以例如由基于在一个特征周围的支撑域中的强度值的一真实值矢量来表示。这类方法的典型例子包括SIFT和SURF。

为了支持处理具有强深度变化的场景，我们建议定义对应真实尺度的多个所需的特征描述符尺度。因此，本发明的一个可能的实施例使用不同的真实尺度支撑域，其中所述支撑区域在较小的深度时较小，在较高的深度值时较大。例如，当成像远处的山时，50mmx50mm的支撑域是没有意义的，因为它将覆盖少于一个像素的距离。另一方面，对于这样的场景，10000mm x10000mm的支撑域可能是有意义的，而在室内桌面环境中，这显然是不可行的。

根据以上的第1节中和/或此第2节中描述的一实施例，所述尺度被定义为一全局设置，而所述特征描述符不包含指示该尺度和/或支撑域3的至少一个第二参数。根据本发明的一进一步的实施例的尺度不变量真实尺度感知特征描述：

根据本发明的这一方面，如标准方法中所做的那样，建议基于所述强度图像定义特征描述符的尺度。根据此方面的方法包括以下步骤：提供由摄像机拾取的强度图像，提供一种用于确定该强度图像中至少一个元素的深度的方法，基于由该强度图像提供的图像强度信息检测该强度图像中的至少一个特征，并为至少一个检测到的特征的特征描述符提供一特定尺度的一指示器。所述特征描述符包含基于由所述强度图像提供的图像强度信息的至少一个第一参数，以及表示该尺度和是所述检测到的特征的一部分的强度图像中的至少一个元素的深度的组合的至少一个第二参数。

例如，第二参数表示该尺度与是所述检测到的特征的一部分的强度图像中的至少一个元素的所述深度的乘积。

根据一实施例，可选地包括关于所述拾取装置焦距的信息的所述第二参数，被用作用于在随后的特征匹配过程中的选择步骤的基础，该过程中，只有另一强度图像的那些特征被认为是所述检测到的特征的可能的匹配，所述检测到的特征具有包括类似于所述至少第二参数的至少一个参数的特征描述符。

优选地，对于一检测到的特征到所述拾取装置的距离，第二参数是不变的。

根据一实施例，除了该特征周围的一支撑域中的强度图像的描述，所述特征描述符包含一标量值，例如s*d。由此，s表示该特征描述符的尺度而d是该特征的深度。由于对于一特征到所述拾取装置的距离，此值在理论上是不变的，这提供了特征的一独特的描述。如果一特征的深度d(或距离)加倍了强度图像中此特征的尺寸，则因此其尺度s将减少一半。显然，对于本领域技术人员来说，焦距不重要，由于它是常数。但在一般情况下，当可以使用任何摄像机时，它是重要的。因此，该常数将由(s*d)/f代替，其中f是焦距。为了确保具有不同焦距的摄像机之间的数据的互用性是重要的。通过只将那些特征看作是具有类似的s*d值的可能的匹配，尺度和深度(和焦距任选)的乘积可以例如用于加速特征匹配。

图10c示出了根据本发明这方面的一实施例的方法的流程图。在步骤S71中，在用拾取装置拾取强度图像，或加载强度图像，并提供一种用于获得该强度图像中特定点的深度样本的方法之后，以步骤S72中定义的尺度，在步骤S73中创建该强度图像的尺度空间。在步骤S74中，从该尺度空间图像提取特征。对于每一个特征，在步骤S75中指定一方向，并在步骤S76中计算一描述。注意，该方法迄今未不同于常规的尺度不变量方法，例如SIFT。在下面的步骤S77中，根据本发明，通过在步骤S71中所提供的方法所提供的特征的深度被合并。在这种情况下，该深度形成该描述符的一部分，并且被乘以特征尺度和可选的焦距，如上面所述。最后，在步骤S78中，在应用中使用所述描述的特征。在本发明的可能的实施方式中，提取特征，以便提供深度(例如，使用立体摄像机)。在这种情况下，所述特征可以立即被传递到步骤S75，而不必(再)进行步骤S72、S73和S74(即特征提取FE)。

示例性结果的描述：图11将根据本发明的上述方面的技术(如在点1-3中涉及的)与标准方法进行比较，其比较的设置为，其中拾取装置CD拾取由两组玩偶，S1和S2组成的场景。每组包含在不同尺度的两个类似的玩偶(即一高的玩偶和一较小的玩偶)。两组S1和S2位于与拾取装置CD的距离不同的位置。左图I1示出了用CD拾取的图像。重叠的方块为位于每个玩偶右眼的特征指示标准的尺度不变量特征描述符的支撑域。插图R11、R12、R13和R14示出了由单独特征的支撑域覆盖的图像的部分。如可以看到的，它们都由于尺度不变性而相同。而这使在不同距离的对象的特征能够匹配，例如R11和R13，它不提供在不同物理尺度的类似对象(例如R11和R12)之间的辨别。

与此相反，I2示出了具有每个玩偶右眼处四个特征的支撑域的相同的拾取图像，根据本发明提出的方法缩放。而支撑域并且因此，对于一对象到摄像机的距离该描述符是不变的，例如R21和R23或R22和R24，关于在不同尺度的类似对象，它不同。例如，支撑域R21和R22显然有不同的其图像内容，这将导致不同的特征描述符。

根据本发明的一实施例，为了提供参考的和/或当前的深度样本，一种用于确定强度图像中至少一个元素的深度的方法基于所述拾取装置的一光学焦点。

根据本发明的另一实施例，在用于确定强度图像中至少一个元素的深度的方法中，通过提取该强度图像和至少一个较远的强度图像的特征，并且使用立体摄像机对的对极几何拾取该强度图像和至少一个较远的强度图像匹配它们，生成该强度图像的元素的深度样本。在这种情况下，在提取特征以提供深度的地方(例如，使用立体摄像机)，所述提取的特征可立即用于该特征描述。例如，在第一步骤中，两个强度图像I1和I2由摄像机拾取或被加载，然后其可以可选地接受预处理。对于单摄像机设置，例如使用立体摄像机对的对极几何或尺度不变量特征描述符，在一尺度空间或一组离散的尺度已定义之后，在I1和/或I2的此尺度空间中检测特征，并确定对应。一检测到的特征的对应C(F1(x,y),F2(x,y))和Fi指定所述两个相应的特征，并且x,y指定各自的特征Fi的一二维位置，被认为是将三维空间中同一点的投影描述到I1和I2中，因此，所述深度，即该点的三维空间中的位置可以例如通过三角测量来计算。在一应用中最终使用所述描述的特征之前，描述提取的特征或关键点K。该描述包含描述符v，它是从强度数据创建的。此外，依靠该应用，对于存储图像中它们的位置(x,y)或它们的三维位置(可以从深度来计算)，可以是有意义的。可选地，该尺度s、方向o和确定的深度d也可以关于该关键点存储。为了使用本发明的这个实施例，没有必要将该尺度存储为该描述符的一部分。例如，对于特定深度，尺度也可以全局定义到10mm或1000mm，或者使用依赖于深度d的通式，它适用于该应用中的所有特征。如上所述，关于图10b和10c，可以使用根据如以上第2节(例如，在图10b中，从S65开始)或第3节(例如，在图10c中，从S75开始)中所描述的本发明的一实施例的方法。如果是根据第3节的一实施例，K还将进一步包括从结合s和d导出的值(和可选的摄像机的焦距)。

根据本发明的一进一步的实施例，使用可视化搜索算法估计该强度图像的至少一个元素的深度，以最初比较不同的距离。

根据本发明的一实施例，该方法可以进一步包括以下步骤：提供全局坐标系中的拾取装置的位置和方向的测量，从该测量确定拾取装置的位姿，提供环境的三维模型，其中，所述位姿与该三维模型结合使用，以计算该强度图像中一特征的至少一个元素的深度，例如，借助于将来自该拾取装置中心的虚拟光线通过该特征投射到三维模型中。

全局坐标系中的拾取装置的位置的度量值可通过GPS传感器/接收器、IR或RFID三角测量、或通过使用宽带或无线基础设施的定位方法来提供。全局坐标系中拾取装置的方向的度量值可通过惯性传感器、加速度计、陀螺仪、罗盘，或机械的、电磁的、声学的、或光学的跟踪系统中的至少一个来提供。在本发明的上下文中，惯性传感器可通过使用以下任意组合：磁力计(例如指南针)、运动传感器/旋转传感器(加速计/陀螺仪)、重力传感器及提供此类信息的其他传感器，例如连续地提供包括一对象或装置相对于环境的位置和/或方向的传感器信息。

具有真实尺度特征描述符的深度提供方法的可能的组合可被用在光学位姿估计和跟踪中，例如为了创建室外AR体验。例如，使用粗糙度传感器数据和环境模型提取深度。强度图像I1由拾取装置拾取或载入。此外，当拾取I1时该拾取装置的初始位姿从诸如GPS位置和方向传感器信息的粗糙度传感器度量值估计。最后，提供了一种包括3D数据和图像数据的先进的环境模型(类似于Google街景)。图像数据是唯一必要的，如果用于跟踪的参考模型(例如已包含特征3D坐标和特征描述符)还没有被提前创建。使用假定的摄像机位姿载入环境模型，即环境的模型被从强度图像I1的摄像机观察点渲染。深度信息从环境模型中重新得到并在用于计算检测的特征的真实尺度描述符的下一步骤中使用。换句话说，使用与图像I1一同记录的深度信息，真实尺度特征在一固定的尺度下被提取，例如1米。由于环境模型结合3D数据和图象数据，具有尺度为1m的物理尺度特征的参考3D模型可被创建(这当然可以提前完成)。之后该结果可被用来创建I1中的特征和3D物理尺度特征之间的对应关系。使用优化算法，可计算环境模型坐标系中改善的I1的位姿。之后该改善的位姿可被用于诸如旅游数据的增强现实可视化的一应用，或可选地被用来改善位姿估计和迭代该过程，直到位姿的变化已经趋于低于一定义的品质阈值。

三维模型生成

如上面所解释的，所述确定的三维模型可以各种形式被确定，这取决于其可用的数据和用于重构的方法。三维模型可使用与一组二维成像点相关联的深度样本和/或从一组二维成像点确定的附加信息被确定为一三维点云、一经网合(meshed)的三维点云、一基于边缘的模型、一Bezier曲面模型、一三维CAD模型、或一容积模型。该组二维成像的点可以是一强度图像。

例如，用于确定一经网合(meshed)的三维点云的一合适的重建方法可以是参考文献[7]的方法。这里，当工作在固定的容积时与每一顶点对最大边长对应的一固定阈值也可用来代替一柔性阈值使用。基于容积模型的变换方法由参考文献[12]所述。

根据本发明的实施例中，三维模型和/或当前三维模型进一步包括使用诸如颜色、纹理、和/或阴影信息的固有变量从该组参考二维成像点和/或该组当前二维成像点确定的附加信息。例如，该附加信息可通过将至少一个相应的参考二维成像点的颜色关联到三维模型(图2中未示出)来确定。当三维模型被确定为一三维点云或如图2a所述的一经网合(meshed)的三维点云时，该三维点云可使用顶点映射进行着色，其中在该组二维成像点中的相应的像素的颜色或灰度值被关联至三维模型的每个顶点。或者该三维模型可使用纹理映射进行着色，其中该组二维成像点中相应的像素的二维位置被关联至三维模型的每个顶点。图5表示从一定摄像机观察点拾取的对象的一三维点云的网合(meshing)和纹理结果。

示范性评价结果

图7的表格给出了对基于本发明(“提出的”)的所有序列的方法以及对多个如参考文献[3]所示的PTAM初始化所述估计的摄像机位姿的评价的示范性结果。描述了所提出的方法以及具有不同初始化的PTAM的旋转和平移中误差的均值和方差。帧0+5被用于PTAM05，帧0+10被用于PTAM10等。每个序列的最佳值被以粗体字突出。

从结果可清楚的是，为了初始化PTAM，必须小心地移动摄像机一定距离以建立初始立体结构。这些帧的基线影响PTAM创建的图的尺度(和PTAM估计的轨迹的尺度)。

根据本发明(“建议”)的方法始终在序列的第一帧被初始化，并且能够跟踪完整序列。在评价PTAM时，对于所有序列，相同的第一帧被使用，初始立体结构设置的第二幅图像从第1帧到第50帧变化。对于一些图像对，PTAM的初始化没有成功。

与此相反，得益于米制的深度图(metric depth maps)的使用，该所提出的方法为所有四个序列估计一相同的场景尺度。进一步评价表明，无论每个序列的从前50帧中的第一个被关闭，需要轨道的度量对准的尺度因子值在1周围相对稳定且具有低方差。

图7表示PTAM方法的准确度和精确度取决于被用于初始化的那个图像对。为了总是获得最好的旋转和平移估计，用户应当使用哪个帧并没有明确的规则。尽管在两帧之间存在巨大的基线，其甚至不能与一些图像对一同初始化。这是PTAM方法的缺点之一。例如，当比较根据本发明的用于在帧0上初始化第一序列的方法，和PTAM方法在这个序列(使用帧0和帧15)上能达到的最好的结果时，尽管PTAM方法有良好的旋转估计，根据本发明的方法仍然得到比PTAM方法更好的平移估计且摄像机轨道估计更接近于参考地面实况轨迹。

应用场景

根据本发明的一实施例可用在旨在帮助需要买前在房间中虚拟地体验新家具(例如一壁橱)的该类用户的基于增强现实的虚拟家具体验应用。用户不仅会检查家具的颜色和样式，而且还会检查家具的大小。这就需要正确地缩放摄像机位姿估计。应用本发明，家具可用正确的尺度放置在期望的位置，而不需要修改环境。此外，由于环境的重构，用户得到可能的未来外观更多逼真的印象。为了进一步帮助用户，人们可为限制虚拟家具的移动使用一密集重构，这个限制移动例如它不能被意外地推“穿过”墙壁或在有如门或抽屉的运动部件的情况，它可以自动地检查是否它们可被操作使用它们的全部的运动的设计的范围。

本发明也可以被用于视觉差异检验方面。这在诸如样机研究的工业应用中用处很大。它通常需要形象化地将样机与制造的模型进行比较。由于不需要通过施工工程师手工照原样分析，使用AR允许减少施工成本。本例假定一跟踪的高精确度，对此当前机械测量系统被用的最好。然而，对于较粗糙的差异检验，通过所提出的方法在线创建的密集网格可能足够了。一旦当前所需的几何形状被记录到当前所观察的状态，可轻易地突出其潜在的差值。万一没有一对象的当前状态的深度信息，人们可使用虚拟剪切平面来执行视觉差异检验。

虽然已参考示范性实施例和应用场景描述了本发明，通过本领域技术人员将了解到可能做出的各种变化以及元素的等同替换其不脱离本权利要求的范围。因此，其意图是，本发明不局限于所公开的具体实施例，而是本发明将包括落入所附权利要求的范围内的所有实施例，并且可以应用到工业以及商业领域中的各种应用。

参考文献

[1]A.J.Davison.2003.Real-Time Simultaneous Localisation and Mappingwith a Single Camera.In Proceedings of the Ninth IEEE InternationalConference on Computer Vision-Volume2(ICCV'03),Vol.2,pp.1403-.

[2]R.A.Newcombe and A.J.Davison.2010.Live dense reconstruction with asingle moving camera.IEEE Conference on Computer Vision and patternRecognition(CVPR),2010.

[3]G.Klein and D.Murray.2007.Parallel Tracking and Mapping for SmallAR Workspaces.In Proceedings of the20076th IEEE and ACM InternationalSymposium on Mixed and Augmented Reality(ISMAR'07),pp.1-10.

[4]V.Castaneda,D.Mateus,and N.Navab.2011.Slam combining tof and high-resolution cameras.In Proceedings of the2011IEEE Workshop on Applications ofComputer Vision(WACV'11),pp.672-678.

[5]H.Strasdat,J.Montiel and A.J.Davison.2010.Real-time MonocularSLAM:Why Filter？.In2010IEEE International Conference on Robotics andAutomation(ICRA),Anchorage,Alaska,USA,pp.2657-2664.

[6]P.Henry,M.Krainin,E.Herbst,X.Ren,and D.Fox.2010.RGB-D Mapping:Using depth cameras for dense3d Modeling of indoor environments.InProc.of2010International Symposium on Experimental Robotics(ISER’10).

[7]G.Turk and M.Levoy.1994.Zippered polygon meshes from rangeimages.In Proceedings of the21st annual conference on Computer graphics andinteractive techniques(SIGGRAPH'94).ACM,New York,NY,USA,pp.311-318.

[8]B.D.Lucas and T.Kanade.1981.An iterative image registrationtechnique with an application to stereo vision.In Proceedings of the7thinternational joint conference on Artificial intelligence-Volume2(IJCAI'81),Vol.2.,pp.674-679.

[9]S.Umeyama.1991.Least-Squares Estimation of TransformationParameters Between Two Point Patterns.IEEE Trans.Pattern Anal.Mach.Intell.13,4,pp.376-380.

[10]P.J.Besl and N.D.McKay.1992.A Method for Registration of3-DShapes.IEEE Trans.Pattern Anal.Mach.Intell.14,2(February1992),pp.239-256.

[11]Z.Zhang.1994.Iterative point matching for registration of free-form curves and surfaces.Int.J.Comput.Vision13,2(October1994),pp.119-152.

[12]B.Curless and M.Levoy.1996.A volumetric method for buildingcomplex models from range images.In Proceedings of the23rd annual conferenceon Computer graphics and interactive techniques(SIGGRAPH'96).ACM,New York,NY,USA,pp.303-312.

[13]D.G.Lowe.2004.Distinctive Image Features from Scale-InvariantKeypoints.Int.J.Comput.Vision60,2,pp.91-110.

[14]D.V.Johnston,Learning Depth in Lightfield Images,CS229MachineLearning Autumn 2005,Stanford University,2005,

http://www.stanford.edu/class/cs229/proj2005/Johnston-LearningDepthInLightfieldImages.pdf

Claims

1.一种用于估计摄像机运动以及用于确定环境的三维模型的方法，包括以下步骤：

获得一组由摄像机以第一摄像机位姿拾取的参考二维成像点，以及与该组参考二维成像点关联的参考深度样本；

使用参考深度样本和摄像机的固有参数确定环境的三维模型；

提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点，以及与该组当前二维成像点关联的当前深度样本，并使用当前深度样本和所述固有参数确定当前三维模型；

利用图像配准方法估计第一摄像机位姿与第二摄像机位姿之间的摄像机运动；

基于所估计的摄像机运动确定所述三维模型和所述当前三维模型之间的相似性度量；

响应于确定该相似性度量满足第一条件，用该当前三维模型的至少一个点更新环境的三维模型；并且

响应于用该当前三维模型的至少一个点更新环境的三维模型，将该组当前二维成像点加入到该组参考二维成像点。

2.根据权利要求1所述的方法，进一步包括使用提供一组当前二维点、估计和确定相似性度量的前一次迭代产生的该组参考二维成像点和三维模型，重复提供一组当前二维点、估计和确定相似性度量。

3.根据权利要求2所述的方法，进一步包括记录随时间的相似性度量数据，如果确定在一定义的时间帧中的该相似性度量数据满足第二条件，则不再更新所述三维模型，并且不再将该组当前二维成像点加入到该组参考二维成像点。

4.根据权利要求2所述的方法，进一步包括确定满足该第一条件的该相似性度量的频率，如果确定该更新的频率下降到低于一定义的阈值，则不再更新该三维模型，并且不再将该组当前二维成像点加入到该组参考二维成像点。

5.根据权利要求1所述的方法，其特征在于，确定相似性度量进一步包括：将该三维模型渲染到所述当前三维模型的坐标系中，并确定该三维模型和所述当前三维模型之间的相似性度量。

6.根据权利要求1所述的方法，其特征在于，所述相似性度量表示该三维模型和所述当前三维模型之间的重叠。

7.根据权利要求1所述的方法，其特征在于，进一步包括对于所述当前三维模型中的至少一个点，确定在该三维模型中是否存在一相关联的三维点。

8.根据权利要求7所述的方法，其特征在于，进一步包括用于确定所述当前三维模型中的所述至少一个点的深度和该三维模型中所确定的相关联的三维点的深度之间的差值是否高于一定义的阈值。

9.根据权利要求7所述的方法，其特征在于，所述相似性度量被定义为使得在该三维模型中没有相关联的三维点被确定的所述当前三维模型中的点的数量必须超过一定阈值。

10.根据权利要求7至9中的任一项所述的方法，其特征在于，只有在该三维模型中没有相关联的三维点被确定的所述当前三维模型中的点被用于更新该三维模型。

11.根据权利要求7所述的方法，进一步包括：

基于所估计的摄像机运动确定该三维模型中一三维点的深度，并从关联到该组当前二维成像点的当前深度样本确定该三维点的深度；

从该三维模型中该三维点的深度确定该三维点的一改善的深度，并确定所述当前三维模型中该相关联的三维点的深度；以及

用确定的改善的深度来更新该三维模型中该三维点的深度。

12.一种用于估计摄像机运动以及用于确定环境的三维模型的系统，包括：

处理器；以及

耦接到处理器并包括计算机代码的存储器，该计算机代码在由处理器执行时使得所述系统：

获得一组由摄像机以第一摄像机位姿拾取的参考二维成像点以及与该组参考二维成像点相关联的参考深度样本；

使用该参考深度样本和摄像机的固有参数确定环境的一三维模型；

提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点以及与该组当前二维成像点相关联的当前深度样本，并使用该当前深度样本和固有参数确定当前三维模型；

利用图像配准方法估计第一摄像机位姿和第二摄像机位姿之间的摄像机运动；

基于摄像机运动的估计确定所述三维模型中至少一个三维点与所述当前三维模型中相关联的三维点之间的相似性度量；

响应于确定该相似性度量满足第一条件，用该当前三维模型的至少一个点更新环境的三维模型；以及

响应于用该当前三维模型的至少一个点更新三维模型，将该组当前二维成像点加入到该组参考二维成像点。

13.根据权利要求12所述的系统，其特征在于，基于所估计的摄像机运动确定所述当前三维模型中相关联的三维点。

14.根据权利要求12所述的系统，其特征在于，该相似性度量被定义为该三维模型中该三维点的深度和所述当前三维模型中该相关联的三维点的深度之间的差值。

15.根据权利要求12所述的系统，其特征在于，所述三维点的改善的深度从该三维模型中该三维点的深度和所述当前三维模型中所述相关联的三维点的深度来确定，并用于更新所述当前三维模型和该三维模型的至少一个中该三维点的深度。

16.根据权利要求12所述的系统，其特征在于，如果确定当前深度样本中的至少一个深度样本的深度的值高于一定义的阈值，则丢弃当前深度样本中的所述至少一个深度样本。

17.根据权利要求12所述的系统，其特征在于，所述图像配准方法是基于特征的或基于强度的。

18.根据权利要求17所述的系统，其特征在于，在所述基于特征的图像配准方法中，从该组参考二维成像点提取二维图像特征，并通过确定基于所述提取的图像特征的二维对应来估计该摄像机运动。

19.根据权利要求12至18中的任一项所述的系统，其特征在于，该三维模型和当前三维模型的至少一个进一步包括附加信息，使用所述固有参数从该组参考二维成像点和该组当前二维成像点的至少一个确定所述附加信息。

20.根据权利要求19所述的系统，其特征在于，通过将至少一个对应的参考二维成像点的颜色与该三维模型相关联来确定所述附加信息。

21.一种用于估计摄像机运动以及用于确定环境的三维模型的装置，包括：

a.用于获得摄像机的固有参数的部件；

b.用于获得一组由摄像机以第一摄像机位姿拾取的参考二维成像点以及与该组参考二维成像点关联的参考深度样本的部件；

c.用于使用参考深度样本和摄像机的固有参数确定环境的三维模型的部件；

d.用于提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点以及与该组当前二维成像点关联的当前深度样本，并使用当前深度样本和固有参数确定当前三维模型的部件；

e.用于利用图像配准方法估计第一摄像机位姿与第二摄像机位姿之间的摄像机运动的部件；

f.用于基于所估计的摄像机运动确定所述三维模型和所述当前三维模型之间的相似性度量的部件；

g.用于响应于确定该相似性度量满足第一条件，用该当前三维模型的至少一个点更新环境的三维模型的部件；以及

h.用于响应于用该当前三维模型的至少一个点更新环境的三维模型，将该组当前二维成像点加入到该组参考二维成像点的部件。

22.根据权利要求21所述的装置，其中使用装置d)至h)的操作的前一次迭代产生的该组参考二维成像点和所述三维模型，重复装置d)至h)的操作。

23.根据权利要求22所述的装置，进一步包括用于记录随时间的相似性度量数据，并且如果确定在一定义的时间帧中的该相似性度量数据满足第二条件，则不再更新所述三维模型，并且不再将该组当前二维成像点加入到该组参考二维成像点的部件。

24.根据权利要求22所述的装置，进一步包括用于确定满足该第一条件的该相似性度量的频率，并且如果确定该更新的频率下降到低于一定义的阈值，则不再更新该三维模型，并且不再将该组当前二维成像点加入到该组参考二维成像点的部件。

25.根据权利要求21所述的装置，其特征在于，装置f)进一步包括：用于将该三维模型渲染到所述当前三维模型的坐标系中，并确定该三维模型和所述当前三维模型之间的相似性度量的部件。

26.根据权利要求21所述的装置，其特征在于，所述相似性度量表示该三维模型和所述当前三维模型之间的重叠。

27.根据权利要求21所述的装置，其特征在于，进一步包括用于对于所述当前三维模型中的至少一个点，确定在该三维模型中是否存在一相关联的三维点的部件。

28.根据权利要求27所述的装置，其特征在于，进一步包括用于确定所述当前三维模型中的所述至少一个点的深度和该三维模型中所确定的相关联的三维点的深度之间的差值是否高于一定义的阈值的部件。

29.根据权利要求27所述的装置，其特征在于，所述相似性度量被定义为使得在该三维模型中没有相关联的三维点被确定的所述当前三维模型中的点的数量必须超过一定阈值。

30.根据权利要求27所述的装置，其特征在于，只有在该三维模型中没有相关联的三维点被确定的所述当前三维模型中的点被用于更新该三维模型。

31.根据权利要求27所述的装置，进一步包括：

用于基于所估计的摄像机运动确定该三维模型中一三维点的深度，并从关联到该组当前二维成像点的当前深度样本确定该三维点的深度的部件；

用于从该三维模型中该三维点的深度确定该三维点的一改善的深度，并确定所述当前三维模型中该相关联的三维点的深度的部件；以及

用于用确定的改善的深度来更新该三维模型中该三维点的深度的部件。

32.一种用于估计摄像机运动以及用于确定环境的三维模型的装置，包括：

a.用于获得摄像机的固有参数的部件；

b.用于获得一组由摄像机以第一摄像机位姿拾取的参考二维成像点以及与该组参考二维成像点相关联的参考深度样本的部件；

c.用于使用该参考深度样本和摄像机的固有参数确定环境的一三维模型的部件；

d.用于提供一组由摄像机以第二摄像机位姿拾取的当前二维成像点以及与该组当前二维成像点相关联的当前深度样本，并使用该当前深度样本和固有参数确定当前三维模型的部件；

e.用于利用图像配准方法估计第一摄像机位姿和第二摄像机位姿之间的摄像机运动的部件；

f.用于基于摄像机运动的估计确定所述三维模型中至少一个三维点与所述当前三维模型中相关联的三维点之间的相似性度量的部件；

g.用于响应于确定该相似性度量满足第一条件，改善该当前三维模型和/或该三维模型的部件；以及

h.用于响应于改善该当前三维模型和/或该三维模型，将该组当前二维成像点加入到该组参考二维成像点的部件。

33.根据权利要求32所述的装置，其特征在于，基于所估计的摄像机运动确定所述当前三维模型中相关联的三维点。

34.根据权利要求32所述的装置，其特征在于，该相似性度量被定义为该三维模型中该三维点的深度和所述当前三维模型中该相关联的三维点的深度之间的差值。

35.根据权利要求32所述的装置，其特征在于，所述三维点的改善的深度从该三维模型中该三维点的深度和所述当前三维模型中所述相关联的三维点的深度来确定，并用于更新所述当前三维模型中和/或该三维模型中该三维点的深度。

36.根据权利要求32所述的装置，其特征在于，如果确定当前深度样本中的至少一个深度样本的深度的值高于一定义的阈值，则丢弃当前深度样本中的所述至少一个深度样本。

37.根据权利要求32所述的装置，其特征在于，所述图像配准方法是基于特征的或基于强度的。

38.根据权利要求37所述的装置，其特征在于，在所述基于特征的图像配准方法中，从该组参考二维成像点提取二维图像特征，并通过确定基于所述提取的图像特征的二维对应来估计该摄像机运动。

39.根据权利要求32至38中的任一项所述的装置，其特征在于，该三维模型和/或当前三维模型进一步包括附加信息，使用所述固有参数从该组参考二维成像点和/或该组当前二维成像点确定所述附加信息。

40.根据权利要求39所述的装置，其特征在于，通过将至少一个对应的参考二维成像点的颜色与该三维模型相关联来确定所述附加信息。