CN115210533A

CN115210533A - 用于估计图像采集设备的位姿的方法和装置

Info

Publication number: CN115210533A
Application number: CN202180014779.0A
Authority: CN
Inventors: 全在春
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-02-14
Filing date: 2021-02-14
Publication date: 2022-10-18
Also published as: WO2021160182A1

Abstract

一种用于估计图像采集设备的位姿的方法，包括：从至少一个位姿获取多个地标的一系列图像(301)；对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数(303)；以及通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿(305)。

Description

用于估计图像采集设备的位姿的方法和装置

相关申请的交叉引用

本申请要求2020年2月14日提交的美国临时专利申请US62/976,537的优先权，该申请的全部内容通过援引并入本文。

技术领域

本公开在其一些实施例中涉及计算机视觉，更具体地，但不限于，涉及用于估计图像采集设备的位姿的方法和装置。

背景技术

在实现虚拟现实(virtual reality，VR)和增强现实(augmented reality，AR)时，最关键的一点是实时确定移动系统的空间定位，例如，估计移动系统提供的图像采集设备(例如相机)的位姿，其中，位姿可以包括其位置和旋转。这种定位可以称为同步定位与地图构建(simultaneous localization and mapping，SLAM)。

在基于相机和惯性测量单元(IMU)的定位过程中，随着时间的流逝，累积误差可能会增加。为了抑制累积误差，当相机重新访问同一区域时，应根据地标(landmark，也称为特征点)重新校正当前图像位姿。

发明内容

本公开提供了一种用于估计图像采集设备的位姿的方法和装置。

第一方面，提供了一种用于估计图像采集设备的位姿的方法，包括：从至少一个位姿获取多个地标的一系列图像；对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数；以及通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿。

第二方面，提供了一种用于估计图像采集设备的位姿的装置，包括：获取模块，被配置为从至少一个位姿获取多个地标的一系列图像；确定模块，被配置为对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数；以及输出模块，被配置为通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿。

第三方面，提供了一种图像采集装置，包括：处理器和存储器。所述存储器被配置为存储计算机程序，所述处理器被配置为调用并运行所述存储器中存储的所述计算机程序，从而实现根据前述第一方面或其任一实施例的方法。

第四方面，提供了一种芯片，被配置为实现上述第一方面或其任一实施例所述的方法。

具体地，所述芯片包括处理器，被配置为调用并运行来自存储器的计算机程序，从而使设置有所述芯片的装置实现上述第一方面或其任一实施例所述的方法。

第五方面，提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使计算机实现上述第一方面或其任一实施例所述的方法。

第六方面，提供了一种计算机程序产品，包括使计算机实现根据上述第一方面或其任一实施例所述的方法的计算机程序指令。

第七方面，提供了一种计算机程序，当在计算机上运行时，使计算机实现根据上述第一方面或其任一实施例所述的方法。

基于本公开实施例提供的方法，假设最近获取的N幅图像是由安装在紧致的刚性体系统上的N个相机获取的，从中估计出6DoF和比例。因此，即使位姿误差累积得很大，但相对于整个累积位姿而言，紧耦合的N幅图像的累积误差很小。

附图说明

图1和图2示例性地说明了当前3D点和地标之间的传统对齐方式。

图3示出了根据本公开的一些实施例的用于估计图像采集设备的位姿的可选的操作流程的顺序图。

图4示出了根据本公开的一些实施例的用于构建绘制图像集的可选的操作流程400的顺序图。

图5示出了根据本公开的一些实施例的用于将每个图像与绘制图像集进行匹配的可选的操作流程500的顺序图。

图6示出了根据本公开的一些实施例的用于重新定位图像采集设备的位姿的可选的操作流程600的顺序图。

图7示出了根据本公开的一些实施例实现操作300的示例性应用场景。

图8是根据本申请的一些实施例的用于估计图像采集设备的位姿的装置的框图。

图9是根据本申请的一些实施例的图像采集设备的框图。

图10是根据本申请的一些实施例的芯片的框图。

具体实施方式

现在将参照附图更充分地描述本公开的示例性实施例，附图中示出了示例性实施例。然而，本公开的示例性实施例可以以许多不同的形式体现并且不应被解释为限于本文所阐述的实施例；相反，提供这些实施例是为了使本公开彻底和完整，并将示例性实施例的概念充分传达给本领域技术人员。在附图中，为了清晰起见，单独的层和区域被夸大了。附图中相同的附图标记表示相同的元件，因此它们的描述将被省略。

本公开的所描述的特征、结构或/和特性可以以任何合适的方式组合在一个或多个实施例中。在以下说明中，公开了许多具体细节以提供对本公开实施例的透彻理解。然而，相关领域的技术人员会认识到，可以在没有一个或多个具体细节的情况下实施本公开或者使用其他方法、组件等来实施本公开。在其他情况下，众所周知的结构、材料或操作没有被详细显示或描述，从而避免掩盖本公开的各个方面。

在本公开中，“连接”等术语应广义理解，除非另有说明，可以理解为直接连接，也可以理解为通过中间介质间接连接。本公开中上述术语的具体含义，可以由本领域技术人员根据具体情况进行理解。

进一步地，在本公开的说明书中，除非另有明确说明，“多”、“多个”或“若干”的含义是至少两个，例如两个、三个等。描述关联对象的关联关系的“和/或”，表示可能存在三种关系，例如A和/或B，表示可能存在单独的A、单独的B以及A和B同时存在的三种情况。符号“/”一般表示上下文对象是“或”的关系。

为简洁起见，本文使用术语“相机”来指代图像采集设备，例如一个或多个图像传感器、独立相机、集成相机和/或任何适于以视觉方式记录对象的传感器。

存在包括图像采集设备(例如相机)的图像采集系统，其中需要估计相机在坐标系中的位姿。坐标系的示例包括世界坐标系和用相机在采集图像时的相机位姿校准的坐标系。相机位姿是相机相对于坐标系的位置和方向的组合。例如，相机位姿x可以表示为一对值(R，t)，其中R是表示相对于坐标系的方向的旋转矩阵，而t是表示相机位置相对于坐标系的平移矢量。其他可能的方向表示是双角表示和张量。这种图像采集系统的示例是包括插入患者身体中(例如通过吞下相机)的相机的医疗系统，还例如车辆和机器人、导航应用和增强现实系统。当相机在未知环境中运行时，如果没有进一步的信息或传感器，相机位姿的估计可能涉及场景的三维(3D)重建。这个问题在计算机视觉和机器人学界被称为“同步定位与地图构建”(SLAM)。

场景具有图像特征，也称为地标(landmark)。由相机捕获的场景图像(有时称为相机视图)已观察到代表场景地标的图像特征。通常，相机位姿估计是使用光束平差(bundleadjustment，BA)优化来解决的。光束平差是在给定一系列图像和来自其他传感器的可能测量值的情况下恢复(通过估计)相机位姿和3D场景重建的常用方法。光束平差优化计算旨在最小化所有可用图像和可用图像中识别的所有地标的重投影误差。图像中地标的重投影误差是指地标的观察到的图像特征在图像中的位置与对于某一相机位姿估计的地标的观察到的图像特征在图像中的预测位置之间的差异。

本公开中，术语“访问区域”、“绘制区域”和“观察区域”都是指用相机捕捉该地区的图像，并且可以互换使用。

以下说明涉及移动相机，但也适用于静止相机。估计相机的运动也称为自我运动估计。

在缺乏全球定位系统(Global Positioning System，GPS)的环境中，长时间保持高水平的估计精度是一项挑战。由于估计误差的累积，在一段时间内的相机位姿估计和采集的图像3D结构的准确性通常会随着时间的推移而恶化。估计漂移是累积估计误差随时间的变化。当相机重新观察先前绘制的区域以及相机不断探索新区域时，都会出现估计误差。当相机持续观察新区域时，光束平差会减少为固定滞后光束平差，这通常会导致快速的轨迹漂移。轨迹漂移是对相机运动估计的变化。重新观察一个区域被称为闭环。当相机重新观察先前绘制的区域时，估计误差通常会减少，但在大规模环境中，即使是在闭环的情况下，估计误差仍然是不可避免的。

为了抑制定位的累积误差，位姿图方法被广泛采用，以降低计算成本。位姿图的概念是，当相机重访同一区域时，将当前的相机轨迹和旧的相机轨迹进行对齐。这种位姿图方法试图增加轨迹之间的相似性，即使轨迹具有完全不同的模式。尽管考虑了3D地标，但3D地标和由单个相机构建的当前3D点之间的距离比例误差使情况变得更糟。

用于更准确对齐的迭代最近点(Iterative closest point，ICP)是一种用于最小化两个点云之间差异的算法。通常，ICP构建每个点的法线向量，然后使用匹配的对点对齐它们。然而，由于十分高昂的时间成本，直接应用ICP方法存在一些障碍。

另一种方法是透视n点(Perspective-n-Point，PnP)。当相机重新访问同一区域时，PnP会在当前相机图像上重新投影已经构建的3D地标，以校正当前相机位姿。当相机和3D地标之间的距离增加时，相机位姿估计误差也会增加。

因为上述方法只关注当前(最新)帧位姿校正，重新校正的位置可能会突然跳跃产生一个大的平移。此外，这些方法没有考虑当前估计的3D点和3D地标之间的距离比例误差。

例如，图1和图2示例性地说明了当前3D点和地标之间的传统对齐方式。如图1所示，当前帧位姿101基于地标#1、#2和#3的透视图像进行校正。如图2中三个箭头的原点所示，当前帧位姿的重新校正位置向左跳跃产生一个大的平移，即与预测位姿和相机轨迹基本不匹配。并且，如图2中两个箭头末端的菱形所示，在其重新校正中没有考虑由当前帧位姿变化引起的距离比例误差，从而产生了额外的重新校正误差。

为了克服上述方法的缺陷，本公开的一些实施例提出了一种将当前图像帧与其先前图像帧紧密耦合的位姿估计方案。因为当前轨迹和紧耦合体中的每个相机之间的距离被认为是一个误差，所以可以抑制突发跳跃平移问题。

本公开的一些实施例还提出了一种位姿估计方案，该方案在最小化这些误差和估计紧耦合体的6自由度(Degrees of Freedom，DoF)时考虑了3D地标和当前3D点之间的距离比例误差。位姿估计方案的一个示例通过以下等式执行。

Minimization{3D_error_term+body_pose_error_term+3D_project_error_term}(使3D误差项、位姿误差项和3D投射误差项三者之和最小化)，

其中，3D_error_term＝3D land mark-scale*current 3D point(3D误差项等于3D地标坐标减去当前3D点坐标与比例之乘积的差)，

body_pose_error_term＝scale*body pose-current body pose(位姿误差项等于位姿与比例之乘积减去当前位姿的差)，以及

3D_project_error_term＝3D landmark projection on image-current imagepoint(3D投射误差项等于3D地标在图像上的投影坐标减去当前图像点坐标之差)。

下面结合附图对本公开实施例提供的一种用于估计图像采集设备的位姿的方法及装置进行具体说明。

现参考图3，其示出了根据本公开的一些实施例的可选的操作流程300的顺序图。这些实施例包括至少一个硬件处理器和单个相机。在这些实施例中，至少一个硬件处理器从至少一个位姿获取(301)多个地标的一系列图像。在这些实施例中，所述至少一个位姿是未知的。可能需要为所述至少一个位姿计算一组估计值。

在一些实施例中，对于最近获取的N幅图像，至少一个硬件处理器通过将N幅图像中的每幅图像与绘制图像集进行匹配来确定(303)N幅匹配的图像，其中N是大于2的整数。例如，N＝3。换言之，将最近获取的三幅图像分别与绘制图像集进行匹配，以分别确定三幅对应的匹配图像。

在一些实施例中，至少一个硬件处理器通过将最近获取的N幅图像与N幅匹配图像的已知位姿信息对齐来输出(305)图像采集设备的位姿。

在计算位姿图的绝对位姿时，恢复相机的6自由度(DoF)和围绕闭环区域缩放的常规解决方案使用基于单帧的PnP方法。当基于SLAM的地标深度精度较差且当前图像帧与重投影的3D地标之间的重叠区域小于60％时，基于单帧的PnP会产生抖动运动(错误的6DoF)。

在一些实施例中，绘制图像集是在用于估计图像采集设备的位姿的操作期间获取的。换言之，图像采集设备连续采集多个地标的图像，并为每个采集的图像提取特征信息以构建绘制图像集，该绘制图像集用于以线上(on-board)方式估计最近获取的N幅图像的位姿。在一些替代实施例中，绘制图像集在用于估计图像采集设备的位姿的操作之前被单独获取，因此，用于以脱机(off-board)方式估计最近获取的N幅图像的位姿。

现在参考图4，其示出了根据本公开的一些实施例的用于构造绘制集的可选的操作流程400的顺序图。这些实施例包括至少一个硬件处理器、单个相机和视觉惯性里程计(VIO)单元。在这些实施例中，至少一个硬件处理器控制单个相机来采集(401)在图像采集设备的不同位姿下的多个地标的多个图像，以及控制VIO单元为多幅图像中的每幅图像提取(403)特征信息。在一些实施例中，特征信息包括每幅图像的6DoF信息和每幅图像中多个地标的深度信息。

在一些实施例中，VIO单元包括视觉里程计单元和惯性测量单元(inertialmeasurement unit，IMU)。

视觉里程计单元的示例性算法过程如下。首先获取一帧新的图像，从图像中提取ORB(Oriented FAST and Rotated Brief，定向FAST(特征点)和旋转BRIEF(特征描述))特征点，并计算特征点对应的特征描述。然后，将最近获取的图像的特征点与之前的图像帧的特征点进行匹配。同时，使用RANSAC算法过滤匹配的特征点。最后，通过最小化重投影误差得到当前图像帧与之前图像帧之间的旋转平移矩阵，从而获得图像采集设备的当前位姿。

在一些实施例中，IMU被配置为通过陀螺仪和加速度计获得图像采集设备的加速度和角速度，然后通过积分运算计算图像采集设备的当前位姿。为简洁起见，此处省略其细节。

现在参考图5，其示出了根据本公开的一些实施例的用于将每个图像与绘制图像集进行匹配的可选操作流程500的顺序图。这些实施例包括至少一个硬件处理器和单个相机。在这些实施例中，至少一个硬件处理器从由单个相机从至少一个位姿采集的多个图像中提取(501)多个地标的多个观察到的图像特征。在这些实施例中，所述至少一个位姿是未知的。需要为至少一个位姿计算一组估计。可选地，观察到的图像特征可以在相机坐标系中表示。

在一些实施例中，至少一个硬件处理器通过将图像匹配算法应用于图像来提取(503)多个观察到的图像特征。图像匹配算法可以包括产生比例信息的特征比例检测算法。图像匹配算法的示例是SIFT和RANSAC。至少一个硬件处理器可以在提取的多个观察到的图像特征中识别(505)至少一个观察到的共同图像特征，观察到的共同图像特征记录于至少一些图像中。可选地，图像匹配算法用于识别所述至少一个共同特征。

在一些实施例中，可以利用角点特征匹配和跟踪(corner feature matching andtracking)方法，例如作为词袋(bag-of-words)位置识别方法的DBoW2来实现操作500。基于操作500，通过BRIEF描述子检测和描述多个角点特征，将其作为视觉词来查询绘制图像集。DBoW2可以在时间和几何一致性检查后返回闭环候选。可以保留所有BRIEF描述子以进行特征检索，但可以忽略原始图像以减少内存消耗。当检测到循环时，通过检索特征对应关系来建立最近获取的N幅图像和N幅匹配图像之间的联系。通过BRIEF描述子匹配找到对应关系。

现在参考图6，其示出了根据本公开的一些实施例的用于重新定位图像采集设备的位姿的可选操作流程600的顺序图。这些实施例包括至少一个硬件处理器。在这列实施例中，至少一个硬件处理器基于以下等式计算(601)位姿(R，T)：

Pi＝R(p _i-p_ref)+T；

(P_i-L_i)(dot)(P_j-L_j)-|P_i-L_i||P_j-L_j|ray_i(dot)ray_j＝0；

R*ray_i(dot)(P_i-L_i)-|P_i-L_i|＝0，

其中R是表示所述图像采集设备相对于世界坐标系的方向的旋转矩阵；T是表示所述图像采集设备相对于世界坐标系的位置的平移矢量；p_ref是将所述最近获取的N幅图像作为一个整体时体系统中的参考位置；p_i是为所述N幅匹配图像中的第i幅图像确定的位姿平移；Pi是所述最近获取的N幅图像中的第i幅图像的位置；L_i是所述多个地标中第i个地标的位置；dot表示内积运算；ray_i表示从相机焦点到与第i个图像上的特征点对应的图像像素的射线。

在一些实施例中，至少一个硬件处理器将最近获取的图像的位姿(r_ref，p_ref)输出(603)为：

r_ref＝R*R_ref；和

p_ref＝T，

其中R_ref是为所述最近获取的图像确定的旋转矩阵。

现在参考图7，其示出了根据本公开的一些实施例实现操作300的示例性应用场景。在这些实施例中，至少一个硬件处理器从一系列位姿0、1、2、...12获取(301)地标L1、L2、L3的一系列图像。在这些实施例中，位姿12是未知的。

在一些实施例中，对于最近获取的三幅图像，至少一个硬件处理器通过将三幅图像中的每一幅与绘制图像集进行匹配来确定(303)三幅匹配图像。换言之，将最近获取的三幅图像分别与绘制图像集进行匹配，以分别确定对应的三幅匹配图像。如图7所示，在位姿10、11、12的三幅图像和位姿1、3、4的三幅匹配图像之间分别找到了特征对应关系。

在一些实施例中，至少一个硬件处理器通过将最近获取的三幅图像与三幅匹配图像的已知位姿信息对齐来输出(305)图像采集设备的位姿。

基于本公开实施例提供的方法，假设最近获取的三幅图像是由安装在紧致的刚性体系统上的三个相机获取的，从中估计出6DoF和比例。因此，即使位姿误差累积得很大，但相对于整个累积位姿而言，紧耦合的三幅图像的累积误差很小。

以上已经结合图3至图7对本申请的方法实施例进行了详细描述。下面结合图8和图9对本申请的装置/设备实施例进行详细说明。应当理解，装置/设备实施例与方法实施例相对应，相似说明参见方法实施例即可。

图8是根据本申请的一些实施例的用于估计图像采集设备的位姿的装置的框图。如图8所示，装置800包括获取模块801、确定模块803和输出模块805。

获取模块801被配置为从至少一个位姿获取多个地标的一系列图像；

确定模块803被配置为对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数；以及

输出模块805被配置为通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿。

可选地，在一些实施例中，所述装置800还包括构建模块(未示出)。所述构建模块被配置为以所述图像采集设备的不同位姿采集多个地标的多幅图像以及为所述多幅图像中的每幅图像提取特征信息来获取所述绘制图像集。

可选地，在一些实施例中，所述构建模块具体被配置为：为所述每幅图像计算6自由度(DoF)信息和所述每幅图像中所述多个地标的深度信息。

可选地，在一些实施例中，所述构建模块具体被配置为：基于视觉惯性里程计(visual inertial odometry，VIO)算法，利用惯性测量单元(inertial measurementunit，IMU)以及相机图像角点特征匹配和跟踪，计算出所述6DoF信息和所述深度信息。

可选地，在一些实施例中，所述确定模块803具体被配置为：在所述N幅图像中的每一幅和所述N幅匹配图像中每个对应的图像之间执行角点特征的匹配。

可选地，在一些实施例中，所述输出模块805具体被配置为：根据以下等式计算位姿(R，T)：

Pi＝R(p _i-p_ref)+T；

(P_i-L_i)(dot)(P_j-L_j)-|P_i-L_i||P_j-L_j|ray_i(dot)ray_j＝0；

R*ray_i(dot)(P_i-L_i)-|P_i-L_i|＝0，

其中R是表示所述图像采集设备相对于世界坐标系的方向的旋转矩阵；T是表示所述图像采集设备相对于世界坐标系的位置的平移矢量；p_ref是将所述最近获取的N幅图像作为一个整体时体系统中的参考位置；p_i是为所述N幅匹配图像中的第i幅图像确定的位姿平移；Pi是所述最近获取的N幅图像中的第i幅图像的位置；L_i是所述多个地标中第i个地标的位置；dot表示内积运算；ray_i表示从相机焦点到与第i个图像上的特征点对应的图像像素的射线；以及

为最近获取的图像输出位姿(r_ref，p_ref)为：

r_ref＝R*R_ref；和

p_ref＝T，

其中R_ref是为所述最近获取的图像确定的旋转矩阵。

基于本公开实施例提供的装置，假设最近获取的N幅图像是由安装在紧致的刚性体系统上的N个相机获取的，从中估计出6DoF和尺度。因此，即使位姿误差累积得很大，但相对于整个累积位姿而言，紧耦合的N幅图像的累积误差很小。

图9是图示根据本申请的一些实施例的图像采集设备900的框图。图9所示的图像采集设备900包括处理器910，处理器910可以从存储器调用并运行计算机程序以实现根据本申请实施例的方法。

可选地，如图9所示，图像采集装置900还可以包括存储器920。处理器910可以调用并运行存储器920中的计算机程序以实现根据本申请实施例的方法。

存储器920可以是独立于处理器910的单独设备，或者可以集成在处理器910中。

可选地，如图9所示，图像采集设备900还可以包括收发器930，处理器910可以控制收发器930与其他设备进行通信。具体来说，它可以向其他设备发送信息或数据，或接收该设备发送的其他信息、数据。

收发器930可以包括发射器和接收器。收发器930还可以包括天线，天线的数量可以是一个或多个。

图10是示出根据本申请的一些实施例的芯片的框图。图10所示的芯片1000包括处理器1010，处理器1010可以从存储器调用并运行计算机程序以实现根据本申请实施例的方法。

可选地，如图10所示，芯片1000还可以包括存储器1020。处理器1010可以调用并运行存储器1020中的计算机程序来实现根据本申请实施例的方法。

存储器1020可以是独立于处理器1010的单独设备，或者可以集成在处理器1010中。

可选地，芯片1000还可以包括输入接口1030。处理器1010可以控制输入接口1030与其他设备或芯片进行通信。具体地，处理器1010可以获取其他设备或芯片发送的信息或数据。

可选地，芯片1000还可以包括输出接口1040。处理器1010可以控制输出接口1040与其他设备或芯片进行通信。具体地，处理器1010可以向其他设备或芯片输出信息或数据。

可选地，该芯片可以应用于本申请实施例提供的图像采集设备，该芯片可以实现根据本申请实施例的方法中图像采集设备实现的相应流程。为简洁起见，此处不再详细描述。

应当理解，本申请一些实施例中提到的芯片也可以称为系统级芯片、系统芯片、芯片系统或片上系统。

应当理解，本公开实施例中的处理器可以是具有信号处理能力的集成电路芯片。在实施过程中，上述方法实施例的步骤可以通过处理器中的硬件集成逻辑电路或者软件形式的指令来完成。本申请的一些实施例中提到的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件，其可以实现或实施本公开实施例中公开的方法、步骤和框图。通用处理器可以是微处理器，或者处理器可以是任何常规处理器等。本公开实施例公开的方法的步骤可以直接呈现为由硬件解码处理器执行并完成，或者由解码处理器中的硬件和软件模块结合执行并完成。软件模块可以位于本领域成熟的存储介质中，例如随机存取存储器、闪存、只读存储器、可编程只读存储器或电可擦除可编程存储器、寄存器。存储介质位于存储器中，处理器读取内存中的信息并结合其硬件完成上述方法的步骤。

本申请的一些实施例中提及的存储器可以是易失性存储器或非易失性存储器，或者可以包括易失性和非易失性存储器。在一些实施例中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦可编程只读存储器(erasable PROM，EPROM)、电可擦可编程只读存储器(EPROM、EEPROM)或闪存。易失性存储器可以是用作外部高速缓存的随机存取存储器(RAM)。通过示例性而非限制性的说明，可以使用多种形式的RAM，例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)，双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)，增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)，同步链路动态随机存取存储器(synch link DRAM，SLDRAM)，以及直接总线式随机存取存储器(direct Rambus RAM，DR RAM)等。应当注意，本文描述的系统和方法中的存储器旨在包括但不限于这些和任何其他合适类型的存储器。

应当理解，上述存储器是示例性的而不是限制性的。例如，本公开实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步链路动态随机存取存储器(synch link DRAM，SLDRAM)和直接总线式随机存取存储器(Direct Rambus RAM，DR RAM)等。换言之，本公开实施例中的存储器旨在包括但不限于这些以及任何其他合适类型的存储器。

本公开实施例还提供一种计算机可读存储介质，用于存储计算机程序。

可选地，在本申请的一些实施例中，计算机可读存储介质可以应用于网络设备，在本申请的一些实施例中，计算机程序使计算机执行在本申请的一些实施例中的每个方法中由网络设备实现的相应过程。为简洁起见，此处不再赘述。

可选地，在本申请的一些实施例中，计算机可读存储介质可以应用于移动终端/终端设备，在一些实施例中，计算机程序使计算机执行在本申请的一些实施例中的每个方法中由移动终端/终端设备实现的相应过程。为简洁起见，此处不再赘述。

在本申请的一些实施例中还提供了一种计算机程序产品，包括计算机程序指令。

可选地，在本申请的一些实施例中，该计算机程序产品可以应用于网络设备，该计算机程序指令使计算机执行在本申请的一些实施例中的各个方法中网络设备实现的对应的过程。为简洁起见，此处不再赘述。

可选地，在本申请的一些实施例中，该计算机程序产品可以应用于移动终端/终端设备，该计算机程序指令使计算机执行在本申请的一些实施例中的各个方法中移动终端/终端设备实现的对应的过程。为简洁起见，此处不再赘述。

在本申请的一些实施例中还提供了一种计算机程序。

可选地，在本申请的一些实施例中，计算机程序可以应用于网络设备。当计算机程序在计算机上运行时，使计算机执行在本申请的一些实施例中的各个方法中网络设备实现的对应的过程。为简洁起见，此处不再赘述。

选地，在本申请的一些实施例中，计算机程序可以应用于移动终端/终端设备。当计算机程序在计算机上运行时，使计算机执行在本申请的一些实施例中的各个方法中移动终端/终端设备实现的对应的过程。为简洁起见，此处不再赘述。

本领域的普通技术人员可以认识到，与本文所披露的实施例有关的每个示例的单元和算法步骤可以由电子硬件实现，或由计算机软件和电子硬件的组合实现。这些功能是用硬件还是用软件来执行，取决于技术方案的具体应用和设计限制。本领域的普通技术人员可以使用不同的方法来实现针对每个具体应用所描述的功能，但这种实现不应视为超出本申请的范围。

本领域技术人员可以清楚地了解到，为说明的方便和简洁，上述系统、装置和单元的具体工作过程可以参见上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应当理解，所公开的系统、设备和方法可以通过其他方式实现。例如，如上所述的设备实施例仅是示例性的。例如，单元的划分只是逻辑功能上的划分，实际实现中可能还有其他的划分。例如，可以将多个单元或组件组合或集成到另一个系统中，或者可以忽略或不执行某些功能。此外，展示的或讨论的相互耦合或直接耦合或通信连接可以是通过一些接口、设备或单元的间接耦合或通信连接，并且可以是电气、机械或其他形式。

被描述为独立组件的单元在物理上可以分开也可以不分开，作为单元展示的组件可以是也可以不是物理单元，即它们可以位于一个位置，也可以分布在多个网络单元上。可以根据实际需要选择其中的部分或者全部单元来实现实施例中方案的目标。

此外，本公开各个实施例中的功能单元可以集成在一个处理单元中，也可以是每个单元在物理上单独存在，也可以将两个或多个单元集成在一个单元中。

如果这些功能以软件功能单元的形式实现并作为独立产品销售或使用，则可以存储在计算机可读存储介质中。基于这样的理解，本申请的技术方案的重要部分，即对现有技术有贡献的部分，或者技术方案的其他部分，可以以软件产品的形式体现。计算机软件产品存储在存储介质中，包括用于使计算机设备(可以是个人计算机、服务器或网络设备等)执行本申请的一些实施例中描述的方法的全部或部分步骤的若干指令。前述存储介质包括U盘、移动硬盘、ROM、RAM、磁盘、光盘等各种可以存储程序代码的介质。

以上内容仅为本申请实施例的具体实现，并不用于限定本申请实施例的保护范围。本领域技术人员在本申请一些实施例公开的技术范围内，所作的任何修改或替换，均应包含在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于估计图像采集设备的位姿的方法，包括：

从至少一个位姿获取多个地标的一系列图像；

对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数；以及

通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿。

2.根据权利要求1所述的方法，还包括通过以下方式获取所述绘制图像集：

以所述图像采集设备的不同位姿采集多个地标的多幅图像；以及

为所述多幅图像中的每幅图像提取特征信息。

3.根据权利要求2所述的方法，其中，所述为所述多幅图像中的每幅图像提取特征信息包括：

为所述每幅图像计算6自由度DoF信息和所述每幅图像中所述多个地标的深度信息。

4.根据权利要求3所述的方法，其中，所述计算步骤包括：

基于视觉惯性里程计VIO算法，利用惯性测量单元IMU以及相机图像角点特征匹配和跟踪，计算出所述6DoF信息和所述深度信息。

5.根据权利要求1-4任一项所述的方法，其中，所述将所述N幅图像中的每幅图像与所述绘制图像集进行匹配包括：

在所述N幅图像中的每一幅和所述N幅匹配图像中每个对应的图像之间执行角点特征的匹配。

6.根据权利要求1-4任一项所述的方法，其中，将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿包括：

根据以下等式计算位姿(R，T)：

Pi＝R(p_i-p_ref)+T；

(P_i-L_i)(dot)(P_j-L_j)-|P_i-L_i||P_j-L_j|ray_i(dot)ray_j＝0；

R*ray_i(dot)(P_i-L_i)-|P_i-L_i|＝0，

为最近获取的图像输出位姿(r_ref，p_ref)为：

r_ref＝R*R_ref；和

p_ref＝T，

其中R_ref是为所述最近获取的图像确定的旋转矩阵。

7.一种用于估计图像采集设备的位姿的装置，包括：

获取模块，被配置为从至少一个位姿获取多个地标的一系列图像；

确定模块，被配置为对于最近获取的N幅图像，通过将所述N幅图像中的每幅图像与绘制图像集进行匹配来确定N幅匹配图像，其中N为大于2的整数；以及

输出模块，被配置为通过将所述最近获取的N幅图像与所述N幅匹配图像的已知位姿信息对齐来输出所述图像采集设备的位姿。

8.根据权利要求7所述的装置，还包括构建模块，被配置为通过以下方式获取所述绘制图像集：

为所述多幅图像中的每幅图像提取特征信息。

9.根据权利要求8所述的装置，其中，所述构建模块具体被配置为：

10.根据权利要求9所述的装置，其中，所述构建模块具体被配置为：

11.根据权利要求7-10任一项所述的装置，其中，所述确定模块具体被配置为：

12.根据权利要求7-10任一项所述的装置，其中，所述输出模块具体被配置为：

根据以下等式计算位姿(R，T)：

Pi＝R(p_i-p_ref)+T；

(P_i-L_i)(dot)(P_j-L_j)-|P_i-L_i||P_j-L_j|ray_i(dot)ray_j＝0；

R*ray_i(dot)(P_i-L_i)-|P_i-L_i|＝0,

为最近获取的图像输出位姿(r_ref，p_ref)为：

r_ref＝R*R_ref；和

p_ref＝T，

其中R_ref是为所述最近获取的图像确定的旋转矩阵。

13.一种图像采集装置，包括处理器和存储器，所述存储器被配置为存储计算机程序，所述处理器被配置为调用并运行所述存储器中存储的所述计算机程序，从而实现根据权利要求1至6中任一项所述的方法。

14.一种芯片，包括处理器，所述处理器被配置为调用并运行存储器中的计算机程序，从而使设置有所述芯片的装置实现根据权利要求1至6中任一项所述的方法。

15.一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序使计算机实现根据权利要求1至6中任一项所述的方法。

16.一种计算机程序产品，包括使计算机实现根据权利要求1至6中任一项所述的方法的计算机程序指令。

17.一种计算机程序，使计算机实现根据权利要求1至6中任一项所述的方法。