CN110264509B

CN110264509B - 确定图像捕捉设备的位姿的方法、装置及其存储介质

Info

Publication number: CN110264509B
Application number: CN201810393076.3A
Authority: CN
Inventors: 乔亮; 林祥凯; 暴林超; 凌永根; 朱峰明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2022-10-14
Anticipated expiration: 2038-04-27
Also published as: WO2019205852A1; EP3786890B1; US11270460B2; US20200357136A1; EP3786890A4; CN110264509A; EP3786890A1

Abstract

本公开提出在单目视觉SLAM系统中应用的确定图像捕捉设备的位姿的方法、装置和存储介质。该方法使用图像捕捉设备获取多帧图像；提取图像中的多个匹配特征点以及每个所述匹配特征点在每帧图像中的第一位置信息；使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息；基于每个所述匹配特征点在当前帧图像中的所述第一位置信息和所述第二位置信息确定所述图像捕捉设备的位姿。本公开的方案用于克服现有的单目视觉SLAM系统在初始化过程中对图像捕捉设备的运动要求较高而无法快速有效确定图像捕捉设备的位姿而完成初始化的缺陷，用户体验良好、快速稳健，能够在系统启动后获取第一帧图像时就提供完整SLAM功能。

Description

确定图像捕捉设备的位姿的方法、装置及其存储介质

技术领域

本公开涉及定位方法，特别地，涉及在单目视觉SLAM(SimultaneousLocalization And Mapping,即时定位与同步地图构建)系统中应用的确定图像捕捉设备的位姿的方法、装置、存储介质及其电子设备。

背景技术

增强现实(Augmented Reality，AR)是将虚拟物体叠加在真实场景中并加以显示、交互的系统。目前，SLAM是AR系统的核心技术，其能够使AR系统在未知的场景中获得场景的三维结构信息和系统在场景中的位置和姿态。单目视觉SLAM系统是只使用一个摄像头提供的视觉图像信息完成SLAM功能的系统，手机等移动设备是单目视觉SLAM硬件系统的一个示例。

单目视觉SLAM系统启动后要进行初始化过程，即重建局部场景的结构、确定场景尺度、确定系统初始的位置和朝向等。在初始化过程中SLAM系统启动后根据最初的视觉、传感器信息，重建出场景的初始三维结构并估计相机的初始位置和姿态。

SLAM系统通常使用三维重建SfM(Structure from Motion)技术，该技术要求对同一个场景有至少两幅视差变化较大的图像，以便利用极线几何关系重建场景结构和恢复相机运动。这需要用户按照一定的要求移动设备，对用户的操作依赖性很大。未经训练的用户可能会花费很长时间移动设备也无法提供两帧满足要求的图像，导致SLAM系统无法启动。

当场景中物体的相对深度差远小于场景到相机的距离的时候，场景可以近似看作是平面。单应矩阵(Homography Matrix，H矩阵)是描述平面场景在两幅图像中的变换关系，分解单应矩阵也可以获得相机在拍摄两幅图像时的运动。但是，该情况适合当相机间的运动幅度较小时，两幅图像的视差很小，不能有效地分辨场景的深度信息的情况，系统运行时间增加或设备运动距离增大后重建的场景结构和估计的相机运动会变得越来越不准确，限制了系统的应用范围。上述两种方案都需要用户移动AR系统的相机或摄像头，存在局限性。

因此，存在对现有的单目视觉SLAM系统在初始化过程中确定图像捕捉设备的位姿进行改进的需求。

发明内容

本公开的目的在于克服现有的单目视觉SLAM系统在初始化过程中对图像捕捉设备的运动要求较高而无法快速有效确定图像捕捉设备的位姿而完成初始化的缺陷，不需要强制用户按照特定方式移动设备。

根据本公开的一方面，提出一种用于确定图像捕捉设备的位姿的方法，包括：

使用图像捕捉设备获取多帧图像；

提取图像中的多个匹配特征点以及每个所述匹配特征点在每帧图像中的第一位置信息；

使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息；

基于每个所述匹配特征点在当前帧图像中的所述第一位置信息和所述第二位置信息确定所述图像捕捉设备的位姿。

根据本公开的实施例，提取图像中的多个匹配特征点以及每个所述匹配特征点在每帧图像中的第一位置信息包括：获取每个所述匹配特征点在每帧图像中的所述第一位置信息的二维位置信息；通过所述图像捕捉设备的内部参数矩阵将所述第一位置信息的二维位置信息变换为所述第一位置信息的三维位置信息，其中所述第一位置的三维位置信息包括场景的深度信息。

根据本公开的实施例，如果当前帧图像为第一帧图像，在使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息之前，所述方法还包括：初始化每个所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息；基于所述第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定所述图像捕捉设备的初始位姿。

根据本公开的实施例，使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息包括：基于所述内部参数矩阵以及所述图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，将每个所述匹配特征点在上一帧图像中的所述第一位置信息的二维位置信息转换为每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息，其中所述运动参数矩阵包括所述图像捕捉设备的旋转矩阵和位移向量，所述旋转矩阵表征所述图像捕捉设备的位姿中的姿态信息，所述位移向量表征所述图像捕捉设备的位姿中的位置信息。

根据本公开的实施例，基于每个所述匹配特征点在当前帧图像中的所述第一位置信息和所述第二位置信息确定所述图像捕捉设备的位姿包括：计算在每个所述匹配特征点在当前帧图像中的第一位置信息中的二维位置信息与每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息之间的差异值，通过使所述差异值最优化估计所述运动参数矩阵和每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；基于求解后的所述运动参数矩阵中旋转矩阵和位移向量更新所述图像捕捉设备在捕捉当前帧图像时的位姿。

根据本公开的实施例，每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息为所述匹配特征点在上一帧图像中提取的第一位置信息的二维位置在当前帧图像上的投影，通过使所述差异值最优化估计所述运动参数矩阵和每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息还包括：在每个所述匹配特征点在当前帧图像中的第一位置信息的二维位置信息与所述投影之间的差值平方和最小化时，求解所述运动参数矩阵和所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息。

根据本公开的实施例，基于每个所述匹配特征点在当前帧图像中的所述第一位置信息和所述第二位置信息确定所述图像捕捉设备的位姿还包括：在对于当前匹配特征点与上一个匹配特征点确定的所述图像捕捉设备的位姿相同时，所述位姿为所述图像捕捉设备的最终位姿。

根据本公开的另一方面，提出一种用于确定图像捕捉设备的位姿的装置，包括：

特征提取和匹配单元，设置为从所述图像捕捉设备获取的多帧图像中提取多个匹配特征点以及所述每个匹配特征点在每帧图像中的第一位置信息；

局部光束平差优化单元，设置为使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息，以及基于每个所述匹配特征点在当前帧图像中的所述第一位置信息和所述第二位置信息确定所述图像捕捉设备的位姿。

根据本公开的实施例，该装置还包括：单应矩阵变换单元，设置为如果当前帧图像为第一帧图像，初始化每个所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息，以及基于所述第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定所述图像捕捉设备的初始位姿。

根据本公开的实施例，该装置还包括：图像处理单元，设置为消除图像的畸变和模糊。

根据本公开的实施例，该装置还包括：地图管理模块，设置为基于所述图像和所述图像捕捉设备的位姿生成三维地图信息。

根据本公开的又一方面，提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当该可执行指令被处理器执行时，实施如上所述的方法。

根据本公开的再一方面，提出一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器设置为执行所述可执行指令以实施如上所述的方法。

通过采用本公开提出的确定图像捕捉设备的位姿的方法、装置、存储介质及其电子设备，在最开始的两帧图像间假设场景满足单应矩阵的要求，通过分解单应矩阵获得场景的深度和相机的位姿。在后续的每帧图像中，通过一个局部的光束平差(BundleAdjustment，BA)最优化问题更新初始场景中的特征点深度信息，并更新该帧图像时刻的相机位姿。该方案用户体验良好、快速稳健，能够在系统启动后获取第一帧图像时就提供完整SLAM功能，并且会自动根据用户的运动不断地优化场景结构，同时还可以输出可供SfM算法利用的多幅图像，不需要强制用户按特定方式移动设备，从第一帧图像开始就能够为AR系统提供一致的、平稳的、可靠的SLAM功能。

附图说明

通过参照附图详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。

图1是根据本公开实施例的使用移动设备作为单目视觉SLAM系统的应用场景示意图；

图2是分别使用基础矩阵、单应矩阵和本公开实施例的方案进行单目视觉SLAM系统初始化的图像捕捉对比图；

图3是根据本公开实施例的进行单目视觉SLAM系统初始化的示意图；

图4是根据本公开实施例的确定图像捕捉设备的位姿的方法的流程图；

图5是根据本公开另一实施例的确定图像捕捉设备的位姿的方法的流程图；

图6是根据本公开实施例的提取图像中的多个匹配特征点及其第一位置信息的具体流程；

图7是根据本公开实施例的使用上一帧图像中提取的匹配特征点的第一位置信息估计在当前帧图像中的第二位置信息的具体流程；

图8是根据本公开实施例的基于每个匹配特征点的第一位置信息和第二位置信息确定图像捕捉设备的位姿的具体流程；

图9是根据本公开实施例的使差异值最优化估计运动参数矩阵和每个匹配特征点的第一位置信息的具体流程；

图10是根据本公开另一实施例的基于每个匹配特征点的第一位置信息和第二位置信息确定图像捕捉设备的位姿的具体流程；

图11是根据本公开实施例的确定图像捕捉设备的位姿的装置的结构框图；

图12是根据本公开另一实施例的确定图像捕捉设备的位姿的装置的结构框图；

图13是根据本公开又一实施例的确定图像捕捉设备的位姿的装置的结构框图；

图14是根据本公开再一实施例的确定图像捕捉设备的位姿的装置的结构框图；以及

图15为根据本公开实施例的一种电子设备的示意框图。

具体实施方式

现在将参考附图更全面地描述示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本公开将全面和完整，并将示例性实施例的构思全面地传达给本领域的技术人员。在图中，为了清晰，可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、元件等。在其它情况下，不详细示出或描述公知结构、方法或者操作以避免模糊本公开的各方面。

图1示出根据本公开实施例的一种采用诸如手机等的移动设备作为单目视觉SLAM系统的应用场景示意图。移动设备例如但不限于手机、个人数字助理、平板电脑等。在使用智能手机的AR游戏中，用户通过手102操纵智能手机101的屏幕进行AR游戏。在手机屏幕上，虚拟物体105在现实3D场景103和104中固定在某处或者在某个桌子上跳舞，而不会随着用户手机的移动而移动。3D场景103和104为智能手机101移动时，通过手机101的图像捕捉设备(例如，前置或后置相机和摄像头)获取的视差较大的两帧图像。因此，本公开实施例的方法和装置主要在配备有图像捕捉设备的终端上应用。

图2示出分别使用基础矩阵、单应矩阵和本公开实施例的方案进行单目视觉SLAM系统初始化的图像捕捉对比图。

场景201示出采用基础矩阵(Fundamental Matrix,F矩阵)进行单目视觉SLAM系统初始化的情况。现有的单目视觉SLAM系统(如PTAM、ORB-SLAM等)的初始化均是基于极线几何原理的。若同一个场景的三维点在两帧不同图像上分别有成像，那么三维点、两帧图像上的像点，以及拍摄这两帧图像时图像捕捉设备的中心，是位于同一个空间平面上的。基础矩阵是描述极线几何关系的数学表达，通过至少8对对应特征点的图像坐标可以估计出两帧图像间图像捕捉设备的运动信息，进而通过三角化算法可以求解其他对应特征点的三维场景点的坐标。这样就实现了系统初始化过程。

通过基础矩阵来初始化系统要求输入的两帧图像间有较大的移动，仅有旋转运动的图像往往会导致初始化失败。现有方案会要求用户在某个时刻点击屏幕开始触发SLAM系统初始化过程，要求用户移动设备使得当前帧图像相对于点击时刻的图像有足够的视差，当用户有足够多的移动运动时，SLAM系统就获得了所需的两帧初始化图像，通过SfM技术完成初始化过程。但是，这种方案对用户的操作依赖性很大，未经培训的用户可能无法按照要求运动，使得SLAM系统无法启动。

应注意到，当场景中物体的相对深度差远小于场景到图像捕捉设备的距离的时候，场景可以近似看作是平面。单应矩阵描述平面场景在两帧图像中的变换关系，通过分解单应矩阵也可以获得图像捕捉设备在拍摄两帧图像时的运动情况。图2的场景202则示出采用单应矩阵进行单目视觉SLAM系统的初始化的情况。另外，当图像捕捉设备的运动幅度较小时，两帧图像的视差很小，仅简单使用单应矩阵变换不能有效地分辨场景的深度信息，此时可以通过单应矩阵变换来描述图像捕捉设备的运动。但是，该方案也要求用户进行较大幅度的运动，从而通过单应变换获得具有不同视差的图像。

针对上述情况，本公开的实施例提出在图像捕捉设备所获得的最开始的两帧图像间假设场景满足单应矩阵的要求，通过分解单应矩阵获得场景的深度和相机的位姿，对应于图2中场景203所示的情况。在后续的每帧中，通过一个局部的光束平差(BundleAdjustment，BA)最优化问题更新初始场景中的特征点深度信息，并更新获取该帧图像时刻的图像捕捉设备的位姿。该方案能够在系统启动后获取第一帧图像时就提供完整SLAM功能，并且会自动根据用户的运动不断地优化场景结构，同时还可以输出可供SfM算法利用的多幅图像，不需要强制用户按特定方式移动设备。

图3示出根据本公开实施例的SLAM系统初始化过程的示意图。

图像捕捉设备301获取多帧图像302后，图像处理模块将图像302进行消除畸变和模糊处理。经过特征提取和匹配，从图像302获得多个匹配特征点303。系统的数据库(DB)304存储上述图像信息和匹配特征点信息，并提供给服务器305。服务器305具有单应矩阵变换和局部BA优化功能，通过运行上述功能，服务器305获得场景的三维地图信息和图像捕捉设备301的位姿信息306。

下文将详细介绍本公开实施例的用于在SLAM系统初始化过程中确定图像捕捉设备的位姿的方法和装置。

图4示出根据本公开实施例的图像捕捉设备的位姿的方法，该方法包括如下步骤：

S100：使用图像捕捉设备获取多帧图像；

S200：提取图像中的多个匹配特征点以及每个匹配特征点在每帧图像中的第一位置信息；

S300：使用每个匹配特征点在上一帧图像中提取的第一位置信息估计每个匹配特征点在当前帧图像中的第二位置信息；

S400：基于每个匹配特征点在当前帧图像中的第一位置信息和第二位置信息确定图像捕捉设备的位姿。

首先，SLAM系统使用图像捕捉设备捕捉多帧图像。

然后，在每帧图像到来的时候执行特征提取和匹配。特征提取可以用不同的算法，如Harris Corner、FAST、SIFT、SURF、ORB等。通常在提取完特征点后还会生成该特征点的描述子用来区分不同的特征点。在3D真实场景所捕捉的多帧图像中提取多个特征点，第i个特征点的图像坐标为{u_i,v_i+，对应的三维场景点的齐次坐标为{x_i,y_i,1,w_i}。这里为了简化运算使用逆深度w代替z坐标(w＝1/z)，即场景点深度的倒数。

特征匹配会在相邻的两帧图像之间执行，特征匹配算法可以使用光流跟踪或根据特征点的描述子的相似程度进行匹配。经过特征提取和特征匹配之后，图像信息转化为匹配特征点的第一位置信息。

根据图5所示，本公开实施例的图像捕捉设备的位姿的方法还包括在当前帧图像为第一帧图像时，执行初始化步骤：

S500：初始化每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；以及基于第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定图像捕捉设备的初始位姿。

此时，系统会将提取到的第i个匹配特征点所对应的空间三维点的逆深度形式表示的描述子初始化为p_i＝{x_i,y_i,1,w_i+，图像捕捉设备的初始位姿为

其中I为单位阵。

在初始化后，流程重新执行步骤S200。如果当前帧图像不是第一帧图像，则从步骤S200后直接执行步骤S300。

根据图6所示的本公开的实施例，步骤S200进一步包括如下步骤：

S210：获取每个匹配特征点在每帧图像中的第一位置信息的二维位置信息；

S220：通过图像捕捉设备的内部参数矩阵将第一位置信息的二维位置信息变换为第一位置信息的三维位置信息，其中第一位置的三维位置信息包括场景的深度信息。

假设采用针孔相机成像模型，图像捕捉设备的内部参数矩阵为

其中f_x和f_y分别为图像捕捉设备在x轴和y轴的焦距，c_x和c_y分别为图像捕捉设备的主光轴在成像平面上的交点坐标(光心)。

设某个匹配特征点在图像上的坐标为p_i＝{u_i,v_i+，其中u和v分别为第i个匹配特征点在该帧图像上的u，v轴坐标。

则在步骤S220中，可将该匹配特征点p_i对应的场景中的三维点的坐标，即三维位置信息，用逆深度表示为p_i＝{x_i,y_i,1,w_i+，则有：

这样在一帧图像中，匹配特征点就可以只用一个参数，即逆深度w_i来描述。

图7示出根据本公开实施例的使用上一帧图像中提取的匹配特征点的第一位置信息估计在当前帧图像中的第二位置信息的具体步骤，包括：

S310：基于内部参数矩阵以及图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，将每个匹配特征点在上一帧图像中的第一位置信息的二维位置信息转换为所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息，

其中运动参数矩阵包括图像捕捉设备的旋转矩阵和位移向量，旋转矩阵表征图像捕捉设备的位姿中的姿态信息，位移向量表征图像捕捉设备的位姿中的位置信息。

通常系统启动后的前几帧图像基本相同，此时可以用单应矩阵H估计和分解来求解图像捕捉设备的位姿。

单应矩阵H描述平面场景在图像捕捉设备的不同视角下的变换关系，记一前一后相邻的第m帧和第n帧两帧图像上的匹配特征点分别为

则有：

而根据针孔相机成像关系，有：

其中，R为3×3阶图像捕捉设备的旋转矩阵，对应于图像捕捉设备的三个光轴的三个旋转自由度，而t为3×1阶位移向量，对应于图像捕捉设备在三维空间中的三个坐标。

对比公式(2)和(3)，可知：

因而可以首先根据至少4对匹配特征点的像素坐标计算出两帧图像间的单应矩阵H，然后通过矩阵分解得到图像捕捉设备在两帧图像间的运动参数矩阵T_mn＝H。

图8示出根据本公开实施例的基于所述匹配特征点在当前帧图像中的第一位置信息和第二位置信息确定图像捕捉设备的位姿的具体步骤，包括：

S410：计算在每个匹配特征点在当前帧图像中的第一位置信息中的二维位置信息与每个匹配特征点在当前帧图像中的第二位置信息的二维位置信息之间的差异值；

S420：通过使差异值最优化估计运动参数矩阵和每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；

S430：基于求解后的运动参数矩阵中旋转矩阵和位移向量更新图像捕捉设备在捕捉当前帧图像时的位姿。

系统通过构建并求解下面的最优化问题，求解得到匹配特征点的逆深度描述子的参数以及图像捕捉设备的运动参数矩阵的更新值。

设前后两帧图像为I^m和Iⁿ，两帧图像中的第i个匹配特征点在两帧中的二维位置信息分别为

和

该匹配特征点对应的场景中的三维点的三维坐标信息为

和

两帧图像间的运动参数矩阵为

则有：

其中，R_mn为3×3阶旋转矩阵，t_mn为3×1阶位移向量。

转换到图像的二维坐标系下，有：

经变换，得到：

上式描述了同一个匹配特征点所对应的三维空间点在图像捕捉设备的运动参数矩阵下从I^m到Iⁿ投影的关系。实际上，公式(7)中的投影关系也表示当从第m帧图像到第n帧图像时，使用第i个匹配特征点在第m帧图像中提取的第一位置信息的二维位置信息估计该匹配特征点在第n帧图像中的第二位置信息的二维位置信息。

在本文中，第一位置信息为从图像中提取的匹配特征点的坐标信息，当以图像平面的二维空间表示时，第一位置信息为

的形式，当以三维空间表示时，该第一位置信息为

的形式。而第二位置信息为采用该匹配特征点在从前一帧图像中提取的第一位置信息估计的位置信息。

在实际应用中，由于误差以及镜头畸变等影响，在图像Iⁿ上提取的匹配特征点坐标和投影坐标不一致。上述估计位置信息的最优化目标为使在图像Iⁿ上提取的第一位置信息

与以图像I^m中提取的第一位置信息

估计的第二位置信息

之间尽可能保持一致，即第一位置信息和第二位置信息的差值平方值

尽可能小。对两帧的所有匹配特征点，构造下面的问题

R,t,w_i＝argmin∑_i|M′_i-proj(R,t,M_i,w_i)|² (8)

其中M′_i是第i个匹配特征点在当前帧图像进行特征提取得到的坐标，M_i是第i个匹配特征点在上一帧图像进行特征提取得到的坐标，

是投影函数。

因此，根据图9所示的根据本公开实施例的方法中，每个匹配特征点在当前帧图像中的第二位置信息的二维位置信息为匹配特征点在上一帧图像中提取的第一位置信息的二维位置在当前帧图像上的投影，则步骤S420还包括步骤：

S421：在每个匹配特征点在当前帧图像中的第一位置信息的二维位置信息与投影之间的差值平方和最小化时，求解运动参数矩阵和匹配特征点在当前帧图像中的第一位置信息的三维位置信息。

上述的最优化过程可以通过高斯牛顿迭代求解。当图像捕捉设备实际运动较小的时候，匹配特征点的逆深度w_i在迭代过程的雅可比矩阵退化为0，从而导致迭代过程不稳定而无法获得精确的逆深度优化解。因此在每次迭代时，测试每个匹配特征点的运动参数矩阵大小。如果该运动参数矩阵太小，那么将匹配特征点的雅可比变化值设为0。迭代过程以前后两次迭代结果插值小于给定的阈值或迭代次数达到给定值时结束。

图10示出根据本公开另一实施例的基于每个匹配特征点的第一位置信息和第二位置信息确定图像捕捉设备的位姿的具体流程，其中相比图7所示的方法，还包括如下步骤：

S440：在对于当前匹配特征点与上一个匹配特征点确定的图像捕捉设备的位姿相同时，位姿为图像捕捉设备的最终位姿。

当某次最优化求解结果使得没有需要更新的匹配特征点的时候，即两次匹配特征点的上述最优化问题求解得出的图像捕捉设备的运动参数矩阵中的旋转矩阵R和位移向量t、以及逆深度w_i相同时，初始化过程完成，初始场景中的匹配特征点的三维坐标即为当前帧图像的求解结果，图像捕捉设备的位置和姿态即为最终位姿。除此之外，可以将第一帧图像和当前帧图像作为SLAM初始化过程的输入图像，通过求解基础矩阵并通过三角化重建三维场景来完成SLAM的初始化过程。

在整个初始化过程中，根据本公开实施例的方法不需要任何用户的特殊运动，只要在初始化过程中始终能看到第一帧图像的某些部分，该初始化方法就可以输出一贯连续的图像捕捉设备的位姿和三维场景结构和三维地图信息，从而使单目视觉SLAM应用在第一帧就可以执行渲染、交互等功能。

该方法用户体验良好、快速稳健，能够在系统启动后获取第一帧图像时就提供完整SLAM功能，并且会自动根据用户的运动不断地优化场景结构，同时还可以输出可供SfM算法利用的多幅图像，不需要强制用户按特定方式移动设备，从第一帧图像开始就能够为AR系统提供一致的、平稳的、可靠的SLAM功能。而且上述方法能够有效地筛选出合适的两帧图像，并且在此过程中持续为用户提供完整的、连续的SLAM功能，极大地增加用户使用单目SLAM系统的成功率，提高应用的用户粘滞性。

作为替代，还可以采用通常的xyz三参数表示方式取代逆深度w表示方案。也可以采用不同的最优化求解算法，引入其它传感器，例如双目摄像机，IMU传感器等，融合视觉和传感器信息替代最优化问题的求解。

现在介绍根据本公开实施例的应用于单目视觉SLAM系统的初始化过程中的确定图像捕捉设备的位姿的装置。

图11示出根据本公开实施例的确定图像捕捉设备的位姿的装置的结构框图。

确定图像捕捉设备的位姿的装置1100包括特征提取和匹配单元1101和局部光束平差优化单元1102。特征提取和匹配单元1101设置为从图像捕捉设备1110获取的多帧图像中提取多个匹配特征点以及每个匹配特征点在每帧图像中的第一位置信息。局部光束平差优化单元1102设置为使用每个匹配特征点在上一帧图像中提取的第一位置信息估计每个匹配特征点在当前帧图像中的第二位置信息，以及基于每个匹配特征点在当前帧图像中的第一位置信息和第二位置信息确定图像捕捉设备的位姿。

根据本公开的实施例，特征提取和匹配单元1101还设置为获取每个匹配特征点在每帧图像中的第一位置信息的二维位置信息；通过图像捕捉设备的内部参数矩阵将第一位置信息的二维位置信息变换为第一位置信息的三维位置信息，其中第一位置的三维位置信息包括场景的深度信息。

根据本公开的实施例，局部光束平差优化单元1102还设置为基于参数矩阵以及图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，将每个匹配特征点在上一帧图像中的第一位置信息的二维位置信息转换为每个匹配特征点在当前帧图像中的第二位置信息的二维位置信息，其中运动参数矩阵包括图像捕捉设备的旋转矩阵和位移向量，旋转矩阵表征图像捕捉设备的位姿中的姿态信息，位移向量表征图像捕捉设备的位姿中的位置信息。

根据本公开的实施例，局部光束平差优化单元1102还设置为计算在每个匹配特征点在当前帧图像中的第一位置信息中的二维位置信息与每个匹配特征点在当前帧图像中的第二位置信息的二维位置信息之间的差异值，通过使差异值最优化估计运动参数矩阵和每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；基于求解后的运动参数矩阵中旋转矩阵和位移向量更新图像捕捉设备在捕捉当前帧图像时的位姿。

根据本公开的实施例，每个匹配特征点在当前帧图像中的第二位置信息的二维位置信息为匹配特征点在上一帧图像中提取的第一位置信息的二维位置在当前帧图像上的投影，局部光束平差优化单元1102还设置为在每个匹配特征点在当前帧图像中的第一位置信息的二维位置信息与投影之间的差值平方和最小化时，求解运动参数矩阵和匹配特征点在当前帧图像中的第一位置信息的三维位置信息。

根据本公开的实施例，该局部光束平差优化单元1102还设置为在对于当前匹配特征点与上一个匹配特征点确定的图像捕捉设备的位姿相同时，该位姿为图像捕捉设备的最终位姿。

图12则示出根据本公开另一实施例的确定图像捕捉设备的位姿的装置的结构框图。相比图11，该装置还包括单应矩阵变换单元1103，设置为如果当前帧图像为第一帧图像，初始化每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息，以及基于第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定图像捕捉设备的初始位姿。

图13示出根据又一实施例的确定图像捕捉设备的位姿的装置的结构框图。该装置还包括图像处理单元1104，设置为消除图像的畸变和模糊。

图14的装置则相比图13，进一步增加地图管理模块1105，设置为基于图像和图像捕捉设备的位姿生成三维地图信息。

本公开的用于单目视觉SLAM系统初始化过程中的确定图像捕捉设备的位姿的装置，在最开始的两帧图像间假设场景满足单应矩阵的要求，通过分解单应矩阵获得场景的深度和相机的位姿。在后续的每帧图像中，通过一个局部的光束平差最优化问题更新初始场景中的特征点深度信息，并更新该帧时刻的相机位姿，用户体验良好、快速稳健，能够在系统启动后获取第一帧图像时就提供完整SLAM功能，并且会自动根据用户的运动不断地优化场景结构，同时还可以输出可供SfM算法利用的多幅图像，不需要强制用户按特定方式移动设备，从第一帧图像开始就能够为AR系统提供一致的、平稳的、可靠的SLAM功能。而且上述方法能够有效地筛选出合适的两帧图像，并且在此过程中持续为用户提供完整的、连续的SLAM功能，极大地增加用户使用单目SLAM系统的成功率，提高应用的用户粘滞性。

应当注意，尽管在上文详细描述中提及了确定图像捕捉设备的位姿的装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行指令，该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述确定图像捕捉设备的位姿方法的步骤。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书确定图像捕捉设备的位姿方法中描述的根据本公开各种示例性实施例的步骤。

根据本公开的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的确定图像捕捉设备的位姿方法的步骤。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图15来描述根据本公开的这种实施方式的电子设备1500。图15显示的电子设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于：至少一个处理单元1510、至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1510执行，使得所述处理单元1510执行本说明书用于确定图像捕捉设备的位姿方法中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1510可以执行如图1至图7中所示的步骤。

所述存储单元1520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)15201和/或高速缓存存储单元15202，还可以进一步包括只读存储单元(ROM)15203。

所述存储单元1520还可以包括具有一组(至少一个)程序模块15205的程序/实用工具15204，这样的程序模块15205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1500也可以与一个或多个外部设备1600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1500交互的设备通信，和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且，电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1560可以通过总线1530与电子设备1500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的确定图像捕捉设备的位姿方法。

本公开已由上述相关实施例加以描述，然而上述实施例仅为实施本公开的范例。必需指出的是，已揭露的实施例并未限制本公开的范围。相反，在不脱离本公开的精神和范围内所作的变动与润饰，均属本公开的专利保护范围。

Claims

1.一种用于确定图像捕捉设备的位姿的方法，其特征在于，包括：

使用图像捕捉设备获取多帧图像；

计算每个所述匹配特征点在当前帧图像中的第一位置信息中的二维位置信息与每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息之间的差异值；

通过使所述差异值最优化，估计所述图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，以及每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；

基于求解后的运动参数矩阵中旋转矩阵和位移向量，更新所述图像捕捉设备在捕捉当前帧图像时的位姿；

其中，所述运动参数矩阵包括所述图像捕捉设备的旋转矩阵和位移向量，所述旋转矩阵表征所述图像捕捉设备的位姿中的姿态信息，所述位移向量表征所述图像捕捉设备的位姿中的位置信息。

2.根据权利要求1所述的方法，其特征在于，提取图像中的多个匹配特征点以及每个所述匹配特征点在每帧图像中的第一位置信息包括：

获取每个所述匹配特征点在每帧图像中的所述第一位置信息的二维位置信息；

通过所述图像捕捉设备的内部参数矩阵将所述第一位置信息的二维位置信息变换为所述第一位置信息的三维位置信息，其中所述第一位置的三维位置信息包括场景的深度信息。

3.根据权利要求2所述的方法，其特征在于，如果当前帧图像为第一帧图像，在使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息之前，所述方法还包括：

初始化每个所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息；

基于所述第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定所述图像捕捉设备的初始位姿。

4.根据权利要求2所述的方法，其特征在于，使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息包括：

基于所述内部参数矩阵以及所述图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，将每个所述匹配特征点在上一帧图像中的所述第一位置信息的二维位置信息转换为每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息。

5.根据权利要求1所述的方法，其特征在于，每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息为所述匹配特征点在上一帧图像中提取的第一位置信息的二维位置在当前帧图像上的投影；

通过使所述差异值最优化，估计所述图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，以及每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息还包括：

在每个所述匹配特征点在当前帧图像中的第一位置信息的二维位置信息与所述投影之间的差值平方和最小化时，求解所述运动参数矩阵和所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在根据当前匹配特征点与上一个匹配特征点确定的所述图像捕捉设备的位姿相同时，将确定出的位姿作为所述图像捕捉设备的最终位姿。

7.一种用于确定图像捕捉设备的位姿的装置，其特征在于，包括：

特征提取和匹配单元，设置为从所述图像捕捉设备获取的多帧图像中提取多个匹配特征点以及每个所述匹配特征点在每帧图像中的第一位置信息；

局部光束平差优化单元，设置为使用每个所述匹配特征点在上一帧图像中提取的第一位置信息估计每个所述匹配特征点在当前帧图像中的第二位置信息，以及计算每个所述匹配特征点在当前帧图像中的第一位置信息中的二维位置信息与每个所述匹配特征点在当前帧图像中的第二位置信息的二维位置信息之间的差异值；通过使所述差异值最优化，估计所述图像捕捉设备在获取上一帧图像到获取当前帧图像过程中的运动参数矩阵，以及每个匹配特征点在当前帧图像中的第一位置信息的三维位置信息；基于求解后的运动参数矩阵中旋转矩阵和位移向量，更新所述图像捕捉设备在捕捉当前帧图像时的位姿；

8.根据权利要求7所述的装置，其特征在于，还包括：

单应矩阵变换单元，设置为如果当前帧图像为第一帧图像，初始化每个所述匹配特征点在当前帧图像中的第一位置信息的三维位置信息，以及基于所述第一位置信息的三维位置信息的初始化信息，通过单应矩阵变换确定所述图像捕捉设备的初始位姿。

9.根据权利要求7所述的装置，其特征在于，还包括：

图像处理单元，设置为消除图像的畸变和模糊。

10.根据权利要求7所述的装置，其特征在于，还包括：

地图管理模块，设置为基于所述图像和所述图像捕捉设备的位姿生成三维地图信息。

11.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当该可执行指令被处理器执行时，实施如权利要求1至6中任一项所述的方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器设置为执行所述可执行指令以实施如权利要求1至6中任一项所述的方法。