CN110503684A

CN110503684A - 相机位姿估计方法和装置

Info

Publication number: CN110503684A
Application number: CN201910735304.5A
Authority: CN
Inventors: 宋旭博
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-26

Abstract

本申请公开了一种相机位姿估计方法和装置，属于位姿估计领域。该方法包括：从数据集中获取图像和IMU数据；利用CNN对图像进行卷积和池化操作，得到图像的特征点和对应的描述子，再进行计算得到图像的运动数据；使用LSTM对IMU数据进行处理，使运动数据与IMU数据对齐；将对齐后的运动数据和IMU数据结合，送入CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征。该装置包括：获取模块、CNN模块、LSTM模块和结合模块。本申请解决了VSLAM中相机定位的问题，克服了现有技术处理IMU高频率数据能力不足的缺陷，采用高频率的惯性数据和低频率的图像相结合的方法，提高了计算的精度和定位的准确率。

Description

相机位姿估计方法和装置

技术领域

本申请涉及位姿估计领域，特别是涉及一种相机位姿估计方法和装置。

背景技术

VSLAM(Visual simultaneous localization and mapping，基于视觉的即时定位与地图构建)是指根据视觉传感器的信息一边计算自身位置，一边构建环境地图的过程，能够解决在未知环境下运动时的定位与地图构建问题，更加精准和迅速。目前主流的VSLAM框架主要受到实时性、环境、光照等条件的影响。SLAM(Simultaneous Localization AndMapping，即时定位与地图构建)系统的输出包括相机的定位(即相机的运动状态)和环境地图。对于基于图像的相机定位和VSLAM系统，地图可谓是重要的组成部分。它们用于在图像之间建立几何约束，校正相对姿态估算中的漂移，并在丢失跟踪后重新定位摄像机。而相机位姿估计是指给定若干图像或地图中的特征点，估计其中相机运动的问题。求解相机位姿的方法通常分为特征点法和直接法。近年来，随着深度学习的兴起，用深度学习方法替换传统SLAM中的一个或几个模块已成为现实。更重要的是深度学习在单目图像定位任务上表现出了高鲁棒性和实时性。正是因为深度学习有更高的时间效率和鲁棒性，从实现端到端自主学习到具有高层次、抽象的特征计算，相机定位的准确性得到了进一步提升，被广泛使用。

但是，现有的基于深度学习的相机定位方法，大多只是根据像素和深度数据得到相机位姿，容易导致相机的轨迹和位姿的估计不够精确。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种相机位姿估计方法，包括：

从数据集中获取图像和IMU(Inertial measurement unit，惯性测量单元)数据；

利用CNN(Convolutional Neural Networks，深度卷积神经网络)对所述图像进行卷积和池化操作，得到所述图像的特征点和对应的描述子，对所述特征点和描述子进行计算得到所述图像的运动数据；

使用长短期记忆网络LSTM对所述IMU数据进行处理，使所述运动数据与所述IMU数据对齐；

将所述对齐后的运动数据和IMU数据结合，送入所述CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征。

可选地，所述从数据集中获取图像和惯性测量单元IMU数据之前，还包括：

选取包括图像和IMU数据的数据集，其中，所述图像由摄像机以第一频率拍摄指定场景所得，所述IMU数据由IMU以第二频率在所述指定场景采集所得，且所述第二频率高于所述第一频率。

可选地，使用长短期记忆网络LSTM对所述IMU数据进行处理，使所述运动数据与所述IMU数据对齐，包括：

使用LSTM对所述IMU数据进行遗忘处理，放弃所述IMU数据中的部分数据，使一个时间戳内相邻两帧的图像与两组IMU数据对齐。

可选地，所述方法还包括：

用特殊欧式群SE(3)来表示相机的位姿，用李代数se(3)来解释所述SE(3)中旋转矩阵的正交性，通过指数映射，把所述李代数se(3)中的变换向量映射回欧式空间中的变换矩阵。

可选地，所述方法还包括：

根据得到的所述运动特征，进行即时定位与地图构建SLAM系统的地图构建。

根据本申请的另一个方面，提供了一种相机位姿估计装置，包括：

获取模块，其配置成从数据集中获取图像和惯性测量单元IMU数据；

CNN模块，其配置成利用深度卷积神经网络CNN对所述图像进行卷积和池化操作，得到所述图像的特征点和对应的描述子，对所述特征点和描述子进行计算得到所述图像的运动数据；

LSTM模块，其配置成使用长短期记忆网络LSTM对所述IMU数据进行处理，使所述运动数据与所述IMU数据对齐；

结合模块，其配置成将所述对齐后的运动数据和IMU数据结合，送入所述CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征。

可选地，所述装置还包括：

选取模块，其配置成选取包括图像和IMU数据的数据集，其中，所述图像由摄像机以第一频率拍摄指定场景所得，所述IMU数据由IMU以第二频率在所述指定场景采集所得，且所述第二频率高于所述第一频率。

可选地，所述LSTM模块具体配置成：

可选地，所述装置还包括：

优化模块，其配置成用特殊欧式群SE(3)来表示相机的位姿，用李代数se(3)来解释所述SE(3)中旋转矩阵的正交性，通过指数映射，把所述李代数se(3)中的变换向量映射回欧式空间中的变换矩阵。

可选地，所述装置还包括：

建图模块，其配置成根据得到的所述运动特征，进行即时定位与地图构建SLAM系统的地图构建。

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，利用CNN对图像进行卷积和池化操作，得到特征点和对应的描述子，再进行计算得到运动数据，使用LSTM对IMU数据进行处理，使运动数据与IMU数据对齐，然后将二者结合，送入全连接层进行特征融合和位姿估计，得到相机的运动特征，基于CNN解决了VSLAM中相机定位的问题，克服了现有技术处理IMU高频率数据能力不足的缺陷，采用高频率的惯性数据和低频率的图像相结合的方法，提高了计算的精度和定位的准确率。另外，通过对相机定位和位姿估计的结果进行优化，进一步提高了定位的准确性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的相机位姿估计方法流程图；

图2是根据本申请另一个实施例的相机位姿估计方法流程图；

图3是根据本申请另一个实施例的相机位姿估计流程示意图；

图4是根据本申请另一个实施例的相机位姿估计装置结构图；

图5是根据本申请另一个实施例的计算设备结构图；

图6是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的相机位姿估计方法流程图。参见图1，该方法包括：

101：从数据集中获取图像和惯性测量单元IMU数据；

其中，IMU是测量物体三轴姿态角(或角速率)以及加速度的装置。一般的，一个IMU包含了三个单轴的加速度计和三个单轴的陀螺，加速度计检测物体在载体坐标系统独立三轴的加速度信号，而陀螺检测载体相对于导航坐标系的角速度信号，测量物体在三维空间中的角速度和加速度，由此可以解算出物体的姿态。

102：利用深度卷积神经网络CNN对图像进行卷积和池化操作，得到图像的特征点和对应的描述子，对特征点和描述子进行计算得到图像的运动数据；

103：使用LSTM(Long Short-Term Memory，长短期记忆网络)对IMU数据进行处理，使运动数据与IMU数据对齐；

104：将对齐后的运动数据和IMU数据结合，送入CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征。

本实施例中，可选的，从数据集中获取图像和惯性测量单元IMU数据之前，还包括：

选取包括图像和IMU数据的数据集，其中，该图像由摄像机以第一频率拍摄指定场景所得，该IMU数据由IMU以第二频率在该指定场景采集所得，且第二频率高于第一频率。

本实施例中，可选的，使用长短期记忆网络LSTM对IMU数据进行处理，使运动数据与IMU数据对齐，包括：

使用LSTM对IMU数据进行遗忘处理，放弃IMU数据中的部分数据，使一个时间戳内相邻两帧的图像与两组IMU数据对齐。

本实施例中，可选的，上述方法还包括：

用特殊欧式群SE(3)来表示相机的位姿，用李代数se(3)来解释SE(3)中旋转矩阵的正交性，通过指数映射，把李代数se(3)中的变换向量映射回欧式空间中的变换矩阵。

本实施例中，可选的，上述方法还包括：

根据得到的运动特征，进行即时定位与地图构建SLAM系统的地图构建。

本实施例提供的上述方法，利用CNN对图像进行卷积和池化操作，得到特征点和对应的描述子，再进行计算得到运动数据，使用LSTM对IMU数据进行处理，使运动数据与IMU数据对齐，然后将二者结合，送入全连接层进行特征融合和位姿估计，得到相机的运动特征，基于CNN解决了VSLAM中相机定位的问题，克服了现有技术处理IMU高频率数据能力不足的缺陷，采用高频率的惯性数据和低频率的图像相结合的方法，提高了计算的精度和定位的准确率。另外，通过对相机定位和位姿估计的结果进行优化，进一步提高了定位的准确性。

图2是根据本申请另一个实施例的相机位姿估计方法流程图。参见图2，该方法包括：

201：选取包括图像和IMU数据的数据集，其中，该图像由摄像机以第一频率拍摄指定场景所得，该IMU数据由IMU以第二频率在该指定场景采集所得，且第二频率高于第一频率；

本实施例中，优选地，选用的实验数据集为KITTI数据集(由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办)，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI数据集的采集平台包括：2个灰度摄像机，2个彩色摄像机，一个Velodyne 3D激光雷达，4个光学镜头，以及1个GPS导航系统。整个数据集由389对立体图像和光流图，39.2公里视觉测距序列以及超过200,0003D标注物体的图像组成，其中，每个图像最多包括15辆车及30个行人，而且还包含不同程度的遮挡。

202：从上述数据集中获取图像和IMU数据；

203：利用CNN对图像进行卷积和池化操作，得到图像的特征点和对应的描述子，对特征点和描述子进行计算得到图像的运动数据；

由于特征点和对应的描述子在图像中相互独立且均匀分布，所以当像素点是几何稳定的时候，特征点的确定会变得更简单。

本实施例中，上述运动数据就是指相机在两帧图像之间的变换矩阵。

204：使用LSTM对IMU数据进行遗忘处理，放弃IMU数据中的部分数据，使一个时间戳内相邻两帧的图像与两组IMU数据对齐；

通常，图像的拍摄频率为30Hz左右，而IMU数据的采集频率大概在100Hz甚至更高。因此，使用LSTM网络来处理IMU原始数据，从而可以保证与图像对齐。其中，对齐就是指把IMU的数据追加到图像数据的后面，它们都是用矩阵的形式来表示。

205：将对齐后的运动数据和IMU数据结合，送入CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征；

206：用特殊欧式群SE(3)来表示相机的位姿，用李代数se(3)来解释SE(3)中旋转矩阵的正交性，通过指数映射，把李代数se(3)中的变换向量映射回欧式空间中的变换矩阵；

本实施例中，可选的，可以定义两个损失函数：一个是建立在SE(3)群上位姿约束(Full pose)，另一个是建立在se(3)空间中的相对运动(Frame-to-frame)约束。在损失函数中使用指数代替对数，以避免除零问题。

207：根据得到的运动特征，进行即时定位与地图构建SLAM系统的地图构建。

图3是根据本申请另一个实施例的相机位姿估计流程示意图。参见图3，左侧示意的为从数据集中获取的图像，具体为相邻两帧的图像，输入到CNN中进行卷积和池化操作以及计算后，得到图像的运动数据。右侧示意的四个LSTM节点组成了LSTM框架，对输入的IMU数据进行遗忘处理，使得运动数据与IMU数据对齐。将对齐后的运动数据和IMU数据结合，送入CNN的全连接层进行特征融合和位姿估计，从而得到相机的运动特征。而且，还可以进行位姿优化，进一步提高相机位姿估计的准确性。

图4是根据本申请另一个实施例的相机位姿估计装置结构图。参见图4，该装置包括：

获取模块401，其配置成从数据集中获取图像和惯性测量单元IMU数据；

CNN模块402，其配置成利用深度卷积神经网络CNN对图像进行卷积和池化操作，得到图像的特征点和对应的描述子，对特征点和描述子进行计算得到图像的运动数据；

LSTM模块403，其配置成使用长短期记忆网络LSTM对IMU数据进行处理，使运动数据与IMU数据对齐；

结合模块404，其配置成将对齐后的运动数据和IMU数据结合，送入CNN的全连接层进行特征融合和位姿估计，得到相机的运动特征。

本实施例中，可选的，上述装置还包括：

本实施例中，可选的，LSTM模块具体配置成：

本实施例中，可选的，上述装置还包括：

优化模块，其配置成用特殊欧式群SE(3)来表示相机的位姿，用李代数se(3)来解释SE(3)中旋转矩阵的正交性，通过指数映射，把李代数se(3)中的变换向量映射回欧式空间中的变换矩阵。

本实施例中，可选的，上述装置还包括：

建图模块，其配置成根据得到的运动特征，进行即时定位与地图构建SLAM系统的地图构建。

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，利用CNN对图像进行卷积和池化操作，得到特征点和对应的描述子，再进行计算得到运动数据，使用LSTM对IMU数据进行处理，使运动数据与IMU数据对齐，然后将二者结合，送入全连接层进行特征融合和位姿估计，得到相机的运动特征，基于CNN解决了VSLAM中相机定位的问题，克服了现有技术处理IMU高频率数据能力不足的缺陷，采用高频率的惯性数据和低频率的图像相结合的方法，提高了计算的精度和定位的准确率。另外，通过对相机定位和位姿估计的结果进行优化，进一步提高了定位的准确性。

本申请实施例还提供了一种计算设备，参照图5，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图6，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种相机位姿估计方法，包括：

从数据集中获取图像和惯性测量单元IMU数据；

利用深度卷积神经网络CNN对所述图像进行卷积和池化操作，得到所述图像的特征点和对应的描述子，对所述特征点和描述子进行计算得到所述图像的运动数据；

2.根据权利要求1所述的方法，其特征在于，所述从数据集中获取图像和惯性测量单元IMU数据之前，还包括：

3.根据权利要求1所述的方法，其特征在于，使用长短期记忆网络LSTM对所述IMU数据进行处理，使所述运动数据与所述IMU数据对齐，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种相机位姿估计装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述获取模块还配置成：

8.根据权利要求6所述的装置，其特征在于，所述LSTM模块具体配置成：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述装置还包括：