CN115290084B

CN115290084B - 基于弱尺度监督的视觉惯性组合定位方法和装置

Info

Publication number: CN115290084B
Application number: CN202210933632.8A
Authority: CN
Inventors: 陈昶昊; 屈豪; 王雄飞; 张礼廉; 胡小平; 陈泽; 范晨; 毛军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-04-19
Anticipated expiration: 2042-08-04
Also published as: CN115290084A

Abstract

本发明公开一种基于弱尺度监督的视觉惯性组合定位方法和装置，该方法通过对载体运动过程中的视觉、惯性信息和激光点云信息进行采集，通过从图像和惯性数据中分别提取视觉特征向量与惯性特征向量在通道上进行融合，再对融合特征的时间相关性进行建模后得到准确的位置和姿态估计。同时从图像中估计像素级的深度图像，再对多个时间序列的光度误差进行建模，对觉惯性组合定位模型中的各个功能模块进行联合训练，以此来得到结构更细致的深度图像，并使用激光点云信息作为弱尺度监督信号约束得到具有全局一致绝对尺度的位姿参数。本发明应用于导航定位领域，能够有效地解决自监督学习的视觉惯性组合定位中全局绝对尺度难以估计问题。

Description

基于弱尺度监督的视觉惯性组合定位方法和装置

技术领域

本发明涉及导航定位技术领域，具体是一种基于弱尺度监督的视觉惯性组合定位方法和装置。

背景技术

在无人车、无人机和移动机器人等无人平台的导航任务中，视觉里程计用于获得平台的位置和姿态。传统基于模型的视觉里程计使用手工设计的特征点检测方法检测图像中的特征点，并使用特征跟踪方法建立图像之间的点到点匹配关系，然后通过多视觉几何模型计算相邻帧之间的相对姿态。根据视觉里程计中摄像机的数量，可分为单目视觉里程计和多目视觉里程计。单目视觉里程计无法获得绝对深度，因此预测的姿势无法保持全局一致的绝对比例。引入惯性测量单元后，形成视觉惯性组合里程计，通过惯性积分得到各时刻的绝对姿态。基于模型的视觉里程计在大多数情况下都能获得令人满意的性能，但在缺乏纹理和弱光的复杂环境中鲁棒性较差。

近年来越来越多研究人员对端对端基于深度学习的视觉里程计感兴趣。深度神经网络广泛应用于图像识别、目标检测等图像处理领域。最近的工作构建了端到端的视觉里程计，并在公共数据集上实现了与基于模型的视觉里程计相当的性能。为了解决数据集上的真实标签不足的问题，提出了一些无监督的运动估计方法。无监督视觉里程计一般有姿态网络和深度估计网络，其中姿态网络用于估计相邻摄像机帧之间的相对姿态，深度估计网络用于预测目标帧和源帧的深度。然后结合两个网络获得的姿态和深度构造光度损失误差，以约束网络的训练。大多数无监督的工作只使用视觉信息，忽略了惯性信息。同时，由于没有考虑多尺度时间上下文信息，无监督的单目视觉里程计算法无法获得绝对尺度深度，因此在很多实际应用场景下的使用受到限制。

发明内容

针对上述现有技术中自监督学习的视觉惯性组合定位方法中全局绝对尺度难以估计问题，本发明提供一种基于弱尺度监督的视觉惯性组合定位方法和装置，可适用于机器人、手持设备、穿戴设备或无人车等载体，能够有效地实现载体的精确定位。

为实现上述目的，本发明提供一种基于弱尺度监督的视觉惯性组合定位方法，包括如下步骤：

步骤1，获取载体采集的视觉图像序列、惯性数据序列与激光点云数据序列；

步骤2，构建视觉惯性组合定位模型，并基于视觉惯性组合定位模型进行如下处理：

对视觉图像序列中连续的第i帧图像与第i+1帧图像中提取出视觉特征向量，得到视觉特征向量序列；

对惯性数据序列中第i帧图像与第i+1帧图像之间对应的惯性数据中提取出视觉特征向量，得到惯性特征向量序列，其中，视觉特征向量与惯性特征向量一一对应；

对视觉特征向量序列与惯性特征向量序列进行时间序列建模，得到考虑了时间特性的融合特征向量序列，并基于融合特征向量序列得到载体的位姿信息与相邻帧图像之间的姿态变换矩阵；

提取视觉图像序列中每一帧图像的深度信息，并基于激光点云数据序列中的激光点云数据相同帧图像的深度信息的深度信息进行修正，得到具有全局一致绝对尺度的深度弱尺度监督信号；

基于深度弱尺度监督信号与视觉惯性组合定位模型输出的相邻帧图像之间的姿态变换矩阵构建多个时间尺度上的光度误差；

步骤3，以多个时间尺度上的光度误差为视觉惯性组合定位模型的代价函数，自监督的训练视觉惯性组合定位模型；

步骤4，将训练好的视觉惯性组合定位模型部署在载体上，实时预测输出载体的位姿信息与深度信息。

为实现上述目的，本发明还提供一种基于弱尺度监督的视觉惯性组合定位装置，其特征在于，采用上述的方法实时预测输出载体的位置、姿态和场景的深度信息，所述视觉惯性组合定位装置包括：

单目相机，搭载在载体上，用于采集视觉图像序列；

惯性测量器件，搭载在载体上，用于采集惯性数据序列；

点云相机，搭载在载体上，用于采集激光点云数据序列；

视觉惯性组合定位模型，部署在载体上且分别与单目相机、惯性测量器件、点云相机相连，用于实时预测输出载体的位置、姿态和场景的深度信息。

本发明提供的一种基于弱尺度监督的视觉惯性组合定位方法和装置，通过对载体运动过程中的视觉、惯性信息和激光点云信息进行采集并制作为数据集，通过从图像和惯性数据中分别提取视觉特征向量与惯性特征向量，再将视觉特征向量与惯性特征向量在通道上进行融合，再对融合特征的时间相关性进行建模，基于融合特征得到准确的位置和姿态估计。从图像中估计像素级的深度图像，再对多个时间序列的光度误差进行建模，对觉惯性组合定位模型中的各个功能模块进行联合训练，以此来得到结构更细致的深度图像，并使用激光点云信息作为弱尺度监督信号约束得到具有全局一致绝对尺度的位姿参数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中视觉惯性组合定位方法的流程图；

图2为本发明实施例中视觉惯性组合定位装置的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例1

如图1所示为本实施例公开的一种基于弱尺度监督的视觉惯性组合定位方法，其主要包括如下步骤：

步骤1，获取载体采集的视觉图像序列、惯性数据序列与激光点云数据序列，具体地：

惯性数据序列中的惯性数据包括加速度数据和陀螺仪数据，采集惯性数据可通过微惯性测量单元(MIMU)实现；

视觉图像序列中的视觉图像数据的采集可通过单目相机设备实现；

激光点云数据序列中的激光点云数据的采集可通过点云相机设备实现。

通过标记载体中的激光点云数据为标签数据，通过标记的点云三维位置，形成可用于视觉惯性组合定位模型训练的数据集。

步骤2.1，使用基于卷积神经网络的残差网络作为视觉特征提取模块f_视觉进行视觉特征提取，视觉特征提取模块将网络输入层通道数设置为6，接收时间轴上相邻两帧的RGB图像X_V(即第i帧图像与第i+1帧图像)。视觉特征提取模块的卷积层部分由残差神经网络的主干部分组成。图像经过视觉特征提取模块的处理之后得到尺寸为原尺寸1/16的视觉特征a_V。并使用参数为0.2的dropout层增强视觉特征提取器的非线性特性，即：

a_v＝f_视觉(X_V)

在时间尺度上依次对相邻两帧的图像进行视觉特征提取，即能得到视觉特征向量序列；

步骤2.2，使用两层双向的长短时记忆网络(LSTM)作为惯性特征提取模块，对每两幅图像之间的惯性数据通过惯性特征提取模块来提取惯性特征向量。在设计惯性特征提取模块时，考虑到惯性数据流具有较强的时间特性，并且频率远高于图像流频率，惯性特征提取模块f_惯性使用具有256个隐藏状态的双层长短时记忆网络(LSTM)。每两幅图像之间的惯性测量序列x_I用惯性特征提取器来提取惯性特征向量a_I为：

a_I＝f_惯性(x_I)

在时间尺度上依次对相邻两帧图像之间的惯性数据进行惯性特征提取，即能得到惯性特征向量序列，且视觉特征向量与惯性特征向量在时间尺度上一一对应；

步骤2.3，对视觉特征向量序列与惯性特征向量序列进行时间序列建模，得到考虑了时间特性的融合特征向量序列，并基于全连接层位姿估计网络的位姿估计模块融合特征向量序列得到载体的位姿信息与相邻帧图像之间的姿态变换矩阵；

步骤2.4，提取视觉图像序列中每一帧图像的深度信息，具体地：使用深度估计模块对图像的像素级深度值进行估计得到深度图像估计值，该深度图像的分辨率与原始图像的分辨率一致，其具体实施过程为：

首先将图像x代入深度估计模块的视觉特征提取器f₁中得到图像的视觉特征h，并使用深度估计模块的视觉特征解码器f₂得到与原始图像分辨率一致的深度图像即：

h＝f₁(W₁x+b₁)

式中，W₁为视觉特征提取器的网络权重，b₁为视觉特征提取器的网络偏重，W₂为视觉特征解码器的网络权重，b₂为视觉特征解码器的网络偏重；

在提取视觉图像序列中每一帧图像的深度信息后，再基于激光点云数据序列中的激光点云数据相同帧图像的深度信息的深度信息进行修正，得到具有全局一致绝对尺度的深度弱尺度监督信号，具体为：

式中，D_i为第i帧时间尺度对应的深度弱尺度监督信号，λ为第i帧时间尺度上激光点云的尺度，D_lidar为第i帧时间尺度上激光点云数据中各扫描点的深度信息，为第i帧图像中各像素点的深度信息；

步骤2.5，基于深度弱尺度监督信号与视觉惯性组合定位模型输出的相邻帧图像之间的姿态变换矩阵构建多个时间尺度上的光度误差，即在时间轴上结合更多时间窗口的视觉/惯性/深度信息构成光度误差，本实施例中，设置窗口长度为1和2，代表在相邻1帧和相邻两帧的时间跨度内进行光度误差构建，构建过程包括如下步骤：

获取第i-1帧图像与第i帧图像之间的第一光度误差，其具体实施过程为：

将第i帧图像作为第一源图像，将第i-1帧图像中的像素映射到第i帧图像上，生成第一目标图像，为：

式中，为第一目标图像上的像素点，K为相机内参数，/>为视觉惯性组合定位模型输出的第i-1帧图像到第i帧图像的姿态变换矩阵，D_i为第i帧时间尺度对应的深度弱尺度监督信号，ρ_i-1为第i-1帧图像上的像素点；

基于第一源图像与第一目标图像构建光度误差L₁，为：

式中，ρ_i为第一源图像上的像素点，I_i(ρ_i)表示相邻时间轴上的投影点/>ρ_i的像素坐标，m、n表示图像在长和宽方向的像素个数；

获取第i-1帧图像与第i+1帧图像之间的第二光度误差，其具体实施过程为：

将第i+1帧图像作为第二源图像，将第i-1帧图像中的像素映射到第i+1帧图像上，生成第二目标图像，为：

式中，为第二目标图像上的像素点，K为相机内参数，T_i ⁱ⁺¹为视觉惯性组合定位模型输出的第i帧图像到第i+1帧图像的姿态变换矩阵，D_i+1为第i+1帧时间尺度对应的深度弱尺度监督信号；

基于第二源图像与第二目标图像构建光度误差L₂，为：

式中，ρ_i+1为第二源图像上的像素点，I_i+1(ρ_i+1)表示相邻时间轴上的投影点/>ρ_i+1的像素坐标；

基于第一光度光度误差与第二光度误差构建多个时间尺度上的光度误差，其具体过程为：

L＝L₁+L₂

式中，L为多个时间尺度上的光度误差。

步骤3，以多个时间尺度上的光度误差为视觉惯性组合定位模型的代价函数，自监督的训练视觉惯性组合定位模型。

本实施例中，通过构建多个时间尺度上的光度误差作为视觉惯性组合定位模型训练用的代价函数，不仅使得深度估计模块能得到细节程度丰富的深度图像，同时也可以进一步优化位姿估计模块的性能。同时在代价函数中引入深度弱尺度监督信号来约束视觉惯性组合定位模型中视觉特征提取模块、惯性特征提取模块、深度估计模块以及位姿估计模块，得到具有全局绝对尺度一致的位姿。经过多轮训练后，视觉惯性组合定位模型中视觉特征提取模块、惯性特征提取模块、深度估计模块以及位姿估计模块的参数都会得以优化。

步骤4，将训练好的视觉惯性组合定位模型部署在ARM+GPU架构的计算设备上，再搭载在无人车等载体上，按照10Hz频率数据采集与实时预测输出载体的位置、姿态和场景的深度信息。

实施例2

如图2所示为本实施例公开的一种基于弱尺度监督的视觉惯性组合定位装置，该装置采用实施例1中的方法实时预测输出载体的位置、姿态和场景的深度信息，该组合导航装置包括数据获取模块与视觉惯性组合定位模型。

数据获取模块用于根据无人车等载体运行产生的惯性数据、视觉图像数据和激光点云数据，构建用于视觉惯性组合定位模型训练的数据集；其中，惯性数据包括加速度数据和陀螺仪数据，视觉数据包括图像，激光点云数据包括点云的三维坐标。在具体实施过程中，数据获取模块包括：

单目相机，搭载在载体上，用于采集视觉图像序列；

惯性测量器件，搭载在载体上，用于采集惯性数据序列；

点云相机，搭载在载体上，用于采集激光点云数据序列。

视觉惯性组合定位模型部署在载体上且分别与单目相机、惯性测量器件、点云相机相连，用于实时预测输出载体的位置、姿态和场景的深度信息。在具体实施过程为，视觉惯性组合定位模型包括：

视觉特征提取模块，与单目相机相连，其使用卷积神经网络(CNN)对视觉图像序列中连续的第i帧图像与第i+1帧图像中提取出视觉特征向量，得到视觉特征向量序列；

惯性特征提取模块，与惯性测量器件相连，其使用长短记忆网络(LSTM)对惯性数据序列中第i帧图像与第i+1帧图像之间对应的惯性数据中提取出视觉特征向量，得到惯性特征向量序列，其中，视觉特征向量与惯性特征向量一一对应；

时序建模模块，与视觉特征提取模块、惯性特征提取模块相连，其对融合后的视觉特征向量序列与惯性特征向量序列进行时间序列建模，得到考虑了时间特性的融合特征向量序列；

位姿估计模块，与时序建模模块相连，用于利用全连接层网络将融合特征向量序列映射到位姿变换，得到载体的位姿信息与相邻帧图像之间的姿态变换矩阵；

深度估计模块，与点云相机相连，其利用卷积神经网络(CNN)从单张图像中得到视觉特征向量并使用反卷积层恢复出与原始图像分辨率一致的深度图像，即提取视觉图像序列中每一帧图像的深度信息；

多状态序列的光度误差优化模块，与弱尺度监督信号约束模块、位姿估计模块、单目相机相连，其基于光度误差机制，联合位姿估计模块和深度估计模块的训练，并在多尺度的时间域上构建光度误差约束作为视觉惯性组合定位模型训练用的代价函数，以此来得到结构更细致的深度图像；

弱尺度监督信号约束模块，与位姿估计模块、深度估计模块相连，其基于光度误差机制，用于基于激光点云数据序列中的激光点云数据相同帧图像的深度信息的深度信息进行修正，得到具有全局一致绝对尺度的深度弱尺度监督信号，并将深度弱尺度监督信号作为深度标签添加到视觉惯性组合定位模型训练用的代价函数中。

本实施例中，视觉惯性组合定位装置的工作原理/过程为：

通过对无人车等载体运动过程中的视觉、惯性信息和激光点云信息进行采集并制作为数据集；

利用视觉特征提取模块与惯性特征提取模块从图像和惯性数据中分别提取视觉特征向量与惯性特征向量，再将视觉特征向量与惯性特征向量在通道上进行融合，再经过时序建模模块对融合特征的时间相关性进行建模，最后通过位姿估计模块基于融合特征得到准确的位置和姿态估计；

使用深度估计模块从图像中估计像素级的深度图像，再使用多状态序列的光度误差优化模块对多个时间序列的光度误差进行建模，得到多尺度的时间域上构建光度误差约束，对视觉特征提取模块，惯性特征提取模块，时序建模模块以及深度估计模块进行联合训练，以此来得到结构更细致的深度图像，同时引入深度弱尺度监督信号来约束视觉惯性组合定位模型中视觉特征提取模块、惯性特征提取模块、深度估计模块以及位姿估计模块，得到具有全局绝对尺度一致的位姿。

在具体实施过程中，视觉惯性组合定位模型的训练过程与实施例1相同，因此本实施例中不再对其赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于弱尺度监督的视觉惯性组合定位方法，其特征在于，包括如下步骤：

对惯性数据序列中第i帧图像与第i+1帧图像之间对应的惯性数据中提取出惯性特征向量，得到惯性特征向量序列，其中，视觉特征向量与惯性特征向量一一对应；

提取视觉图像序列中每一帧图像的深度信息，并基于激光点云数据序列中的激光点云数据相同帧图像的深度信息进行修正，得到具有全局一致绝对尺度的深度弱尺度监督信号；

基于深度弱尺度监督信号与视觉惯性组合定位模型输出的相邻帧图像之间的姿态变换矩阵构建多个时间尺度上的光度误差，其过程为：

获取第i-1帧图像与第i帧图像之间的第一光度误差，具体为：

基于第一源图像与第一目标图像构建光度误差L₁，为：

获取第i-1帧图像与第i+1帧图像之间的第二光度误差；

基于第一光度误差与第二光度误差构建多个时间尺度上的光度误差；

2.根据权利要求1所述的基于弱尺度监督的视觉惯性组合定位方法，其特征在于，步骤2中，所述深度弱尺度监督信号的获取过程为：

式中，D_i为第i帧时间尺度对应的深度弱尺度监督信号，λ为第i帧时间尺度上激光点云的尺度，D_lidar为第i帧时间尺度上激光点云数据中各扫描点的深度信息，为第i帧图像中各像素点的深度信息。

3.根据权利要求1所述的基于弱尺度监督的视觉惯性组合定位方法，其特征在于，所述获取第i-1帧图像与第i+1帧图像之间的第二光度误差，具体为：

式中，为第二目标图像上的像素点，K为相机内参数，/>为视觉惯性组合定位模型输出的第i-1帧图像到第i帧图像的姿态变换矩阵，/>为视觉惯性组合定位模型输出的第i帧图像到第i+1帧图像的姿态变换矩阵，D_i+1为第i+1帧时间尺度对应的深度弱尺度监督信号，ρ_i-1为第i-1帧图像上的像素点；

基于第二源图像与第二目标图像构建光度误差L₂，为：

式中，ρ_i+1为第二源图像上的像素点，I_i+1(ρ_i+1)表示相邻时间轴上的投影点ρ_i+1的像素坐标，m、n表示图像在长和宽方向的像素个数。

4.根据权利要求3所述的基于弱尺度监督的视觉惯性组合定位方法，其特征在于，所述多个时间尺度上的光度误差，具体为：

L＝L₁+L₂

式中，L为多个时间尺度上的光度误差，L₁为第一光度误差，L₂为第二光度误差。

5.一种基于弱尺度监督的视觉惯性组合定位装置，其特征在于，采用权利要求1至4任一项所述的方法实时预测输出载体的位置、姿态和场景的深度信息，所述视觉惯性组合定位装置包括：

单目相机，搭载在载体上，用于采集视觉图像序列；

惯性测量器件，搭载在载体上，用于采集惯性数据序列；

点云相机，搭载在载体上，用于采集激光点云数据序列；

6.根据权利要求5所述的基于弱尺度监督的视觉惯性组合定位装置，其特征在于，所述视觉惯性组合定位模型包括：

视觉特征提取模块，与单目相机相连，用于对视觉图像序列中连续的第i帧图像与第i+1帧图像中提取出视觉特征向量，得到视觉特征向量序列；

惯性特征提取模块，与惯性测量器件相连，用于对惯性数据序列中第i帧图像与第i+1帧图像之间对应的惯性数据中提取出惯性特征向量，得到惯性特征向量序列，其中，视觉特征向量与惯性特征向量一一对应；

时序建模模块，与视觉特征提取模块、惯性特征提取模块相连，用于对融合后的视觉特征向量序列与惯性特征向量序列进行时间序列建模，得到考虑了时间特性的融合特征向量序列；

位姿估计模块，与时序建模模块相连，用于基于融合特征向量序列得到载体的位姿信息与相邻帧图像之间的姿态变换矩阵；

深度估计模块，与点云相机相连，用于提取视觉图像序列中每一帧图像的深度信息；

弱尺度监督信号约束模块，与位姿估计模块、深度估计模块相连，用于基于激光点云数据序列中的激光点云数据相同帧图像的深度信息进行修正，得到具有全局一致绝对尺度的深度弱尺度监督信号；

多状态序列的光度误差优化模块，与弱尺度监督信号约束模块、位姿估计模块、单目相机相连，用于基于深度弱尺度监督信号与视觉惯性组合定位模型输出的相邻帧图像之间的姿态变换矩阵构建多个时间尺度上的光度误差，并将其作为视觉惯性组合定位模型训练的代价函数。