CN113920165A

CN113920165A - 一种基于多传感器特征融合的机器人位姿估计方法及系统

Info

Publication number: CN113920165A
Application number: CN202111271192.6A
Authority: CN
Inventors: 徐曙; 陈潇; 张成巍; 王成皓
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-11

Abstract

本发明提供一种基于多传感器特征融合的机器人位姿估计方法，包括获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息；将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征，以及将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征；将所得到的图像特征与惯性特征级联后输入预先定义的多传感器融合神经网络进行特征融合，得到融合后的特征，并根据融合后的特征，得到机器人多自由度的位姿估计。实施本发明，能解决使用单一传感器位姿估计准确率低以及传统多传感器融合算法计算复杂效率低的问题。

Description

一种基于多传感器特征融合的机器人位姿估计方法及系统

技术领域

本发明涉及机器人技术领域、计算机图像处理技术领域和视觉及惯性里程计领域，尤其涉及一种基于多传感器特征融合的机器人位姿估计方法及系统。

背景技术

同时定位和建图(simultaneous localization and mapping，简称SLAM)近年来得到了快速发展，并在科学研究、工业生产、日常生活等各种场景得到越来越多的关注和应用。

里程计技术作为SLAM的前端，它能够用于估计出机器人的位姿。因此，一个优秀的里程计技术能为SLAM的后端、全局地图构建提供优质的初始值，从而让机器人在复杂的未知环境中实现精准自主化来执行各种任务。典型的里程计解决方案主要利用视觉传感器，从一系列图像流中恢复出机器人的运动位姿。

随着里程计技术对准确度需求的增加，多传感器融合技术，特别是视觉与惯性传感器融合，逐渐发展成为当前里程计技术领域的研究热点。传统的视觉惯性里程计(Visual-Inertial Odometry，简称VIO)方法可分为松耦合方法和紧耦合方法，都是基于滤波或优化方法来实现，但二者计算复杂且实现起来比较困难。

因此，出现了越来越多基于学习的视觉惯性里程计框架。如Clark等提出了ViNet，是第一个基于深度学习的视觉惯性里程计神经网络，用以解决传统方法的时效问题与准确率问题。然而，现有的基于学习的视觉里程计框架的融合策略大多是将所提取的两种特征直接级联或者赋予权重后级联，再通过长短时记忆(Long-Short Term Memory，简称LSTM)网络处理，使得融合效果不理想且时效性低。由此可见，现有的基于深度学习的视觉惯性里程计技术缺乏良好的融合方案，不能够精确的恢复机器人的运动位姿。

因此，亟需一种基于多传感器融合技术的机器人位姿估计方法，能解决使用单一传感器位姿估计准确率低以及传统多传感器融合算法计算复杂效率低的问题。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于多传感器特征融合的机器人位姿估计方法及系统，能解决使用单一传感器位姿估计准确率低以及传统多传感器融合算法计算复杂效率低的问题。

为了解决上述技术问题，本发明实施例提供了一种基于多传感器特征融合的机器人位姿估计方法，所述方法包括以下步骤：

获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息；

将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征，以及将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征；

将所得到的图像特征与惯性特征级联后输入预先定义的多传感器融合神经网络进行特征融合，得到融合后的特征，并根据融合后的特征，得到机器人多自由度的位姿估计。

其中，所述图像特征提取网络采用预训练模型FlowNet进行权重初始化，随后采用KITTI数据集进行训练得到的。

其中，所述惯性特征提取网络采用一维卷积神经网络来处理惯性传感器信息。

其中，所述惯性传感器信息包括角速度数据和加速度数据。

其中，所述多传感器融合神经网络为Transformer网络，通过采用Transformer网络中的编码层对所得到的图像特征与惯性特征进行融合，以得到融合后的特征。

其中，所述机器人的位姿为六自由度位姿，且该六自由度位姿是将融合后的特征通过Transformer网络中全连接层进行处理得到的。

本发明实施例还提供了一种基于多传感器特征融合的机器人位姿估计系统，包括：

数据获取单元，用于获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息；

特征提取单元，用于将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征，以及将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征；

位姿估计单元，用于将所得到的图像特征与惯性特征级联后输入预先定义的多传感器融合神经网络进行特征融合，得到融合后的特征，并根据融合后的特征，得到机器人多自由度的位姿估计。

其中，所述惯性特征提取网络采用一维卷积神经网络来处理惯性传感器信息；其中，所述惯性传感器信息包括角速度数据和加速度数据。

其中，所述多传感器融合神经网络为Transformer网络，通过采用Transformer网络中的编码层对所得到的图像特征与惯性特征进行融合，以得到融合后的特征；其中，所述机器人的位姿为六自由度位姿，且该六自由度位姿是将融合后的特征通过Transformer网络中全连接层进行处理得到的。

实施本发明实施例，具有如下有益效果：

本发明基于深度学习的端到端的视觉惯性里程计，通过特征提取及多传感器融合神经网络(如采用卷积神经网络进行特征提取，采用Transformer网络进行多传感器特征融合)，用于融合视觉和惯性传感器的测量数据，实现更高效、更准确的位姿估计，从而解决了使用单一传感器位姿估计准确率低以及传统多传感器融合算法计算复杂效率低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种基于多传感器特征融合的机器人位姿估计方法的流程图；

图2为本发明实施例提供的一种基于多传感器特征融合的机器人位姿估计系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种基于多传感器特征融合的机器人位姿估计系统，所述方法包括以下步骤：

步骤S1、获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息；

步骤S2、将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征，以及将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征；

步骤S3、将所得到的图像特征与惯性特征级联后输入预先定义的多传感器融合神经网络进行特征融合，得到融合后的特征，并根据融合后的特征，得到机器人多自由度的位姿估计。

具体过程为，在步骤S1之前，预先定义图像特征提取网络、惯性特征提取网络和多传感器融合神经网络。

(1)图像特征提取网络采用卷积神经网络构建的，使得输入图像经过一系列卷积层的处理，能提取出有效的图像特征。其中，卷积层的结构基于光流(Optical Flow)估计网络的编码层设计。

为了提高特征提取能力，本发明在卷积神经网络中添加了注意力机制(AttentionMechanism)模块，能产生注意力感知(Attention-Aware)的特征，用来强调或选择目标处理对象的重要信息，并且抑制一些无关的细节信息。

在一个例子中，卷积神经网络的参数配置如表1所示。

表1

同时，该图像特征提取网络采用预训练模型FlowNet进行权重初始化，随后采用KITTI数据集进行训练得到的。

(2)惯性特征提取网络

大多数基于学习的视觉惯性里程计采用长短时记忆网络来处理惯性数据，但是长短时记忆网络存在耗时久，计算复杂的缺点。

本发明的惯性特征提取网络采用一维卷积神经网络构建的，并采用一维卷积神经网络来处理惯性传感器信息，用以提取有效地惯性特征。其中，惯性传感器信息包括但不限于角速度数据和加速度数据。

在一个例子中，一维卷积神经网络的参数配置如表2所示。

表2

(3)多传感器融合神经网络

多传感器融合模块用于融合神经网络提取的图像特征与惯性特征。目前广泛应用的基于学习的多传感器融合策略是将两种特征直接级联或者赋予权重后级联。

本发明采用新的融合策略，即多传感器融合神经网络为Transformer网络，采用Transformer网络中编码层(Encoder)对图像与惯性两种不同模态的特征进行融合。

Transformer结构中的位置编码(Positional Encoding)模块能在时间序列上对采集的不同传感器信息进行数据抽象从而保证模型的精度，并且由于其借鉴注意力机制(Attention Mechanism)的思想，不会对前一时刻的数据信息产生过分依赖，能够更加侧重对有效的传感器信息建立学习模型，拥有更快的计算速度。

从而，使得提取得到的图像特征与惯性特征级联输入Transformer网络中编码层进行多传感器融合，输出得到融合后的特征，并将融合后的特征通过Transformer网络中全连接层(Fully-Connected Layer)预测回归得到自由度位姿估计。

在步骤S1中，获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息。

在一个例子中，获取当前时刻输入图像I_t与下一时刻输入图像I_t+1，以及获取当前时刻输入图像I_t与下一时刻输入图像I_t+1之间的6通道惯性传感器信息，包括角速度数据与加速度数据。

在步骤S2中，首先，将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征；

其次，将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征。

在一个例子中，对当前时刻输入图像I_t与下一时刻输入图像I_t+1进行预处理，调整图像大小为640×192像素以满足图像特征提取网络的输入需求，然后将处理后的两帧连续图像级联作为图像特征提取网络的输入，输出得到图像特征f_v用于后续处理。

对当前时刻输入图像I_t与下一时刻输入图像I_t+1之间的6通道惯性传感器信息进行级联，级联后的惯性传感器数据作为惯性特征提取网络的输入，输出得到惯性特征f_IMU用于后续处理。

在步骤S3中，将步骤S2中的图像特征与惯性特征级联后输入多传感器融合神经网络进行特征融合，得到融合后的特征，并将融合后的特征通过Transformer网络中全连接层(Fully-Connected Layer)预测回归得到机器人多自由度的位姿估计。

在一个例子中，将上述获得的图像特征f_v与惯性特征f_IMU进行级联，级联后的图像惯性特征输入Transformer模块进行多模态特征融合，输出得到融合后的特征f_out，并将融合后的特征f_out输入全连接层(Fully-Connected Layer)进行处理，预测得到机器人的六自由度位姿估计。

如图2所示，为本发明实施例中，提供的一种基于多传感器特征融合的机器人位姿估计系统，包括：

数据获取单元110，用于获取机器人运动时被抓拍的两帧连续的RGB图像，以及这两帧连续的RGB图像之间的惯性传感器信息；

特征提取单元120，用于将这两帧连续的RGB图像预处理后，级联输入预先定义的图像特征提取网络中，输出得到图像特征，以及将这两帧连续的RGB图像之间的惯性传感器信息输入预先定义的惯性特征提取网络中，输出得到惯性特征；

位姿估计单元130，用于将所得到的图像特征与惯性特征级联后输入预先定义的多传感器融合神经网络进行特征融合，得到融合后的特征，并根据融合后的特征，得到机器人多自由度的位姿估计。

实施本发明实施例，具有如下有益效果：

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述图像特征提取网络采用预训练模型FlowNet进行权重初始化，随后采用KITTI数据集进行训练得到的。

3.如权利要求1所述的基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述惯性特征提取网络采用一维卷积神经网络来处理惯性传感器信息。

4.如权利要求3所述的基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述惯性传感器信息包括角速度数据和加速度数据。

5.如权利要求1所述的基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述多传感器融合神经网络为Transformer网络，通过采用Transformer网络中的编码层对所得到的图像特征与惯性特征进行融合，以得到融合后的特征。

6.如权利要求5所述的基于多传感器特征融合的机器人位姿估计方法，其特征在于，所述机器人的位姿为六自由度位姿，且该六自由度位姿是将融合后的特征通过Transformer网络中全连接层进行处理得到的。

7.一种基于多传感器特征融合的机器人位姿估计系统，其特征在于，包括：

8.如权利要求7所述的基于多传感器特征融合的机器人位姿估计系统，其特征在于，所述图像特征提取网络采用预训练模型FlowNet进行权重初始化，随后采用KITTI数据集进行训练得到的。

9.如权利要求7所述的基于多传感器特征融合的机器人位姿估计系统，其特征在于，所述惯性特征提取网络采用一维卷积神经网络来处理惯性传感器信息；其中，所述惯性传感器信息包括角速度数据和加速度数据。

10.如权利要求7所述的基于多传感器特征融合的机器人位姿估计系统，其特征在于，所述多传感器融合神经网络为Transformer网络，通过采用Transformer网络中的编码层对所得到的图像特征与惯性特征进行融合，以得到融合后的特征；其中，所述机器人的位姿为六自由度位姿，且该六自由度位姿是将融合后的特征通过Transformer网络中全连接层进行处理得到的。