CN111508024A

CN111508024A - 一种基于深度学习估计机器人位姿的方法

Info

Publication number: CN111508024A
Application number: CN201910565280.3A
Authority: CN
Inventors: 刘勇; 翟光耀; 刘亮; 张林箭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2020-08-07

Abstract

本发明提供了一种基于深度学习估计机器人位姿的方法，采用深层级联卷积神经网络和栈式循环卷积神经网络结合串联，利用数据驱动，端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤，通过特征提取模块编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播，最终输出预测的机器人上相机的位姿。本发明在训练网络模型之前进行了数据增强，包括两种方式：隔帧增强和时序增强，可模拟机器人速度变化，速度逆向的情况，使数据更丰富，给网络预测增加了约束令预测位姿更准确。

Description

一种基于深度学习估计机器人位姿的方法

技术领域

本发明涉及所述估计机器人位姿方法，特别涉及一种基于深度学习估计机器人位姿的方法。

背景技术

对于智能机器人的自主导航来说，机器人在运动过程中的自定位能力非常重要。机器人的位姿估计问题是计算机视觉领域和SLAM的一个重要且尚需解决的问题，主流的位姿估计方法主要是基于图片中的几何特性来估计相机的位置，所以要求图片中的物体含有大量稳定的纹理特征。一旦场景中出现遮挡物或在雾天雨天取景，并且在没有其他传感器(IMU、激光雷达等)的情况下，几何法的求解就会受到很严重的干扰。而很多实际应用中，诸多其他传感器也可能派不上用场，所以只通过视觉来定位的方法还有很大的研究空间。

近年，以卷积神经网络为代表的深度学习方法在计算机视觉领域发挥了非常重要的作用，这些深度网络在提取图片特征，找出潜在规律等发面相比传统方法效果显著。

发明内容

本发明所要解决的技术问题是在于提供一种基于深度学习估计机器人位姿的方法，以利用深度学习提取图片特征效果显著的优势改善传统方法的不鲁棒性。

为此，本发明采用以下技术方案：

一种基于深度学习的估计机器人位姿方法，其特征在于，所述方法包括：

步骤一、确定传感器以及传感器的参数；

步骤二、确定所需训练数据要求，利用标签文件生成训练集、验证集和测试集，使用数据增强手段：隔帧增强、时序增强；

步骤三、搭建深度神经网络，包括确定网络结构为两个子模块、确定网络初始超参数和确定网络损失函数，所述两个子模块分别为特征提取模块和记忆传播模块；

步骤四、利用步骤二准备的训练集预训练搭建好的深度神经网络中的特征提取模块，更新特征提取模块的迭代参数，使特征提取模块输出收敛至第一预设阈值；

步骤五、将整个深度神经网络在训练好的子模块的基础上进行全局调整，使用确定的训练集和验证集上训练整个深度神经网络，更新迭代参数，使网络预测准确率小于第二预设阈值；

步骤六、在测试集上进行网络模型的测试。

进一步地，在所述步骤一中，传感器类型为单目RGB相机。

进一步地，在所述步骤二中，训练集数据采用KITTI VO/SLAM标准数据集，标签文件为相邻两张RGB图片相对的位姿变换真值；数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况，将相邻两帧数据增强至相隔若干帧取一帧数据，时序增强是指为了模拟机器人速度逆向的情况，将准备的数据逆向输入，同时对网络的前向预测和逆向预测起到一个限制的作用。

进一步地，在所述步骤三中：

所述特征提取模块和记忆传播模块分别为深层级联卷积神经网络和栈式循环卷积神经网络，深层级联卷积神经网络用于提取相邻两帧RGB图片中丰富的纹理信息所包含的几何关系，并编码成二维特征向量；栈式循环卷积神经网络输入编码向量进行记忆传播，最终输出结果为预测的机器人上相机的位姿；

预训练深度神经网络的损失函数为：(感觉未表达清楚)

其中，(P_1i,φ_1i)是第i对训练数据中前向输入的机器人上单目相机的位移和转角的预测值；

是单目相机的位移和转角的真值；‖.‖为L2形式的范数；

方法中整个深度神经网络的损失函数为：

其中，(P_1ij,φ_1ij)是第i个训练数据序列中前向输入的第j个时刻的机器人上单目相机的位移和转角的预测值；(P_2ij,φ_2ij)是第i个训练数据序列中逆向输入的第j个时刻的机器人上单目相机的位移和转角的预测值；

是单目相机的位移和转角的前向输入和后向输入对应的真值。‖.‖为L2形式的范数。

进一步地，在所述步骤四中，特征提取模块本身也具有预测机器人相机位姿的能力，特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求，训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。

本发明相比现有技术具有以下优点：

a)、本发明采用一种深层级联卷积神经网络和栈式循环卷积神经网络结合串联的方法，利用数据驱动，端到端的摒弃了传统方法中特征提取、特征匹配、相机标定、图优化等步骤，通过“特征提取模块”编码图片中纹理的几何信息形成特征二维向量的记忆输入至“记忆传播模块”进行长期记忆的传播，最终输出预测的机器人上相机的位姿；

b)、在训练网络模型之前进行了数据增强，包括两种方式：隔帧增强和时序增强，可模拟机器人速度变化，速度逆向的情况，使数据更丰富，给网络预测增加了约束令预测位姿更准确。

附图说明

图1为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的流程图；

图2为本发明实施例提供的一种基于深度学习的估计机器人位姿方法的原理示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了一种基于深度学习的估计机器人位姿方法。如图1、图2所示，所述方法包括：

S101：确定所需训练数据要求，利用标签文件生成训练集，验证集和测试集，使用数据增强手段：隔帧增强、时序增强，其中，所述训练数据采用KITTI VO/SLAM标准数据集，标签文件为相邻两张RGB图片相对的位姿变换真值；数据增强手段中隔帧增强是指为了模拟机器人速度变化的情况，将相邻两帧数据增强至相隔若干帧取一帧数据，时序增强是指为了模拟机器人速度逆向的情况，将准备的数据逆向输入，同时对网络的前向预测和逆向预测起到一个限制的作用。

具体的，将KITTI数据集中时间戳对应的相邻两帧图片与其相应的位姿矩阵解算相对位姿，将每个图片对作为网络训练集、验证集和测试集的输入，相应的相对位姿作为网络训练集、验证集和测试集的数据标签文件。

然后进行数据增强时采用1)、相隔若干帧取一帧数据而非相邻帧，并计算相应的相对位姿；2)、将图片及相应的位姿矩阵逆序排列，用1)、2)准备好的数据扩充整个网络的训练集、验证集和测试集。

S102：预训练搭建好的深度神经网络其中的“特征提取模块”，更新模块的迭代参数，使模块输出收敛至第一预设阈值，其中，在所述“特征提取模块”本身也具有预测机器人相机位姿的能力，需要稍微调整一下结构：在模块后面添加一个全连接层并进行预训练达到位姿回归的要求，训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。

具体的，S102步骤中，整个网络是在现在非常流行的深度学习开源框架PyTorch上搭建的，初始学习率设置为10^-4，随着训练次数的增加，学习率会进行适当的减小，以保证优化函数更平滑的接近最优解。预训练时，程序运行在操作系统Ubuntu 16.04下，训练时采用一块NVIDIA TITAN X(Pascal)GPU进行加速运算，“特征提取模块”采取了FlowNetSimple的网络结构，不过本发明方法在Conv6_1层后面增加一层Max-pooling层，使得特征图谱维度进一步降低，图片经过10层卷积以及最后一层Max-pooling层后得到10×3×1024大小的特征图谱，将其拉伸为一维的特征向量输入到全连接层进行机器人相机位姿的回归。S102步骤的损失函数为：

是单目相机的位移和转角的真值；‖.‖为L2形式的范数。

S103：将整个网络在训练好的子模块的基础上进行全局调整，使用确定的训练集和验证集上训练整个网络，更新迭代参数，使网络预测准确率小于第二预设阈值。

具体的，S103步骤中，将“特征提取模块”分离出来(去掉预训练网络中的全连接层)，保留该子模块的参数，然后设初始学习率为10^-4，重新用准备好的数据训练带“特征提取模块”的整个网络进行全局调整，网络预测准确率小于第二预设阈值时进行测试集测试达到一定误差之内即训练模型成功。S103步骤的损失函数为：

以上所述仅为发明的具体实施案例，本发明的技术特征并不局限于此，任何相关领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的保护范围之中。

Claims

1.一种基于深度学习的估计机器人位姿方法，其特征在于，所述方法包括：

步骤一、确定传感器以及传感器的参数；

步骤六、在测试集上进行网络模型的测试。

2.根据权利要求1所述的方法，其特征在于，在所述步骤一中，传感器类型为单目RGB相机。

3.根据权利要求1所述的方法，其特征在于，在所述步骤二中，训练集数据采用KITTIVO/SLAM标准数据集，标签文件为相邻两张RGB图片相对的位姿变换真值；数据增强手段中的隔帧增强是指为了模拟机器人速度变化的情况，将相邻两帧数据增强至相隔若干帧取一帧数据，时序增强是指为了模拟机器人速度逆向的情况，将准备的数据逆向输入，同时对网络的前向预测和逆向预测起到一个限制的作用。

4.根据权利要求1所述的方法，其特征在于，在所述步骤三中：

预训练深度神经网络的损失函数为：

是单目相机的位移和转角的真值；‖.‖为L2形式的范数；

方法中整个深度神经网络的损失函数为：

5.根据权利要求1所述的方法，其特征在于，在所述步骤四中，特征提取模块本身也具有预测机器人相机位姿的能力，特征提取模块的后面添加一个全连接层并进行预训练达到位姿回归的要求，训练小于一定阈值时停止预训练并保存模块的参数为后续全局调整提供初始状态。