CN111368759B

CN111368759B - 基于单目视觉的移动机器人语义地图构建系统

Info

Publication number: CN111368759B
Application number: CN202010156120.6A
Authority: CN
Inventors: 范新南; 顾亚飞; 倪建军; 史朋飞; 罗成名; 田斌
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-08-30
Anticipated expiration: 2040-03-09
Also published as: CN111368759A

Abstract

本发明采用基于单目视觉的移动机器人语义地图构建系统，其步骤包括：机器人视为一个智能体，单目视觉传感器，计算机，进行图像采集与环境地图构建工作；在构建环境语义地图之前，机器人先利用在线筛选策略来获取可靠的图像数据集，并将该数据集作为50层残差网络模型的输入进行训练，得到场景的分类模型；移动机器人利用改进的ORB_SLAM系统进行环境地图的构建，并得到由关键帧图像组成的环境映射地图；利用场景分类模型将关键帧图像进行分类，获得带有语义标签的关键帧图像，最终生成环境语义地图；移动机器人可以实现语义地图保存、加载功能以及自身重定位功能，大大提高了工作效率。

Description

基于单目视觉的移动机器人语义地图构建系统

技术领域

本发明属于机器人的定位与建图领域，是机器人技术与深度学习方法相结合的应用。

背景技术

对于移动机器人而言，在面对未知环境时，需要使用自身所配备的传感装置来感知周围环境，通过移动来构建环境映射地图并明确自己在地图中的位置。因此，实现机器人自身定位并同时建立环境地图是研究机器人的关键技术之一。机器人SLAM技术的基本原理是移动机器人对自身所处的位置环境进行感知，建立一个连续的环境映射地图，并在地图完成自身的精确定位。

然而，传统的SLAM方法构建的地图仅适用于机器人自身的定位和导航，而人类却不能理解地图的含义，针对这一不足，语义地图的构建有效解决了这个问题。语义地图不仅提供了环境空间映射，帮助机器人完成自身定位和导航，而且提供了环境语义信息，便于人类理解机器人所构建的地图，有效解决了人机交互障碍的问题。因此，实现环境语义地图的构建对机器人技术的发展、友好的人机互动以及各种复杂任务的顺利完成具有重要的意义。

发明内容

本发明提供了一种系统复杂度低、实时性好以及准确度较高的基于单目视觉的移动机器人语义地图构建系统。

本发明实现上述发明目的的技术方案是：基于单目视觉的移动机器人语义地图构建系统，其创新点在于：包括如下步骤：

(1)、移动机器人语义地图构建系统中，移动机器人视为一个智能体，配备有视觉传感器，计算机，进行环境语义地图的构建工作；

(2)、移动机器人在构建环境语义地图时，先需要对场景图像进行采集和处理，利用图像在线筛选策略来获取可靠的数据集；

(3)、移动机器人采用一种改进的ORB_SLAM方法，在提取ORB特征时采用一种自适应角点检测方法，同时在关键帧筛选过程中，利用一种基于机器人旋转度的关键帧插入方法，最终建立出用于描述环境的映射地图；

(4)、移动机器人采用深度学习方法对不同场景的图像进行分类训练，并用训练好的模型对环境映射地图中的关键帧图像作分类识别，从而为映射地图添加语义标签；

(5)、移动机器人在完成语义地图构建之后，需要保存语义地图，并实现地图加载与重定位功能。

上述步骤(2)中采用图片在线筛选策略来降低噪声干扰，具体方法如下：

(2a)、移动机器人以固定的时间间隔在各个场景中进行图片采集，首先初始化选取n张静态场景作为参考图片存入数据集img中；

(2b)、移动机器人继续移动并采集图像，对于当前所拍摄的图像img_c，依次计算图像img_c与数据集中的图像img_i之间的相似性S，取相似性指数最高值与阈值进行比较，若大于阈值则存放至数据集中，以此方法直至数据集采集完毕；

图像相似性S计算方法如下：

S(img_c,img_i)＝max(SSIM(img_c,img_i)),i＝1,2,...,N

其中，N为场景数据集中已有图片的数量；x为img_c，y为img_i；μ_x，σ_x分别为当前图像x的像素平均值与方差；μ_y，σ_y为图像y的像素均值和方差；σ_xy为两图像的协方差；c₁，c₂为常系数。

上述步骤(3)中改进的ORB_SLAM算法如下：

(3a)、移动机器人利用摄像头提取场景的ORB特征，采用一种基于图像对比度的自适应阈值选取方法，使得算法在特征点提取过程中，能够根据实际场景对比度的不同，对阈值t进行自适应调整，具体公式如下：

其中，α为比例系数；I(x_i)为图像各个像素点的灰度值；

为图像的灰度均值；

(3b)、选取两帧图像并计算两者之间的相对位置，来对地图进行初始化，若成功追踪到上一帧的图像，则计算出机器人当前位置；反之，需要利用索引技术在构建的词袋模型数据库中对当前帧进行匹配，找到最相似的场景图像并进行优化；

(3c)、采用基于机器人旋转度的关键帧插入方法，来确保机器人在转弯处进行旋转移动时不会丢失跟踪；使用一个四元素来表示机器人在三维空间中的旋转；假设物体绕单位向量n＝[n_x,n_y,n_z]^T旋转了θ角度，则四元素的数学方程可表示为：

机器人的转弯过程能够视为绕z轴进行旋转，利用四元素向量求出旋转角度θ，并计算出相邻两帧图像的旋转角度差的绝对值Δθ，用来表示机器人旋转度；定义任意两帧图像i、j之间的旋转度为中间所有相邻两帧图像的旋转度之和，表示为：

(3d)、将满足判定机制的图像帧插入到关键帧序列中，并对关键帧中的点云进行预处理来建立匹配关系，然后剔除不满足条件的部分地图云点来建立新的地图云点，再对前面所有的变量进行局部BA优化并删除部分无效观测点，最后将冗余的关键帧删除，避免产生过多的关键帧；

(3e)、当地图中存在的关键帧数量大于10帧或从上次闭环检测之后经过多于10帧图像时，系统需要作一个闭环回路检测，将局部地图中优化后的关键帧与之前的关键帧作相似判断，判断相机当前运动是否存在闭合回路；若存在闭合回路，需要对回路进行修正，将地图中重复的云点进行融合，并向共视图里插入与回环相关联的新边缘；为了能够有效地实现闭环回路，选择在本质图上进行优化，使得回环过程中的累积误差分散至位姿图中；使用相似转换矩阵进行优化，纠正尺度偏差，最后地图云点根据相应的关键帧来更新其三维信息。

上述步骤(4)中利用深度学习方法为环境映射地图添加语义标签的方法如下：

(4a)、采用深度学习方法中的ResNet残差网络，并采用50层的网络结构模型对步骤(2)中所采集的各个场景图像进行训练，得到最终的场景分类模型；

(4b)、在步骤(3)中所构建的环境映射地图是由多张关键帧图像组成，每个关键帧包含了相机位姿T_iw，相机内部参数M和关键帧中所有ORB特征V，将这些关键帧作为步骤(4a)中分类模型的输入，得到每个关键帧的类别信息k及所属类别的活性值A，得到的语义关键帧表示为：

kFrame＝{T_iw,M,V,k,A}

(4c)、由于场景的分类结果存在着误差，为了降低语义地图的错误率，采用关键帧活性值连续性判定机制，将活性值低于某一阈值的当前关键帧，找出当前关键帧之前连续30帧图像中个数最多的类别，并将该类别赋予当前关键帧。

上述步骤(5)中方便移动机器人在相同的环境下进行二次任务是指：当移动机器人下一次在相同环境下执行其它任务时，无需再重复构建环境地图，能够直接利用保存好的语义地图。此外，地图加载与重定位功能可以帮助机器人确定自身所处位置，增强人机交互体验，大大提高了工作效率。

与现有技术相比，本发明具有如下优点：

(1)、本发明只利用视觉传感器作为系统的输入，无需任何人工路标辅助以及其它设备；

(2)、本发明以系统复杂度低以及实时性较好的ORB_SLAM系统为基础，并对其存在不足加以改进，在保证了该系统优点的同时，又提高了系统的稳定性和所构建地图的准确性；

(3)、本发明将传统的SLAM系统与深度学习技术相结合，实现了环境语义地图的构建，有助于人机交互，从而解决各种复杂任务；

(4)、本发明将机器人构建的环境语义地图进行保存，当机器人在相同环境下再次进行任务时，可以直接加载语义地图并实现自身在地图中的定位，大大提高机器人的工作效率；

附图说明

图1为本发明中特征点提取方法改进前后的结果对比图；

图2为本发明中基于机器人旋转度的关键帧插入法流程图；

图3为本发明中ResNet残差网络模型中的残差模块单元结构图；

图4为本发明中基于深度学习的语义地图构建方法结构图；

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明基于单目视觉的移动机器人语义地图构建系统，其流程图如附图4所示，具体包括如下步骤：

(1)、首先，移动机器人需要对场景图像进行采集和处理，利用图像在线筛选策略来获取可靠的图像数据集；

(2)、系统将步骤(1)中的数据集作为50层残差网络模型的输入，通过训练得到场景分类模型；

(3)、移动机器人利用改进的ORB_SLAM系统进行环境地图的构建，并得到由关键帧图像组成的环境映射地图；

(4)、将步骤(3)中的关键帧图像作为步骤(2)中场景分类模型的输入，得到具有语义标签的关键帧图像；

(5)、系统利用步骤(4)中带有语义标签的关键帧图像，最终生成环境语义地图，同时实现语义地图的加载与重定位功能。

图像相似性S计算方法如下：

S(img_c,img_i)＝max(SSIM(img_c,img_i)),i＝1,2,...,N

上述步骤(3)中改进的ORB_SLAM算法如下：

其中，α为比例系数；I(x_i)为图像各个像素点的灰度值；

为图像的灰度均值；

kFrame＝{T_iw,M,V,k,A}

附图1给出了改进前后的图像特征点提取方法的结果对比表图，在相同的环境条件下，改进方法所提取的特征点数量明显多于传统的算法。

附图2给出了基于机器人旋转度的关键帧插入法流程图，当移动机器人旋转到一定的程度时，为了增强转弯时机器人跟踪的稳定性，需要尽快插入关键帧以确保跟踪不会丢失，即在距离上一次关键帧的插入不足20帧图像的情况下，只要相机当前帧图像与上一关键帧之间的旋转度大于设定阈值，则向地图中插入关键帧。考虑到相机旋转过程中，两帧图像间匹配跟踪的难度相对较大，所以当满足旋转度条件之后只要求当前帧能够跟踪到25个以上的地图云点。

附图3给出了ResNet残差网络的模块单元结构，将1*1、3*3和1*1这样三个卷积核串接起来。对于50层的残差网络模型，采用这种结构不仅保证了算法精度，还能够大大减少计算和参数数量。

本发明只利用单目视觉传感器作为系统输入，无需事先设置任何人工路标及其它传感设备；本发明在线筛选策略来获取可靠的图像数据集；本发明采用50层的残差网络模型进行数据训练，最后得到场景分类模型；本发明采用改进的ORB_SLAM系统进行环境地图的构建，得到环境映射地图；本发明实现了语义地图的加载与重定位功能，大大提高了移动机器人的工作效率。