CN111179426A

CN111179426A - 基于深度学习的机器人室内环境三维语义地图构建方法

Info

Publication number: CN111179426A
Application number: CN201911340905.2A
Authority: CN
Inventors: 王永娟; 徐少杰; 曹雏清
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-19

Abstract

本发明提出了一种基于深度学习的机器人室内环境三维语义地图构建方法，首先通过深度相机采集室内环境的RGB图像序列和深度图像序列；对采集的每一帧RGB图像进行ORB特征提取和匹配，并确定关键帧；利用提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T；用训练好的深度学习网络对确定的关键帧进行语义分割获得关键帧的按像素分类的图像；结合计算得到的变换矩阵T和关键帧对应的深度图像将分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。本发明可直接利用分割好的关键帧图像进行语义地图构建，无需将环境几何地图建立好后进行语义融合。

Description

基于深度学习的机器人室内环境三维语义地图构建方法

技术领域

本发明属于移动机器人视觉环境感知技术领域，特别是一种基于深度学习的机器人室内环境三维语义地图构建方法。

背景技术

家庭服务机器人一般有以下三个核心技术：环境感知、人机交互、运动控制。对环境的感知理解无疑是室内移动机器人执行任务的一项核心技术。传统的获取机器人周围环境信息的方法是通过2D激光SLAM(Simulntenous Localization And Mapping，同时定位和建图)技术建立室内环境地图，这种方法有很大的局限性。一来激光雷达建立的地图是二维的，缺少三维空间信息，在进行导航避障时只能躲避地图平面上的障碍物，无法躲避具有一定高度的障碍物；二来激光雷达获取的信息单一，只能获取环境中简单的几何信息，忽略了环境中丰富的语义信息，因此该方法建立的地图只能用来执行路径规划、导航、避障等低级任务。若要执行类似于“到客厅餐桌上取一个绿色杯子”这样的高级任务，环境的语义信息是必不可少的。

机器人感知周围环境需要一套强大的“视觉系统”。相比于激光雷达，相机无论从价格还是场景信息获取的丰富度都有着巨大的优势，也更适合充当机器人“眼睛”这一角色。近年来工业相机发展迅速，2010年微软更是推出了一款深度相机Kinect，它能同时获取RGB图像和深度图像，省去了计算深度的步骤，极大减少了图像的计算量，于是一批基于深度相机的视觉SLAM方法应运而生，如RGBD-SLAM、ORB-SLAM等，然而这些方法建立的地图都只包含了环境的三维几何信息，缺乏对环境的语义理解，机器人不能基于这种地图理解环境中“桌子”、“椅子”、“杯子”等信息。

文献Jing Li,Yanyu Liu,Junzheng Wang,Min Yan,Yanzhi Yao.3D SemanticMapping Based on Convolutional Neural Networks[C].Proceedings of the 37thChinese Control Conference,2018:9303-9308.提出了一种语义地图构建方法，该文方法首先将彩色图像和和深度图像采用三维重建算法将环境的3维地图构建出来，然后利用语义分割网络对彩色图像进行语义分割，最后利用语义融合算法将语义信息和3维地图信息融合来获取环境的语义地图。该方法需要先将环境几何地图构建出来然后分割彩色图像获取语义信息再然后进行语义信息与几何信息的融合才能得到环境的语义地图，需要较大的计算量，对计算机的计算能力要求较高，不利于部署到移动机器人上。中国专利CN104732587B公开了一种基于深度传感器的室内3D语义地图构建方提出的方法中需对采集到的每一帧彩色图像进行语义分割，然而这其中包含了大量的冗余图像，降低了建图效率。

发明内容

本发明的目的在于提供一种基于深度学习的机器人室内环境三维语义地图构建方法，以实现家庭服务机器人对室内环境的感知。

实现本发明目的的技术解决方案为：

一种基于深度学习的机器人室内环境三维语义地图构建方法，包括以下步骤：

步骤1、通过深度相机采集室内环境的RGB图像序列和深度图像序列；

步骤2、对采集的每一帧RGB图像进行ORB特征提取和匹配，并确定关键帧；

步骤3、利用步骤2中提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T；

步骤4：用训练好的深度学习网络对步骤2中确定的关键帧进行语义分割获得关键帧的按像素分类的图像；

步骤5：结合步骤3中计算得到的变换矩阵T和关键帧对应的深度图像将步骤4分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。

本发明与现有技术相比，其显著优点是：

仅对关键帧的彩色图像进行语义分割并且直接利用语义分割好的关键帧图像结合获取关键帧时的相机位姿以及关键帧彩色图像对应的深度图像进行点云拼接就可获得环境的语义地图，减少了需要处理的数据量，简化了语义地图的构建流程，提升了建图效率。

附图说明

图1为本发明方法的流程图。

图2为像素坐标系示意图。

图3为相机坐标系与世界坐标系转换图。

图4为本发明在客厅环境下实验结果示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的介绍。

结合图1，本发明的一种基于深度学习的机器人室内环境三维语义地图构建方法，包括以下步骤：

步骤1：通过深度相机采集室内环境的RGB图像序列和深度图像序列。

具体实施步骤为：用户通过手持深度相机或将深度相机搭载到机器人上在室内对环境进行连续的拍摄，获得连续的RGB图像序列和深度图像序列。

步骤2：对采集的每一帧RGB图像进行ORB特征提取和匹配，并确定关键帧。

具体实施步骤为：

步骤21：检测每一帧图像的Oriented FAST角点位置，根据角点位置计算BRIEF描述子；

步骤22：使用Hamming距离对两幅图像中的BRIEF描述子进行匹配，当两个描述子的相似度达到80％时则确定这两个描述子是匹配的；

步骤23：匹配点对筛选，计算出所有匹配点对中的最小距离，当描述子之间的距离大于两倍最小距离时，则认为出现错误匹配，将误匹配点对剔除。

步骤24：关键帧选择，将第一帧传入的图像作为第一个关键帧，下一关键帧确定策略为①下一关键帧与上一关键帧的重复区域低于80％；②下一关键帧拥有的匹配点数在150对以上；③下一关键帧距上一关键帧至少经过了30帧；④下一关键帧距上一关键帧不得超过60帧；同时满足以上四个条件的图像即可认为是关键帧。

步骤3：利用步骤2中提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T。

具体实施步骤为：

假设已经对两幅RGB-D图像进行了匹配：Q＝{q₁，···，q_n}，Q'＝{q'₁，···，q'_n}，其中Q与Q'是两幅图像中匹配点的集合，q_i与q'_i是两幅图像中的匹配点对。要求的位姿变换矩阵

其中R是旋转矩阵是一个3×3矩阵，t是平移矩阵是一个3×1的矩阵。对任意的匹配点对q_i与q'_i有以下的对应关系：q_i＝Rq'_i+t+e_i，其中e_i为对应的误差项，这个问题可以用迭代最近点(Iterative Closest Point,ICP)求解，将上述公式变换成e_i＝q_i-(Rq'_i+t)。为使误差最小，构建最小二乘问题：

将该问题的解拼接即为所求的位姿变换矩阵T。

步骤4：用训练好的深度学习网络对步骤2中确定的关键帧进行语义分割获得关键帧的按像素分类的图像。

具体实施步骤为：

本发明所用深度学习网络为SegNet语义分割网络。用注重室内场景的NYU数据集训练SegNet网络，训练环境为Ubuntu16.04操作系统+NVIDIA GTX 1060显卡+Caffe，训练参数设置基本学习率设为0.01，学习策略设为“Step”，梯度更新设为1.0，权重衰减设为0.0005，最大迭代次数设为40000。训练好之后将步骤2中确定的关键帧作为网络的输入，输出图像即为关键帧的按像素分类的图像。

具体实施步骤为：

如图2所示，在图像的像素坐标系下有一点

该点对应的像机坐标系下的坐标为

这两点的转换公式为

其中P_uv为P'的齐次坐标

Z为像素点深度，K为相机的内参数矩阵

由上述公式可以得到像素点P'对应的相机坐标系下的坐标P。接下来利用步骤3中求得的变换矩阵T将相机坐标系坐标P变换到世界坐标系(第一帧图像的相机坐标系)坐标P_w(如图3所示)，第k+1帧图像相机坐标到世界坐标的变换公式为

式中

(T_k ^k+1为第k帧到第k+1帧之间的变换矩阵)，需要注意的是这里的T为4×4的矩阵，故将P_w和P添1增加一维做齐次处理。至此就得到了像素坐标到世界坐标的变换，将所有关键帧按上述变换变换到世界坐标系下，将关键帧中所有像素点投影到对应的三维空间点中拼接起来，如此就得到了包含环境语义信息的语义地图(图4为本发明在在客厅环境下实验结果示意图)。

本发明通过计算关键帧的位姿变换矩阵直接将利用语义分割网络分割好的关键帧彩色图像结合深度图像信息进行点云拼接，就可获得环境的语义地图，省略了技术文件1中的语义融合过程且避免了技术文件2中对所有采集的RGB图像进行语义分割造成的计算资源浪费，有利于增加建图效率。