CN110390724B

CN110390724B - 一种带有实例分割的slam方法

Info

Publication number: CN110390724B
Application number: CN201910628634.4A
Authority: CN
Inventors: 孙东明; 李华兵; 杨恺伦
Original assignee: Hangzhou Lingxiang Technology Co ltd
Current assignee: Hangzhou Lingxiang Technology Co ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-06-02
Anticipated expiration: 2039-07-12
Also published as: CN110390724A

Abstract

本发明公开了一种带有实例分割的SLAM方法。该方法利用一个彩色‑深度相机采集图像，利用ElasticFusion SLAM系统和实例分割网络Mask R‑CNN对采集的图像进行处理，在进行实时定位和地图重建的同时，在地图中加入实例信息。该方法突破了传统的SLAM系统只包含几何信息的局限，在原有基础上增加了更高维的实例信息，使得改进后的SLAM系统更加适用于人机交互领域。

Description

一种带有实例分割的SLAM方法

技术领域

本发明属于SLAM、深度学习、计算机视觉技术领域，涉及一种带有实例分割的SLAM方法。

背景技术

即时定位与地图构建(SLAM)技术在机器人领域占有举足轻重的地位，近年来，已经发展出了一些可实时运行的SLAM系统，ElasticFusion就是其中的典型代表。然而，传统的SLAM只包含点云的几何信息，包括点云的位置、法向量、颜色等，缺乏一些高层的表征方式。与此同时，随着深度学习的发展，以MaskR-CNN为代表的物体实例分割技术也达到了较高的识别精度，可以广泛应用于物体识别领域。

因此，如何把实例分割技术融入到SLAM系统中成为一个难题，若能成功将诸如实例分割等高层信息于SLAM结合，将给予SLAM更强大的功能，有效扩大SLAM的应用领域。

发明内容

本发明的目的是针对现有技术的不足，提供一种带有实例分割的SLAM方法。

本发明采用如下技术方案：一种带有实例分割的SLAM方法，该方法包括如下步骤：

1.对ElasticFusion SLAM系统的数据结构进行扩充。ElasticFusion中地图的基础组成单位称为面元，对面元增加两个属性：①类别概率分布数组Class，Class是一个长度为N的数组；②实例概率分布数组Instance，Instance是一个长度为M的数组。增加一个计数器以记录地图中现有的实例个数。ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图，并负责将实例个数设置为0。

2.利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像F_k，输入到扩充后的SLAM系统中。其中下标k代表当前帧的序号，初始帧的下标k＝1，此后每到来一帧，k依次累加。

3.利用ElasticFusion计算F_k对应的相机位姿T_WC(k)，T_WC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵；同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵

使用T_WC(k)和相机内参，对F_k中每个像素进行坐标变换并将其融合到三维地图中，融合方式分为两种：

(3.1)若F_k中某一像素在三维地图中没有对应的面元，则在三维地图中增加一面元，其Class和Instance呈均匀分布；

(3.2)若F_k中某一像素在三维地图中已存在对应的面元，则维持地图中对应面元的Class和Instance值不变。

4.将F_k输入到已经训练好的实例分割网络中，得到F_k对应的实例分割结果，其中包含N_ins个实例

其中，包含在同一个实例中的所有像素对应同一个长度为N的类别概率分布。

5.使用T_CW(k)和相机内参，将地图中的面元投影到相机的像素平面上，得到投影帧P_k，每个实例内的像素的类别概率分布与P_k中对应像素的类别概率分布相乘并归一化，用归一化后的类别概率分布更新地图中面元的类别概率分布；

6.使用T_CW(k)和相机内参，将更新后的地图中的面元投影到相机的像素平面上，得到投影帧P_k′，从P_k′中提取实例信息，包括以下步骤：

(6.1)使用argmax函数得到P_k′中每个像素对应的最大的实例概率；

(6.2)若最大的实例概率<0.3，判定它不属于任何实例；

(6.3)若最大的实例概率≥0.3，则该像素被归到最大实例概率对应的实例中，需要参与后续IOU的计算。

7.针对第i个实例

构建长度为M的数组IOU_i，IOU_i[j]表示/>

与P_k′中实例j的交并比，若P_k′中不含有实例j，则IOU_i[j]＝0.01。

若IOU_i中最大值<0.3，则在地图中增加一个实例，使实例个数变为NUM；更新IOU_i，使得其中的IOU_i[NUM]＝0.7；

将

的每个像素的实例概率分布与IOU_i相乘并归一化，用归一化后的实例概率分布更新地图中面元的实例概率分布；

8.不断利用下一帧RGB-D图像，按照步骤(3)将RGB-D图像融合到三维地图中，利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布，按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布，从而获得最新的带有实例分割的三维地图。

9.每当带有实例分割的三维地图更新之后，根据每个面元的Instance和Class，利用OpenGL对地图进行重新渲染，得到可视化效果。

进一步地，所述步骤(4)中的实例分割网络采用Mask R-CNN分割网络。

进一步地，Mask R-CNN网络的输入在RGB三通道的基础上加入了深度Depth通道，并重新训练。其分割结果包含实例

进一步地，根据每个面元的Instance和Class对地图进行可视化渲染。

本发明的有益效果在于：

(1)丰富了SLAM构建的三维地图的内容。本发明在传统SLAM的基础上，融入了实例信息，令使用者可以便捷地获取地图中所包含物体的种类以及数量。

(2)更有利于人机交互。得益于向SLAM中加入的实例分割的信息，本发明更有利于室内智能机器人完成拾取、移动物体等指令。

附图说明

图1为一种带有实例分割的SLAM方法的流程；

图2为MaskR-CNN对于一帧RGB-D图像进行实例分割后的效果。图中的01,02,03分别表示不同物件；

图3为带有实例分割信息的三维地图的可视化结果，不同实例通过颜色进行区分。图中的1,2,…,9分别表示不同物件。

具体实施方式

下面结合附图对本发明的SLAM方法作进一步说明。

1.对ElasticFusion SLAM系统的数据结构进行扩充：对面元增加两个属性：①类别概率分布数组Class，Class为一个长度为N的数组，此处采用的MaskR-CNN实例分割网络规定了物体总计81类，即N＝81；②实例概率分布数组Instance，Instance为一个长度为M的数组，此处考虑到计算机实际内存大小，限定M＝100，即系统至多容纳100个实例物体。增加一个计数器以记录地图中现有的实例个数。

2.连接RGB-D相机与笔记本电脑，运行ElasticFusion SLAM系统，该SLAM系统开始运行后会先构建一个初始地图，其中不包含任何面元，且计数器所表示的实例个数为0。

3.用F_k表示利用彩色-深度(RGB-D)摄像头获取的第k帧图像，k从1开始，每到来一帧图像k都增加1。ElasticFusionSLAM系统首先计算第1帧RGB-D图像F₁对应的相机位姿T_WC(1)，T_WC(1)表示从相机坐标系到世界坐标系的齐次变换矩阵，对于第1帧图像，地图为空，因此

即F₁对应坐标系是世界坐标系，后续到来的帧均以F₁所在坐标系为参考坐标系；同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵

使用T_WC(1)和相机内参，对F₁中每个像素进行坐标变换并将其融合到三维地图中，根据融合规则：

对于F₁中每个像素，规则(3.1)均适用，因此根据(3.1)将F₁融合到三维地图中。

4.将F₁输入到已经训练好的实例分割网络中，得到F₁对应的实例分割结果如图2所示，其中包含3个实例

上标1代表是F₁的分割结果，下标代表分割出的实例的序号。其中，包含在同一个实例中的所有像素对应同一个长度为81的类别概率分布：

5.使用T_CW(1)和相机内参，将地图中的面元投影到相机的像素平面上，得到投影帧P₁，其下标1与正在处理的F₁所对应。每个实例内的像素的类别概率分布与P₁中对应像素的类别概率分布相乘并归一化，用归一化后的类别概率分布更新地图面元中的类别概率分布

6.使用T_CW(1)和相机内参，将更新后的地图中的面元投影到相机的像素平面上，得到投影帧P₁′，其下标1与正在处理的F₁所对应。从P₁′中提取实例信息，包括以下步骤：

(6.1)使用argmax函数得到P₁′中每个像素对应的最大的实例概率；

(6.2)若最大的实例概率<0.3，判定它不属于任何实例；

7.针对第i个实例

构建长度为M的数组IOU_i，IOU_i[j]表示/>

与P₁′中实例j的交并比，若P₁′中不含有实例j，则IOU_i[j]＝0.01。

若IOUi中最大值<0.3，则在地图中增加一个实例，使实例个数变为NUM；更新IOUi，使得其中的IOUi[NUM]＝0.7；

将

内的每个像素的实例概率分布与IOU_i相乘并归一化，用归一化后的实例概率分布更新地图中面元的实例概率分布；对F₁分割出的3个实例均执行此步骤后，F₁处理完毕，地图中现有3个实例，NUM＝3。

8.上述步骤3-7以第一帧图像F₁为例进行阐述，但对于后续帧，处理方法相同，即：不断利用下一帧RGB-D图像，按照步骤3将RGB-D图像融合到三维地图中，利用4-5所述的方法更新该帧所对应面元的类别概率分布，按照步骤6-7所述的方法更新该帧所对应面元的实例概率分布，从而获得最新的带有实例分割的三维地图。

9.每次获得最新的带有实例分割的三维地图后，根据每个面元的Instance和Class对地图进行可视化渲染。图3所示是根据每个面元的Instance进行渲染的结果，不同的实例以不同颜色相区分，各个颜色区域分别与各个物件对应，分别用1-9表示。本发明在传统SLAM的基础上，融入了实例信息，令使用者可以便捷地获取地图中所包含物体的种类以及数量。

Claims

1.一种带有实例分割的SLAM方法，其特征在于：所述方法包括以下步骤：

(1)对ElasticFusion SLAM系统的数据结构进行扩充；ElasticFusion中地图的基础组成单位为面元，对面元增加两个属性：①类别概率分布数组Class，Class是一个长度为N的数组；②实例概率分布数组Instance，Instance是一个长度为M的数组；增加一个计数器以记录地图中现有的实例个数；ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图，并负责将实例个数设置为0；

(2)利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像F_k，输入到扩充后的SLAM系统中、其中下标k代表当前帧的序号，初始帧的下标k＝1，此后每到来一帧，k依次累加；

(3)利用ElasticFusion计算F_k对应的相机位姿T_WC(k)，T_WC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵；同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵

(3.2)若F_k中某一像素在三维地图中已存在对应的面元，则维持地图中对应面元的Class和Instance值不变；

(4)将F_k输入到已经训练好的实例分割网络中，得到F_k对应的实例分割结果，其中包含N_ins个实例

其中，包含在同一个实例中的所有像素对应同一个长度为N的类别概率分布；

(5)使用T_CW(k)和相机内参，将地图中的面元投影到相机的像素平面上，得到投影帧P_k，每个实例内的像素的类别概率分布与P_k中对应像素的类别概率分布相乘并归一化，用归一化后的类别概率分布更新地图中面元的类别概率分布；

(6)使用T_CW(k)和相机内参，将更新后的地图中的面元投影到相机的像素平面上，得到投影帧P_k′，从P_k′中提取实例信息，包括以下步骤：

(6.2)若最大的实例概率<0.3，判定它不属于任何实例；

(6.3)若最大的实例概率≥0.3，则该像素被归到最大实例概率对应的实例中，需要参与后续IOU的计算；

(7)针对第i个实例

构建长度为M的数组IOU_i，IOU_i[j]表示/>

与P_k′中实例j的交并比，若P_k′中不含有实例j，则IOU_i[j]＝0.01；

将

内的每个像素的实例概率分布与IOU_i相乘并归一化，用归一化后的实例概率分布更新地图中面元的实例概率分布；

(8)不断利用下一帧RGB-D图像，按照步骤(3)将RGB-D图像融合到三维地图中，利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布，按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布，从而获得最新的带有实例分割的三维地图。

2.根据权利要求1所述的方法，其特征在于，所述步骤(4)中的实例分割网络采用MaskR-CNN分割网络。

3.根据权利要求2所述的一种带有实例分割的SLAM方法，其特征在于，Mask R-CNN网络的输入在RGB三通道的基础上加入了深度Depth通道，并重新训练；其分割结果包含实例

4.根据权利要求1所述的方法，其特征在于，该方法还包括：根据每个面元的Instance和Class对地图进行可视化渲染。