CN110390724B - 一种带有实例分割的slam方法 - Google Patents

一种带有实例分割的slam方法 Download PDF

Info

Publication number
CN110390724B
CN110390724B CN201910628634.4A CN201910628634A CN110390724B CN 110390724 B CN110390724 B CN 110390724B CN 201910628634 A CN201910628634 A CN 201910628634A CN 110390724 B CN110390724 B CN 110390724B
Authority
CN
China
Prior art keywords
instance
map
probability distribution
class
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910628634.4A
Other languages
English (en)
Other versions
CN110390724A (zh
Inventor
孙东明
李华兵
杨恺伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lingxiang Technology Co ltd
Original Assignee
Hangzhou Lingxiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lingxiang Technology Co ltd filed Critical Hangzhou Lingxiang Technology Co ltd
Priority to CN201910628634.4A priority Critical patent/CN110390724B/zh
Publication of CN110390724A publication Critical patent/CN110390724A/zh
Application granted granted Critical
Publication of CN110390724B publication Critical patent/CN110390724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种带有实例分割的SLAM方法。该方法利用一个彩色‑深度相机采集图像,利用ElasticFusion SLAM系统和实例分割网络Mask R‑CNN对采集的图像进行处理,在进行实时定位和地图重建的同时,在地图中加入实例信息。该方法突破了传统的SLAM系统只包含几何信息的局限,在原有基础上增加了更高维的实例信息,使得改进后的SLAM系统更加适用于人机交互领域。

Description

一种带有实例分割的SLAM方法
技术领域
本发明属于SLAM、深度学习、计算机视觉技术领域,涉及一种带有实例分割的SLAM方法。
背景技术
即时定位与地图构建(SLAM)技术在机器人领域占有举足轻重的地位,近年来,已经发展出了一些可实时运行的SLAM系统,ElasticFusion就是其中的典型代表。然而,传统的SLAM只包含点云的几何信息,包括点云的位置、法向量、颜色等,缺乏一些高层的表征方式。与此同时,随着深度学习的发展,以MaskR-CNN为代表的物体实例分割技术也达到了较高的识别精度,可以广泛应用于物体识别领域。
因此,如何把实例分割技术融入到SLAM系统中成为一个难题,若能成功将诸如实例分割等高层信息于SLAM结合,将给予SLAM更强大的功能,有效扩大SLAM的应用领域。
发明内容
本发明的目的是针对现有技术的不足,提供一种带有实例分割的SLAM方法。
本发明采用如下技术方案:一种带有实例分割的SLAM方法,该方法包括如下步骤:
1.对ElasticFusion SLAM系统的数据结构进行扩充。ElasticFusion中地图的基础组成单位称为面元,对面元增加两个属性:①类别概率分布数组Class,Class是一个长度为N的数组;②实例概率分布数组Instance,Instance是一个长度为M的数组。增加一个计数器以记录地图中现有的实例个数。ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图,并负责将实例个数设置为0。
2.利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像Fk,输入到扩充后的SLAM系统中。其中下标k代表当前帧的序号,初始帧的下标k=1,此后每到来一帧,k依次累加。
3.利用ElasticFusion计算Fk对应的相机位姿TWC(k),TWC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵
Figure BDA0002127993940000021
使用TWC(k)和相机内参,对Fk中每个像素进行坐标变换并将其融合到三维地图中,融合方式分为两种:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变。
4.将Fk输入到已经训练好的实例分割网络中,得到Fk对应的实例分割结果,其中包含Nins个实例
Figure BDA0002127993940000022
其中,包含在同一个实例中的所有像素对应同一个长度为N的类别概率分布。
5.使用TCW(k)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧Pk,每个实例内的像素的类别概率分布与Pk中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图中面元的类别概率分布;
6.使用TCW(k)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧Pk′,从Pk′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到Pk′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算。
7.针对第i个实例
Figure BDA0002127993940000031
构建长度为M的数组IOUi,IOUi[j]表示/>
Figure BDA0002127993940000032
与Pk′中实例j的交并比,若Pk′中不含有实例j,则IOUi[j]=0.01。
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
Figure BDA0002127993940000033
的每个像素的实例概率分布与IOUi相乘并归一化,用归一化后的实例概率分布更新地图中面元的实例概率分布;
8.不断利用下一帧RGB-D图像,按照步骤(3)将RGB-D图像融合到三维地图中,利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布,按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
9.每当带有实例分割的三维地图更新之后,根据每个面元的Instance和Class,利用OpenGL对地图进行重新渲染,得到可视化效果。
进一步地,所述步骤(4)中的实例分割网络采用Mask R-CNN分割网络。
进一步地,Mask R-CNN网络的输入在RGB三通道的基础上加入了深度Depth通道,并重新训练。其分割结果包含实例
Figure BDA0002127993940000041
进一步地,根据每个面元的Instance和Class对地图进行可视化渲染。
本发明的有益效果在于:
(1)丰富了SLAM构建的三维地图的内容。本发明在传统SLAM的基础上,融入了实例信息,令使用者可以便捷地获取地图中所包含物体的种类以及数量。
(2)更有利于人机交互。得益于向SLAM中加入的实例分割的信息,本发明更有利于室内智能机器人完成拾取、移动物体等指令。
附图说明
图1为一种带有实例分割的SLAM方法的流程;
图2为MaskR-CNN对于一帧RGB-D图像进行实例分割后的效果。图中的01,02,03分别表示不同物件;
图3为带有实例分割信息的三维地图的可视化结果,不同实例通过颜色进行区分。图中的1,2,…,9分别表示不同物件。
具体实施方式
下面结合附图对本发明的SLAM方法作进一步说明。
1.对ElasticFusion SLAM系统的数据结构进行扩充:对面元增加两个属性:①类别概率分布数组Class,Class为一个长度为N的数组,此处采用的MaskR-CNN实例分割网络规定了物体总计81类,即N=81;②实例概率分布数组Instance,Instance为一个长度为M的数组,此处考虑到计算机实际内存大小,限定M=100,即系统至多容纳100个实例物体。增加一个计数器以记录地图中现有的实例个数。
2.连接RGB-D相机与笔记本电脑,运行ElasticFusion SLAM系统,该SLAM系统开始运行后会先构建一个初始地图,其中不包含任何面元,且计数器所表示的实例个数为0。
3.用Fk表示利用彩色-深度(RGB-D)摄像头获取的第k帧图像,k从1开始,每到来一帧图像k都增加1。ElasticFusionSLAM系统首先计算第1帧RGB-D图像F1对应的相机位姿TWC(1),TWC(1)表示从相机坐标系到世界坐标系的齐次变换矩阵,对于第1帧图像,地图为空,因此
Figure BDA0002127993940000051
即F1对应坐标系是世界坐标系,后续到来的帧均以F1所在坐标系为参考坐标系;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵
Figure BDA0002127993940000052
使用TWC(1)和相机内参,对F1中每个像素进行坐标变换并将其融合到三维地图中,根据融合规则:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变。
对于F1中每个像素,规则(3.1)均适用,因此根据(3.1)将F1融合到三维地图中。
4.将F1输入到已经训练好的实例分割网络中,得到F1对应的实例分割结果如图2所示,其中包含3个实例
Figure BDA0002127993940000053
上标1代表是F1的分割结果,下标代表分割出的实例的序号。其中,包含在同一个实例中的所有像素对应同一个长度为81的类别概率分布:
Figure BDA0002127993940000061
5.使用TCW(1)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧P1,其下标1与正在处理的F1所对应。每个实例内的像素的类别概率分布与P1中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图面元中的类别概率分布
6.使用TCW(1)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧P1′,其下标1与正在处理的F1所对应。从P1′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到P1′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算。
7.针对第i个实例
Figure BDA0002127993940000062
构建长度为M的数组IOUi,IOUi[j]表示/>
Figure BDA0002127993940000063
与P1′中实例j的交并比,若P1′中不含有实例j,则IOUi[j]=0.01。
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
Figure BDA0002127993940000064
内的每个像素的实例概率分布与IOUi相乘并归一化,用归一化后的实例概率分布更新地图中面元的实例概率分布;对F1分割出的3个实例均执行此步骤后,F1处理完毕,地图中现有3个实例,NUM=3。
8.上述步骤3-7以第一帧图像F1为例进行阐述,但对于后续帧,处理方法相同,即:不断利用下一帧RGB-D图像,按照步骤3将RGB-D图像融合到三维地图中,利用4-5所述的方法更新该帧所对应面元的类别概率分布,按照步骤6-7所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
9.每次获得最新的带有实例分割的三维地图后,根据每个面元的Instance和Class对地图进行可视化渲染。图3所示是根据每个面元的Instance进行渲染的结果,不同的实例以不同颜色相区分,各个颜色区域分别与各个物件对应,分别用1-9表示。本发明在传统SLAM的基础上,融入了实例信息,令使用者可以便捷地获取地图中所包含物体的种类以及数量。

Claims (4)

1.一种带有实例分割的SLAM方法,其特征在于:所述方法包括以下步骤:
(1)对ElasticFusion SLAM系统的数据结构进行扩充;ElasticFusion中地图的基础组成单位为面元,对面元增加两个属性:①类别概率分布数组Class,Class是一个长度为N的数组;②实例概率分布数组Instance,Instance是一个长度为M的数组;增加一个计数器以记录地图中现有的实例个数;ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图,并负责将实例个数设置为0;
(2)利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像Fk,输入到扩充后的SLAM系统中、其中下标k代表当前帧的序号,初始帧的下标k=1,此后每到来一帧,k依次累加;
(3)利用ElasticFusion计算Fk对应的相机位姿TWC(k),TWC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵
Figure FDA0004125148250000011
使用TWC(k)和相机内参,对Fk中每个像素进行坐标变换并将其融合到三维地图中,融合方式分为两种:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变;
(4)将Fk输入到已经训练好的实例分割网络中,得到Fk对应的实例分割结果,其中包含Nins个实例
Figure FDA0004125148250000012
其中,包含在同一个实例中的所有像素对应同一个长度为N的类别概率分布;
(5)使用TCW(k)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧Pk,每个实例内的像素的类别概率分布与Pk中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图中面元的类别概率分布;
(6)使用TCW(k)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧Pk′,从Pk′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到Pk′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算;
(7)针对第i个实例
Figure FDA0004125148250000021
构建长度为M的数组IOUi,IOUi[j]表示/>
Figure FDA0004125148250000022
与Pk′中实例j的交并比,若Pk′中不含有实例j,则IOUi[j]=0.01;
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
Figure FDA0004125148250000023
内的每个像素的实例概率分布与IOUi相乘并归一化,用归一化后的实例概率分布更新地图中面元的实例概率分布;
(8)不断利用下一帧RGB-D图像,按照步骤(3)将RGB-D图像融合到三维地图中,利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布,按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
2.根据权利要求1所述的方法,其特征在于,所述步骤(4)中的实例分割网络采用MaskR-CNN分割网络。
3.根据权利要求2所述的一种带有实例分割的SLAM方法,其特征在于,Mask R-CNN网络的输入在RGB三通道的基础上加入了深度Depth通道,并重新训练;其分割结果包含实例
Figure FDA0004125148250000024
4.根据权利要求1所述的方法,其特征在于,该方法还包括:根据每个面元的Instance和Class对地图进行可视化渲染。
CN201910628634.4A 2019-07-12 2019-07-12 一种带有实例分割的slam方法 Active CN110390724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910628634.4A CN110390724B (zh) 2019-07-12 2019-07-12 一种带有实例分割的slam方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910628634.4A CN110390724B (zh) 2019-07-12 2019-07-12 一种带有实例分割的slam方法

Publications (2)

Publication Number Publication Date
CN110390724A CN110390724A (zh) 2019-10-29
CN110390724B true CN110390724B (zh) 2023-06-02

Family

ID=68286579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910628634.4A Active CN110390724B (zh) 2019-07-12 2019-07-12 一种带有实例分割的slam方法

Country Status (1)

Country Link
CN (1) CN110390724B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI725665B (zh) * 2019-12-13 2021-04-21 宏達國際電子股份有限公司 影像處理系統及影像處理方法
US11107220B2 (en) 2019-12-13 2021-08-31 Htc Corporation Image processing system and image processing method
CN112967338B (zh) * 2019-12-13 2024-05-31 宏达国际电子股份有限公司 影像处理系统及影像处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CU22550A1 (es) * 1997-08-22 1999-03-31 Cnic Ct Nac Investigaciones Sistema y método para la tomografía de la corriente eléctrica primaria del cerebro y del corazón
FR2863080B1 (fr) * 2003-11-27 2006-02-24 Advestigo Procede d'indexation et d'identification de documents multimedias
CN109636905B (zh) * 2018-12-07 2023-01-24 东北大学 基于深度卷积神经网络的环境语义建图方法
CN109816686A (zh) * 2019-01-15 2019-05-28 山东大学 基于物体实例匹配的机器人语义slam方法、处理器及机器人

Also Published As

Publication number Publication date
CN110390724A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
CN110390724B (zh) 一种带有实例分割的slam方法
CN109598794B (zh) 三维gis动态模型的构建方法
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
WO2018053952A1 (zh) 一种基于场景样本库的影视图像深度提取方法
CN110570457B (zh) 一种基于流数据的三维物体检测与跟踪方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN108388882A (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN113284144B (zh) 一种基于无人机的隧道检测方法及装置
CN110570435A (zh) 用于对车辆损伤图像进行损伤分割的方法及装置
CN107978017A (zh) 基于框线提取的室内结构快速建模方法
CN115035260A (zh) 一种室内移动机器人三维语义地图构建方法
CN113411550B (zh) 视频上色方法、装置、设备及存储介质
CN111914938B (zh) 一种基于全卷积二分支网络的图像属性分类识别方法
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN114462486A (zh) 图像处理模型的训练方法、图像处理方法及相关装置
CN112215766B (zh) 一种图像复原与图像增强相融合的图像去雾方法及其卷积网络
RU2710659C1 (ru) Совместная неконтролируемая сегментация объектов и подрисовка
CN109816710B (zh) 一种双目视觉系统高精度且无拖影的视差计算方法
CN114155273B (zh) 一种结合历史轨迹信息的视频图像单目标跟踪方法
CN113920254B (zh) 一种基于单目rgb的室内三维重建方法及其系统
CN110796716B (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
Motayyeb et al. Enhancing contrast of images to improve geometric accuracy of a UAV photogrammetry project

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant