CN110390724B - 一种带有实例分割的slam方法 - Google Patents
一种带有实例分割的slam方法 Download PDFInfo
- Publication number
- CN110390724B CN110390724B CN201910628634.4A CN201910628634A CN110390724B CN 110390724 B CN110390724 B CN 110390724B CN 201910628634 A CN201910628634 A CN 201910628634A CN 110390724 B CN110390724 B CN 110390724B
- Authority
- CN
- China
- Prior art keywords
- instance
- map
- probability distribution
- class
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000009466 transformation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种带有实例分割的SLAM方法。该方法利用一个彩色‑深度相机采集图像,利用ElasticFusion SLAM系统和实例分割网络Mask R‑CNN对采集的图像进行处理,在进行实时定位和地图重建的同时,在地图中加入实例信息。该方法突破了传统的SLAM系统只包含几何信息的局限,在原有基础上增加了更高维的实例信息,使得改进后的SLAM系统更加适用于人机交互领域。
Description
技术领域
本发明属于SLAM、深度学习、计算机视觉技术领域,涉及一种带有实例分割的SLAM方法。
背景技术
即时定位与地图构建(SLAM)技术在机器人领域占有举足轻重的地位,近年来,已经发展出了一些可实时运行的SLAM系统,ElasticFusion就是其中的典型代表。然而,传统的SLAM只包含点云的几何信息,包括点云的位置、法向量、颜色等,缺乏一些高层的表征方式。与此同时,随着深度学习的发展,以MaskR-CNN为代表的物体实例分割技术也达到了较高的识别精度,可以广泛应用于物体识别领域。
因此,如何把实例分割技术融入到SLAM系统中成为一个难题,若能成功将诸如实例分割等高层信息于SLAM结合,将给予SLAM更强大的功能,有效扩大SLAM的应用领域。
发明内容
本发明的目的是针对现有技术的不足,提供一种带有实例分割的SLAM方法。
本发明采用如下技术方案:一种带有实例分割的SLAM方法,该方法包括如下步骤:
1.对ElasticFusion SLAM系统的数据结构进行扩充。ElasticFusion中地图的基础组成单位称为面元,对面元增加两个属性:①类别概率分布数组Class,Class是一个长度为N的数组;②实例概率分布数组Instance,Instance是一个长度为M的数组。增加一个计数器以记录地图中现有的实例个数。ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图,并负责将实例个数设置为0。
2.利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像Fk,输入到扩充后的SLAM系统中。其中下标k代表当前帧的序号,初始帧的下标k=1,此后每到来一帧,k依次累加。
3.利用ElasticFusion计算Fk对应的相机位姿TWC(k),TWC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵使用TWC(k)和相机内参,对Fk中每个像素进行坐标变换并将其融合到三维地图中,融合方式分为两种:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变。
5.使用TCW(k)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧Pk,每个实例内的像素的类别概率分布与Pk中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图中面元的类别概率分布;
6.使用TCW(k)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧Pk′,从Pk′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到Pk′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算。
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
8.不断利用下一帧RGB-D图像,按照步骤(3)将RGB-D图像融合到三维地图中,利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布,按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
9.每当带有实例分割的三维地图更新之后,根据每个面元的Instance和Class,利用OpenGL对地图进行重新渲染,得到可视化效果。
进一步地,所述步骤(4)中的实例分割网络采用Mask R-CNN分割网络。
进一步地,根据每个面元的Instance和Class对地图进行可视化渲染。
本发明的有益效果在于:
(1)丰富了SLAM构建的三维地图的内容。本发明在传统SLAM的基础上,融入了实例信息,令使用者可以便捷地获取地图中所包含物体的种类以及数量。
(2)更有利于人机交互。得益于向SLAM中加入的实例分割的信息,本发明更有利于室内智能机器人完成拾取、移动物体等指令。
附图说明
图1为一种带有实例分割的SLAM方法的流程;
图2为MaskR-CNN对于一帧RGB-D图像进行实例分割后的效果。图中的01,02,03分别表示不同物件;
图3为带有实例分割信息的三维地图的可视化结果,不同实例通过颜色进行区分。图中的1,2,…,9分别表示不同物件。
具体实施方式
下面结合附图对本发明的SLAM方法作进一步说明。
1.对ElasticFusion SLAM系统的数据结构进行扩充:对面元增加两个属性:①类别概率分布数组Class,Class为一个长度为N的数组,此处采用的MaskR-CNN实例分割网络规定了物体总计81类,即N=81;②实例概率分布数组Instance,Instance为一个长度为M的数组,此处考虑到计算机实际内存大小,限定M=100,即系统至多容纳100个实例物体。增加一个计数器以记录地图中现有的实例个数。
2.连接RGB-D相机与笔记本电脑,运行ElasticFusion SLAM系统,该SLAM系统开始运行后会先构建一个初始地图,其中不包含任何面元,且计数器所表示的实例个数为0。
3.用Fk表示利用彩色-深度(RGB-D)摄像头获取的第k帧图像,k从1开始,每到来一帧图像k都增加1。ElasticFusionSLAM系统首先计算第1帧RGB-D图像F1对应的相机位姿TWC(1),TWC(1)表示从相机坐标系到世界坐标系的齐次变换矩阵,对于第1帧图像,地图为空,因此即F1对应坐标系是世界坐标系,后续到来的帧均以F1所在坐标系为参考坐标系;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵使用TWC(1)和相机内参,对F1中每个像素进行坐标变换并将其融合到三维地图中,根据融合规则:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变。
对于F1中每个像素,规则(3.1)均适用,因此根据(3.1)将F1融合到三维地图中。
4.将F1输入到已经训练好的实例分割网络中,得到F1对应的实例分割结果如图2所示,其中包含3个实例上标1代表是F1的分割结果,下标代表分割出的实例的序号。其中,包含在同一个实例中的所有像素对应同一个长度为81的类别概率分布:
5.使用TCW(1)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧P1,其下标1与正在处理的F1所对应。每个实例内的像素的类别概率分布与P1中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图面元中的类别概率分布
6.使用TCW(1)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧P1′,其下标1与正在处理的F1所对应。从P1′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到P1′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算。
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
8.上述步骤3-7以第一帧图像F1为例进行阐述,但对于后续帧,处理方法相同,即:不断利用下一帧RGB-D图像,按照步骤3将RGB-D图像融合到三维地图中,利用4-5所述的方法更新该帧所对应面元的类别概率分布,按照步骤6-7所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
9.每次获得最新的带有实例分割的三维地图后,根据每个面元的Instance和Class对地图进行可视化渲染。图3所示是根据每个面元的Instance进行渲染的结果,不同的实例以不同颜色相区分,各个颜色区域分别与各个物件对应,分别用1-9表示。本发明在传统SLAM的基础上,融入了实例信息,令使用者可以便捷地获取地图中所包含物体的种类以及数量。
Claims (4)
1.一种带有实例分割的SLAM方法,其特征在于:所述方法包括以下步骤:
(1)对ElasticFusion SLAM系统的数据结构进行扩充;ElasticFusion中地图的基础组成单位为面元,对面元增加两个属性:①类别概率分布数组Class,Class是一个长度为N的数组;②实例概率分布数组Instance,Instance是一个长度为M的数组;增加一个计数器以记录地图中现有的实例个数;ElasticFusion SLAM系统开始运行时会首先构建一个不包含任何面元的空地图,并负责将实例个数设置为0;
(2)利用彩色-深度(RGB-D)摄像头获取一帧RGB-D图像Fk,输入到扩充后的SLAM系统中、其中下标k代表当前帧的序号,初始帧的下标k=1,此后每到来一帧,k依次累加;
(3)利用ElasticFusion计算Fk对应的相机位姿TWC(k),TWC(k)表示从相机坐标系到世界坐标系的齐次变换矩阵;同时可以得到从世界坐标系到相机坐标系的齐次变换矩阵使用TWC(k)和相机内参,对Fk中每个像素进行坐标变换并将其融合到三维地图中,融合方式分为两种:
(3.1)若Fk中某一像素在三维地图中没有对应的面元,则在三维地图中增加一面元,其Class和Instance呈均匀分布;
(3.2)若Fk中某一像素在三维地图中已存在对应的面元,则维持地图中对应面元的Class和Instance值不变;
(5)使用TCW(k)和相机内参,将地图中的面元投影到相机的像素平面上,得到投影帧Pk,每个实例内的像素的类别概率分布与Pk中对应像素的类别概率分布相乘并归一化,用归一化后的类别概率分布更新地图中面元的类别概率分布;
(6)使用TCW(k)和相机内参,将更新后的地图中的面元投影到相机的像素平面上,得到投影帧Pk′,从Pk′中提取实例信息,包括以下步骤:
(6.1)使用argmax函数得到Pk′中每个像素对应的最大的实例概率;
(6.2)若最大的实例概率<0.3,判定它不属于任何实例;
(6.3)若最大的实例概率≥0.3,则该像素被归到最大实例概率对应的实例中,需要参与后续IOU的计算;
若IOUi中最大值<0.3,则在地图中增加一个实例,使实例个数变为NUM;更新IOUi,使得其中的IOUi[NUM]=0.7;
(8)不断利用下一帧RGB-D图像,按照步骤(3)将RGB-D图像融合到三维地图中,利用(4)-(5)所述的方法更新该帧所对应面元的类别概率分布,按照步骤(6)-(7)所述的方法更新该帧所对应面元的实例概率分布,从而获得最新的带有实例分割的三维地图。
2.根据权利要求1所述的方法,其特征在于,所述步骤(4)中的实例分割网络采用MaskR-CNN分割网络。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:根据每个面元的Instance和Class对地图进行可视化渲染。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910628634.4A CN110390724B (zh) | 2019-07-12 | 2019-07-12 | 一种带有实例分割的slam方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910628634.4A CN110390724B (zh) | 2019-07-12 | 2019-07-12 | 一种带有实例分割的slam方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390724A CN110390724A (zh) | 2019-10-29 |
CN110390724B true CN110390724B (zh) | 2023-06-02 |
Family
ID=68286579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910628634.4A Active CN110390724B (zh) | 2019-07-12 | 2019-07-12 | 一种带有实例分割的slam方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390724B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI725665B (zh) * | 2019-12-13 | 2021-04-21 | 宏達國際電子股份有限公司 | 影像處理系統及影像處理方法 |
US11107220B2 (en) | 2019-12-13 | 2021-08-31 | Htc Corporation | Image processing system and image processing method |
CN112967338B (zh) * | 2019-12-13 | 2024-05-31 | 宏达国际电子股份有限公司 | 影像处理系统及影像处理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CU22550A1 (es) * | 1997-08-22 | 1999-03-31 | Cnic Ct Nac Investigaciones | Sistema y método para la tomografía de la corriente eléctrica primaria del cerebro y del corazón |
FR2863080B1 (fr) * | 2003-11-27 | 2006-02-24 | Advestigo | Procede d'indexation et d'identification de documents multimedias |
CN109636905B (zh) * | 2018-12-07 | 2023-01-24 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN109816686A (zh) * | 2019-01-15 | 2019-05-28 | 山东大学 | 基于物体实例匹配的机器人语义slam方法、处理器及机器人 |
-
2019
- 2019-07-12 CN CN201910628634.4A patent/CN110390724B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110390724A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
CN110379020B (zh) | 一种基于生成对抗网络的激光点云上色方法和装置 | |
CN110390724B (zh) | 一种带有实例分割的slam方法 | |
CN109598794B (zh) | 三维gis动态模型的构建方法 | |
DE102017010210A1 (de) | Bild-Matting mittels tiefem Lernen | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
WO2018053952A1 (zh) | 一种基于场景样本库的影视图像深度提取方法 | |
CN110570457B (zh) | 一种基于流数据的三维物体检测与跟踪方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN108388882A (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
CN113284144B (zh) | 一种基于无人机的隧道检测方法及装置 | |
CN110570435A (zh) | 用于对车辆损伤图像进行损伤分割的方法及装置 | |
CN107978017A (zh) | 基于框线提取的室内结构快速建模方法 | |
CN115035260A (zh) | 一种室内移动机器人三维语义地图构建方法 | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN111914938B (zh) | 一种基于全卷积二分支网络的图像属性分类识别方法 | |
JP2023131117A (ja) | 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体 | |
CN114462486A (zh) | 图像处理模型的训练方法、图像处理方法及相关装置 | |
CN112215766B (zh) | 一种图像复原与图像增强相融合的图像去雾方法及其卷积网络 | |
RU2710659C1 (ru) | Совместная неконтролируемая сегментация объектов и подрисовка | |
CN109816710B (zh) | 一种双目视觉系统高精度且无拖影的视差计算方法 | |
CN114155273B (zh) | 一种结合历史轨迹信息的视频图像单目标跟踪方法 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN110796716B (zh) | 一种基于多重残差网络和正则化迁移学习的图像着色方法 | |
Motayyeb et al. | Enhancing contrast of images to improve geometric accuracy of a UAV photogrammetry project |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |