CN111179426A - 基于深度学习的机器人室内环境三维语义地图构建方法 - Google Patents

基于深度学习的机器人室内环境三维语义地图构建方法 Download PDF

Info

Publication number
CN111179426A
CN111179426A CN201911340905.2A CN201911340905A CN111179426A CN 111179426 A CN111179426 A CN 111179426A CN 201911340905 A CN201911340905 A CN 201911340905A CN 111179426 A CN111179426 A CN 111179426A
Authority
CN
China
Prior art keywords
key frame
image
frame
deep learning
semantic map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911340905.2A
Other languages
English (en)
Inventor
王永娟
徐少杰
曹雏清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911340905.2A priority Critical patent/CN111179426A/zh
Publication of CN111179426A publication Critical patent/CN111179426A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Abstract

本发明提出了一种基于深度学习的机器人室内环境三维语义地图构建方法,首先通过深度相机采集室内环境的RGB图像序列和深度图像序列;对采集的每一帧RGB图像进行ORB特征提取和匹配,并确定关键帧;利用提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T;用训练好的深度学习网络对确定的关键帧进行语义分割获得关键帧的按像素分类的图像;结合计算得到的变换矩阵T和关键帧对应的深度图像将分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。本发明可直接利用分割好的关键帧图像进行语义地图构建,无需将环境几何地图建立好后进行语义融合。

Description

基于深度学习的机器人室内环境三维语义地图构建方法
技术领域
本发明属于移动机器人视觉环境感知技术领域,特别是一种基于深度学习的机器人室内环境三维语义地图构建方法。
背景技术
家庭服务机器人一般有以下三个核心技术:环境感知、人机交互、运动控制。对环境的感知理解无疑是室内移动机器人执行任务的一项核心技术。传统的获取机器人周围环境信息的方法是通过2D激光SLAM(Simulntenous Localization And Mapping,同时定位和建图)技术建立室内环境地图,这种方法有很大的局限性。一来激光雷达建立的地图是二维的,缺少三维空间信息,在进行导航避障时只能躲避地图平面上的障碍物,无法躲避具有一定高度的障碍物;二来激光雷达获取的信息单一,只能获取环境中简单的几何信息,忽略了环境中丰富的语义信息,因此该方法建立的地图只能用来执行路径规划、导航、避障等低级任务。若要执行类似于“到客厅餐桌上取一个绿色杯子”这样的高级任务,环境的语义信息是必不可少的。
机器人感知周围环境需要一套强大的“视觉系统”。相比于激光雷达,相机无论从价格还是场景信息获取的丰富度都有着巨大的优势,也更适合充当机器人“眼睛”这一角色。近年来工业相机发展迅速,2010年微软更是推出了一款深度相机Kinect,它能同时获取RGB图像和深度图像,省去了计算深度的步骤,极大减少了图像的计算量,于是一批基于深度相机的视觉SLAM方法应运而生,如RGBD-SLAM、ORB-SLAM等,然而这些方法建立的地图都只包含了环境的三维几何信息,缺乏对环境的语义理解,机器人不能基于这种地图理解环境中“桌子”、“椅子”、“杯子”等信息。
文献Jing Li,Yanyu Liu,Junzheng Wang,Min Yan,Yanzhi Yao.3D SemanticMapping Based on Convolutional Neural Networks[C].Proceedings of the 37thChinese Control Conference,2018:9303-9308.提出了一种语义地图构建方法,该文方法首先将彩色图像和和深度图像采用三维重建算法将环境的3维地图构建出来,然后利用语义分割网络对彩色图像进行语义分割,最后利用语义融合算法将语义信息和3维地图信息融合来获取环境的语义地图。该方法需要先将环境几何地图构建出来然后分割彩色图像获取语义信息再然后进行语义信息与几何信息的融合才能得到环境的语义地图,需要较大的计算量,对计算机的计算能力要求较高,不利于部署到移动机器人上。中国专利CN104732587B公开了一种基于深度传感器的室内3D语义地图构建方提出的方法中需对采集到的每一帧彩色图像进行语义分割,然而这其中包含了大量的冗余图像,降低了建图效率。
发明内容
本发明的目的在于提供一种基于深度学习的机器人室内环境三维语义地图构建方法,以实现家庭服务机器人对室内环境的感知。
实现本发明目的的技术解决方案为:
一种基于深度学习的机器人室内环境三维语义地图构建方法,包括以下步骤:
步骤1、通过深度相机采集室内环境的RGB图像序列和深度图像序列;
步骤2、对采集的每一帧RGB图像进行ORB特征提取和匹配,并确定关键帧;
步骤3、利用步骤2中提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T;
步骤4:用训练好的深度学习网络对步骤2中确定的关键帧进行语义分割获得关键帧的按像素分类的图像;
步骤5:结合步骤3中计算得到的变换矩阵T和关键帧对应的深度图像将步骤4分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。
本发明与现有技术相比,其显著优点是:
仅对关键帧的彩色图像进行语义分割并且直接利用语义分割好的关键帧图像结合获取关键帧时的相机位姿以及关键帧彩色图像对应的深度图像进行点云拼接就可获得环境的语义地图,减少了需要处理的数据量,简化了语义地图的构建流程,提升了建图效率。
附图说明
图1为本发明方法的流程图。
图2为像素坐标系示意图。
图3为相机坐标系与世界坐标系转换图。
图4为本发明在客厅环境下实验结果示意图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的介绍。
结合图1,本发明的一种基于深度学习的机器人室内环境三维语义地图构建方法,包括以下步骤:
步骤1:通过深度相机采集室内环境的RGB图像序列和深度图像序列。
具体实施步骤为:用户通过手持深度相机或将深度相机搭载到机器人上在室内对环境进行连续的拍摄,获得连续的RGB图像序列和深度图像序列。
步骤2:对采集的每一帧RGB图像进行ORB特征提取和匹配,并确定关键帧。
具体实施步骤为:
步骤21:检测每一帧图像的Oriented FAST角点位置,根据角点位置计算BRIEF描述子;
步骤22:使用Hamming距离对两幅图像中的BRIEF描述子进行匹配,当两个描述子的相似度达到80%时则确定这两个描述子是匹配的;
步骤23:匹配点对筛选,计算出所有匹配点对中的最小距离,当描述子之间的距离大于两倍最小距离时,则认为出现错误匹配,将误匹配点对剔除。
步骤24:关键帧选择,将第一帧传入的图像作为第一个关键帧,下一关键帧确定策略为①下一关键帧与上一关键帧的重复区域低于80%;②下一关键帧拥有的匹配点数在150对以上;③下一关键帧距上一关键帧至少经过了30帧;④下一关键帧距上一关键帧不得超过60帧;同时满足以上四个条件的图像即可认为是关键帧。
步骤3:利用步骤2中提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T。
具体实施步骤为:
假设已经对两幅RGB-D图像进行了匹配:Q={q1,···,qn},Q'={q'1,···,q'n},其中Q与Q'是两幅图像中匹配点的集合,qi与q'i是两幅图像中的匹配点对。要求的位姿变换矩阵
Figure BDA0002332230630000031
其中R是旋转矩阵是一个3×3矩阵,t是平移矩阵是一个3×1的矩阵。对任意的匹配点对qi与q'i有以下的对应关系:qi=Rq'i+t+ei,其中ei为对应的误差项,这个问题可以用迭代最近点(Iterative Closest Point,ICP)求解,将上述公式变换成ei=qi-(Rq'i+t)。为使误差最小,构建最小二乘问题:
Figure BDA0002332230630000032
将该问题的解拼接即为所求的位姿变换矩阵T。
步骤4:用训练好的深度学习网络对步骤2中确定的关键帧进行语义分割获得关键帧的按像素分类的图像。
具体实施步骤为:
本发明所用深度学习网络为SegNet语义分割网络。用注重室内场景的NYU数据集训练SegNet网络,训练环境为Ubuntu16.04操作系统+NVIDIA GTX 1060显卡+Caffe,训练参数设置基本学习率设为0.01,学习策略设为“Step”,梯度更新设为1.0,权重衰减设为0.0005,最大迭代次数设为40000。训练好之后将步骤2中确定的关键帧作为网络的输入,输出图像即为关键帧的按像素分类的图像。
步骤5:结合步骤3中计算得到的变换矩阵T和关键帧对应的深度图像将步骤4分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。
具体实施步骤为:
如图2所示,在图像的像素坐标系下有一点
Figure BDA0002332230630000041
该点对应的像机坐标系下的坐标为
Figure BDA0002332230630000042
这两点的转换公式为
Figure BDA0002332230630000043
其中Puv为P'的齐次坐标
Figure BDA0002332230630000044
Z为像素点深度,K为相机的内参数矩阵
Figure BDA0002332230630000045
由上述公式可以得到像素点P'对应的相机坐标系下的坐标P。接下来利用步骤3中求得的变换矩阵T将相机坐标系坐标P变换到世界坐标系(第一帧图像的相机坐标系)坐标Pw(如图3所示),第k+1帧图像相机坐标到世界坐标的变换公式为
Figure BDA0002332230630000046
式中
Figure BDA0002332230630000047
(Tk k+1为第k帧到第k+1帧之间的变换矩阵),需要注意的是这里的T为4×4的矩阵,故将Pw和P添1增加一维做齐次处理。至此就得到了像素坐标到世界坐标的变换,将所有关键帧按上述变换变换到世界坐标系下,将关键帧中所有像素点投影到对应的三维空间点中拼接起来,如此就得到了包含环境语义信息的语义地图(图4为本发明在在客厅环境下实验结果示意图)。
本发明通过计算关键帧的位姿变换矩阵直接将利用语义分割网络分割好的关键帧彩色图像结合深度图像信息进行点云拼接,就可获得环境的语义地图,省略了技术文件1中的语义融合过程且避免了技术文件2中对所有采集的RGB图像进行语义分割造成的计算资源浪费,有利于增加建图效率。

Claims (5)

1.一种基于深度学习的机器人室内环境三维语义地图构建方法,其特征在于,包括以下步骤:
步骤1、通过深度相机采集室内环境的RGB图像序列和深度图像序列;
步骤2、对采集的每一帧RGB图像进行ORB特征提取和匹配,并确定关键帧;
步骤3、利用步骤2中提取和匹配好的特征点对通过ICP算法计算相邻两帧图像间的位姿变换矩阵T;
步骤4:用训练好的深度学习网络对步骤2中确定的关键帧进行语义分割获得关键帧的按像素分类的图像;
步骤5:结合步骤3中计算得到的变换矩阵T和关键帧对应的深度图像将步骤4分割好的关键帧图像进行点云拼接得到可供机器人理解的语义地图。
2.根据权利要求1所述的基于深度学习的机器人室内环境三维语义地图构建方法,其特征在于,步骤2确定关键帧的具体实施步骤为:
步骤21:检测每一帧图像的Oriented FAST角点位置,根据角点位置计算BRIEF描述子;
步骤22:使用Hamming距离对两幅图像中的BRIEF描述子进行匹配,当两个描述子的相似度达到设定值时则确定这两个描述子是匹配的;
步骤23:匹配点对筛选,计算出所有匹配点对中的最小距离,当描述子之间的距离大于两倍最小距离时,则认为出现错误匹配,将误匹配点对剔除;
步骤24:关键帧选择,将第一帧传入的图像作为第一个关键帧,下一关键帧确定策略为:下一关键帧与上一关键帧的重复区域低于设定值;下一关键帧拥有的匹配点数在设定对以上;下一关键帧距上一关键帧的帧数上下限;满足以上条件的图像即可认为是关键帧。
3.根据权利要求1所述的基于深度学习的机器人室内环境三维语义地图构建方法,其特征在于,步骤3计算相邻两帧图像间的位姿变换矩阵T,具体实施步骤为:
设已经对两幅RGB-D图像进行了匹配:Q={q1,···,qn},Q'={q′1,···,q′n},其中Q与Q'是两幅图像中匹配点的集合,qi与q′i是两幅图像中的匹配点对;
对任意的匹配点对qi与q′i有以下的对应关系:qi=Rq′i+t+ei
其中ei为对应的误差项;R是姿变换矩阵
Figure FDA0002332230620000021
中的旋转矩阵;t是姿变换矩阵T中的平移矩阵;
将上述公式变换成ei=qi-(Rq′i+t),构建最小二乘问题:
Figure FDA0002332230620000022
其中n是匹配点对数;
将该问题的解拼接即为所求的位姿变换矩阵T。
4.根据权利要求1所述的基于深度学习的机器人室内环境三维语义地图构建方法,其特征在于,步骤4深度学习网络采用SegNet语义分割网络。
5.根据权利要求1所述的基于深度学习的机器人室内环境三维语义地图构建方法,其特征在于,步骤5获得可供机器人理解的语义地图,具体实施步骤为:
在图像的像素坐标系下有一点
Figure FDA0002332230620000023
该点对应的像机坐标系下的坐标为
Figure FDA0002332230620000024
这两点的转换公式为
Figure FDA0002332230620000025
其中Puv为P'的齐次坐标;Z为像素点深度,K为相机的内参数矩阵;得到像素点P'对应的相机坐标系下的坐标P;
第k+1帧图像相机坐标到世界坐标的变换公式为
Figure FDA0002332230620000026
式中
Figure FDA0002332230620000027
Figure FDA0002332230620000028
为第k帧到第k+1帧之间的变换矩阵;将Pw和P添1增加一维做齐次处理;得到了像素坐标到世界坐标的变换,将所有关键帧按上述变换变换到世界坐标系下,将关键帧中所有像素点投影到对应的三维空间点中拼接起来,如此就得到了包含环境语义信息的语义地图。
CN201911340905.2A 2019-12-23 2019-12-23 基于深度学习的机器人室内环境三维语义地图构建方法 Withdrawn CN111179426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340905.2A CN111179426A (zh) 2019-12-23 2019-12-23 基于深度学习的机器人室内环境三维语义地图构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340905.2A CN111179426A (zh) 2019-12-23 2019-12-23 基于深度学习的机器人室内环境三维语义地图构建方法

Publications (1)

Publication Number Publication Date
CN111179426A true CN111179426A (zh) 2020-05-19

Family

ID=70650286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911340905.2A Withdrawn CN111179426A (zh) 2019-12-23 2019-12-23 基于深度学习的机器人室内环境三维语义地图构建方法

Country Status (1)

Country Link
CN (1) CN111179426A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111665842A (zh) * 2020-06-09 2020-09-15 山东大学 一种基于语义信息融合的室内slam建图方法及系统
CN111798475A (zh) * 2020-05-29 2020-10-20 浙江工业大学 一种基于点云深度学习的室内环境3d语义地图构建方法
CN111797938A (zh) * 2020-07-15 2020-10-20 燕山大学 用于扫地机器人的语义信息与vslam融合方法
CN112347550A (zh) * 2020-12-07 2021-02-09 厦门大学 耦合式室内三维语义建图及建模方法
CN112396696A (zh) * 2020-11-10 2021-02-23 中山大学 一种基于特征点检测与分割的语义地图增量更新方法
CN112560648A (zh) * 2020-12-09 2021-03-26 长安大学 一种基于rgb-d图像的slam方法
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法
CN113076615A (zh) * 2021-04-25 2021-07-06 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113177984A (zh) * 2021-06-30 2021-07-27 湖北亿咖通科技有限公司 基于稀疏直接法的语义要素测距方法、装置和电子设备
CN113469886A (zh) * 2021-07-23 2021-10-01 成都理工大学 一种基于三维重构的图像拼接方法
CN113916245A (zh) * 2021-10-09 2022-01-11 上海大学 一种基于实例分割和vslam的语义地图构建方法
WO2022036661A1 (en) * 2020-08-21 2022-02-24 Huawei Technologies Co., Ltd. Semantic guidance for 3d reconstruction

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798475A (zh) * 2020-05-29 2020-10-20 浙江工业大学 一种基于点云深度学习的室内环境3d语义地图构建方法
CN111798475B (zh) * 2020-05-29 2024-03-22 浙江工业大学 一种基于点云深度学习的室内环境3d语义地图构建方法
CN111665842A (zh) * 2020-06-09 2020-09-15 山东大学 一种基于语义信息融合的室内slam建图方法及系统
CN111797938A (zh) * 2020-07-15 2020-10-20 燕山大学 用于扫地机器人的语义信息与vslam融合方法
CN111797938B (zh) * 2020-07-15 2022-03-15 燕山大学 用于扫地机器人的语义信息与vslam融合方法
WO2022036661A1 (en) * 2020-08-21 2022-02-24 Huawei Technologies Co., Ltd. Semantic guidance for 3d reconstruction
CN112396696A (zh) * 2020-11-10 2021-02-23 中山大学 一种基于特征点检测与分割的语义地图增量更新方法
CN112396696B (zh) * 2020-11-10 2023-08-22 中山大学 一种基于特征点检测与分割的语义地图增量更新方法
CN112347550B (zh) * 2020-12-07 2022-07-15 厦门大学 耦合式室内三维语义建图及建模方法
CN112347550A (zh) * 2020-12-07 2021-02-09 厦门大学 耦合式室内三维语义建图及建模方法
CN112560648A (zh) * 2020-12-09 2021-03-26 长安大学 一种基于rgb-d图像的slam方法
CN112560648B (zh) * 2020-12-09 2023-04-07 长安大学 一种基于rgb-d图像的slam方法
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法
CN112873211B (zh) * 2021-02-24 2022-03-11 清华大学 一种机器人人机交互方法
CN113076615A (zh) * 2021-04-25 2021-07-06 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113177984A (zh) * 2021-06-30 2021-07-27 湖北亿咖通科技有限公司 基于稀疏直接法的语义要素测距方法、装置和电子设备
CN113177984B (zh) * 2021-06-30 2021-09-17 湖北亿咖通科技有限公司 基于稀疏直接法的语义要素测距方法、装置和电子设备
CN113469886A (zh) * 2021-07-23 2021-10-01 成都理工大学 一种基于三维重构的图像拼接方法
CN113916245A (zh) * 2021-10-09 2022-01-11 上海大学 一种基于实例分割和vslam的语义地图构建方法

Similar Documents

Publication Publication Date Title
CN111179426A (zh) 基于深度学习的机器人室内环境三维语义地图构建方法
US20220262039A1 (en) Positioning method, electronic device, and storage medium
CN111291885B (zh) 近红外图像的生成方法、生成网络的训练方法和装置
CN106251399B (zh) 一种基于lsd-slam的实景三维重建方法及实施装置
CN104317391B (zh) 一种基于立体视觉的三维手掌姿态识别交互方法和系统
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN102999910B (zh) 一种图像深度计算方法
CN110827398A (zh) 基于深度神经网络的室内三维点云自动语义分割算法
CN110276768B (zh) 图像分割方法、图像分割装置、图像分割设备及介质
CN110717494A (zh) Android移动端室内场景三维重建及语义分割方法
WO2022262160A1 (zh) 传感器标定方法及装置、电子设备和存储介质
CN110827295A (zh) 基于体素模型与颜色信息耦合的三维语义分割方法
WO2021184359A1 (zh) 目标跟随方法、目标跟随装置、可移动设备和存储介质
CN112150551A (zh) 物体位姿的获取方法、装置和电子设备
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN104656893A (zh) 一种信息物理空间的远程交互式操控系统及方法
CN110598139A (zh) 基于5G云计算的Web浏览器增强现实实时定位的方法
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN114612938A (zh) 基于多视角三维骨骼信息融合的动态手势识别方法
CN102708570B (zh) 获取深度图的方法及装置
WO2021217403A1 (zh) 可移动平台的控制方法、装置、设备及存储介质
CN108921852B (zh) 基于视差与平面拟合的双分支室外非结构化地形分割网络
CN112561995B (zh) 一种实时高效的6d姿态估计网络、构建方法及估计方法
CN114758205A (zh) 用于3d人体姿态估计的多视角特征融合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519

WW01 Invention patent application withdrawn after publication