CN112419496A - 一种基于深度学习的语义地图构建方法 - Google Patents
一种基于深度学习的语义地图构建方法 Download PDFInfo
- Publication number
- CN112419496A CN112419496A CN202011165689.5A CN202011165689A CN112419496A CN 112419496 A CN112419496 A CN 112419496A CN 202011165689 A CN202011165689 A CN 202011165689A CN 112419496 A CN112419496 A CN 112419496A
- Authority
- CN
- China
- Prior art keywords
- image
- dimensional
- pose
- semantic
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000009616 inductively coupled plasma Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的语义地图构建方法,具体为:步骤1:对安装在机器人上方的深度摄像头进行标定,通过RGBD图像配准计算位姿,根据输入点云利用ICP算法求解位姿;步骤2:在计算出位姿后,同时深度相机实时采集周围环境图像信息,使用openGL将当前帧的点云和已重建的部分进行融合,进行三维地图的建立;步骤3:将RGBD相机获取到的当前时刻图像和前一个关键帧的特征进行匹配,判断当前时刻图像是否为关键帧;步骤4:将步骤2中建立的三维地图作为输入,和步骤3中二维图像语义分割结果送入Elastic fusion模型进行三维语义分割地图的重建。本方法解决了现有技术中的SLAM建图方法误差大的问题。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于深度学习的语义地图构建方法。
背景技术
随着机器人、计算机、传感器、自动化控制、人工智能等技术的高速发展,自主移动机器人构建语义地图的技术已经成为科技发展最前沿的领域之一。
传统SLAM技术中,移动机器人常用的场景感知传感器有光学类传感器、雷达类传感器两大类。雷达类传感器体积较大且价格昂贵,易受烟尘的影响发生散射,影响识别精度,对场景认知能力局限于轮廓特征,不能充分利用场景丰富的语义特征。相反,光学类传感器体积小、重量轻、性价比高,能够充分利用场景丰富的语义特征,是理想的识别媒介。
但随着视觉信息的越丰富,识别的场景越来越复杂,场景中图像的全局和局部特征相互很杂,再加上运动过程中需要同时完成图像处理,实时性要求高,给传统的室内精准导航和建图任务带来了挑战。深度学习的出现为图像的描述提供了新的思路,应用深度学习对建图,环境感知算法的改进研究,利用语义信息提高SLAM的精度,鲁棒性。目前,国内在这方面尚无成熟技术。
发明内容
本发明的目的是提供一种基于深度学习的语义地图构建方法,解决了现有技术中的SLAM建图方法误差大的问题。
本发明所采用的技术方案是,一种基于深度学习的语义地图构建方法,具体包括如下步骤:
步骤1:对安装在机器人上方的深度摄像头进行标定,通过RGBD图像配准计算位姿,根据输入点云利用ICP算法求解位姿;
步骤2:在步骤1计算出位姿后,同时深度相机实时采集周围环境图像信息,使用openGL将当前帧的点云和已重建的部分进行融合,进行三维地图的建立;
步骤3:将RGBD相机获取到的当前时刻图像和前一个关键帧的特征进行匹配,判断当前时刻图像是否为关键帧;
假设不是关键帧,则查找新的图片,确定新的关键帧;
假设是关键帧,则将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取,获得实时图像的二维语义信息,再进行闭环检测,得到闭环结果;
步骤4:将步骤2中建立的三维地图作为输入,和步骤3中二维图像语义分割结果送入Elastic fusion模型进行三维语义分割地图的重建。
本发明的特征还在于,
步骤1中,根据输入点云利用ICP算法求解位姿的具体过程如下;
步骤1.1:对RGBD深度相机获取的两幅深度图像做3层抽样,再对于抽样后的两幅深度图像做滤波,点云配准以coarse-to-fine的方式进行迭代;
步骤1.2:在给定深度图像内参情况下,通过原始未抽样的深度图像计算点的三维点云坐标,用于点云的配准和融合,对于滤波后的两幅深度图像也计算三维点云坐标,用于计算法向量;
步骤1.3:根据步骤1.2中求得的两幅深度图像点云坐标,通过投影算法计算一幅图像在另一幅图像中的投影像素坐标;
步骤1.4:根据步骤1.3中的计算的匹配点,再计算匹配点的极小化点到平面距离计算位姿,使得目标函数误差小于设定的最小值时,或者到达设置的迭代次数停止迭代,否则进入步骤1.3。
步骤1.3中,投影像素坐标函数表达式如下:
k(ud,vd,1)=KTjipi (1)
其中,k(ud,vd,1):投影像素坐标函数,
pi:深度图像i中点的三维坐标,
Tji:从深度图像i到深度图像j的位姿,
K:相机内参数,
(ud,vd):pi在深度图像j中的投影像素坐标。
步骤1.4中,极小化点到平面距离计算位姿算法流程如下:
(1)设置目标函数如下:
上式表达式中旋转矩阵R和平移矩阵t是待求解的位姿,R与t可通过以下公式来表示:
t=[tx,ty,tz]T (4)
其中α、β、γ分别表示沿x、y、z轴的旋转角度,在每次迭代时实际是值很小的R的变化值ΔR和t的变化值Δt,pi和qi分别是原始点云中的一点和目标点云中的一点,ni指目标点的法向量;
(2)将R线性化,当相邻两帧之间位姿变化较小时,有以下近似:
sin(θ)=θ,cos(θ)=1 (5)
(3)在三个方向上R的旋转角为r=(α,β,γ)对于
Rpi+t≈pi+r×pi+t,并且r×pi·ni=r·(pi×ni),由以上近似,目标函数写为:
(4)以上目标函数对6个维度位姿参数求导并且令导数为0,得到Ax+b=0,其中:A的表达式为:
b的表达式为:
未知参量x表达式为:
x=(α,β,γ,tx,ty,tz) (9)
通过计算求解Ax+b=0就能够求出R与t,即计算出的位姿矩阵。
步骤3中,将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取的过程具体如下:
(1)通过融合不同区域的上下文信息并整合不同区域的上下文信息,构建金字塔汇集模块(Pyramid pooling module,PPM),赋予模型分析全局先验知识的能力,使得模型具有理解全局上下文信息的能力;
为了充分利用PSP-Net编码器部分包含的多尺度特征,在PSP-Net中增加了多条自底向上的路径,首先,在自底向上的路径和跳层连接的作用下,将编码器中各层的特征逐步整合,得到具有多尺度语义信息的特征,然后,该特征被发送到解码器用于下一个卷积操作;
(2)改进的PSP-Net网络的编码网络如下算法表达:
fn=Cn(fn-1)=Cn(Cn-1(...C1(I))) (10)
其中:I表示输入图片;Cn表示第n个卷积模块由卷积层和池化层组成;fn表示第n层的特征图;
(3)将深层特征图代入浅层特征图中的融合过程如下数学表达式阐述:
f'n=fn,f'n-1=Gn(f'n,fn-1),...f'n-k=Gn-k(f'n-k+1,fn-k) (11)
其中fn-k为第n-k层的特征图,0<k<n,当k越趋近于n时,表示的特征图便越接近网络的浅层,即特征图的分辨率越来越高,所包含的细节信息也越来越多;f'n-k表示融合后的特征图;Gn-k表示将特征图fn-k和特征图f'n-k+1融合在一起;
(4)将得到的多层级的特征图融合在一起的过程如下数学表达式阐述:
D={Pn-k(f'n-k),...Pn(f'n)} (12)
其中P是对特征图的细化操作;D表示对所有的特征图做融合操作得到最后的二维图像语义信息。
本发明的有益效果是:本发明一种基于深度学习的语义地图构建方法,依据移动机器人的视觉SLAM原理,搭建移动机器人软硬件平台,通过RGBD图像配准计算位姿,根据输入点云利用ICP算法求解位姿,使用openGL将当前帧的点云和已重建的部分进行融合,进行三维地图的构建,通过判断关键帧的方式,利用改进的PSP-Net模型对场景图像进行语义特征的提取,最后将图像语义特征信息与三维重建算法融合得到全局语义分割地图。本发明一种基于深度学习的语义地图构建方法能够应用视觉快速、准确地构建地图,使得移动机器人的自主导航更加精确。
附图说明
图1是本发明一种基于深度学习的语义地图构建方法的流程图;
图2是本发明方法中点到平面距离示意图;
图3是本发明方法中基于深度学习的改进的PSP-Net语义分割模型的示意图;
图4是本发明方法中通过RGBD传感器采集到的图像包括RGB二维图像以及深度图像。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度学习的语义地图构建方法,如图1所示,具体包括如下步骤:
步骤1:对安装在机器人上方的深度摄像头进行标定,通过RGBD图像配准计算位姿,根据输入点云利用ICP算法求解位姿;
步骤1中,根据输入点云利用ICP算法求解位姿的具体过程如下;
步骤1.1:对RGBD深度相机获取的两幅深度图像做3层抽样,再对于抽样后的两幅深度图像做滤波,点云配准以coarse-to-fine的方式进行迭代;
步骤1.2:在给定深度图像内参情况下,通过原始未抽样的深度图像计算点的三维点云坐标,用于点云的配准和融合,对于滤波后的两幅深度图像也计算三维点云坐标,用于计算法向量;
步骤1.3:根据步骤1.2中求得的两幅深度图像点云坐标,通过投影算法计算一幅图像在另一幅图像中的投影像素坐标;
如图2所示的点到平面距离示意图,投影法计算匹配点,由于两帧图像间位姿变换比较小,采用投影算法计算匹配点,投影算法计算匹配点比基于kd-tree的匹配算法速度快,对于一幅深度图像三维点坐标pi,可以计算在另一幅图像中的投影像素坐标,投影像素坐标函数表达式如下:
k(ud,vd,1)=KTjipi (1)
其中,k(ud,vd,1):投影像素坐标函数,
pi:深度图像i中点的三维坐标,
Tji:从深度图像i到深度图像j的位姿,
K:相机内参数,
(ud,vd):pi在深度图像j中的投影像素坐标;
步骤1.4:根据步骤1.3中的计算的匹配点,再计算匹配点的极小化点到平面距离计算位姿,使得目标函数误差小于设定的最小值时,或者到达设置的迭代次数停止迭代,否则进入步骤1.3;
步骤1.4中,极小化点到平面距离计算位姿算法流程如下:
(1)设置目标函数如下:
上式表达式中旋转矩阵R和平移矩阵t是待求解的位姿,R与t可通过以下公式来表示:
t=[tx,ty,tz]T (4)
其中α、β、γ分别表示沿x、y、z轴的旋转角度,在每次迭代时实际是值很小的R的变化值ΔR和t的变化值Δt,pi和qi分别是原始点云中的一点和目标点云中的一点,ni指目标点的法向量;
(2)由于旋转矩阵R是非线性的,从而目标函数也是非线性,这里将R线性化,当相邻两帧之间位姿变化较小时,有以下近似:
sin(θ)=θ,cos(θ)=1 (5)
(3)在三个方向上R的旋转角为r=(α,β,γ)对于Rpi+t≈pi+r×pi+t,并且r×pi·ni=r·(pi×ni),由以上近似,目标函数写为:
(4)以上目标函数对6个维度位姿参数求导并且令导数为0,得到Ax+b=0,其中:A的表达式为:
b的表达式为:
未知参量x表达式为:
x=(α,β,γ,tx,ty,tz) (9)
通过计算求解Ax+b=0就能够求出R与t,即计算出的位姿矩阵。
步骤2:在步骤1计算出位姿矩阵的R和t后,同时深度相机实时采集周围环境图像信息,使用openGL将当前帧的点云和已重建的部分进行融合,进行三维地图的建立;
步骤3:将RGBD相机获取到的当前时刻图像和前一个关键帧的特征进行匹配,判断当前时刻图像是否为关键帧;
假设不是关键帧,则查找新的图片,确定新的关键帧;
假设是关键帧,则将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取,获得实时图像的二维语义信息,再进行闭环检测,得到闭环结果;
步骤3中,将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取的过程具体如下:
如图3所示,基于深度学习的改进的PSP-Net语义分割模型。模型分为编码与解码两个部分,图中的f1、f2、f3、f4和f5分别是编码网络中输入图像的1/2、1/4、1/8、1/16和1/32尺寸的特征图。在改进模型中,使用1/8、1/16和1/32大小的特征图将特征与解码网络中的特定层融合,然后进行金字塔池化,最终再输出语义分割结果。
(1)通过融合不同区域的上下文信息并整合不同区域的上下文信息,构建金字塔汇集模块(Pyramid pooling module,PPM),赋予模型分析全局先验知识的能力,使得模型具有理解全局上下文信息的能力;
为了充分利用PSP-Net编码器部分包含的多尺度特征,在PSP-Net中增加了多条自底向上的路径,首先,在自底向上的路径和跳层连接的作用下,将编码器中各层的特征逐步整合,得到具有多尺度语义信息的特征,然后,该特征被发送到解码器用于下一个卷积操作;
(2)改进的PSP-Net网络的编码网络如下算法表达:
fn=Cn(fn-1)=Cn(Cn-1(...C1(I))) (10)
其中:I表示输入图片;Cn表示第n个卷积模块由卷积层和池化层组成;fn表示第n层的特征图;
(3)将深层特征图代入浅层特征图中的融合过程如下数学表达式阐述:
f'n=fn,f'n-1=Gn(f'n,fn-1),...f'n-k=Gn-k(f'n-k+1,fn-k) (11)
其中fn-k为第n-k层的特征图,0<k<n,当k越趋近于n时,表示的特征图便越接近网络的浅层,即特征图的分辨率越来越高,所包含的细节信息也越来越多;f'n-k表示融合后的特征图;Gn-k表示将特征图fn-k和特征图f'n-k+1融合在一起,从式(11)可以看出深层的特征信息一级一级的不断地与浅层特征融合,丰富了浅层的特征信息。
(4)将得到的多层级的特征图融合在一起的过程如下数学表达式阐述:
D={Pn-k(f'n-k),...Pn(f'n)} (12)
其中P是对特征图的细化操作;D表示对所有的特征图做融合操作得到最后的二维图像语义信息。
步骤4:将步骤2中建立的三维地图作为输入,和步骤3中二维图像语义分割结果送入Elastic fusion模型进行三维语义分割地图的重建。
如图4所示,通过RGBD传感器采集到的图像包括RGB二维图像以及深度图像。对于RGB图像,经过改进的PSP-Net模型得到精确的二维图像分割图。然后将二维分割图像和深度图像送入Elastic fusion模型进行三维语义地图重建。
Claims (5)
1.一种基于深度学习的语义地图构建方法,其特征在于,具体包括如下步骤:
步骤1:对安装在机器人上方的深度摄像头进行标定,通过RGBD图像配准计算位姿,根据输入点云利用ICP算法求解位姿;
步骤2:在步骤1计算出位姿后,同时深度相机实时采集周围环境图像信息,使用openGL将当前帧的点云和已重建的部分进行融合,进行三维地图的建立;
步骤3:将RGBD相机获取到的当前时刻图像和前一个关键帧的特征进行匹配,判断当前时刻图像是否为关键帧;
假设不是关键帧,则查找新的图片,确定新的关键帧;
假设是关键帧,则将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取,获得实时图像的二维语义信息,再进行闭环检测,得到闭环结果;
步骤4:将步骤2中建立的三维地图作为输入,和步骤3中二维图像语义分割结果送入Elastic fusion模型进行三维语义分割地图的重建。
2.根据权利要求1所述的一种基于深度学习的语义地图构建方法,其特征在于,步骤1中,根据输入点云利用ICP算法求解位姿的具体过程如下;
步骤1.1:对RGBD深度相机获取的两幅深度图像做3层抽样,再对于抽样后的两幅深度图像做滤波,点云配准以coarse-to-fine的方式进行迭代;
步骤1.2:在给定深度图像内参情况下,通过原始未抽样的深度图像计算点的三维点云坐标,用于点云的配准和融合,对于滤波后的两幅深度图像也计算三维点云坐标,用于计算法向量;
步骤1.3:根据步骤1.2中求得的两幅深度图像点云坐标,通过投影算法计算一幅图像在另一幅图像中的投影像素坐标;
步骤1.4:根据步骤1.3中的计算的匹配点,再计算匹配点的极小化点到平面距离计算位姿,使得目标函数误差小于设定的最小值时,或者到达设置的迭代次数停止迭代,否则进入步骤1.3。
3.根据权利要求2所述的一种基于深度学习的语义地图构建方法,其特征在于,步骤1.3中,投影像素坐标函数表达式如下:
k(ud,vd,1)=KTjipi (1)
其中,k(ud,vd,1):投影像素坐标函数,
pi:深度图像i中点的三维坐标,
Tji:从深度图像i到深度图像j的位姿,
K:相机内参数,
(ud,vd):pi在深度图像j中的投影像素坐标。
4.根据权利要求2所述的一种基于深度学习的语义地图构建方法,其特征在于,步骤1.4中,极小化点到平面距离计算位姿算法流程如下:
(1)设置目标函数如下:
上式表达式中旋转矩阵R和平移矩阵t是待求解的位姿,R与t可通过以下公式来表示:
t=[tx,ty,tz]T (4)
其中α、β、γ分别表示沿x、y、z轴的旋转角度,在每次迭代时实际是值很小的R的变化值ΔR和t的变化值Δt,pi和qi分别是原始点云中的一点和目标点云中的一点,ni指目标点的法向量;
(2)将R线性化,当相邻两帧之间位姿变化较小时,有以下近似:
sin(θ)=θ,cos(θ)=1 (5)
(3)在三个方向上R的旋转角为r=(α,β,γ)对于
Rpi+t≈pi+r×pi+t,并且r×pi·ni=r·(pi×ni),由以上近似,目标函数写为:
(4)以上目标函数对6个维度位姿参数求导并且令导数为0,得到Ax+b=0,其中:A的表达式为:
b的表达式为:
未知参量x表达式为:
x=(α,β,γ,tx,ty,tz) (9)
通过计算求解Ax+b=0就能够求出R与t,即计算出的位姿矩阵。
5.根据权利要求3所述的一种基于深度学习的语义地图构建方法,其特征在于,步骤3中,将关键帧送入改进的PSP-Net模型中进行二维语义信息的提取的过程具体如下:
(1)通过融合不同区域的上下文信息并整合不同区域的上下文信息,构建金字塔汇集模块(Pyramid pooling module,PPM),赋予模型分析全局先验知识的能力,使得模型具有理解全局上下文信息的能力;
为了充分利用PSP-Net编码器部分包含的多尺度特征,在PSP-Net中增加了多条自底向上的路径,首先,在自底向上的路径和跳层连接的作用下,将编码器中各层的特征逐步整合,得到具有多尺度语义信息的特征,然后,该特征被发送到解码器用于下一个卷积操作;
(2)改进的PSP-Net网络的编码网络如下算法表达:
fn=Cn(fn-1)=Cn(Cn-1(...C1(I))) (10)
其中:I表示输入图片;Cn表示第n个卷积模块由卷积层和池化层组成;fn表示第n层的特征图;
(3)将深层特征图代入浅层特征图中的融合过程如下数学表达式阐述:
f′n=fn,f′n-1=Gn(f′n,fn-1),...f′n-k=Gn-k(f′n-k+1,fn-k) (11)
其中fn-k为第n-k层的特征图,0<k<n,当k越趋近于n时,表示的特征图便越接近网络的浅层,即特征图的分辨率越来越高,所包含的细节信息也越来越多;f′n-k表示融合后的特征图;Gn-k表示将特征图fn-k和特征图f′n-k+1融合在一起;
(4)将得到的多层级的特征图融合在一起的过程如下数学表达式阐述:
D={Pn-k(f′n-k),...Pn(f′n)} (12)
其中P是对特征图的细化操作;D表示对所有的特征图做融合操作得到最后的二维图像语义信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165689.5A CN112419496A (zh) | 2020-10-27 | 2020-10-27 | 一种基于深度学习的语义地图构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165689.5A CN112419496A (zh) | 2020-10-27 | 2020-10-27 | 一种基于深度学习的语义地图构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112419496A true CN112419496A (zh) | 2021-02-26 |
Family
ID=74840686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011165689.5A Pending CN112419496A (zh) | 2020-10-27 | 2020-10-27 | 一种基于深度学习的语义地图构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419496A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778096A (zh) * | 2021-09-15 | 2021-12-10 | 上海景吾智能科技有限公司 | 室内机器人的定位与模型构建方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228940A1 (en) * | 2016-02-09 | 2017-08-10 | Intel Corporation | Recognition-based object segmentation of a 3-dimensional image |
CN110728751A (zh) * | 2019-06-19 | 2020-01-24 | 武汉科技大学 | 一种室内3d点云语义地图的构建方法 |
CN111179426A (zh) * | 2019-12-23 | 2020-05-19 | 南京理工大学 | 基于深度学习的机器人室内环境三维语义地图构建方法 |
-
2020
- 2020-10-27 CN CN202011165689.5A patent/CN112419496A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228940A1 (en) * | 2016-02-09 | 2017-08-10 | Intel Corporation | Recognition-based object segmentation of a 3-dimensional image |
CN110728751A (zh) * | 2019-06-19 | 2020-01-24 | 武汉科技大学 | 一种室内3d点云语义地图的构建方法 |
CN111179426A (zh) * | 2019-12-23 | 2020-05-19 | 南京理工大学 | 基于深度学习的机器人室内环境三维语义地图构建方法 |
Non-Patent Citations (2)
Title |
---|
JIAHAO ZHANG 等: "Indoor Semantic Mapping with Efficient Convolutional Neural Networks for Resource-constrained SLAM System", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》, vol. 1544, 22 March 2020 (2020-03-22), pages 1 - 8 * |
陈廷炯 等: "基于语义分割和点云配准的物体检测与位姿估计", 《电子技术》, vol. 49, no. 1, 20 January 2020 (2020-01-20), pages 36 - 40 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778096A (zh) * | 2021-09-15 | 2021-12-10 | 上海景吾智能科技有限公司 | 室内机器人的定位与模型构建方法及系统 |
CN113778096B (zh) * | 2021-09-15 | 2022-11-08 | 杭州景吾智能科技有限公司 | 室内机器人的定位与模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166149B (zh) | 一种融合双目相机与imu的定位与三维线框结构重建方法与系统 | |
CN109255813B (zh) | 一种面向人机协作的手持物体位姿实时检测方法 | |
CN108416840B (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN109186606B (zh) | 一种基于slam和图像信息的机器人构图及导航方法 | |
CN108052103B (zh) | 基于深度惯性里程计的巡检机器人地下空间同时定位和地图构建方法 | |
CN107240129A (zh) | 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法 | |
CN108229416B (zh) | 基于语义分割技术的机器人slam方法 | |
CN106780592A (zh) | 基于相机运动和图像明暗的Kinect深度重建算法 | |
CN106780631A (zh) | 一种基于深度学习的机器人闭环检测方法 | |
CN112163588A (zh) | 基于智能进化的异源图像目标检测方法、存储介质及设备 | |
CN116222543B (zh) | 用于机器人环境感知的多传感器融合地图构建方法及系统 | |
CN113160275B (zh) | 一种基于多个视频的自动目标跟踪和轨迹计算的方法 | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
CN113393524A (zh) | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 | |
CN112101160A (zh) | 一种面向自动驾驶场景的双目语义slam方法 | |
Liu et al. | D-lc-nets: Robust denoising and loop closing networks for lidar slam in complicated circumstances with noisy point clouds | |
Liu | An integrated lidar-slam system for complex environment with noisy point clouds | |
CN116772820A (zh) | 一种基于slam和语义分割的局部细化建图系统及方法 | |
CN117367427A (zh) | 一种适用于室内环境中的视觉辅助激光融合IMU的多模态slam方法 | |
CN115147344A (zh) | 一种增强现实辅助汽车维修中的零件三维检测与跟踪方法 | |
CN114663488A (zh) | 一种基于深度学习的火箭助推器分离运动参数测量方法 | |
CN112419496A (zh) | 一种基于深度学习的语义地图构建方法 | |
CN112731503A (zh) | 一种基于前端紧耦合的位姿估计方法及系统 | |
CN112767481B (zh) | 一种基于视觉边缘特征的高精度定位及建图方法 | |
Billy et al. | Adaptive SLAM with synthetic stereo dataset generation for real-time dense 3D reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |