CN108665496B - 一种基于深度学习的端到端的语义即时定位与建图方法 - Google Patents
一种基于深度学习的端到端的语义即时定位与建图方法 Download PDFInfo
- Publication number
- CN108665496B CN108665496B CN201810236640.0A CN201810236640A CN108665496B CN 108665496 B CN108665496 B CN 108665496B CN 201810236640 A CN201810236640 A CN 201810236640A CN 108665496 B CN108665496 B CN 108665496B
- Authority
- CN
- China
- Prior art keywords
- loss function
- image
- function module
- module
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的端到端的语义即时定位与建图方法。通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列,处理获得连续五帧图像序列的位姿变换信息、深度信息和语义分割信息;构建带分支的多任务深度神经网络,输入到多任务深度神经网络中,训练多任务深度神经网络获得参数,采用训练后的多任务深度神经网络对连续五帧的待测图像序列进行处理,获得图像帧之间的位姿变换信息、深度信息和语义分割信息。与传统的ORB‑SLAM算法和同样基于深度学习的方法相比,本发明方法有更好的性能。
Description
技术领域
本发明涉及图像同时定位与建图方法,具体涉及了一种基于深度学习的端到端的语义即时定位与建图方法。
背景技术
无人平台的关键技术中,环境感知和定位自身位置的功能是必不可少的。同时定位与建图算法是解决这些问题的算法中的集大成者,利用各种传感器感知周围环境和估计自身位置,在无人系统中被广泛使用。
目前,大部分同时定位与建图算法提供的都是环境的结构信息和自身的位置信息,缺少对场景的理解,往往不足以满足无人平台执行任务的需要。为了获得更加丰富的环境信息,在同时定位与建图技术上增加语义理解的功能变得尤为迫切。语义同时定位与建图可以解决很多无人平台的需求,如通过语义标注可以得到场景中的可通行区域、行人车辆等动态目标等。而现在却只有少部分工作对地图信息进行了语义理解。
另一方面,传统的同时定位与建图算法不论是特征法还是直接法,仍处于图像低层特征的阶段,不能满足实际应用中对鲁棒性、场景可扩展性的需求;而深度学习技术在很多图像理解的方向(如图像分类、目标识别、语义分割等)上都有非常大的突破。这种技术在同时定位与建图算法上的应用打破了原有基于几何的框架,利用卷积神经网络对此问题进行建模,依靠众多的网络参数来拟合传统方法上各个模块耦合的过程,以端到端的方式代替复杂的优化过程。这种方式带来了新颖的思路,但目前在性能上还不能和传统方法相提并论。
发明内容
本发明的目的在于提供一种基于深度学习的端到端的语义即时定位与建图方法。
本方法将不仅将深度学习方法应用在同时定位与建图的算法上,还融合了摄像机和激光雷达等多个传感器的数据,结合语义分割的信息来筛选对位姿估计有效的像素,一方面结合了深度学习卓越的图像理解能力提高算法的性能,另一方面促使基于图像低层特征的同时定位与建图算法和图像高层次的语义内容相结合。
本发明采用的技术方案是包括以下步骤:
(1)通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列,原始图像序列和原始三维点云序列的总帧数相同;
(2)对于每一帧图像It,由当前帧图像It与其相邻帧图像构建形成连续五帧图像序列<It-2,It-1,It,It+1,It+2>,以连续五帧图像序列<It-2,It-1,It,It+1,It+2>为基本单位对原始图像序列和原始三维点云序列进行划分,并处理获得连续五帧图像序列<It-2,It-1,It,It+1,It+2>的位姿变换信息、深度信息和语义分割信息;
(3)构建带分支的多任务深度神经网络;
(4)将连续五帧短图像序列<It-2,It-1,It,It+1,It+2>及其位姿变换信息、深度信息和语义分割信息输入到多任务深度神经网络中,利用带动量(momentum)的Adam算法训练多任务深度神经网络,获得多任务深度神经网络的参数;
(5)采用训练后的多任务深度神经网络对连续五帧的待测图像序列进行处理,获得图像帧之间的位姿变换信息、深度信息和语义分割信息。
所述步骤(2)中,对原始图像序列处理获得每一帧图像的位姿变换,对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r,t]作为位姿变换信息;
对原始三维点云序列进行预处理得到稀疏深度图作为深度信息;
对图像进行处理获得每个像素对应的类别标签,构建语义分割结果图Lt作为语义分割信息,其中类别标签共七类包括平地、交通工具、建筑物、物体、自然景观、天空和其他,其中将建筑物、物体、平地归属于静态类别。
所述的相邻帧为与当前帧图像It时序前后相邻的各两帧图像,共计四帧图像。
所述步骤(2)中,位姿变换信息具体采用以下方式获得:
首先,通过记录采集图像序列过程中每帧图像对应相机的位置得到每帧图像对应的相机位置相对相机初始位置(即第一帧图像对应的相机位置)的位姿变换,其中位姿变换包括旋转变换和平移变换两个分量部分,代表图像对应的相机位置相对相机初始位置的平移距离和旋转角度;
其次,由当前帧图像It的相机位置相对相机初始位置的位姿变换Tt转换计算当前帧图像It分别到相邻每一帧图像的相对位姿变换Trel,Tt=[Rt,tt],Trel=[Rrel,trel],采用下式完成:
其中,Rt,tt分别表示当前帧图像It相对世界坐标系的旋转变换和平移变换,Rr,tr分别为相邻帧图像Ir相对世界坐标系的旋转变换和平移变换,世界坐标系是指相机初始位置(即第一帧图像)为坐标系原点的三维坐标系;Rrel,trel分别表示当前帧图像It到相邻一帧图像的旋转变换和平移变换,T表示矩阵转置;
然后,平移变换trel表示为平移向量形式[tx ty tz]T,tx、ty、tz分别代表沿世界坐标系x、y、z三个轴平移的距离;
旋转变换Rrel采用以下公式转换成旋转向量rrel:
rrel=[rx ry rz]T
rx=arctan(R32/R33)
rz=arctan(R21/R11)
其中,R11~R33表示旋转变换中的矩阵元素,rx、ry、rz分别代表绕世界坐标系x、y、z三个轴旋转的角度;
由旋转向量rrel和构成平移变换trel的平移向量形式[tx ty tz]T构成一个相对位姿变换向量,对连续五帧短图像序列通过处理得到四个的相对位姿变换向量,即当前帧图像It分别到相邻四帧图像的相对位姿变换向量。
所述步骤(2)中,深度信息具体采用以下方式获得:
xpixel=KXcam
式中,Xvelo=[xv yv zv]T为三维点云的点在激光雷达坐标系下的点云坐标,激光雷达坐标系是指每一帧三维点云的激光雷达中心为坐标系原点的三维坐标系;Xcam=[xc yczc]T为三维点云的点在相机坐标系的相机坐标,相机坐标系是指以每一帧图像的相机光心原点为坐标系原点的三维坐标系;xpixel=[u v 1]T为三维点云的点在图像平面坐标系下的像素坐标,图像平面坐标系是指每一帧图像的图像中心为坐标系原点的二维坐标系;是激光雷达坐标系到相机坐标系的转换矩阵,K为相机的内参矩阵,由相机的焦距fu、fv和光心坐标[cu cv]组成,将相机坐标系的点转换到图像平面上的像素点;s为图像尺寸的缩放因子。
所述步骤(2)中,语义分割信息具体采用以下方式获得:使用可变卷积版本的Deeplab算法对每帧图像It进行处理得到图像中每个像素对应的类别标签,对图像It中每个像素用类别标签进行标记处理获得语义分割结果图Lt。
所述的可变卷积版本的Deeplab算法采用Dai J,Qi H,Xiong Y,etal.Deformable Convolutional Networks文献中第767页第8段的计算方法获得。
所述步骤(3)构建的多任务深度神经网络具体包含位姿模块PoseNet、深度模块DepthNet、分割模块SegNet、位姿监督损失函数模块深度监督损失函数模块深度平滑损失函数模块语义分割监督损失函数模块加权光度误差损失函数模块和损失函数模块
所述的PoseNet模块包括依次的8层卷积层(Convs)和全局平均池化层(Globalaverage pooling,GAP),其中卷积层共8层,其中前两层卷积层的卷积核(Kernel)大小分别为7x7和5x5;第三层到第七层卷积层的局部感受野范围都是3x3,步幅(Stride)为2;最后一层卷积层的卷积核(Kernel)大小为1x1;每个卷积层连接ReLU作为激活函数,依次经各个卷积层提取特征后连接全局平均池化层(GAP)对每个通道进行降维和全尺寸的平均;
所述的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs),每组卷积是由两个卷积核大小相同的卷积层组成,共同进行特征提取,且对应一组同样大小的反卷积;
所述的反卷积层采用Zeiler M D,Krishnan D,Taylor G W,etal.Deconvolutional networks文献中提出的结构,在正向和反向传播中执行着和卷积相反的运算。
所述的分割模块SegNet包含依次的五层卷积层和五层反卷积层,其中五层卷积层和所述的位姿模块PoseNet中的前五层卷积层共有;
其中,[rrel,trel]为步骤(2)得到的位姿变换信息的一个相对位姿变换向量,[rpred,tpred]为位姿模块PoseNet的预测结果;
其中,Dt为步骤(2)得到的稀疏深度图,Dt(p)表示稀疏深度图中像素p的深度值,Dpred为深度模块DepthNet预测的深度图,p为图像I中的一个像素,N为图像所有像素总数,mask是一张二值图,二值图mask是由Dgt图上有稀疏深度值的像素的位置标记为1、否则标记为0构建得到;
其中,Lc为步骤(2)预处理得到的语义分割结果图Lt中的一个类别标签,Lc(p)表示语义分割结果图Lt中像素p的类别标签,Lpred为分割模块SegNet的预测结果,p为图像I中的一个像素,N为图像所有像素总数;
其中,Ls为分割模块SegNet的预测结果中属于静态类别的结果集合,Tpred为位姿模块PoseNet的预测结果的变换矩阵,Tpred=[rpred,tpred],Dpred为深度模块DepthNet的预测结果的深度图,ω(p,Dpred(p),Tpred)是将像素p通过变换矩阵Tpred和自身在深度图Dpred中的深度值从当前帧Ic投影到相邻帧Ir的操作,在连续五帧短图像序列<It-2,It-1,It,It+1,It+2>中当前帧为It,其余均为相邻帧;
具体实施中,操作ω(p,Dpred(p),Tpred)采用Engel J,T,Cremers D.LSD-SLAM:Large-scale direct monocular SLAM论文第5页公式5提出的方法进行处理。
其中,λp,λd,λs,λc分别为加权光度误差、深度监督损失函数、深度平滑损失函和语义分割监督损失函数的权重。
所述步骤(5)具体为:
将待测图像序列输入到训练后且去掉了位姿监督损失函数模块深度监督损失函数模块深度平滑损失函数模块语义分割监督损失函数模块加权光度误差损失函数模块和损失函数模块的深度神经网络中进行前向传播,得到输出相对位姿变换向量[rres,tres]、深度图Dres和语义分割结果Lres。
本发明方法构造一个带有分支的多任务深度神经网络,分别学习短图像序列每帧之间的位姿变换、单帧图像对应的深度信息和语义分割结果。位姿变换、深度信息和语义分割分别通过监督的方式进行训练;通过位姿变换和深度信息构造光度误差对网络进行无监督训练;语义分割结果用于筛选有效像素构造加权的光度误差对三个任务共同进行优化。
本发明的有益效果是:
本发明方法构造了一个深度神经网络,在学习位姿变换的网络的基础上增加学习深度图的网络分支,后续接上语义分割的网络层级,三者除了各自的监督训练以外,其结果通过加权的光度误差结合起来,共同优化网络参数。
本发明方法利用深度学习方法并加入语义信息帮助筛选对位姿估计有贡献的像素,与以往的同时定位与建图方法相比,得到了更好的性能,而且在单目的位姿估计中减少了尺度缺失带来的影响。
与传统的ORB-SLAM算法和同样基于深度学习的方法相比,本发明方法有更好的表现,对环境的变化有一定鲁棒性。
附图说明
图1是本发明深度神经网络的模块结构框图;
图2是本发明在测试集上与其他方法的轨迹对比图;
图3是本发明在测试集上预测的深度结果图;
图4是本发明在测试集上预测的语义结果图。
具体实施方式
下面对本发明进行进一步说明。
按照本发明方法实施的实施例及其实施过程是:
(1)通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列,原始图像序列和原始三维点云序列的总帧数相同;
(2)对于每一帧图像It,由当前帧图像It与其相邻帧图像构建形成连续五帧图像序列<It-2,It-1,It,It+1,It+2>,以连续五帧图像序列<It-2,It-1,It,It+1,It+2>为基本单位对原始图像序列和原始三维点云序列进行划分,并处理获得连续五帧图像序列<It-2,It-1,It,It+1,It+2>的位姿变换信息、深度信息和语义分割信息。
对原始图像序列处理获得每一帧图像的位姿变换,对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r,t]作为位姿变换信息;
对原始三维点云序列进行预处理得到稀疏深度图作为深度信息;
对图像进行处理获得每个像素对应的类别标签,构建语义分割结果图Lt作为语义分割信息,其中类别标签共七类包括平地、交通工具、建筑物、物体、自然景观、天空和其他,其中将建筑物、物体、平地归属于静态类别。
(3)构建深度神经网络。
具体实施的位姿模块PoseNet包括依次的8层卷积层(Convs)和全局平均池化层(Global average pooling,GAP),具体结构组成和参数如下表1:
表1 PoseNet的网络结构
具体实施的分割模块SegNet包含依次的五层卷积层和五层反卷积层,如图1所示,其中五层卷积层和所述的位姿模块PoseNet中的前五层卷积层相同且共有。具体实施的具体结构组成和参数如下表2:
表2 SegNet的网络结构
具体实施的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs),具体结构组成和参数如下表3:
表3 DepthNet的网络结构
(4)将连续五帧图像序列<It-2,It-1,It,It+1,It+2>输入到深度神经网络中,利用带动量(momentum)的Adam算法训练深度神经网络,获得深度神经网络的参数;
具体实施的带动量(momentum)的Adam算法中,动量设置为0.9。一共迭代250,000次,学习率为0.0001,批量大小为4。训练结束后,保存深度神经网络的参数。
(5)针对未知位姿变换的连续五帧图像序列<It-2,It-1,It,It+1,It+2>,将其输入到训练后且去掉了损失函数模块的深度神经网络中进行前向传播,得到输出矩阵为图像帧之间的位姿变换,同时其他分支包括单帧图像对应的深度图和语义分割结果。
本实施例最后使用公开数据集KITTI(Geiger A,Lenz P,Stiller C,etal.Vision meets robotics:The KITTI dataset[J].The International Journal ofRobotics Research,2013,32(11):1231-1237.)进行测试。数据集一共11个序列,其中00-08序列作为训练集,09和10两个序列作为测试集。使用位姿结果的评判标准绝对轨迹误差(Absolute trajectory error,ATE)进行评测,表4给出了本方法与传统的ORB-SLAM算法、同样基于深度学习的Unsupervised算法的ATE值,ATE值越少说明性能越好。
表4 本方法与常见算法在KITTI数据集上的比较
从上表可见,本方法的ATE值低于传统的ORB-SLAM和Unsupervised算法的ATE值,本发明具有其突出显著的技术效果。
其中,ORB-SLAM算法采用论文Mur-Artal R,Montiel J M M,Tardos J D.ORB-SLAM:a versatile and accurate monocular SLAM system[J].IEEE Transactions onRobotics,2015,31(5):1147-1163.所述的方法实现。基于深度学习的Unsupervised算法采用论文Zhou T,Brown M,Snavely N,et al.Unsupervised learning of depth and ego-motion from video[C]//CVPR.2017,2(6):7.所述的方法实现。
图2是本方法与其他方法在轨迹上的对比,第二行是第一行对应局部区域的放大图,图中可见同样是基于单目(单个相机)的ORB-SLAM和Unsupervised算法得到的轨迹形状上和真实轨迹相似,但由于单相机不能估计具体的尺度,所以这两种算法得到的轨迹结果和真实轨迹相差甚远。由于本发明使用了全监督的深度学习方法进行训练,所以本发明估计的轨迹没有尺度缺失,最接近真实轨迹。
图3和图4分别是本方法实施在测试集上预测的深度图和语义分割结果。
图3中,从上到下分别为输入的彩色图像、对应三维点云配准到图像平面上的稀疏深度图、Unsupervised算法预测的深度图、本方法处理后获得的深度图,图中可见本方法利用稀疏深度图真值作为监督,得到的是稠密的深度图,细节上比Unsupervised算法预测的深度图更为丰富,可以直观看到物体轮廓。
图4中,从上到下分别为输入的彩色图、本方法处理后获得的语义分割结果,图中不同类别标签用不同颜色代表,图中可见本方法可以大致分割比较明显的语义类别。
本发明方法利用深度学习方法并加入语义信息帮助筛选对位姿估计有贡献的像素,具有更好的性能,在单目的位姿估计中减少了尺度缺失带来的影响,对环境的变化具有良好的鲁棒性。
Claims (8)
1.一种基于深度学习的端到端的语义即时定位与建图方法,其特征是,包括如下步骤:
(1)通过彩色相机和激光雷达分别采集得到连续的原始图像序列以及与图像序列对应的原始三维点云序列;
(2)对于每一帧图像I,由当前帧图像It与其相邻帧图像构建形成连续五帧图像序列<It-2,It-1,It,It+1,It+2>,以连续五帧图像序列<It-2,It-1,It,It+1,It+2>为基本单位对原始图像序列和原始三维点云序列进行划分,并处理获得位姿变换信息、深度信息和语义分割信息;t表示连续五帧图像序列的中间当前帧图像的帧序数,且t>2;
(3)构建带分支的多任务深度神经网络;
(4)将连续五帧图像序列<It-2,It-1,It,It+1,It+2>及其位姿变换信息、深度信息和语义分割信息输入到多任务深度神经网络中,利用带动量(momentum)的Adam算法训练多任务深度神经网络,获得多任务深度神经网络的参数;
(5)采用训练后的多任务深度神经网络对连续五帧的待测图像序列进行处理,获得图像帧之间的位姿变换信息、深度信息和语义分割信息。
2.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:所述步骤(2)中,对原始图像序列处理获得每一帧图像的位姿变换,对位姿变换进行预处理得到具有六个自由度分量的相对位姿变换[r,t]作为位姿变换信息;r表示旋转变换,t表示平移变换;
对原始三维点云序列进行预处理得到稀疏深度图作为深度信息;
对图像进行处理获得每个像素对应的类别标签,构建语义分割结果图Lt作为语义分割信息,其中类别标签共七类包括平地、交通工具、建筑物、除交通工具和建筑物以外的物体、自然景观、天空和其他类,其中将建筑物、除交通工具和建筑物以外的物体、平地归属于静态类别。
3.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:所述步骤(2)中的相邻帧为与当前帧图像It时序前后相邻的各两帧图像,共计四帧图像。
4.根据权利要求2所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:所述步骤(2)中,位姿变换信息具体采用以下方式获得:
首先,通过记录采集图像序列过程中每帧图像对应相机的位置得到每帧图像对应的相机位置相对相机初始位置的位姿变换;
其次,由当前帧图像It的相机位置相对相机初始位置的位姿变换Tt转换计算当前帧图像It分别到相邻每一帧图像的相对位姿变换Trel,Tt=[Rt,tt],Trel=[Rrel,trel],采用下式完成:
其中,Rt,tt分别表示当前帧图像It相对世界坐标系的旋转变换和平移变换,Rr,tr分别为相邻帧图像Ir相对世界坐标系的旋转变换和平移变换,世界坐标系是指相机初始位置为坐标系原点的三维坐标系;Rrel,trel分别表示当前帧图像It到相邻一帧图像的旋转变换和平移变换,T表示矩阵转置;
然后,平移变换trel表示为平移向量形式[tx ty tz]T,tx、ty、tz分别代表沿世界坐标系x、y、z三个轴平移的距离;
旋转变换Rrel采用以下公式转换成旋转向量rrel:
rrel=[rx ry rz]T
rx=arctan(R32/R33)
rz=arctan(R21/R11)
其中,R11~R33表示旋转变换中的矩阵元素,rx、ry、rz分别代表绕世界坐标系x、y、z三个轴旋转的角度;
由旋转向量rrel和构成平移变换trel的平移向量形式[tx ty tz]T构成一个相对位姿变换向量,对连续五帧图像序列通过处理得到四个的相对位姿变换向量。
5.根据权利要求2所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:
所述步骤(2)中,深度信息具体采用以下方式获得:
xpixel=KXcam
式中,Xvelo=[xv yv zv]T为原始三维点云Pt的点在激光雷达坐标系下的点云坐标,激光雷达坐标系是指每一帧原始三维点云Pt的激光雷达中心为坐标系原点的三维坐标系;Xcam=[xc yc zc]T为原始三维点云Pt的点在相机坐标系的相机坐标,相机坐标系是指以每一帧图像的相机光心原点为坐标系原点的三维坐标系;xpixel=[u v 1]T为原始三维点云Pt的点在图像平面坐标系下的像素坐标,图像平面坐标系是指每一帧图像的图像中心为坐标系原点的二维坐标系;是激光雷达的激光雷达坐标系到彩色相机的相机坐标系的转换矩阵,K为相机的内参矩阵,由相机的焦距fu、fv和光心坐标[cu cv]组成;s为图像尺寸的缩放因子。
6.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:
所述步骤(2)中,语义分割信息具体采用以下方式获得:使用可变卷积版本的Deeplab算法对每帧图像It进行处理得到图像中每个像素对应的类别标签,对图像It中每个像素用类别标签进行标记处理获得语义分割结果图Lt。
7.根据权利要求1所述的一种基于深度学习的端到端的语义即时定位与建图方法,其特征是:
所述步骤(3)构建的多任务深度神经网络具体包含位姿模块PoseNet、深度模块DepthNet、分割模块SegNet、位姿监督损失函数模块深度监督损失函数模块深度平滑损失函数模块语义分割监督损失函数模块加权光度误差损失函数模块和损失函数模块
所述的PoseNet模块包括依次的8层卷积层(Convs)和全局平均池化层(Globalaverage pooling,GAP),其中前两层卷积层的卷积核(Kernel)大小分别为7x7和5x5;第三层到第七层卷积层的局部感受野范围都是3x3,步幅(Stride)为2;最后一层卷积层的卷积核(Kernel)大小为1x1;依次经各个卷积层提取特征后连接全局平均池化层(GAP)对每个通道进行降维和全尺寸的平均;
所述的深度模块DepthNet包含依次的七组卷积(Convs)和七组反卷积(DeConvs),每组卷积是由两个卷积核大小相同的卷积层组成,共同进行特征提取;
所述的分割模块SegNet包含依次的五层卷积层和五层反卷积层,其中五层卷积层和所述的位姿模块PoseNet中的前五层卷积层共有;
其中,[rrel,trel]为步骤(2)得到的位姿变换信息的一个相对位姿变换向量,[rpred,tpred]为位姿模块PoseNet的预测结果;
其中,Dt为步骤(2)得到的稀疏深度图,Dt(p)表示稀疏深度图中像素p的深度值,Dpred为深度模块DepthNet预测的深度图,p为图像I中的一个像素,N为图像所有像素总数,mask是一张二值图,二值图mask是由Dt图上有稀疏深度值的像素的位置标记为1、否则标记为0构建得到;
其中,Lc为步骤(2)预处理得到的语义分割结果图Lt中的一个类别标签,Lc(p)表示语义分割结果图Lt中像素p的类别标签,Lpred为分割模块SegNet的预测结果,p为图像I中的一个像素,N为图像所有像素总数;c表示其中一个图像语义标签,C表示所有图像语义标签的集合;Lpred(p)表示分割模块SegNet的预测结果中像素p的值;
其中,Ls为分割模块SegNet的预测结果中属于静态类别的结果集合,Tpred为位姿模块PoseNet的预测结果的变换矩阵,Tpred=[rpred,tpred],Dpred为深度模块DepthNet的预测结果的深度图,ω(p,Dpred(p),Tpred)是将像素p通过变换矩阵Tpred和自身在深度图Dpred中的深度值从当前帧Ic投影到相邻帧Ir的操作,在连续五帧图像序列<It-2,It-1,It,It+1,It+2>中当前帧为It,其余均为相邻帧;Dpred(p)表示深度模块DepthNet预测的深度图中像素p的深度值,Ic(p)表示当前帧中像素点p的像素值;r表示相邻帧的帧序数;
其中,λp,λd,λs,λc分别为加权光度误差、深度监督损失函数、深度平滑损失函和语义分割监督损失函数的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236640.0A CN108665496B (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度学习的端到端的语义即时定位与建图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236640.0A CN108665496B (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度学习的端到端的语义即时定位与建图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108665496A CN108665496A (zh) | 2018-10-16 |
CN108665496B true CN108665496B (zh) | 2021-01-26 |
Family
ID=63781980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810236640.0A Active CN108665496B (zh) | 2018-03-21 | 2018-03-21 | 一种基于深度学习的端到端的语义即时定位与建图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108665496B (zh) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109239720A (zh) * | 2018-10-18 | 2019-01-18 | 清华大学苏州汽车研究院(吴江) | 一种智能激光雷达装置、系统及其数据处理方法 |
CN111098850A (zh) * | 2018-10-25 | 2020-05-05 | 北京初速度科技有限公司 | 一种自动停车辅助系统及自动泊车方法 |
CN109658418A (zh) * | 2018-10-31 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 场景结构的学习方法、装置及电子设备 |
CN109640068A (zh) * | 2018-10-31 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 视频帧的信息预测方法、装置、设备以及存储介质 |
CN109543557B (zh) * | 2018-10-31 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 视频帧的处理方法、装置、设备以及存储介质 |
CN111169468B (zh) * | 2018-11-12 | 2023-10-27 | 北京魔门塔科技有限公司 | 一种自动泊车的系统及方法 |
CN109341694A (zh) * | 2018-11-12 | 2019-02-15 | 哈尔滨理工大学 | 一种移动探测机器人的自主定位导航方法 |
CN109737974B (zh) * | 2018-12-14 | 2020-11-27 | 中国科学院深圳先进技术研究院 | 一种3d导航语义地图更新方法、装置及设备 |
CN109685848B (zh) * | 2018-12-14 | 2023-06-09 | 上海交通大学 | 一种三维点云与三维传感器的神经网络坐标变换方法 |
CN109711448A (zh) * | 2018-12-19 | 2019-05-03 | 华东理工大学 | 基于判别关键域和深度学习的植物图像细粒度分类方法 |
CN109506658B (zh) * | 2018-12-26 | 2021-06-08 | 广州市申迪计算机系统有限公司 | 机器人自主定位方法和系统 |
CN109886978B (zh) * | 2019-02-20 | 2020-03-13 | 贵州电网有限责任公司 | 一种基于深度学习的端到端告警信息识别方法 |
CN109887032B (zh) * | 2019-02-22 | 2021-04-13 | 广州小鹏汽车科技有限公司 | 一种基于单目视觉slam的车辆定位方法及系统 |
CN110047108B (zh) * | 2019-03-07 | 2021-05-25 | 中国科学院深圳先进技术研究院 | 无人机位姿确定方法、装置、计算机设备及存储介质 |
CN110097584B (zh) * | 2019-03-18 | 2021-11-09 | 国网浙江省电力有限公司信息通信分公司 | 结合目标检测和语义分割的图像配准方法 |
CN110060212B (zh) * | 2019-03-19 | 2023-07-14 | 中国海洋大学 | 一种基于深度学习的多光谱光度立体表面法向恢复方法 |
CN111735439B (zh) * | 2019-03-22 | 2022-09-30 | 北京京东乾石科技有限公司 | 地图构建方法、装置和计算机可读存储介质 |
CN110009717B (zh) * | 2019-04-01 | 2020-11-03 | 江南大学 | 一种基于单目深度图的动画人物绑定录制系统 |
CN110097084B (zh) * | 2019-04-03 | 2021-08-31 | 浙江大学 | 通过投射特征训练多任务学生网络的知识融合方法 |
CN110120049B (zh) * | 2019-04-15 | 2023-06-30 | 天津大学 | 由单张图像联合估计场景深度与语义的方法 |
CN110068824B (zh) * | 2019-04-17 | 2021-07-23 | 北京地平线机器人技术研发有限公司 | 一种传感器位姿确定方法和装置 |
CN110264502B (zh) * | 2019-05-17 | 2021-05-18 | 华为技术有限公司 | 点云配准方法和装置 |
CN110378250B (zh) * | 2019-06-28 | 2021-04-09 | 深圳先进技术研究院 | 用于场景认知的神经网络的训练方法、装置及终端设备 |
CN110160532A (zh) * | 2019-06-28 | 2019-08-23 | 联想(北京)有限公司 | 定位方法及装置、以及终端设备 |
CN110363817B (zh) * | 2019-07-10 | 2022-03-01 | 北京悉见科技有限公司 | 目标位姿估计方法、电子设备和介质 |
CN110781717A (zh) * | 2019-08-09 | 2020-02-11 | 浙江零跑科技有限公司 | 一种驾驶室场景语义与视深联合分析方法 |
CN110610486B (zh) * | 2019-08-28 | 2022-07-19 | 清华大学 | 单目图像深度估计方法及装置 |
WO2021051220A1 (zh) * | 2019-09-16 | 2021-03-25 | 深圳市大疆创新科技有限公司 | 一种点云融合方法、设备、系统及存储介质 |
CN112648997A (zh) * | 2019-10-10 | 2021-04-13 | 成都鼎桥通信技术有限公司 | 一种基于多任务网络模型定位的方法及系统 |
CN110910327B (zh) * | 2019-11-26 | 2023-04-07 | 福州大学 | 一种基于掩模增强网络模型的无监督深度补全方法 |
CN110926334B (zh) * | 2019-11-29 | 2022-02-22 | 深圳市商汤科技有限公司 | 测量方法、装置、电子设备及存储介质 |
CN111179628B (zh) * | 2020-01-09 | 2021-09-28 | 北京三快在线科技有限公司 | 自动驾驶车辆的定位方法、装置、电子设备及存储介质 |
CN111340867B (zh) * | 2020-02-26 | 2022-10-18 | 清华大学 | 图像帧的深度估计方法、装置、电子设备及存储介质 |
CN111402328B (zh) * | 2020-03-17 | 2023-11-10 | 北京图森智途科技有限公司 | 一种基于激光里程计的位姿计算方法及装置 |
CN111407245B (zh) * | 2020-03-19 | 2021-11-02 | 南京昊眼晶睛智能科技有限公司 | 一种基于摄像头的非接触式心率、体温测量方法 |
CN111553859B (zh) | 2020-04-29 | 2020-12-01 | 清华大学 | 一种激光雷达点云反射强度补全方法及系统 |
CN113592875B (zh) * | 2020-04-30 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 数据处理方法、图像处理方法、存储介质及计算设备 |
CN111583345B (zh) * | 2020-05-09 | 2022-09-27 | 吉林大学 | 一种相机参数的获取方法、装置、设备及存储介质 |
CN111583305B (zh) * | 2020-05-11 | 2022-06-21 | 北京市商汤科技开发有限公司 | 神经网络训练及运动轨迹确定方法、装置、设备和介质 |
CN111899301A (zh) * | 2020-06-02 | 2020-11-06 | 广州中国科学院先进技术研究所 | 一种基于深度学习的工件6d位姿估计方法 |
CN111784780B (zh) * | 2020-06-16 | 2023-06-16 | 北京理工大学 | 基于深度学习的彩色摄像机的颜色标定方法 |
CN112348868A (zh) * | 2020-11-06 | 2021-02-09 | 养哇(南京)科技有限公司 | 一种通过检测和标定恢复单目slam尺度的方法及系统 |
CN113205520B (zh) * | 2021-04-22 | 2022-08-05 | 华中科技大学 | 一种对图像进行语义分割的方法及系统 |
CN113256546A (zh) * | 2021-05-24 | 2021-08-13 | 浙江大学 | 一种基于彩色图指导的深度图补全方法 |
US20230035475A1 (en) * | 2021-07-16 | 2023-02-02 | Huawei Technologies Co., Ltd. | Methods and systems for semantic segmentation of a point cloud |
CN113662669A (zh) * | 2021-08-30 | 2021-11-19 | 华南理工大学 | 一种光力融合末端夹持器及其定位控制方法 |
CN113808219B (zh) * | 2021-09-17 | 2024-05-14 | 西安电子科技大学 | 基于深度学习的雷达辅助相机标定方法 |
CN114663496B (zh) * | 2022-03-23 | 2022-10-18 | 北京科技大学 | 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 |
CN114511600A (zh) * | 2022-04-20 | 2022-05-17 | 北京中科慧眼科技有限公司 | 基于点云配准的位姿计算方法和系统 |
CN115187781B (zh) * | 2022-07-12 | 2023-05-30 | 北京信息科技大学 | 一种基于语义分割网络的六自由度抓取检测方法 |
CN115661913A (zh) * | 2022-08-19 | 2023-01-31 | 北京津发科技股份有限公司 | 一种眼动分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104330090A (zh) * | 2014-10-23 | 2015-02-04 | 北京化工大学 | 机器人分布式表征智能语义地图创建方法 |
CN104484522A (zh) * | 2014-12-11 | 2015-04-01 | 西南科技大学 | 一种基于现实场景的机器人模拟演练系统的构建方法 |
CN104851094A (zh) * | 2015-05-14 | 2015-08-19 | 西安电子科技大学 | 一种基于rgb-d的slam算法的改进方法 |
CN107063258A (zh) * | 2017-03-07 | 2017-08-18 | 重庆邮电大学 | 一种基于语义信息的移动机器人室内导航方法 |
CN107170011A (zh) * | 2017-04-24 | 2017-09-15 | 杭州司兰木科技有限公司 | 一种机器人视觉跟踪方法及系统 |
CN107480603A (zh) * | 2017-07-27 | 2017-12-15 | 大连和创懒人科技有限公司 | 基于slam和深度摄像头的同步建图与物体分割方法 |
CN107742311A (zh) * | 2017-09-29 | 2018-02-27 | 北京易达图灵科技有限公司 | 一种视觉定位的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9773313B1 (en) * | 2014-01-03 | 2017-09-26 | Google Inc. | Image registration with device data |
-
2018
- 2018-03-21 CN CN201810236640.0A patent/CN108665496B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104330090A (zh) * | 2014-10-23 | 2015-02-04 | 北京化工大学 | 机器人分布式表征智能语义地图创建方法 |
CN104484522A (zh) * | 2014-12-11 | 2015-04-01 | 西南科技大学 | 一种基于现实场景的机器人模拟演练系统的构建方法 |
CN104851094A (zh) * | 2015-05-14 | 2015-08-19 | 西安电子科技大学 | 一种基于rgb-d的slam算法的改进方法 |
CN107063258A (zh) * | 2017-03-07 | 2017-08-18 | 重庆邮电大学 | 一种基于语义信息的移动机器人室内导航方法 |
CN107170011A (zh) * | 2017-04-24 | 2017-09-15 | 杭州司兰木科技有限公司 | 一种机器人视觉跟踪方法及系统 |
CN107480603A (zh) * | 2017-07-27 | 2017-12-15 | 大连和创懒人科技有限公司 | 基于slam和深度摄像头的同步建图与物体分割方法 |
CN107742311A (zh) * | 2017-09-29 | 2018-02-27 | 北京易达图灵科技有限公司 | 一种视觉定位的方法及装置 |
Non-Patent Citations (3)
Title |
---|
Semantic Pose Using Deep Networks Trained on Synthetic RGB-D;Jeremie Papon etal;《2015 IEEE International Conference on Computer Vision (ICCV)》;20160218;第774-782页 * |
基于深度学习的同时定位与地图创建的研究综述;王博 等;《计算机科学》;20171031;第44卷(第10A期);第112-115页 * |
基于深度学习的视觉SLAM综述;赵洋 等;《机器人》;20171130;第39卷(第6期);第889-896页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108665496A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665496B (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
Garcia-Garcia et al. | A survey on deep learning techniques for image and video semantic segmentation | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
Mehra et al. | ReViewNet: A fast and resource optimized network for enabling safe autonomous driving in hazy weather conditions | |
CN110622213B (zh) | 利用3d语义地图进行深度定位和分段的系统和方法 | |
Petrovai et al. | Exploiting pseudo labels in a self-supervised learning framework for improved monocular depth estimation | |
Mahjourian et al. | Geometry-based next frame prediction from monocular video | |
CN113393522A (zh) | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 | |
CN112465021B (zh) | 基于图像插帧法的位姿轨迹估计方法 | |
CN111797688A (zh) | 一种基于光流和语义分割的视觉slam方法 | |
Wang et al. | Multi-scenes image stitching based on autonomous driving | |
CN113313732A (zh) | 一种基于自监督学习的前视场景深度估计方法 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
Budvytis et al. | Large scale joint semantic re-localisation and scene understanding via globally unique instance coordinate regression | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN112257668A (zh) | 主辅路判断方法、装置、电子设备及存储介质 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN114494150A (zh) | 一种基于半直接法的单目视觉里程计的设计方法 | |
CN115049945A (zh) | 一种基于无人机图像的小麦倒伏面积提取方法和装置 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
Jia et al. | Depth measurement based on a convolutional neural network and structured light | |
CN113012191B (zh) | 一种基于点云多视角投影图的激光里程计算法 | |
Zhang et al. | CCVO: Cascaded CNNs for fast monocular visual odometry towards the dynamic environment | |
Cheng et al. | Semantic change pattern analysis | |
CN116452654B (zh) | 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |