CN112132897A - 一种基于深度学习之语义分割的视觉slam方法 - Google Patents
一种基于深度学习之语义分割的视觉slam方法 Download PDFInfo
- Publication number
- CN112132897A CN112132897A CN202010978343.0A CN202010978343A CN112132897A CN 112132897 A CN112132897 A CN 112132897A CN 202010978343 A CN202010978343 A CN 202010978343A CN 112132897 A CN112132897 A CN 112132897A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- semantic
- dynamic
- static
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000000007 visual effect Effects 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 230000003068 static effect Effects 0.000 claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims description 8
- 239000003086 colorant Substances 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000013077 scoring method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 5
- 230000009466 transformation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001210 retinal vessel Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习之语义分割的视觉SLAM方法,涉及计算机视觉传感的技术领域。本发明通过RGB‑D深度相机采集图像,进行特征提取和语义分割,得到提取的ORB特征点与像素级语义分割结果;通过基于多视图几何动静点检测算法,检测出运动物体对象,删除ORB特征点;执行初始化建图:顺次执行跟踪、局部建图以及回环检测线程,根据关键帧位姿和静态背景修复技术获得的合成图像,构造出静态场景的八叉树三维点云地图,最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法。本发明提高了动态场景下视觉SLAM的相机位姿估计和轨迹评估的精度,增强了动态场景下传统视觉SLAM系统性能的鲁棒性、稳定性以及精确性。
Description
技术领域
本发明涉及计算机视觉传感的技术领域,尤其涉及结合了语义分割和基于多视图几何的动静点检测算法的视觉SLAM方法。
背景技术
SLAM,全称是Simultaneous Localization and Mapping,即同时定位与建图,它是一些机器人应用的基础技术,例如工业自动化机器人、自动驾驶汽车和无人机避障导航等。上世纪八十年代中期,Smith等人率先提出SLAM应用技术。这项计算机视觉技术指的是自主机器人在未知的场景中运动时,采用特别的外部传感器获得环境信息数据并且结合先前的位置信息来估计它当前的运动位姿,与此同时逐步建立起增量式的外部环境地图。经过几十年的发展进步,SLAM被视为一项实现完全自主移动的智能机器人的里程碑式的技术。如今,可以肯定地说,至少在理论上关于SLAM技术的一些问题已经通过多种方式得到了解决。
实际上,目前流行的RGB-D SLAM算法都是基于静态环境假设。它假设在机器人遍历的环境中不存在动态的物体对象。因为运动对象很可能会阻碍SLAM前端视觉里程计中数据关联的过程。当把错误的数据输入到SLAM的后端优化过程,则会严重损害这个过程,最终会导致定位和建图过程出现灾难性的错误。通常情况下,SLAM系统前端视觉里程计中的数据关联由两个部分组成:短期数据关联和长期数据关联。其中,短期数据关联用于确定相邻的位姿估计,而长期数据关联对回环检测产生影响。以基于稀疏特征的RGB-D SLAM系统为例,标准的鲁棒估计器,例如,常用于SLAM前端视觉里程计中的Random Sample Consensus(RANSAC)算法以拒绝异常的数据特征关联。但是,当动态物体对象在相机视野中出现或是占据了整个视野时,SLAM系统就很难可靠地去除动态物体对象带来的异常值。在这种情况下,不可避免地将异常值(离群值)用于估计机器人的位姿,这样的结果是错误的。当机器人再次返回到先前访问过的地方时,动态物体对象消失了,此时再进行相同的场景匹配,然而,这对于机器人来说却具有不同的视觉外观,就无法实现回环检测过程。反之,若机器人在某个地方的首次探索中消除了视野中的动态物体对象的干扰,则可以仅使用场景中静态特征点来进行图像匹配,这将获得可靠的回环检测结果。而且,只使用静态特征点来获得机器人位姿估计是更加准确的。因此,消除场景中的动态物体对象干扰能够减少错误的数据关联,这对于提高视觉SLAM系统的性能至关重要。
在过去的几十年技术发展过程中,一些令人印象深刻的针对特定场景的SLAM系统得到了不断发展并且取得了良好的性能。尽管如此,仍然存在许多亟待解决的问题,例如,在动态环境下如何应对运动的物体对象,如何使机器人充分理解外部环境并且完成更高级的类人任务。
发明内容
本发明的一种基于深度学习之语义分割的视觉SLAM方法,提高了动态场景下视觉SLAM的位姿估计和轨迹评估的精度,且精度优于现有的方法,增强了动态场景下传统视觉SLAM系统的性能的鲁棒性、稳定性以及精确性。
一种基于深度学习之语义分割的视觉SLAM方法,包括如下步骤:
步骤(1)通过RGB-D深度相机采集图像,并且对采集到的原始RGB图像进行特征提取和语义分割,得到提取的ORB特征点与像素级语义分割结果;
步骤(2)根据提取的特征点与语义分割结果,通过基于多视图几何的动静点检测算法,检测出真正属于运动物体对象的分割掩码,然后删除位于动态对象的分割掩码区域内的ORB特征点,以彻底消除动态对象的干扰;
步骤(3)初始化建图过程,顺次执行跟踪、局部建图以及回环检测线程,根据关键帧位姿和静态背景修复技术获得的合成图像,从而构造出静态场景的八叉树三维点云地图,最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法。
优选的是,本发明步骤(1)的具体过程如下:原始的RGB图像首先经过DUNet深度卷积神经网络处理,该语义分割网络能够获得像素级的先验动态对象的分割掩码,对图像帧中潜在的动态对象完成了语义分割任务,然后在此阶段提取图像的ORB特征点,并且利用图像帧中的静态部分来估计相机的位姿。
在视觉里程计中加载的DUNet分割网络模型是基于PASCAL VOC数据集或MS COCO数据集进行训练的,DUNet网络的输入是尺寸为h×w×3的原始RGB图像,网络的输出是尺寸为h×w×n的矩阵,其中h表示图像的像素高度,w表示图像的像素宽度,n表示图像中动态对象的数量;对于每个输出通道i∈n,获取二进制语义分割掩码,通过将所有通道合并成为一个通道,得到出现在图像帧中所有动态对象的语义分割掩码。
优选的是,本发明的DUNet是建立在U-Net基础之上,并且使用DeformableConvNet(Deformable Convolutional Network,可变形的卷积块)作为编码和解码单元,DUNet的网络结构为U型架构,两侧对称结构分别是编码器和解码器;DUNet分割网络中采用了三种图像与处理方法:单通道图像、归一化和对比度有限的自适应直方图均衡以及gamma校正。
优选的是,本发明步骤(2)中,根据提取的ORB特征点与语义分割结果,通过基于多视图几何的动静点检测算法,检测出真正属于运动物体对象的分割掩码,然后彻底删除位于动态对象的分割掩码区域内的ORB特征点,具体方法如下:
当局部地图中的点投影到当前帧的视角时,其测量的深度值应该和投影的深度值相差不大,若相差较大,则断定为有动态物体遮挡了当前帧的部分视野;对于每个输入图像帧,检索前面5个和其具有最高相似度的关键帧,计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度zpd;每个关键特征点x对应的空间3D点为X,计算x和x′的反投影之间的视差角α,如果视差角大于30°,则该点可能会被遮挡,在后续计算中将被忽略;若测得当前帧剩余关键点的深度为z′,并且计算其投影深度为zpd,若投影误差Δz=zpd-z′超过设定的阈值τz,那么关键点x被认为是属于动态对象的,从而能够检测出图像帧中被语义分割方法所忽略的动态对象。
优选的是,本发明步骤(3)中,初始化建图过程的方法如下:
将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来,在ORB特征点提取完毕后,首先判断是否检测到动态物体,若没有则直接进行描述子的提取;若检测到动态物体的存在,那么遍历所检测到的ORB特征点是否落在动态物体的轮廓区域内,如果落在该区域内,则赋予动态物体二级语义信息--运动,否则赋予动态物体二级语义信息--静止;对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。
若二级语义信息为运动,那么将动态物体所在的语义分割区域内的ORB特征点作为外点,进行全部剔除后,则得到静态特征点集合,然后对“纯净”的特征点进行描述子的提取;若二级语义信息为静态,则直接提取特征点的描述子。
优选的是,本发明步骤(3)中的顺次执行跟踪、局部建图及回环检测的方法如下:
DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上,由三个并行线程组成:跟踪线程、局部建图和回环检测线程;RGB图像和深度图像及其语义分割掩码被输入到系统中,在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子,通过在局部地图中找到匹配的特征点并且使用光束法平差(Bundle Adjustment,BA)来最小化重投影误差,进而估计相机的位姿;在系统的后端程序中,对于每个在外点剔除过程中被移除的动态对象,我们采用静态背景修复技术来修补被动态对象遮挡的背景,从而获得无动态内容干扰真实的纯静态背景环境的图像。这些合成的包含静态背景环境信息的图像能够用于诸如虚拟现实和增强现实之类的三维重建应用当中,以用于在地图构建以后进行相机位姿的重新定位和持续跟踪。在语义地图构建过程中,利用这些合成帧生成局部三维稠密点云,该局部点云将被转换并且维护在全局八叉树语义地图中。
在全局八叉树语义地图构建过程中,利用不同的颜色来表征场景中不同的物体标志。倘若环境中的物体对象超出了语义知识库的范围,则直接使用物体的原色建在点云地图中。
首先,我们将图像帧中静态的语义分割掩码区域作为物体ID标志,如果在连续的图像帧中该物体为首次出现,则为其作新的ID标志。物体ID标志的预测过程基于以下几何假设:如果八叉树地图中的物体与图像帧中的分割掩码区域同属一个物体对象,那么其投影应该与分割掩码区域重叠。因此,我们采用公式(1)计算两个区域之间的交集IOU以表示它们的重叠程度:
其中,R1,R2分别表示分割掩码区域和八叉树地图中物体的投影区域,当我们判定两个区域是重叠的时候,进一步采用下式评估它们之间的深度一致性:
P(R1|R2)=IoU(R1R2)*e-Err (2)
式中,深度误差Err表示在重叠区域内掩码区域和投影区域深度值之间的MSE,其值如等式(3):
其中,Do(u,v),Dp(u,v)分别表征在像素点(u,v)处掩码区域和投影区域的深度值,N是投影到重叠区域中的点云的数量,如果深度一致性高于阈值θd,则我们将投影区域的物体ID标志分配给语义分割掩码区域,相反,我们为该区域分配了一个新的物体ID标志。
优选的是,本发明全局八叉树语义地图的每个节点属性由6维向量表示,分别是三维空间坐标x,y,z,物体标志i,物体颜色信息c和占据概率值p,以概率形式表达八叉树的节点是否被占据的信息,动态地构建语义地图中的物体对象信息,使用log-odds评分方法来进行占据概率的描述;假设某体素为n,占据概率p的取值范围为0~1,q∈i为概率对数值,则它们之间由logit变换表示如下:
其反变换为
假设第n个体素的观测数据为w,那么在t时刻某个节点的概率对数值为L(n|w1:t),t+1时刻的概率对数值可以表示为
L(n|w1:t+1)=L(n|w1:t-1)+L(n|wt) (6)
通过反变换能够获得该体素的概率值,当由点云转换为全局八叉树语义地图时,每一个体素初始化概率为0.5,概率对数值为0,当不断观测到“占据”时,则其概率对数值增加0.1,否则就让其减小一个0.1,当其概率超过阈值0.8时,就认为该体素是稳定存在的静态物体,才会被显示在八叉树地图中;假设在RGB-D图像中观测到某个像素带有深度值d,这表明在深度值对应的空间点上观察到了一个占据数据,并且从相机光心出发到这个点的线段上,应该是没有物体存在的,实时地对全局八叉树语义地图进行更新,并且能够处理运动的物体对象。
本发明采用上述技术方案,与现有技术相比具有如下优点:
(1)本发明采用了一种结合深度学习方法的新颖的RGB-D SLAM系统,以减少运动物体对相机位姿估计的影响。结合语义分割和基于多视图几何的动静点检测算法的使用作为视觉里程计的数据预处理阶段,以过滤出与动态对象目标有关的数据。
(2)本发明采用了一种静态背景修复技术,用于修复图像中被运动物体对象遮挡的静态环境背景。然后,将这些合成图像帧用于生成语义八叉树三维点云地图。
(3)本发明提高了动态场景下视觉SLAM的位姿估计和轨迹评估的精度,且精度优于现有方法,增强了动态场景下传统视觉SLAM系统的性能的鲁棒性、稳定性以及精确性。
附图说明
图1是本发明外点剔除的流程图。
具体实施方式
一种基于深度学习之目标检测的视觉SLAM方法,实现步骤如下:
步骤(1)通过RGB-D深度相机采集图像,并且对采集到的原始RGB图像进行特征提取和语义分割,得到提取的ORB特征点与像素级语义分割结果;
具体过程如下:
原始的RGB图像首先经过DUNet深度卷积神经网络处理,该语义分割网络能够获得像素级的先验动态对象的分割掩码,例如,行人、汽车和奔跑的狗等。于是,对图像帧中潜在的动态对象完成了语义分割任务,然后在此阶段提取图像的特征点,并且利用图像帧中的静态部分来估计相机的位姿,另外这个阶段的跟踪算法更加容易,计算量也较小。最初DUNet网络是为了对人体眼底视网膜血管复杂的结构进行精确地语义分割,从而辅助诊断病理性疾病而提出的。它是基于FCN架构的神经网络,极大地增强了深度神经网络的分割能力。DUNet建立在U-Net基础之上,并且使用DeformableConvNet(DeformableConvolutional Network,可变形卷积块)作为编码和解码单元。它的网络结构具有U-Net类似的U型架构,两侧对称结构分别是编码器和解码器,原始的U-Net卷积层已由DeformableConvNet所代替。DUNet分割网络中采用了三种图像与处理方法:单通道图像、归一化和对比度有限的自适应直方图均衡(CLAHE)以及gamma校正。DUNet分割网络的编码阶段使用更加丰富的滤波器对较低维度的输入图像进行编码,而解码阶段旨在通过对低维度特征图进行上采样和合并来执行编码的逆过程,从而实现精确的分割定位。
在视觉里程计中加载的DUNet分割网络模型是基于PASCAL VOC数据集训练的。该数据集用于分割任务时能够识别20类物体(除背景以外),在实际应用中,常见的潜在动态物体对象几乎已经包括这20个类别中。如果在真实应用过程中,遇到超出Pascal VOC数据集的类别范畴的实例,我们也可以使用更大的MS COCO数据集来训练我们的深度学习网络。DUNet网络的输入是尺寸为h×w×3的原始RGB图像,网络的输出是尺寸为h×w×n的矩阵,其中h表示图像的像素高度,w表示图像的像素宽度,n表示图像中动态对象的数量。对于每个输出通道i∈n,获取二进制语义分割掩码。然后,通过将所有通道合并成为一个通道,可以获取出现在图像帧中所有的动态对象的语义分割掩码。另外,在DDL-SLAM系统外点剔除的过程中,实际上仅仅需要动态对象的掩码轮廓,若对图像帧中所有的像素都进行语义分割,那么分割后的图像帧中的区域划分会比较混乱,不利于获取动态对象的语义分割掩码过程。而且,我们采用边缘腐蚀膨胀和概率累计的方法来弥补语义分割不精确的缺陷。
步骤(2)根据提取的特征点与语义分割结果,通过基于多视图几何的动静点检测算法,检测出真正属于运动物体对象的分割掩码,然后删除位于动态对象的分割掩码区域内的ORB特征点,以彻底消除动态对象的干扰;
具体过程如下:
尽管大多数动态对象都可以使用DUNet语义分割网络区分出来,但是仍有少数物体对象无法通过这种方式检测到。这是由于它们不是先验动态的对象或者即使属于先验动态的物体对象,但在此刻的场景中它们暂时保持静止不动。此外,还可以检测到大多数情况下都是静态的并且未在语义分割网络阶段设置为动态的,而在事实上为动态的新增添的物体对象。
在计算机视觉应用领域中,多视图几何算法主要指的是采用若干幅连续的二维图像来进行三维重构。在这个理论思想基础之上,我们尝试了一种基于多视图几何的动静点检测算法。该算法的核心思想是,当局部地图中的点投影到当前帧的视角时,其测量的深度值应该和投影的深度值相差不大,否则,就可能是有动态物体遮挡了当前帧的部分视野。对于每个输入图像帧,寻找前面5个和其具有最高相似度的关键帧。然后,计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度zpd。另外,每个关键特征点x对应的空间3D点为X,计算x和x′的反投影之间的视差角α,如果视差角大于30°,则该点可能会被遮挡,此后将被忽略。在TUM RGB-D数据集中,我们发现当视差角大于30°时,静态的物体会被误认为是动态的。于是,我们测得当前帧其余关键点的深度z′,并且计算投影深度zpd,若投影误差Δz=zpd-z′超过设定的阈值τz,关键点x被认为属于动态对象。至此,能够发现图像帧中被语义分割方法所忽略的动态对象。
步骤(3)初始化建图过程,顺次执行跟踪、局部建图以及回环检测线程,根据关键帧位姿和静态背景修复技术获得的合成图像,从而构造出静态场景的八叉树三维点云地图,最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法,被命名为DDL-SLAM系统。
具体过程如下:
动态场景中视觉SLAM的核心问题是剔除动态点。然而,如果只使用语义分割网络来区分图像帧中的静态和动态区域,则当先验动态对象处于静止状态(例如,停放的汽车或坐着看书的人)时,在大的时间跨度进行地图构建的过程中,单纯采用语义分割的方法将会失效。另一方面,在极富挑战性的场景中,运动对象几乎可以覆盖整个图像,使用RANSAC算法进行处理,仍然会有一些剩余的属于动态对象的特征点被误认为是内点,导致在后续的位姿估计过程中引入误差。正因为如此,我们将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来,以准确可靠地去除图像帧中的动态点,减少相机位姿估计、轨迹评估和三维地图构建的误差。在本发明的方法中,我们以“人”为示例的动态对象阐释动态特征点剔除的过程。在ORB特征点提取完毕后,首先判断是否检测到“人”,若没有则直接进行描述子的提取。若检测到人的存在,那么遍历所检测到的动态点是否落在人的轮廓区域内,如果落在该区域内,则赋予人二级语义信息--运动,否则赋予人二级语义信息--静止。在这里,考虑到语义分割边缘的不完整性,对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。若二级语义信息为运动,那么将人所在的语义分割区域的ORB特征点作为外点,进行全部剔除后得到静态特征点集,然后对“纯净”的特征点进行描述子的提取。如果二级语义信息判定为静态,那么直接提取描述子。最后,执行相机位姿估计等其他后续操作步骤。
DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上,主要由三个并行线程组成:跟踪线程、局部建图和回环检测线程。RGB和深度图像及其语义分割掩码被输入到系统的这个阶段。在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子。然后,通过在局部地图中找到匹配的特征点并且使用光束法平差(Bundle Adjustment,BA)来最小化重投影误差,进而估计相机的位姿。此外,在系统的后端程序中,对于每个在外点剔除过程中被移除的动态对象,我们采用静态背景修复技术来修补被动态对象遮挡的背景,从而可以获得无动态内容干扰真实的纯静态背景环境的图像。这些合成的包含静态背景环境信息的图像能够用于诸如虚拟现实和增强现实之类的三维重建应用当中,以用于在地图构建以后进行相机位姿的重新定位和持续跟踪。然后,在语义地图构建过程中,利用这些合成的帧生成局部三维稠密点云,该局部点云将被转换并且维护在全局八叉树语义地图中。
在八叉树语义地图构建过程中,利用不同的颜色来表征场景中不同的物体标志。倘若环境中的物体对象超出了语义知识库的范围,那么则直接使用物体的原色建在点云地图中。首先,我们将图像帧中静态的语义分割掩码区域作为物体ID标志,其目的是为了在八叉树地图中找到对应的物体ID,如果在连续的图像帧中该物体为首次出现,则为其作新的ID标志。物体ID标志的预测过程基于以下几何假设:如果八叉树地图中的物体与图像帧中的分割掩码区域同属一个物体对象,那么其投影应该与分割掩码区域重叠。因此,我们采用公式(1)计算两个区域之间的交集(IOU)以表示它们的重叠程度:
其中,R1,R2分别表示分割掩码区域和八叉树地图中物体的投影区域。当我们判定两个区域是重叠的时候,进一步采用下式评估它们之间的深度一致性:
P(R1|R2)=IoU(R1R2)*e-Err (2)
式中,深度误差Err表示在重叠区域内掩码区域和投影区域深度值之间的MSE(Mean Squared Error,均方误差),其值如等式(3):
其中,Do(u,v),Dp(u,v)分别表征在像素点(u,v)处掩码区域和投影区域的深度值,N是投影到重叠区域中的点云的数量。如果深度一致性高于阈值θd,则我们将投影区域的物体ID标志分配给语义分割掩码区域。相反,我们为该区域分配了一个新的物体ID标志。
在另一方面,八叉树语义地图的每个节点属性由6维向量表示,分别是三维空间坐标x,y,z,物体标志i,物体颜色信息c和占据概率值p。以概率形式表达八叉树的节点是否被占据的信息,因为这样可以动态地建模语义地图中的物体对象信息。文中使用log-odds评分方法来进行占据概率的描述。假设某体素为n,占据概率p的取值范围为0~1,q∈i为概率对数值,则它们之间可由logit变换表示如下:
其反变换为
假设第n个体素的观测数据为w,那么在t时刻某个节点的概率对数值为L(n|w1:t),t+1时刻的概率对数值可以表示为
L(n|w1:t+1)=L(n|w1:t-1)+L(n|wt) (6)
通过反变换能够获得该体素的概率值,当由点云转换为八叉树地图时,每一个体素初始化概率为0.5,概率对数值为0。当不断观测到“占据”时,则其概率对数值增加0.1,否则就让其减小一个0.1。当其概率超过阈值0.8时,认为该体素是稳定存在的静态物体,才会被显示在八叉树地图中。另外,假设在RGB-D图像中观测到某个像素带有深度值d,这表明在深度值对应的空间点上观察到了一个占据数据,并且从相机光心出发到这个点的线段上,应该是没有物体存在的(否则会被遮挡)。利用这个信息,可以实时地对八叉树地图进行更新,并且能处理运动的物体对象。采用这种log-odds概率融合的方式,能够较好的完成面向动态场景的语义建图任务。
实施例1
一种基于深度学习之语义分割的视觉SLAM方法:
步骤1、当获取RGB-D深度相机采集的图像数据后,提取原始RGB图像的ORB特征点,并使用DUNet语义分割网络对RGB图像进行像素级语义分割,获得语义分割掩码。我们的视觉SLAM系统中加载的DUNet的网络模型是基于PASCAL VOC数据集训练的,该数据集用于分割任务时总共可以检测到20个类别,如果在真实应用过程中,遇到超出Pascal VOC数据集的类别范畴的实例,我们也可以使用更大的MS COCO数据集来训练我们的深度学习网络。DUNet网络的输入是尺寸为h×w×3的原始RGB图像,网络的输出是尺寸为h×w×n的矩阵,其中h表示图像的像素高度,w表示图像的像素宽度,n表示图像中动态对象的数量。对于每个输出通道i∈n,获取二进制语义分割掩码。然后,通过将所有通道合并成为一个通道,可以获取出现在图像帧中所有的动态对象的语义分割掩码。
步骤2、尽管大多数动态对象都可以使用DUNet语义分割网络区分出来,但是仍有少数物体对象无法通过这种方式检测到。这是由于它们不是先验动态的对象或者即使属于先验动态的物体对象,但在此刻的场景中它们暂时保持静止不动。此外,还可以检测到大多数情况下都是静态的并且未在语义分割网络阶段设置为动态的,而在事实上为动态的新增添的物体对象。根据上所述特征点与语义分割获得的分割掩码,通过多视图几何的动静点检测算法,检测出动态对象的分割掩码区域,进一步剔除这些区域内的动态特征点。
步骤3、我们将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来,以准确可靠地去除图像帧中的动态点,减少相机位姿估计、轨迹评估和三维地图构建的误差。在本发明的方法中,我们以“人”为示例的动态对象阐释动态特征点剔除的过程。在ORB特征点提取完毕后,首先判断是否检测到“人”,若没有则直接进行描述子的提取。若检测到人的存在,那么遍历所检测到的动态点是否落在人的轮廓区域内,如果落在该区域内,则赋予人二级语义信息--运动,否则赋予人二级语义信息--静止。在这里,考虑到语义分割边缘的不完整性,对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓。若二级语义信息为运动,那么将人所在的语义分割区域的ORB特征点作为外点,进行全部剔除后得到静态特征点集,然后对“纯净”的特征点进行描述子的提取。如果二级语义信息判定为静态,那么直接提取描述子。最后,执行相机位姿估计等其他后续操作步骤。
如表1所示,将本发明方法与现有的传统视觉SLAM系统ORB-SLAM2在TUM RGB-D数据集上进行定量对比,其中TUM RGB-D数据集包含一个低动态场景视频序列fr3/sitting_static、rpy和静态场景视频序列fr2/desk_with_person以及四个高动态场景视频序列fr3/walking_halfsphere、rpy、static和xyz。定量对比结果表明,本发明无论是在低动态场景还是高动态场景中均具有更高的精度和鲁棒性,能更加有效地改善传统视觉SLAM系统应对动态场景的能力,提高系统在动态场景下的定位精度。
表1
两个系统的绝对位姿误差(ATE[m])对比结果
两个系统的相对位姿误差(RPE)对比结果
(a)几何平移漂移误差(MTD[m/s])结果
(b)几何旋转漂移误差(MRD[deg/s])结果
Claims (7)
1.一种基于深度学习之语义分割的视觉SLAM方法,其特征包括如下步骤:
步骤(1)通过RGB-D深度相机采集图像,并且对采集到的原始RGB图像进行特征提取和语义分割,得到提取的ORB特征点与像素级语义分割结果;
步骤(2)根据提取的特征点与语义分割结果,通过基于多视图几何的动静点检测算法,检测出真正属于运动物体对象的分割掩码,然后删除位于动态对象的分割掩码区域内的ORB特征点,以彻底消除动态对象的干扰;
步骤(3)初始化建图过程,顺次执行跟踪、局部建图以及回环检测线程,根据关键帧位姿和静态背景修复技术获得的合成图像,从而构造出静态场景的八叉树三维点云地图,最终实现面向动态场景的基于深度学习之语义分割的视觉SLAM方法。
2.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法,其特征在于上述步骤(1)的具体过程如下:原始的RGB图像首先经过DUNet深度卷积神经网络处理,该语义分割网络能够获得像素级的先验动态对象的分割掩码,对图像帧中潜在的动态对象完成了语义分割任务,然后在此阶段提取图像的ORB特征点,并且利用图像帧中的静态部分来估计相机的位姿;
在视觉里程计中加载的DUNet分割网络模型是基于PASCAL VOC数据集或MS COCO数据集进行训练的,DUNet网络的输入是尺寸为h×w×3的原始RGB图像,网络的输出是尺寸为h×w×n的矩阵,其中h表示图像的像素高度,w表示图像的像素宽度,n表示图像中动态对象的数量;对于每个输出通道i∈n,获取二进制语义分割掩码,通过将所有通道合并成为一个通道,得到出现在图像帧中所有动态对象的语义分割掩码。
3.根据权利要求2所述的基于深度学习之语义分割的视觉SLAM方法,其特征在于上述DUNet是建立在U-Net基础之上,并且使用DeformableConvNet作为编码和解码单元,DUNet的网络结构为U型架构,两侧对称结构分别是编码器和解码器;DUNet分割网络中采用了三种图像与处理方法:单通道图像、归一化和对比度有限的自适应直方图均衡以及gamma校正。
4.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法,其特征在于上述步骤(2)中,根据提取的ORB特征点与语义分割结果,通过基于多视图几何的动静点检测算法,检测出真正属于运动物体对象的分割掩码,然后彻底删除位于动态对象的分割掩码区域内的ORB特征点,具体方法如下:
当局部地图中的点投影到当前帧的视角时,其测量的深度值应该和投影的深度值相差不大,若相差较大,则断定为有动态物体遮挡了当前帧的部分视野;对于每个输入图像帧,检索前面5个和其具有最高相似度的关键帧,计算每个关键特征点x从先前的关键帧到当前帧的投影点x′以及它们的投影深度zpd;每个关键特征点x对应的空间3D点为X,计算x和x′的反投影之间的视差角α,如果视差角大于30°,则该点可能会被遮挡,在后续计算中将被忽略;若测得当前帧剩余关键点的深度为z′,并且计算其投影深度为zpd,若投影误差Δz=zpd-z′超过设定的阈值τz,关键点x被认为是属于动态对象的,从而能够检测出图像帧中被语义分割方法所忽略的动态对象。
5.根据权利要求1所述的基于深度学习之语义分割的视觉SLAM方法,其特征在于上述步骤(3)中,初始化建图过程的方法如下:
将深度学习的语义分割方法与基于多视图几何的动静点检测算法结合起来,在ORB特征点提取完毕后,首先判断是否检测到动态物体,若没有则直接进行描述子的提取;若检测到动态物体的存在,那么遍历所检测到的ORB特征点是否落在动态物体的轮廓区域内,如果落在该区域内,则赋予动态物体二级语义信息--运动,否则赋予动态物体二级语义信息--静止;对分割掩码区域向外膨胀10个像素点以确保能够完全覆盖物体对象的实际轮廓;
若二级语义信息为运动,那么将动态物体所在的语义分割区域内的ORB特征点作为外点,进行全部剔除后,则得到静态特征点集合,然后对“纯净”的特征点进行描述子的提取;若二级语义信息为静态,则直接提取特征点的描述子。
6.根据权利要求5所属的基于深度学习之语义分割的视觉SLAM方法,其特征在于上述步骤(3)中的顺次执行跟踪、局部建图及回环检测的方法如下:
DDL-SLAM系统的跟踪和建图模块建立在ORB-SLAM2框架上,由三个并行线程组成:跟踪线程、局部建图和回环检测线程;RGB图像和深度图像及其语义分割掩码被输入到系统中,在跟踪线程中提取图像帧中静态区域的ORB特征点的描述子,通过在局部地图中找到匹配的特征点并且使用光束法平差来最小化重投影误差,进而估计相机的位姿;在系统的后端程序中,对于每个在外点剔除过程中被移除的动态对象,采用静态背景修复技术来修补被动态对象遮挡的背景,从而获得无动态内容干扰真实的纯静态背景环境的图像;这些合成的包含静态背景环境信息的图像用于三维重建应用当中,以用于在地图构建以后进行相机位姿的重新定位和持续跟踪;在语义地图构建过程中,利用这些合成帧生成局部三维稠密点云,该局部点云将被转换并且维护在全局八叉树语义地图中;
在全局八叉树语义地图构建过程中,利用不同的颜色来表征场景中不同的物体标志;倘若环境中的物体对象超出了语义知识库的范围,则直接使用物体的原色建在点云地图中;
首先,我们将图像帧中静态的语义分割掩码区域作为物体ID标志,如果在连续的图像帧中该物体为首次出现,则为其作新的ID标志。物体ID标志的预测过程基于以下几何假设:如果八叉树地图中的物体与图像帧中的分割掩码区域同属一个物体对象,那么其投影应该与分割掩码区域重叠。因此,我们采用公式(1)计算两个区域之间的交集IOU以表示它们的重叠程度:
其中,R1,R2分别表示分割掩码区域和八叉树地图中物体的投影区域,当我们判定两个区域是重叠的时候,进一步采用下式评估它们之间的深度一致性:
P(R1|R2)=IoU(R1R2)*e-Err (2)
式中,深度误差Err表示在重叠区域内掩码区域和投影区域深度值之间的MSE,其值如等式(3):
其中,Do(u,v),Dp(u,v)分别表征在像素点(u,v)处掩码区域和投影区域的深度值,N是投影到重叠区域中的点云的数量,如果深度一致性高于阈值θd,则我们将投影区域的物体ID标志分配给语义分割掩码区域,相反,我们为该区域分配了一个新的物体ID标志。
7.根据权利要求6所属的基于深度学习之语义分割的视觉SLAM方法,其特征在于全局八叉树语义地图的每个节点属性由6维向量表示,分别是三维空间坐标x,y,z,物体标志i,物体颜色信息c和占据概率值p,以概率形式表达八叉树的节点是否被占据的信息,动态地构建语义地图中的物体对象信息,使用log-odds评分方法来进行占据概率的描述;假设某体素为n,占据概率p的取值范围为0~1,为概率对数值,则它们之间由logit变换表示如下:
其反变换为
假设第n个体素的观测数据为w,那么在t时刻某个节点的概率对数值为L(n|w1:t),t+1时刻的概率对数值可以表示为
L(n|w1:t+1)=L(n|w1:t-1)+L(n|wt) (6)
通过反变换能够获得该体素的概率值,当由点云转换为全局八叉树语义地图时,每一个体素初始化概率为0.5,概率对数值为0,当不断观测到“占据”时,则其概率对数值增加0.1,否则就让其减小一个0.1,当其概率超过阈值0.8时,就认为该体素是稳定存在的静态物体,才会被显示在八叉树地图中;假设在RGB-D图像中观测到某个像素带有深度值d,这表明在深度值对应的空间点上观察到了一个占据数据,并且从相机光心出发到这个点的线段上,应该是没有物体存在的,实时地对全局八叉树语义地图进行更新,并且能够处理运动的物体对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978343.0A CN112132897A (zh) | 2020-09-17 | 2020-09-17 | 一种基于深度学习之语义分割的视觉slam方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978343.0A CN112132897A (zh) | 2020-09-17 | 2020-09-17 | 一种基于深度学习之语义分割的视觉slam方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132897A true CN112132897A (zh) | 2020-12-25 |
Family
ID=73846482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010978343.0A Pending CN112132897A (zh) | 2020-09-17 | 2020-09-17 | 一种基于深度学习之语义分割的视觉slam方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132897A (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767485A (zh) * | 2021-01-26 | 2021-05-07 | 哈尔滨工业大学(深圳) | 一种基于静态语义信息的点云地图创建与场景辨识方法 |
CN112818997A (zh) * | 2021-01-29 | 2021-05-18 | 北京迈格威科技有限公司 | 图像合成方法、装置、电子设备及计算机可读存储介质 |
CN112902953A (zh) * | 2021-01-26 | 2021-06-04 | 中国科学院国家空间科学中心 | 一种基于slam技术的自主位姿测量方法 |
CN112967317A (zh) * | 2021-03-09 | 2021-06-15 | 北京航空航天大学 | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 |
CN113129419A (zh) * | 2021-04-27 | 2021-07-16 | 南昌虚拟现实研究院股份有限公司 | 基于语义的智能视觉交互方法及系统 |
CN113160401A (zh) * | 2021-03-29 | 2021-07-23 | 东北大学 | 一种面向物体的视觉slam轻量化语义地图创建方法 |
CN113178009A (zh) * | 2021-04-19 | 2021-07-27 | 中国人民解放军陆军工程大学 | 一种利用点云分割和网格修补的室内三维重建方法 |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN113359154A (zh) * | 2021-05-24 | 2021-09-07 | 邓良波 | 一种室内外通用的高精度实时测量方法 |
CN113378860A (zh) * | 2021-06-30 | 2021-09-10 | 哈尔滨理工大学 | 一种基于分形维数的图像特征提取系统及方法 |
CN113516664A (zh) * | 2021-09-02 | 2021-10-19 | 长春工业大学 | 一种基于语义分割动态点的视觉slam方法 |
CN113569706A (zh) * | 2021-07-23 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 视频场景分割点判断方法、系统、存储介质及电子设备 |
CN113673524A (zh) * | 2021-07-05 | 2021-11-19 | 北京物资学院 | 一种仓库半结构化环境动态特征点祛除方法及装置 |
CN113673400A (zh) * | 2021-08-12 | 2021-11-19 | 土豆数据科技集团有限公司 | 基于深度学习的实景三维语义重建方法、装置及存储介质 |
CN113674416A (zh) * | 2021-08-26 | 2021-11-19 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN113763468A (zh) * | 2021-01-21 | 2021-12-07 | 北京京东乾石科技有限公司 | 一种定位方法、装置、系统及存储介质 |
CN113792699A (zh) * | 2021-09-24 | 2021-12-14 | 北京易航远智科技有限公司 | 一种基于语义点云的对象级快速场景识别方法 |
CN113899361A (zh) * | 2021-12-10 | 2022-01-07 | 西安电子科技大学 | 基于空间划分的slam快速回环检测方法 |
CN114283199A (zh) * | 2021-12-29 | 2022-04-05 | 北京航空航天大学 | 一种面向动态场景的点线融合语义slam方法 |
CN114463334A (zh) * | 2021-12-17 | 2022-05-10 | 哈尔滨理工大学 | 一种基于语义分割的内腔视觉slam方法 |
CN114549549A (zh) * | 2022-02-10 | 2022-05-27 | 北京工业大学 | 一种动态环境下基于实例分割的动态目标建模跟踪方法 |
CN114677323A (zh) * | 2021-12-31 | 2022-06-28 | 北京工业大学 | 一种室内动态场景下基于目标检测的语义视觉slam定位方法 |
CN114708321A (zh) * | 2022-01-12 | 2022-07-05 | 北京航空航天大学 | 一种基于语义的相机位姿估计方法及系统 |
CN114757964A (zh) * | 2022-04-11 | 2022-07-15 | 哈尔滨工业大学(深圳) | 双视觉飞行机械臂系统及动态目标位姿估计与主动重建方法 |
CN114782691A (zh) * | 2022-04-20 | 2022-07-22 | 安徽工程大学 | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 |
CN114820639A (zh) * | 2021-01-19 | 2022-07-29 | 北京四维图新科技股份有限公司 | 基于动态场景的图像处理方法、装置、设备及存储介质 |
CN114972501A (zh) * | 2022-04-21 | 2022-08-30 | 东北大学 | 一种基于先验语义地图结构信息和语义信息的视觉定位算法 |
CN115063550A (zh) * | 2022-07-22 | 2022-09-16 | 合肥工业大学 | 一种语义点云地图构建方法、系统及智能机器人 |
CN115115918A (zh) * | 2022-06-16 | 2022-09-27 | 上海人工智能创新中心 | 一种基于多知识融合的视觉学习方法 |
WO2022217794A1 (zh) * | 2021-04-12 | 2022-10-20 | 深圳大学 | 一种动态环境移动机器人的定位方法 |
CN115451939A (zh) * | 2022-08-19 | 2022-12-09 | 中国人民解放军国防科技大学 | 基于检测分割的动态场景下的并行slam方法 |
CN115496818A (zh) * | 2022-11-08 | 2022-12-20 | 之江实验室 | 一种基于动态物体分割的语义图压缩方法和装置 |
CN115661821A (zh) * | 2022-12-22 | 2023-01-31 | 摩尔线程智能科技(北京)有限责任公司 | 回环检测方法、装置、电子设备、存储介质和程序产品 |
CN115937451A (zh) * | 2022-12-16 | 2023-04-07 | 武汉大学 | 基于视觉slam的动态场景多语义地图构建方法及设备 |
CN116147618A (zh) * | 2023-01-17 | 2023-05-23 | 中国科学院国家空间科学中心 | 一种适用动态环境的实时状态感知方法及系统 |
CN116245899A (zh) * | 2022-12-29 | 2023-06-09 | 淮北矿业(集团)有限责任公司物业分公司 | 一种基于Canny边缘的动态视觉里程计方法 |
CN116468786A (zh) * | 2022-12-16 | 2023-07-21 | 中国海洋大学 | 一种面向动态环境的基于点线联合的语义slam方法 |
CN116824150A (zh) * | 2023-04-24 | 2023-09-29 | 苏州梅曼智能科技有限公司 | 一种基于生成对抗模型的工业图像特征的提取方法 |
WO2024005707A1 (en) * | 2022-07-01 | 2024-01-04 | Grabtaxi Holdings Pte. Ltd. | Method, device and system for detecting dynamic occlusion |
CN114972501B (zh) * | 2022-04-21 | 2024-07-02 | 东北大学 | 一种基于先验语义地图结构信息和语义信息的视觉定位方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325843A (zh) * | 2020-03-09 | 2020-06-23 | 北京航空航天大学 | 一种基于语义逆深度滤波的实时语义地图构建方法 |
-
2020
- 2020-09-17 CN CN202010978343.0A patent/CN112132897A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325843A (zh) * | 2020-03-09 | 2020-06-23 | 北京航空航天大学 | 一种基于语义逆深度滤波的实时语义地图构建方法 |
Non-Patent Citations (3)
Title |
---|
FANGWEI ZHONG, ET AL.: "Detect-SLAM: Making Object Detection and SLAM Mutually Beneficial", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》, pages 1005 * |
QQ_42424625: "octomap的入门与学习", 《HTTPS://BLOG.CSDN.NET/QQ_42424625》, pages 1 * |
YONGBAO AI,ET AL.: "DDL-SLAM: A Robust RGB-D SLAM in Dynamic Environments Combined With Deep Learning", 《IEEE ACCESS》, pages 162336 - 162338 * |
Cited By (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820639A (zh) * | 2021-01-19 | 2022-07-29 | 北京四维图新科技股份有限公司 | 基于动态场景的图像处理方法、装置、设备及存储介质 |
CN113763468A (zh) * | 2021-01-21 | 2021-12-07 | 北京京东乾石科技有限公司 | 一种定位方法、装置、系统及存储介质 |
CN113763468B (zh) * | 2021-01-21 | 2023-12-05 | 北京京东乾石科技有限公司 | 一种定位方法、装置、系统及存储介质 |
CN112902953A (zh) * | 2021-01-26 | 2021-06-04 | 中国科学院国家空间科学中心 | 一种基于slam技术的自主位姿测量方法 |
CN112767485A (zh) * | 2021-01-26 | 2021-05-07 | 哈尔滨工业大学(深圳) | 一种基于静态语义信息的点云地图创建与场景辨识方法 |
CN112767485B (zh) * | 2021-01-26 | 2023-07-07 | 哈尔滨工业大学(深圳) | 一种基于静态语义信息的点云地图创建与场景辨识方法 |
CN112818997A (zh) * | 2021-01-29 | 2021-05-18 | 北京迈格威科技有限公司 | 图像合成方法、装置、电子设备及计算机可读存储介质 |
CN112967317A (zh) * | 2021-03-09 | 2021-06-15 | 北京航空航天大学 | 一种动态环境下基于卷积神经网络架构的视觉里程计方法 |
CN113160401A (zh) * | 2021-03-29 | 2021-07-23 | 东北大学 | 一种面向物体的视觉slam轻量化语义地图创建方法 |
CN113160401B (zh) * | 2021-03-29 | 2023-11-17 | 东北大学 | 一种面向物体的视觉slam轻量化语义地图创建方法 |
WO2022217794A1 (zh) * | 2021-04-12 | 2022-10-20 | 深圳大学 | 一种动态环境移动机器人的定位方法 |
CN113178009A (zh) * | 2021-04-19 | 2021-07-27 | 中国人民解放军陆军工程大学 | 一种利用点云分割和网格修补的室内三维重建方法 |
CN113178009B (zh) * | 2021-04-19 | 2023-08-25 | 中国人民解放军陆军工程大学 | 一种利用点云分割和网格修补的室内三维重建方法 |
CN113284173B (zh) * | 2021-04-20 | 2023-12-19 | 中国矿业大学 | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN113129419A (zh) * | 2021-04-27 | 2021-07-16 | 南昌虚拟现实研究院股份有限公司 | 基于语义的智能视觉交互方法及系统 |
CN113129419B (zh) * | 2021-04-27 | 2023-06-20 | 南昌虚拟现实研究院股份有限公司 | 基于语义的智能视觉交互方法及系统 |
CN113359154A (zh) * | 2021-05-24 | 2021-09-07 | 邓良波 | 一种室内外通用的高精度实时测量方法 |
CN113378860A (zh) * | 2021-06-30 | 2021-09-10 | 哈尔滨理工大学 | 一种基于分形维数的图像特征提取系统及方法 |
CN113673524A (zh) * | 2021-07-05 | 2021-11-19 | 北京物资学院 | 一种仓库半结构化环境动态特征点祛除方法及装置 |
CN113569706A (zh) * | 2021-07-23 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 视频场景分割点判断方法、系统、存储介质及电子设备 |
CN113569706B (zh) * | 2021-07-23 | 2024-03-01 | 上海明略人工智能(集团)有限公司 | 视频场景分割点判断方法、系统、存储介质及电子设备 |
CN113673400A (zh) * | 2021-08-12 | 2021-11-19 | 土豆数据科技集团有限公司 | 基于深度学习的实景三维语义重建方法、装置及存储介质 |
CN113674416B (zh) * | 2021-08-26 | 2024-04-26 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN113674416A (zh) * | 2021-08-26 | 2021-11-19 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN113516664A (zh) * | 2021-09-02 | 2021-10-19 | 长春工业大学 | 一种基于语义分割动态点的视觉slam方法 |
CN113792699A (zh) * | 2021-09-24 | 2021-12-14 | 北京易航远智科技有限公司 | 一种基于语义点云的对象级快速场景识别方法 |
CN113792699B (zh) * | 2021-09-24 | 2024-03-12 | 北京易航远智科技有限公司 | 一种基于语义点云的对象级快速场景识别方法 |
CN113899361A (zh) * | 2021-12-10 | 2022-01-07 | 西安电子科技大学 | 基于空间划分的slam快速回环检测方法 |
CN113899361B (zh) * | 2021-12-10 | 2022-03-01 | 西安电子科技大学 | 基于空间划分的slam快速回环检测方法 |
CN114463334A (zh) * | 2021-12-17 | 2022-05-10 | 哈尔滨理工大学 | 一种基于语义分割的内腔视觉slam方法 |
CN114283199A (zh) * | 2021-12-29 | 2022-04-05 | 北京航空航天大学 | 一种面向动态场景的点线融合语义slam方法 |
CN114677323A (zh) * | 2021-12-31 | 2022-06-28 | 北京工业大学 | 一种室内动态场景下基于目标检测的语义视觉slam定位方法 |
CN114708321A (zh) * | 2022-01-12 | 2022-07-05 | 北京航空航天大学 | 一种基于语义的相机位姿估计方法及系统 |
CN114549549B (zh) * | 2022-02-10 | 2024-04-02 | 北京工业大学 | 一种动态环境下基于实例分割的动态目标建模跟踪方法 |
CN114549549A (zh) * | 2022-02-10 | 2022-05-27 | 北京工业大学 | 一种动态环境下基于实例分割的动态目标建模跟踪方法 |
CN114757964A (zh) * | 2022-04-11 | 2022-07-15 | 哈尔滨工业大学(深圳) | 双视觉飞行机械臂系统及动态目标位姿估计与主动重建方法 |
CN114782691A (zh) * | 2022-04-20 | 2022-07-22 | 安徽工程大学 | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 |
US11763485B1 (en) | 2022-04-20 | 2023-09-19 | Anhui University of Engineering | Deep learning based robot target recognition and motion detection method, storage medium and apparatus |
CN114972501B (zh) * | 2022-04-21 | 2024-07-02 | 东北大学 | 一种基于先验语义地图结构信息和语义信息的视觉定位方法 |
CN114972501A (zh) * | 2022-04-21 | 2022-08-30 | 东北大学 | 一种基于先验语义地图结构信息和语义信息的视觉定位算法 |
CN115115918A (zh) * | 2022-06-16 | 2022-09-27 | 上海人工智能创新中心 | 一种基于多知识融合的视觉学习方法 |
CN115115918B (zh) * | 2022-06-16 | 2024-05-31 | 上海人工智能创新中心 | 一种基于多知识融合的视觉学习方法 |
WO2024005707A1 (en) * | 2022-07-01 | 2024-01-04 | Grabtaxi Holdings Pte. Ltd. | Method, device and system for detecting dynamic occlusion |
CN115063550A (zh) * | 2022-07-22 | 2022-09-16 | 合肥工业大学 | 一种语义点云地图构建方法、系统及智能机器人 |
CN115063550B (zh) * | 2022-07-22 | 2022-11-11 | 合肥工业大学 | 一种语义点云地图构建方法、系统及智能机器人 |
CN115451939B (zh) * | 2022-08-19 | 2024-05-07 | 中国人民解放军国防科技大学 | 基于检测分割的动态场景下的并行slam方法 |
CN115451939A (zh) * | 2022-08-19 | 2022-12-09 | 中国人民解放军国防科技大学 | 基于检测分割的动态场景下的并行slam方法 |
CN115496818B (zh) * | 2022-11-08 | 2023-03-10 | 之江实验室 | 一种基于动态物体分割的语义图压缩方法和装置 |
CN115496818A (zh) * | 2022-11-08 | 2022-12-20 | 之江实验室 | 一种基于动态物体分割的语义图压缩方法和装置 |
CN116468786A (zh) * | 2022-12-16 | 2023-07-21 | 中国海洋大学 | 一种面向动态环境的基于点线联合的语义slam方法 |
CN115937451A (zh) * | 2022-12-16 | 2023-04-07 | 武汉大学 | 基于视觉slam的动态场景多语义地图构建方法及设备 |
CN116468786B (zh) * | 2022-12-16 | 2023-12-26 | 中国海洋大学 | 一种面向动态环境的基于点线联合的语义slam方法 |
CN115937451B (zh) * | 2022-12-16 | 2023-08-25 | 武汉大学 | 基于视觉slam的动态场景多语义地图构建方法及设备 |
CN115661821A (zh) * | 2022-12-22 | 2023-01-31 | 摩尔线程智能科技(北京)有限责任公司 | 回环检测方法、装置、电子设备、存储介质和程序产品 |
CN116245899B (zh) * | 2022-12-29 | 2024-03-26 | 淮北矿业(集团)有限责任公司物业分公司 | 一种基于Canny边缘的动态视觉里程计方法 |
CN116245899A (zh) * | 2022-12-29 | 2023-06-09 | 淮北矿业(集团)有限责任公司物业分公司 | 一种基于Canny边缘的动态视觉里程计方法 |
CN116147618A (zh) * | 2023-01-17 | 2023-05-23 | 中国科学院国家空间科学中心 | 一种适用动态环境的实时状态感知方法及系统 |
CN116147618B (zh) * | 2023-01-17 | 2023-10-13 | 中国科学院国家空间科学中心 | 一种适用动态环境的实时状态感知方法及系统 |
CN116824150A (zh) * | 2023-04-24 | 2023-09-29 | 苏州梅曼智能科技有限公司 | 一种基于生成对抗模型的工业图像特征的提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132897A (zh) | 一种基于深度学习之语义分割的视觉slam方法 | |
US20200218929A1 (en) | Visual slam method and apparatus based on point and line features | |
WO2022188094A1 (zh) | 一种点云匹配方法及装置、导航方法及设备、定位方法、激光雷达 | |
Palazzolo et al. | Fast image-based geometric change detection given a 3d model | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
Košecka | Detecting changes in images of street scenes | |
CN114782499A (zh) | 一种基于光流和视图几何约束的图像静态区域提取方法及装置 | |
CN113223045A (zh) | 基于动态物体语义分割的视觉与imu传感器融合定位系统 | |
Yang et al. | CubeSLAM: Monocular 3D object detection and SLAM without prior models | |
CN114708293A (zh) | 基于深度学习点线特征和imu紧耦合的机器人运动估计方法 | |
Heo et al. | Hd map change detection with cross-domain deep metric learning | |
Park et al. | Nonparametric background model-based LiDAR SLAM in highly dynamic urban environments | |
Zhu et al. | A review of 6d object pose estimation | |
CN111444768A (zh) | 一种用于反光地面场景的微小障碍物发现方法 | |
CN111914832A (zh) | 一种rgb-d相机在动态场景下的slam方法 | |
Xi et al. | Multi-motion segmentation: Combining geometric model-fitting and optical flow for RGB sensors | |
Ballardini et al. | Visual localization at intersections with digital maps | |
CN113362358A (zh) | 一种动态场景下基于实例分割的鲁棒性位姿估计方法 | |
Palazzolo et al. | Change detection in 3d models based on camera images | |
CN112348854A (zh) | 一种基于深度学习视觉惯性里程检测方法 | |
CN112884835A (zh) | 一种基于深度学习之目标检测的视觉slam方法 | |
CN115511970B (zh) | 一种面向自主泊车的视觉定位方法 | |
CN116429087A (zh) | 一种适应于动态环境的视觉slam方法 | |
CN113570713B (zh) | 一种面向动态环境的语义地图构建方法及装置 | |
CN113837243B (zh) | 基于边缘信息的rgb-d相机动态视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |