CN109636905A - 基于深度卷积神经网络的环境语义建图方法 - Google Patents

基于深度卷积神经网络的环境语义建图方法 Download PDF

Info

Publication number
CN109636905A
CN109636905A CN201811492375.9A CN201811492375A CN109636905A CN 109636905 A CN109636905 A CN 109636905A CN 201811492375 A CN201811492375 A CN 201811492375A CN 109636905 A CN109636905 A CN 109636905A
Authority
CN
China
Prior art keywords
depth
dimensional
segmentation
network
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811492375.9A
Other languages
English (en)
Other versions
CN109636905B (zh
Inventor
张云洲
胡美玉
秦操
张维智
张括嘉
张珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201811492375.9A priority Critical patent/CN109636905B/zh
Publication of CN109636905A publication Critical patent/CN109636905A/zh
Application granted granted Critical
Publication of CN109636905B publication Critical patent/CN109636905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2012Colour editing, changing, or manipulating; Use of colour codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Remote Sensing (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于深度卷积神经网络的环境语义建图方法,该方法能够借助深度学习在场景识别方面的优势,与SLAM技术的自主定位优势相结合,构建包含物体类别信息的环境地图。具体地,利用ORB‑SLAM对输入图像序列进行关键帧筛选和帧间位姿估计;利用一种基于Deeplab图像分割的改进方法进行二维语义分割;在卷积网络最后一层的后面引入上采样卷积层;利用深度信息作为门限信号控制不同卷积核的选择,并对齐分割后的图像与深度图,利用相邻关键帧之间的空间对应关系构建三维稠密语义地图。上述方案能够提高图像分割的精度,具有更高的构图效率。

Description

基于深度卷积神经网络的环境语义建图方法
技术领域
本发明涉及数字图像处理领域及计算机视觉领域,具体涉及一种基于深度卷积神经网络的环境语义建图方法。
背景技术
准确地获得环境信息,是移动机器人自主执行任务的关键环节。机器人在运动时可通过SLAM技术形成对周围环境的描述,即环境地图。然而,传统的SLAM构图仅考虑几何数据,无法获取地图中物体的类别与种类,提供的信息不足、特征的区分性比较弱。语义信息包括物体类别、目标检测和语义分割等,可以对场景内容进行理解,帮助机器人以目标为导向执行任务。因此,二者相结合是必然需求。
在结合语义和几何信息进行环境建模方面,最初的研究是将场景标注与SLAM相结合,随后出现了基于数据库的方法。自2015年以来,开始提出机器学习方法或深度学习图像语义理解与SLAM结合的方法。但图像分割部分大多采用FCN,效果不够理想。
在SLAM领域,业内人士构建了基于面元的环境地图,但没有位姿图优化和闭环检测,并且受限于地图房间的大小,地图复杂性与点元的数量成正比。业内人士还接受视觉传感器的图像信息,在局部关键帧集合上进行线束平差法,地图规模增大不会导致算法的复杂性急剧升高,并且当闭环出现之后,进行全局线束平差法优化,可得到全局一致性地图,可在CPU上实现。
语义分割的目的是给图像中的每个像素分配一个类别的标签,是语义建图的重要步骤。深度学习方法可以实现较高精度的语义分割,代表性的方法是全卷积神经网络(FCN),可以将神经网络的最后几层全连接层替换成卷积层,实现端到端的学习,在任何尺寸的图片上都可以进行预测。后续的图像语义分割方法主要是从三个方面进行改进:(1)采用更深的网络结构。例如,将16层的VGG16网络结构换成101层或152层从而能够表示更复杂的模型,学习到更具有区分性的特征;(2)在预测结果后面加上后处理操作。例如引入条件随机场,可以通过近似均值场推断将其整合到网络中,可以得到端到端的结果,也有一些方法会在条件随机场基础上加入边,物体的检测等额外的信息。(3)采用编码-解码的结构,既可以提取到图像特征也可以保持较大的感受野,但网络的深度也会更深。
在语义构图方面,另外的研究人员提出的SLAM++系统是目前效果较好的语义建图方法,它将点云的特征与预先准备好的物体数据库进行比对,若发现匹配的物体则将对应点云放入地图中。但是,SLAM++只能对预定义的物体进行建图,而且其用于匹配模板模型的特征是手动提取的。此外,一些人认为三维点云的稠密语义分割比较困难,在二维图片上分割效果较好,因而采用基于贝叶斯更新和稠密条件随机场进行2D-3D的标签转换,产生一致的三维语义重构。例如,将语义分割与半稠密的大规模的直接法(Large-Scale Direct)单目SLAM融合,通过超像素分割得到图像中的平面,将平面分割结果与LSD对边缘等比较显著的结果进行融合,得到较稠密的实时建图结果,其缺点是对平面的精确度不够理想。还有研究人员提出用CNN预测深度图,与单目SLAM获得的深度测量融合,从单帧图像中获取语义标签与SLAM融合,得到单一视角下的重构,该方法主要侧重深度预测与融合。业内还存在提出利用稠密的Elastic Fusion构建三维环境地图,以反卷积神经网络进行图像分割,该方法采用稠密的Elastic Fusion建图相对耗时,耗费资源多。
发明内容
针对现有技术中的问题,本发明提供一种基于深度卷积神经网络的环境语义建图方法,该方法提高了图像语义分割效果,能够构建准确、鲁棒的三维环境语义地图,具有更高的构图效率。
第一方面,本发明提供一种基于深度卷积神经网络的环境语义建图方法,包括:
S1、采集图像序列,根据采集的图像序列,筛选关键帧;
S2、根据关键帧,获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计;
S3、采用基于深度学习的语义分割网络结构,对关键帧彩色图序列进行处理,获取带有语义标签的分割结果图像;
S4、将语义分割结果图像与关键帧深度图序列中的深度图进行时间戳对齐,通过相邻帧间的位姿估计构建三维点云地图,所述三维点云地图的场景三维携带标签信息;
可选地,所述步骤S4包括:
S5、基于语义标签的相邻空间位置关系和颜色关系对三维点云地图进行优化处理,具体地,利用三维点云地图中相邻三维点的距离和颜色得分的相似性,更新三维点的状态,以产生全局一致性的三维点云地图;
可选地,所述步骤S2包括:
S6、采用ORB-SLAM从采集的图像序列,筛选关键帧,并获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计;
可选地,所述步骤S3包括:
S7、基于深度学习的语义分割网络结构包括:依次连接的ResNet101网络、深度值门控模块、空洞空间金字塔池化网络和上采样网络;
针对关键帧彩色图序列的每一彩色图,判断是否能够直接获取深度信息,若能够获取,则将深度值门控模块直接获取深度信息;否则,利用FCRN/SfMLearner预测所述彩色图的深度信息,以将预测的深度信息由深度值门控模块使用;
所述深度值门控模块根据所述深度信息控制选择匹配的空洞空间金字塔池化中空洞卷积核;将深度离散化为五个等级,在空洞空间金字塔池化中自适应地使用不同步幅;近处、远处的物体分别对应小步幅、大步幅;其中,语义分割网络结构采用ResNet101作为基本结构,在每一层网络中采用空洞卷积增加特征的感受野;
可选地,所述步骤S3还包括:
S8、所述上采样网络进行上采样,使上采样网络自适应地学习图像特征,得到与输入图像相同尺度的特征;
具体地,假设原始的输入图像大小为H*W,通道数为C;经卷积得到的特征大小为h*w,通道数为c;其中d=H/h为尺寸之间的比例,将该特征卷积得到同等大小通道数为d*d*L,其中L为类别标签的数目;然后将其变形为原始图像大小H*W,并且此时的通道数为L。
可选地,所述步骤S3还包括:
S9、所述上采样网络还连接稠密全连接条件随机场,所述稠密全连接条件随机场用于对语义分割网络结构分割后的分割结果图像进行后处理;
可选地,所述步骤S4包括:
S10、假设时刻t,某个三维点o的类别为ot,所有与该三维点o有关的像素测量值表示为根据贝叶斯法则,得到下面等式:
其中,Zt为归一化因子,应用马尔科夫假设,由于xt与之前的状态条件独立,故存在
假设后验平滑性,有利用贝叶斯公式,将公式一转化为:
由于先验概率p(xt)是固定的,用表示后验概率,Zt'表示新的归一化因子,得到:
基于当前的所有关键帧,实现语义概率信息的增量融合;
可选地,所述步骤S4还包括:
S11、利用三维稠密条件随机场的方法进行优化包括:假设三维空间中共有N个点,其对应的类别数为k,令O={o1,o2,...,oN}表示与三维点i∈{1,...,N}对应的随机变量集合,每个随机变量对应标签集合L={l1,l2,...,lk}中的一个标签;基于条件随机场,给定点云标签的概率分布表示为:
由于条件随机场符合吉布斯分布,E(o|X)为吉布斯能量函数,表示为:
其中,V为三维空间点的集合,ε为点对之间的边的集合;
其中,一元势能ψu(oi|X)用当前点状态的负对数表示:
ψu(oi|X)=-log(p(oi|X))公式六;
成对势能用外观核与平滑核两个高斯核线性组合:
其中,μ(oi,oj)为简单波茨模型,fi表示与点i对应的特征向量,ω(m)为标签兼容性函数,k(m)为高斯核模型,定义为:
其中,Λ(m)定义核的形状,为对称正定矩阵,每个核的权重定义为ω(m);二元势能是高斯核的混合,利用均值场近似的推断方法来求解;
两个高斯核分别表示为公式九和公式十:
公式九表示外观核,其中p为空间点的三维位置,v为RGB颜色向量,参数θ指定有相似坐标或颜色的点的范围,该函数建立相互连接的点的外观相似模型;公式十表示平滑核,其中s为该位置的标签分数,该核函数建立相互连接的点的位置与置信程度的相似模型。
本发明具有的有益效果如下:
本发明充分利用深度学习场景识别的优势,与SLAM技术对运动目标定位的优势结合,对机器人周围环境进行理解。通过将上采样网络引入Deeplab网络,避免过于粗糙的直接上采样操作容易丢失细节的问题;利用深度图作为门信号控制卷积模式的选择,针对较近的物体可以采用小的空洞步长,远处物体采用较大的空洞步长,以保证对近处物体保持大视野,远处物体保持细节,提高图像分割的精度;利用ORB-SLAM方法得到帧间位姿,投影成三维点云地图,地图规模不会随着场景变大急剧增加,具有更高的构图效率。
附图说明
图1为本发明实施例的环境语义建图方法的框图;
图2为本发明实施例的图像语义分割网络结构的示意图;
图3为本发明实施例提供的感受野与步幅和卷积核的关系示意图;
图4为本发明实施例提供的图像分割效果的示意图;
图5为本发明的方法和现有PSPNet、Mask_RCNN方法的对比示意图;
图6为本发明提供的三维语义地图的示意图;
图7为本发明提供的混淆矩阵的示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本文提出了一种基于深度学习的环境语义建图方法,利用ORB-SLAM对二维图像进行关键帧筛选与帧间相对位姿估计,对关键帧图像进行语义分割,结合深度图得到环境的稠密语义地图。图像语义分割网络采用ResNet101作为基本结构,采用空洞卷积增加特征的感受野,添加空洞空间金字塔池化以适应不同尺度的物体,以稠密上采样网络与深度信息作为门限信号,使用稠密条件随机场后处理,改善分割的效果。得益于精度较高的图像分割效果与ORB-SLAM稳定鲁棒的位姿估计,将二维图像反投影到三维空间中,形成多帧重构,可得到较好的三维环境语义地图。
结合图1所示,本实施例的方法包括如下的实现流程。
当机器人搭载相机等视觉传感器经过未知场景时,构建场景三维携带标签信息的地图至关重要。具体实现的关键技术可被分成二维图像的语义分割、帧间位姿的精准估计、三维语义点云的融合这三个部分。
按照逻辑顺序可表述为:由SLAM完成从输入图像序列中筛选关键帧并进行帧间位姿估计与优化操作;二维语义分割进行关键帧上像素级别分类的预测,获取带有语义标签的分割结果图像;利用帧间位姿将彩色图像与深度图像反投影到三维空间,得到初步三维语义地图,在三维语义地图的优化时,可利用相邻三维点距离和颜色得分的相似性等信息,更新三维点的状态并产生全局一致性的三维地图。
语义分割的网络框图如图2所示,主要包含ResNet101网络、空洞空间金字塔池化、深度值门控模块、上采样网络四个部分。若能够直接获取深度图,则可将深度值直接用于门控单元;否则,可利用FCRN/SfMLearner进行图像深度的预测用于后续的门控。Deeplab采用的结构是ResNet后接ASPP结构,即(a)、(b)两个模块,但是由于深度信息的利用有利于处理不同尺度的物体,使图像分割效果得到提高,本文利用深度信息作为门控信号,控制空洞卷积核的选择,即(c)模块。另外,由于网络的输出特征图会小于输入图片大小,传统方法的思路是直接利用双线性插值上采样,该过程是不可学习的,使得分割效果不够好。本文利用上采样网络完成上采样,使网络自适应地学习图像特征,得到与输入图像相同尺度的特征,从而取得更好的分割效果,即(d)模块。
二维图像语义分割
在深度神经网络中,步幅不为1的卷积与池化过程都会使特征的尺寸变小,如图3(a)所示。可通过减小步幅来增大特征的尺寸,但同时会使感受野变小,如图3(b)所示。为了保持感受野不变,需要增大卷积核尺寸,如图3(c)所示。为避免减小特征尺寸和增大卷积核尺寸,且保持感受野,Deeplab提出在卷积核之间插入若干个0,实现空洞卷积。该方法可以在不增加计算量的同时扩大感受野,保持特征较高的分辨率,避免细节的过度丢失,示意如图3(d)所示。
空洞空间金字塔池化用于解决多尺度的分割问题,可以一次获取不同尺寸感受野后将其并联,其结构如图2(c)所示。现有技术提出当采样比例变大,滤波器有效的权重(即作用在有效特征区域的权重)数量会变得更小,当比例接近特征图的大小时,由于只有中心位置是有效的,滤波器退化成了1*1的滤波器,因此可采用图像级别的特征获取全局上下文。
由于现有技术在网络的最后一层只采用了单纯的双线性插值调整特征到目标尺寸,是不可学习的过程,对细节的处理没有适应性。本文借鉴上采样网络的思想,假设原始的输入图像大小为H*W,通道数为C;经卷积得到的特征大小为h*w,通道数为c;其中d=H/h为尺寸之间的比例,将该特征卷积得到同等大小通道数为d*d*L,其中L为类别标签的数目;然后将其变形为原始图像大小H*W,并且此时的通道数为L。在此过程中,权重可被学习优化,可以得到分割效果的改进。
另外,考虑深度数据的可用性。由于深度模式缺乏其RGB对应的大规模训练数据集,即并没有足够多的包含深度信息的数据集用于训练,所以接受深度信息作为第四通道的方法不可取。本文将深度信息作为一种门信号,将深度离散化为五个等级,在空洞卷积中自适应地使用不同步幅,近处、远处的物体分别对应小步幅、大步幅,这样可以对场景中较远物体保持小细节、较近物体保持大视野。
虽然深度估计得到的深度图会存在误差,但是这种平滑的深度对得到的效果不亚于使用深度真值。可能的原因有三点:首先,由于预测的深度是平滑的,当使用原始的深度图的时候,会对一些看不到的物体分配相同的权重,这样门控实际上就是不同尺度上的平均,这种平均池化可能在某些时候会产生不利的影响;其次,预测的深度图可以针对特定物体的特定模式,这对语义分割会是有利的;再次,深度预测和语义分割可以相辅相成,增加互相的表达能力,有利于最后的分割。
条件随机场是一种常见的后处理手段,在得到最后一层特征基础上操作,在确定一个像素的标签时,会考虑临近像素的标签,可起到去噪的作用。但经过神经网络处理的物体边缘已经很平滑,因此一般不用小范围的条件随机场。考虑到全局信息用全连接条件随机场,本文在网络的末端连接稠密全连接条件随机场进行分割的后处理。
关键帧的获取与帧间位姿估计
ORB-SLAM具有较高的实时性与鲁棒性,可以快速获取关键帧图像并进行准确的帧间相对位姿估计,本文利用ORB-SLAM系统获取位姿。场景中三维点空间位置可以利用关键帧深度图像和对应的帧间位姿求解。每个关键帧Ki={Ii,Di,Pi},包含图片的强度Ii,深度图Di,相邻帧间的相对位姿Pi。本文对每一关键帧RGB图像进行分割,将带有标签的图像与深度图进行时间戳对齐,通过帧间位姿构建三维点云地图。
增量语义标签融合
由于传感器和环境的不确定性,单帧图像的二维语义分割可能会导致连续帧间的标签不一致,因此,可以按照贝叶斯法则从多关键帧获取概率标签。假设时刻t,某个三维点o的类别为ot,所有与该三维点o有关的像素测量值表示为根据贝叶斯法则,得到下面等式:
其中,Zt为归一化因子,应用马尔科夫假设,由于xt与之前的状态条件独立,故存在
假设后验平滑性,有利用贝叶斯公式,将公式一转化为:
由于先验概率p(xt)是固定的,用表示后验概率,Zt'表示新的归一化因子,得到:
基于当前的所有关键帧,实现语义概率信息的增量融合。
利用三维稠密条件随机场的方法进行优化包括:假设三维空间中共有N个点,其对应的类别数为k,令O={o1,o2,...,oN}表示与三维点i∈{1,...,N}对应的随机变量集合,每个随机变量对应标签集合L={l1,l2,...,lk}中的一个标签;基于条件随机场,给定点云标签的概率分布表示为:
由于条件随机场符合吉布斯分布,E(o|X)为吉布斯能量函数,表示为:
其中,V为三维空间点的集合,ε为点对之间的边的集合;
其中,一元势能ψu(oi|X)用当前点状态的负对数表示:
ψu(oi|X)=-log(p(oi|X)) (6)
成对势能用外观核与平滑核两个高斯核线性组合:
其中,μ(oi,oj)为简单波茨模型,fi表示与点i对应的特征向量,ω(m)为标签兼容性函数,k(m)为高斯核模型,定义为:
其中,Λ(m)定义核的形状,为对称正定矩阵,每个核的权重定义为ω(m);二元势能是高斯核的混合,利用均值场近似的推断方法来求解;
两个高斯核分别表示为公式九和公式十:
公式九表示外观核,其中p为空间点的三维位置,v为RGB颜色向量,参数θ指定有相似坐标或颜色的点的范围,该函数建立相互连接的点的外观相似模型;公式十表示平滑核,其中s为该位置的标签分数,该核函数建立相互连接的点的位置与置信程度的相似模型。
实施例二
本实施的方法对应应用设备的硬件配置为Nvidia GTX Titan Xp服务器,测试的系统为Ubuntu14.04。训练各个数据集均使用已经预训练的网络权重作初始化。其它参数如表1所示,其中ε为优化器优化参数。
表1各数据集实验参数
步骤一:由于本文系统提供深度图像,可直接与彩色图对齐后做分割、位姿估计与三维重建。为测试本文提出的语义分割算法效果,分别针对室外场景CityScapes(19类)数据集、室内场景NYUv2数据集(41类)和PASCAL VOC 2012数据集(21类)上训练参数。其中,NYUv2数据集提供可用做视觉里程计的信息。SUN RGB-D数据集中带标签的图像数量级比NYUv2大很多,但是数据不构成序列也没有时间戳,因此只适合对分割算法的验证,无法做里程计也就无法获得场景的三维地图,故本文针对室内场景采用NYUv2数据集验证。
步骤二:针对CityScapes、VOC2012、NYUv2数据集的分割效果分别如图4所示。从左至右各列依次为输入序列、Deeplab分割效果、Deeplab经条件随机场后处理效果、Deeplab加入上采样卷积网络、Deeplab加入深度信息作为门控信号、本文效果与分割真值。需要说明的是,图4(a)、图4(b)和图4(c)从(a)到(c)依次相连属于一个整体图,为方便作为附图展示,进行分开。
现有技术中提出了上采样神经网络的思想,能够自适应地根据输入数据的特点进行上采样。另外,现有还提出利用深度信号提高语义分割效果的思想,可以针对不同大小的物体,对近处和远处的物体效果都会改善。本文利用了上述两种思路,并且针对目前语义分割效果较好的Deeplab网络进行改进,加入条件随机场后可以取得更好的效果。可以看出,虽然存在一定的错误分类情况,但是各算法的分割效果依次改善。存在误判的情况如CityScapes数据集第三行数据中,将阳光阴影下的路缘认为是植被;路灯等小物体的效果仍旧不够理想等,造成这种情况的主要原因是数据集中物体的区分性弱;原来的物体在图片中占据的比例过小,在分割的卷积池化等操作过程中信息发生丢失。
从图4中可以看出,增加上卷积神经网络相比于直接上采样(第二列),针对细节部分有明显的改善。例如,CityScapes数据集中第1幅测试图片中左下角柱子与地面接触的位置,第3、4幅图的植被的效果,第5幅图的柱子与地面相接触的位置;NYUv2数据集第1幅图的显示器部分,第3幅图的抽屉;VOC数据集第1、2、5幅图的手臂细节等均有提升。增加深度信息作为门控信号相比于不利用深度信息(第二列),整体效果有明显的改善。例如,CityScapes数据集第1幅图右面的墙体被误认为是柱子、第3幅图的路面被误认为植被,均得到了有效的修正,第4、5幅图的人腿部分;NYUv2数据集第2幅图的地面部分,第3幅图的镜面;VOC数据集第1幅图的人腿部分、第2幅图的人胳膊部分、第5幅图的马腿部分等均有改善。本文结合上面两种思路,在整体上改善了分割的效果。例如,CityScapes数据集中,第2、3、5幅图的柱子,第4幅图的人腿;NYUv2数据集第3幅图的洗手台,第4幅图的窗子上的物品,第5幅图的桌子腿等;VOC数据集第1、2幅图的自行车,第3幅图的鸟的尾巴和第4幅图的鸟的嘴巴等。
为进行对比证明,分别使用深度学习预测的深度与深度真值进行对比,实验结果如表2所示。可以看出,在图像语义分割方面,使用深度真值和网络估计深度的差别不明显。但若要构建精准的稠密语义地图,利用深度传感器获取的深度图会得到更精确的结果;若无法获取自带深度信息数据的来源,可以利用网络估计的深度图,构建三维语义地图。
表2实验配置以及相应分割精度
总之,针对分割,网络估计的深度不够准确不会产生不良影响,但是在三维构图方面会稍微有些影响,最好能够获取直接的深度图。虽然深度估计会存在偏差,但是并不是所有的传感器都可以直接获取深度,利用深度神经网络预测深度可以降低对传感器的限制,有效拓展了应用范围。
将二维的图像语义分割应用于三维点云地图中,得到如图6所示的三维语义地图。由于多帧的点云匹配和单帧图像的二维语义分割导致连续帧的标签不一致会对最后的结果产生影响,本文分别按两种方式构建了三维地图:(1)筛选其中5帧图像;(2)采用所有的关键帧。其中(a)、(b)分别为利用5帧图像构建的三维地图,(c)、(d)分别为利用数据集中所有关键帧构建的三维语义地图,可以看出帧数较少时地图中存在的空洞比较多,并且一些误分类的点比较明显,采取多帧建图能够改善这种情况。
从实验结果可以看出:得益于较好的分割效果,本文得到的三维语义地图针对室内场景能够识别出场景中的绝大多数物体并建立良好的环境语义地图。
步骤三:为验证本文方法的有效性,分别从二维图像的语义分割效果和三维语义地图两方面进行定量数据分析。
为了进行定量比较,本文还绘制了针对CityScapes数据集基于Deeplab的图像分割方法与基于本文提出的图像分割方法的混淆矩阵,如图7所示。混淆矩阵中对角线元素的颜色相较于其他位置颜色越深说明算法的区分性越大,分割效果越好,从图7(a)和图7(b)可以看出本文算法针对每个类别的准确率大约提升3~5%。
对于二维图像的语义分割,主要比较预训练权重、空间金字塔池化、条件随机场、上采样网络、以深度信息作为门限信号等因素所导致的像素级别精度的差异。具体数据如表2所示,从表中可以看出在经过预训练的网络权重基础上进行微调、空洞空间金字塔操作、上采样网络、深度信息作为门信号的引入都可以明显提高语义分割的效果,而在网络的末端引入条件随机场也有轻微的改善,本发明算法为每个数据集的最后两行,并且由于前面两个数据集规模较大,不易发生过拟合,预测效果较好。
本文提出基于Deeplab进行改进的原因是它具有良好的语义分割效果。而且,Deeplab也在不断的发展当中,研究者提出了许多改进方法。本文提出的基于Deeplab网络的改进主要有两点:引入上采样卷积网络、深度信息的利用。这两点也可以加入到其它的网络中去,因此与其它的方法并不是对立的情形,而是类似于插件的效果。
现有技术中Mask RCNN侧重于对检测结果的利用,利用检测对物体的定位信息可以提高分割的效果。由于检测信息的利用,可以完成实例级别的分割,但实例分割又与语义分割稍有区别,属于不同的分支,有着不同的算法框架。利用MASK RCNN在本文的数据集上进行测试,效果如图5中第3列所示。可以看出该方法对物体的分割效果不是特别精细,主要的原因是因为该方法的掩膜分支上利用小的FCN网络结构,没有过多的技巧,因此如Cityscapes数据集中的车的轮廓,NYU数据集中物体的轮廓,VOC数据集中马和人的轮廓,效果都不够理想。
现有技术PSPNet用于语义分割的效果很好,该方法与Deeplab方法的相同点在于都采用了相同的主干网络,区别在于:(1)Deeplab采用了不同尺度的空洞卷积而PSPNet采用不同尺度的池化;(2)Deeplab在多尺度合并的时候采用元素级别相加,而PSPNet采用的是通道连接。从理论上分析,这两点区别对最终的分割效果影响不大。利用PSPNet网络在本文的数据集上进行测试,测试效果如图5中第2列所示。从实验结果可以看出,PSPNet的效果与Deeplab方法的差异不大。但针对Cityscapes数据集,在诸如地面和树木等的小细节部分,本文效果仍然稍好些。针对NYU数据集中比较杂乱的物体,针对VOC数据集中鸟类,车子和人类的轮廓部分,本文的效果都能稍好些。
在三维语义地图方面,本文主要与现有技术另外的一篇进行对比。二者的差别表现在:现有方法基于反卷积网络、将深度图作为输入的第四通道进行训练与预测、获取基于Elastic Fusion的稠密地图;本文方法基于Deeplab分割方法的改进、深度信息作为一种门控信号控制卷积模式选择、构建稠密的点云地图。由于现有方法只针对NYUv2数据集中的13类物体进行分析,为便于比较,本文也将对其中12类进行预测精度的比较,实验数据如表3所示,从实验表格可以看出,本文方法对床、书、天花板等多数物体的分割准确率高于现有方法,仅桌椅等少数物体略低于现有方法。因此,本文算法的总体效果优于现有技术的方法。
表3NYUv2部分类别测试结果
步骤四:为验证本文方法的效率,分别对各个模块的效率进行测试与分析。各模块效率如表4所示。
表4各个模块运行效率
根据表格可以看出,运行时间大部分消耗在语义分割和条件随机场这两个环节。由于条件随机场对分割提升的效果相对比较小,若想要达到实时的效果,可以采用更加精简的主干网络结构,并且去掉条件随机场的操作。正如表2所示,本文提出的方法在基于ResNet101主干网络上相较于之前的模型有所改进。同理,本文基于ResNet18主干网络的模型效果也优于其他几种基于ResNet18主干网络的模型。当采用基于ResNet18结构的网络时,本文算法的帧率可以达到8~12FPS。
综上,本发明将基于深度卷积神经网络进行环境语义地图构建,对于机器人环境建模,提出了一种构建环境三维语义地图的方法。对二维图像语义分割,利用分割结果,相应的深度图和图像帧间相对位姿将二维图像像素点反投影到三维空间中,得到三维语义点云地图。为取得较好图像分割效果,采用基于Deeplab方法的改进,依旧利用空洞空间金字塔池化处理不同尺度的物体,采用上采样卷积网络替代原始的直接双线性上采样,减轻其过于粗糙和细节丢失的问题,将深度信息作为门信号控制不同的空洞卷积模式提高分割的效果。实验结果表明,基于以上两个方面的改进获取较好的分割效果,得益于较好的分割效果,可以获得环境的三维语义地图。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于深度卷积神经网络的环境语义建图方法,其特征在于,包括:
S1、采集图像序列,根据采集的图像序列,筛选关键帧;
根据关键帧,获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计;
S2、采用基于深度学习的语义分割网络结构,对关键帧彩色图序列进行处理,获取带有语义标签的分割结果图像;
S3、将语义分割结果图像与关键帧深度图序列中的深度图进行时间戳对齐,通过相邻关键帧间的位姿估计构建三维点云地图,所述三维点云地图的场景三维携带标签信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
S4、基于语义标签的相邻空间位置关系和颜色关系对三维点云地图进行优化处理,具体地,利用三维点云地图中相邻三维点的距离和颜色得分的相似性,更新三维点的状态,以产生全局一致性的三维点云地图。
3.根据权利要求1所述的方法,其特征在于,步骤S1包括:
采用ORB-SLAM从采集的图像序列,筛选关键帧,并获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计。
4.根据权利要求1所述的方法,其特征在于,步骤S2包括:
基于深度学习的语义分割网络结构包括:依次连接的ResNet101网络、深度值门控模块、空洞空间金字塔池化网络和上采样网络;
针对关键帧彩色图序列的每一彩色图,判断是否能够直接获取深度信息,若能够获取,则将深度值门控模块直接获取深度信息;否则,利用FCRN/SfMLearner预测所述彩色图的深度信息,以将预测的深度信息由深度值门控模块使用;
所述深度值门控模块根据所述深度信息控制选择匹配的空洞空间金字塔池化网络中的空洞卷积核;将深度信息离散化为五个等级,在空洞空间金字塔池化网络中自适应地使用不同步幅;
另外,近处、远处的物体分别对应小步幅、大步幅;
其中,语义分割网络结构采用ResNet101作为基本结构,在网络中采用空洞卷积增加特征的感受野。
5.根据权利要求4所述的方法,其特征在于,步骤S2还包括:
所述上采样网络进行上采样,使上采样网络自适应地学习图像特征,得到与输入图像相同尺度的特征;
具体地,假设原始的输入图像大小为H*W,通道数为C;经卷积得到的特征大小为h*w,通道数为c;其中d=H/h为尺寸之间的比例,该特征卷积得到同等大小通道数为d*d*L,其中L为类别标签的数目;然后将该高维特征变形为原始图像大小H*W,并且此时的通道数为L。
6.根据权利要求4所述的方法,其特征在于,步骤S2还包括:
所述上采样网络还连接稠密全连接条件随机场,所述稠密全连接条件随机场用于对语义分割网络结构分割后的分割结果图像进行后处理。
7.根据权利要求4所述的方法,其特征在于,步骤S3包括:
所述通过相邻关键帧间的位姿估计构建三维点云地图,多帧图像融合策略采用贝叶斯更新;
具体地,假设时刻t,某个三维点o的类别为ot,所有与该三维点o有关的像素测量值表示为根据贝叶斯法则,得到概率分布如下:
其中,Zt为归一化因子,应用马尔科夫假设,由于xt与之前的状态条件独立,故存在
假设后验平滑性,有利用贝叶斯公式,将公式一转化为:
由于先验概率p(xt)是固定的,用表示后验概率,Z′t表示新的归一化因子,得到:
基于当前的所有关键帧,实现语义概率信息的增量融合。
8.根据权利要求2所述的方法,其特征在于,S4还包括:
所述对三维点云地图进行优化,利用三维稠密条件随机场;
假设三维空间中共有N个点,其对应的类别数为k,令O={o1,o2,...,oN}表示与三维点i∈{1,...,N}对应的随机变量集合,每个随机变量对应标签集合L={l1,l2,...,lk}中的一个标签,X为观测值,Z()为归一化因子;基于条件随机场,给定点云标签的概率分布表示为:
由于条件随机场符合吉布斯分布,E(o|X)为吉布斯能量函数,表示为:
其中,V为三维空间点的集合,ε为点对之间的边的集合;
其中,一元势能ψu(oi|X)用当前点状态的负对数表示:
ψu(oi|X)=-log(p(oi|X)) 公式六;
成对势能用外观核与平滑核两个高斯核线性组合:
其中,μ(oi,oj)为简单波茨模型,fi表示与点i对应的特征向量,ω(m)为标签兼容性函数,k(m)为高斯核模型,定义为:
其中,Λ(m)定义核的形状,为对称正定矩阵,每个核的权重定义为ω(m);二元势能是高斯核的混合,利用均值场近似的推断方法来求解;
两个高斯核分别表示为公式九和公式十:
公式九表示外观核,其中p为空间点的三维位置,v为RGB颜色向量,参数θ指定有相似坐标或颜色的点的范围,该函数建立相互连接的点的外观相似模型;公式十表示平滑核,其中s为该位置的标签分数,该核函数建立相互连接的点的位置与置信程度的相似模型。
CN201811492375.9A 2018-12-07 2018-12-07 基于深度卷积神经网络的环境语义建图方法 Active CN109636905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811492375.9A CN109636905B (zh) 2018-12-07 2018-12-07 基于深度卷积神经网络的环境语义建图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811492375.9A CN109636905B (zh) 2018-12-07 2018-12-07 基于深度卷积神经网络的环境语义建图方法

Publications (2)

Publication Number Publication Date
CN109636905A true CN109636905A (zh) 2019-04-16
CN109636905B CN109636905B (zh) 2023-01-24

Family

ID=66071958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811492375.9A Active CN109636905B (zh) 2018-12-07 2018-12-07 基于深度卷积神经网络的环境语义建图方法

Country Status (1)

Country Link
CN (1) CN109636905B (zh)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559320A (zh) * 2018-09-18 2019-04-02 华东理工大学 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN110047047A (zh) * 2019-04-17 2019-07-23 广东工业大学 三维形貌图像信息解译的方法、装置、设备及存储介质
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法
CN110070344A (zh) * 2019-04-25 2019-07-30 全民智慧城市(大连)科技有限公司 任务量化的城市管理系统
CN110110727A (zh) * 2019-06-18 2019-08-09 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110110775A (zh) * 2019-04-28 2019-08-09 北京理工大学 一种基于超连接网络的匹配代价计算方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110243370A (zh) * 2019-05-16 2019-09-17 西安理工大学 一种基于深度学习的室内环境三维语义地图构建方法
CN110245567A (zh) * 2019-05-16 2019-09-17 深圳前海达闼云端智能科技有限公司 避障方法、装置、存储介质及电子设备
CN110298843A (zh) * 2019-05-17 2019-10-01 同济大学 基于改进DeepLab的二维图像部件分割方法及应用
CN110297491A (zh) * 2019-07-02 2019-10-01 湖南海森格诺信息技术有限公司 基于多个结构光双目ir相机的语义导航方法及其系统
CN110363816A (zh) * 2019-06-25 2019-10-22 广东工业大学 一种基于深度学习的移动机器人环境语义建图方法
CN110390724A (zh) * 2019-07-12 2019-10-29 杭州凌像科技有限公司 一种带有实例分割的slam方法
CN110458863A (zh) * 2019-06-25 2019-11-15 广东工业大学 一种基于rgbd与编码器融合的动态slam系统
CN110533051A (zh) * 2019-08-02 2019-12-03 中国民航大学 基于卷积神经网络的x光安检图像中违禁品自动检测方法
CN110531618A (zh) * 2019-08-27 2019-12-03 河海大学 基于有效关键帧的闭环检测机器人自定位误差消除方法
CN110544307A (zh) * 2019-08-29 2019-12-06 广州高新兴机器人有限公司 基于卷积神经网络的语义地图构建方法及计算机存储介质
CN110569851A (zh) * 2019-08-28 2019-12-13 广西师范大学 门控多层融合的实时语义分割方法
CN110598771A (zh) * 2019-08-30 2019-12-20 北京影谱科技股份有限公司 一种基于深度语义分割网络的视觉目标识别方法和装置
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
CN110633706A (zh) * 2019-08-02 2019-12-31 杭州电子科技大学 一种基于金字塔网络的语义分割方法
CN110717917A (zh) * 2019-09-30 2020-01-21 北京影谱科技股份有限公司 基于cnn语义分割深度预测方法和装置
CN110956651A (zh) * 2019-12-16 2020-04-03 哈尔滨工业大学 一种基于视觉和振动触觉融合的地形语义感知方法
CN111091616A (zh) * 2019-11-25 2020-05-01 艾瑞迈迪科技石家庄有限公司 一种三维超声图像的重建方法及装置
CN111145901A (zh) * 2019-12-04 2020-05-12 深圳大学 深静脉血栓溶栓疗效预测方法及系统、存储介质与终端
CN111160266A (zh) * 2019-12-30 2020-05-15 三一重工股份有限公司 物体跟踪方法和装置
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111246287A (zh) * 2020-01-13 2020-06-05 腾讯科技(深圳)有限公司 视频处理方法、发布方法、推送方法及其装置
CN111260653A (zh) * 2020-04-27 2020-06-09 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备
CN111539983A (zh) * 2020-04-15 2020-08-14 上海交通大学 基于深度图像的运动物体分割方法及系统
CN111583390A (zh) * 2020-04-28 2020-08-25 西安交通大学 基于深度语义融合的卷积神经网络的三维语义图重建方法
CN111581313A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于实例分割的语义slam鲁棒性改进方法
CN111784837A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 高精地图生成方法和装置
CN111814683A (zh) * 2020-07-09 2020-10-23 北京航空航天大学 一种基于语义先验和深度学习特征的鲁棒视觉slam方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN111985324A (zh) * 2020-07-14 2020-11-24 广西大学 结合全卷积回归神经网络和条件随机场的道路检测方法
CN112037138A (zh) * 2020-07-29 2020-12-04 大连理工大学 一种单张深度图点云场景语义补全的方法
CN112068555A (zh) * 2020-08-27 2020-12-11 江南大学 一种基于语义slam方法的语音控制型移动机器人
CN112148817A (zh) * 2019-06-28 2020-12-29 理光软件研究所(北京)有限公司 一种基于全景图的slam优化方法、装置和系统
CN112396657A (zh) * 2020-11-25 2021-02-23 河北工程大学 一种基于神经网络的深度位姿估计方法、装置及终端设备
CN112418674A (zh) * 2020-11-24 2021-02-26 中国地质大学(武汉) 基于城市多源数据的街道空间品质测度评价方法和系统
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112488967A (zh) * 2020-11-20 2021-03-12 中国传媒大学 基于室内场景的对象和场景合成方法及系统
CN112819853A (zh) * 2021-02-01 2021-05-18 太原理工大学 一种基于语义先验的视觉里程计方法
CN112833818A (zh) * 2021-01-07 2021-05-25 南京理工大学智能计算成像研究院有限公司 一种单帧条纹投影三维面型测量方法
CN112907735A (zh) * 2021-03-10 2021-06-04 南京理工大学 一种基于点云的柔性电缆识别与三维重建方法
CN112927278A (zh) * 2021-02-02 2021-06-08 深圳市杉川机器人有限公司 控制方法、装置、机器人及计算机可读存储介质
CN113284093A (zh) * 2021-04-29 2021-08-20 安徽省皖北煤电集团有限责任公司 一种基于改进D-LinkNet的卫星影像云检测方法
CN113312993A (zh) * 2021-05-17 2021-08-27 北京大学 一种基于PSPNet的遥感数据土地覆盖分类方法
CN113628335A (zh) * 2021-07-28 2021-11-09 深圳优艾智合机器人科技有限公司 点云地图构建方法、装置及计算机可读存储介质
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
GB2597372A (en) * 2020-06-22 2022-01-26 Nvidia Corp Image generation using one or more neural networks
CN114445549A (zh) * 2020-11-03 2022-05-06 舜宇光学(浙江)研究院有限公司 基于slam的三维稠密面元建图方法及其系统和电子设备
CN114662587A (zh) * 2022-03-21 2022-06-24 深圳海星智驾科技有限公司 一种基于激光雷达的三维目标感知方法、装置及系统
CN116109706A (zh) * 2023-04-13 2023-05-12 中国人民解放军国防科技大学 基于先验几何约束的空间目标反演方法、装置和设备
WO2024159475A1 (en) * 2023-02-02 2024-08-08 Qualcomm Technologies , Inc. Systems and methods for environment mapping based on multi-domain sensor data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150098645A1 (en) * 2013-10-04 2015-04-09 Canon Kabushiki Kaisha Method, apparatus and system for selecting a frame
US20160224856A1 (en) * 2015-01-29 2016-08-04 Qualcomm Incorporated Occlusion handling for computer vision
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150098645A1 (en) * 2013-10-04 2015-04-09 Canon Kabushiki Kaisha Method, apparatus and system for selecting a frame
US20160224856A1 (en) * 2015-01-29 2016-08-04 Qualcomm Incorporated Occlusion handling for computer vision
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559320B (zh) * 2018-09-18 2022-11-18 华东理工大学 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN109559320A (zh) * 2018-09-18 2019-04-02 华东理工大学 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN110047047A (zh) * 2019-04-17 2019-07-23 广东工业大学 三维形貌图像信息解译的方法、装置、设备及存储介质
CN110070344A (zh) * 2019-04-25 2019-07-30 全民智慧城市(大连)科技有限公司 任务量化的城市管理系统
CN110110775A (zh) * 2019-04-28 2019-08-09 北京理工大学 一种基于超连接网络的匹配代价计算方法
CN110059772B (zh) * 2019-05-14 2021-04-30 温州大学 基于多尺度解码网络的遥感图像语义分割方法
CN110059772A (zh) * 2019-05-14 2019-07-26 温州大学 基于迁移vgg网络的遥感图像语义分割方法
CN110243370A (zh) * 2019-05-16 2019-09-17 西安理工大学 一种基于深度学习的室内环境三维语义地图构建方法
CN110245567A (zh) * 2019-05-16 2019-09-17 深圳前海达闼云端智能科技有限公司 避障方法、装置、存储介质及电子设备
CN110245567B (zh) * 2019-05-16 2023-04-07 达闼机器人股份有限公司 避障方法、装置、存储介质及电子设备
CN110298843A (zh) * 2019-05-17 2019-10-01 同济大学 基于改进DeepLab的二维图像部件分割方法及应用
CN110298843B (zh) * 2019-05-17 2023-02-10 同济大学 基于改进DeepLab的二维图像部件分割方法及应用
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110188817B (zh) * 2019-05-28 2021-02-26 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110110727B (zh) * 2019-06-18 2023-04-18 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110110727A (zh) * 2019-06-18 2019-08-09 南京景三医疗科技有限公司 基于条件随机场和贝叶斯后处理的图像分割方法
CN110363816A (zh) * 2019-06-25 2019-10-22 广东工业大学 一种基于深度学习的移动机器人环境语义建图方法
CN110458863A (zh) * 2019-06-25 2019-11-15 广东工业大学 一种基于rgbd与编码器融合的动态slam系统
CN110458863B (zh) * 2019-06-25 2023-12-01 广东工业大学 一种基于rgbd与编码器融合的动态slam系统
CN110363816B (zh) * 2019-06-25 2023-05-26 广东工业大学 一种基于深度学习的移动机器人环境语义建图方法
CN112148817A (zh) * 2019-06-28 2020-12-29 理光软件研究所(北京)有限公司 一种基于全景图的slam优化方法、装置和系统
CN112148817B (zh) * 2019-06-28 2023-09-29 理光软件研究所(北京)有限公司 一种基于全景图的slam优化方法、装置和系统
CN110297491A (zh) * 2019-07-02 2019-10-01 湖南海森格诺信息技术有限公司 基于多个结构光双目ir相机的语义导航方法及其系统
CN110390724A (zh) * 2019-07-12 2019-10-29 杭州凌像科技有限公司 一种带有实例分割的slam方法
CN110533051A (zh) * 2019-08-02 2019-12-03 中国民航大学 基于卷积神经网络的x光安检图像中违禁品自动检测方法
CN110633706A (zh) * 2019-08-02 2019-12-31 杭州电子科技大学 一种基于金字塔网络的语义分割方法
CN110533051B (zh) * 2019-08-02 2023-01-17 中国民航大学 基于卷积神经网络的x光安检图像中违禁品自动检测方法
CN110633706B (zh) * 2019-08-02 2022-03-29 杭州电子科技大学 一种基于金字塔网络的语义分割方法
CN110531618A (zh) * 2019-08-27 2019-12-03 河海大学 基于有效关键帧的闭环检测机器人自定位误差消除方法
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
CN110610486B (zh) * 2019-08-28 2022-07-19 清华大学 单目图像深度估计方法及装置
CN110569851B (zh) * 2019-08-28 2022-03-15 广西师范大学 门控多层融合的实时语义分割方法
CN110569851A (zh) * 2019-08-28 2019-12-13 广西师范大学 门控多层融合的实时语义分割方法
CN110544307A (zh) * 2019-08-29 2019-12-06 广州高新兴机器人有限公司 基于卷积神经网络的语义地图构建方法及计算机存储介质
CN110598771A (zh) * 2019-08-30 2019-12-20 北京影谱科技股份有限公司 一种基于深度语义分割网络的视觉目标识别方法和装置
CN110717917B (zh) * 2019-09-30 2022-08-09 北京影谱科技股份有限公司 基于cnn语义分割深度预测方法和装置
CN110717917A (zh) * 2019-09-30 2020-01-21 北京影谱科技股份有限公司 基于cnn语义分割深度预测方法和装置
CN111091616A (zh) * 2019-11-25 2020-05-01 艾瑞迈迪科技石家庄有限公司 一种三维超声图像的重建方法及装置
CN111091616B (zh) * 2019-11-25 2024-01-05 艾瑞迈迪医疗科技(北京)有限公司 一种三维超声图像的重建方法及装置
CN111145901A (zh) * 2019-12-04 2020-05-12 深圳大学 深静脉血栓溶栓疗效预测方法及系统、存储介质与终端
CN111145901B (zh) * 2019-12-04 2021-02-09 深圳大学 深静脉血栓溶栓疗效预测方法及系统、存储介质与终端
CN110956651A (zh) * 2019-12-16 2020-04-03 哈尔滨工业大学 一种基于视觉和振动触觉融合的地形语义感知方法
CN110956651B (zh) * 2019-12-16 2021-02-19 哈尔滨工业大学 一种基于视觉和振动触觉融合的地形语义感知方法
CN111160266A (zh) * 2019-12-30 2020-05-15 三一重工股份有限公司 物体跟踪方法和装置
CN111160266B (zh) * 2019-12-30 2023-04-18 三一重工股份有限公司 物体跟踪方法和装置
CN111246287A (zh) * 2020-01-13 2020-06-05 腾讯科技(深圳)有限公司 视频处理方法、发布方法、推送方法及其装置
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111210518B (zh) * 2020-01-15 2022-04-05 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111539983B (zh) * 2020-04-15 2023-10-20 上海交通大学 基于深度图像的运动物体分割方法及系统
CN111539983A (zh) * 2020-04-15 2020-08-14 上海交通大学 基于深度图像的运动物体分割方法及系统
CN111581313A (zh) * 2020-04-25 2020-08-25 华南理工大学 一种基于实例分割的语义slam鲁棒性改进方法
CN111581313B (zh) * 2020-04-25 2023-05-23 华南理工大学 一种基于实例分割的语义slam鲁棒性改进方法
CN111260653B (zh) * 2020-04-27 2020-08-25 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备
CN111260653A (zh) * 2020-04-27 2020-06-09 腾讯科技(深圳)有限公司 一种图像分割方法、装置、存储介质和电子设备
CN111583390A (zh) * 2020-04-28 2020-08-25 西安交通大学 基于深度语义融合的卷积神经网络的三维语义图重建方法
GB2597372B (en) * 2020-06-22 2024-02-14 Nvidia Corp Image generation using one or more neural networks
GB2597372A (en) * 2020-06-22 2022-01-26 Nvidia Corp Image generation using one or more neural networks
CN111784837A (zh) * 2020-06-28 2020-10-16 北京百度网讯科技有限公司 高精地图生成方法和装置
CN111784837B (zh) * 2020-06-28 2024-04-16 北京百度网讯科技有限公司 高精地图生成方法、装置、设备、存储介质和程序产品
CN111814683A (zh) * 2020-07-09 2020-10-23 北京航空航天大学 一种基于语义先验和深度学习特征的鲁棒视觉slam方法
CN111985324B (zh) * 2020-07-14 2022-10-28 广西大学 结合全卷积回归神经网络和条件随机场的道路检测方法
CN111985324A (zh) * 2020-07-14 2020-11-24 广西大学 结合全卷积回归神经网络和条件随机场的道路检测方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN112037138A (zh) * 2020-07-29 2020-12-04 大连理工大学 一种单张深度图点云场景语义补全的方法
CN112068555A (zh) * 2020-08-27 2020-12-11 江南大学 一种基于语义slam方法的语音控制型移动机器人
CN114445549A (zh) * 2020-11-03 2022-05-06 舜宇光学(浙江)研究院有限公司 基于slam的三维稠密面元建图方法及其系统和电子设备
CN112488967A (zh) * 2020-11-20 2021-03-12 中国传媒大学 基于室内场景的对象和场景合成方法及系统
CN112418674A (zh) * 2020-11-24 2021-02-26 中国地质大学(武汉) 基于城市多源数据的街道空间品质测度评价方法和系统
CN112396657A (zh) * 2020-11-25 2021-02-23 河北工程大学 一种基于神经网络的深度位姿估计方法、装置及终端设备
CN112489060A (zh) * 2020-12-07 2021-03-12 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112833818B (zh) * 2021-01-07 2022-11-15 南京理工大学智能计算成像研究院有限公司 一种单帧条纹投影三维面型测量方法
CN112833818A (zh) * 2021-01-07 2021-05-25 南京理工大学智能计算成像研究院有限公司 一种单帧条纹投影三维面型测量方法
CN112819853A (zh) * 2021-02-01 2021-05-18 太原理工大学 一种基于语义先验的视觉里程计方法
CN112819853B (zh) * 2021-02-01 2023-07-25 太原理工大学 一种基于语义先验的视觉里程计方法
CN112927278A (zh) * 2021-02-02 2021-06-08 深圳市杉川机器人有限公司 控制方法、装置、机器人及计算机可读存储介质
CN112907735B (zh) * 2021-03-10 2023-07-25 南京理工大学 一种基于点云的柔性电缆识别与三维重建方法
CN112907735A (zh) * 2021-03-10 2021-06-04 南京理工大学 一种基于点云的柔性电缆识别与三维重建方法
CN113284093A (zh) * 2021-04-29 2021-08-20 安徽省皖北煤电集团有限责任公司 一种基于改进D-LinkNet的卫星影像云检测方法
CN113312993A (zh) * 2021-05-17 2021-08-27 北京大学 一种基于PSPNet的遥感数据土地覆盖分类方法
CN113312993B (zh) * 2021-05-17 2022-07-26 北京大学 一种基于PSPNet的遥感数据土地覆盖分类方法
CN113628335A (zh) * 2021-07-28 2021-11-09 深圳优艾智合机器人科技有限公司 点云地图构建方法、装置及计算机可读存储介质
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN113705583B (zh) * 2021-08-16 2024-03-22 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN114662587A (zh) * 2022-03-21 2022-06-24 深圳海星智驾科技有限公司 一种基于激光雷达的三维目标感知方法、装置及系统
CN114662587B (zh) * 2022-03-21 2024-09-24 深圳海星智驾科技有限公司 一种基于激光雷达的三维目标感知方法、装置及系统
WO2024159475A1 (en) * 2023-02-02 2024-08-08 Qualcomm Technologies , Inc. Systems and methods for environment mapping based on multi-domain sensor data
CN116109706A (zh) * 2023-04-13 2023-05-12 中国人民解放军国防科技大学 基于先验几何约束的空间目标反演方法、装置和设备

Also Published As

Publication number Publication date
CN109636905B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN109636905A (zh) 基于深度卷积神经网络的环境语义建图方法
CN107833183B (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
KR102693803B1 (ko) 2차원 이미지들로부터 3차원 객체 모델들의 생성
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106250812A (zh) 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106709568A (zh) 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
CN110472542A (zh) 一种基于深度学习的红外图像行人检测方法及检测系统
CN106991411B (zh) 基于深度形状先验的遥感图像目标精细化提取方法
CN109829476B (zh) 基于yolo的端到端三维物体检测方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN103985143A (zh) 基于字典学习的视频中判别性在线目标跟踪方法
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
CN114358133B (zh) 一种基于语义辅助双目视觉slam检测回环帧的方法
CN103593639A (zh) 嘴唇检测和跟踪方法及设备
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant