CN109636905A

CN109636905A - 基于深度卷积神经网络的环境语义建图方法

Info

Publication number: CN109636905A
Application number: CN201811492375.9A
Authority: CN
Inventors: 张云洲; 胡美玉; 秦操; 张维智; 张括嘉; 张珊珊
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-16
Anticipated expiration: 2038-12-07
Also published as: CN109636905B

Abstract

本发明提出了一种基于深度卷积神经网络的环境语义建图方法，该方法能够借助深度学习在场景识别方面的优势，与SLAM技术的自主定位优势相结合，构建包含物体类别信息的环境地图。具体地，利用ORB‑SLAM对输入图像序列进行关键帧筛选和帧间位姿估计；利用一种基于Deeplab图像分割的改进方法进行二维语义分割；在卷积网络最后一层的后面引入上采样卷积层；利用深度信息作为门限信号控制不同卷积核的选择，并对齐分割后的图像与深度图，利用相邻关键帧之间的空间对应关系构建三维稠密语义地图。上述方案能够提高图像分割的精度，具有更高的构图效率。

Description

基于深度卷积神经网络的环境语义建图方法

技术领域

本发明涉及数字图像处理领域及计算机视觉领域，具体涉及一种基于深度卷积神经网络的环境语义建图方法。

背景技术

准确地获得环境信息，是移动机器人自主执行任务的关键环节。机器人在运动时可通过SLAM技术形成对周围环境的描述，即环境地图。然而，传统的SLAM构图仅考虑几何数据，无法获取地图中物体的类别与种类，提供的信息不足、特征的区分性比较弱。语义信息包括物体类别、目标检测和语义分割等，可以对场景内容进行理解，帮助机器人以目标为导向执行任务。因此，二者相结合是必然需求。

在结合语义和几何信息进行环境建模方面，最初的研究是将场景标注与SLAM相结合，随后出现了基于数据库的方法。自2015年以来，开始提出机器学习方法或深度学习图像语义理解与SLAM结合的方法。但图像分割部分大多采用FCN，效果不够理想。

在SLAM领域，业内人士构建了基于面元的环境地图，但没有位姿图优化和闭环检测，并且受限于地图房间的大小，地图复杂性与点元的数量成正比。业内人士还接受视觉传感器的图像信息，在局部关键帧集合上进行线束平差法，地图规模增大不会导致算法的复杂性急剧升高，并且当闭环出现之后，进行全局线束平差法优化，可得到全局一致性地图，可在CPU上实现。

语义分割的目的是给图像中的每个像素分配一个类别的标签，是语义建图的重要步骤。深度学习方法可以实现较高精度的语义分割，代表性的方法是全卷积神经网络(FCN)，可以将神经网络的最后几层全连接层替换成卷积层，实现端到端的学习，在任何尺寸的图片上都可以进行预测。后续的图像语义分割方法主要是从三个方面进行改进：(1)采用更深的网络结构。例如，将16层的VGG16网络结构换成101层或152层从而能够表示更复杂的模型，学习到更具有区分性的特征；(2)在预测结果后面加上后处理操作。例如引入条件随机场，可以通过近似均值场推断将其整合到网络中，可以得到端到端的结果，也有一些方法会在条件随机场基础上加入边，物体的检测等额外的信息。(3)采用编码-解码的结构，既可以提取到图像特征也可以保持较大的感受野，但网络的深度也会更深。

在语义构图方面，另外的研究人员提出的SLAM++系统是目前效果较好的语义建图方法，它将点云的特征与预先准备好的物体数据库进行比对，若发现匹配的物体则将对应点云放入地图中。但是，SLAM++只能对预定义的物体进行建图，而且其用于匹配模板模型的特征是手动提取的。此外，一些人认为三维点云的稠密语义分割比较困难，在二维图片上分割效果较好，因而采用基于贝叶斯更新和稠密条件随机场进行2D-3D的标签转换，产生一致的三维语义重构。例如，将语义分割与半稠密的大规模的直接法(Large-Scale Direct)单目SLAM融合，通过超像素分割得到图像中的平面，将平面分割结果与LSD对边缘等比较显著的结果进行融合，得到较稠密的实时建图结果，其缺点是对平面的精确度不够理想。还有研究人员提出用CNN预测深度图，与单目SLAM获得的深度测量融合，从单帧图像中获取语义标签与SLAM融合，得到单一视角下的重构，该方法主要侧重深度预测与融合。业内还存在提出利用稠密的Elastic Fusion构建三维环境地图，以反卷积神经网络进行图像分割，该方法采用稠密的Elastic Fusion建图相对耗时，耗费资源多。

发明内容

针对现有技术中的问题，本发明提供一种基于深度卷积神经网络的环境语义建图方法，该方法提高了图像语义分割效果，能够构建准确、鲁棒的三维环境语义地图，具有更高的构图效率。

第一方面，本发明提供一种基于深度卷积神经网络的环境语义建图方法，包括：

S1、采集图像序列，根据采集的图像序列，筛选关键帧；

S2、根据关键帧，获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计；

S3、采用基于深度学习的语义分割网络结构，对关键帧彩色图序列进行处理，获取带有语义标签的分割结果图像；

S4、将语义分割结果图像与关键帧深度图序列中的深度图进行时间戳对齐，通过相邻帧间的位姿估计构建三维点云地图，所述三维点云地图的场景三维携带标签信息；

可选地，所述步骤S4包括：

S5、基于语义标签的相邻空间位置关系和颜色关系对三维点云地图进行优化处理，具体地，利用三维点云地图中相邻三维点的距离和颜色得分的相似性，更新三维点的状态，以产生全局一致性的三维点云地图；

可选地，所述步骤S2包括：

S6、采用ORB-SLAM从采集的图像序列，筛选关键帧，并获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计；

可选地，所述步骤S3包括：

S7、基于深度学习的语义分割网络结构包括：依次连接的ResNet101网络、深度值门控模块、空洞空间金字塔池化网络和上采样网络；

针对关键帧彩色图序列的每一彩色图，判断是否能够直接获取深度信息，若能够获取，则将深度值门控模块直接获取深度信息；否则，利用FCRN/SfMLearner预测所述彩色图的深度信息，以将预测的深度信息由深度值门控模块使用；

所述深度值门控模块根据所述深度信息控制选择匹配的空洞空间金字塔池化中空洞卷积核；将深度离散化为五个等级，在空洞空间金字塔池化中自适应地使用不同步幅；近处、远处的物体分别对应小步幅、大步幅；其中，语义分割网络结构采用ResNet101作为基本结构，在每一层网络中采用空洞卷积增加特征的感受野；

可选地，所述步骤S3还包括：

S8、所述上采样网络进行上采样，使上采样网络自适应地学习图像特征，得到与输入图像相同尺度的特征；

具体地，假设原始的输入图像大小为H*W，通道数为C；经卷积得到的特征大小为h*w，通道数为c；其中d＝H/h为尺寸之间的比例，将该特征卷积得到同等大小通道数为d*d*L，其中L为类别标签的数目；然后将其变形为原始图像大小H*W，并且此时的通道数为L。

可选地，所述步骤S3还包括：

S9、所述上采样网络还连接稠密全连接条件随机场，所述稠密全连接条件随机场用于对语义分割网络结构分割后的分割结果图像进行后处理；

可选地，所述步骤S4包括：

S10、假设时刻t，某个三维点o的类别为o_t，所有与该三维点o有关的像素测量值表示为根据贝叶斯法则，得到下面等式：

其中，Z_t为归一化因子，应用马尔科夫假设，由于x_t与之前的状态条件独立，故存在

假设后验平滑性，有利用贝叶斯公式，将公式一转化为：

由于先验概率p(x_t)是固定的，用表示后验概率，Z_t'表示新的归一化因子，得到：

基于当前的所有关键帧，实现语义概率信息的增量融合；

可选地，所述步骤S4还包括：

S11、利用三维稠密条件随机场的方法进行优化包括：假设三维空间中共有N个点，其对应的类别数为k，令O＝{o₁,o₂,...,o_N}表示与三维点i∈{1,...,N}对应的随机变量集合，每个随机变量对应标签集合L＝{l₁,l₂,...,l_k}中的一个标签；基于条件随机场，给定点云标签的概率分布表示为：

由于条件随机场符合吉布斯分布，E(o|X)为吉布斯能量函数，表示为：

其中，V为三维空间点的集合，ε为点对之间的边的集合；

其中，一元势能ψ_u(o_i|X)用当前点状态的负对数表示：

ψ_u(o_i|X)＝-log(p(o_i|X))公式六；

成对势能用外观核与平滑核两个高斯核线性组合：

其中，μ(o_i,o_j)为简单波茨模型，f_i表示与点i对应的特征向量，ω^(m)为标签兼容性函数，k^(m)为高斯核模型，定义为：

其中，Λ^(m)定义核的形状，为对称正定矩阵，每个核的权重定义为ω^(m)；二元势能是高斯核的混合，利用均值场近似的推断方法来求解；

两个高斯核分别表示为公式九和公式十：

公式九表示外观核，其中p为空间点的三维位置，v为RGB颜色向量，参数θ指定有相似坐标或颜色的点的范围，该函数建立相互连接的点的外观相似模型；公式十表示平滑核，其中s为该位置的标签分数，该核函数建立相互连接的点的位置与置信程度的相似模型。

本发明具有的有益效果如下：

本发明充分利用深度学习场景识别的优势，与SLAM技术对运动目标定位的优势结合，对机器人周围环境进行理解。通过将上采样网络引入Deeplab网络，避免过于粗糙的直接上采样操作容易丢失细节的问题；利用深度图作为门信号控制卷积模式的选择，针对较近的物体可以采用小的空洞步长，远处物体采用较大的空洞步长，以保证对近处物体保持大视野，远处物体保持细节，提高图像分割的精度；利用ORB-SLAM方法得到帧间位姿，投影成三维点云地图，地图规模不会随着场景变大急剧增加，具有更高的构图效率。

附图说明

图1为本发明实施例的环境语义建图方法的框图；

图2为本发明实施例的图像语义分割网络结构的示意图；

图3为本发明实施例提供的感受野与步幅和卷积核的关系示意图；

图4为本发明实施例提供的图像分割效果的示意图；

图5为本发明的方法和现有PSPNet、Mask_RCNN方法的对比示意图；

图6为本发明提供的三维语义地图的示意图；

图7为本发明提供的混淆矩阵的示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本文提出了一种基于深度学习的环境语义建图方法，利用ORB-SLAM对二维图像进行关键帧筛选与帧间相对位姿估计，对关键帧图像进行语义分割，结合深度图得到环境的稠密语义地图。图像语义分割网络采用ResNet101作为基本结构，采用空洞卷积增加特征的感受野，添加空洞空间金字塔池化以适应不同尺度的物体，以稠密上采样网络与深度信息作为门限信号，使用稠密条件随机场后处理，改善分割的效果。得益于精度较高的图像分割效果与ORB-SLAM稳定鲁棒的位姿估计，将二维图像反投影到三维空间中，形成多帧重构，可得到较好的三维环境语义地图。

结合图1所示，本实施例的方法包括如下的实现流程。

当机器人搭载相机等视觉传感器经过未知场景时，构建场景三维携带标签信息的地图至关重要。具体实现的关键技术可被分成二维图像的语义分割、帧间位姿的精准估计、三维语义点云的融合这三个部分。

按照逻辑顺序可表述为：由SLAM完成从输入图像序列中筛选关键帧并进行帧间位姿估计与优化操作；二维语义分割进行关键帧上像素级别分类的预测，获取带有语义标签的分割结果图像；利用帧间位姿将彩色图像与深度图像反投影到三维空间，得到初步三维语义地图，在三维语义地图的优化时，可利用相邻三维点距离和颜色得分的相似性等信息，更新三维点的状态并产生全局一致性的三维地图。

语义分割的网络框图如图2所示，主要包含ResNet101网络、空洞空间金字塔池化、深度值门控模块、上采样网络四个部分。若能够直接获取深度图，则可将深度值直接用于门控单元；否则，可利用FCRN/SfMLearner进行图像深度的预测用于后续的门控。Deeplab采用的结构是ResNet后接ASPP结构，即(a)、(b)两个模块，但是由于深度信息的利用有利于处理不同尺度的物体，使图像分割效果得到提高，本文利用深度信息作为门控信号，控制空洞卷积核的选择，即(c)模块。另外，由于网络的输出特征图会小于输入图片大小，传统方法的思路是直接利用双线性插值上采样，该过程是不可学习的，使得分割效果不够好。本文利用上采样网络完成上采样，使网络自适应地学习图像特征，得到与输入图像相同尺度的特征，从而取得更好的分割效果，即(d)模块。

二维图像语义分割

在深度神经网络中，步幅不为1的卷积与池化过程都会使特征的尺寸变小，如图3(a)所示。可通过减小步幅来增大特征的尺寸，但同时会使感受野变小，如图3(b)所示。为了保持感受野不变，需要增大卷积核尺寸，如图3(c)所示。为避免减小特征尺寸和增大卷积核尺寸，且保持感受野，Deeplab提出在卷积核之间插入若干个0，实现空洞卷积。该方法可以在不增加计算量的同时扩大感受野，保持特征较高的分辨率，避免细节的过度丢失，示意如图3(d)所示。

空洞空间金字塔池化用于解决多尺度的分割问题，可以一次获取不同尺寸感受野后将其并联，其结构如图2(c)所示。现有技术提出当采样比例变大，滤波器有效的权重(即作用在有效特征区域的权重)数量会变得更小，当比例接近特征图的大小时，由于只有中心位置是有效的，滤波器退化成了1*1的滤波器，因此可采用图像级别的特征获取全局上下文。

由于现有技术在网络的最后一层只采用了单纯的双线性插值调整特征到目标尺寸，是不可学习的过程，对细节的处理没有适应性。本文借鉴上采样网络的思想，假设原始的输入图像大小为H*W，通道数为C；经卷积得到的特征大小为h*w，通道数为c；其中d＝H/h为尺寸之间的比例，将该特征卷积得到同等大小通道数为d*d*L，其中L为类别标签的数目；然后将其变形为原始图像大小H*W，并且此时的通道数为L。在此过程中，权重可被学习优化，可以得到分割效果的改进。

另外，考虑深度数据的可用性。由于深度模式缺乏其RGB对应的大规模训练数据集，即并没有足够多的包含深度信息的数据集用于训练，所以接受深度信息作为第四通道的方法不可取。本文将深度信息作为一种门信号，将深度离散化为五个等级，在空洞卷积中自适应地使用不同步幅，近处、远处的物体分别对应小步幅、大步幅，这样可以对场景中较远物体保持小细节、较近物体保持大视野。

虽然深度估计得到的深度图会存在误差，但是这种平滑的深度对得到的效果不亚于使用深度真值。可能的原因有三点：首先，由于预测的深度是平滑的，当使用原始的深度图的时候，会对一些看不到的物体分配相同的权重，这样门控实际上就是不同尺度上的平均，这种平均池化可能在某些时候会产生不利的影响；其次，预测的深度图可以针对特定物体的特定模式，这对语义分割会是有利的；再次，深度预测和语义分割可以相辅相成，增加互相的表达能力，有利于最后的分割。

条件随机场是一种常见的后处理手段，在得到最后一层特征基础上操作，在确定一个像素的标签时，会考虑临近像素的标签，可起到去噪的作用。但经过神经网络处理的物体边缘已经很平滑，因此一般不用小范围的条件随机场。考虑到全局信息用全连接条件随机场，本文在网络的末端连接稠密全连接条件随机场进行分割的后处理。

关键帧的获取与帧间位姿估计

ORB-SLAM具有较高的实时性与鲁棒性，可以快速获取关键帧图像并进行准确的帧间相对位姿估计，本文利用ORB-SLAM系统获取位姿。场景中三维点空间位置可以利用关键帧深度图像和对应的帧间位姿求解。每个关键帧K_i＝{I_i,D_i,P_i}，包含图片的强度I_i，深度图D_i，相邻帧间的相对位姿P_i。本文对每一关键帧RGB图像进行分割，将带有标签的图像与深度图进行时间戳对齐，通过帧间位姿构建三维点云地图。

增量语义标签融合

由于传感器和环境的不确定性，单帧图像的二维语义分割可能会导致连续帧间的标签不一致，因此，可以按照贝叶斯法则从多关键帧获取概率标签。假设时刻t，某个三维点o的类别为o_t，所有与该三维点o有关的像素测量值表示为根据贝叶斯法则，得到下面等式：

假设后验平滑性，有利用贝叶斯公式，将公式一转化为：

基于当前的所有关键帧，实现语义概率信息的增量融合。

利用三维稠密条件随机场的方法进行优化包括：假设三维空间中共有N个点，其对应的类别数为k，令O＝{o₁,o₂,...,o_N}表示与三维点i∈{1,...,N}对应的随机变量集合，每个随机变量对应标签集合L＝{l₁,l₂,...,l_k}中的一个标签；基于条件随机场，给定点云标签的概率分布表示为：

其中，V为三维空间点的集合，ε为点对之间的边的集合；

其中，一元势能ψ_u(o_i|X)用当前点状态的负对数表示：

ψ_u(o_i|X)＝-log(p(o_i|X)) (6)

成对势能用外观核与平滑核两个高斯核线性组合：

两个高斯核分别表示为公式九和公式十：

实施例二

本实施的方法对应应用设备的硬件配置为Nvidia GTX Titan Xp服务器，测试的系统为Ubuntu14.04。训练各个数据集均使用已经预训练的网络权重作初始化。其它参数如表1所示，其中ε为优化器优化参数。

表1各数据集实验参数

步骤一：由于本文系统提供深度图像，可直接与彩色图对齐后做分割、位姿估计与三维重建。为测试本文提出的语义分割算法效果，分别针对室外场景CityScapes(19类)数据集、室内场景NYUv2数据集(41类)和PASCAL VOC 2012数据集(21类)上训练参数。其中，NYUv2数据集提供可用做视觉里程计的信息。SUN RGB-D数据集中带标签的图像数量级比NYUv2大很多，但是数据不构成序列也没有时间戳，因此只适合对分割算法的验证，无法做里程计也就无法获得场景的三维地图，故本文针对室内场景采用NYUv2数据集验证。

步骤二：针对CityScapes、VOC2012、NYUv2数据集的分割效果分别如图4所示。从左至右各列依次为输入序列、Deeplab分割效果、Deeplab经条件随机场后处理效果、Deeplab加入上采样卷积网络、Deeplab加入深度信息作为门控信号、本文效果与分割真值。需要说明的是，图4(a)、图4(b)和图4(c)从(a)到(c)依次相连属于一个整体图，为方便作为附图展示，进行分开。

现有技术中提出了上采样神经网络的思想，能够自适应地根据输入数据的特点进行上采样。另外，现有还提出利用深度信号提高语义分割效果的思想，可以针对不同大小的物体，对近处和远处的物体效果都会改善。本文利用了上述两种思路，并且针对目前语义分割效果较好的Deeplab网络进行改进，加入条件随机场后可以取得更好的效果。可以看出，虽然存在一定的错误分类情况，但是各算法的分割效果依次改善。存在误判的情况如CityScapes数据集第三行数据中，将阳光阴影下的路缘认为是植被；路灯等小物体的效果仍旧不够理想等，造成这种情况的主要原因是数据集中物体的区分性弱；原来的物体在图片中占据的比例过小，在分割的卷积池化等操作过程中信息发生丢失。

从图4中可以看出，增加上卷积神经网络相比于直接上采样(第二列)，针对细节部分有明显的改善。例如，CityScapes数据集中第1幅测试图片中左下角柱子与地面接触的位置，第3、4幅图的植被的效果，第5幅图的柱子与地面相接触的位置；NYUv2数据集第1幅图的显示器部分，第3幅图的抽屉；VOC数据集第1、2、5幅图的手臂细节等均有提升。增加深度信息作为门控信号相比于不利用深度信息(第二列)，整体效果有明显的改善。例如，CityScapes数据集第1幅图右面的墙体被误认为是柱子、第3幅图的路面被误认为植被，均得到了有效的修正，第4、5幅图的人腿部分；NYUv2数据集第2幅图的地面部分，第3幅图的镜面；VOC数据集第1幅图的人腿部分、第2幅图的人胳膊部分、第5幅图的马腿部分等均有改善。本文结合上面两种思路，在整体上改善了分割的效果。例如，CityScapes数据集中，第2、3、5幅图的柱子，第4幅图的人腿；NYUv2数据集第3幅图的洗手台，第4幅图的窗子上的物品，第5幅图的桌子腿等；VOC数据集第1、2幅图的自行车，第3幅图的鸟的尾巴和第4幅图的鸟的嘴巴等。

为进行对比证明，分别使用深度学习预测的深度与深度真值进行对比，实验结果如表2所示。可以看出，在图像语义分割方面，使用深度真值和网络估计深度的差别不明显。但若要构建精准的稠密语义地图，利用深度传感器获取的深度图会得到更精确的结果；若无法获取自带深度信息数据的来源，可以利用网络估计的深度图，构建三维语义地图。

表2实验配置以及相应分割精度

总之，针对分割，网络估计的深度不够准确不会产生不良影响，但是在三维构图方面会稍微有些影响，最好能够获取直接的深度图。虽然深度估计会存在偏差，但是并不是所有的传感器都可以直接获取深度，利用深度神经网络预测深度可以降低对传感器的限制，有效拓展了应用范围。

将二维的图像语义分割应用于三维点云地图中，得到如图6所示的三维语义地图。由于多帧的点云匹配和单帧图像的二维语义分割导致连续帧的标签不一致会对最后的结果产生影响，本文分别按两种方式构建了三维地图：(1)筛选其中5帧图像；(2)采用所有的关键帧。其中(a)、(b)分别为利用5帧图像构建的三维地图，(c)、(d)分别为利用数据集中所有关键帧构建的三维语义地图，可以看出帧数较少时地图中存在的空洞比较多，并且一些误分类的点比较明显，采取多帧建图能够改善这种情况。

从实验结果可以看出：得益于较好的分割效果，本文得到的三维语义地图针对室内场景能够识别出场景中的绝大多数物体并建立良好的环境语义地图。

步骤三：为验证本文方法的有效性，分别从二维图像的语义分割效果和三维语义地图两方面进行定量数据分析。

为了进行定量比较，本文还绘制了针对CityScapes数据集基于Deeplab的图像分割方法与基于本文提出的图像分割方法的混淆矩阵，如图7所示。混淆矩阵中对角线元素的颜色相较于其他位置颜色越深说明算法的区分性越大，分割效果越好，从图7(a)和图7(b)可以看出本文算法针对每个类别的准确率大约提升3～5％。

对于二维图像的语义分割，主要比较预训练权重、空间金字塔池化、条件随机场、上采样网络、以深度信息作为门限信号等因素所导致的像素级别精度的差异。具体数据如表2所示，从表中可以看出在经过预训练的网络权重基础上进行微调、空洞空间金字塔操作、上采样网络、深度信息作为门信号的引入都可以明显提高语义分割的效果，而在网络的末端引入条件随机场也有轻微的改善，本发明算法为每个数据集的最后两行，并且由于前面两个数据集规模较大，不易发生过拟合，预测效果较好。

本文提出基于Deeplab进行改进的原因是它具有良好的语义分割效果。而且，Deeplab也在不断的发展当中，研究者提出了许多改进方法。本文提出的基于Deeplab网络的改进主要有两点：引入上采样卷积网络、深度信息的利用。这两点也可以加入到其它的网络中去，因此与其它的方法并不是对立的情形，而是类似于插件的效果。

现有技术中Mask RCNN侧重于对检测结果的利用，利用检测对物体的定位信息可以提高分割的效果。由于检测信息的利用，可以完成实例级别的分割，但实例分割又与语义分割稍有区别，属于不同的分支，有着不同的算法框架。利用MASK RCNN在本文的数据集上进行测试，效果如图5中第3列所示。可以看出该方法对物体的分割效果不是特别精细，主要的原因是因为该方法的掩膜分支上利用小的FCN网络结构，没有过多的技巧，因此如Cityscapes数据集中的车的轮廓，NYU数据集中物体的轮廓，VOC数据集中马和人的轮廓，效果都不够理想。

现有技术PSPNet用于语义分割的效果很好，该方法与Deeplab方法的相同点在于都采用了相同的主干网络，区别在于：(1)Deeplab采用了不同尺度的空洞卷积而PSPNet采用不同尺度的池化；(2)Deeplab在多尺度合并的时候采用元素级别相加，而PSPNet采用的是通道连接。从理论上分析，这两点区别对最终的分割效果影响不大。利用PSPNet网络在本文的数据集上进行测试，测试效果如图5中第2列所示。从实验结果可以看出，PSPNet的效果与Deeplab方法的差异不大。但针对Cityscapes数据集，在诸如地面和树木等的小细节部分，本文效果仍然稍好些。针对NYU数据集中比较杂乱的物体，针对VOC数据集中鸟类，车子和人类的轮廓部分，本文的效果都能稍好些。

在三维语义地图方面，本文主要与现有技术另外的一篇进行对比。二者的差别表现在：现有方法基于反卷积网络、将深度图作为输入的第四通道进行训练与预测、获取基于Elastic Fusion的稠密地图；本文方法基于Deeplab分割方法的改进、深度信息作为一种门控信号控制卷积模式选择、构建稠密的点云地图。由于现有方法只针对NYUv2数据集中的13类物体进行分析，为便于比较，本文也将对其中12类进行预测精度的比较，实验数据如表3所示，从实验表格可以看出，本文方法对床、书、天花板等多数物体的分割准确率高于现有方法，仅桌椅等少数物体略低于现有方法。因此，本文算法的总体效果优于现有技术的方法。

表3NYUv2部分类别测试结果

步骤四：为验证本文方法的效率，分别对各个模块的效率进行测试与分析。各模块效率如表4所示。

表4各个模块运行效率

根据表格可以看出，运行时间大部分消耗在语义分割和条件随机场这两个环节。由于条件随机场对分割提升的效果相对比较小，若想要达到实时的效果，可以采用更加精简的主干网络结构，并且去掉条件随机场的操作。正如表2所示，本文提出的方法在基于ResNet101主干网络上相较于之前的模型有所改进。同理，本文基于ResNet18主干网络的模型效果也优于其他几种基于ResNet18主干网络的模型。当采用基于ResNet18结构的网络时，本文算法的帧率可以达到8～12FPS。

综上，本发明将基于深度卷积神经网络进行环境语义地图构建，对于机器人环境建模，提出了一种构建环境三维语义地图的方法。对二维图像语义分割，利用分割结果，相应的深度图和图像帧间相对位姿将二维图像像素点反投影到三维空间中，得到三维语义点云地图。为取得较好图像分割效果，采用基于Deeplab方法的改进，依旧利用空洞空间金字塔池化处理不同尺度的物体，采用上采样卷积网络替代原始的直接双线性上采样，减轻其过于粗糙和细节丢失的问题，将深度信息作为门信号控制不同的空洞卷积模式提高分割的效果。实验结果表明，基于以上两个方面的改进获取较好的分割效果，得益于较好的分割效果，可以获得环境的三维语义地图。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度卷积神经网络的环境语义建图方法，其特征在于，包括：

S1、采集图像序列，根据采集的图像序列，筛选关键帧；

根据关键帧，获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计；

S2、采用基于深度学习的语义分割网络结构，对关键帧彩色图序列进行处理，获取带有语义标签的分割结果图像；

S3、将语义分割结果图像与关键帧深度图序列中的深度图进行时间戳对齐，通过相邻关键帧间的位姿估计构建三维点云地图，所述三维点云地图的场景三维携带标签信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

S4、基于语义标签的相邻空间位置关系和颜色关系对三维点云地图进行优化处理，具体地，利用三维点云地图中相邻三维点的距离和颜色得分的相似性，更新三维点的状态，以产生全局一致性的三维点云地图。

3.根据权利要求1所述的方法，其特征在于，步骤S1包括：

采用ORB-SLAM从采集的图像序列，筛选关键帧，并获取关键帧彩色图序列和关键帧深度图序列、相邻关键帧间的位姿估计。

4.根据权利要求1所述的方法，其特征在于，步骤S2包括：

基于深度学习的语义分割网络结构包括：依次连接的ResNet101网络、深度值门控模块、空洞空间金字塔池化网络和上采样网络；

所述深度值门控模块根据所述深度信息控制选择匹配的空洞空间金字塔池化网络中的空洞卷积核；将深度信息离散化为五个等级，在空洞空间金字塔池化网络中自适应地使用不同步幅；

另外，近处、远处的物体分别对应小步幅、大步幅；

其中，语义分割网络结构采用ResNet101作为基本结构，在网络中采用空洞卷积增加特征的感受野。

5.根据权利要求4所述的方法，其特征在于，步骤S2还包括：

所述上采样网络进行上采样，使上采样网络自适应地学习图像特征，得到与输入图像相同尺度的特征；

具体地，假设原始的输入图像大小为H*W，通道数为C；经卷积得到的特征大小为h*w，通道数为c；其中d＝H/h为尺寸之间的比例，该特征卷积得到同等大小通道数为d*d*L，其中L为类别标签的数目；然后将该高维特征变形为原始图像大小H*W，并且此时的通道数为L。

6.根据权利要求4所述的方法，其特征在于，步骤S2还包括：

所述上采样网络还连接稠密全连接条件随机场，所述稠密全连接条件随机场用于对语义分割网络结构分割后的分割结果图像进行后处理。

7.根据权利要求4所述的方法，其特征在于，步骤S3包括：

所述通过相邻关键帧间的位姿估计构建三维点云地图，多帧图像融合策略采用贝叶斯更新；

具体地，假设时刻t，某个三维点o的类别为o_t，所有与该三维点o有关的像素测量值表示为根据贝叶斯法则，得到概率分布如下：

假设后验平滑性，有利用贝叶斯公式，将公式一转化为：

由于先验概率p(x_t)是固定的，用表示后验概率，Z′_t表示新的归一化因子，得到：

基于当前的所有关键帧，实现语义概率信息的增量融合。

8.根据权利要求2所述的方法，其特征在于，S4还包括：

所述对三维点云地图进行优化，利用三维稠密条件随机场；

假设三维空间中共有N个点，其对应的类别数为k，令O＝{o₁,o₂,...,o_N}表示与三维点i∈{1,...,N}对应的随机变量集合，每个随机变量对应标签集合L＝{l₁,l₂,...,l_k}中的一个标签，X为观测值，Z()为归一化因子；基于条件随机场，给定点云标签的概率分布表示为：

其中，V为三维空间点的集合，ε为点对之间的边的集合；

其中，一元势能ψ_u(o_i|X)用当前点状态的负对数表示：

ψ_u(o_i|X)＝-log(p(o_i|X)) 公式六；

成对势能用外观核与平滑核两个高斯核线性组合：

两个高斯核分别表示为公式九和公式十：