CN111161334A

CN111161334A - 一种基于深度学习的语义地图构建方法

Info

Publication number: CN111161334A
Application number: CN201911410382.4A
Authority: CN
Inventors: 徐一鸣; 戴秋霞; 顾海峰; 顾菊平; 华亮; 王栗; 张海东; 卞春磊; 周方杰; 祁晖
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111161334B

Abstract

本发明涉及一种基于深度学习的语义地图构建方法，包括：实时采集移动机器人周围环境的图像信息，并根据所述图像信息获取移动机器人的位姿信息；根据所述移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据所述深度信息构建障碍物深度地图，所述深度信息为逆深度估计值；用训练好的目标检测模型对所述图像信息进行特征提取与处理，得到带有语义信息的图像信息，将所述带有语义信息的图像信息与所述障碍物深度地图进行融合，得到障碍物语义地图；利用闭环检测算法优化机器人的位姿并使用图优框架对所述障碍物语义地图进行图优化，实现带有语义信息的深度地图构建，提高机器人的环境感知与自主定位能力。

Description

一种基于深度学习的语义地图构建方法

技术领域

本发明属于人工智能与数字图像处理技术领域，涉及一种基于深度学习的语义地图构建方法。

背景技术

在机器人领域，一个重要的问题是如何使得机器人获得自身与环境的信息。为了解决这个问题，首先要使得机器人具备感知环境的能力。在实际研究中，机器人常常利用视觉信息来构建室内地图，然而，这些利用视觉信息构造的地图往往是利用深度相机构建的三维地图地图且不具备室内空间的语义信息。

传统的语义信息获取算法往往分为三个步骤，即区域选择，特征提取和分类。但是在区域选择时针对性不强且手动设计的特征对于目标的多样性并没有很好的鲁棒性，检测的结果实时性和准确性都比较低。

从深度相机被应用于地图构建领域之后，越来越多的开发者在这上面做了很多工作，但是在相机获取数据准确度不高的情况下，大环境下构建地图仍然是一个非常具有挑战的问题，因为深度相机的深度信息有效距离只有4米左右，在环境快速变化的过程中，超过4米的空旷环境下并不一定有深度信息反馈，这为构建深度地图带来了许多困难。

发明内容

为了克服上述现有的问题，本发明的目的是提供一种基于深度学习的室内语义地图构建方法，本发明将深度学习这一方法应用于室内的语义地图构建方法中，能够对室内常见的物品进行语义标注，提高移动机器人对周围环境的感知能力和自主定位能力。

为实现上述目的，本发明提供了一种基于深度学习的语义地图构建方法，包括以下步骤：

实时采集移动机器人周围环境的图像信息，并根据所述图像信息获取移动机器人的位姿信息；

根据所述移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据所述深度信息构建障碍物深度地图，所述深度信息为逆深度估计值；

用训练好的目标检测模型对所述图像信息进行特征提取与处理，得到带有语义信息的图像信息，将所述带有语义信息的图像信息与所述障碍物深度地图进行融合，得到障碍物语义地图；

利用闭环检测算法优化移动机器人的位姿并使用图优框架对所述障碍物语义地图进行图优化。

优选的，所述实时采集移动机器人周围环境的图像信息，并根据所述图像信息获取移动机器人的位姿信息，包括：

采用单目相机实时拍摄移动机器人周围环境，得到当前帧图像；

根据当前帧图像的信息与前一帧图像的信息确定移动机器人的位姿信息。

优选的，所述根据当前帧图像的信息与前一帧图像的信息确定移动机器人的位姿信息，包括：

根据当前帧图像与前一帧图像之间的光度误差构建如下式所示的移动机器人位姿函数：

其中，

E_p(ξ)_i，i-1为移动机器人位姿，P为空间上的某一点，ξ为移动机器人位姿对应的李代数，r_p(p,ξ_i，i-1)为P点在前一帧图像I_(i-1)和当前帧图像I_i上对应点的光度误差，D(p)为空间上的所有点集，I_i(p)为点p在当前帧图像I_i上对应的像素点，ω为点p投影到相机坐标系下的投影函数，

为光度误差的方差，||·||_δ为huber范数；

通过高斯牛顿迭代法对所述位姿函数进行求解，获得移动机器人位姿对应的李代数，并利用如下公式求出移动机器人的旋转信息和移动信息：

其中，R为移动机器人的旋转信息，t为移动机器人的移动信息。

优选的，所述根据所述移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据所述深度信息构建障碍物深度地图，包括：

根据所述移动机器人的位姿信息，采用三角测量方法估算移动机器人与障碍物之间的逆深度估计值；

利用如下公式计算当前帧图像与已构建深度地图中的最后一个关键帧之间的距离：

其中，dist(ξ_ji)是上述两帧之间的距离，ξ_ji是当前帧图像i与关键帧j之间移动机器人的位姿变换的李代数，W为对角阵；

比较所述距离与预设值之间的大小，若所述距离大于预设值，则在已构建深度地图中构建新的关键帧，否则，将所述当前图像帧对应的逆深度估计值与所述最后一个关键帧对应的逆深度估计值融合，更新已构建的深度地图，使更新后的深度地图中最后一个关键帧满足高斯分布：

其中，s_i表示当前帧图像i对应的逆深度估计值，

μ_i＝s_i，

是s_i服从的高斯分布中的标准差；s_j关键帧j对应的逆深度估计值，

μ_j＝s_j，

是s_j服从的高斯分布中的标准差。

优选的，所述用训练好的目标检测模型对所述图像信息进行特征提取与处理，得到带有语义信息的图像信息，将所述带有语义信息的图像信息与所述障碍物深度地图进行融合，得到障碍物语义地图，包括：

用训练好的faster-rcnn目标检测模型对获取的当前帧图像进行特征提取与处理，得到带有语义信息的图像帧；

根据如下公式计算所述带有语义信息的图像帧中的每一点与已构建深度地图的最后一个关键帧中每一点的相似度，

其中，A是所述带有语义信息的图像帧上的点o_i周围的小块，B是已构建深度地图的最后一个关键帧中的点o'_ik周围的小块，S(A,B)是A与B的相似度；

为所述带有语义信息的图像帧上的每一个点找到所述最后一个关键帧上与该点的相似度最接近于1的对应点，用所述带有语义信息的图像帧上的点覆盖对应点，为所述已构建深度地图添加语义信息。

本发明的有益效果是：

(1)本发明直接采用移动机器人自身携带的单目相机对室内环境进行深度地图构建，解决了单目相机无法构建深度地图或者深度信息获取不足的问题。

(2)本发明使用特征点匹配的方式将检测得到的带有语义信息的图像帧与构成深度地图的关键帧进行融合，递增式地构建室内环境空间语义地图，使移动机器人能够在室内全局语义地图中进行智能导航，为完成自动驾驶、家庭服务等人机交互任务奠定基础。

附图说明

图1是本发明提供的基于深度学习的语义地图构建方法的流程图；

图2是本发明提供的基于深度学习的语义地图构建方法的具体实现过程示意图；

图3是本发明提供的基于深度学习的语义地图构建方法的相机成像模型示意图；

图4是本发明提供的基于深度学习的语义地图构建方法中移动机器人位姿变换示意图；

图5是本发明提供的基于深度学习的语义地图构建方法中采用三角测量方法示意图；

图6是本发明提供的基于深度学习的语义地图构建方法中采用目标检测模型对获取的当前帧图像进行特征提取与处理的流程图。

具体实施方式

为了使技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所提供的一种基于深度学习的语义地图构建方法，包括以下步骤：

步骤S101：实时采集移动机器人周围环境的图像信息，并根据图像信息获取移动机器人的位姿信息；

步骤S102：根据移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据深度信息构建障碍物深度地图，深度信息为逆深度估计值；

步骤S103：用训练好的目标检测模型对图像信息进行特征提取与处理，得到带有语义信息的图像信息，将带有语义信息的图像信息与障碍物深度地图进行融合，得到障碍物语义地图；

步骤S104：利用闭环检测算法优化移动机器人的位姿并使用图优框架对障碍物语义地图进行图优化。

本发明所提供的基于深度学习的语义地图构建方法，通过实时采集移动机器人周围环境的图像信息，并根据图像信息获取移动机器人的位姿信息；根据移动机器人的位姿信息实时估算移动机器人与障碍物的逆深度估计值，并根据逆深度估计值构建障碍物深度地图；用训练好的目标检测模型对图像信息进行特征提取与处理，得到带有语义信息的图像信息，将带有语义信息的图像信息与障碍物深度地图进行融合，得到障碍物语义地图；利用闭环检测算法优化机器人的位姿并使用图优框架对障碍物语义地图进行图优化。本发明所提供的方法使得障碍物的语义信息与室内地图紧密联系，具有良好的鲁棒性，扩大了单目图像的使用范围。

请参照图2本发明所提供的基于深度学习的地图构建方法的具体实施过程示意图，下面对本发明的实施过程进行进一步详细阐述。

需要指出的是，本算法是基于视觉的语义地图构建方法，需要构建相机成像模型。为了说明本算法，具体的仿真实验中采用如图3所示的相机成像模型，根据三角形相似关系，有：

其中，O为摄像机的光心,也是针孔模型中的针孔。现实世界的空间点P,经过小孔O投影之后，落在物理成像平面O-x'-y'上,成像点为p'。设p的坐标为[X,Y,Z]^T，p'为[X',Y',Z']^T,并且设物理成像平面到小孔的距离为f(焦距)。

在上述实施例的基础上，本发明所提供的基于深度学习的地图构建方法中，实时采集移动机器人周围环境的图像信息，并根据所述图像信息获取移动机器人的位姿信息，包括：

进一步地，参照图4，根据当前帧图像的信息与前一帧图像的信息确定移动机器人的位姿信息，包括：

其中，

为光度误差的方差，||·||_δ为huber范数；

通过高斯牛顿迭代法对上式所示的位姿函数进行求解，获得移动机器人位姿对应的李代数，并利用如下公式求出移动机器人的旋转信息和移动信息：

进一步地，步骤S102根据所述移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据所述深度信息构建障碍物深度地图，包括：

根据移动机器人的位姿信息，采用如图5所示的三角测量方法估算移动机器人与障碍物之间的逆深度估计值；

三角测量公式：s_i-1x_i-1＝s_iRx_i+t，其中s_i表示第i帧图像对应的相机光心O_i与空间点p之间的逆深度估计值，x_i表示点P对应的在第i帧图像上的特征点归一化的坐标，其中s_i-1表示第i-1帧图像对应的相机光心O_i-1与空间点p之间的逆深度估计值，x_i-1表示点P对应的在第i-1帧图像上的特征点归一化的坐标，R为步骤S101中求得的移动机器人的旋转信息，t为步骤S101中求得的移动机器人的移动信息。

比较所述距离与预设值之间的大小，若所述距离大于预设值，则根据当前图像帧对应的逆深度估计值在已构建的深度地图中构建新的关键帧，否则，将所述当前图像帧对应的逆深度估计值与所述最后一个关键帧对应的逆深度估计值融合，将已构建的深度地图中的最后一个关键帧更新为满足如下式所示高斯分布的关键帧：

其中，s_i表示当前帧图像i对应的逆深度估计值，

μ_i＝s_i，

μ_j＝s_j，

是s_j服从的高斯分布中的标准差。

作为一种具体实施方式，步骤S103用训练好的目标检测模型对所述图像信息进行特征提取与处理，得到带有语义信息的图像信息，将所述带有语义信息的图像信息与所述障碍物深度地图进行融合，得到障碍物语义地图，包括：

为所述带有语义信息的图像帧上的每一个点找到所述最后一个关键帧上与该点的相似度最接近于1的对应点，用带有语义信息的图像帧上的点覆盖对应点，为已构建深度地图添加语义信息。

在上述实施例的基础上，用训练好的faster-rcnn目标检测模型参照图6对获取的当前帧图像进行特征提取与处理，得到带有语义信息的图像信息，具体为：

S301获取当前帧图像，对其进行预处理至固定大小；

S302使用卷积神经网络网络(CNN网络)来提取上述当前帧图像中障碍物的特征，并生成相应的特征图；

S303利用卷积网络等在特征图上生成初步候选区域并通过softmax层判断初步候选区域中的特征属性，结合边界框回归修正节点获得精确的候选区域；

S304收集产生的特征图和精确的候选区域，将这些信息进行综合并提取目标特征图；

S305利用目标特征图计算目标的类别，并使用边界框回归来获得障碍物的最终精确的位置和类别信息，障碍物的位置和类别信息便是障碍物的语义信息。

作为一种具体实施方式，步骤S104利用闭环检测算法优化机器人的位姿并使用图优框架对障碍物语义地图进行图优化，具体为：

搜索离已构建深度地图的最后一个带有语义信息的关键帧最近的5个关键帧作为候选帧，计算每一候选帧与所述带有语义信息的关键帧的移动机器人位姿变化对应的李代数；分别两两计算上述李代数之间的马氏距离，如距离均小于预设值，将这一帧插入全局地图，反之则去除；

上述马氏距离

其中ξ_jv是某一候选帧到已构建深度地图的最后一个带有语义信息的关键帧的移动机器人位姿对应的李代数，ξ_ij为另一关键帧到已构建深度地图的最后一个带有语义信息的关键帧的移动机器人位姿对应的李代数。

使用通用的图优化框架g2o对得到的地图进行优化。

综上所述，本发明所提供的方法具备下述优点：

使用单目相机实时获取二维图像，根据图像像素的亮度信息估计移动机器人的运动，可以完全不用计算关键点和描述子，及避免了特征的计算时间，也避免了特征缺失的情况，大大提高了特征追踪的精确性和鲁棒性。

充分利用二维图像信息与移动机器人的位姿变化信息，采用三角测量方法，估算图像帧的逆深度值，实现了单目深度地图的构建。

相较于传统的障碍物检测算法，本发明方法摆脱了光照变化，场景变化等对检测的影响，提高了检测的速度与准确度；

采用计算带有语义信息的图像帧和构成深度地图的关键帧上的点的相似度的方式，为深度地图添加语义信息，简化了匹配方式，提高了匹配的精确率。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围。

Claims

1.一种基于深度学习的语义地图构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语义地图构建方法，其特征在于，所述实时采集移动机器人周围环境的图像信息，并根据所述图像信息获取移动机器人的位姿信息，包括：

根据所述当前帧图像的信息与前一帧图像的信息确定移动机器人的位姿信息。

3.根据权利要求2所述的语义地图构建方法，其特征在于，所述根据所述当前帧图像的信息与前一帧图像的信息确定移动机器人的位姿信息，包括：

根据所述当前帧图像与前一帧图像之间的光度误差构建如下式所示的移动机器人位姿函数：

其中，

为光度误差的方差，||·||_δ为huber范数；

通过高斯牛顿迭代法对所述移动机器人位姿函数进行求解，获得移动机器人位姿对应的李代数，并利用如下公式求出移动机器人的旋转信息和移动信息：

4.根据权利要求3所述的语义地图构建方法，其特征在于，所述根据所述移动机器人的位姿信息实时估算移动机器人与障碍物的深度信息，并根据所述深度信息构建障碍物深度地图，包括：

比较所述距离与预设值之间的大小，若所述距离大于预设值，则在所述已构建深度地图中构建新的关键帧，否则，将所述当前图像帧对应的逆深度估计值与所述最后一个关键帧对应的逆深度估计值融合，更新已构建深度地图，使更新后的深度地图中最后一个关键帧满足高斯分布：

其中，s_i表示当前帧图像i对应的逆深度估计值，

μ_i＝s_i，

μ_j＝s_j，

是s_j服从的高斯分布中的标准差。

5.根据权利要求1所述的语义地图构建方法，其特征在于，所述用训练好的目标检测模型对所述图像信息进行特征提取与处理，得到带有语义信息的图像信息，将所述带有语义信息的图像信息与所述障碍物深度地图进行融合，得到障碍物语义地图，包括：

其中，A是所述带有语义信息的图像帧上的点o_i周围的小块，B是已构建深度地图的最后一个关键帧中的点o_i'_k周围的小块，S(A,B)是A与B的相似度；