CN114782530A

CN114782530A - 室内场景下的三维语义地图构建方法、装置、设备及介质

Info

Publication number: CN114782530A
Application number: CN202210316142.3A
Authority: CN
Inventors: 靳兴来; 黎鑫; 祝勇义; 胡敏; 朱世强
Original assignee: Hangzhou Guochen Robot Technology Co ltd
Current assignee: Hangzhou Guochen Robot Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-22

Abstract

本发明公开室内场景下的三维语义地图构建方法、装置、设备及介质。该方法，包括如下步骤：获取室内场景图；将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图；同时将室内场景图输入预设的语义分割模型中预测每个像素点的语义标签，获取语义分割标签图；基于点云地图与语义分割标签图中各像素点的对应关系，从语义分割标签图中提取出像素点的语义信息，并同步映射到三维点云地图中，获得像素级三维语义地图。本发明实现了像素级三维语义地图构建，且具有较好的鲁棒性。将为移动机器人实现基于语义的导航、交互和抓取等功能提供助力，有效提升其智能化水平。

Description

室内场景下的三维语义地图构建方法、装置、设备及介质

技术领域

本发明涉及视觉导航及图像处理技术领域，尤其涉及室内场景下的三维语义地图构建方法、装置、设备及介质。

背景技术

随着机器人技术的不断发展，对于室内移动服务机器人的需求呈现上升的趋势，然而室内移动服务机器人能够大规模进入家庭应用的前提是需要具备智能的环境感知和理解能力，其中一项关键技术是机器人能够具备建立语义地图的能力。目前机器人在非结构化环境中实现定位导航所依赖的地图以栅格地图、拓扑地图等为主，多为纯几何结构信息，缺乏环境中的物体语义信息，无法满足室内移动服务机器人的未来场景需求，因此语义地图作为智能三维感知的核心技术近来得到了广泛关注。

发明内容

为了解决上述技术问题，本发明提出室内场景下的三维语义地图构建方法、装置、设备及介质，基于视觉SLAM和深度学习语义分割的三维语义地图构建算法，通过像素坐标一致性的数据关联方法将Deeplabv3+语义分割算法输出的语义标签融合到基于稀疏直接法视觉里程计(DSO)的视觉SLAM系统构建的三维地图中，实现了像素级三维语义地图构建。

为了达到上述目的，本发明的技术方案如下：

室内场景下的三维语义地图构建方法，包括如下步骤：

获取室内场景图；

将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图；同时将室内场景图输入预设的语义分割模型中预测每个像素点的语义标签，获取语义分割标签图；

基于点云地图与语义分割标签图中各像素点的对应关系，从语义分割标签图中提取出像素点的语义信息，并同步映射到三维点云地图中，获得像素级三维语义地图。

优选地，将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图，具体包括如下步骤：

运行DSO算法，获取相机位姿和像素点深度值；

根据获取到的像素点深度值和相机内参，获得像素在以相机为参考原点的相机坐标系下的位置；

根据相机位姿，计算像素在标准坐标系下的位置；

计算出每个像素点在标准坐标系下的位置，建立室内场景的三维点云地图。

优选地，所述预设的语义分割模型的构建过程：

从公开数据集中选出室内场景下常见的物体，将其提取出来组成一个新的数据集，并对数据集进行预处理，将数据分为训练样本集和测试样本集；

将训练样本集输入DeepLabv3+网络模型中进行模型训练，获得初步模型；

将测试样本集输入初步模型中进行测试，根据测试结果调整原始超参数，直至初步模型的预测结果的误差满足预设阈值，将当前的模型作为语义分割模型输出。

优选地，采用mIoU作为评估指标对预测结果进行性能评估。

优选地，所述公开数据集包括ADE20K、COCO和Pascal。

优选地，所述室内场景下常见的物体包括书桌、门、人、花瓶、书柜、地板、显示器、扶手椅、盒子、墙、台灯、椅子、白板、窗帘、玻璃、挂画、时钟、桌子、沙发和植物。

优选地，还包括如下步骤：

通过轮廓检测方法定位到物体的边界，并学习预测边界到物体内部的距离和方向；

将物体内部的像素点的语义标签替换物体边界处的像素点的语义标签。

一种室内场景下的三维语义地图构建装置，包括：获取模块、第一提取模块、第二提取模块和构图模块，其中，

所述获取模块，用于获取室内场景图；

所述第一提取模块，用于接收室内场景图，并基于稀疏直接法视觉里程计的视觉SLAM系统提取三维点云地图；

所述第二提取模块，用于接收室内场景图，并基于预设的语义分割模型预测每个像素点的语义标签，获取语义分割标签图；

所述构图模块，用于基于点云地图与语义分割标签图中各像素点的对应关系，从语义分割标签图中提取出像素点的语义信息，并同步映射到三维点云地图中，获得像素级三维语义地图。

一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述任一所述的室内场景下的三维语义地图构建方法。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述的室内场景下的三维语义地图构建方法。

基于上述技术方案，本发明的有益效果是：本发明针对实际的室内环境，研究了一种基于视觉SLAM和深度学习语义分割的三维语义地图构建算法，通过像素坐标一致性的数据关联方法将Deeplabv3+语义分割算法输出的语义标签融合到基于稀疏直接法视觉里程计(DSO)的视觉SLAM系统构建的三维地图中，实现了像素级三维语义地图构建。本算法具有较好的鲁棒性，将为移动机器人实现基于语义的导航、交互和抓取等功能提供助力，有效提升其智能化水平。

附图说明

图1是一个实施例中室内场景下的三维语义地图构建方法的流程示意图；

图2是一个实施例中室内场景下的三维语义地图构建方法的原理图；

图3是一个实施例中语义分割边界优化方法的原理图；

图4是一个实施例中语义分割效果对比图，其中a为室内场景图；b为Deeplabv3+算法分割效果图；c为Deeplabv3+优化算法分割效果图；

图5是一个实施例中同一帧图像处理后的深度信息、点云信息与语义分割信息对比图；

图6是一个实施例中优化前、后机器人运行轨迹对比图；

图7是一个实施例中室内场景下的三维语义地图构建装置的结构示意图；

图8是一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1是室内场景下的三维语义地图构建方法的流程示意图，本申请实施例提供了一种室内场景下的三维语义地图构建方法，应用于移动机器人中，具体包括如下步骤：

步骤S1，获取室内场景图；

步骤S2，将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图；同时将室内场景图输入预设的语义分割模型中预测每个像素点的语义标签，获取语义分割标签图；

步骤S3，基于点云地图与语义分割标签图中各像素点的对应关系，从语义分割标签图中提取出像素点的语义信息，并同步映射到三维点云地图中，获得像素级三维语义地图。

针对机器人在非结构化环境中实现定位导航所依赖的地图以栅格地图、拓扑地图等为主，多为纯几何结构信息，缺乏环境中的物体语义信息，无法满足室内移动服务机器人的未来场景进行语义导航、交互和抓取等需求。对实际的室内环境，研究了一种基于视觉SLAM和深度学习语义分割的三维语义地图构建算法，通过像素坐标一致性的数据关联方法将Deeplabv3+语义分割算法输出的语义标签融合到基于稀疏直接法视觉里程计(DSO)的视觉SLAM系统构建的三维地图中，实现了像素级三维语义地图构建。该算法具有较好的鲁棒性，将为移动服务机器人实现基于语义的导航、交互和抓取等功能提供助力，有效提升其智能化水平。

如图2所示，本实施例中建立三维语义地图的具体原理：将一张室内场景图(RGB格式)被同时输入到视觉SLAM系统和预设的Deeplabv3+语义分割模型中，语义分割模型会预测该图片每个像素点的语义标签,语义标签形式上也是一张2D图片即语义分割标签图，其语义分割标签图和输入的室内场景图片具有相同的分辨率，各像素点具有一一对应关系。因此可以在将一个像素点p(u,v)通过深度值d和相机内参K转换为三维点P_c，并通过相机位姿变换T将其变换为三维地图点P_w的过程中，根据坐标一致性原则，从对应的语义分割标签图中提取出该像素点的语义信息，然后将其作为该三维点的语义属性值同步映射到三维点云地图中，构建像素级三维语义地图。

在一个实施例的所述的室内场景下的三维语义地图构建方法中，还提供了将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图的过程，具体包括如下步骤：

运行DSO算法，获取相机位姿T和像素点深度值d；

根据获取到的像素点深度值d和相机内参K，获得一个像素点p(u,v)在以相机为参考原点的相机坐标系下的位置P_c；

根据相机位姿T，计算像素在标准坐标系下的位置P_w(X_W，Y_W，Z_W)，公式如下：

式中，内参

R为旋转矩阵，t为平移向量；

在一个实施例的所述的室内场景下的三维语义地图构建方法中，还提供了语义分割模型的构建过程，具体包括如下步骤：

本实施例中，为了提升针对室内环境下的语义建图精度和质量，优化Deeplabv3+网络模型。具体地，从ADE20K、COCO和Pascal VOC三个公开数据集中选出室内场景下常见的20类物体，其20类物体包括书桌、门、人、花瓶、书柜、地板、显示器、扶手椅、盒子、墙、台灯、椅子、白板、窗帘、玻璃、挂画、时钟、桌子、沙发和植物。将20类物体提取出来组成一个新的数据集，共计18000张图片，其中15000张用于训练，3000张用于测试。

训练DeepLabv3+网络模型，需要设置模型训练的超参数，考虑到Deeplabv3+算法的特性和新数据集的特征，在Deeplabv3+算法论文中给出的原始超参数基础上进行调整，最终得到的超参数如表1所示：

表1超参数配置

DeepLabv3+网络模型的训练和测试在Ubuntu18.04系统下进行，其处理器为IntelE5-2678，共训练160000次迭代。训练完成后在测试集上进行测试，采用mIoU作为评估指标对预测结果进行性能评估。

在一个实施例的所述的室内场景下的三维语义地图构建方法中，还提供了进行语义分割边界优化过程，具体包括如下步骤：

本实施例中，针对DSO直接法视觉SLAM对物体边界位置的像素更敏感的问题以及当前的语义分割算法包括Deeplabv3+在物体边界处的语义分割通常不够精细的特点。通过理论分析并结合实际观察发现在语义分割中，对于一个物体，其内部像的语义分割结果通常是精确的，但越靠近边界处越不精确。为了解决这一问题，提出在Deeplabv3+基础上增加一个与模型无关的语义分割边界优化方法(Boundary Refinement)，其原理如图3所示。首先通过轮廓检测方法定位到物体的边界，并学习预测边界到物体内部的距离和方向，然后用内部像素的语义标签替换边界处的语义标签，从而减少边界处的分割错误，提升分割质量。

为验证语义分割边界优化算法的效果，同时选择实际室内办公室场景图片进行对比测试，其效果对比如图4所示，分割对象以凳子为例，在对比图中可以发现采用优化算法后具有更加精细的边界。分别对算法的基准版本和本文提出的采用了语义分割边界优化算法的版本进行测试和可视化对比分析，结果如表2所示：在采用语义边界优化(BoundaryRefinement)后，算法精度提升了1.2个百分点，同时对模型参数和运行时间基本无影响。

表2语义分割测试结果

为了验证本文所提出的室内场景下的语义建图算法的有效性，推动机器人围绕会议室移动一周，同时实时采集整个实验环境下的图片，共采集约2000张。将所采集的室内场景图片导入到算法中，在获取到图片的语义信息的同时，也可以获取到图片的点云位置信息，上述信息通过语义数据关联算法在三维地图上最终输出带语义信息的半密集三维语义地图。本文提出两个评价指标，一方面语义地图的识别类别的数量反映了参照物信息的丰富程度，也侧面能够评估算法的有效性。如表3可见，本文算法在类别的识别率可以达到100％，在实例的识别率可以达到近75％，能够提取到环境中的丰富的实例信息。

表3语义地图识别效果

另一方面语义地图是否能够形成与实际行走轨迹一致的闭环路线反映了算法是否能够进行点云匹配与校正。如图5中表示了每一帧图片处理时的深度信息、点云信息与语义分割信息，点云地图以及语义分割地图能够与物体呈现规则的对应；图6中表示了闭环优化前的轨迹和闭环优化后机器人运行轨迹。该实验表明本文所提出的语义地图构建框架与优化方法能够在室内环境下具有较好的点云分割与语义识别，并且能够重建出室内的三维语义地图和机器人运行路径的自动生成。

本申请实施例还提供了一种室内场景下的三维语义地图构建装置，其具体实现方式与上述室内场景下的三维语义地图构建方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

如图7所示，提供了一种室内场景下的三维语义地图构建装置100，该装置包括：获取模块110、第一提取模块120、第二提取模块130和构图模块140，其中，

所述获取模块110，用于获取室内场景图；

所述第一提取模块120，用于接收室内场景图，并基于稀疏直接法视觉里程计的视觉SLAM系统提取三维点云地图；

所述第二提取模块130，用于接收室内场景图，并基于预设的语义分割模型预测每个像素点的语义标签，获取语义分割标签图；

所述构图模块140，用于基于点云地图与语义分割标签图中各像素点的对应关系，从语义分割标签图中提取出像素点的语义信息，并同步映射到三维点云地图中，获得像素级三维语义地图。

上述实施例阐明的装置和模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

如图8所示，本申请实施例还提供一种计算机设备200，该设备包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230，其中，

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中室内场景下的三维语义地图构建方法的步骤，其具体实现方式与上述室内场景下的三维语义地图构建方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时时实现以下步骤：

获取室内场景图；

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请实施例的优选实施例而已，并不用于限制本申请实施例，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.室内场景下的三维语义地图构建方法，其特征在于，包括如下步骤：

获取室内场景图；

2.根据权利要求1所述的室内场景下的三维语义地图构建方法，其特征在于，将室内场景图输入视觉SLAM系统中感知室内环境，提取三维点云地图，具体包括如下步骤：

运行DSO算法，获取相机位姿和像素点深度值；

根据相机位姿，计算像素在标准坐标系下的位置；

3.根据权利要求1所述的室内场景下的三维语义地图构建方法，其特征在于，所述预设的语义分割模型的构建过程：

4.根据权利要求3所述的室内场景下的三维语义地图构建方法，其特征在于，采用mIoU作为评估指标对预测结果进行性能评估。

5.根据权利要求3所述的室内场景下的三维语义地图构建方法，其特征在于，所述公开数据集包括ADE20K、COCO和Pascal。

6.根据权利要求3所述的室内场景下的三维语义地图构建方法，其特征在于，所述室内场景下常见的物体包括书桌、门、人、花瓶、书柜、地板、显示器、扶手椅、盒子、墙、台灯、椅子、白板、窗帘、玻璃、挂画、时钟、桌子、沙发和植物。

7.根据权利要求1所述的室内场景下的三维语义地图构建方法，其特征在于，还包括如下步骤：

8.一种室内场景下的三维语义地图构建装置，其特征在于，包括：获取模块、第一提取模块、第二提取模块和构图模块，其中，

所述获取模块，用于获取室内场景图；

9.一种计算机设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的室内场景下的三维语义地图构建方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的室内场景下的三维语义地图构建方法。