CN111190981B

CN111190981B - 一种三维语义地图的构建方法、装置、电子设备及存储介质

Info

Publication number: CN111190981B
Application number: CN201911354167.7A
Authority: CN
Inventors: 李嘉茂; 石文君; 张晓林; 朱冬晨
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-11-06
Anticipated expiration: 2039-12-25
Also published as: CN111190981A

Abstract

本申请涉及一种三维语义地图的构建方法、装置、电子设备及存储介质，该方法通过获取环境图像集合，并根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列。将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到第一点云集合，第一点云集合中的第一点云对应每帧语义图像。对第一点云集合进行滤波，得到滤波后的第一点云集合；对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；对第二点云集合进行滤波，得到三维语义地图。本申请将彩色图像序列和深度图像序列结合作为语义分割模型的输入，如此，可以提升语义预测能力，且基于带语义的点云分层次地进行滤波，可以节约缓存、提升实时性。

Description

一种三维语义地图的构建方法、装置、电子设备及存储介质

技术领域

本申请涉及机器视觉技术领域，特别涉及一种三维语义地图的构建方法、装置、电子设备及存储介质。

背景技术

21世纪以来，人工智能在计算机领域受到了愈加广泛的重视，其理论和技术日益成熟，应用领域也不断扩大。机器人是人工智能技术的最直接、最普遍的应用，在未来将作为新型生产工具提高人类生产力并不断扩展人类活动领域。智能机器人能够像人类一样在现实场景中进行正确的动态决策与规划、行为控制、任务执行等活动，其基础和关键在于机器人对这个世界的正确感知。对于许多如营救被困人员或者在未知环境中寻找给定类型的目标等任务，不仅需要机器人自身定位以及感知周围环境几何信息，更需要机器人有能力了解场景及其内部包含对象的语义信息。举个例子，救援机器人应该能够识别场景中的障碍物和救援目标，并了解障碍物是墙壁、椅子、书架还是其他障碍物。因此，构建一个有语义标注的三维地图是任务型机器人正确感知三维场景的几何及语义信息，从而高效地完成相关任务的基础，是当前人工智能领域极具应用前景和社会价值的研究方向。

机器人三维场景感知是指机器人能够依靠传感器获取周围环境的信息，并处理提取出环境中有效的三维几何或语义特征，最后表示成机器人能够理解的模式的过程。该过程的关键目的是获得场景的三维语义地图，目前主要有两种思路，一种是先重建出场景的三维几何点云，然后利用三维点云语义分割方法将该点云地图进行语义分割，最终获得场景的三维语义地图。由于现有点云语义分割算法性能的局限性，其很难直接分割重建得到的带有大量噪点的场景点云，而目前仍未找到较好的方法能使得重建出来的场景点云通过点云语义分割方式得到高精度语义地图。再者，随着场景规模的扩大，三维点云地图的内存占用和计算成本必然增大，通过该思路获得语义地图就更不现实。因此，另外一种在三维空间中融合2D语义分割结果的语义建图方法则开始受到广泛关注。

一般的语义建图系统主要包含三个分支：2D图像语义分割、位姿估计以及语义融合。鉴于近年来深度卷积神经网络在图像领域语义分割任务上取得的显著成果，越来越多的语义建图系统的语义分割分支尝试利用深度学习技术在这方面的优势，以获得更加准确的语义预测。语义融合分支则基于贝叶斯公式或者条件随机场，对语义分割网络得到的逐点语义预测概率进行融合，而存储多帧逐点的多个类别的预测概率本身又是一件耗时且占缓存的事情。目前的语义建图系统很难达到实时，根本原因主要是其2D语义分割手段和语义融合算法原理上无法满足实时性要求。

对于室内场景，现有语义建图系统在2D语义分割分支得到的语义分割结果正确率低、鲁棒性差。原因是室内场景物品种类繁杂、数量多，且相同类别的物体纹理也具有多样性。然而大多数深度神经网络仅对RGB图像进行处理，对光度和纹理信息的过度依赖是这些方法语义分割能力差的原因之一。此外，从室内场景采集得到的视频序列往往由于相机视场和室内空间有限，致使单帧图像中某些物体的轮廓并不能完整地被呈现，再加上标注人员容易在物体边缘(交界)处出现语义标注偏差，这种不可靠的输入信号和监督信号必然造成网络对某些物体的感知出现混淆。

对于语义融合分支，现有语义融合方法一般都基于贝叶斯公式或者条件随机场，即对每个像素点在不同帧中预测的语义类别概率进行融合，最终得到该点的语义类别。因此，存储多帧逐点的多个类别的预测概率则成了融合算法实施过程中既耗时又占缓存的必需中间步骤。而目前的语义建图系统很难达到实时，除了2D语义分割网络用时较多，另外很大一部分原因是基于概率的语义融合算法在原理上就很难实现实时。此外，现有语义融合算法均采用固定融合前后n帧的语义信息，而没有考虑两帧之间如果视角差异太大，其捕捉到的纹理相差也很大，预测得到的语义类别很可能不同，融合这种由于视角变化大而导致的语义冲突对整个场景的语义分割意义不大，甚至会对正确预测产生不良影响。

发明内容

本申请实施例提供了一种三维语义地图的构建方法、装置、电子设备及存储介质，一方面，可以提升语义预测能力；另一方面，可以节约缓存、提升实时性。

一方面，本申请实施例提供了一种三维语义地图的构建方法，包括：

获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应；

根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应；

根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；

基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像；

对第一点云集合进行滤波，得到滤波后的第一点云集合；

对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云；

对第二点云集合进行滤波，得到三维语义地图。

另一方面，本申请实施例提供了一种三维语义地图的构建装置，包括：

获取模块，用于获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应；

语义分割模块，用于根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应；

投射模块，用于根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；

确定模块，用于基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像；

第一滤波模块，用于对第一点云集合进行滤波，得到滤波后的第一点云集合；

处理模块，用于对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云；

第二滤波模块，用于对第二点云集合进行滤波，得到三维语义地图。

另一方面，本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行上述的一种三维语义地图的构建方法。

另一方面，本申请实施例提供了一种计算机存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种三维语义地图的构建方法。

本申请实施例提供的一种三维语义地图的构建方法、装置、电子设备及存储介质具有如下有益效果：

通过获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应；根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应；根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像；对第一点云集合进行滤波，得到滤波后的第一点云集合；对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云；对第二点云集合进行滤波，得到三维语义地图。本申请将彩色图像序列和深度图像序列结合作为语义分割模型的输入，如此，可以提升语义预测能力，且基于带语义的点云分层次地进行滤波，可以节约缓存、提升实时性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种应用场景的示意图；

图2是本申请实施例提供的一种三维语义地图的构建方法的流程示意图；

图3是本申请实施例提供的一种语义分割模型的结构示意图；

图4是本申请实施例提供的一种融合模块的结构示意图；

图5是本申请实施例提供的一种三维语义地图构建方法的过程示意图；

图6是本申请实施例提供的一种三维语义地图的构建装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种应用场景的示意图，包括语义分割模型101、图像处理模块102和语义融合模块103，由语义分割模型101、图像处理模块102和语义融合模块103组成的整体获取环境图像集合后，依次经过上述3个模块输出环境图像序列对应的三维语义地图。

获取环境图像集合输入语义分割模型101；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应。根据语义分割模型101对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应，并输出至图像处理模块102。图像处理模块102根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云，并输出至语义融合模块103。语义融合模块103基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像。语义融合模块103对第一点云集合进行滤波，得到滤波后的第一点云集合。语义融合模块103对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云。语义融合模块103对第二点云集合进行滤波，得到三维语义地图。

本申请实施例中，语义分割模型101、图像处理模块102和语义融合模块103可以被设置在同一个设备中，比如移动终端、计算机终端、服务器或者类似的运算装置；可选的，语义分割模型101、图像处理模块102和语义融合模块103可以被设置在多个设备中，该多个设备处于一个系统中；可选的，语义分割模型101、图像处理模块102和语义融合模块103可以被设置在一个平台上。因此，本申请实施例的执行主体可以是移动终端、计算机终端、服务器或者类似的运算装置；可以是某个系统，还可以是某个平台。

可选的，移动终端可以是机器人。

以下介绍本申请一种三维语义地图的构建方法的具体实施例，图2是本申请实施例提供的一种三维语义地图的构建方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S201：获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应。

本申请实施例中，通过深度摄像机直接获取环境图像集合(RGB-D图像集合)，环境图像集合包括彩色(RGB)图像序列和深度(Depth)图像序列，彩色图像序列和深度图像序列一一对应。也可以通过双目摄像机获取彩色图像序列，并计算出每帧彩色图像对应的深度图像。

可选的，深度摄像机可以是微软Kinect摄像机。

S203：根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应。

本申请实施例中，语义分割模型是基于彩色图像序列和深度图像序列的双流网络。将彩色图像序列作为主流网络的输入，深度图像序列作为辅流网络的输入。且语义分割模型是多层级机构，具有多个交叉融合模块。将辅流网络从每帧深度图像中提取得到的不同层级的特征分别送入主流网络对应的特征层，实现每帧彩色图像中包含的外观信息和对应的深度图像中包含的几何信息的互补性融合，如此，可以解决现有的网络模型对纹理和光度等外观信息过度依赖的问题，可以提升语义预测能力。

请参阅图3，图3是本申请实施例提供的一种语义分割模型的结构示意图。可选的，双流网络的特征提取部分结构基本一致，都是基于残差网络(ResNet50)的四个残差模块实现逐层特征提取，而在每一个残差模块的输出层都利用一个交叉融合模块将该层输出的来自深度图像的特征整合进主流网络对应的特征图，并将整合后的特征分别输送到两个网络的下一个负责提取更深层特征的残差模块，最终得到多层级融合了两个模态信息的特征体。基于Deeplabv3+网络模型的解码思想，将得到的特征体进行空洞空间金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)，并多层输出拼接后连同第一个残差模块输出的浅层融合特征一起送入解码器，解码器结构跟Deeplabv3+中给出的解码结构相同。经过解码，得到最后的语义图像序列。具体的，语义分割模型的每个层级结构可以包括主流网络子模块、辅流网络子模块和融合模块。当前层级结构的主流网络子模块的输入端与上一层级结构中的融合模块的输出端连接。当前层级结构的辅流网络子模块的输入端与上一层级结构中的辅流网络子模块的输出端连接。请参阅图4，图4是本申请实施例提供的一种融合模块的结构示意图，包括第一拼接模块、第一注意力模块、第二注意力模块、第一乘法器、第二乘法器、加法器、第二拼接模块、第一卷积模块和第二卷积模块。第一拼接模块的输入端分别和上一层级结构中的主流网络子模块的输出端和上一层级结构中的辅流网络子模块的输出端连接。第一注意力模块的输入端与第二注意力模块的输入端均与第一拼接模块的输出端连接；通过学习得到来自两个模态的特征体在不同通道上所对应的权重，并将该权重乘回到原输入特征，这样做的好处是可以通过训练使网络自主学习得到两种不同模态各自的重要信息，并且实现不同特征的互补性融合。第一乘法器的输入端分别与上一层级结构中的主流网络子模块的输出端和第一注意力模块的输出端连接。第二乘法器的输入端分别与上一层级结构中的辅流网络子模块的输出端和第二注意力模块的输出端连接。加法器的输入端分别与第一乘法器的输出端和第二乘法器的输出端连接。第一卷积模块的输入端与上一层的融合模块的输出端连接。第二拼接模块的输入端分别与加法器的输出端和第一卷积模块的输出端连接。第二卷积模块的输入端与第二拼接模块的输出端连接。将上述结构的融合模块应用在不同深度特征的融合上，利用多层级特征信息的进一步提取和融合，可以获得更加充分、表征性更强的特征，以保证后续解码结构可以输出更加正确的语义预测结果。

本申请实施例中，基于每张图像不同位置像素点对应的“内敛值”提出了一种带有歧视的交叉熵损失函数，并基于该交叉熵损失函数对未训练的语义分隔模型进行训练，得到上述已训练的语义分割模型。其中，内敛值用于评价像素点在某物体内部的程度，是当前像素和最近不同类像素之间的距离值。在训练过程中，通过计算每个像素点的内敛值，减小内敛值低的点(一般是物体边缘点)在损失函数中的影响，可以避免由于物体边缘真值标注偏差(错误的监督信号)对网络产生的不良引导。

一种可选的基于带有歧视的交叉熵损失函数对未训练的语义分隔模型进行训练，得到上述已训练的语义分割模型的实施方式中，确定带有歧视的交叉熵损失函数。根据未训练的语义分隔模型对训练数据进行语义分割，得到第一语义图像；基于上述交叉熵损失函数、第一语义图像和理想语义图像确定损失值；当损失值大于预设阈值时，基于损失值进行反向传播，对未训练的语义分隔模型进行更新以得到更新后的语义分隔模型；重复步骤：根据未训练的语义分隔模型对训练数据进行语义分割，得到第一语义图像；基于上述交叉熵损失函数、第一语义图像和理想语义图像确定损失值；当损失值小于预设阈值时，得到已训练的语义分割模型。

一种可选的确定带有歧视的交叉熵损失函数的实施方式中，确定语义序列的每帧语义图像中每个像素的内敛值，得到内敛图；内敛值是当前像素和最近不同类像素之间的距离值；基于内敛图确定歧视性掩膜；基于歧视性掩膜确定带有歧视的交叉熵损失函数。具体的，对于给定的一阵2D语义图像(Label，尺寸为W×H)，根据下述算法可以确定出每个像素的内敛值，得到内敛图(I_g)：

其次，根据公式(1)将上述得到的内敛图(I_g)进行转换，得到歧视性掩膜：

其中，D_m表示歧视性掩膜。

最后，基于歧视性掩膜D_m确定带有歧视的交叉熵损失函数可以是公式(2)：

其中，i表示像素点；向量y_i是像素点i的语义真值得独热编码形式，如[0,…,1,…,0]^T；向量P_i表示像素点i在所有类别上的预测概率。

本申请实施例中，利用上述的带歧视的交叉熵损失函数，在语义分割模型训练过程中内敛值小于10的像素在损失函数的影响很小，而内敛值越大其在损失函数中的影响就越大。

S205：根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云。

S207：基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像。

本申请实施例中，将环境图像集合输入同步定位与建图(SimultaneousLocalization And Mapping，SLAM)系统，实时估计出每一帧对应的相机位姿。然后根据相机位姿将语义图像序列的每帧语义图像结合深度图像序列投射到预先建立的三维坐标系上，可以得到每帧语义图像对应的点云，并确定出第一点云集合，第一点云集合中的第一点云对应每帧语义图像。

可选的，SLAM系统可以是ORB-SLAM v2。

可选的，预先建立的三维坐标系可以是以第一帧环境图像的相机光心为原点的世界坐标系。

S209：对第一点云集合进行滤波，得到滤波后的第一点云集合。

S211：对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云。

S213：对第二点云集合进行滤波，得到三维语义地图。

本申请实施例中，请参阅图5，图5是本申请实施例提供的一种三维语义地图构建方法的过程示意图。经过步骤S201-S207，得到第一点云集合之后，依次对第一点云集合中的第一点云进行滤波，得到滤波后的第一点云集合。其次，对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合，第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云。这里的聚类表示，若连续多个第一点云对应的视场均在预设视场内，则将该连续多个第一点云归为一类，即得到一个第二点云。其次，对第二点云集合进行滤波，若在上述步骤对第一点云聚类之后只得到一个类，即第二点云集合只包括一个第二点云，则对第二点云集合整体进行滤波之后得到三维语义地图；若在上述步骤对第一点云聚类之后只得到多个类，则依次对第二点云集合中的第二点云进行滤波。对滤波后的第二点云集合再进行整体滤波，最后得到三维语义地图。

本申请实施例中，利用语义引导的网格滤波器对不同层面的点云进行滤波。

一种可选的对第一点云集合进行滤波的实施方式中，针对第一点云集合中的每个第一点云P：将第一点云分隔成多个点集合{_i}；确定第一点云中每个特征点

所属的对象类别，

针对多个点集合中的每个点集合{_i}：从点集合中确定质心点

基于质心点所属的对象类别确定目标点集合；目标点集合中目标点所属的对象类别与质心点所属的对象类别相同；确定目标点集合的数量占点集合的数量的比率；若比率大于等于预设比率，确定质心点为目标点，并将点集合中其余特征点删除；或者；若比率小于预设比率，将点集合中所有的特征点删除。

一种可选的从点集合中确定质心点的实施方式中，根据公式(3)确定点集合的质心位置，确定点集合中距离该质心位置最近的点为质心点：

其中，

表示质心位置；

表示三维坐标；n_i＝|V_i|。

一种可选的基于质心点所属的对象类别确定目标点集合的实施方式中，确定与质心点所属的初始对象类别相同的点的数量，若与质心点所属的初始对象类别相同的点的数量占该点集合的数量的比率大于等于0.25，则根据质心点所属的初始对象类别确定目标点集合。或者，若与质心点所属的对象类别相同的点的数量占该点集合的数量的比率小于0.25，则确定点集合中所有对象类别的众数，若该对象类别对应的点的数量占该点集合的数量的比率大于等于0.35，将该对象类别更新为质心点所属的对象类别，根据更新后的质心点所属的对象类别确定目标点集合。具体的，可以根据公式(4)确定质心点所属的对象类别，再基于确定的质心点所属的对象类别确定目标点集合：

其中，

表示质心点

所属的初始对象类别；

表示与质心点所属的初始对象类别相同的点的数量占该点集合的数量的比率；

表示点集合中所有对象类别的众数；

表示该众数的对象类别对应的点的数量占该点集合的数量的比率。

与现有技术中使用贝叶斯概率公式或条件随机场(Conditional Random Tield，CRF)正则化更新方案来改进场景语义预测结果的许多语义融合方法不同，本申请实施例提出的方法基于简单直观的统计原理，不需要将所有点每个类别的概率进行缓存。无论是位于物体边缘还是内部的点，使用上述滤波规则都可以显着地改进最终场景语义预测结果的正确率。该方法能够有效地处理2D语义分割错误所带来的语义点云噪声，保证了同一个语义对象在三维空间上的连续性，同时也能纠正某些帧由于运动模糊对语义分割产生的不良影响，实现多视角帧语义点云拼接时的语义一致性。

实际情况中，并不是所有相机位置拍摄的图像都受到时空一致性的约束，因为许多帧之间并没有足够大的视角重叠区域，没有必要对这些视角之间的点进行滤波。而现有技术中大多数语义融合算法仍然考虑来自所有视角帧的点，这造成了大量的冗余计算。且现有技术中语义融合算法使用固定数目的帧进行分段语义融合，但没有考虑到相机不规则运动引起的帧间运动范围的差异。本申请实施例中，对滤波后的第一点云集合中的第一点云进行聚类处理，得到的类即为第二点云，该第二点云中包括多个连续的第一点云，且多个连续的第一点云对应的视角具有较大的重叠区域。

一种可选的对滤波后的第一点云集合中的第一点云进行聚类处理的实施方式中，针对第二点云集合中每个第二点云：基于确定的起始第一点云的视场，即起始第一点云所对应相机的全局位姿建立视场椎体；确定当前第一点云的视场基于起始第一点云的视场的重叠区域中特征点的数量；从起始第一点云和当前第一点云中确定出目标点云；确定重叠区域中特征点的数量占目标点云中特征点的数量的比率；若比率大于等于0.5，确定当前第一点云属于当前第二点云；或者；若比率小于0.5，确定当前第一点云为下一个第二点云的起始第一点云，并得到当前第二点云。

一种可选的从起始第一点云和当前第一点云中确定出目标点云的实施方式中，从起始第一点云和当前第一点云中选择总点数较小的作为目标点云。

本申请实施例中，通过上述步骤使得时间域上每个类(第二点云)中可以根据场景以及相机的运动情况自适应的控制其包含的第一点云的数量，一方面，可以解决融合所有对应的帧所带来的计算冗余；另一方面，也可以适时应对相机不规则运动所带来的不良影响。

本申请实施例还提供了一种三维语义地图的构建装置，图6是本申请实施例提供的一种三维语义地图的构建装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应；

语义分割模块602，用于根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应；

投射模块603，用于根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；

确定模块604，用于基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像；

第一滤波模块605，用于对第一点云集合进行滤波，得到滤波后的第一点云集合；

处理模块606，用于对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云；

第二滤波模块607，用于对第二点云集合进行滤波，得到三维语义地图。

本申请实施例中的装置与方法实施例基于同样地申请构思。

本申请实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行上述的一种三维语义地图的构建方法。

本申请实施例还提供了一种计算机存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种三维语义地图的构建方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的一种三维语义地图的构建方法、装置、电子设备或存储介质的实施例可见，本申请中通过获取环境图像集合；环境图像集合包括彩色图像序列和深度图像序列；彩色图像序列和深度图像序列一一对应；根据已训练的语义分割模型对环境图像集合进行语义分割，得到语义图像序列；语义图像序列和彩色图像序列一一对应；根据深度图像序列和环境图像集合中每张环境图像中的位姿信息将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；基于每帧语义图像对应的点云确定第一点云集合，第一点云集合中的第一点云对应每帧语义图像；对第一点云集合进行滤波，得到滤波后的第一点云集合；对滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；第二点云集合中的第二点云包括至少一个第一点云，且第二点云中的第一点云为连续的第一点云；对第二点云集合进行滤波，得到三维语义地图。本申请将彩色图像序列和深度图像序列结合作为语义分割模型的输入，如此，可以提升语义预测能力，且基于带语义的点云分层次地进行滤波，可以节约缓存、提升实时性。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种三维语义地图的构建方法，其特征在于，包括：

获取环境图像集合；所述环境图像集合包括彩色图像序列和深度图像序列；所述彩色图像序列和所述深度图像序列一一对应；

根据已训练的语义分割模型对所述环境图像集合进行语义分割，得到语义图像序列；所述语义图像序列和所述彩色图像序列一一对应；

根据所述深度图像序列和所述环境图像集合中每张环境图像中的位姿信息将所述语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；

基于所述每帧语义图像对应的点云确定第一点云集合，所述第一点云集合中的第一点云对应所述每帧语义图像；

对所述第一点云集合进行滤波，得到所述滤波后的第一点云集合；

对所述滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；所述第二点云集合中的第二点云包括至少一个第一点云，且所述第二点云中的第一点云为连续的第一点云；

对所述第二点云集合进行滤波，得到三维语义地图。

2.根据权利要求1所述的方法，其特征在于，所述已训练的语义分割模型为多层级结构；每个所述层级结构包括主流网络子模块、辅流网络子模块和融合模块；

当前层级结构的主流网络子模块的输入端与上一层级结构中的融合模块的输出端连接；

所述当前层级结构的辅流网络子模块的输入端与所述上一层级结构中的辅流网络子模块的输出端连接；

所述融合模块包括第一拼接模块、第一注意力模块、第二注意力模块、第一乘法器、第二乘法器、加法器、第二拼接模块、第一卷积模块和第二卷积模块；

所述第一拼接模块的输入端分别和所述上一层级结构中的主流网络子模块的输出端和所述上一层级结构中的辅流网络子模块的输出端连接；

所述第一注意力模块的输入端与所述第二注意力模块的输入端均与所述第一拼接模块的输出端连接；

所述第一乘法器的输入端分别与所述上一层级结构中的主流网络子模块的输出端和所述第一注意力模块的输出端连接；所述第二乘法器的输入端分别与所述上一层级结构中的辅流网络子模块的输出端和所述第二注意力模块的输出端连接；

所述加法器的输入端分别与所述第一乘法器的输出端和所述第二乘法器的输出端连接；

所述第一卷积模块的输入端与所述上一层的融合模块的输出端连接；

所述第二拼接模块的输入端分别与所述加法器的输出端和所述第一卷积模块的输出端连接；

所述第二卷积模块的输入端与所述第二拼接模块的输出端连接。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括基于带有歧视的交叉熵损失函数对未训练的语义分隔模型进行训练，得到所述已训练的语义分割模型的步骤；

所述基于带有歧视的交叉熵损失函数对未训练的语义分隔模型进行训练，得到所述已训练的语义分割模型，包括：

确定所述带有歧视的交叉熵损失函数；

根据所述未训练的语义分隔模型对训练数据进行语义分割，得到第一语义图像；

基于所述交叉熵损失函数、第一语义图像和理想语义图像确定损失值；

当所述损失值大于预设阈值时，基于所述损失值进行反向传播，对所述未训练的语义分隔模型进行更新以得到更新后的语义分隔模型；重复步骤：根据所述未训练的语义分隔模型对训练数据进行语义分割，得到第一语义图像；基于所述交叉熵损失函数、第一语义图像和理想语义图像确定损失值；

当所述损失值小于预设阈值时，得到所述已训练的语义分割模型。

4.根据权利要求3所述的方法，其特征在于，所述确定所述带有歧视的交叉熵损失函数，包括：

确定所述语义图像序列的每帧语义图像中每个像素的内敛值，得到内敛图；所述内敛值是当前像素和最近不同类像素之间的距离值；

基于所述内敛图确定歧视性掩膜；

基于所述歧视性掩膜确定所述带有歧视的交叉熵损失函数。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一点云集合进行滤波，包括：

针对所述第一点云集合中的每个第一点云：将所述第一点云分隔成多个点集合；确定所述第一点云中每个特征点所属的对象类别；

针对所述多个点集合中的每个点集合：从所述点集合中确定质心点，基于所述质心点所属的对象类别确定目标点集合；所述目标点集合中目标点所属的对象类别与所述质心点所属的对象类别相同；确定所述目标点集合的数量占所述点集合的数量的比率；若所述比率大于等于预设比率，确定所述质心点为目标点，并将所述点集合中其余特征点删除；或者；若所述比率小于预设比率，将所述点集合中所有的特征点删除。

6.根据权利要求1所述的方法，其特征在于，所述对所述滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合，包括：

针对所述第二点云集合中每个第二点云：

基于确定的起始第一点云的视场建立视场椎体；

确定当前第一点云的视场基于所述起始第一点云的视场的重叠区域中特征点的数量；

从所述起始第一点云和所述当前第一点云中确定出目标点云；

确定所述重叠区域中特征点的数量占所述目标点云中特征点的数量的比率；

若所述比率大于等于预设比率，确定所述当前第一点云属于当前第二点云；或者；若所述比率小于所述预设比率，确定所述当前第一点云为下一个第二点云的起始第一点云，并得到当前第二点云。

7.一种三维语义地图的构建装置，其特征在于，包括：

获取模块，用于获取环境图像集合；所述环境图像集合包括彩色图像序列和深度图像序列；所述彩色图像序列和所述深度图像序列一一对应；

语义分割模块，用于根据已训练的语义分割模型对所述环境图像集合进行语义分割，得到语义图像序列；所述语义图像序列和所述彩色图像序列一一对应；

投射模块，用于根据所述深度图像序列和所述环境图像集合中每张环境图像中的位姿信息将所述语义图像序列的每帧语义图像投射到预先建立的三维坐标系上，得到每帧语义图像对应的点云；

确定模块，用于基于所述每帧语义图像对应的点云确定第一点云集合，所述第一点云集合中的第一点云对应所述每帧语义图像；

第一滤波模块，用于对所述第一点云集合进行滤波，得到所述滤波后的第一点云集合；

处理模块，用于对所述滤波后的第一点云集合中的第一点云进行聚类处理，得到第二点云集合；所述第二点云集合中的第二点云包括至少一个第一点云，且所述第二点云中的第一点云为连续的第一点云；

第二滤波模块，用于对所述第二点云集合进行滤波，得到三维语义地图。

8.根据权利要求7所述的装置，其特征在于，所述已训练的语义分割模型为多层级结构；每个所述层级结构包括主流网络子模块、辅流网络子模块和融合模块；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-6任一项所述的一种三维语义地图的构建方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任一项所述的一种三维语义地图的构建方法。