CN112819893A

CN112819893A - 三维语义地图的构建方法和装置

Info

Publication number: CN112819893A
Application number: CN202110180099.8A
Authority: CN
Inventors: 齐越; 杨朔; 王晨; 王君义; 高连生; 李弘毅
Original assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute; Beihang University
Current assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute; Beihang University
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-18

Abstract

本申请提供一种三维语义地图的构建方法和装置，其中，该方法包括：获取相机采集样本空间得到的图像数据，对RGB图像进行语义分割，获取二维语义图像，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿，构建三维空间地图，将二维语义图像和三维空间地图融合，得到样本空间的三维语义地图。该技术方案中，通过对样本空间的RGB图像进行语义分割得到语义信息，同时通过对相机的位姿进行回环检测和重定位，构建三维空间地图，并结合语义信息对样本空间进行三维优化重建，最终得到的三维语义地图能够方便用户或者机器更加自由的与样本空间进行信息交互，方便用户或机器能够快速的对样本空间中的物体进行识别和查询。

Description

三维语义地图的构建方法和装置

技术领域

本申请涉及图像技术领域，尤其涉及一种三维语义地图的构建方法和装置。

背景技术

随着图像技术的发展，三维图像技术在地图构建、人脸识别、室内场景重建等诸多领域都得到应用，用户可以通过手持深度相机环绕场景，采集深度图像，然后通过深度相机的内参将采集的深度图像转化为三维点云，根据三维点云即可构建得到该场景的三维地图。

现有技术中，在构建三维场景地图时，是将场景中各个目标物的轮廓、形状以及位置信息等通过图像的形式体现出来，后续还需要操作人员根据生活经验来识别出这些目标物的名称、所属类别等等，现有技术构建的这种三维场景地图的使用效果差，不利于机器或者其他用户快速的识别以及查找到三维场景地图中的目标物。

发明内容

本申请提供一种三维语义地图的构建方法和装置，用于解决现有三维场景地图无法使得机器或用户快速查识别找目标物的问题。

第一方面，本申请实施例提供一种三维语义地图的构建方法，包括：

获取相机采集样本空间得到的图像数据，所述图像数据包括RGB图像和深度图像；

根据预设深度学习网络，对所述RGB图像进行语义分割，获取二维语义图像，所述二维语义图像包括描述所述样本空间的语义信息；

获取所述二维语义图像和深度图像的编码信息，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿；

根据所述深度图像，构建三维空间地图；

根据所述每一帧图像数据的相机位姿，将所述二维语义图像和所述三维空间地图融合，得到所述样本空间的三维语义地图。

在第一方面的一种可能设计中，所述预设深度学习网络包括浅层网络、深度残差网络和全局平均池化，所述根据预设深度学习网络，对所述RGB图像进行语义分割，获取二维语义图像，包括：

根据所述浅层网络对所述RGB图像进行特征提取，获取低层空间特征信息，所述浅层网络包括卷积层、归一化层和激活层；

根据深度残差网络和全局平均池化，对所述RGB图像进行特征提取，得到高层上下文信息；

对所述高层上下文信息进行上采样，得到空间维数与所述低层空间特征信息匹配的高维高层上下文信息；

将所述低层空间特征信息和所述高维高层上下文信息进行特征融合，得到二维语义图像。

在第一方面的另一种可能设计中，所述根据深度残差网络和全局平均池化，对所述RGB图像进行特征提取，得到高层上下文信息，包括：

根据深度残差网络对所述RGB图像进行特征提取，得到特征信息；

对所述特征信息进行下采样，扩大所述特征信息的感受野；

根据所述全局平均池对所述感受野进行扩大，获取全局上下文信息；

将所述全局上下文信息与所述特征信息结合，得到所述高层上下文信息。

在第一方面的再一种可能设计中，所述获取所述二维语义图像和深度图像的编码信息，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿，包括：

根据预设随机蕨算法，对所述二维语义图像和深度图像进行编码，整合得到每一帧图像数据对应的编码信息；

根据所述编码信息，获取每一帧图像数据之间的相似度；

根据所述相似度，确定所述图像数据中的关键帧；

根据所述相似度进行回环检测，从所述关键帧中确定与图像数据中的当前帧相似的相似关键帧；

根据预设迭代最近点算法，对当前帧的顶点法向量、相似关键帧的顶点法向量进行配准，得到配准结果；

根据所述配准结果、所述相似关键帧的相机位姿和所述预设迭代最近点算法，获取当前帧的相机位姿；

对当前帧的相机位姿进行重定位，确定每一帧图像数据的相机位姿。

在第一方面的又一种可能设计中，所述对当前帧的相机位姿进行重定位，确定每一帧图像数据的相机位姿，包括：

获取多个所述相似关键帧的相机位姿；

根据多个所述相似关键帧的相机位姿和所述预设迭代最近点算法，对当前帧的相机位姿进行重定位，确定每一帧图像数据的相机位姿。

在第一方面的又一种可能设计中，所述根据所述编码信息，获取每一帧图像数据之间的相似度，包括：

上式中，

表示第I帧图像数据与第J帧图像数据的相似度，

表示第I帧图像数据中像素点x_k的二进制编码，

表示第J帧图像数据中像素点x_k的二进制编码，符号“≡”表示异或运算。

在第一方面的又一种可能设计中，所述根据所述深度图像，构建三维空间地图，包括：

获取每一帧深度图像的点云数据，将所述每一帧深度图像的点云数据加权融合至预设函数模型中，构建得到三维空间地图。

在第一方面的又一种可能设计中，所述根据所述每一帧图像数据的相机位姿，将所述二维语义图像和所述三维空间地图融合，得到所述样本空间的三维语义地图，包括：

根据所述每一帧图像数据的相机位姿，对所述二维语义图像中的像素点进行坐标转换，得到转换后的二维语义图像；

根据预设语义融合策略和所述转换后的二维语义图像，将所述语义信息融合至所述三维空间地图，得到三维语义地图。

在第一方面的又一种可能设计中，所述获取相机采集样本空间得到的图像数据之后，包括：

获取相机采集样本空间得到的深度图像的深度值，根据预设深度值范围，对所述深度图像进行筛除；

对筛除之后的深度图像中的每一个像素点的深度值进行滤波处理。

第二方面，本申请实施例提供一种三维语义地图的构建装置，包括：

数据获取模块，用于获取相机采集样本空间得到的图像数据，所述图像数据包括RGB图像和深度图像；

语义分割模块，用于根据预设深度学习网络，对所述RGB图像进行语义分割，获取二维语义图像，所述二维语义图像包括描述所述样本空间的语义信息；

位姿确定模块，用于获取所述二维语义图像和深度图像的编码信息，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿；

空间构建模块，用于根据所述深度图像，构建三维空间地图；

地图构建模块，用于根据所述每一帧图像数据的相机位姿，将所述二维语义图像和所述三维空间地图融合，得到所述样本空间的三维语义地图。

第三方面，本申请实施例提供一种计算机设备，包括存储器和至少一个处理器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如上任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上任一项所述的方法。

本申请实施例提供的三维语义地图的构建方法和装置，通过对样本空间的RGB图像进行语义分割得到语义信息，同时通过对相机的位姿进行回环检测和重定位，构建三维空间地图，并结合语义信息对样本空间进行三维优化重建，最终得到的三维语义地图能够方便用户或者机器更加自由的与样本空间进行信息交互，方便用户或机器能够快速的对样本空间中的物体进行识别和查询。

附图说明

图1为本申请实施例提供的三维语义地图的构建方法实施例一的流程示意图；

图2为本申请实施例提供的语义分割网络结构示意图；

图3为图2中上下文嵌入模块的结构示意图；

图4为图2中特征融合模块的结构示意图；

图5为本申请实施例提供的三维语义地图的构建方法实施例二的流程示意图；

图6为本申请实施例提供的三维语义地图的构建装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了将现实空间描述出来，通常是采用相机来采集空间图像信息，构建得到二维图像或者三维空间图像，以方便用户随时随地的进行查阅，相对于二维图像，三维空间图像的构建相对较为复杂，需要使用深度相机采集空间的深度图像，结合深度相机的内参将采集的深度图像转化为三维点云，并计算法向量，通过迭代最近点算法(ICP，IterativeClosest Point)迭代极小化点到平面的距离，计算两帧之间的位姿变换，进而求出当前帧的相机位姿，然后根据当前帧的相机位姿将点云数据融合到TSDF模型中，最终构建得到三维空间图像。

现有技术在构建三维空间图像时，由于是通过ICP算法迭代求解相机位姿，当现实空间中的几何信息不够明显时，使用ICP算法进行相机位姿求解时会产生较大的误差，并且由于无法避免偏移累积误差和相机追踪失败，会出现三维空间图像构建过程中断、无法继续进行的情况，最后即使是能够构建得到三维空间图像，但该三维空间图像中有仅仅只包含了物体的几何信息，并没有语义信息，计算机等机器设备无法识别该物体对应的名称等等，使得计算机等机器设备无法与现实世界进行高自由度的交互。

针对上述问题，本申请实施例提供一种三维语义地图的构建方法和装置，其发明构思如下：通过在进行三维空间重建是加入随机蕨和语义信息，进行回环检测和重定位，使得相机位姿的估算精度更高，以获取高质量的三维空间地图，同时通过对二维RGB图像进行语义分割，将分割后的二维语义图像中的语义信息融合到三维空间地图中，得到三维语义地图，能够使得用户或者计算机等机器设备快速的识别和查询出样本空间中物体，方便计算机等机器设备与现实世界进行高自由度的交互。

图1为本申请实施例提供的三维语义地图的构建方法实施例一的流程示意图，如图1所示，该方法可以应用于计算机设备，也可以应用于其他具备图像处理能力的处理设备中，以计算机设备作为执行主体为例，该方法具体可以包括如下步骤：

S101、获取相机采集样本空间得到的图像数据。

其中，图像数据包括RGB图像和深度图像。

示例性的，相机可以是深度相机，样本空间可以是室内场景或者空旷的室外场景等。

具体的，用户可以手持相机环绕样本空间进行数据采集，采集得到的数据可以先进行简单的除杂滤波处理，然后再从除杂滤波处理之后的数据中提取得到图像数据。

S102、根据预设深度学习网络，对RGB图像进行语义分割，获取二维语义图像。

其中，二维语义图像包括描述样本空间的语义信息。

具体的，预设深度学习网络可以是卷积神经网络(CNN，Convolutional NeuralNetworks)，通过CNN的语义分割网络，可以对二维的RGB图像进行语义分割，得到包含语义信息的二维语义图像。

示例性的，语义信息可以是用于描述样本空间中物体的名称信息、归属类别信息等等，计算机等机器设备通过该语义信息，可以快速的对样本空间中该物体进行识别。

示例性的，可以通过CNN设计两个网络结构分支，其中一个分支用于提取图像的空间细节特征，另一个分支用于提取高层的上下文信息，然后将空间细节特征和高层的上下文信息进行特征融合，得到二维语义图像，示例性的，还可以将空间细节特征、高层的上下文信息和深度图像进行特征融合，得到更为完善的二维语义图像。

其中，CNN卷积神经网络中设置有一个网络结构，该网络结构包括有多个卷积层以及对应的批处理归一化层和relu激活函数，该网络结构可以提取图像的空间细节特征。CNN卷积神经网络中还可以设置有另一个网络结构，包括有下采样、全局平均池化、卷积层和残差网络模型(resnet，Residual Network)，通过该网络结构可以提取高层的上下文信息。

S103、获取二维语义图像和深度图像的编码信息，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿。

具体的，编码信息可以是数字，每一帧二维语义图像和每一帧深度图像中都具有若干个像素点，每一个像素点都可以进行编码，示例性的，可以根据每一个像素点在不同颜色通道下的值，对每一个像素点进行编码，例如深度图像包括有四个颜色通道，即R通道、G通道、B通道和D通道，则一个像素点在每一个颜色通道都对应有一个值，n个像素点对应有4n个值，这些值即编码信息(n为正整数)。

回环检测用于确定路径回环，根据路径回环来优化每一帧图像数据的相机位姿估算精度，而在某一帧的相机位姿无法估算时，需要通过重定位来对相机的位姿进行重新定位，最终得到精度较高的每一帧图像数据的相机位姿。

示例性的，路径回环可以通过检测当前帧与关键帧的相似度来确定，重定位可以通过多个关键帧的相机位姿作为初值，输出至ICP配准算法以实现对相机的重新定位。

示例性的，在进行相机位姿估算时，由于两帧之间相机位姿变化很小，所以假设当前帧与前一帧相机位姿相同，可以将当前帧的像素投影到上一帧，建立像素间的匹配关系，然后利用ICP衡量点到平面的误差，利用直接法衡量匹配像素间的光度误差，构建损失函数通过高斯-牛顿非线性最小二乘求进行迭代求解，估算得到相机位姿，其中，点到平面的误差大于阈值的点，认定为外点，不在损失函数中考虑。

S104、根据深度图像，构建三维空间地图。

具体的，深度图像中包括有样本空间中物体的点云数据等，通过点云数据以及深度图像中的相机位姿即可构建得到样本空间的三维空间地图。

示例性的，可以利用KinectFusion算法中的基于截断的带符号距离函数模型(TSDF，truncated signed distance function)将深度图像中当前帧的点云数据加权融合到TSDF模型中，构建得到三维空间地图。

S105、根据每一帧图像数据的相机位姿，将二维语义图像和三维空间地图融合，得到样本空间的三维语义地图。

具体的，可以根据每一帧图像数据的相机位姿，将二维语义图像中的语义信息映射到三维空间地图中，得到融合后的三维语义地图，示例性的，三维语义地图中包括有物体的名称信息等。

示例性的，利用当前帧的相机位姿，将二维语义图像在相机坐标系下的每个像素点转换到世界坐标系下，再根据基于贝叶斯的语义融合策略，将语义信息融合到三维空间地图中，从而实现三维语义地图的构建。

本申请实施例通过将RGB图像进行语义分割得到语义信息，同时通过对相机的位姿进行回环检测和重定位，可以确定每一帧图像数据的相机位姿，构建得到三维空间地图，能够得到高质量的三维空间地图，并且将语义信息融合到三维空间地图中，可以得到三维语义土地，方便用户或计算机等机器设备快速的识别以及查询样本空间中的目标物，提高计算机等机器设备与现实空间的交互自由度。

示例性的，在一些实施例中，若预设深度学习网络包括浅层网络、深度残差网络和全局平均池化，则上述步骤S102具体可以通过如下步骤实现：

根据浅层网络对RGB图像进行特征提取，获取低层空间特征信息，浅层网络包括卷积层、归一化层和激活层；

根据深度残差网络和全局平均池化，对RGB图像进行特征提取，得到高层上下文信息；

对高层上下文信息进行上采样，得到空间维数与低层空间特征信息匹配的高维高层上下文信息；

将低层空间特征信息和高维高层上下文信息进行特征融合，得到二维语义图像。

具体的，预设深度学习网络可以是上述的CNN卷积神经网络，其中的一个网络分支为浅层网络，用于提取低层空间特征信息，另一个网络分支包括深度残差网络和全局平均池化，用于提取高层上下文信息。

示例性的，浅层网络可以包括三个卷积层以及对应的批处理归一化层和relu激活函数的激活层，低层空间特征信息包括有RGB图像中的一些低层信息，例如某一个区域的颜色、形状等，高层上下文信息可以是上一帧图像和下一帧图像所包含的相对更加具体的信息，例如可以是图像中的物体信息等。

进一步的，在根据深度残差网络和全局平均池化，对RGB图像进行特征提取，得到高层上下文信息时，可以包括如下步骤：

根据深度残差网络对RGB图像进行特征提取，得到特征信息；

对特征信息进行下采样，扩大特征信息的感受野；

根据全局平均池对感受野进行扩大，获取全局上下文信息；

将全局上下文信息与特征信息结合，得到高层上下文信息。

示例性的，深度残差网络可以使用resnet作为backbone，同时采用快速下采样策略，提高特征表示的层次，快速扩大感受野，然后，使用全局平均池化扩大感受野，捕获全局上下文信息，最后，结合全局池化上采样输出的全局上下文信息和resnet模型的特征信息得到包含高层上下文信息的特征图。

示例性的，在将低层空间特征信息和高层上下文信息进行特征融合，由于高层上下文信息的提取采用了快速下采样策略，导致其输出空间维数小于低层空间特征信息，因此需要对包含高层上下文信息的特征图进行上采样，以匹配低层空间特征的输出空间维数。

示例性的，可以通过双边引导聚合的方法将低层空间特征信息和高维高层上下文信息进行特征融合，得到二维语义图像。

图2为本申请实施例提供的语义分割网络结构示意图，如图2所示，对RGB图像进行语义分割时，获取二维语义图像时，可以分为两个分支，其中一个分支包括三组CONV、BN和RELU，CONV、BN和RELU分别对应卷积层、归一化层和激活层，另一个分支包括有多个下采样层，示例性的，2X down表示图像下采样到原始RGB图像的1/2，在完成下采样之后，再通过上下文嵌入模块进行上下文嵌入，得到全局上下文信息，最后通过特征融合模块进行特征融合，即将全局上下文信息与特征信息结合，得到包含高层上下文信息的特征图作为输出结果。

示例性的，还可以再设置另一个分支，其包括三组CONV、BN和RELU，用于将深度图像进行卷积、归一化和激活处理，然后将处理之后的深度图像输入至特征融合模块，即将全局上下文信息、特征信息和处理之后的深度图像结合，得到包含高层上下文信息的特征图作为输出结果。

示例性的，图3为图2中上下文嵌入模块的结构示意图，如图3所示，在进行上述上下文嵌入时，通过全局平均池化对特征信息的感受野进行扩大，得到全局上下文信息，并通过结合全局池化上采样输出的全局上下文信息和resnet模型的特征信息得到包含高层上下文信息的特征图，其中，CONV表示卷积层，1x1，3x3分别表示卷积层的卷积核大小。

示例性的，图4为图2中特征融合模块的结构示意图，如图4所示，在进行特征融合时，先对低层空间特征信息和高层上下文信息进行卷积处理，其中，conv表示卷积层，dwconv表示深度分离卷积层，3x3表示卷积核大小，SUM表示求和。

在一些实施例中，上述步骤S103具体可以通过如下步骤实现：

根据预设随机蕨算法，对二维语义图像和深度图像进行编码，整合得到每一帧图像数据对应的编码信息；

根据编码信息，获取每一帧图像数据之间的相似度；

根据相似度，确定图像数据中的关键帧；

根据相似度进行回环检测，从关键帧中确定与图像数据中的当前帧相似的相似关键帧；

根据配准结果、相似关键帧的相机位姿和预设迭代最近点算法，获取当前帧的相机位姿；

具体的，在通过预设随机蕨算法对深度图像进行编码时，针对每一帧深度图像I，可以获得每一个像素点x对应的R、G、B和D四个颜色通道的值I(x)∈{R，G，B，D}，可以通过二进制对当前帧的RGBD图像进行编码，设定阈值τ∈{R，G，B，D}，分别比较R，G，B，D四个通道的值I(x)和阈值τ的大小，如果通道的值I(x)大于等于阈值τ，则将像素点x在该通道的二进制编码为1，反之，将像素点x在该通道的二进制编码为0，得到每一帧深度图像的编码，二维语义图像的编码也与深度图像的编码过程相同，在此不做赘述，具体的编码公式如下：

上式中，f_i表示每一帧图像中像素点x在i通道下的二进制编码，I(x)_i表示像素点x在i通道下的值，τ_i表示i通道下的阈值。

将R，G，B，D四个通道的二进制编码按顺序排列，进而得到了RGBD图像在像素点x处的编码结果f_RGBD：

若随机选取n个像素点进行二进制编码，则一帧RGBD图像I可编码为：

其中，上式中的两个参数n和τ在程序中都是由随机函数产生。

示例性的，当编码完之后，获取每一帧图像数据之间的相似度可以通过如下公式计算：

上式中，

表示第I帧图像数据与第J帧图像数据的相似度，

表示第I帧图像数据中像素点x_k的二进制编码，

示例性的，可以获取当前帧与已存储的关键帧的相似度，当得到当前帧与已存储的关键帧的相似度之后，可以从多个相似度之中找到最小的相似度，然后与设定的相似度阈值进行对比，如果小于设定的相似度阈值，则表示当前帧与所有关键帧都不相同，则将此帧作为关键帧添加到关键帧集合中。

在进行回环检测时，通过计算相似度，找到与当前帧最相似的关键帧，若当前帧与此关键帧的相似度小于预先设定的阈值，即可认为检测到了路径回环，然后将当前帧与对应关键帧的顶点法向量进行ICP配准，并将关键帧所对应的相机位姿作为ICP的初值，对当前帧的相机位姿进行估算，通过回环检测可以有效地减少累积误差，提高相机位姿估算的精确度。

若当前帧的相机位姿估算失败，则需要进行重定位，通过重定位最终确定每一帧图像数据的相机位姿。

进一步的，在一些实施例中，在某一帧的相机位姿估算失败时，首先计算该帧与关键帧的相似度，在恢复相机位姿时需找到k个与当前帧的相似度最相近的关键帧(即相似关键帧，K为正整数)，通过检索哈希表，可以得到这k个相似关键帧所对应的相机位姿，将这k个位姿作为初值代入ICP配准算法，从而实现相机的重新定位。

示例性的，若这k个位姿仍不能使ICP算法中的能量函数收敛，则处理下一帧图像数据，直至相机重新定位成功。

在一些实施例中，步骤S104具体可以通过如下步骤实现：

获取每一帧深度图像的点云数据，将每一帧深度图像的点云数据加权融合至预设函数模型中，构建得到三维空间地图。

具体的，预设函数模型可以是KinectFusion算法中的TSDF模型。

在一些实施例中，步骤S105具体可以通过如下步骤实现：

根据每一帧图像数据的相机位姿，对二维语义图像中的像素点进行坐标转换，得到转换后的二维语义图像；

根据预设语义融合策略和转换后的二维语义图像，将语义信息融合至三维空间地图，得到三维语义地图。

具体的，可以将二维语义图像中的语义信息映射到对应的三维空间地图中，利用图像数据中当前帧的相机姿态，将二维语义图像在相机坐标系下的每个像素点转换到世界坐标系下，再根据基于贝叶斯的语义融合策略，将语义信息融合到三维空间地图中，从而实现三维语义地图的构建。

示例性的，在一些实施例中，上述步骤S101之后还可以包括如下步骤：

获取相机采集样本空间得到的深度图像的深度值，根据预设深度值范围，对深度图像进行筛除；

具体的，对于相机采集样本空间得到的图像数据中的深度图像，设定阈值Wmin和Wmax，只保留在阈值范围内的深度值，然后对每个像素的深度值做快速双边滤波处理。通过对深度图像进行筛除和滤波处理，能够减少干扰，提高三维空间地图构建的准确度。

图5为本申请实施例提供的三维语义地图的构建方法实施例二的流程示意图，如图5所示，包括步骤S501至S516，其中，步骤S501主要获取图像数据；步骤S502为从图像数据中提取出RGB图像；步骤S503为对RGB图像进行语义分割，在分割时采用预设深度学习网络进行分割，同时分割过程也可以结合深度图像，以完成语义分割；步骤S504为得到二维语义分割结果，即二维语义图像，包括有样本空间的语义信息；步骤S505为从图像数据中提取出深度图像；步骤S506为通过预设随机蕨对深度图像和二维语义图像进行编码；步骤S507为根据编码，确定当前帧与关键帧的相似度；步骤S508为判断当前帧与关键帧的相似度是否小于阈值；步骤S509为当该相似度小于阈值时，则判定当前帧为关键帧，获取其相机的位姿；步骤S510为对相机的位姿进行估算；步骤S511为对深度图像进行深度截断和双边滤波处理，筛除掉深度值不再预设阈值范围内的数据；步骤S512为判定相机位姿是否估算成功，如果估算成功，则进入后续的步骤S514，如果估算不成功，则进入步骤S513；步骤S513为进行重定位，重新确定当前帧相机的位姿；步骤S514为根据深度图像进行三维空间地图的构建；步骤S515为对三维空间地图的构建模型进行重投影，并结合深度阶段和双边滤波处理之后的深度图像，对相机姿态进行估算；步骤S516为将二维语义信息融合到三维空间地图中；步骤S517为得到最终的三维语义地图。

图6为本申请实施例提供的三维语义地图的构建装置的结构示意图，如图6所示，该构建装置可以集成于计算机上，也可以独立于计算机并与计算机协同完成上述方法步骤。该构建装置60包括数据获取模块61、语义分割模块62、位姿确定模块63、空间构建模块64和地图构建模块65，其中，

数据获取模块61，用于获取相机采集样本空间得到的图像数据；

语义分割模块62，用于根据预设深度学习网络，对RGB图像进行语义分割，获取二维语义图像；

位姿确定模块63，用于获取二维语义图像和深度图像的编码信息，对相机的位姿进行回环检测和重定位，确定每一帧图像数据的相机位姿；

空间构建模块64，用于根据深度图像，构建三维空间地图；

地图构建模块65，用于根据每一帧图像数据的相机位姿，将二维语义图像和三维空间地图融合，得到样本空间的三维语义地图。

其中，图像数据包括RGB图像和深度图像，二维语义图像包括描述样本空间的语义信息。

示例性的，在一些实施例中，若预设深度学习网络包括浅层网络、深度残差网络和全局平均池化，则语义分割模块62具体可以用于根据浅层网络对RGB图像进行特征提取，获取低层空间特征信息，并根据深度残差网络和全局平均池化，对RGB图像进行特征提取，得到高层上下文信息，以及对高层上下文信息进行上采样，得到空间维数与低层空间特征信息匹配的高维高层上下文信息，最后将低层空间特征信息和高维高层上下文信息进行特征融合，得到二维语义图像。

其中，浅层网络包括卷积层、归一化层和激活层。

示例性的，在一些实施例中，语义分割模块62具体可以用于根据深度残差网络对RGB图像进行特征提取，得到特征信息；并对特征信息进行下采样，扩大特征信息的感受野；以及根据全局平均池对感受野进行扩大，获取全局上下文信息；和将全局上下文信息与特征信息结合，得到高层上下文信息。

示例性的，在一些实施例中，位姿确定模块63具体可以用于根据预设随机蕨算法，对二维语义图像和深度图像进行编码，整合得到每一帧图像数据对应的编码信息；并根据编码信息，获取每一帧图像数据之间的相似度；以及根据相似度，确定图像数据中的关键帧；并根据相似度进行回环检测，从关键帧中确定与图像数据中的当前帧相似的相似关键帧；以及根据预设迭代最近点算法，对当前帧的顶点法向量、相似关键帧的顶点法向量进行配准，得到配准结果；以及根据配准结果、相似关键帧的相机位姿和预设迭代最近点算法，获取当前帧的相机位姿；和对当前帧的相机位姿进行重定位，确定每一帧图像数据的相机位姿。

可选的，示例性的，在一些实施例中，位姿确定模块63具体可以用于获取多个相似关键帧的相机位姿；以及根据多个相似关键帧的相机位姿和预设迭代最近点算法，对当前帧的相机位姿进行重定位，确定每一帧图像数据的相机位姿。

示例性的，在一些实施例中，空间构建模块64具体可以用于获取每一帧深度图像的点云数据，将每一帧深度图像的点云数据加权融合至预设函数模型中，构建得到三维空间地图。

示例性的，在一些实施例中，地图构建模块65具体用于根据每一帧图像数据的相机位姿，对二维语义图像中的像素点进行坐标转换，得到转换后的二维语义图像；并根据预设语义融合策略和转换后的二维语义图像，将语义信息融合至三维空间地图，得到三维语义地图。

示例性的，上述构建装置还包括筛除模块，用于获取相机采集样本空间得到的深度图像的深度值，根据预设深度值范围，对深度图像进行筛除；并对筛除之后的深度图像中的每一个像素点的深度值进行滤波处理。

可选的，图7为本申请实施例提供的一种计算机设备的结构示意图，该计算机设备包括有存储器701和至少一个处理器702，存储器701存储计算机执行指令，该计算机设备还包括有总线703，其中，存储器701通过总线703与处理器702连接。

在具体的实现过程中，至少一个处理器702执行存储器701存储的计算机执行指令，使得至少一个处理器702执行如上的方法的步骤。

处理器702的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图7所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种可读存储介质，可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上述的方法的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序被处理器执行时实现上述方法的步骤。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。