CN116704029A

CN116704029A - 稠密物体语义地图构建方法、装置、存储介质及电子设备

Info

Publication number: CN116704029A
Application number: CN202310681541.4A
Authority: CN
Inventors: 吴若溪
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-09-05

Abstract

本说明书实施例公开了一种稠密物体语义地图构建方法、装置、存储介质及电子设备，其中，方法包括：基于RGB图像进行物体目标检测处理，得到二维检测框信息和物体类别信息，以及基于RGB图像进行视觉SLAM处理，得到视觉SLAM，确定视觉SLAM中的三维地图点云和相机位姿，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图，基于RGB图像、Depth图像和视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图，对初始物体语义地图和稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。

Description

稠密物体语义地图构建方法、装置、存储介质及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种稠密物体语义地图构建方法、装置、存储介质及电子设备。

背景技术

随着科学技术的进步和人工智能的发展，智能机器人、智能扫地机、智能拖地机等智能设备也应用到了各个领域，智能设备使用图像传感器进行更加鲁棒、准确和详细的地图构建对于增强智能设备在各种场景中的应用中十分有利，实际应用中地图需要提供稠密且物体级的语义建图，也即需要能够构建稠密物体语义地图。

发明内容

本说明书实施例提供了一种稠密物体语义地图构建方法、装置、存储介质及电子设备，所述技术方案如下：

第一方面，本说明书实施例提供了一种稠密物体语义地图构建方法，所述方法包括：

获取所处场景的RGBD图像数据，所述RGBD图像数据包括RGB图像和Depth图像；

基于所述RGB图像进行物体目标检测处理，得到二维检测框信息和物体类别信息，以及基于所述RGB图像进行视觉SLAM处理，得到视觉SLAM；

确定所述视觉SLAM中的三维地图点云和相机位姿，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图；

基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图；

对所述初始物体语义地图和所述稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。

第二方面，本说明书实施例提供了一种稠密物体语义地图构建装置，所述装置包括：

图像获取模块，用于获取所处场景的RGBD图像数据，所述RGBD图像数据包括RGB图像和Depth图像；

目标检测模块，用于基于所述RGB图像进行物体目标检测处理，得到二维检测框信息和物体类别信息，以及基于所述RGB图像进行视觉SLAM处理，得到视觉SLAM；

语义建图模块，用于确定所述视觉SLAM中的三维地图点云和相机位姿，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图；

所述语义建图模块，用于基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图；

所述语义建图模块，用于对所述初始物体语义地图和所述稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。

第三方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本说明书实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

在本说明书一个或多个实施例中，先基于RGB图像得到二维检测框信息、物体类别信息和视觉SLAM，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、视觉SLAM中的三维地图点云和相机位姿构建初始物体语义地图，基于RGB图像、Depth图像和相机位姿构建全局场景点云，对全局场景点云进行滤波，得到稠密点云地图，再对初始物体语义地图和稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。该稠密物体语义地图兼备稠密特性和物体级的语义特性，实现了所处场景的高精度稠密物体语义建图，而建图所使用的RGBD图像数据又能满足低成本的系统要求。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种稠密物体语义地图构建方法的流程示意图；

图2是本说明书实施例提供的一种目标检测处理框架的示意图；

图3是本说明书实施例提供的一种视觉SLAM框架图；

图4是本说明书实施例提供的一种初始物体语义地图的示意图；

图5是本说明书实施例提供的一种稠密点云地图的示意图；

图6是本说明书实施例提供的一种稠密物体语义地图的示意图；

图7是本说明书实施例提供的一种轻量级的物体语义地图构建方法的流程示意图；

图8是本说明书实施例提供的一种轻量级的物体语义地图构建的场景示意图；

图9是本说明书实施例提供的一种稠密点云地图构建方法的流程示意图；

图10是本说明书实施例提供的一种稠密点云地图构建的场景示意图；

图11是本说明书实施例提供的一种回环优化的流程示意图；

图12是本说明书实施例提供的一种稠密物体语义地图构建装置的结构示意图；

图13是本说明书实施例提供的一种电子设备的结构方框图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本说明书的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本说明书中的具体含义。此外，在本说明书的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在相关技术中，视觉语义建图框架主要可以分为以下几类，一类是以视觉SLAM为基础框架，与目标检测或分割进行松耦合，常见的视觉SLAM框架主要以ORB-SLAM系列和VINS系列为主，目标检测以YOLO和SSD系列为主，分割以Mask-RCNN和DeepLab为主，整体框架有DS-SLAM、DSP-SLAM、ORBSLAM2-SSD、Cube-SLAM，但是这种方式要么没有提供一个稠密语义建图，要么没有提供具体的物体3D检测框。一类是以视觉SLAM系统与重建神经网络紧耦合实现语义稠密建图，主要框架以基梅拉kimera系列为主，这种方式的再开发能力较弱且对计算机性能等均有一定要求，同时不能提供物体3D检测框用于下游模块的应用，如定位和导航等模块。

上述相关技术中的技术方案主要是利用视觉SLAM框架与神经网络的松紧耦合实现语义建图，但是不能同时提供既稠密又物体级的语义建图，同时不能满足低成本的系统要求。

下面结合具体的实施例对本说明书进行详细说明。

在一个实施例中，如图1所示，特提出了一种稠密物体语义地图构建方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的稠密物体语义地图构建装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。所述稠密物体语义地图构建装置可以为智能设备。

具体的，该稠密物体语义地图构建方法包括：

S102：获取所处场景的RGBD图像数据，所述RGBD图像数据包括RGB图像和Depth图像；

可选的，可以通过所包含的对RGBD相机来采集的RGBD图像数据，所述RGBD图像数据包括RGB图像和Depth图像；

S104：基于所述RGB图像进行物体目标检测处理，得到二维检测框信息和物体类别信息，以及基于所述RGB图像进行视觉SLAM处理，得到视觉SLAM；

示意性的，物体目标检测处理方式可以是采用如Faster R-CNN目标检测方式、YOLO目标检测方式等等；

可选的，以下示意一种物体目标检测处理的处理方式：

如图2所示，图2是一种目标检测处理框架的示意图；目标检测处理框架课视作一种目标检测处理模型；

1.通过RGBD相机采集的RGBD图像数据，以RGBD图像数据中的RGB图像作为目标检测处理框架的输入，首先对RGB图像进行预处理，使其满足目标检测处理框架网络的输入要求；

2.其次通过目标检测处理模型的主干网络即图2中所示出的CSPDarknet53特征提取网络，该特征提取网络包含五个残差网络Resblock_body，使RGB图像其像素分辨率逐层降低，以提取到更高层的语义信息，同时选取最后三个特征层作为典型的特征层用于后面的网络。

3.将第5层特征层作为最高特征层，对其进行SPP(空间金字塔池化)处理，主要对特征图像分别进行池化核为13、9、5、1的最大池化，并将最大池化结果堆叠，从而达到扩充感受野的目的。

4.将第3、4特征层分别视为顶层特征层和中层特征层，对这两层特征目标检测处理模型进行PANet(路径聚合网络处理)，以实现对特征网络的特征增强。首先对SPP的输出层进行上采样，并与中层特征层进行堆叠，再进行上采样，并与顶层特征层堆叠作为目标检测Head，实现对大目标的检测；其次将堆叠后的顶层特征层进行下采样，并与中层特征层进行堆叠，作为目标检测Head，实现中目标的检测；最后将堆叠后的中层特征层进行下采样与SPP的输出层进行堆叠，作为目标检测Head，实现小目标的检测。

5.目标检测处理模型最后的三个Head从上到下分别为对大目标、中目标、小目标的目标检测，大目标、中目标、小目标对应的信息作为二维检测框信息，目标检测也即确定二维检测框(大目标、中目标、小目标)对应的物体类别信息，。

至此完成了整个目标检测的工作，为后续下游提供对应的语义信息，包含二维检测框和物体类别。

视觉SLAM：也即视觉同时定位与建图(Simuitaneous Localization andMapping，SLAM)，即通过运动过程中重复观测到的地图特征定位自身的位置和姿势，再根据自身位置和姿势来构建地图，达到同时定位和地图构建的目的，视觉SLAM生成的地图都是以点云形式(如三维地图点云)存在，一般只是个大概轮廓，不够精细，即只能生成稀疏或者半稠密点云地图

在一种可行的实施方式中，如图3所示，图3是一种视觉SLAM框架图，基于图3可参考下述处理过程，如下：

1、RGBD相机采集的RGB图像作为输入，且图像的内参已知，内参已经是经过畸变校正后的准确值；可选的，也可以RGB图像和Depth图像作为输入；

2、视觉SLAM中视觉里程计处理主要是对图像进行ORB特征提取和特征匹配，以计算图像间的相对运动信息，以此来推算相机位姿。

a、首先，初始的变换矩阵T_cw(注意，我们视第一帧图像为世界坐标系)是根据前两帧求取单应矩阵和基础矩阵进行反向求解的，具体如公式1，2所示。其中，H表示单应矩阵，且具有八个自由度，一般令h₃₃＝1，x₁,x₂分别表示两个图像中匹配的像素坐标，需要四个匹配点对求解方程；F表示基础矩阵，且具有7个自由度，一般通过八点法的方法进行求解。然后基于H和F通过SVD分解方法可以求解出旋转矩阵R和平移矩阵t，即T_cw可求。

b、其次，求解P_w，通过上述求解的T_cw和图像像素的匹配对我们可以通过SVD分解求解最终的世界点坐标，具体公式如公式3所示，其中s是深度值，x是归一化平面坐标，T是变换矩阵，即T_cw，X是我们求解的世界点，即P_w。采用SVD分解求解，即可求出P_w。

C、通过获得上述初始的相机位姿后，需要判断相机的运动状态再估计相机位姿。

i、首先假设相机匀速(位姿不变)，其匀速运动模型如公式4所示，其中表示世界坐标系到前一帧图像的变换矩阵；/>表示前一帧的图像到当前帧图像的变换矩阵；表示世界坐标系到当前帧的变换矩阵。然后通过把世界点投影到上一帧图像像素坐标系中，在一定半径范围内寻找匹配点对，若匹配数目较少，则更换状态模型。

其中，在i中，计算重投影的过程如下，即从世界坐标系P_w到图像像素坐标系P_p的变换公式如下公式5所示，包含从世界坐标系P_w到相机坐标系P_c＝T_cwP_w；从相机坐标系P_c到图像像素坐标系P_p，中间需要一个单位矩阵维度变换矩阵；d是尺度或深度信息，f_x,f_y,c_x,c_y是相机的内参，是已知的数据，未知的参数是P_w和T_cw，但是可以由前面步骤(a)、(b)获取到。

ii、若不满足上述阈值条件，则根据匹配对直接求解变换矩阵，具体如下：根据已有的世界点3D坐标和对应的2D坐标，采用PNP的方法求解相机位姿，即对公式5的变种，具体见公式6所示。公式6对点对求解A矩阵的12个未知数，并对A矩阵进行分解，求解出对应的变换矩阵。

3、后端优化主要是对上述初步的相机位姿估计进行优化，首先选取关键帧以提高系统的实时性；其次对地图点进行外点去除，消除噪声，并根据三角化生成新的地图点，具体公式见3所示，然后对地图点和关键帧进行局部BA优化；最后验证关键帧，去除重复关键帧。

4、回环检测处理主要是判断智能设备是否回到重复位置，从而消除视觉里程计存在的累计误差；

5、地图构建主要包括对所有关键帧和地图点进行全局BA优化，然后更新地图得到全局一致性环境地图和相机运行轨迹，至此完成视觉SLAM系统。

S106：确定所述视觉SLAM中的三维地图点云和相机位姿，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图；

所述初始物体语义地图可以理解为轻量级的物体语义地图，该初始物体语义地图中不含深度信息；

视觉SLAM中含有三维地图点云和相机位姿，基于物体的二维检测框信息和所述物体类别信息作为一种物体语义，将该物体语义与三维地图点云进行数据关联，并结合相机位姿、物体的位姿和尺度进行BA优化以实现轻量级的物体语义建图，得到初始物体语义地图；

示意性的，如图4所示，图4是一种初始物体语义地图的示意图，通过确定视觉SLAM中的三维地图点云和相机位姿，然后基于RGB图像、二维检测框信息、物体类别信息、三维地图点云和相机位姿就可以构建初如图4所示的初始物体语义地图。

S108：基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图；

所述稠密点云地图的精度高，例如，每个像素都可以有对应的三维空间点，因此不会遗漏重要的空间信息。

示意性的，如图5所示，图5是一种稠密点云地图的示意图，通过基于RGB图像、Depth图像和视觉SLAM的相机位姿构建全局场景点云，然后再对全局场景点云进行滤波，如Voxel滤波处理，以消除噪声的影响和控制点云的密度，可以得到稠密点云地图。

S110：对所述初始物体语义地图和所述稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。

所述稠密物体语义地图在物体几何和物体外观之外还包含物体语义信息；

可选的，可以将所述初始物体语义地图叠加至所述稠密点云地图中，得到所处场景下的稠密物体语义地图。

示意性的，如图6所示，图6是一种稠密物体语义地图的示意图，该稠密物体语义地图是通过将初始物体语义地图和稠密点云地图进行图层叠加之后，所得到的所处场景下的稠密物体语义地图。

进一步的，可应用在诸如智能移动机器人等智能设备的室内语义建图，当获得了稠密物体语义地图后，智能设备就能够更理解周围环境、根据语义信息获得更智能的人机/物机交互，从而在导航、避障、交互等方面更加准确高效。采用本说明书所涉及的一个或多个实施例所示出的方法步骤，即使对于无定位信号情景下，该方案也能实现精确的稠密物体语义建图，以实现智能设备的自主导航和避障等。

请参见图7，图7是本说明书提出的一种轻量级的物体语义地图构建方法的流程示意图。具体的：

S2002：对所述RGB图像对应的灰度图像进行直线检测分割处理，得到二维直线检测结果；

如图8所示，图8是本说明书涉及的一种轻量级的物体语义地图构建的场景示意图；

在图8中，基于RGB图像对应的灰度图像(Gray Image)进行直线检测处理，以此来得到二维线、二维边等二维直接检测结果；

可以理解的，是通过RGBD相机采集的RGB图像作为输入，可以确定RGB图像对应的灰度图像，同时对灰度图像进行直线检测分割处理，可以实现线段快速检测且无需参数调整，以此得到二维直线检测结果；

示意性的，以直线检测分割处理对应的一种可选处理方式为例进行释义，如下：

首先，图像缩放：对灰度图像进行高斯降采样，目的是为了对灰度图像进行缩放，缩放的目的在于减弱乃至消除图像锯齿效应，如采样率可以设置为scale＝0.8，使其直线检测的精度更高；

其次，梯度计算以及梯度排序：计算图像中所有像素点(x，y)的梯度大小和方向，并按照梯度值进行排序。其中，梯度的计算方法如公式7所示，g表示梯度，i(x,y)表示像素(x，y)处的灰度值，按照2*2的掩膜模板进行计算。

图像梯度的幅度G以及行列线的角度θ可由公式8计算得到；

梯度排序中，具有较高梯度幅值的像素点所在的区域通常具有较强的边缘，在边缘中，中间的像素一般具有最高的梯度幅值，后续从具有最高梯度幅值的像素点入手进行直线分割检测；

再次，阈值检测：按照梯度阈值ρ对所有像素点设置状态信息，小于梯度阈值的设置为UNUSED，其余设置为USED，因为小于梯度阈值的像素对应在图像中是平滑或变化缓慢的区域，在量化的过程中会引起极大的误差，故需要去除这样的小梯度像素点。具体的阈值计算公式如公式9所示，可选的，q＝2，τ是梯度最大容忍方向阈值，一般设置为22.5。

然后区域增长：进行区域增长，以梯度最大值作为种子点，以该种子点对应的梯度方向作为区域的初始角度，在邻域中寻找与初始角度小于τ的点，生成的区域设置为region。

矩形估计：计算逼近矩形，矩形的质心具体如公式10所示，G表示梯度幅值，j表示区域region中的点，x表示这个点的x轴像素，y表示这个点的x轴像素，c表示逼近的矩形的质心。矩形的方向具体如公式11所示，矩形其方向为与矩阵M的最小特征值相关联的特征向量的角度。

再计算密度，如公式12所示，r表示上述的矩形，length是矩形的长，width是矩形的宽。示意性的，如果D大于截断阈值0.7，则认为这个直线检测有效。

经上述方式，完成了对RGB图像对应的灰度图像进行直线检测分割处理，得到了二维直线检测结果。

S2004：基于所述二维检测框信息、所述物体类别信息和所述三维地图点云进行物体关联处理，得到物体关联数据集；

在一种可行的实施方式中，物体关联处理如下：

A2：确定所述二维检测框信息对应物体的物体类别语义；

A4：基于所述二维检测框信息建立所述三维地图点云与所述物体类别语义的物体语义映射，得到物体关联数据集，所述物体关联数据集由至少一个所述三维地图点云、所述三维地图点云对应的所述物体类别语义和所述二维检测框信息之间的关联映射数据组成。

示意性的，如图8所示，结合二维检测框信息(2D Box)和其对应的物体类别信息(Label)与三维地图点云(2D Points)，进行数据的关联，以此得到物体关联数据集，后续可判断是否对物体进行合并；

S2006：基于所述二维直线检测结果和所述物体关联数据集进行物体姿态预估处理，得到物体的三维检测框姿态信息；

示意性的，结合物体关联数据集和二维直线检测结果，对三维检测框进行初始的估计。这里假设物体是平行于地面的，故只需要估计物体的偏航角度、平移矩阵和尺度，以此作为物体的三维检测框姿态信息；

在一种可行的实施方式中，物体姿态预估处理如下：

B2：基于所述二维直线检测结果和所述物体关联数据集采用孤立森林检测方式预测所述物体的平移矩阵以及物体尺度；

示意性的，通过iforest孤立森林检测方式估计物体的平移矩阵t和物体尺度s。该孤立森林检测方式的关键思想是递归地将数据空间分离为一系列孤立的数据点，然后将容易分离的数据点作为异常值。其原理是，正常点通常位于更近的位置，因此需要更多的步骤来隔离，而异常值通常分散得很少，可以用更少的步骤轻松隔离。

B4：确定所述二维直线检测结果与所述物体关联数据集中的所述二维检测框信息的一致性评测分数，基于所述一致性评测分数采用一致性最小误差约束确定目标二维检测框信息，以所述目标二维检测框信息中的二维线段角度确定所述物体的偏航角度；

偏航角度的估计是根据一致性最小误差约束对应的线段的角度作为最初的偏航角度。主要流程计算在二维检测框与直线检测结果的一致性，其一致性评测分数越高则表示检测框和直线检测的结果越接近，说明此检测框更准确，那我们就以此二维检测框作为输入计算物体的三维检测框的初始姿态。

其中，一致性评测分数计算公式如13所示，N_all是检测框中所有的线段数目，N_used是3D检测框在2D图像上的投影与直线检测的边缘误差e小于0.5的线段数目，E(e)是平均误差，s是最后的分数。

B6：基于所述物体的所述平移矩阵、所述物体尺度和所述偏航角度得到物体的三维检测框姿态信息。

将所述平移矩阵、所述物体尺度和所述偏航角度作为物体的三维检测框的姿态信息，也即三维检测框姿态信息。

S2008：基于所述相机位姿对所述物体的三维检测框姿态信息进行BA优化处理，得到初始物体语义地图。

BA(Bundle Adjustment)优化：也即捆集调整优化，BA可视作优化模型，其本质就是最小化误差。

示意性的，结合相机位姿、三维检测框姿态信息(也即3Dbox的偏航角度、平移矩阵、尺度信息)进行BA优化。

其优化函数如公式14所示，f是优化参数误差，e(θ_y)是方向角度的误差，e(s)是方向角度的误差物体3D检测框在2D图像上投影与其平行的直线段检测之间的误差，e(p)是SLAM系统的相机位姿误差。至此获得了图8中所示出的轻量级的物体语义地图(ObjectMap)。

f＝argmin∑(e(θ_y)+e(s))+argmin∑e(p)(公式14)

在本说明书一个或多个实施例中，涉及到一种轻量级的物体语义地图构建方式，通过结合前述步骤中的目标检测获得的2D检测框和类别与视觉SLAM中的3D地图点云和相机位姿，实现了轻量级的初始物体语义地图的快速构建，该初始物体语义地图反映场景物体的物体语义。

请参见图9，图9是本说明书提出的一种稠密点云地图构建方法的流程示意图。具体的：

S3002：基于所述RGB图像和所述Depth图像构建相机坐标系下的至少一帧第一三维物体点云；

所述第一三维物体点云是构建下相机坐标系下的三维物体点云；

请参考图10，图10是本说明书涉及的一种稠密点云地图构建的场景示意图；

C2：基于所述RGB图像和所述Depth图像确定三通道RGB信息、深度信息和特征点信息；

如图10所示，1、通过RGBD相机采集的RGB图像和Depth图像作为稠密点云地图构建的输入。2、然后对RGB图像提取三通道RGB特征、对Depth图像提取深度信息特征，并基于RGB图像和Depth图像确定特征点信息；

C4：基于所述三通道RGB信息、所述深度信息和所述特征点信息构建相机坐标系下的至少一帧第一三维物体点云。

如图10所示，3、基于所述三通道RGB信息、所述深度信息和所述特征点信息对每一帧够构造“XYZRGB类型”的三维物体点云，“XYZRGB类型”的三维物体点云是相机坐标系下的点云，也称之为第一三维物体点云；

S3004：基于所述至少一帧第一三维物体点云和所述视觉SLAM的所述相机位姿进行点云坐标系转换，得到世界坐标系下的至少一帧第二三维物体点云，基于所述至少一帧第二三维物体点云生成全局场景点云；

示意性的，基于所述视觉SLAM的所述相机位姿对所述至少一帧第一三维物体点云进行点云姿态调整，得到世界坐标系下的至少一帧第二三维物体点云。

将每一帧的相机坐标系下的第一三维物体点云都基于视觉SLAM获得的相机位姿进行旋转/平移以进行点云姿态调整，以此得到世界坐标系下的3D点云，“世界坐标系下的3D点云”也即第二三维物体点云，将所有第二三维物体点云都存储并更新到全局场景点云中。

进一步的，基于相机位姿可以确定相机坐标系和世界坐标系的变换关系，基于该变换关系可以对每一帧相机坐标系下的第一三维物体点云转换到世界坐标系下，以此得到世界坐标系下的至少一帧第二三维物体点云；

例如可将初始时刻的相机坐标系作为世界坐标系，对于空间中的任一点，其在世界坐标下和相机坐标系下的坐标值符合变换关系，变换关系可由平移向量t和旋转矩阵R表征；

S3006：对所述全局场景点云进行滤波，得到稠密点云地图。

采用预设的滤波处理方式对全局场景点云进行滤波处理，得到稠密点云地图。

示意性的，滤波处理可以是Voxel滤波处理，对全局点云进行Voxel滤波处理，以消除噪声的影响和控制点云的密度，至此获得稠密点云地图(如图10所示出的Dense Map)。

在本说明书一个或多个实施例中，涉及一种稠密点云地图构建方式，该方式充分利用RGB图像和深度图像，构建便捷，可以确保稠密建图的正确性和精度。

在一种可行的实施方式中，考虑到稠密点云地图或轻量级的初始物体语义地图应用了SLAM系统的相机位姿，可能会存在漂移，可采用下述方式将稠密点云地图建图过程中的点云信息添加至前述SLAM系统中进行SLAM更新进行全局的回环检测优化，这样SLAM可更新三维地图点云和相机位姿，基于更新的三维地图点云和相机位姿，以矫正建图，减轻稠密建图的误差和物体语义地图的精度。

进一步的，执行主体执行S3002：基于所述RGB图像和所述Depth图像构建相机坐标系下的至少一帧第一三维物体点云之后，还执行如图11所示的流程图所示出的步骤，图11是一种回环优化的流程示意图，具体如下：

S4002：将所述至少一帧第一三维物体点云作为针对所述视觉SLAM的关键帧，并基于所述关键帧触发针对所述视觉SLAM的后端优化流程和回环检测流程；

这里将至少一帧第一三维物体点云作为视觉SLAM中的关键帧，这里第一三维物体点云是一种稠密三维物体点云，较之于SLAM系统中的物体点云质量更优以引入到视觉SLAM中作为关键帧进行SLAM的关键帧部分插入，进而触发视觉SLAM后续流程；

S4004：在所述后端优化流程中，对所述视觉SLAM中的地图点和关键帧进行局部BA优化，在所述回环检测流程中，对所述视觉SLAM进行全局回环检测优化，得到目标三维地图点云和目标相机位姿；

SLAM后端优化流程中主要是对相机位姿估计进行优化，会基于新的关键帧来提高系统的实时性，并结合新的关键帧对三维物体点云中的地图点进行外点去除，消除噪声，并根据三角化生成新的地图点，然后对地图点和关键帧进行局部BA优化；最后验证关键帧，去除其中的重复关键帧。

在SLAM回环检测流程中是判断设备是否回到重复位置，也即通过检测目标载体是否到达过之前的环境，从而判断是否发生回环，通过回环降低系统视觉里程计的累积误差，对整个视觉SLAM系统进行优化，视觉SLAM系统模块会根据发生时传入的回环信息，对目标载体的位姿以及环境地图进行优化。

完成上述流程后，视觉SLAM系统得到更新优化，然后可以得到SLAM系统的目标三维地图点云和目标相机位姿；

S4006：将所述目标三维地图点云和所述目标相机位姿作为所述三维地图点云和所述相机位姿，并执行确定所述视觉SLAM中的三维地图点云和相机位姿的步骤和/或执行所述基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云的步骤。

可以理解的，在得到更新后的三维地图点云和目标相机位姿后，一方面，构建轻量级的初始物体语义地图会涉及到三维地图点云和目标相机位姿，基于此可以执行确定所述视觉SLAM中的三维地图点云和相机位姿，确定所述视觉SLAM中的三维地图点云和相机位姿的步骤以更新初始物体语义地图的步骤(也即S106)；另一方面，在稠密点云地图建图时会涉及到视觉SLAM的相机位姿，基于此可执行基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图的步骤(也即S108)。

在本说明书一个或多个实施例中，在SLAM系统中的回环检测部分添加稠密点云地图建图时S3002中的点云信息，进行校正建图和校准相机位姿，从而减轻建图误差和提高建图精度。稠密点云地图建图过程中触发回环检测确保了稠密建图的正确性和精度，整个流程可实现诸如室内场景等所处场景的完整稠密物体语义地图的构建。

下面将结合图12，对本说明书实施例提供的稠密物体语义地图构建装置进行详细介绍。需要说明的是，图12所示的稠密物体语义地图构建装置，用于执行本说明书图1～图11所示实施例的方法，为了便于说明，仅示出了与本说明书实施例相关的部分，具体技术细节未揭示的，请参照本说明书图1～图11所示的实施例。

请参见图2，其示出本说明书实施例的稠密物体语义地图构建装置的结构示意图。该稠密物体语义地图构建装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例，该稠密物体语义地图构建装置1包括图像获取模块11、目标检测模块12和语义建图模块13，具体用于：

图像获取模块11，用于获取所处场景的RGBD图像数据，所述RGBD图像数据包括RGB图像和Depth图像；

目标检测模块12，用于基于所述RGB图像进行物体目标检测处理，得到二维检测框信息和物体类别信息，以及基于所述RGB图像进行视觉SLAM处理，得到视觉SLAM；

语义建图模块13，用于确定所述视觉SLAM中的三维地图点云和相机位姿，基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图；

所述语义建图模块13，用于基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图；

所述语义建图模块13，用于对所述初始物体语义地图和所述稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图。

可选的，所述语义建图模块13，用于：

对所述RGB图像对应的灰度图像进行直线检测分割处理，得到二维直线检测结果；

基于所述二维检测框信息、所述物体类别信息和所述三维地图点云进行物体关联处理，得到物体关联数据集；

基于所述二维直线检测结果和所述物体关联数据集进行物体姿态预估处理，得到物体的三维检测框姿态信息；

基于所述相机位姿对所述物体的三维检测框姿态信息进行BA优化处理，得到初始物体语义地图。

可选的，所述语义建图模块13，用于：

确定所述二维检测框信息对应物体的物体类别语义；

基于所述二维检测框信息建立所述三维地图点云与所述物体类别语义的物体语义映射，得到物体关联数据集，所述物体关联数据集由至少一个所述三维地图点云、所述三维地图点云对应的所述物体类别语义和所述二维检测框信息之间的关联映射数据组成。

可选的，所述语义建图模块13，用于：

基于所述二维直线检测结果和所述物体关联数据集采用孤立森林检测方式预测所述物体的平移矩阵以及物体尺度；

确定所述二维直线检测结果与所述物体关联数据集中的所述二维检测框信息的一致性评测分数，基于所述一致性评测分数采用一致性最小误差约束确定目标二维检测框信息，以所述目标二维检测框信息中的二维线段角度确定所述物体的偏航角度；

基于所述物体的所述平移矩阵、所述物体尺度和所述偏航角度得到物体的三维检测框姿态信息。

可选的，所述语义建图模块13，用于：

基于所述RGB图像和所述Depth图像构建相机坐标系下的至少一帧第一三维物体点云；

基于所述至少一帧第一三维物体点云和所述视觉SLAM的所述相机位姿进行点云坐标系转换，得到世界坐标系下的至少一帧第二三维物体点云；

基于所述至少一帧第二三维物体点云生成全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图。

可选的，所述装置1，用于：

将所述至少一帧第一三维物体点云作为针对所述视觉SLAM的关键帧，并基于所述关键帧触发针对所述视觉SLAM的后端优化流程和回环检测流程；

在所述后端优化流程中，对所述视觉SLAM中的地图点和关键帧进行局部BA优化，在所述回环检测流程中，对所述视觉SLAM进行全局回环检测优化，得到目标三维地图点云和目标相机位姿；

将所述目标三维地图点云和所述目标相机位姿作为所述三维地图点云和所述相机位姿，并执行确定所述视觉SLAM中的三维地图点云和相机位姿的步骤和/或执行所述基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云的步骤。

可选的，所述装置1，用于：

基于所述RGB图像和所述Depth图像确定三通道RGB信息、深度信息和特征点信息；

基于所述三通道RGB信息、所述深度信息和所述特征点信息构建相机坐标系下的至少一帧第一三维物体点云。

可选的，所述装置1，用于：

基于所述视觉SLAM的所述相机位姿对所述至少一帧第一三维物体点云进行点云姿态调整，得到世界坐标系下的至少一帧第二三维物体点云。

可选的，所述装置1，用于：

将所述初始物体语义地图叠加至所述稠密点云地图中，得到所处场景下的稠密物体语义地图。

需要说明的是，上述实施例提供的稠密物体语义地图构建装置在执行稠密物体语义地图构建方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的稠密物体语义地图构建装置与稠密物体语义地图构建方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本说明书实施例序号仅仅为了描述，不代表实施例的优劣。

在本说明书实施例中，。

本说明书实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图11所示实施例的所述稠密物体语义地图构建方法，具体执行过程可以参见图1～图11所示实施例的具体说明，在此不进行赘述。

本说明书还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图11所示实施例的所述稠密物体语义地图构建方法，具体执行过程可以参见图1～图11所示实施例的具体说明，在此不进行赘述。

请参考图13，为本说明书实施例提供的一种电子设备的结构方框图。本说明书中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signalprocessing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在本说明书实施例中，输入装置130可以为温度传感器，用于获取终端的运行温度。输出装置140可以为扬声器，用于输出音频信号。

除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、无线保真(wirelessfidelity，WIFI)模块、电源、蓝牙模块等部件，在此不再赘述。

在本说明书实施例中，各步骤的执行主体可以是上文介绍的终端。可选地，各步骤的执行主体为终端的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本说明书实施例对此不作限定。

在图13的电子设备中，处理器110可以用于调用存储器120中存储的程序，并执行以实现如本说明书各个方法实施例所述的稠密物体语义地图构建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本说明书较佳实施例而已，当然不能以此来限定本说明书之权利范围，因此依本说明书权利要求所作的等同变化，仍属本说明书所涵盖的范围。

Claims

1.一种稠密物体语义地图构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述RGB图像、所述二维检测框信息、所述物体类别信息、所述三维地图点云和所述相机位姿构建初始物体语义地图，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述二维检测框信息、所述物体类别信息和所述三维地图点云进行物体关联处理，得到物体关联数据集，包括：

确定所述二维检测框信息对应物体的物体类别语义；

4.根据权利要求2所述的方法，其特征在于，所述基于所述二维直线检测结果和所述物体关联数据集进行物体姿态预估处理，得到物体的三维检测框姿态信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述RGB图像、所述Depth图像和所述视觉SLAM的所述相机位姿构建全局场景点云，对所述全局场景点云进行滤波，得到稠密点云地图，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述RGB图像和所述Depth图像构建相机坐标系下的至少一帧第一三维物体点云之后，还包括：

7.根据权利要求5所述的方法，其特征在于，所述基于所述RGB图像和所述Depth图像构建相机坐标系下的至少一帧第一三维物体点云，包括：

8.根据权利要求5所述的方法，其特征在于，所述基于所述至少一帧第一三维物体点云和所述视觉SLAM的所述相机位姿进行点云坐标系转换，得到世界坐标系下的至少一帧第二三维物体点云，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述初始物体语义地图和所述稠密点云地图进行地图拟合，得到所处场景下的稠密物体语义地图，包括：

10.一种稠密物体语义地图构建装置，其特征在于，所述装置包括：

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～9任意一项的方法步骤。

12.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～9任意一项的方法步骤。