CN115655262B

CN115655262B - 基于深度学习感知的多层级语义地图构建方法和装置

Info

Publication number: CN115655262B
Application number: CN202211671016.6A
Authority: CN
Inventors: 周雪峰; 苏泽荣; 林旭滨; 徐智浩; 吴鸿敏; 唐观荣
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Guangzhou Lanhai Robot System Co ltd; Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-21
Anticipated expiration: 2042-12-26
Also published as: CN115655262A

Abstract

本申请涉及一种基于深度学习感知的多层级语义地图构建方法、基于深度学习感知的多层级语义地图构建装置、服务器、存储介质和计算机程序产品。所述方法包括：获取三维点云数据、场景图像和运动状态数据；将三维点云数据投影至图像平面，得到深度图像；对三维点云数据和运动状态数据进行点云配准和位姿预测，得到里程计位姿；基于三维点云数据和多类传感器的里程计位姿，生成点云地图；基于深度图像和多类传感器的里程计位姿，对深度图像中的各语义区域进行外接椭圆拟合处理，得到物体包络地图；将坐标对齐后的点云地图和物体包络地图融合为语义地图。采用本方法能够使得语义地图能够表征更多的场景信息，以及提升地图的辨识度、鲁棒性。

Description

基于深度学习感知的多层级语义地图构建方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于深度学习感知的多层级语义地图构建方法、基于深度学习感知的多层级语义地图构建装置、服务器、存储介质和计算机程序产品。

背景技术

地图构建是指通过手持方式或移动设备搭载传感器方式使传感器得以在物理环境中发生移动同时捕获环境传感信息，并通过系列信息处理手段最终实现对物理环境的几何模型估计，并以数字化方式对模型进行存储、检索与应用。其中，地图构建技术的应用不仅是包括对物理环境中的几何参数、环境特征的提取，而且还包括了对环境的精准定位、障碍表征、无碰规划、操作交互等诸多应用的先决条件。

目前室内外移动机器人进行地图构建的方法中，常常利用如激光雷达采集的三维点云或者相机采集的视觉图像来对现场环境进行三维重建，以构建得到现场环境的三维地图。

然而，现有的地图构建方案中常常容易受到光照或视角变化、结构信息退化等外界因素的干扰，影响地图构建的精度及鲁棒性，从而限制了地图在更高级别任务如语义导航、环境刻画、智能操作等任务上的应用。

发明内容

本公开提供一种基于深度学习感知的多层级语义地图构建方法、基于深度学习感知的多层级语义地图构建装置、服务器、存储介质和计算机程序产品，以至少解决相关技术中构建的三维地图的精度不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种基于深度学习感知的多层级语义地图构建方法，包括：

获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及所述多类传感器在采集过程中的运动状态数据；

将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像；所述深度图像中包括多个语义区域，不同的所述语义区域表征不同的物体图像，且每一所述语义区域中投影的三维点云数据与所述场景图像中对应的像素点语义关联；

对语义关联后的三维点云数据和所述运动状态数据进行点云配准处理和位姿预测处理，得到关于所述多类传感器的里程计位姿；

基于所述语义关联后的三维点云数据和所述多类传感器的里程计位姿，生成针对于所述深度图像的点云地图；以及，基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图；

根据所述多类传感器的坐标系外参配置，对所述点云地图和所述物体包络地图进行坐标对齐，并将坐标对齐后的所述点云地图和所述物体包络地图融合为语义地图。

在一示例性实施例中，所述将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像，包括：

对所述场景图像进行语义分割，确定多个分割区域；

将所述三维点云数据中对应的各点云点反向投影至所述多个分割区域对应所在的图像平面中，并对投影的各点云点和对应所述图像平面中的像素点进行语义关联，生成所述深度图像。

在一示例性实施例中，所述多类传感器包括多线激光雷达和惯性测量单元；所述三维点云数据基于所述多线激光雷达采集得到，且所述语义关联后的三维点云数据包括对应于多张连续的深度图像帧的多张点云帧，所述运动状态数据包括所述惯性测量单元在预设时间域内采集的姿态信息和位置信息；

所述对语义关联后的三维点云数据和所述运动状态数据进行点云配准处理和位姿预测处理，得到关于所述多类传感器的里程计位姿，包括：

对所述语义关联后的三维点云数据进行特征提取，得到所述多张点云帧投影于对应所述深度图像帧中的边缘特征点和平面特征点；

基于所述惯性数据采集的的所述姿态信息和所述位置信息，确定所述惯性测量单元的增量里程计位姿；

对所述多张点云帧中对应投影的各所述边缘特征点和所述平面特征点进行点云配准处理，得到关于所述多线激光雷达的激光里程计位姿；

分别对所述增量里程计位姿和所述激光里程计位姿进行位姿预测处理，得到关于所述多类传感器的里程计位姿。

在一示例性实施例中，所述对所述语义关联后的三维点云数据进行特征提取，得到所述多张点云帧投影于对应所述深度图像帧中的边缘特征点和平面特征点，包括：

在所述语义关联后的三维点云数据中，确定对应的每一条点云曲线的曲率；每一条所述点云曲线由多个点云点构成；

对各所述点云曲线进行一致性检测验算，确定各所述点云曲线中的点云点与对应相邻点云点之间的光束距离；

对所述光束距离小于预设距离的第一点云点进行特征提取，确定所述第一点云点在投影后的特征点类型；所述特征点类型包括边缘特征点和平面特征点。

在一示例性实施例中，所述对所述多张点云帧中对应投影的各所述边缘特征点和所述平面特征点进行点云配准处理，得到关于所述多线激光雷达的激光里程计位姿，包括：

基于最近邻规则，对所述多张点云帧中的各边缘特征点进行特征匹配，得到各点云帧中的边缘特征点在对应上一点云帧的第一最近点、与所述第一最近点位于相邻线束的第二最近点；以及，基于最近邻规则，对各点云帧中的各所述平面特征点进行特征匹配，得到各点云帧中的平面特征点在对应上一点云帧的第三最近点、与所述第三最近点位于同一线束的第四最近点；

分别将各所述边缘特征点和对应的所述第一最近点、所述第二最近点进行语义一致性检验，以确定语义信息一致的第一类特征点；以及，分别将各所述平面特征点和对应的所述第三最近点、所述第四最近点进行语义一致性检验，以确定语义信息一致的第二类特征点；

确定各所述第一类特征点和对应的所述第一最近点、所述第二最近点之间对应构成的线段的第一距离；以及，确定各所述第二类特征点和对应的所述第三最近点、所述第四最近点之间对应构成的线段的第二距离；

基于所述第一距离和所述第二距离所对应的目标函数的最优解，得到关于所述多线激光雷达的激光里程计位姿。

在一示例性实施例中，所述基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图，包括：

基于各所述深度图像帧的图像坐标系，对各所述深度图像帧中的各所述语义区域进行外接椭圆拟合处理，得到各所述语义区域中拟合的外接椭圆的对偶向量和语义信息；

基于所述多类传感器的里程计位姿、各所述语义区域中对应的对偶向量和语义信息，确定各所述深度图像帧之间拟合的同一外接椭圆的投影矩阵，以基于所述投影矩阵得到针对于所述物体图像的物体包络地图。

在一示例性实施例中，所述基于所述多类传感器的里程计位姿、各所述语义区域中的外接椭圆拟合数据和语义信息，确定各所述深度图像帧之间拟合的同一外接椭圆的投影矩阵，包括：

基于所述多类传感器的里程计位姿，确定各所述深度图像帧之间拟合的同一外接椭圆的重合内点；所述重合内点为各所述深度图像帧之间具有相同所述语义信息的像素点；

基于各所述深度图像帧的重合内点和对应所述外接椭圆的对偶向量，确定各所述深度图像帧之间拟合的同一外接椭圆的投影矩阵。

根据本公开实施例的第二方面，提供一种基于深度学习感知的多层级语义地图构建装置，包括：

数据获取单元，被配置为执行获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及所述多类传感器在采集过程中的运动状态数据；

点云投影单元，被配置为执行将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像；所述深度图像中包括多个语义区域，不同的所述语义区域表征不同的物体图像，且每一所述语义区域中投影的三维点云数据与所述场景图像中对应的像素点语义关联；

位姿求解单元，被配置为执行对语义关联后的三维点云数据和所述运动状态数据进行点云配准处理和位姿预测处理，得到关于所述多类传感器的里程计位姿；

地图构建单元，被配置为执行基于所述语义关联后的三维点云数据和所述多类传感器的里程计位姿，生成针对于所述深度图像的点云地图；以及，基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图；

地图融合单元，被配置为执行根据所述多类传感器的坐标系外参配置，对所述点云地图和所述物体包络地图进行坐标对齐，将坐标对齐后的所述点云地图和所述物体包络地图融合为语义地图。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如上述任一项所述的基于深度学习感知的多层级语义地图构建方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，当所述计算机程序由服务器的处理器执行时，使得所述服务器能够执行如上述任一项所述的基于深度学习感知的多层级语义地图构建方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括程序指令，所述程序指令被服务器的处理器执行时，使得所述服务器能够执行如上述任一项所述的基于深度学习感知的多层级语义地图构建方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

该方法先通过获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及多类传感器在采集过程中的运动状态数据；然后，再将三维点云数据投影至场景图像对应所在的图像平面中，得到针对于当前场景的深度图像；其中，深度图像中包括多个语义区域，不同的语义区域表征不同的物体图像，且每一语义区域中投影的三维点云数据与场景图像中对应的像素点语义关联；再对语义关联后的三维点云数据和运动状态数据进行点云配准处理和位姿预测处理，得到关于多类传感器的里程计位姿；再基于语义关联后的三维点云数据和多类传感器的里程计位姿，生成针对于深度图像的点云地图；以及，基于深度图像和多类传感器的里程计位姿，对深度图像中的各语义区域进行外接椭圆拟合处理，得到针对于各物体图像的物体包络地图；最后，再根据多类传感器的坐标系外参配置，对点云地图和物体包络地图进行坐标对齐，并将坐标对齐后的点云地图和物体包络地图融合为语义地图。这样，一方面，将三维点云数据投影至场景图像对应所在的图像平面中，以及将三维点云数据与场景图像的像素点进行语义关联，来得到用于后续地图生成的深度图像，使得深度图中中的像素点与点云点具有可靠的语义关联性，从而让后续生成的点云地图和物体包络地图的辨识度更高、鲁棒性更强；另一方面，根据针对于各物体图像的物体包络地图和针对于深度图像的点云地图融合得到最终的语义地图，使得语义地图能够表征更多的场景信息，从而拓宽了语义地图在更高级别任务如语义导航、环境刻画、智能操作等任务上的应用。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种基于深度学习感知的多层级语义地图构建方法的应用环境图。

图2是根据一示例性实施例示出的一种基于深度学习感知的多层级语义地图构建方法的流程图。

图3是根据一示例性实施例示出的一种生成深度图像步骤的流程图。

图4是根据一示例性实施例示出的一种确定多类传感器的里程计位姿步骤的流程图。

图5是根据一示例性实施例示出的一种提取特征点步骤的流程图。

图6是根据一示例性实施例示出的一种确定多线激光雷达的激光里程计位姿步骤的流程图。

图7是根据一示例性实施例示出的一种确定物体包络地图步骤的流程图。

图8是根据一示例性实施例示出的一种确定外接椭圆的投影矩阵步骤的流程图。

图9是根据一示例性实施例示出的一种基于深度学习感知的多层级语义地图构建装置框图。

图10是根据一示例性实施例示出的一种用于基于深度学习感知的多层级语义地图构建的电子设备的框图。

图11是根据一示例性实施例示出的一种用于基于深度学习感知的多层级语义地图构建的计算机可读存储介质的框图。

图12是根据一示例性实施例示出的一种用于基于深度学习感知的多层级语义地图构建的计算机程序产品的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是：当用在本说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，本申请中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等，不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。例如，第一最近点云可以被称为第二最近点云，第二最近点云也可以被称为第一最近点云，仅仅是其两者所包括的范围不同，而不脱离本申请的范围，第一最近点云和第二最近点云都是对各点云帧中的特征点进行特征匹配得到的匹配点云的集合，只是二者并不是相同的匹配点云的集合而已。

本申请实施例提供的基于深度学习感知的多层级语义地图构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。

在一些实施例中，参考图1，服务器104首先获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及多类传感器在采集过程中的运动状态数据；然后，再将三维点云数据投影至场景图像对应所在的图像平面中，得到针对于当前场景的深度图像；其中，深度图像中包括多个语义区域，不同的语义区域表征不同的物体图像，且每一语义区域中投影的三维点云数据与场景图像中对应的像素点语义关联；再对语义关联后的三维点云数据和运动状态数据进行点云配准处理和位姿预测处理，得到关于多类传感器的里程计位姿；再基于语义关联后的三维点云数据和多类传感器的里程计位姿，生成针对于深度图像的点云地图；以及，基于深度图像和多类传感器的里程计位姿，对深度图像中的各语义区域进行外接椭圆拟合处理，得到针对于各物体图像的物体包络地图；最后，再根据多类传感器的坐标系外参配置，对点云地图和物体包络地图进行坐标对齐，并将坐标对齐后的点云地图和物体包络地图融合为语义地图。

在一些实施例中，终端102(如移动终端、固定终端)可以以各种形式来实施。其中，终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)等等的可以将坐标对齐后的点云地图和物体包络地图融合为语义地图的移动终端，终端102也可以是自动柜员机(AutomatedTeller Machine，ATM)、自动一体机、数字TV、台式计算机、固式计算机等等的可以将坐标对齐后的点云地图和物体包络地图融合为语义地图的固定终端。

下面，假设终端102是固定终端。然而，本领域技术人员将理解的是，若有特别用于移动目的的操作或者元件，根据本申请公开的实施方式的构造也能够应用于移动类型的终端102。

在一些实施例中，服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种，如包括HTTP(超文本传输协议)、FTP(文件传输协议)、CGI(通用网关界面)、RDBMS(关系型数据库管理系统)等。

在一些实施例中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104可以适于运行提供前述公开中描述的终端102的一个或多个应用服务或软件组件。

在一些实施例中，服务器104所提供的一个或多个应用服务或软件组件包括一个在前台向用户提供一对一应用服务的门户端口和多个位于后台进行数据处理的业务系统，以将点云地图和物体包络地图融合为语义地图的功能扩展到设备端或者客户端，从而用户能够在任何时间任何地点进行基于深度学习感知的多层级语义地图构建工作。

在一些实施例中，设备端或者客户端的构建语义地图的功能可为运行在用户模式以完成某项或多项特定工作的计算机程序，其可以与用户进行交互，且具有可视的用户界面。其中，设备端或者客户端可以包括两部分：图形用户接口(GUI)和引擎(engine)，利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户系统。

在一些实施例中，用户可以通过终端102中的输入装置向设备端或者客户端输入相应的代码数据或者控制参数，以执行服务器104中的计算机程序的应用服务，以及显示用户界面中的应用服务。

在一些实施例中，设备端或者客户端运行的操作系统可以包括各种版本的Microsoft Windows®、Apple Macintosh®和/或Linux操作系统、各种商用或类UNIX®操作系统(包括但不限于各种GNU/Linux操作系统、Google Chrome®OS等)和/或移动操作系统，诸如iOS®、Windows®Phone、Android®OS、BlackBerry®OS、Palm®OS操作系统，以及其它在线操作系统或者离线操作系统，在这里不做具体的限制。

在一些实施例中，如图2所示，提供了一种基于深度学习感知的多层级语义地图构建方法，以该方法应用于图1中的服务器104为例进行说明，该方法包括以下步骤：

步骤S11，获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及多类传感器在采集过程中的运动状态数据。

在一些实施例中，多类传感器包括多线激光雷达、惯性测量单元(InertialMeasurement Unit，IMU)和单目相机。

在一些实施例中，多线激光雷达实时的向当前场景中的目标物体发射激光束信号，然后将接收的从目标物体返回的反射信号与激光束信号进行处理和比较，获得当前传感器与目标物体的距离信息。

在一些实施例中，多线激光雷达实时的向当前场景中的目标物体发射多束旋转式激光线，最终接收到反馈的离散式三维点云数据，其中，该三维点云数据反映当前场景的几何信息。

在一些实施例中，单目相机用于采集当前场景中的场景图像，场景图像包括环境光照强度、环境几何形状、表面材质与纹理信息进行综合数据采集。

在一些实施例中，运动状态数据包括惯性测量单元在预设时间域内采集的姿态信息和位置信息。

其中，姿态信息包括多类传感器自身的旋转角速度及线性加速度。

作为一示例，地图构建设备利用搭载的多线激光雷达从i时刻到j时刻，连续扫描当前环境中的三维点云数据；以及地图构建设备利用搭载的IMU连续采集地图构建设备从i时刻到j时刻自身的旋转角速度及线性加速度。

在一些实施例中，在地图构建设备中的多类传感器运行之前，地图构建设备先对相机传感器（如单目相机）的焦距、畸变参数等内部参数进行标定；对IMU的白噪声和偏置进行标定；以标定板为中间介质，对IMU—相机—激光雷达之间的多传感坐标系的外部参数标定。

在一些实施例中，地图构建设备可以对相机传感器采集的场景图像和三维点云数据进行预处理，包括对采集的单个点云帧中的三维点云数据进行畸变矫正处理、场景图像进行去畸变及裁剪等预处理。

在一些实施例中，地图构建设备还可以对多线激光雷获取的三维点云数据进行坐标系转换、各种传感器之间的姿态参考坐标系的变换和统一，以及根据不同传感频率对各个传感数据进行时间对齐处理。

步骤S12，将三维点云数据投影至场景图像对应所在的图像平面中，得到针对于当前场景的深度图像。

在一些实施例中，服务器首先将预处理（包括去畸变及裁剪等预处理）后的场景图像输入预设的神经网络中进行语义分割，以将场景图像分割为多个语义区域，然后，再利用预设的相机成像模型将三维点云数据按照对应的投影深度反向投影至各个语义区域对应所在的图像平面中，以生成对应相机坐标系下的深度图像，并对三维点云数据中的点云点和场景图像中的像素点进行语义关联。

在一些实施例中，深度图像中包括多个语义区域，不同的语义区域表征不同的物体图像，且每一语义区域中投影的三维点云数据与场景图像中对应的像素点语义关联。

其中，语音关联用于表示每一语义区域中投影的三维点云数据和场景图像中对应的像素点均被赋予了与物体图像相对应的语义标签，且投影相匹配的一对三维点云数据和像素点被赋予的语义标签相同。

在一些实施例中，语义关联后的三维点云数据包括对应于多张连续的深度图像帧的多张点云帧。

作为一示例，地图构建设备搭载的多类传感器在运动过程中，从当前场景中采集i时刻到j时刻的三维点云数据和多张场景图像，将该段时间范围内的三维点云数据按照预设的抽帧率，分为多张点云帧，并基于该多张点云帧分别投影至对应的多张场景图像所在的图像平面中，得到针对于当前场景从i时刻到j时刻的多张深度图像。

步骤S13，对语义关联后的三维点云数据和运动状态数据进行点云配准处理和位姿预测处理，得到关于多类传感器的里程计位姿。

在一种实施例中，服务器首先对IMU采集的运动状态数据按照IMU预设的传感频率进行积分计算，得到运动状态数据对应的传感状态量；然后，服务器基于IMU采集该运动状态数据的时间长度和预设的重力方向矢量，计算关于IMU的增量里程计；以及，服务器对语义关联后的三维点云数据依次进行曲率计算、坏点剔除、边缘特征提取和平面特征提取，以获得带有特征标记的三维点云数据，然后，再对带有特征标记的三维点云数据（即带有特征标记的多张点云帧）进行连续帧的点云配准和帧间位姿变换，得到关于激光雷达的激光里程计。最后，服务器采用预设的因子图框架对两种不同频率、不同类型的传感器里程计（即IMU的增量里程计和激光里程计）进行融合，以得到在滑动时间窗口内预测的关于多类传感器的里程计位姿。

步骤S14，基于语义关联后的三维点云数据和多类传感器的里程计位姿，生成针对于深度图像的点云地图。

在一种实施例中，服务器首先在语义关联后的三维点云数据中，确定在时序上与多张连续的深度图像帧相对应的多张点云帧，然后，再确定与每一点云帧在时序上相对应的多类传感器的目标里程计位姿。然后，针对每一点云帧，服务器将目标里程计位姿和点云帧中的各点云点进行拼接，得到点云地图。

示例地，首先可以对每个点云帧中的目标点云进行特征点提取，得到每个目标点云对应的目标特征点。其中，目标特征点可以包括边缘点和平面点等。其次，可以根据目标特征点，确定每点云帧对应目标时刻的目标里程计位姿。确定目标里程计位姿的方式可以是：先根据不同的采集时刻（包括i时刻起始至j时刻终止），对各类目标特征点赋予不同权重值，再根据相邻的每两帧点云帧之间对应的目标特征点以及这些目标特征点对应的权重值进行帧间匹配，得到每两帧点云帧之间对应于多类传感器的里程计位姿在相同时刻的位姿变化量，并根据位姿变化量，确定每点云帧对应的目标里程计位姿。

然后，目标里程计位姿不可避免地存在累计误差，因此，在确定每点云帧对应的目标里程计位姿之后，可以利用预设优化算法，对目标里程计位姿进行优化，得到每点云帧对应的优化里程计位姿。例如，可以根据历史点云帧构建优化问题，利用非线性优化方法对每点云帧对应的目标里程计位姿进行位姿优化，得到每点云帧对应的优化里程计位姿。

最后，可以利用SLAM算法，将每点云帧对应的目标里程计位姿和该点云帧对应的各点云点进行拼接，生成点云地图。

步骤S15，基于深度图像和多类传感器的里程计位姿，对深度图像中的各语义区域进行外接椭圆拟合处理，得到针对于各物体图像的物体包络地图。

在一种实施例中，服务器首先对各深度图像帧中的各语义区域进行椭圆拟合，得到不同深度图像帧中各语义区域的正则矩形包络框，然后再拟合各矩形框的内切椭圆。在各深度图像帧之间，服务器计算相关联的各内切椭圆中投影重合的点云点，并基于各内切椭圆之间投影重合的点云点，确定各内切椭圆所表征的物体的投影方程，并根据物体的投影方程得到针对于各物体图像的物体包络地图。

作为一示例，深度图像帧A、深度图像帧B、深度图像帧C中分别包括三类相对应的语义区域，其中，第一类语义区域表征物体S1、第二类语义区域表征物体S2、第三类语义区域表征物体S3。服务器分别对各语义区域进行椭圆拟合，得到针对于各语义区域的正则矩形包络框，再对各语义区域的正则矩形包络框进行内切椭圆拟合成，得到对应于深度图像帧A的椭圆A1、椭圆A2、椭圆A3，深度图像帧B的椭圆B1、椭圆B2、椭圆B3，深度图像帧C的椭圆C1、椭圆C2、椭圆C3。其中，椭圆A1、椭圆B1、椭圆C1为物体S1对应拟合的内切椭圆，椭圆A2、椭圆B2、椭圆C2为物体S2对应拟合的内切椭圆，椭圆A3、椭圆B3、椭圆C3为物体S3对应拟合的内切椭圆。然后，服务器再确定椭圆A1、椭圆B1、椭圆C1之间对应投影重合的点云点集合P1，椭圆A2、椭圆B2、椭圆C2之间对应投影重合的点云点集合P2，椭圆A3、椭圆B3、椭圆C3之间对应投影重合的点云点集合P3。然后，服务器根据点云点集合P1确定对应于物体S1的投影方程，根据点云点集合P2确定对应于物体S2的投影方程，根据点云点集合P3确定对应于物体S3的投影方程。最后，服务器融合物体S1的投影方程、物体S2的投影方程和物体S3的投影方程，得到针对于各深度图像帧的物体包络地图。

步骤S16，根据多类传感器的坐标系外参配置，对点云地图和物体包络地图进行坐标对齐，并将坐标对齐后的点云地图和物体包络地图融合为语义地图。

在一种实施例中，服务器将坐标对齐后的点云地图和物体包络地图按照相对应的时间次序，逐帧融合坐标对齐后的点云地图和物体包络地图，得到多个连续的单帧地图，最后将多个连续的单帧地图按时间次序拼接为语义地图。

上述的基于深度学习感知的多层级语义地图构建过程中，服务器首先获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及多类传感器在采集过程中的运动状态数据；然后，再将三维点云数据投影至场景图像对应所在的图像平面中，得到针对于当前场景的深度图像；其中，深度图像中包括多个语义区域，不同的语义区域表征不同的物体图像，且每一语义区域中投影的三维点云数据与场景图像中对应的像素点语义关联；再对语义关联后的三维点云数据和运动状态数据进行点云配准处理和位姿预测处理，得到关于多类传感器的里程计位姿；再基于语义关联后的三维点云数据和多类传感器的里程计位姿，生成针对于深度图像的点云地图；以及，基于深度图像和多类传感器的里程计位姿，对深度图像中的各语义区域进行外接椭圆拟合处理，得到针对于各物体图像的物体包络地图；最后，再根据多类传感器的坐标系外参配置，对点云地图和物体包络地图进行坐标对齐，并将坐标对齐后的点云地图和物体包络地图融合为语义地图。这样，一方面，将三维点云数据投影至场景图像对应所在的图像平面中，以及将三维点云数据与场景图像的像素点进行语义关联，来得到用于后续地图生成的深度图像，使得深度图中中的像素点与点云点具有可靠的语义关联性，从而让后续生成的点云地图和物体包络地图的辨识度更高、鲁棒性更强；另一方面，根据针对于各物体图像的物体包络地图和针对于深度图像的点云地图融合得到最终的语义地图，使得语义地图能够表征更多的场景信息，从而拓宽了语义地图在更高级别任务如语义导航、环境刻画、智能操作等任务上的应用。

本领域技术人员可以理解地，在具体实施方式的上述方法中，所揭露的方法可以通过更为具体的方式以实现。例如，以上所描述的将坐标对齐后的点云地图和物体包络地图融合为语义地图的实施方式仅仅是示意性的。

在一示例性实施例中，参阅图3，图3为本申请中生成深度图像一实施例的流程示意图。在步骤S12中，即服务器将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像的过程，具体可以通过以下方式实现：

步骤S121，对场景图像进行语义分割，确定多个分割区域。

在一些实施例中，服务器将预处理后的场景图像（如，去畸变及裁剪完毕的RGB图像）传输至一个训练完毕的深度神经网络（如LSTM、CNN等）中进行语义分割，获取像素级别的多个语义分割区域。其中，每一分割区域内包括一个/一类物体。

作为一示例，对于场景图像A中展示有物体P1、物体P2和物体P3，深度神经网络对场景图像A进行语义分割，得到仅包像物体P1所在素级点的分割区域A1，仅包像物体P2所在素级点的分割区域A2，仅包像物体P3所在素级点的分割区域A3。

步骤S122，将三维点云数据中对应的各点云点反向投影至多个分割区域对应所在的图像平面中，并对投影的各点云点和对应图像平面中的像素点进行语义关联，生成深度图像。

在一些实施例中，服务器利用预设的相机成像模型将三维点云数据按照对应的投影深度反向投影至各个语义区域对应所在的图像平面中，以生成对应相机坐标系下的深度图像，并对三维点云数据中的点云点和场景图像中的像素点进行语义关联。

在一示例性实施例中，参阅图4，图4为本申请中确定多类传感器的里程计位姿一实施例的流程示意图。在步骤S13中，服务器对语义关联后的三维点云数据和所述运动状态数据进行点云配准处理和位姿预测处理，得到关于所述多类传感器的里程计位姿的过程，包括：

步骤S131，对语义关联后的三维点云数据进行特征提取，得到多张点云帧投影于对应深度图像帧中的边缘特征点和平面特征点。

示例性实施例中，参阅图5，图5为本申请中提取特征点一实施例的流程示意图。在步骤S131中，服务器对语义关联后的三维点云数据进行特征提取，得到多张点云帧投影于对应深度图像帧中的边缘特征点和平面特征点的过程，具体可以通过以下方式实现：

步骤a1，在语义关联后的三维点云数据中，确定对应的每一条点云曲线的曲率。

在一些实施例中，每一条点云曲线由多个点云点构成。

在一些实施例中，服务器分别将每一条点云曲线中的每一点云作点为目标点云点，确定以目标点云点为中心的左右预设个相邻点云点之间的平均距离；最后将平均距离作为点云曲线的平滑指标，计算每个目标点云的曲率。

步骤a2，对各点云曲线进行一致性检测验算，确定各点云曲线中的点云点与对应相邻点云点之间的光束距离。

在一些实施例中，服务器分别将每一条点云曲线中的每一点云点作为目标点云点，通过几何一致性检测验算确定每个目标点云点与相邻点云点之间的光束距离，将光束距离大于预设距离的目标点云点遮掩。

步骤a3，对光束距离小于预设距离的第一点云点进行特征提取，确定第一点云点在投影后的特征点类型。

在一些实施例中，服务器对每一条点云曲线中的每一点云按其各自对应的曲率大小排序，然后，对光束距离小于预设距离的第一点云点进行特征提取，并将曲率大于预设阈值的多个第一点云点作为缘特征点，将曲率小于或者等于预设阈值的多个第一点云点作为平面特征点。

步骤S132，基于惯性测量单元采集的姿态信息和位置信息，确定惯性测量单元的增量里程计位姿。

在一些实施例中，服务器首先对惯性测量单元采集的姿态信息和位置信息按照IMU传感频率进行积分计算，以确定IMU的传感状态量。

其中，服务器将第k时刻的IMU的传感状态量定义为：

。

其中，式子上标w表示该量以世界坐标系为参考系，

表示IMU在k时刻相对于世界坐标系w的位置，以此类推，

表示k时刻的速度，

是四元数表示下的k时刻的旋转姿态，

与

分别是IMU的在k时刻的加速度与角速度漂移量。

进一步地，服务器计算从时刻i到j对IMU的预积分项（包括姿态信息：

和位置信息：

、

），如下：

；

；

；

其中，

与

是t时刻下IMU的关于加速度和角速度的测量值，

是指四元数的乘法运算，

是四元数表征下的t时刻相对于i时刻的IMU姿态变换。

进一步地，服务器在已知道i时刻的传感状态量

的情况下，则j时刻的惯性测量单元的增量里程计位姿计算如下：

。

其中，

、

、

是上一步骤计算的预积分项，

是重力方向的矢量，

是i时刻到j时刻的时间差。

步骤S133，对多张点云帧中对应投影的各边缘特征点和平面特征点进行点云配准处理，得到关于多线激光雷达的激光里程计位姿。

在一些实施例中，服务器首先是对当前点云帧t+1及其上一点云帧t间的特征点建立关联，以IMU提供的里程计进行时间对齐，借助外参变换以获取点云帧t到t+1的相对位姿变换

，从而将t时刻的点云坐标变换至t+1时刻的激光雷达坐标系下。

在一示例性实施例中，参阅图6，图6为本申请中确定多线激光雷达的激光里程计位姿一实施例的流程示意图。在步骤S133中，服务器对多张点云帧中对应投影的各边缘特征点和平面特征点进行点云配准处理，得到关于多线激光雷达的激光里程计位姿的过程，具体可以通过以下方式实现：

步骤b1，基于最近邻规则，对多张点云帧中的各边缘特征点进行特征匹配，得到各点云帧中的边缘特征点在对应上一点云帧的第一最近点、与第一最近点位于相邻线束的第二最近点。

步骤b2，分别将各边缘特征点和对应的第一最近点、第二最近点进行语义一致性检验，以确定语义信息一致的第一类特征点。

步骤b3，确定各第一类特征点和对应的第一最近点、第二最近点之间对应构成的线段的第一距离。

作为一示例，服务器首先根据最近邻原则，对t+1时刻的第k个边缘特征点

进行特征匹配，然后，找到其在第t个时刻的第一最近点

，以及与第一最近点

位于相邻线束上的第二最近点

。然后，再分别将边缘特征点

和对应的第一最近点

、第二最近点

进行语义一致性检验。

若

到

和

所对应的语义标签一致，则继续计算边缘特征点

和对应的第一最近点

、第二最近点

之间的代价函数，以得到边缘特征点

和对应的第一最近点

、第二最近点

之间对应构成的线段的第一距离。若

到

和

所对应的语义标签不一致，则将该

进行屏蔽。

其中，代价函数为根据平面几何公式计算的边缘特征点

和对应的第一最近点

、第二最近点

之间构成的线段之间的距离

，如下式所示：

。

步骤b4，基于最近邻规则，对各点云帧中的各平面特征点进行特征匹配，得到各点云帧中的平面特征点在对应上一点云帧的第三最近点、与第三最近点位于同一线束的第四最近点。

步骤b5，分别将各平面特征点和对应的第三最近点、第四最近点进行语义一致性检验，以确定语义信息一致的第二类特征点。

步骤b6，确定各第二类特征点和对应的第三最近点、第四最近点之间对应构成的平面的第二距离。

作为一示例，服务器首先根据最近邻原则，对t+1时刻的第k个平面特征点

进行特征匹配，然后，找到其在第t个时刻的第三最近点

，以及与第三最近点

位于同一线束上的第四最近点

。然后，再分别将平面特征点

和对应的第三最近点

、第四最近点

进行语义一致性检验。

若

到

和

所对应的语义标签一致，则继续计算边缘特征点

和对应的第三最近点

、第四最近点

之间的代价函数，以得到边缘特征点

和对应的第三最近点

、第四最近点

之间对应构成的平面的第二距离。若边缘特征点

和对应的第三最近点

、第四最近点

所对应的语义标签不一致，则将该

进行屏蔽。

其中，代价函数为根据平面几何公式计算的平面特征点

和对应的第三最近点

、第四最近点

之间构成的平面之间的距离

，如下式所示：

。

步骤b7，基于第一距离和第二距离所对应的目标函数的最优解，得到关于多线激光雷达的激光里程计位姿。

在一些实施例中，第一距离和第二类距离所对应的目标函数可以为第一距离和第二类距离之间的非线性最小二乘函数，如下：

。

在一些实施例中，服务器利用Levenberg-Maquardt算法迭代目标函数的最小化误差，得到最优解

和

，即激光雷达两帧之间的位姿变换，得到关于多线激光雷达的激光里程计位姿。

步骤S134，分别对增量里程计位姿和激光里程计位姿进行位姿预测处理，得到关于多类传感器的里程计位姿。

在一些实施例中，服务器经过上述的步骤，已经获取了IMU的增量里程计和激光雷达的激光里程计两种传感器初步的运动状态。为了进一步提升状态估计精度，减少误差累计带来的影响，服务器再采用因子图框架对两种不同频率、不同类型的传感器进行融合优化。其中，可采用滑动窗口式的数据采集方式，以邻近帧的估计数据对当前时刻的位姿状态加以约束和优化。

具体地，服务器首先对IMU的增量里程计位姿进行因子构造，包括令IMU的时刻i与激光雷达的时刻t对齐，令IMU的时刻j与激光雷达时刻t+1对齐，在这个时间段中个，增量里程计位姿的状态估计代价为：

。

其中，

表示i到j这个过程中IMU的整个测量数据，即加速度和角速度。

表示i到j这个过程中IMU的整个估计状态。

进一步地，服务器再对激光雷达的激光里程计进行因子构造，包括在t+1时刻的残差定义为：

。

进一步地，服务器构建IMU与激光雷达的联合误差方程为：

。

最后，服务器利用Levenberg-Maquardt算法对IMU与激光雷达的联合误差方程进行迭代，可批量优化滑动窗口内的估计状态，获得优化后批量的多类传感器的里程计位姿。

在一示例性实施例中，参阅图7，图7为本申请中确定物体包络地图一实施例的流程示意图。在步骤S15中，服务器基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图的过程，具体可以通过以下方式实现：

步骤S151，基于各深度图像帧的图像坐标系，对各深度图像帧中的各语义区域进行外接椭圆拟合处理，得到各语义区域中拟合的外接椭圆的对偶向量和语义信息。

在一些实施例中，服务器首先对各语义区域中分割的不规则的物体图像进行椭圆拟合处理。其中，为了加速该处理过程，可直接获取各物体图像的在图像坐标系为参考下的最大最小坐标系，然后取得物体图像的正则矩形包络框，接着拟合该矩形框的内切椭圆，得到各语义区域中拟合的外接椭圆的对偶向量和物体图像中的语义信息。

具体地，服务器记矩形包络框左上角坐标为（x1，y1），矩形包络框右下角坐标为（x2，y2），记矩形包络框中心点坐标为（tx，ty），矩形包络框的内切椭圆的参数为：长半轴a＝（x2-x1）/2，短板轴b＝（y2-y1）/2，中心点x坐标tx＝（x1+x2）/2，中心点y坐标ty＝（y1+y2）/2，则外接椭圆的对偶二次型表示为：

。

其中，外接椭圆的对偶二次型的6个独立元素的向量表示为：

。

步骤S152，基于多类传感器的里程计位姿、各语义区域中对应的对偶向量和语义信息，确定各深度图像帧之间拟合的同一外接椭圆的投影矩阵，以基于投影矩阵得到针对于物体图像的物体包络地图。

在一示例性实施例中，参阅图8，图8为本申请中确定外接椭圆的投影矩阵一实施例的流程示意图。在步骤S152中，服务器基于多类传感器的里程计位姿、各语义区域中对应的对偶向量和语义信息，确定各深度图像帧之间拟合的同一外接椭圆的投影矩阵的过程，具体可以通过以下方式实现：

步骤c1，基于多类传感器的里程计位姿，确定各深度图像帧之间拟合的同一外接椭圆的重合内点。

在一些实施例中，服务器需要基于多类传感器的里程计位姿，各深度图像帧之间进行跨帧语义关联，以确定各深度图像帧之间拟合的同一外接椭圆的重合内点。其中，数据关联旨在关联同一物体在不同图像帧中对应的语义分割图像，以获取各语义区域中的多视图几何信息，实现精准的三维几何构建。其中，在传感设备三维刚体运动及相机射影变换的共同作用下，加上遮挡、视野范围有限等干扰，物体在视图中的投影轮廓的坐标变化剧烈，难以用简单的运动模型进行追踪关联。

在一些实施例中，服务器首先获取各语义区域的外接椭圆拟合数据及其对应物体图像中的语义信息，记第i-1帧中的分割结果数据为

，其中，l_n是一个语义标签表示某类物体的编号。然后，服务器根据各点云点和物体图像中的像素点的语义关联关系，确定第i-1帧中第k个外接椭圆

内所有与l_n标签下的各像素点相关联的点云点；再根据相机成像模型以及第i-1帧到第i帧的位姿变换R_i和t_i，将相关联的点云点投影至第i帧深度图像帧中。接着统计投影后的离散像素点与第i帧中的分割结果数据为

的重合程度，即统计投影后的像素点落在第i帧深度图像帧中的相同标签的椭圆数，以此标记第i帧深度图像帧中重合内点和重合外点。最后计算重合内点的比率以确定跨帧的外接椭圆的关联决策。

在一些实施例中，重合内点为各深度图像帧之间具有相同语义信息的像素点。

步骤c2，基于各深度图像帧的重合内点和对应外接椭圆的对偶向量，确定各深度图像帧之间拟合的同一外接椭圆的投影矩阵。

在一实施例中，服务器确定各深度图像帧之间拟合的同一外接椭圆的投影矩阵，即对各深度图像帧之间的同一物体图像进行三维包络体估计。其中，在外接椭圆的对偶形式下，椭球体可以由一个4×4的对称矩阵进行刻画。为了实现三维包络椭球体的初始化估计，借助对偶形式下的椭球体的多视图下的投影方程为：

。

其中，式中下标i表示该物体的测量是与第i个视图有关，式子中

是待估计椭球体所对应的i视图下的物体图像的椭圆的对偶表示，

是投影矩阵，其由相机内参矩阵K和相机的位姿R_i和t_i构成，而λ_i是一个未知的尺度标量。将P_i进行二次型表达得B_i，则方程可以写成向量形式：

。

进一步地，联立多个（至少3个）视图中的语义椭圆，可以构成方程组：

。

其中，

表示待估计椭球体

在视图n中语义椭圆对偶向量，即

。利用SVD分解可以对方程组进行求解，则其最小奇异值所对应的奇异向量的前10个元素就是所求对偶椭球的10个独立元素，再整理成其矩阵形式：

。

其中，

则是语义物体三维最小包络椭球的对偶矩阵形式，至此完成各深度图像帧之间拟合的同一外接椭圆的投影矩阵（即各深度图像帧之间对同一个物体的三维包络初始化估计）。

在其他实施例中，在服务器完成对同一外接椭圆的投影矩阵表示的情况下，随着观测视图（即深度图像）的增加以及观测视角（传感器对当前场景的拍摄角度）变化，为三维包络体提供了更多几何约束。因此，服务器需要将新观测及新拟合的语义椭圆进行融合优化，可以得到更精准的三维包络椭球体的估计量。为了实现这一目标，需要构造优化代价函数，即对于已估计的椭球体

，计算其在新的观测视图j中的椭圆投影，并与视图j中的实际语义分割拟合结果做相似性度量，该代价函数即重投影误差在椭球体上的具体表现，具体方程为：

。

其中，b_ij表示视图j中的关于椭球体i所对应的物体的拟合包络矩形框的左上角和右下角两个点的像素坐标，

函数用于椭球体

在j视图上的投影椭圆的2D包络框提取。在考虑多个新观测视图下，对椭球体的优化方程如下所示：

。

其中，优化方程的优化量是椭球体的参数，服务器利用Levenberg-Maquardt算法迭代最小化误差可得到优化后的椭球体，实现对物体的精准三维包络。

上述方案，一方面，将三维点云数据投影至场景图像对应所在的图像平面中，以及将三维点云数据与场景图像的像素点进行语义关联，来得到用于后续地图生成的深度图像，使得深度图中中的像素点与点云点具有可靠的语义关联性，从而让后续生成的点云地图和物体包络地图的辨识度更高、鲁棒性更强；另一方面，根据针对于各物体图像的物体包络地图和针对于深度图像的点云地图融合得到最终的语义地图，使得语义地图能够表征更多的场景信息，从而拓宽了语义地图在更高级别任务如语义导航、环境刻画、智能操作等任务上的应用。

应该理解的是，虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图9是本申请实施例提供的一种基于深度学习感知的多层级语义地图构建装置框图。参照图9，该基于深度学习感知的多层级语义地图构建装置10包括：数据获取单元11、点云投影单元12、位姿求解单元13、地图构建单元14和地图融合单元15。

其中，该数据获取单元11，被配置为执行获取由多类传感器对当前场景采集的三维点云数据和场景图像，以及所述多类传感器在采集过程中的运动状态数据。

其中，该点云投影单元12，被配置为执行将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像；所述深度图像中包括多个语义区域，不同的所述语义区域表征不同的物体图像，且每一所述语义区域中投影的三维点云数据与所述场景图像中对应的像素点语义关联。

其中，该位姿求解单元13，被配置为执行对语义关联后的三维点云数据和所述运动状态数据进行点云配准处理和位姿预测处理，得到关于所述多类传感器的里程计位姿。

其中，该地图构建单元14，被配置为执行基于所述语义关联后的三维点云数据和所述多类传感器的里程计位姿，生成针对于所述深度图像的点云地图；以及，基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图。

其中，该地图融合单元15，被配置为执行根据所述多类传感器的坐标系外参配置，对所述点云地图和所述物体包络地图进行坐标对齐，将坐标对齐后的所述点云地图和所述物体包络地图融合为语义地图。

在一些实施例中，在的方面，该种基于深度学习感知的多层级语义地图构建装置10具体用于：

对所述场景图像进行语义分割，确定多个分割区域；

在一些实施例中，在的过程，该种基于深度学习感知的多层级语义地图构建装置10具体用于：

在一些实施例中，在的方面，该基于深度学习感知的多层级语义地图构建装置10具体还用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是本申请实施例提供的一种服务器20的框图。例如，服务器20可以为一种电子设备、电子组件或者服务器阵列等等。参照图10，服务器20包括处理器21，其进一步处理器21可以为处理器集合，其可以包括一个或多个处理器21，以及服务器20包括由存储器22所代表的存储器资源，其中，存储器22上存储有计算机程序，例如应用程序。在存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外，处理器21被配置为执行计算机程序时实现如上述的基于深度学习感知的多层级语义地图构建方法。

在一些实施例中，服务器20为电子设备，该电子设备中的计算系统可以运行一个或多个操作系统，包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该服务器20还可以运行各种附加服务器应用和/或中间层应用中的任何一种，包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。

在一些实施例中，处理器21通常控制服务器20的整体操作，诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器来执行计算机程序，以完成上述的方法的全部或部分步骤。此外，处理器21可以包括一个或多个模块，便于处理器21和其他组件之间的交互。例如，处理器21可以包括多媒体模块，以方便利用多媒体组件控制用户服务器20和处理器21之间的交互。

在一些实施例中，处理器21还可以称为CPU（Central Processing Unit，中央处理单元）。处理器21可能是一种电子芯片，具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器（Digital Signal Processor, DSP）、专用集成电路（ApplicationSpecific Integrated Circuit, ASIC）、专用集成电路（Application SpecificIntegrated Circuit, ASIC）、现场可编程门阵列（Field-Programmable Gate Array,FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等。另外，处理器可以由集成电路芯片共同实现。

在一些实施例中，存储器22被配置为存储各种类型的数据以支持在服务器20的操作。这些数据的示例包括用于在服务器20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

在一些实施例中，存储器22可以为内存条、TF卡等，可以存储服务器20中的全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器22中。在一些实施例中，它根据处理器指定的位置存入和取出信息。在一些实施例中，有了存储器22，服务器20才有记忆功能，才能保证正常工作。在一些实施例中，服务器20的存储器22按用途可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在一些实施例中，服务器20还可以包括：电源组件23被配置为执行服务器20的电源管理，有线或无线网络接口24被配置为将服务器20连接到网络，和输入输出（I/O）接口25。服务器20可以操作基于存储在存储器22的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在一些实施例中，电源组件23为服务器20的各种组件提供电力。电源组件23可以包括电源管理系统，一个或多个电源，及其他与为服务器20生成、管理和分配电力相关联的组件。

在一些实施例中，有线或无线网络接口24被配置为便于服务器20和其他设备之间有线或无线方式的通信。服务器20可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

在一些实施例中，有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，有线或无线网络接口24还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在一些实施例中，输入输出（I/O）接口25为处理器21和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

图11是本申请实施例提供的一种计算机可读存储介质30的框图。该计算机可读存储介质30上存储有计算机程序31，其中，计算机程序31被处理器执行时实现如上述的基于深度学习感知的多层级语义地图构建方法。

在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质30中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机可读存储介质30在一个计算机程序31中，包括若干指令用以使得一台计算机设备（可以是个人计算机，系统服务器，或者网络设备等）、电子设备（例如MP3、MP4等，也可以是手机、平板电脑、可穿戴设备等智能终端，也可以是台式电脑等）或者处理器（processor）以执行本申请各个实施方式方法的全部或部分步骤。

图12是本申请实施例提供的一种计算机程序产品40的框图。该计算机程序产品40中包括程序指令41，该程序指令41可由服务器20的处理器执行以实现如上述的基于深度学习感知的多层级语义地图构建方法。

本领域内的技术人员应明白，本申请的实施例可提供有基于深度学习感知的多层级语义地图构建方法、基于深度学习感知的多层级语义地图构建装置10、服务器20、计算机可读存储介质30或计算机程序产品40。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令41(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品40的形式。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种三维物体地图的构建方法，其特征在于，所述方法包括：

将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像；所述深度图像中包括多个语义区域，不同的所述语义区域表征不同的物体图像，且每一所述语义区域中投影的三维点云数据与所述场景图像中对应的像素点语义关联；在语义关联后的三维点云数据中包括多个点云点，且所述多个点云点包括投影于所述深度图像中的边缘特征点和平面特征点；其中，所述边缘特征点和所述平面特征点基于对所述多个点云点中对应光束距离小于预设距离的第一点云点进行特征提取所确定，所述光束距离表征两个相邻点云点在经过一致性检测验算之后所确定的距离；

根据所述多类传感器的坐标系外参配置，对所述点云地图和所述物体包络地图进行坐标对齐，并将坐标对齐后的所述点云地图和所述物体包络地图融合为三维物体地图。

2.根据权利要求1所述的方法，其特征在于，所述将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像，包括：

对所述场景图像进行语义分割，确定多个分割区域；

3.根据权利要求1所述的方法，其特征在于，所述多类传感器包括多线激光雷达和惯性测量单元；所述三维点云数据基于所述多线激光雷达采集得到，且所述语义关联后的三维点云数据包括对应于多张连续的深度图像帧的多张点云帧，所述运动状态数据包括所述惯性测量单元在预设时间域内采集的姿态信息和位置信息；

基于所述惯性测量单元采集的所述姿态信息和所述位置信息，确定所述惯性测量单元的增量里程计位姿；

4.根据权利要求3所述的方法，其特征在于，所述对所述语义关联后的三维点云数据进行特征提取，得到所述多张点云帧投影于对应所述深度图像帧中的边缘特征点和平面特征点，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述多张点云帧中对应投影的各所述边缘特征点和所述平面特征点进行点云配准处理，得到关于所述多线激光雷达的激光里程计位姿，包括：

确定各所述第一类特征点和对应的所述第一最近点、所述第二最近点之间对应构成的线段的第一距离；以及，确定各所述第二类特征点和对应的所述第三最近点、所述第四最近点之间对应构成的平面的第二距离；

基于所述第一距离和所述第二类距离所对应的目标函数的最优解，得到关于所述多线激光雷达的激光里程计位姿。

6.根据权利要求3所述的方法，其特征在于，所述基于所述深度图像和所述多类传感器的里程计位姿，对所述深度图像中的各所述语义区域进行外接椭圆拟合处理，得到针对于各所述物体图像的物体包络地图，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述多类传感器的里程计位姿、各所述语义区域中的外接椭圆拟合数据和语义信息，确定各所述深度图像帧之间拟合的同一外接椭圆的投影矩阵，包括：

8.一种三维物体地图的构建装置，其特征在于，所述装置包括：

点云投影单元，被配置为执行将所述三维点云数据投影至所述场景图像对应所在的图像平面中，得到针对于所述当前场景的深度图像；所述深度图像中包括多个语义区域，不同的所述语义区域表征不同的物体图像，且每一所述语义区域中投影的三维点云数据与所述场景图像中对应的像素点语义关联；在语义关联后的三维点云数据中包括多个点云点，且所述多个点云点包括投影于所述深度图像中的边缘特征点和平面特征点；其中，所述边缘特征点和所述平面特征点基于对所述多个点云点中对应光束距离小于预设距离的第一点云点进行特征提取所确定，所述光束距离表征两个相邻点云点在经过一致性检测验算之后所确定的距离；

地图融合单元，被配置为执行根据所述多类传感器的坐标系外参配置，对所述点云地图和所述物体包络地图进行坐标对齐，将坐标对齐后的所述点云地图和所述物体包络地图融合为三维物体地图。

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1至7中任一项所述的三维物体地图的构建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质中包括程序数据，其特征在于，当所述程序数据由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至7中任一项所述的三维物体地图的构建方法。