CN115661341A

CN115661341A - 一种基于多传感器融合的实时动态语义建图方法与系统

Info

Publication number: CN115661341A
Application number: CN202211260872.2A
Authority: CN
Inventors: 高爽; 徐臻; 王帅帅; 武胜
Original assignee: Nanhu Research Institute Of Electronic Technology Of China
Current assignee: Nanhu Research Institute Of Electronic Technology Of China
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-31

Abstract

本发明公开了一种基于多传感器融合的实时动态语义建图方法与系统，包括：提取彩色图像序列中每一帧彩色图像的特征点，得到第一特征点集，通过语义分割网络对彩色图像序列和深度图像序列逐帧进行语义分割，得到各帧的语义分割结果；通过动态物体分割网络对事件帧序列逐帧进行动态物体分割，得到各帧的动态物体区域，基于第一特征点集去除各帧动态物体区域内的特征点，得到第二特征点集；将第二特征点集中的每一帧与前一帧的特征点进行特征匹配，并结合非线性优化方法得到全局最优相机位姿序列；基于语义分割结果、全局最优相机位姿序列和深度图像完成语义八叉树建图。本发明显著提高语义建图的准确性和实时性。

Description

一种基于多传感器融合的实时动态语义建图方法与系统

技术领域

本发明属于语义建图技术领域，具体涉及一种基于多传感器融合的实时动态语义建图方法与系统。

背景技术

视觉SLAM是以图像作为主要环境感知信息源的SLAM系统，可应用于无人驾驶、增强现实等应用领域，是近年来的热门研究方向。典型视觉SLAM算法以估计摄像机位姿为主要目标，通过多视几何理论来重构3D地图。为提高数据处理速度，部分视觉SLAM算法是首先提取稀疏的图像特征，通过特征点之间的匹配实现帧间估计和闭环检测。ORB特征凭借其较好的鲁棒性和较优的区分能力以及快速的处理速度，在视觉SLAM领域受到广泛应用。

深度学习算法是当前计算机视觉领域主流的识别算法，其依赖多层神经网络学习图像的层次化特征表示，与传统识别方法相比，可以实现更高的识别准确率。同时，深度学习还可以将图像与语义进行关联，与SLAM技术结合生成环境的语义地图，构建环境的语义知识库，供机器人进行认知与任务推理，提高机器人服务能力和人机交互的智能性。

语义SLAM的关键在于对环境中物体目标的精准识别，而近年兴起的深度学习技术恰好是当前最具潜力和优势的物体识别方法，因此深度学习和语义SLAM的结合受到领域内研究者的广泛关注。语义信息生成的挑战在于精确的物体目标级别或像素级别的分类。

八叉树地图是一种在导航中比较常用，且本身有较好的压缩性能的地图形式。点云地图通常规模很大，一幅640像素×480像素的图像，会产生约30万个空间点，需要大量的存储空间。而且重要的是，它的大并不是必须的，点云地图提供了很多不必要的细节，例如地毯上的褶皱，阴暗处的影子等。在八叉树中，在节点中存储它是否被占据的信息。当某个方块的所有子节点都被占据或都不被占据时，就没必要展开这个节点。是一种灵活的、压缩的、又能随时更新的地图形式；当限制八叉树为10层时，总共能建模的体积大约为8的10次幂立方厘米，也就是1073立方米，这足够建模一间屋子。

一般环境通常分为动态环境和静态环境，不像静态环境只有静态对象，动态环境有一些可以自主移动的目标，如人、动物、车辆等。目前大多数的视觉SLAM系统都可以在静态环境中获取特定的姿态和地图。但在具有动态对象的场景中，其定位和映射能力较弱。因为移动的物体会极大地干扰结构和定位。近年来，一些可视化SLAM解决方案与语义网络相结合，取得了很好的效果。

例如公开号为CN112132897A的中国专利文献，但其存在以下缺点：

(1)在语义分割上仅采用了基于RGB图像的CNN网络，没有结合深度信息。且网络较大，不适合在计算量有限的NX板上进行。

(2)通过计算每个关键特征点和投影的深度值之差和视差角是否大于阈值来判断动态物体，在过滤动态物体的同时还可以将静止的人过滤掉。但该方法在实际运动过程中，尤其是光线不稳定时会产生不同程度的误差；且动态目标易产生运动模糊和重影，影响特征提取，相机位姿计算和动态物体区域分割。

(3)需要基于语义分割的mask来判断动态物体区域。但是语义分割的类别必须是事先训练过的，如果出现未知类别的运动物体，语义分割并不能把它分割出来，进而很难用mask来判断动态物体区域；会影响到动态区域内特征点的去除，进而影响相机位姿的计算。

发明内容

本发明的目的之一在于提供一种基于多传感器融合的实时动态语义建图方法，提高语义建图的准确性和实时性。

为实现上述目的，本发明所采取的技术方案为：

一种基于多传感器融合的实时动态语义建图方法，所述基于多传感器融合的实时动态语义建图方法，包括：

步骤1、训练语义分割网络和动态物体分割网络；

步骤2、获取目标环境的彩色图像、深度图像以及事件帧，基于时间戳匹配图像，得到彩色图像序列、深度图像序列和事件帧序列；

步骤3、提取彩色图像序列中每一帧彩色图像的特征点，得到第一特征点集，通过所述语义分割网络对所述彩色图像序列和深度图像序列逐帧进行语义分割，得到各帧的语义分割结果，所述语义分割结果包括彩色图像的语义mask和置信度；

步骤4、通过所述动态物体分割网络对所述事件帧序列逐帧进行动态物体分割，得到各帧的动态物体区域，基于所述第一特征点集去除各帧动态物体区域内的特征点，得到第二特征点集；

步骤5、将所述第二特征点集中的每一帧与前一帧的特征点进行特征匹配，并结合非线性优化方法得到全局最优相机位姿序列；

步骤6、基于所述语义分割结果、全局最优相机位姿序列和深度图像完成语义八叉树建图。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述训练语义分割网络和动态物体分割网络，包括：

将语义分割网络先基于公开数据集进行训练，训练后利用深度相机采集并标注的彩色图像和深度图像进行微调，得到的网络权重加载至语义分割网络，完成语义分割网络的训练；

将动态物体分割网络先基于合成数据集进行训练，训练后利用事件相机采集并标注的事件帧进行微调，得到的网络权重加载至动态物体分割网络，完成动态物体分割网络的训练。

作为优选，所述事件帧的获取如下：

基于事件相机采集事件序列，所述事件序列为(x,y,p,t)，其中(x,y)为事件坐标，p为正负极性；t表示当前事件的时间信息；

设置时间窗，按照时间窗的长度将事件序列转为事件帧，转换得到的事件帧分为三通道，其中：

将所有p为正极性的事件累加，每个(x,y)位置处的累计事件个数作为(x,y)坐标处的像素值，得到事件帧的第一通道；

将所有p为负极性的事件累加，每个(x,y)位置处的累计事件个数作为(x,y)坐标处的像素值，得到事件帧的第二通道；

将平均时间面作为事件帧的第三通道，时间窗内每个(x,y)位置处的累计事件数为I_x,y，则平均时间面为

作为优选，所述基于语义分割结果、全局最优相机位姿序列和深度图像完成语义八叉树建图，包括：

取归属于同一帧的语义分割结果、全局最优相机位姿和深度图像；

根据全局最优相机位姿和深度图像将语义分割结果映射至三维坐标系，得到三维坐标点；

对三维坐标点进行体素滤波；

取体素滤波后的三维坐标点进行语义融合，完成针对当前帧的语义建图；

继续取下一帧的语义分割结果、全局最优相机位姿和深度图像进行语义建图，实现实时动态语义建图。

作为优选，所述根据全局最优相机位姿和深度图像将语义分割结果映射至三维坐标系，得到三维坐标点，包括：

取语义分割结果中一个像素的二维坐标点P为(u,v)；

根据深度图像得到二维坐标点(u,v)处的深度信息为Z；

根据相机内参(f_x,f_y,c_x,c_y)得到二维坐标点(u,v)转换到相机坐标系下的三维坐标点P_c为

然后经过全局最优相机位姿(R,t)变换得到世界坐标系下的三维坐标点P_W＝RP_c+t，其中R为旋转矩阵，t为平移向量。

作为优选，所述对三维坐标点进行体素滤波，包括：

设置最大搜索半径和映射半径；

将与原点的距离大于最大搜索半径的三维坐标点丢弃；

将与原点的距离小于等于最大搜索半径且大于映射半径的三维坐标点按比例映射至映射半径内，映射时按照当前点至原点的方向进行映射；

对映射至映射半径内的三维坐标点进行体素滤波，并将体素滤波后保留的三维坐标点映射至其原来的位置；

取原始位于映射半径内的三维坐标点以及体素滤波后保留的三维坐标点作为最终的体素滤波后的三维坐标点。

作为优选，所述语义融合为最大值融合法或贝叶斯融合法。

作为优选，所述语义融合为最大值融合法，则所述取体素滤波后的三维坐标点进行语义融合，包括：

a、根据所述动态物体分割网络的分割结果确定当前图像中的动态物体区域，根据所述语义分割网络的分割结果判断所述动态物体区域中是否分割出物体，若未分割出物体，则标记该动态物体区域为静态背景并执行步骤d；若分割出物体，则进行下一步；

b、计算动态物体区域与所述语义分割网络所分割出的物体所在区域的交并比，若交并比大于等于阈值，则标记动态物体区域与所述语义分割网络所分割出的物体所在区域的并集为动态目标；否则标记动态物体区域为动态目标；

c、将动态目标中的三维坐标点与上一帧相同三维坐标点处的语义进行匹配，当相同位置的三维坐标点首次匹配到静态背景点时，利用静态背景点的语义替换该三维坐标点的语义，并且在后续的匹配中，若与上一帧相同位置的语义相同，则语义不变，且该位置的置信度为两者的平均值；若与上一帧相同位置的语义不同，则取置信度较大的语义替换该三维坐标点的语义，且置信度取较大置信度的预设倍数；

d、判断是否完成所有动态物体区域的判断，若未完成则返回步骤a；否则完成语义融合。

作为优选，所述语义融合为贝叶斯融合法，则所述取体素滤波后的三维坐标点进行语义融合，包括：

将所述语义分割网络输出的针对各像素的语义信息进行分类的分类结果进行重新划分，将置信度最高的第一类和第二类作为新的第一类和新的第二类，将剩余类别作为新的第三类，基于重新划分后的三类进行语义融合。

本发明提供的基于多传感器融合的实时动态语义建图方法，在语义分割方面，结合RGB图像的纹理信息和深度图的深度信息进行语义分割，并采用tensorRT优化网络，达到实时建图的目的。在判断动态物体方面，利用事件相机的独特优势，对光线的变化具有鲁棒性，且不会因为动态物体的运动而产生运动模糊及重影，进而影响动态区域的分割。并且利用事件相机动态物体分割的类别无关性，不需要事先标记动态物体的类别，只要是运动中的物体就能分割，可显著提升建图的实时性和准确性。

本发明的目的之二在于提供一种基于多传感器融合的实时动态语义建图系统，提高语义建图的准确性和实时性。

为实现上述目的，本发明所采取的技术方案为：

一种基于多传感器融合的实时动态语义建图系统，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于多传感器融合的实时动态语义建图方法的步骤。

附图说明

图1为本发明的基于多传感器融合的实时动态语义建图方法的流程框图；

图2为本发明动态物体分割网络的一种实施例结构示意图；

图3为本发明进行体素映射的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

为了克服现有技术中语义建图的缺陷，本实施例提出一种基于多传感器融合的实时动态语义建图方法，现有技术利用RGB图像进行语义分割，且语义分割网络较大，不利于在内存及运算量有限的开发板上运行。本实施例在语义分割方面，结合RGB图像的纹理信息和深度图像的深度信息进行语义分割，并采用tensorRT优化网络，达到实时建图的目的。

现有技术在计算特征点是否属于动态物体时，需要依赖于光线的稳定性，且物体的运动模糊会对结果产生较大影响。本实施例在判断动态物体方面，利用事件相机的独特优势，对光线的变化具有鲁棒性，且不会因为动态物体的运动而产生运动模糊及重影，进而影响动态区域的分割。

现有技术在判断动态物体区域时，需要依赖于语义分割结果的mask，而语义分割需要事先知道动态物体的类别。本实施例利用事件相机动态物体分割的类别无关性，不需要事先标记动态物体的类别，只要是运动中的物体就能分割。

现有技术未对点云进行映射的体素滤波，语义地图占用内存较大。本实施例在语义建图阶段，通过线映射对较聚集的点云进行体素滤波，从而缩小地图所需的存储空间。

具体的，本实施例的一种基于多传感器融合的实时动态语义建图方法主要包括如下的四个并行部分：

语义分割部分：利用RGB图像与深度图结合进行语义分割。

事件相机部分：和RGB-D相机并行，区分出动态物体和静态背景。

SLAM部分：提取特征点，去除动态物体的特征点后利用SLAM算法计算相机位姿。

八叉树建图部分：利用语义分割结果，深度图像和相机位姿创建语义八叉树地图，同时通过线映射对点云进行体素滤波，优化地图的存储空间。

如图1所示，基于上述四个并行部分，本实施例的基于多传感器融合的实时动态语义建图方法，包括以下步骤：

步骤1、训练语义分割网络和动态物体分割网络。

在训练语义分割网络和动态物体分割网络时，首先采集预设数量的彩色图像、深度图像以及事件帧并标注。

将语义分割网络先基于公开数据集(例如SUNRGB-D数据集或NYUv2数据集)进行训练，训练后利用深度相机采集并标注的彩色图像和深度图像进行微调，得到的网络权重加载至语义分割网络，完成语义分割网络的训练。

将动态物体分割网络先基于合成数据集(例如ETH的合成数据)进行训练，训练后利用事件相机采集并标注的事件帧进行微调，得到的网络权重加载至动态物体分割网络，完成动态物体分割网络的训练。

本实施例进行网络训练时，先在公开或合成数据集上进行训练，后利用采集的数据进行网络迁移，降低数据采集压力。本实施例取语义分割网络为深度神经网络ESANet，且本实施例中提供的动态物体分割网络的一种网络结构如图2所示，由输出侧至输入侧包括依次连接的卷积层(卷积核大小5*5，通道数8，步长2)、卷积层(卷积核大小5*5，通道数16，步长2)、卷积层(卷积核大小5*5，通道数32，步长2)、深度卷积层(卷积核大小5*5，通道数16，步长2)、深度卷积层(卷积核大小5*5，通道数8，步长2)和深度卷积层(卷积核大小5*5，通道数2，步长2)。

步骤2、获取目标环境的彩色图像、深度图像以及事件帧，基于时间戳匹配图像，得到彩色图像序列、深度图像序列和事件帧序列。

本实施例通过RGB-D相机获取设定帧数的目标环境彩色图像、深度图像，通过事件相机获得事件并处理成事件帧；基于时间戳匹配图像，获得彩色图像序列、深度图像序列、事件帧序列。

与传统的基于帧的相机相比，事件相机可以以几乎无限的帧速率捕捉亮度变化，并记录特定时间点和图像位置的事件。特别是对于移动场景，事件相机在数据速率、速度和动态范围方面具有很大的优势。目前较新的事件相机比如DAVIS(Dynamic andActive-pixel Vision Sensor,主动像素视觉传感器)，带有IMU(Inertial MeasurementUnit,惯性测量单元)模块，IMU可以测量三轴的线加速度和角速度，常常用来获取相机的三维运动信息。

其中，将事件相机获得的事件处理成事件帧的过程为：基于事件相机采集事件序列，事件序列为(x,y,p,t)，其中(x,y)为事件坐标，p为正负极性，正极性表示当前时刻的光强比上一时刻的光强更强，且变化超过一定阈值；反之负极性表示光强变弱；t表示当前事件的时间信息；设置时间窗(本实施例中时间窗取5ms)，按时间窗的长度将事件序列转为事件帧，转换得到的事件帧分为三通道：

将所有p为正极性的事件累加，每个(x,y)位置处的累计事件个数作为(x,y)坐标处的像素值，得到事件帧的第一通道。

将所有p为负极性的事件累加，每个(x,y)位置处的累计事件个数作为(x,y)坐标处的像素值，得到事件帧的第二通道。

将平均时间面作为事件帧的第三通道，时间窗内每个(x,y)位置处的累计事件数(包含正负极性)为I_x,y，则平均时间面为

其中∑t为累计事件中每个事件的时间信息之和。

在其他实施例中，为了提高事件帧的准确度，还可以在计算出事件帧后，对事件帧进行运动补偿计算。设第i个事件点的坐标为g_i，时间信息为t_i，则运动补偿后的坐标为

其中π₀指相机映射模型，由相机坐标系映射到像素坐标系，Z(g_i)指g_i处，时间t_i时的深度；

指时间t_i到t_k的相机位姿变换，t_k为第k个事件点的时间信息，且第k个事件点可以是第i个事件点的上一个事件点。

步骤3、提取彩色图像序列中每一帧彩色图像的特征点，得到第一特征点集，通过语义分割网络对彩色图像序列和深度图像序列逐帧进行语义分割，得到各帧的语义分割结果，语义分割结果包括彩色图像的语义mask和置信度。

为了便于提取，本实施例中取特征点为ORB特征点，容易理解的是，ORB特征点为本实施例中优选使用的特征点类型，在其他实施例中ORB特征点可用其他角点特征代替，也可用基于神经网络学习的特征点(例如SuperPoint)代替。

本实施例在语义分割方面，结合RGB图像的纹理信息和深度图的深度信息进行语义分割，并采用tensorRT优化网络，可在NX板上实时语义建图。

步骤4、通过动态物体分割网络对事件帧序列逐帧进行动态物体分割，得到各帧的动态物体区域，基于第一特征点集去除各帧动态物体区域内的特征点，得到第二特征点集。

同样的，在去除各帧动态物体区域内的特征点时，去除这个区域内的ORB特征，在其他实施例中ORB特征点可用其他角点特征代替，也可用基于神经网络学习的特征点(例如SuperPoint)代替。

本实施例在判断动态物体方面，利用事件相机的独特优势，对光线的变化具有鲁棒性，且不会因为动态物体的运动而产生运动模糊及重影。利用动态分割网络，能在复杂背景中较稳定地分割出动态物体。并且不需要利用语义分割的mask来判断动态物体区域，具有类别无关性，不需要事先训练动态物体的类别，只要是运动中的物体就能分割。

步骤5、将第二特征点集中的每一帧与前一帧的特征点进行特征匹配，并结合非线性优化方法得到全局最优相机位姿序列。

本实施例中跟踪和建图模块建立在ORB-SLAM3框架上，由三个并行线程组成：跟踪线程、局部建图和回环检测线程。RGB图像和深度图像被输入到系统中，在跟踪线程中提取RGB图像的ORB特征和特征点的描述子，通过在局部地图中找到匹配的特征点并且计算基础矩阵F或单应矩阵H，使用光束法平差(BA)来最小化重投影误差，进而估计相机的位姿。

需要说明的是，ORB-SLAM3框架中的全局BA和回环检测步骤不是必须，可通过去除这两部分达到加速。另外，不一定要用ORB-SLAM3框架，通过计算单应矩阵H或基础矩阵F，从而得到相机位姿都是可行的方法。

步骤6、基于语义分割结果、全局最优相机位姿序列和深度图像完成语义八叉树建图。

步骤6a：点云计算：取归属于同一帧的语义分割结果、全局最优相机位姿和深度图像；根据全局最优相机位姿和深度图像将语义分割结果映射至三维坐标系，得到三维坐标点。

语义分割结果为二维图像，需要把语义映射到三维坐标系。具体映射过程为：取语义分割结果中一个像素的二维坐标点P为(u,v)；根据深度图像得到二维坐标点(u,v)处的深度信息为Z；根据相机内参(f_x,f_y,c_x,c_y)得到二维坐标点(u,v)转换到相机坐标系下的三维坐标点P_c为

然后经过全局最优相机位姿(R,t)变换得到世界坐标系下的三维坐标点P_W＝RP_c+t，其中R为旋转矩阵，t为平移向量。其中f_x，f_y分别为x方向、y方向的焦距，c_x，c_y分别为光轴对于投影平面坐标中心的偏移量。

步骤6b：点云体素滤波部分：对三维坐标点进行体素滤波。

本实施例在进行体素滤波时，首先设置最大搜索半径和映射半径，由于搜索较远的点来建立八叉树时计算开销较大，因此本实施例限制最大搜索半径为5米(可自由调整)。由于距离原点较远的点会比距离较近的点更稀疏，体素滤波不能统一控制，因此设定一个映射半径为2米(可自由调整)。

本实施例将与原点的距离大于最大搜索半径的三维坐标点丢弃，在映射半径内的点不需要滤波，直接插入八叉树地图。而在映射半径到最大搜索半径之间的点云需要进行体素滤波，具体为按照原点到该点的方向向量，把它们投影到映射半径内。

如图3所示，映射时按照当前点至原点的方向进行映射，即沿着原点至当前点的射线方向的反向，按照一定比例缩小当前点与原点之间的距离，将当前点映射至映射半径内。投影到映射半径范围内时，这些点会更密集，能更有效地进行体素滤波。因此对投影点进行体素滤波，然后再映射回它们原来的位置。这样就可节省掉部分存储空间。

本实施例对映射至映射半径内的三维坐标点进行体素滤波，并将体素滤波后保留的三维坐标点映射至其原来的位置，最后取原始位于映射半径内的三维坐标点以及体素滤波后保留的三维坐标点作为最终的体素滤波后的三维坐标点。

在映射时可以以固定比例(例如0.4倍)进行映射，还可以是给定一个分辨率resolution，然后计算原点到当前点的方向向量direction，则映射时用原点坐标+direction*(映射半径+resolution*2)的方式计算当前点映射后的点的坐标，该映射方式更加合理，有利于提升滤波效果。

实验例中307200个点滤波之后仅剩26596个点，可见本实施例在语义建图阶段，通过线映射对点云进行体素滤波，可以显著缩小语义地图所需的存储空间。

步骤6c：语义融合部分：同一三维坐标点在后续帧中可能会被判断为同一语义，也可能会被判断为不同语义，这时就需要对该三维坐标点做语义融合。通常语义融合有贝叶斯融合法和最大值融合法两种方法，为减少计算开销，本实施例采用最大值融合法。

最大值融合法：如果三维坐标点的语义和上一帧语义相同，那么融合后仍为同一语义，但是置信度取两者的平均值，即conf＝(conf1+conf2)/2；如果语义不同，取置信度较大的语义，置信度取较大置信度的90％(可调整)。

具体的，采用最大值融合法进行语义融合，包括以下步骤：

a、对动态物体和静态背景分开标记：根据所述动态物体分割网络的分割结果确定当前图像中的动态物体区域，根据所述语义分割网络的分割结果判断所述动态物体区域中是否分割出物体，若未分割出物体，则标记该动态物体区域为静态背景并执行步骤d；若分割出物体，则进行下一步。

b、计算动态物体区域与所述语义分割网络所分割出的物体所在区域的交并比(IOU)，若交并比大于等于阈值(例如IOU>＝40％(比例可调整))，则标记动态物体区域与所述语义分割网络所分割出的物体所在区域的并集为动态目标；否则标记动态物体区域为动态目标。

c、将动态目标中的三维坐标点与上一帧相同三维坐标点处的语义进行匹配，当相同位置的三维坐标点首次匹配到静态背景点时，利用静态背景点的语义替换该三维坐标点的语义，并且在后续的匹配中，若与上一帧相同位置的语义相同，则语义不变，且该位置的置信度为两者的平均值；若与上一帧相同位置的语义不同，则取置信度较大的语义替换该三维坐标点的语义，且置信度取较大置信度的预设倍数，该预设倍数为0～1之间，优选取0.9，可根据实际需求调整。

本实施例针对动态目标的三维坐标点在后续帧中匹配到静态背景点时，将动态物体点的语义更新为静态背景点的语义，但静态背景点的语义不更新到动态物体点的语义。并且动态目标语义首次更新为静态背景点的语义时，直接用静态语义替换，后续用语义融合的方法进行更新，以此实现八叉树地图中语义的持续融合。

本实施例执行八叉树地图中语义的持续融合时根据当前帧的三维坐标点和上一帧的三维坐标点的语义进行持续性语义融合，这里的上一帧应理解为进行语义融合后的上一帧，从而始终保持最准确的语义。在实时动态语义建图中，根据每一帧的语义分割结果、全局最优相机位姿和深度图像进行语义建图。

在其他实施例中，对计算开销要求小的情况下，也可以将最大值融合法换成贝叶斯融合法，本实施例基于贝叶斯融合法进行语义融合时，将语义分割网络输出的针对各像素的语义信息进行分类的分类结果进行重新划分，将置信度最高的第一类和第二类作为新的第一类和新的第二类，将剩余类别作为新的第三类，基于重新划分后的三类进行语义融合。

由于常规的贝叶斯融合法实施时不仅仅依靠当前帧去更新置信度，而是还需要保存连续几帧的语义信息，让它们的置信度进行element-wise乘，然后归一化得到融合的语义图。本实施例为了降低贝叶斯融合法的计算开销，对类别进行重新划分，只储存为3类的语义信息，label1，label2和others，基于三类进行element-wise乘，然后归一化的操作。

通常语义分割会有几十到几百个类别，如果全部保存，则每个点都需要保存几十个类别和每个类别的概率，而在相乘时每个类别都要乘，导致计算量很大。本实施例优化后只保存3种类别，占用内存空间小，相乘时计算量较小。

本实施例中提及的贝叶斯融合法和最大值融合法均基于语义分割网络的语义分割(分类)结果。贝叶斯融合法和最大值融合法的区别是：最大值融合法只用到前后两帧的信息；而贝叶斯融合法用了连续几帧的信息，把连续几帧的语义分割结果的每个像素的置信度相乘，然后归一化得到的结果。而本实施例中提供的优化后的贝叶斯融合法中置信度相乘和归一化步骤不变，但储存的类别变少了，从100多类变成了3类，因此参与相乘的类别也少了，计算量变小，从而得到优化。

需要说明的是，若步骤4中动态物体分割网络针对某一事件帧进行动态物体分割时未分割出动态物体区域，则无需去除第一特征点集内的当前帧的特征点，直接基于第一特征点集内当前帧的特征点进行步骤5中的特征匹配即可。

在另一个实施例中，提供一种基于多传感器融合的实时动态语义建图系统，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于多传感器融合的实时动态语义建图方法的步骤。

关于基于多传感器融合的实时动态语义建图系统的具体限定可以参见上文中对于基于多传感器融合的实时动态语义建图方法的限定，在此不再赘述。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的基于多传感器融合的实时动态语义建图方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于多传感器融合的实时动态语义建图方法，其特征在于，所述基于多传感器融合的实时动态语义建图方法，包括：

步骤1、训练语义分割网络和动态物体分割网络；

2.如权利要求1所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述训练语义分割网络和动态物体分割网络，包括：

3.如权利要求1所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述事件帧的获取如下：

4.如权利要求1所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述基于语义分割结果、全局最优相机位姿序列和深度图像完成语义八叉树建图，包括：

对三维坐标点进行体素滤波；

5.如权利要求4所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述根据全局最优相机位姿和深度图像将语义分割结果映射至三维坐标系，得到三维坐标点，包括：

取语义分割结果中一个像素的二维坐标点P为(u,v)；

根据深度图像得到二维坐标点(u,v)处的深度信息为Z；

6.如权利要求4所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述对三维坐标点进行体素滤波，包括：

设置最大搜索半径和映射半径；

将与原点的距离大于最大搜索半径的三维坐标点丢弃；

7.如权利要求4所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述语义融合为最大值融合法或贝叶斯融合法。

8.如权利要求7所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述语义融合为最大值融合法，则所述取体素滤波后的三维坐标点进行语义融合，包括：

9.如权利要求7所述的基于多传感器融合的实时动态语义建图方法，其特征在于，所述语义融合为贝叶斯融合法，则所述取体素滤波后的三维坐标点进行语义融合，包括：

10.一种基于多传感器融合的实时动态语义建图系统，包括处理器以及存储有若干计算机指令的存储器，其特征在于，所述计算机指令被处理器执行时实现权利要求1至权利要求9中任意一项所述基于多传感器融合的实时动态语义建图方法的步骤。