CN115345932A

CN115345932A - 一种基于语义信息的激光slam回环检测方法

Info

Publication number: CN115345932A
Application number: CN202210734017.4A
Authority: CN
Inventors: 丁大伟; 李健; 安翠娟; 王恒; 任莹莹; 孙新苗; 爨朝阳; 程乐
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-15

Abstract

本发明公开了一种基于语义信息的激光SLAM回环检测方法，包括：对当前环境下的激光点云进行球面投影，并获取投影后所生成的二维图像中每个点的深度信息；通过全卷积神经网络进行语义分割，并利用获得的语义标签生成权重矩阵；通过滑动窗口将权重矩阵聚集及旋转，生成具有旋转不变性的全局描述符；构建Kd‑Tree对历史帧进行搜索，根据时间阈值及距离阈值获取候选帧；利用全局描述符获取两帧点云的角度差，并通过具有初始角度的ICP算法进行几何验证，确定最终的回环帧，得到闭环位置。本发明解决了现有技术利用纯激光进行回环检测时，没有充分利用环境语义信息，导致算法效率偏低的问题。

Description

一种基于语义信息的激光SLAM回环检测方法

技术领域

本发明涉及同时定位与地图构建SLAM技术领域，特别涉及一种基于语义信息的激光SLAM回环检测方法。

背景技术

近年来，随着机器人产业的高速发展，极大的便利了人们的日常生活，提高了人们的生活质量。机器人实现自主移动的关键在于同时定位与地图构建技术(SLAM)，即在陌生环境中，从未知位置开始，通过自身携带的传感器采集距离等信息，完成定位过程并构建环境地图。相较于GPS，SLAM可以应用于更小的环境，使用限制更少，因此一直是机器人领域的研究热点。

采用SLAM算法对环境地图进行构建时，机器人会按照时间，将每一时刻传感器采集到的图像或激光信息进行匹配，从而建立一幅完整的地图。但随着机器人的不断移动以及环境因素的干扰，在地图构建过程中，无时不刻都存在着误差的积累，虽然很多算法都会对其进行实时矫正，但误差的积累仍是无可避免的。因此，回环检测就显得十分重要，回环检测用于检测机器人是否回到曾经到达过的同一位置，以对之前的累积误差进行一次大规模的修正，极大的提高机器人的定位精度以及地图构建的准确程度。

激光SLAM中，最常用的回环检测方式是KD-Tree来进行位置搜索，再采用ICP算法来获取当前帧与历史帧之间的匹配分数，从而确认回环帧并加入优化环节，相对耗时较多。为了更高效的实现回环检测功能，往往采用构建全局描述符的方式，全局描述符为一帧点云构建成的特征向量，对描述符进行匹配可以节省大量时间，匹配完成后需要再进行几何验证，防止错误匹配带来的更大误差，但提取出的描述符往往只能用于回环检测过程，无法进一步提升SLAM算法的运行效率。因此，目前现有的SLAM算法利用纯激光进行回环检测时，由于没有充分利用环境语义信息，存在算法效率偏低的问题。

发明内容

本发明提供了一种基于语义信息的激光SLAM回环检测方法，以解决目前SLAM算法利用纯激光进行回环检测时，没有充分利用环境语义信息导致算法效率偏低的技术问题，从而实现高效快速的回环检测。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供一种基于语义信息的激光SLAM回环检测方法，包括：

对当前环境下的激光点云中的激光点进行球面投影，得到投影后所生成的二维图像，并获取投影后所生成的二维图像中的每个点的深度信息；

通过预设的全卷积神经网络对所述二维图像进行语义分割，得到所述二维图像中每个点的语义标签，并利用获得的语义标签生成权重矩阵；

通过滑动窗口将权重矩阵聚集及旋转，生成具有旋转不变性的全局描述符；

构建Kd-Tree对历史帧进行搜索，通过度量当前帧和历史帧的全局描述符之间的距离及当前帧和历史帧的间隔时间，根据时间阈值及距离阈值获取候选帧；

利用全局描述符获取两帧点云的角度差，并通过具有初始角度的ICP算法进行几何验证，从所述候选帧中确定最终的回环帧，得到闭环位置。

进一步地，所述对当前环境下的激光点云中的激光点进行球面投影，得到投影后所生成的二维图像，并获取投影后所生成的二维图像中的每个点的深度信息，包括：

通过当前帧激光点坐标，对当前环境下的激光点云中的每个激光点进行球面投影，得到投影后所生成的二维图像，实现坐标的降维；其中，投影公式为：

式中，u和v分别为投影后的二维图像中点的横纵坐标，x、y、z分别为激光点在当前坐标系下的坐标，R为激光雷达测量的距离，FOV表示所用的机械激光雷达的线数，FOV_up表示激光雷达位于上半部的线数，row_size及col_size分别表示激光雷达一次扫描可获得的点的行数以及每行采集到的激光点数；

对投影后获得的二维图像，计算每个点的深度并进行规范化，得到最终的深度信息；其中，计算每个点的深度并进行规范化的公式为：

式中，Range为深度信息，max_Range为当前帧点云最远距离。

进一步地，所述预设的全卷积神经网络以Darknet53框架为骨架，采用编码-解码结构，包括残差块、卷积块以及反卷积块；其中，

编码器的输出特征与解码器中相应的输出特征进行跳跃链接；

每个残差块由两个卷积块构成，每个卷积块由一个卷积层、批量标准化及激活函数构成，每个残差块中的两个卷积块的卷积核大小、步长以及填充分别为1x1、1x1、0及3x3、1x1、1，激活函数采用LeakyRelu函数；每个单独卷积块用于实现水平方向上的下采样，其卷积核大小为3x3，步长为1x2，填充为1；

编码过程中，输入通过一个残差块后，进入第一个卷积块，后续顺序连接两个残差块、第二个卷积块、八个残差块、第三个卷积块、八个残差块、第四个卷积块以及四个残差块，通过编码后，水平方向分辨率缩小为原来的十六分之一；解码过程采用四个反卷积块，每通过一个反卷积块，水平方向分辨率变为原来的二倍；将图像反卷积至原分辨率后，采用1x1卷积，生成通道数为M的输出，在此基础上进行Softmax操作，得到每个像素点的概率分布；其中，M为所划分类别数量；训练过程采用随机梯度下降以及加权交叉熵作为损失函数。

进一步地，所述LeakyRelu函数的表达式为：

y_Activate＝max(0,x_Activate)+leak*min(0,x_Activate)

式中，leak为一个常数，x_Activate为激活函数输入，y_Activate为函数输出；

Softmax函数的表达式为：

式中，

表示分类概率，logits_c表示类别c的输出概率值；

损失函数的表达式为：

式中，L表示损失函数值，N为样本数量，y_c表示当前分类是否正确，若分类正确，则y_c取1，若分类不正确，则y_c取0，i表示第i个样本。

进一步地，通过预设的全卷积神经网络对所述二维图像进行语义分割，得到二维图像中每个点的语义标签，并利用获得的语义标签生成权重矩阵，包括：

通过预设的全卷积神经网络对所述二维图像进行语义分割，得到所述二维图像中每个点的语义标签；按照标签概率以及标签类别进行加权处理，生成权重矩阵；其中，权重生成公式为：

式中，w表示权重值，

为预先设置的类别权重，p_c表示点类别的概率值。

进一步地，所述通过滑动窗口将权重矩阵聚集及旋转，生成具有旋转不变性的全局描述符，包括：

对所述权重矩阵每列权重进行叠加，将行数降维为一；

对降维后的权重矩阵，采用滑动窗口，再次进行降维，并进行规范化处理，生成描述符每一维的值，得到特征描述符；

将得到的特征描述符进行旋转处理，将最大权值旋转到矩阵初始位置，并记录旋转维数；生成具有旋转不变性的全局描述符。

进一步地，所述生成描述符每一维的值的计算公式为：

式中，j表示当前计算维度，w_j表示降维后权重矩阵第j维的值，n为窗口大小，desc_max为生成描述符最大维度的值。

进一步地，所述度量当前帧和历史帧的全局描述符之间的距离时，距离度量采用L₁距离，公式为：

式中，dis为计算出的距离值，dim为描述符维度，

表示当前帧的全局描述符第j维的值，

表示历史帧的全局描述符第j维的值。

进一步地，利用全局描述符获取两帧点云的角度差并通过具有初始角度的ICP算法进行几何验证，从候选帧中确定最终的回环帧，得到闭环位置，包括：

通过具有初始角度的ICP算法进行几何验证，且只对具有相同分类标签的激光点，按照权重从高到低进行匹配，当候选帧对应的ICP得分超过预设阈值时，确认当前候选帧为回环帧，得到闭环位置。

进一步地，所述初始角度的估计来源于如下公式：

式中，A表示初始角度的估计值，Shift_num_cur表示当前帧的描述符旋转维数，Shift_num_his表示历史帧的描述符旋转维数，dim为描述符维度。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

1、与目前现有的激光SLAM的回环检测方法相比，本发明方法充分利用了激光点云投影之后的深度图像以及每帧激光点云中的语义信息。一方面采用语义为激光点云进行加权，有效降低了动态障碍物在配准过程中造成的干扰，另一方面利用投影后的矩阵生成全局描述符，减少中间过程的冗余部分，无需使用额外的方法生成特征并进行匹配，有效提升了SLAM算法的实时性。

2、本发明的激光SLAM回环检测方法，利用语义对激光点云进行分割，从而生成具有旋转不变性的描述符，充分利用了空间信息，利用L1距离进一步加快了寻找闭环帧的速度。描述符本身具有角度信息，利用两帧点云生成的描述符，为点云配准算法提供初始的角度估计，进一步提升了回环检测效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于语义信息的激光SLAM回环检测方法的执行流程示意图；

图2是本发明实施例提供的三维激光点云投影过程示意图；

图3是本发明实施例提供的语义分割网络结构图；

图4是本发明实施例提供的描述符提取过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

随着深度学习的发展，越来越多的图像处理方式被引入到了激光点云的处理过程中，为激光SLAM的回环检测模块提供了新思路。激光雷达采集的信息虽然不像图像具有纹理特征，但激光雷达本身测量的距离信息也可以转变成为深度信息，从而将一帧激光点云近似为图像进行处理。通过深度信息，便可以利用深度学习提取更为深层的语义信息，并利用激光点的语义标签生成全局一致的描述符，用于回环检测及点云配准过程。基于此，针对目前激光SLAM回环检测部分实时性相对较低，且无法充分利用特征描述符所包含的信息的问题，本实施例提供了一种基于语义信息的激光SLAM回环检测方法，以解决激光回环检测效率偏低的问题，进一步优化算法的实时性。

该方法可以由电子设备实现。该方法执行流程如图1所示，包括以下步骤：

S1，对当前环境下的激光点云中的激光点进行球面投影，得到投影后所生成的二维图像，并获取投影后所生成的二维图像中的每个点的深度信息；

具体地，在本实施例中，上述S1包括以下步骤：

S11，通过当前帧激光点坐标对当前环境下的激光点云中的每个激光点进行球面投影，得到投影后生成的二维图像，实现坐标的降维；

其中，投影过程如图2所示，具体过程为：将激光点进行球面投影，将三维激光点云投影为尺寸为64x1024大小的二维图，具体投影公式为：

式中，u和v分别为投影后的二维图像中点的横纵坐标，x、y、z分别为激光点在当前坐标系下的坐标，R为激光雷达测量的距离，FOV表示所用的机械激光雷达的线数，本实施例中为64，FOV_up表示激光雷达位于上半部的线数，本实施例中为32，row_size及col_size分别表示激光雷达一次扫描可获得的点的行数以及每行采集到的激光点数；其中，每行在最差的情况下可以获得1028个点，此处为方便后续的语义分割，分别设置为64和1024。

S12，对投影后获得的二维图像，计算每个点的深度并进行规范化，得到最终的深度信息；其中，计算每个点的深度并进行规范化的公式为：

式中，Range为深度信息，max_Range为当前帧点云最远距离。

S2，通过预设的全卷积神经网络对所述二维图像进行语义分割，得到所述二维图像中每个点的语义标签，并利用获得的语义标签生成权重矩阵；

具体地，在本实施例中，预设的全卷积神经网络如图3所示，其中，In为输入二维图，本实施例为64x1024x4的张量，Conv为卷积块，RB为残差块，DeConv为反卷积块，OUT为输出结果，存储对像素的分类结果。该模型以Darknet53框架为骨架，采用编码-解码结构，主要由残差块、卷积块以及反卷积块构成；其中，编码器的输出特征与解码器中相应的输出特征进行跳跃链接。

编码过程中，本实施例中输入为64x1024x4的张量，4个通道分别为深度以及空间上的三个坐标，输入通过一个残差块后，进入第一个卷积块，后续顺序连接两个残差块、第二个卷积块、八个残差块、第三个卷积块、八个残差块、第四个卷积块以及四个残差块，通过编码后，水平方向分辨率缩小为原来的十六分之一，本实施例生成大小为64x64x1024的输出向量。

解码过程采用四个反卷积块，每通过一个反卷积块，水平方向分辨率变为原来的二倍；将图像反卷积至原分辨率后，采用1x1卷积，生成通道数为M的输出，在此基础上进行Softmax操作，得到每个像素点的概率分布；其中，M为所划分类别数量，本实施例中为14。

训练过程采用随机梯度下降以及加权交叉熵作为损失函数。

进一步地，LeakyRelu函数的表达式为：

y_Activate＝max(0,x_Activate)+leak*min(0,x_Activate)

式中，leak表示一个很小的常数，本实施例中取0.1，x_Activate为激活函数输入，y_Activate为函数输出；

Softmax函数的表达式为：

式中，

表示分类概率，logits_c表示类别c的输出概率值；

损失函数的表达式为：

上述S2中，在得到语义标签后，按照其标签概率以及其标签类别进行加权处理，生成权重矩阵；其中，权重生成公式为：

式中，w表示权重值，

为预先设置的类别权重，p_c表示点类别的概率值。

具体地，在本实施例中，划分标签类别为14类，包括：异常点、车辆(自行车、摩托、轿车、卡车、巴士)、行人、道路、建筑、灌木、树木、栏杆、交通信号、柱状物体，将标签按照从静态到动态，从空间中到地面，将点的权重由高到低分为5类，分别设置从0.4到0的权重。

S3，通过滑动窗口将权重矩阵聚集及旋转，生成具有旋转不变性的全局描述符；

具体地，在本实施例中，上述S3包括以下步骤：

S31，对所述权重矩阵每列权重进行叠加，将行数降维为一；

S32，对降维后的权重矩阵，采用滑动窗口，再次进行降维，并进行规范化处理，生成描述符每一维的值，得到特征描述符；

其中，生成描述符每一维的值的计算公式为：

式中，j表示当前计算维度，w_j表示降维后权重矩阵第j维的值，n为窗口大小，desc_max为生成描述符最大维度的值。本实施例将窗口大小设置为8，步长设置为8，本实例最终生成1x128维描述符，如图4所示。

S33，将得到的特征描述符进行旋转处理，将最大权值旋转到矩阵初始位置，并记录旋转维数；生成具有旋转不变性的全局描述符。

S4，构建Kd-Tree对历史帧进行搜索，通过度量当前帧和历史帧的全局描述符间的距离及当前帧和历史帧的间隔时间，根据时间阈值及距离阈值获取候选帧；

具体地，在本实施例中，度量当前帧和历史帧的全局描述符之间的距离时，距离度量采用L₁距离，公式为：

式中，dis为计算出的距离值，dim为描述符维度，

表示当前帧的全局描述符第j维的值，

表示历史帧的全局描述符第j维的值。

具体地，本实施例将时间设置为30s，取距离最近的20帧作为候选帧。

S5，利用全局描述符获取两帧点云的角度差，并通过具有初始角度的ICP算法进行几何验证，从所述候选帧中确定最终的回环帧，得到闭环位置。

具体地，在本实施例中，上述S5中，通过具有初始角度的ICP算法进行几何验证，且只对具有相同分类标签的激光点，按照权重从高到低进行匹配，当候选帧对应的ICP得分超过预设阈值时，确认当前候选帧为回环帧，得到闭环位置。其中，本实施例中，预设阈值取0.1，初始角度的估计来源于如下公式：

综上，本实施例充分利用了激光点云投影之后的深度图像以及每帧激光点云中的语义信息。一方面采用语义为激光点云进行加权，有效降低了动态障碍物在配准过程中造成的干扰，另一方面利用投影后的矩阵生成全局描述符，减少中间过程的冗余部分，无需使用额外的方法生成特征并进行匹配，有效提升了SLAM算法的实时性。本实施例的回环检测方法利用语义对激光点云进行分割，从而生成具有旋转不变性的描述符，充分利用了空间信息，利用L1距离进一步加快了寻找闭环帧的速度。描述符本身具有角度信息，利用两帧点云生成的描述符，为点云配准算法提供初始的角度估计，进一步提升了回环检测效率。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。