CN116643291A

CN116643291A - 一种视觉与激光雷达联合剔除动态目标的slam方法

Info

Publication number: CN116643291A
Application number: CN202310618763.1A
Authority: CN
Inventors: 许志华; 彭苏萍; 武静; 李元元; 王泽杰; 彭远航
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-25

Abstract

本发明提出了一种视觉与激光雷达联合剔除动态目标的SLAM方法，包括：获取高动态环境下的激光扫描点云和图像；获取图像中的实际动态目标，以及激光扫描点云中的动态目标的点云；将动态目标的点云，投影至图像，将落在实际动态目标内的点云剔除；基于剔除后的激光扫描点云，进行实时定位和地图构建。利用本发明去除动态物体后，SLAM系统在动态场景中可以保持很高的鲁棒性，实现准确地定位和建图。

Description

一种视觉与激光雷达联合剔除动态目标的SLAM方法

技术领域

本发明属于移动机器人自主定位技术领域，尤其涉及一种视觉与激光雷达联合剔除动态目标的SLAM方法。

背景技术

同时定位与地图构建问题(Simultaneous Localization and Mapping，SLAM)技术是当前移动机器人自主移动主要的技术之一，首先把机器人放置在未知的环境里，从未知的起点动身，利用一些多次观测的地图特征来实现自身的定位和姿态识别，再依据自身位置构建地图，通过自我运动测量和闭环检测来构建整体一致的环境表示。

激光SLAM是近年来SLAM领域最为活跃的研究方向之一，它指的是移动机器人通过搭载激光雷达传感器估量本身位姿，进而感知四周的情况建图的过程。激光SLAM以激光雷达点云为输入，其优势在于较为稳定、不受光照影响，可靠性高，且可以直接获取环境中物体的深度信息，建图直观、精度高。在现有的激光SLAM方法中，最常见的是基于模型的迭代匹配方法，通过最小化连续激光雷达扫描中最近点的距离来计算两帧雷达数据间的坐标变换，获取机器人位姿，例如经典的LOAM、LEGO-LOAM等。

但是这些激光SLAM系统和点云配准方法普遍基于静态环境假设,即背景中没有移动的物体。然而现实中自动驾驶场景往往是动态的，环境中存在大量如行人、车辆等可移动的物体，当大部分特征点落在运动物体上时，会导致点云配准精度下降，影响定位和建图的准确性。因此，提高动态环境下SLAM的性能是十分必要的。解决上述问题的一种思路是构建一个只包含静态对象的地图，即从点云地图中剔除移动的对象点。例如SUMA++基于面元(surful)表示，将当前时刻的三维点云投影为二维顶点图与法线图，对顶点图采用RangeNet++方法进行语义分割，在点云配准时添加语义权重的约束，实现语义ICP。并根据面元的语义标签完成动态物体去除，检测当前帧与世界模型语义标签的一致性，检测出运动物体后进行剔除。但是此类方法在高动态环境中会失效，因为移动目标的去除依赖于精确的姿态，而精确的姿态必须在去除动态物体后才能得到。因此，如何在高动态场景中寻找更稳健的定位和建图方法是SLAM算法应用时需要解决的一个关键问题。

发明内容

为解决上述技术问题，本发明针对高动态环境的特点，开展基于激光视觉融合的SLAM技术研究，提出一种视觉与激光雷达联合剔除动态目标的SLAM方法，该方法基于激光和视觉传感器，综合运用激光和图像数据，克服激光传感器环境特征不明显、色彩信息缺乏的缺点，弥补视觉传感器对光照变化或低纹理环境敏感的不足。通过将SLAM与深度学习相结合，确定建图与定位过程中的动态目标，将高动态环境下的SLAM问题转换为静态环境的SLAM问题，有效消除动态目标的影响，在动态环境下极大地提高了定位与建图的精度与鲁棒性。

为实现上述目的，本发明提供了一种视觉与激光雷达联合剔除动态目标的SLAM方法，包括：

获取高动态环境下的激光扫描点云和图像；

获取所述图像中的实际动态目标，以及所述激光扫描点云中的动态目标的点云；

将所述动态目标的点云，投影至所述图像，将落在所述实际动态目标内的点云剔除；

基于剔除后的所述激光扫描点云，进行实时定位和地图构建。

可选地，获取所述图像中的实际动态目标包括：

基于深度学习方法，获取所述图像中的动态目标备选区域；

对所述动态目标备选区域进行判别，获取实际动态目标。

可选地，获取所述图像中的动态目标备选区域包括：

对所述图像进行目标识别，将不同种类的物体分割出来，获得目标检测框及类别标签、目标位置，其中，将动态物体类别作为所述动态目标备选区域；所述动态物体类别为：类别标签包括车辆、行人、自行车的物体。

可选地，对所述动态目标备选区域进行判别包括：

获取所述图像中静态区域的ORB特征点；其中，所述静态区域为所述图像中除所述动态目标备选区域以外的区域；

对所述静态区域的ORB特征点进行前后帧特征匹配，获取两帧图像的单应性矩阵；

基于所述单应性矩阵，将前一帧动态目标备选区域的特征点变换到当前帧，计算投影误差，获取运动特征点；

当所述动态目标备选区域中的所述运动特征点，大于预设阈值时，判定所述动态目标备选区域为所述实际动态目标，否则，判定所述动态目标备选区域为静态目标。

可选地，获取所述图像中静态区域的ORB特征点包括：

对所述图像进行直方图均衡化处理；

对处理后的所述图像提取ORB特征点；

删除所述动态目标备选区域内的ORB特征点，获取所述图像中静态区域的ORB特征点。

可选地，对所述ORB特征点进行前后帧特征匹配包括：

基于所述图像中静态区域的ORB特征点，计算相邻帧间特征点间的汉明距离确定匹配度，获取特征点匹配对。

可选地，获取两帧图像的单应性矩阵包括：

设前后帧图像l₁，l₂共m对匹配好的特征点，其中n个匹配对的特征点在两帧图像中均位于静态区域，对在两帧图像中均位于静态区域的相匹配的特征点，构建所述单应性矩阵；

所述单应性矩阵为：

p₁′＝Hp₁

其中，p₁，p₁′分别表示前一帧l₁和当前帧l₂的特征点及匹配点，H表示p₁，p₁′之间变换关系，记为单应性矩阵。

可选地，获取所述运动特征点包括：

利用单应性矩阵H，将前一帧l₁中所有的特征点投影至当前帧l₂，获得重投影后坐标；

基于所述重投影后坐标，计算相匹配的特征点的重投影误差；其中，所述重投影误差包括：静态区域特征点重投影误差及非静态区域特征点重投影误差；

计算静态区域的重投影误差均值；

遍历动态目标备选区域的特征点匹配对，当动态目标备选区域的特征点的重投影误差大于静态区域的所述重投影误差均值时，判定其匹配点为所述运动特征点，否则，判定其匹配点为静态特征点。

可选地，所述重投影误差为：

其中，(x₁，y₁)表示图像l₁中的特征点p₁重投影至图像l₂后的坐标，(x′，y′)表示前一帧图像l₁中的特征点p₁在当前帧图像l₂中匹配点p₁′的坐标；

所述重投影误差均值为：

其中，ε₁、ε₂、ε_n分别表示第1个、第2个、第n个静态特征对的重投影误差。

可选地，将所述动态目标的点云，投影至所述图像所采取的方法为：

Y＝P*T_{velo_to_cam}*X

其中，X表示激光雷达坐标系下的点云坐标，Y表示相机坐标系下的像素坐标，T_{velo_to_cam}表示激光雷达到相机的标定参数，P表示相机到图像平面的投影矩阵。。

与现有技术相比，本发明具有如下优点和技术效果：

解决单一传感器在实际应用中受限于传感器性能，无法满足复杂多变且结构不稳定的高动态环境需求问题，充分利用图像和点云信息实现动态物体检测与消除。

利用本发明去除动态物体后，SLAM系统在动态场景中可以保持很高的鲁棒性，实现准确地定位和建图。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的YOLO-v5网络结构示意图；

图2为本发明实施例的一种视觉与激光雷达联合剔除动态目标的SLAM方法流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提出了一种视觉与激光雷达联合剔除动态目标的SLAM方法，包括：

获取高动态环境下的激光扫描点云和图像；

获取图像中的实际动态目标，以及激光扫描点云中的动态目标的点云；

将动态目标的点云，投影至图像，将落在实际动态目标内的点云剔除；

基于剔除后的激光扫描点云，进行实时定位和地图构建。

进一步地，获取图像中的实际动态目标包括：

基于深度学习方法，获取图像中的动态目标备选区域；

对动态目标备选区域进行判别，获取实际动态目标。

进一步地，获取图像中的动态目标备选区域包括：

将图像输入单阶段目标检测算法的深度学习网络，进行目标识别，将不同种类的物体分割出来，获得目标检测框，其中，动态物体类别作为动态目标备选区域。

进一步地，对动态目标备选区域进行判别包括：

获取图像中静态区域的ORB特征点；其中，静态区域为图像中除动态目标备选区域以外的区域；

对静态区域的ORB特征点进行前后帧特征匹配，获取两帧图像的单应性矩阵；

基于单应性矩阵，将前一帧非静态区域的特征点变换到当前帧，计算投影误差，获取运动特征点；

当动态目标备选区域中的运动特征点，大于预设阈值时，判定动态目标备选区域为实际动态目标，否则，判定动态目标备选区域为静态目标。

进一步地，获取图像中静态区域的ORB特征点包括：

对图像进行直方图均衡化处理；

对处理后的图像提取ORB特征点；

删除动态目标备选区域内的ORB特征点，获取图像中静态区域的ORB特征点。

进一步地，对ORB特征点进行前后帧特征匹配包括：

基于图像中静态区域的ORB特征点，计算相邻帧间特征点间的汉明距离确定匹配度，获取特征点匹配对。

进一步地，获取两帧图像的单应性矩阵包括：

设前后帧图像l₁，l₂共m对匹配好的特征点，其中n个匹配对的特征点在两帧图像中均位于静态区域，对在两帧图像中均位于静态区域的相匹配的特征点，构建单应性矩阵。

进一步地，获取运动特征点包括：

基于重投影后坐标，计算相匹配的特征点的重投影误差；其中，重投影误差包括：静态区域特征点重投影误差及非静态区域特征点重投影误差；

计算静态区域的重投影误差均值；

对非静态区域的特征点匹配对进行遍历，当非静态区域的特征点的重投影误差大于静态区域的重投影误差均值时，判定其匹配点为动态特征点，否则，判定其匹配点为静态特征点。

本实施例针对现有激光SLAM系统方法在高动态环境下动态点比例高、匹配精度低、轨迹精度不足等问题，设计了一种视觉与激光雷达联合剔除动态目标的SLAM方法。基于标定完成的激光与视觉传感器系统，本实施例首先对图像数据进行基于单阶段的目标检测，并采用ORB特征检测与匹配方法计算单应性模型，结合投影误差与目标检测结果获取图像中的动态目标。下一步将对应的点云数据投影至图像，利用图像中的动态目标筛选出点云中的静态点，后续可基于静态物体对应的激光扫描点构建地图。利用多传感器融合数据，实现了对周围环境中的运动目标的可靠检测与跟踪，剔除运动目标对SLAM的影响，提高激光里程计的定位精度。

本实施例的大体技术方案为：

S1.基于yolov5的多目标实时检测

首先基于已完成空间关系标定的激光与视觉传感器系统，通过激光雷达和相机分别获取环境的激光扫描点和图像。将获取的图像输入单阶段目标检测算法的深度学习网络，进行目标识别，将不同种类的物体分割出来，获得目标检测框及类别标签、目标位置，其中，当类别标签为可能移动的类别，如车辆、行人、自行车等，将该类动态物体类别作为所述动态目标备选区域。

S2.基于图像帧的动态目标确定

上一步骤得到图像中动态目标备选区域后，仍无法确定其真实运动状态，此部分利用单应性约束与目标检测实现动态目标的判别。具体步骤如下：

(1)单应性约束的动态点判别：基于输入的图像序列，首先在静态区域选取ORB特征点；前后帧特征匹配，计算得到两帧图像的单应性矩阵；利用求得的单应性矩阵将前一帧非静态区域的特征点变换到当前帧，计算投影误差，获取运动特征点。

(2)当一定数量的运动特征点落在目标检测框中，则认为该区域内对象正在移动，视作实际动态目标。

S3.基于激光视觉标定外参的动态点去除

基于输入的点云数据，进行欧式聚类，获取可能为动态目标的点云；利用激光视觉的标定参数，将此部分点云投影至图像；投影后位于图像中动态目标内的点云视为动态点，在特征提取前删除。

S4.仅基于静态物体的激光SLAM

在剔除动态物体后，利用仅含有静态物体的点云数据进行实时定位和地图构建。

下面详细说明本实施例的实现过程；

S1.基于yolov5的图像多目标实时检测

为了得到动态物体备选区域，利用相机采集图像帧，使基于深度学习的YOLO v5算法对场景中的各个区域进行目标检测。本实施例将“行人”“汽车”“自行车”视为动态环境中影响定位的主要目标，利用YOLO-v5目标识别方法获取这三种目标的语义信息和位置。YOLO-v5其网络结构如图1所示。

S2.基于图像帧的动态目标确定

通过深度学习方法可以预先将“行人”、“汽车”、“自行车”这类具有可移动性的对象分类为潜在的动态目标，但是无法判断其真实的运动状态。因此需要进行动态目标判别。整体流程图见图2，具体步骤如下：

步骤1：直方图均衡化。对视觉传感器采集的输入图像进行直方图均衡化处理，通过该处理增加相邻帧图像的局部对比度，实现对图像的增强，使得特征提取更加均衡，减少误匹配。

步骤2：提取ORB特征点，计算描述子。ORB特征匹配方法运算速度快，且鲁棒性较强，可应用于实时性特征检测。ORB算法一般由特征点提取和特征点描述两个部分构成，通过FAST算法快速进行特征点提取，再根据BRIEF算法对特征点进行特征描述，生成特征点描述子。

步骤3：潜在动态目标特征点暂时去除。单应性矩阵的计算精度对动态目标判别的准确性起决定性作用，在求解单应性矩阵时，需要确保特征的提取与匹配仅基于静态背景。因此，暂时删除潜在动态目标检测框内的特征点。

步骤4：ORB算法特征匹配。基于剩余特征点，计算相邻帧间特征点间的汉明距离确定匹配度，获取特征点匹配对(至少4对)，具体步骤如下：

设待匹配的相邻图像中某一特征点的描述子分别为g₁，g₂，将其进行异或运算，则按式(1)计算两特征点间的汉明距离。

设置一定阈值T_1，当D值小于阈值T_1时表示特征点匹配成功。

步骤5：单应性矩阵计算。具体步骤如下：

设前后帧图像l₁，l₂共m对匹配好的特征点，其中n个匹配对的特征点在两帧图像中均位于静态区域，对此类相匹配的特征点，按式(2)构建模型。

p₁′＝Hp₁#(2)

式中p₁，P₁′分别表示前一帧l₁和当前帧l₂的特征点及匹配点，H表示p₁，p₁′之间变换关系，记为单应性矩阵。

按照式(3)展开：

式中(x，y)，(x′，y′)表示和前一帧l₁和当前帧l₂匹配点p₁，p₁′的坐标，利用RANSAC获取两帧图像单应性矩阵H的最优解。

步骤6：重投影误差判断动态点，具体步骤如下：

按照式(4)，利用求得的单应性矩阵H，将前一帧l₁中所有的特征点投影至l₂，得到重投影后坐标。

按照式(5)，计算该特征对的重投影误差ε。

式中(x₁，y₁)表示图像l₁中的特征点p₁重投影至图像l₂后的坐标，(x′，y′)表示图像l₁中的特征点p₁在图像l₂中匹配点p₁′的坐标。

计算m对相匹配的特征点的重投影误差，包括静态区域特征点重投影误差及非静态区域特征点重投影误差。按照式(6)计算静态区域的重投影误差均值ε_mean。

式中ε₁、ε₂、ε_n分别表示第1个、第2个、第n个静态特征对的重投影误差。

对其余非静态区域的特征点匹配对进行遍历，当重投影误差ε≤ε_mean时，认为其匹配点是静态特征点。当重投影误差ε＞ε_mean时，认为其匹配点是动态特征点。其匹配点是指所遍历的非静态区域的匹配点，也就是动态目标备选区域内计算过重投影误差的匹配点。

步骤7：结合目标检测与动态特征点的动态目标确定。

以该帧图像的目标检测结果为基础，统计潜在动态目标检测框内动态特征点的数量k，设定阈值T₂，当k大于T₂时，判定该潜在动态目标正在移动，视作实际动态目标，否则认为该潜在动态目标没有移动，视作静态目标。

S3.基于激光视觉标定外参的动态点去除

步骤1：点云聚类。将激光雷达获取的点云数据进行处理，使用欧式聚类的方法将点云聚类为地面点，背景点，和前景点，其中前景点被视为点云中可能的动态点。

步骤2：基于外参矩阵的点云动态目标消除。首先利用视觉传感器所获取的图像按照上述方法判定实际动态目标。其次，经过激光传感器与视觉传感器的融合校正，已获取激光雷达坐标系到相机坐标系的映射关系。按照式(7)，把点云经聚类所获得的前景点投影至对应图像，将落在实际动态目标内的点云视作动态点，在特征匹配前删除，最终实现对点云中动态物体的精确剔除，降低动态目标对SLAM过程的干扰。

Y＝P*T_{velo_to_cam}*X#(7)

式中，X表示激光雷达坐标系下的点云坐标，Y表示相机坐标系下的像素坐标，T_{velo_to_cam}表示激光雷达到相机的标定参数，包括旋转矩阵和平移矩阵，P表示相机到图像平面的投影矩阵。

S4.仅基于静态物体的激光SLAM

在剔除动态物体后，利用仅含有静态物体的点云数据进行实时定位和地图构建。此部分基于经典的LOAM工作，首先进行点云数据预处理，剔除外部点和噪声。其次计算点云的曲率，提取边缘点和平面点作为特征点，并通过最小化目标边缘特征点到对应直线的距离和最小化目标平面特征点到对应平面的距离来估计激光雷达的自运动。最后，在里程计的基础上构建高精度的静态点云地图。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，包括：

获取高动态环境下的激光扫描点云和图像；

2.根据权利要求1所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，获取所述图像中的实际动态目标包括：

基于深度学习方法，获取所述图像中的动态目标备选区域；

对所述动态目标备选区域进行判别，获取实际动态目标。

3.根据权利要求2所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，获取所述图像中的动态目标备选区域包括：

4.根据权利要求2所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，对所述动态目标备选区域进行判别包括：

5.根据权利要求4所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，获取所述图像中静态区域的ORB特征点包括：

对所述图像进行直方图均衡化处理；

对处理后的所述图像提取ORB特征点；

6.根据权利要求4所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，对所述ORB特征点进行前后帧特征匹配包括：

7.根据权利要求4所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，获取两帧图像的单应性矩阵包括：

所述单应性矩阵为：

p₁'＝Hp₁

其中，p₁，p₁'分别表示前一帧l₁和当前帧l₂的特征点及匹配点，H表示p₁，p₁'之间变换关系，记为单应性矩阵。

8.根据权利要求4所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，获取所述运动特征点包括：

计算静态区域的重投影误差均值；

9.根据权利要求8所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，所述重投影误差为：

其中，(x₁,y₁)表示图像l₁中的特征点p₁重投影至图像l₂后的坐标，(x',y')表示前一帧图像l₁中的特征点p₁在当前帧图像l₂中匹配点p₁'的坐标；

所述重投影误差均值为：

10.根据权利要求1所述的视觉与激光雷达联合剔除动态目标的SLAM方法，其特征在于，将所述动态目标的点云，投影至所述图像所采取的方法为：

Y＝P*T_{velo_to_cam}*X

其中，X表示激光雷达坐标系下的点云坐标，Y表示相机坐标系下的像素坐标，T_{velo_to_cam}表示激光雷达到相机的标定参数，P表示相机到图像平面的投影矩阵。