CN115187737A

CN115187737A - 一种基于激光与视觉融合的语义地图构建方法

Info

Publication number: CN115187737A
Application number: CN202210744160.1A
Authority: CN
Inventors: 耿可可; 成小龙; 殷国栋; 庄伟超; 王金湘; 张宁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-14

Abstract

本发明公开了一种基于激光与视觉融合的语义地图构建方法，涉及无人驾驶SLAM技术领域，解决了无人驾驶技术中大规模闭环检测鲁棒性差和构建点云地图缺失语义信息的技术问题，其技术方案要点是利用环视摄像头模组采集周围环境的图片数据，再将图片传入到DeepLabv3+网络进行语义分割，再利用相机和激光雷达之间的投影关系，将图片中的语义信息投影到点云上构建语义点云地图，运用语义信息改进LeGO‑LOAM算法达到优化定位建图的目的，还能够利用图片数据进行运用CALC无监督学习网络进行闭环检测来优化矫正位姿，提高SLAM系统的鲁棒性。该方法所构建的地图能够实现大规模建图，语义信息丰富，有较强的鲁棒性。

Description

一种基于激光与视觉融合的语义地图构建方法

技术领域

本申请涉及智能驾驶技术领域，尤其涉及一种基于激光与视觉融合的语义地图构建方法。

背景技术

SLAM即同步定位与建图是无人驾驶汽车自主行驶的关键技术基石，它是指能够在未知的环境下，通过自身的传感器，获取自身的位姿并逐步构建地图。SLAM主要分为视觉SLAM和激光SLAM，视觉传感器的优势是能够获取丰富的语义信息，激光雷达的优势是能够获取精准的空间位置信息。随着近些年来深度学习和图像识别技术的发展，使得语义信息与SLAM结合成为可能。语义SLAM技术能够建立具有高级语义信息的地图，增强汽车与周围环境的交互和人机协同能力，执行更加高级的任务。

3D激光SLAM以ZhangJ等人在2014年提出的LOAM为代表，提出了一种激光里程计，利用激光点云中的面特征点的线特征点在相邻帧间的匹配，运用L-M优化来获取位姿。2018年Tixiao Shan等人在LOAM基础上提出LeGO-LOAM，利用地面点云约束去除了不可靠特征，利用分段式L-M优化来计算位姿，并增加了闭环检测模块，使建图的速度和精度有所提升。图像的语义分割是从像素级别理解图像，在深度学习方法流行之前，TextonForest和基于随机森林分类器等语义分割方法是用得比较多的方法。随着深度学习的发展，图像语义分割的算法也日益成熟，2014年，全卷积网络(FCN)横空出世，FCN将网络全连接层用卷积取代，因此使任意图像大小的输入都变成可能，从原先的只能输出一个类别的网络到现在能输出所有像素点的类别。DeepLabv1引用空洞卷积，在保持分辨率的同时扩大了感受野。DeepLabv2和DeepLabv3提出和改善了空洞卷积金字塔模块，来得到更好的分割结果。

如何建立合适鲁棒性强的SLAM建立语义地图，使汽车不再依赖GPS，对车辆进行正确及时的规划、控制、决策是亟需解决的问题。

发明内容

本申请提供了一种基于激光与视觉融合的语义地图构建方法，其技术目的是提高单车建图的精度，构建大范围的语义地图。

本申请的上述技术目的是通过以下技术方案得以实现的：

一种基于激光与视觉融合的语义地图构建方法，包括：

S1：对车辆传感器进行联合标定，得到各传感器的内参矩阵和外参矩阵；所述传感器包括4个环视安装的相机、一个16线激光雷达和一个IMU；

S2：所述相机获取图片数据后，对所述图片数据的重合部分进行裁剪得到裁剪后图片，然后将时间戳相同的4张裁剪后图片输入到DeepLabv3+网络进行语义分割，得到语义分割后的图片；

S3：所述激光雷达对点云数据进行采集，根据相机和激光雷达的外参矩阵将语义分割后的图片投影到同时间戳的点云数据上进行数据融合，得到具有语义信息的语义点云；

S4：对所述语义点云进行预处理，然后对每帧点云的特征点进行提取，激光里程计根据相邻帧的特征点之间的关系计算相机和激光雷达的位姿；

S5：通过松耦合的LIO模型结合IMU的位姿运动对相机和激光雷达的位姿进行矫正；

S6：通过LeGO-LOAM算法结合矫正后的相机和激光雷达的位姿对所述语义点云进行建图，得到语义点云地图。

进一步地，该方法还包括S7：基于视觉闭环检测对相机的当前图片数据和历史图片数据进行闭环检测，从而对激光雷达的点云数据进行位姿修正，修正后的位姿再反馈至步骤S6，以对所述语义点云地图进行修正。

进一步地，所述步骤S1中，所述联合标定包括：

先对4个环视安装的相机进行标定，得到每个相机的内参，所述内参包括焦距、主点和失真系数；

通过ROS功能包Lidar_camera_calibration对相机和激光雷达进行联合标定，包括：将激光雷达坐标系作为世界坐标系，通过外参矩阵([R,t])和相机的内参矩阵(f_u,f_v,u₀,v₀)将激光雷达坐标系下的点云(x_w,y_w,z_w)转化成相机平面坐标(u,v)，转换公式表示为：

激光雷达与IMU的联合标定包括：将点云数据的相对坐标、IMU的运动变换与转换矩阵M相结合，从而将激光雷达扫描一周的点融合成一个点云；其中，转换矩阵M的计算过程包括：计算每一点与其最邻近点云之间的距离之和D，使D最小则得到所述转换矩阵M。

进一步地，所述步骤S3中，所述数据融合包括：根据相机和激光雷达的外参矩阵将语义分割后的图片投影到同时间戳的点云数据上，根据点云深度信息来优化图像语义分割结果的掩膜，并将没有投影到的点云数据去除，完成对点云数据的分割；其中，投影前的点云数据格式为PointXYZI，投影后的点云数据格式为PointXYZRGBI，PointXYZRGBI格式包括点云的位置信息、颜色信息和强度。

进一步地，所述步骤S4中，对所述语义点云进行预处理包括：对所述语义点云进行去噪和去除地面点云；

其中，对所述语义点云进行去噪包括：将点云返回的无效点和丢失点进行去除，然后将语义信息投影有误的点进行修正；

去除地面点云包括：对地面点直接进行去除，对剩余点云进行聚类，将剩余点云中大小不符合预设阈值的点云簇进行剔除。

进一步地，所述步骤S4中，对每帧点云的特征点进行提取包括：

将去除地面点的点云投影成1800*16的深度图像，并将该深度图像按照横坐标平均分成6个子图像；

通过改进LeGO-LOAM算法根据语义信息在所述子图像中选取面特征候选点和线特征候选点，包括：设p_i为点云中的一点，S表示和p_i同一行连续点的集合，且S分布于p_i的两侧；选取S为10，定义一个阈值M，将S中的所有点与p_i的语义进行比较，如果相同则M+1，若M>8则认为此点为面特征候选点，放入集合F_f中；若M<6则认为此点为线特征候选点，放入集合F_l中；则p_i表示为：

计算每个子图像的F_f集合中所有点的平滑度，每一行选择最小的4个点保存到

计算每个子图像的F_l集合中所有点的平滑度，每一行选择最大的2个点保存到

其中，

表示所有子图像的面特征点集合，

表示所有子图像的线特征点集合；

平滑度c的公式如下：

其中，X_pi表示p_i对应的激光雷达坐标系下的坐标；

最后通过改进LeGO-LOAM算法中的分段式L-M优化算法得到激光雷达帧间的位姿[t_x,t_y,t_z,θ_roll,θ_pitch,θ_yaw]。

进一步地，所述步骤S7中，通过CALC无监督学习网络进行视觉闭环检测，包括：

定时获取关键帧，所述关键帧包括4张裁剪后图片，对4张裁剪后图片进行拼接得到拼接图片，将拼接图片转化为灰度图；

通过直接计算所述灰度图的定向梯度直方图HOG得到HOG特征矩阵，将所述HOG特征矩阵存储至场景数据库中；

将所述灰度图进行扭曲裁剪后输入到抗噪编码器得到和所述HOG特征矩阵维度一样的特征矩阵，将所述HOG特征矩阵与所述特征矩阵进行匹配，若匹配程度大于阈值D，则所述关键帧找到匹配图片；

若所述关键帧之后的连续2个关键帧都找到匹配图片，则所述关键帧找到闭环；

所述关键帧找到闭环后，根据所述关键帧的时间戳找到与该时间戳最临近的点云数据进行位姿修正。

本申请的有益效果在于：本申请利用环视的相机摄像头采集周围环境的图片数据，将图片传入到DeepLabv3+网络进行语义分割，再利用相机和激光雷达之间的投影关系，将图片中的语义信息投影到点云上构建语义点云地图，通过改进LeGO-LOAM算法达到定位建图的目的，还能够利用图片数据进行运用CALC无监督学习网络进行闭环检测来优化矫正位姿，提高SLAM系统的鲁棒性。

本车SLAM能够为单车建立点云语义地图，能够融合图像数据的特点进行闭环检测来提高定位与建图的精度，有较好的应用前景。实验证明，本申请所提出的方法所构建的地图算法结构简单，语义信息丰富，建图范围大，误差小，且具有较强的鲁棒性。

附图说明

图1为本申请所述方法的流程图；

图2为特征点提取算法流程图；

图3为闭环检测算法流程图。

具体实施方式

下面将结合附图对本申请技术方案进行详细说明。

本申请所述的基于激光与视觉融合的语义地图构建方法，其流程如图1所示，具体包括：

S1：对车辆传感器进行联合标定，得到各传感器的内参矩阵和外参矩阵；所述传感器包括4个环视安装的相机、一个16线激光雷达和一个IMU。

具体地，上述相机均为110°广角无畸变的相机；激光雷达为16线Velodyne激光雷达。经过联合标定之后得到各传感器的内参矩阵和外参矩阵，便于后续传感器数据之间的坐标转换。

各传感器的联合标定具体包括：先对4个环视安装的相机进行标定，得到每个相机的内参，所述内参包括焦距、主点和失真系数和其他信息。

随后通过ROS功能包Lidar_camera_calibration对相机和激光雷达进行联合标定，包括：将激光雷达坐标系作为世界坐标系，通过外参矩阵([R,t])和相机的内参矩阵(f_u,f_v,u₀,v₀)将激光雷达坐标系下的点云(x_w,y_w,z_w)转化成相机平面坐标(u,v)，转换公式表示为：

其中，R表示旋转矩阵，t表示平移矩阵，f_u表示x轴方向焦距的长度，f_v表示y轴方向焦距的长度，u₀表示像素在x轴上的实际位置，v₀表示像素在y轴上的实际位置。

激光雷达与IMU的联合标定包括：将点云数据的相对坐标、IMU的运动变换与转换矩阵M相结合，从而将激光雷达扫描一周的点融合成一个点云；其中，转换矩阵M的计算过程包括：计算每一点与其最邻近点云之间的距离之和D，优化目标是使D最小，从而得到激光雷达和IMU之间的转换矩阵M。

S2：所述相机获取图片数据后，对所述图片数据的重合部分进行裁剪得到裁剪后图片，然后将时间戳相同的4张裁剪后图片输入到DeepLabv3+网络进行语义分割，得到语义分割后的图片。

具体地，首先需要对四个广角相机的重叠区域进行裁剪，使得视角尽可能拼成360°。随后再将同时间戳的四张裁剪后图片传入DeepLabv3+网络分别进行语义分割，分割类别包含地面、天空、树、灌木、汽车、行人、路标等。不同的类别在语义分割图片上用不同的颜色区域表示。

S3：所述激光雷达对点云数据进行采集，根据相机和激光雷达的外参矩阵将语义分割后的图片投影到同时间戳的点云数据上进行数据融合，得到具有语义信息的语义点云。

具体地，对相机和激光雷达的数据融合包括：根据相机和激光雷达的外参矩阵将语义分割后的图片投影到同时间戳的点云数据上，根据点云深度信息来优化图像语义分割结果的掩膜，并将没有投影到的点云数据去除，完成对点云数据的分割；其中，投影前的点云数据格式为PointXYZI，投影后的点云数据格式为PointXYZRGBI，PointXYZRGBI格式包括点云的位置信息、颜色信息和强度。

S4：对所述语义点云进行预处理，然后对每帧点云的特征点进行提取，激光里程计根据相邻帧的特征点之间的关系计算相机和激光雷达的位姿。

对所述语义点云进行预处理包括：对所述语义点云进行去噪和去除地面点云等操作。

对语义点云进行去噪是先将点云返回的无效点和丢失点进行去除，然后将语义信息投影有误的点进行修正，例如点云上部分的一些点可能由于标定的误差被投影成天空，而实际激光雷达不会返回天空的点，将这些点的颜色修正为其周围的可投影点。因为图像语义分割结果的误差，会有一些孤立点与其周围颜色不同，将这些孤立的点语义进行修正。随后可根据语义点云分割的结果对地面点进行去除，对剩下的点云进行聚类，对较小的点云簇进行剔除。

特征点的提取包括平面特征点和线特征点的提取，其流程如图2所示，具体包括：首先将去除地面点的点云投影成1800*16的深度图像，并将该深度图像按照横坐标平均分成6个子图像，随后分别在每个子图像中提取面特征和线特征。

与传统LeGO-LOAM算法的不同是本申请通过改进LeGO-LOAM算法在提取特征点之前先利用语义信息来选出面特征候选点和线特征候选点，包括：设p_i为点云中的一点，S表示和p_i同一行连续点的集合，且S分布于p_i的两侧；选取S为10，定义一个阈值M，将S中的所有点与p_i的语义进行比较，如果相同则M+1，若M>8则认为此点为面特征候选点，放入集合F_f中；若M<6则认为此点为线特征候选点，放入集合F_l中；则p_i表示为：

其中，

表示所有子图像的面特征点集合，

表示所有子图像的线特征点集合。

平滑度c的公式如下：

其中，X_pi表示p_i对应的激光雷达坐标系下的坐标；

最后通过改进LeGO-LOAM算法中的分段式L-M优化算法得到激光雷达帧间的位姿[t_x,t_y,t_z,θ_roll,θ_pitch,θ_yaw]；其中，t_x,t_y,t_z分别表示在x,y,z轴上平移的距离；θ_roll,θ_pitch,θ_yaw分别表示绕x,y,z轴旋转的角度。

S5：通过松耦合的LIO(LiDAR-InertialOdometry)模型结合IMU的位姿运动对相机和激光雷达的位姿进行矫正,以优化建图精度。

具体的建图方法与LeGO-LOAM算法中的相同，后处理操作包括去除地图中的所有道路目标点云。

作为具体实施例地，该方法还包括步骤S7：基于视觉闭环检测对相机的当前图片数据和历史图片数据进行闭环检测，从而对激光雷达的点云数据进行位姿修正，修正后的位姿再反馈至步骤S6，以对所述语义点云地图进行修正。

图像相对于点云进行闭环检测的优势明显，CALC无监督学习网络是先将原始图像转化为灰度图像，随后分为两个线程，一个线程计算灰度图像的定向梯度直方图HOG得到描述符特征，另一个线程对灰度图像再次扭曲裁剪传入抗噪编码器生成和HOG一样维度的矩阵，抗噪编码器的损失函数为两个HOG的欧氏距离。该网络结构简单，能够实现实时检测，训练该网络得到权重。

闭环检测的步骤为每隔一段时间取一次关键帧(包含四张原始图像)，将四张图片拼成一张图片，获取其HOG特征矩阵并储存到场景数据库中。每10个关键帧闭环检测一次，将图片传入训练好的抗噪编码器网络获取其与HOG相同维度的特征矩阵，并在场景数据库中利用欧氏距离匹配最为相似的HOG特征矩阵，若匹配程度大于一定阈值D，则认为该关键帧找到匹配图片。为了避免发生错误的闭环检测，设定连续3个关键帧都能找到匹配图片时，才认定该帧找到闭环。找到图片闭环后，即可根据图像的时间戳找到与该时间戳最临近的激光点云进行位姿修正。

以上为本申请示范性实施例，本申请的保护范围由权利要求书及其等效物限定。

Claims

1.一种基于激光与视觉融合的语义地图构建方法，其特征在于，包括：

2.如权利要求1所述的语义地图构建方法，其特征在于，该方法还包括S7：基于视觉闭环检测对相机的当前图片数据和历史图片数据进行闭环检测，从而对激光雷达的点云数据进行位姿修正，修正后的位姿再反馈至步骤S6，以对所述语义点云地图进行修正。

3.如权利要求1所述的语义地图构建方法，其特征在于，所述步骤S1中，所述联合标定包括：

激光雷达与IMU的联合标定包括：将点云数据的相对坐标、IMU的运动变换与转换矩阵M相结合，从而将激光雷达扫描一周的点融合成一个点云；其中，转换矩阵M的计算过程包括：计算每一点与其最邻近点云之间的距离之和D，使D最小则得到所述转换矩阵M；

4.如权利要求1所述的语义地图构建方法，其特征在于，所述步骤S3中，所述数据融合包括：根据相机和激光雷达的外参矩阵将语义分割后的图片投影到同时间戳的点云数据上，根据点云深度信息来优化图像语义分割结果的掩膜，并将没有投影到的点云数据去除，完成对点云数据的分割；其中，投影前的点云数据格式为PointXYZI，投影后的点云数据格式为PointXYZRGBI，PointXYZRGBI格式包括点云的位置信息、颜色信息和强度。

5.如权利要求1所述的语义地图构建方法，其特征在于，所述步骤S4中，对所述语义点云进行预处理包括：对所述语义点云进行去噪和去除地面点云；

6.如权利要求5所述的语义地图构建方法，其特征在于，所述步骤S4中，对每帧点云的特征点进行提取包括：

其中，

表示所有子图像的面特征点集合，

表示所有子图像的线特征点集合；

平滑度c的公式如下：

其中，X_pi表示p_i对应的激光雷达坐标系下的坐标；

最后通过改进LeGO-LOAM算法中的分段式L-M优化算法得到激光雷达帧间的位姿[t_x,t_y,t_z,θ_roll,θ_pitch,θ_yaw]；

其中，t_x,t_y,t_z分别表示在x,y,z轴上平移的距离；θ_roll,θ_pitch,θ_yaw分别表示绕x,y,z轴旋转的角度。

7.如权利要求2所述的语义地图构建方法，其特征在于，所述步骤S7中，通过CALC无监督学习网络进行视觉闭环检测，包括：