CN115032651B

CN115032651B - 一种基于激光雷达与机器视觉融合的目标检测方法

Info

Publication number: CN115032651B
Application number: CN202210630026.9A
Authority: CN
Inventors: 张炳力; 王怿昕; 姜俊昭; 徐雨强; 王欣雨; 王焱辉; 杨程磊
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-04-09
Anticipated expiration: 2042-06-06
Also published as: CN115032651A

Abstract

本发明公开了一种基于激光雷达与机器视觉融合的目标检测方法，包括：1.在车辆相应位置安置激光雷达与相机；2.对所述激光雷达采集到的点云信息进行处理输出雷达检测框；3.对所述相机采集到的图像信息进行处理输出视觉检测框；4.对所述激光雷达和相机处理后的信息进行时空同步；5.对时空同步后的信息进行数据关联，获取关联对；6.对获取的关联对进行数据融合，并对融合的目标进行跟踪，综合连续帧目标信息输出最终融合结果。本发明能避免对基于多传感器融合的目标检测过程中，数据关联与融合过程存在大量误检、漏检的问题，从而能够保证对感知环境评估的准确性，并确保规划控制的精准执行。

Description

一种基于激光雷达与机器视觉融合的目标检测方法

技术领域

本发明涉及基于多传感器融合的环境感知技术领域，具体的说是一种基于激光雷达与机器视觉融合的目标检测方法。

背景技术

感知技术作为无人驾驶技术中最基础同时也是最重要的一环，其对车辆周围目标理解的准确性及实时性直接决定了无人驾驶系统的整体水平。在执行感知任务中受不同传感器工作原理限制，要获取精准、全面的障碍物信息，单一传感器是无法实现的，于是对多传感器融合技术的研究也成为了必然。

目前常用的数据融合方法可分为前融合以及后融合。前融合包括数据级融合以及特征级融合，后融合主要是决策级融合。

若选择前融合方式，数据级融合以及特征级融合都要依赖深度学习框架，会使网络架构更为复杂对GPU要求也会提高。后融合中，决策级融合方法中需要提供全面的融合策略解决各种场景时的目标识别，多数方法选择通过视觉形成感兴趣区域会导致不常见的障碍物出现漏检的情况，没有对融合目标进一步处理以减少漏检和误检的问题。

具体地，Park等人利用稠密立体视差和点云，基于两阶段卷积神经网络生成高分辨率密集视差图，利用激光雷达和立体视差生成融合视差并将融合后的视差与图像在特征空间中进行融合，预测最终的高分辨率视差并使用这种高分辨率的视差重建一个3D场景，该方法的局限性是需要大规模标记的立体激光雷达数据集。M.Liang等人通过一个连续的卷积融合层实现逐点融合，在网络的多个阶段中连接了不同尺度的图像和点云特征的作用。首先为每个像素提取K个最近邻点，然后将这些点投影到图像上，检索相关的图像特征，最后根据融合特征向量与目标像素之间的几何偏移量，对融合特征向量进行加权，然后将其输入神经网络。但当雷达分辨率较低或距离较远时，点融合会出现不能充分利用高分辨率图像的问题。

发明内容

本发明针对现有方法中存在的问题，提供了一种基于激光雷达与机器视觉融合的目标结合方法，以期能实现目标检测过程中的多传感器信息融合，从而能保证对感知环境评估的准确性，并确保规划控制的精准行。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于激光雷达与机器视觉融合的目标检测方法特点在于，包括如下步骤：

A、在车的前保险杠位置处安装有固态式的激光雷达，在车的前挡风玻璃处安装有相机，以车辆的前进方向为Z轴，以指向驾驶员左侧方向为X轴，以指向车辆正上方方向为Y轴，以激光雷达的激光发射中心作为相机原点O_l建立激光雷达坐标系O_l-X_lY_lZ_l，并以相机聚焦中心作为相机坐标系原点O_c建立相机坐标系O_c-X_cY_cZ_c，两个坐标系的O-XZ面均与地面保持水平；

B、对所述激光雷达采集到的每帧点云信息进行处理，包括：先通过多平面拟合方法对点云信息进行地面点云分割，得到的分割结果再进行路沿点提取后，对所提取的路沿点依次进行曲线拟合、滤波、下采样的处理并得到每帧的感兴趣区域；对所述感兴趣区域内的点云进行聚类操作，得到每帧聚类后的各个目标，并用三维检测框标识聚类后的各个目标；其中，第p帧聚类后的第q个目标利用第q个三维检测框来标识，/>表示第p帧中第q个三维检测框中心点的x轴坐标，/>表示第p帧中第q个三维检测框中心点的y轴坐标，/>表示第p帧中第q个三维检测框中心点的z轴坐标，/>表示第p帧中第q个三维检测框的宽度，/>表示第p帧中第q个三维检测框的长度，/>表示第p帧中第q个三维检测框的高度；选取三维检测框中与激光雷达距离最近的二维检测框/>来表征所述第p帧中聚类后的第q个目标；从而得到带有检测框的点云数据集；

C、采用卷积注意力模块构建yolov5模型，并利用道路车辆图像数据集对所述yolov5模型进行训练，得到训练好的yolov5模型，利用所述训练好的yolov5模型对所述相机采集到的每帧图像信息进行处理，并输出每帧图像信息中各个目标的检测框及其坐标、尺寸、类别与置信度信息，从而得到带有检测框的图像信息集；

D、对所述点云信息集和图像信息集进行时空同步，包括：以激光雷达信号作为配准频率的基准，利用插值的方法对激光雷达与相机的时间戳进行对齐后，从而得到同一时刻激光雷达的点云信息集与相机的图像信息集；再对相机进行标定获得相机的内参，对相机与激光雷达进行联合标定，并获得外参，从而将激光雷达坐标系下的二维检测框投影到像素坐标系下，得到投影后的二维检测框其中，/>表示第q个投影后的二维检测框中心点的x轴坐标，/>表示第q个投影后的二维检测框中心点的y轴坐标，/>表示第q个投影后的二维检测框的宽度，/>表示第q个投影后的二维检测框的高度；

E、对时空同步后的信息进行数据关联，获取关联对：

E1、设置关联门限为r_th；定义变量i表示所述激光雷达与相机经过时间同步后的帧数，定义变量j表示观测第i帧激光雷达的点云数据包含的当前目标数，定义变量k表示观测第i帧相机的图像数据包含的当前目标数，并初始化i＝1；

E2、初始化j＝1；以第i帧激光雷达的点云数据集中第j个投影后的二维检测框的坐标及尺寸信息作为第i帧的第j个雷达目标观测信息以所述第i帧的第j个雷达目标观测信息/>所对应的三维检测框作为第i帧聚类后的第j个三维检测框/>

E3、初始化k＝1；以第i帧相机的图像信息集中第k个检测框的坐标、尺寸、类别与置信度信息作为第i帧的第k个相机目标观测信息其中，/>表示第k个检测框中心点的x轴坐标，/>表示第k个检测框中心点的y轴坐标，/>表示第k个检测框的宽度，/>表示第k个检测框的高度，/>第k个检测框的检测出的目标的类别，/>表示第k个检测框的置信度信息；

E4、计算第i帧的第j个激光雷达目标观测信息与第i帧的第k个相机目标观测信息/>之间的欧氏距离/>

E5、判断是否成立，若成立，则表示激光雷达的检测目标与相机的检测目标匹配成功，第i帧的第j个雷达目标观测信息/>与第i帧的第k个相机目标观测信息/>之间是关联对，否则，表示匹配失败；

E6、将k+1赋值给k后，返回步骤E3顺序执行，直到第i帧的所有相机目标观测信息遍历完成后，将j+1赋值给j后，返回步骤E2，直到第i帧的所有目标遍历完成；

E7、计算第i帧的第j个雷达目标观测信息与第i帧的第k个相机目标观测信息/>之间关联对的交并比/>并与所设置的交并比阈值IOU_th进行比较，若/>则表示第i帧中相应的关联对正确，并输出，否则，舍去第i帧中相应的关联对，并返回E7计算第i帧中下一个关联对，直到输出完第i帧中所有正确的关联对；

F、对第i帧中所有正确的关联对进行数据融合，得到第i帧融合后的目标检测信息，包括：若第i帧的第m个雷达目标观测信息与第n个相机目标观测信息之间是关联对，则先直接将第i帧的第m个雷达目标观测信息所对应的三维检测框中的x轴坐标/>y轴坐标/>z轴坐标/>长度/>宽度/>以及第n个相机目标观测信息中的类别/>置信度信息/>直接作为相应关联对的融合后的部分目标检测信息，然后利用步骤D中标定好的相机内参与外参将第n个相机目标观测框转换到雷达坐标系下，从而获得第n个相机目标观测高度/>在雷达坐标系下的投影/>并作为相应关联对的融合后的目标检测高度补偿信息，由融合后的部分目标检测信息与目标检测高度补偿信息构成融合后的目标检测信息；

G、对第i帧融合的目标检测信息中各个目标进行跟踪后输出目标检测结果。

2、根据权利要求1所述的基于激光雷达与机器视觉融合的目标检测方法，其特征在于，所述E5中，若第i帧的第j个雷达目标观测信息与第i帧的任意一个相机目标观测信息/>之间的欧氏距离/>均大于r_th，则将第i帧的第j个雷达目标观测信息/>输出并进行目标跟踪；

若在第i+1帧中检测到对应的雷达目标观测信息且对应的雷达目标观测信息/>与第i+1帧的第k个相机目标观测信息之间的欧氏距离/>则认为第j个雷达目标观测信息/>成功检测到目标。

与现有技术相比，本发明的有益效果在于：

1.本发明针对基于多传感器融合的目标检测过程中，数据关联与融合过程存在大量误检、漏检的问题，以获得激光雷达与图像信息融合的准确结果为目标，首先利用激光雷达采集多目标的点云数据，经过地面点云分割、感兴趣区域提取、聚类后生成目标的激光雷达检测框，接着利用卷积注意力模块改进过的yolov5算法生成目标的机器视觉检测框，并通过设置合理门限，将激光雷达与机器视觉的检测结果进行关联得到关联对；较之NN算法抗干扰能力弱，容易发生关联错误，使用限制较多的情况，本发明通过计算关联对之间的交并比(IOU)判断是否满足阈值，若满足则输出，否则选择次优的关联对重新计算交并比直至满足阈值，得到准确关联对，利用IOU有效避免了NN算法在数据关联过程中出现错误关联的情况，从而提高了基于多传感器融合的目标检测的准确率，确保了规划控制的准确执行。

2.本发明提出了一种数据融合过程中激光雷达与机器视觉无法匹配情况下的决策方法，能够对数据关联过程中未匹配成功的目标进行进一步的筛选，从而降低了数据融合过程中出现目标漏检情况的概率。

3.本发明提出了一种基于激光雷达与机器视觉的目标融合方法。首先直接将单一传感器能够输出的物体信息添加到融合后的目标中；然后物体的位置信息和宽度信息直接采用激光雷达所获得的信息，高度信息采用像素框转换到雷达坐标系的方式进行动态补偿，其中采用激光雷达提供的深度信息作为依据计算像素坐标系中检测框到相机坐标系的投影。与M.Liang等人的方法相比，本发明方法利用图像信息对激光雷达的高度信息进行补偿，解决了点融合过程中不能充分利用高分辨率图像的问题。

附图说明

图1为本发明一种基于激光雷达与机器视觉融合的目标检测方法的整体流程图；

图2a为本发明激光雷达检测场景图；

图2b为本发明激光雷达检测效果图；

图3为本发明机器视觉检测效果图；

图4为本发明时间同步原理图；

图5为本发明激光雷达与相机联合标定效果图；

图6为本发明目标关联场景下可能存在的关联情况图；

图7为本发明目标未匹配成功场景下的决策方法图；

图8为本发明数据融合方法图。

具体实施方式

本实施例中，一种基于激光雷达与机器视觉融合的目标检测方法，如图1所示，包括如下步骤：

B、对激光雷达采集到的点云信息进行处理，包括：

B1、通过多平面拟合方法对点云信息进行地面点云分割：依据沿车辆行驶方向将每帧激光点云分割成多个区域，求取区域中最低高度点的平均值RPA(region pointaverage)，消除噪声点云的影响，设置高度阈值h_th，以RPA为基准满足h_th的作为种子点集；根据种子点拟合平面，选取简单的线性平面模型如式(1)所示：

Ax+By+Cz+D＝0 (1)

式(1)中，(A,B,C)是平面的法向量，D是将平面平移到坐标原点所需距离；

从而获得初始平面模型，设置距离阈值D_th＝0.2m，由立体几何中的点到平面之间的距离式(2)计算区域内的点到平面之间的距离d：

式(2)中，x、y、z为点云的三维坐标。若满足d<D_th，则将该点加入到地面点集中，否则认为是非地面点；将得到的地面点用作下一次迭代的起始集，地面点云的分割在3次优化迭代后完成；

B2、得到的分割结果再进行路沿点提取后，对所提取的路沿点依次进行曲线拟合、滤波、下采样的处理并得到每帧的感兴趣区域，本发明感兴趣区域的提取是考虑到在所有无效目标信息中，占比最多、对目标检测影响最大的是沿y轴方向上人行道上的行人目标、道路两旁的树木及建筑物等无效点云目标，考虑到结构化城市道路会以路沿区分车辆行驶区域和非车辆行驶区域，而激光雷达密集的点云信息又非常适合对路沿进行识别用以获取感兴趣区域(ROI，region of interesting)，本发明认为路沿石一般高度为12厘米左右，首先，获取地面及地面高度15厘米的点云；然后，利用同一跟扫描线上相邻的两个点在路沿处会出现突变的特征提取处路沿候选点，并根据点的y坐标的正负将其归为左右路沿，若值为正加入到左路沿点中，若为负则加入到右路沿点中；最后，依据提取的路沿点利用RANSAC中的线性模型对左右路沿进行拟合，完成感兴趣区域的提取；

B3、对感兴趣区域内的点云进行聚类操作，得到每帧聚类后的各个目标，并用三维检测框标识聚类后的各个目标；其中，第p帧聚类后的第q个目标利用第q个三维检测框来标识，/>表示第p帧中第q个三维检测框中心点的x轴坐标，/>表示第p帧中第q个三维检测框中心点的y轴坐标，/>表示第p帧中第q个三维检测框中心点的z轴坐标，/>表示第p帧中第q个三维检测框的宽度，/>表示第p帧中第q个三维检测框的长度，/>表示第p帧中第q个三维检测框的高度；选取三维检测框中与激光雷达距离最近的二维检测框/>来表征第p帧中聚类后的第q个目标；从而得到带有检测框的点云数据集，其中，步骤B3的聚类是利用DBSCAN算法完成，其中，为避免远处的目标无法聚类，较大时会使近处距离较近的两物体被聚成一类，通过不同距离设置不同的ε阈值提升聚类效果，考虑到激光雷达的水平角分辨率一般高于垂直角分辨率，利用垂直角分辨率设置距离自适应阈值ε_th，可由式(3)求出：

ε_th＝kh (3)

式(3)中，k＝1.1为放大因子，h为激光雷达在一定距离时垂直方向上两根扫描线之间的高度，得到聚类后的目标，用距离雷达最近的检测框框出聚类后的目标来表示目标信息，图2a为某一检测场景图，图2b为对应的处理输出的检测效果图；

C、采用卷积注意力模块构建yolov5模型，并利用道路车辆图像数据集对yolov5模型进行训练，得到训练好的yolov5模型，利用训练好的yolov5模型对相机采集到的每帧图像信息进行处理，并输出每帧图像信息中各个目标的检测框及其坐标、尺寸、类别与置信度信息，从而得到带有检测框的图像信息集，其中，卷积注意力模块由通道注意力模块与空间注意力模块组成，通道注意力模块在通道维度计算注意力图，与特征图相乘后输入空间注意力模块，空间注意力模块进而在高宽维度计算特征图，与输入相乘后输出注意力特征图，诱导网络正确地聚焦于重要特征的学习；数据集选取一部分公开数据集中与本文较为接近的图片，并修改其中的类别及删除不需要的目标，然后自己制作剩余的一部分数据集，共6000张，训练集和验证集比例为5：1，完成数据集的建立，图3为改进后的yolov5识别输出的检测效果图。

D、对激光雷达和相机处理后的信息进行时空同步，包括：

D1、以激光雷达信号作为配准频率的基准，利用插值的方法对激光雷达与相机的时间戳进行对齐，获取同一时刻激光雷达的点云信息与相机的图像信息，如图4所示，假如要获取100ms时刻摄像头对应的目标信息，需要通过67ms及133ms摄像头采集的信息通过式(4)插值推算出在100ms时对应的数据信息。

式(4)中，t_i为插值前时刻，t_i+1为插值后时刻，t_j为插值时刻，x_i为插值前时刻x轴坐标信息，x_i+1为插值后时刻x轴的坐标信息，x_j为获取的插值时刻的x轴坐标信息，在使用插值方法时需要保证所选取的插值时刻与前后数据帧之间的间隔应不高于摄像头的采样周期67ms，若超过了摄像头采样周期则认为是无效插值时刻予以去除；

D2、对点云信息集和图像信息集进行时空同步，包括：以激光雷达信号作为配准频率的基准，利用插值的方法对激光雷达与相机的时间戳进行对齐后，从而得到同一时刻激光雷达的点云信息集与相机的图像信息集；再基于张正友标定法、利用autoware标定相机内参，接着利用AUTOWARE中分离的Calibration Toolkit工具包获取雷达与相机之间的外参矩阵，图5为激光雷达与相机联合标定效果图；从而将激光雷达坐标系下的二维检测框投影到像素坐标系下，得到投影后的二维检测框其中，/>表示第q个投影后的二维检测框中心点的x轴坐标，/>表示第q个投影后的二维检测框中心点的y轴坐标，表示第q个投影后的二维检测框的宽度，/>表示第q个投影后的二维检测框的高度。

E、对时空同步后的信息进行数据关联，获取关联对：

E1、设置关联门限r_th，考虑到门限过大会导匹配情况复杂影响算法准确性，过小会导致匹配失败，设置r_th＝0.5米的圆形门限；定义变量i表示激光雷达与相机经过时间同步后的帧数，定义变量j表示观测第i帧激光雷达的点云数据包含的当前目标数，定义变量k表示观测第i帧相机的图像数据包含的当前目标数，并初始化i＝1；

E2、初始化j＝1；以第i帧激光雷达的点云数据集中第j个投影后的二维检测框的坐标及尺寸信息作为第i帧的第j个雷达目标观测信息的第i帧的第j个雷达目标观测信息/>所对应的三维检测框为第i帧聚类后的第j个三维检测框

E4、计算第i帧的第j个激光雷达目标观测信息与第i帧的第k个相机目标观测信息/>之间的欧氏距离/>E5、判断/>是否成立，若成立，则表示激光雷达的检测目标与相机的检测目标匹配成功，第i帧的第j个雷达目标观测信息/>与第i帧的第k个相机目标观测信息/>之间是关联对，否则，表示匹配失败图6为目标未匹配时决策图关联可能出现的情况。当匹配未成功时，决策方法如下：对于雷达检测到而视觉未检测到的目标，由于对激光雷达进行了感兴趣区域的提取所以忽略了视角不同的原因，故可能原因为道路上出现的动物、锥桶等视觉没有训练的物体类别及傍晚等光线条件不好时视觉未能检测到，这类物体可能对车辆的安全行驶产生影响，予以保留，若第i帧的第j个雷达目标观测信息/>与第i帧的任意一个相机目标观测信息/>之间的欧氏距离/>均大于r_th，则将第i帧的第j个雷达目标观测信息/>输出并进行目标跟踪；若在第i+1帧中检测到对应的雷达目标观测信息/>且对应的雷达目标观测信息与第i+1帧的第k个相机目标观测信息/>之间的欧氏距离/>则认为第j个雷达目标观测信息/>成功检测到目标；对于视觉检测到而雷达未检测到的目标，可能出现的原因为目标距离太远激光雷达的聚类精度达不到，这类情况直接去除视觉识别目标，同时相机的视野大于雷达感兴趣区域而识别的一些路沿上的行人等目标，这类物体不会对车辆的安全行驶产生影响，予以忽略；对于视觉与雷达均检测到的目标，一般出现的原因为行人与车辆等目标距离太近雷达算法无法聚类区分，此种情况保留雷达检测结果，如图7所示，L表示激光雷达检测结果，C表示相机检测结果，其中L1与C1成功配对，L2予以保留，C2予以忽略。

E6、将k+1赋值给k后，返回步骤E4顺序执行，直到第i帧的所有相机目标观测信息遍历完成后，将j+1赋值给j后，返回步骤E3，直到第i帧的所有目标遍历完成；

E7、计算第i帧的第j个雷达目标观测信息与第i帧的第k个相机目标观测信息/>之间关联对的交并比/>并与所设置的交并比阈值IOU_th进行比较，经过实例测试选取IOU_th＝0.7，若/>则表示第i帧中相应的关联对正确，并输出，否则，舍去第i帧中相应的关联对，并返回E7计算第i帧中下一个关联对，直到输出完第i帧中所有正确的关联对；

F、根据不同传感器输出数据的特点对第i帧中所有正确的关联对进行数据融合，得到第i帧融合后的目标检测信息，如图8所示，包括：

F1、由于激光雷达可以输出目标的深度信息，相机能够输出物体的类别及置信度信息，所以若第i帧的第m个雷达目标观测信息与第n个相机目标观测信息/>之间是关联对，则先直接将第i帧的第m个雷达目标观测信息所对应的三维检测框信息中的x轴坐标/>y轴坐标/>z轴坐标/>长度/>宽度/>以及第n个相机目标观测信息中的类别/>置信度信息/>直接作为相应关联对的融合后的部分目标检测信息

F2、因为激光雷达检测目标时，目标距离越远就会使得目标高度上的激光扫描线越稀疏，导致高度信息出现损失，所以利用步骤D中标定好的相机内参与外参将第n个相机目标观测框装换到雷达坐标系下，从而获得第n个相机目标观测高度信息在雷达坐标系下的投影/>作为这一关联对的融合后的目标检测高度补偿信息输出，进而得到融合后的目标检测数据；

G、对第i帧融合的目标检测信息中各个目标进行跟踪后输出目标检测结果，本发明方法选用扩展卡尔曼滤波器(EKF)对融合目标进行跟踪。

Claims

1.一种基于激光雷达与机器视觉融合的目标检测方法，其特征在于，包括如下步骤：

A、在车的前保险杠位置处安装有固态式的激光雷达，在车的前挡风玻璃处安装有相机，以车辆的前进方向为Z轴，以指向驾驶员左侧方向为X轴，以指向车辆正上方方向为Y轴，以激光雷达的激光发射中心作为相机原点O_l建立激光雷达坐标系O_l-X_lY_lZ_l，并以相机聚焦中心作为相机坐标系原点O_c建立相机坐标系O_c-Z_cY_cZ_c，两个坐标系的O-XZ面均与地面保持水平；

D、对所述点云数据集和图像信息集进行时空同步，包括：以激光雷达信号作为配准频率的基准，利用插值的方法对激光雷达与相机的时间戳进行对齐后，从而得到同一时刻激光雷达的点云信息集与相机的图像信息集；再对相机进行标定获得相机的内参，对相机与激光雷达进行联合标定，并获得外参，从而将激光雷达坐标系下的二维检测框投影到像素坐标系下，得到投影后的二维检测框其中，/>表示第q个投影后的二维检测框中心点的x轴坐标，/>表示第q个投影后的二维检测框中心点的y轴坐标，/>表示第q个投影后的二维检测框的宽度，/>表示第q个投影后的二维检测框的高度；

E、对时空同步后的信息进行数据关联，获取关联对：

E2、初始化j＝1；以第i帧激光雷达的点云数据集中第j个投影后的二维检测框的坐标及尺寸信息作为第i帧的第j个雷达目标观测信息以所述第i帧的第j个雷达目标观测信息/>所对应的三维检测框作为第i帧聚类后的第j个三维检测框

2.根据权利要求1所述的基于激光雷达与机器视觉融合的目标检测方法，其特征在于，所述E5中，若第i帧的第j个雷达目标观测信息与第i帧的任意一个相机目标观测信息/>之间的欧氏距离/>均大于r_th，则将第i帧的第j个雷达目标观测信息/>输出并进行目标跟踪；