CN117593620A

CN117593620A - 一种基于相机和激光雷达融合的多目标检测方法及装置

Info

Publication number: CN117593620A
Application number: CN202410079310.0A
Authority: CN
Inventors: 郝剑虹; 蔡永祥; 王炜; 袁安录; 丁健; 裴静; 仇焕龙; 刘全周; 马鸣; 吕新飞; 尹可欣; 马诚泽; 赵杰
Original assignee: CATARC Tianjin Automotive Engineering Research Institute Co Ltd
Current assignee: CATARC Tianjin Automotive Engineering Research Institute Co Ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23

Abstract

本发明公开了一种基于相机和激光雷达融合的多目标检测方法及装置。方法包括：对相机数据和激光雷达数据进行时间对齐；处理相机数据，得到二维检测框；对相机数据和激光雷达数据进行空间对齐，并对激光雷达数据进行点云预处理，得到去噪滤波的三维点云数据；对ROI区域中属于目标物体的三维点云数据进行聚类，得到目标物体的点云拟合框；融合点云拟合框和二维检测框，得到贴合目标物体真实轮廓的检测框。本发明采用可靠性与实时性较高的目标级融合策略，弥补单一数据源的目标检测缺陷，发挥了两种数据源在各自领域的优势；采用相机获得目标的种类信息，融合数据获得目标的位置等信息，提高了目标检测算法的鲁棒性。

Description

一种基于相机和激光雷达融合的多目标检测方法及装置

技术领域

本发明涉及多目标检测技术领域，尤其涉及一种基于相机和激光雷达融合的多目标检测方法及装置。

背景技术

在环境感知技术的具体应用中，相机和激光雷达均为常用的传感器。其中，相机是用于多目标检测的核心传感器。以视觉图像为基础的目标检测算法主要可以划分为两种：传统算法和基于深度学习的算法。激光雷达是一种用来精准获取三维空间信息的传感器，可以确定目标的距离、位置、等深度信息。然而，单独应用上述两种传感器均存在一些缺陷，如相机无法获得准确的目标距离等深度信息，激光雷达无法获得准确的目标类别信息的问题。

发明内容

针对背景技术中指出的相机无法获得准确的目标距离等深度信息，激光雷达无法获得准确的目标类别信息的技术问题，本发明的目的在于提供一种基于相机和激光雷达融合的多目标检测方法及装置。

为实现本发明的目的，本发明提供的技术方案具体如下：

第一方面

本发明提供了一种基于相机和激光雷达融合的多目标检测方法，包括如下步骤：

步骤1：对相机数据和激光雷达数据进行时间对齐；

步骤2：采用嵌入自适应特征融合模块的YOLOV7网络处理相机数据，得到二维检测框；

步骤3：对相机数据和激光雷达数据进行空间对齐，并对激光雷达数据进行点云预处理，得到去噪滤波的三维点云数据；

步骤4：将二维检测框作为ROI区域，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类，得到目标物体的点云拟合框；

步骤5：利用卡尔曼加权融合算法融合点云拟合框和二维检测框，得到贴合目标物体真实轮廓的检测框。

第二方面

与上述方法相对应地，本发明还提供了一种基于相机和激光雷达融合的多目标检测装置，包括时间对齐单元、二维检测框获取单元、三维点云数据获取单元以及点云拟合框获取单元、检测框融合单元；

所述时间对齐单元用于对相机数据和激光雷达数据进行时间对齐；

所述二维检测框获取单元用于采用嵌入自适应特征融合模块的YOLOV7网络处理相机数据，得到二维检测框；

所述三维点云数据获取单元用于对相机数据和激光雷达数据进行空间对齐，并对激光雷达数据进行点云预处理，得到去噪滤波的三维点云数据；

所述点云拟合框获取单元用于将二维检测框作为ROI区域，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类得到目标物体的点云拟合框；

所述检测框融合单元利用卡尔曼加权融合算法融合点云拟合框和二维检测框，得到贴合目标物体真实轮廓的检测框。

与现有技术相比，本发明的有益效果为：

本发明结合了相机和激光雷达各自的优势，提出了一种基于相机和激光雷达的融合多目标检测算法。本发明采用可靠性与实时性较高的目标级融合策略，弥补单一数据源的目标检测缺陷，发挥了两种数据源在各自领域的优势；采用相机获得目标的种类信息，融合数据获得目标的位置等信息，提高了目标检测算法的鲁棒性。

附图说明

图1为本发明实施例提供的方法流程示意图；

图2为本发明实施例中激光雷达坐标系O_lX_lY_lZ_l转换为相机坐标系O_cX_cY_cZ_c示意图；

图3为本发明实施例中X_l、Y_l轴绕Z_l轴转动示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例提供的一种基于相机和激光雷达融合的多目标检测方法，包括如下步骤：

步骤1：对相机数据和激光雷达数据进行时间对齐；

步骤2：采用嵌入自适应特征融合模块ASFF的YOLOV7网络处理相机数据，得到二维检测框；

步骤4：将利用相机数据得到的二维检测框作为ROI区域，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类得到目标物体的点云拟合框；

需要说明的是，利用本发明提供的方案进行目标检测的结果是得到一个检测框。其中，二维检测框是相机数据经过yolov7算法得到的目标物体检测框；点云拟合框是对目标物体的点云数据聚类得到的点云簇拟合出的目标物体的最小外包检测框。将二者融合后的检测框与单一传感器得到的目标检测框相比，其不但为目标赋予了深度信息，同时弥补了相机缺少的位置轮廓信息。本发明采用可靠性与实时性较高的目标级融合策略，弥补单一数据源的目标检测缺陷，发挥了两种数据源在各自领域的优势，融合数据获得目标的位置等信息，提高了目标检测算法的鲁棒性。

需要说明的是，YOLOV7网络主要由输入端（input）、主干网络（backbone）、颈部网络（neck）、预测端（prediction）构成。在颈部网络和预测网络之间引入自适应特征融合模块ASFF。

其中，输入端主要实现数据的增强操作，包括 Mosaic 数据增强，自适应锚框计算和自适应图片放缩；

主干网络由 Conv（卷积）结构、Concat（拼接）结构和MP（最大池化）结构组成，实现图像目标特征提取；

颈部网络包括 CSPNet（跨阶段局部网络）和 PANet（双向融合）结构，完成特征融合操作，使网络同时包含低层位置信息及深层语义信息；

预测端使用CIOU_Loss 函数，主要预测信息的损失。

由于YOLOV7 算法使用多尺度训练及预测，会产生多个预测框，因此在预测段使用NMS（非极大值抑制）只保留一个最优的预测框。ASFF的本质是对特征融合网络FPN的三个输出层进行加权融合。因此，步骤2中，所述自适应特征融合模块是对特征融合网络FPN的三个输出层进行加权融合，从而加强网络的特征提取能力。

优选地，在步骤1中，所述的时间对齐包括硬件时间对齐和软件时间对齐；

所述硬件时间对齐是通过唯一的时钟源给相机和激光雷达提供相同的基准时间，相机和激光雷达根据所述基准时间校准各自的初始时钟时间，从硬件上实现时间对齐；

所述软件时间对齐是通过相机和激光雷达的时间戳进行数据匹配。

优选地，步骤3中，所述对相机数据和激光雷达数据进行空间对齐，是将相机坐标系和激光雷达坐标系中的任意一点通过矩阵变换转换到像素坐标系中，这样相机坐标系和激光雷达坐标系就建立了一定的数学联系。

包括如下：

步骤3.1：如图2所示，将激光雷达坐标系O_lX_lY_lZ_l转换为相机坐标系O_cX_cY_cZ_c，包括如下：

步骤3.1.1：旋转激光雷达坐标系O_lX_lY_lZ_l，以O_l为中心将X_l、Y_l、Z_l轴朝向与X_c、Y_c、Z_c轴朝向一一对应，包括绕X_l轴的旋转、绕Y_l轴的旋转和绕Z_l轴的旋转；

如图3所示，X_l、Y_l轴绕Z_l轴转动，顺时针转动坐标系时角度为正，绕Z_l轴旋转角度为α，坐标系X_lO_lY_l旋转α角度后变换为坐标系旋转公式如下：

；

得到绕Z_l轴旋转的旋转矩阵为：

；

X_l、Z_l轴绕Y_l轴旋转角度为β，得到绕Y_l轴旋转的旋转矩阵为：

；

Y_l、Z_l轴绕X_l轴旋转角度为γ，得到绕X_l轴旋转的旋转矩阵为：

；

将三个旋转矩阵按照顺序相乘，得到激光雷达坐标系O_lX_lY_lZ_l转换到相机坐标系O_cX_cY_cZ_c的旋转矩阵R：

；

步骤3.1.2：将旋转后的激光雷达坐标系O_lX_lY_lZ_l平移，其中，平移过程包括X_l轴方向上的平移、Y_l轴方向上的平移、Z_l轴方向上的平移，X_l轴、Y_l轴、Z_l轴的平移量分别为Δx、Δy、Δz，得到平移矩阵T：

；

步骤3.1.3：根据旋转矩阵R和平移矩阵T，得到激光雷达坐标系O_lX_lY_lZ_l与相机坐标系O_cX_cY_cZ_c的最终转换矩阵为：

。

步骤3.2：通过相机内参矩阵K将相机坐标系O_cX_cY_cZ_c中的任意一点转换到像素坐标系中；步骤3.2中，所述相机内参矩阵K为：

。

其中，dx和dy分别代表每一行和每一列一个像素分别占多少个长度单位；u ₀和v ₀分别代表图像中心像素坐标和图像原点像素坐标之间相差的横向和纵向像素数；f是相机焦距；b是图像点在相机坐标系中的x方向上的坐标；K1是相机坐标系转换为图像坐标系的转换矩阵，K2是图像坐标系转换为像素坐标系的空间矩阵。

需要说明的是，相机坐标系OcXcYcZc需转换为图像坐标系，图像坐标系再转换为像素坐标系。

步骤3.3：将相机内参矩阵K与外参矩阵为和/>相乘得出转换矩阵M，实现空间对齐。其中，/>和/>与激光雷达和相机在车身上的安装位置有关，/>是激光雷达的外参矩阵，是相机的外参矩阵。

其中，步骤3.3中，所述转换矩阵M为：

。

优选地，步骤4中，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类，包括如下：

步骤4.1：将所述三维点云数据导入聚类模块中；所述聚类模块是指聚类程序。

步骤4.2：确定三维点云数据中每个数据点的邻域半径和最小点数阈值；

其中，根据点云数据集的特性和分布，使用K最近邻（KNN）方法确定每个数据点的邻域半径。

步骤4.3：计算三维点云数据中每个数据点的邻域密度，使用邻域内数据点的数量表示邻域密度；

步骤4.4：基于三维点云数据中每个数据点的邻域密度和最小点数阈值，进行判定，若当前数据点的邻域密度大于最小点数阈值，跳至步骤4.5；若当前数据点的邻域密度小于等于最小点数阈值，且当前数据点在其它核心点的邻域内，跳至步骤4.7；若当前数据点的邻域密度小于等于最小点数阈值，且当前数据点未在其它核心点的邻域内，跳至步骤4.8；

步骤4.5：标记当前数据点为核心点，跳至步骤4.6；

步骤4.6：对标记的每个核心点进行聚类处理，将其周围密度可达的数据点加入到同一个聚类中，跳至步骤4.9；

步骤4.7：则当前数据点为边界点，跳至步骤4.9；

步骤4.8：则当前数据点为噪声点，将噪声点从聚类结果中去除，跳至步骤4.9；

步骤4.9：输出聚类结果。

优选地，步骤5中，利用卡尔曼加权融合算法融合点云拟合框和二维检测框，包括如下：

步骤5.1：确定相机和激光雷达的权重参数，即相机和激光雷达的协方差矩阵，协方差矩阵如下：

相机的协方差矩阵为P _C：

；

激光雷达的协方差矩阵为P _L：

；

需要说明的是，协方差矩阵中的每个参数是权重参数，例如P _C中斜对角线上的四个0.3表示相机检测框的高度值、宽度值、中心点坐标的横坐标和纵坐标。

步骤5.2：对相机和激光雷达的检测结果进行加权融合，其中，为融合后的目标参数值，/>；

其中，和/>分别表示相机和激光雷达的检测结果，包括检测框的高度值、宽度值和中心点坐标的横坐标和纵坐标四个参数；

步骤5.3：融合后的协方差矩阵为：

。

融合后的协方差矩阵描述了估计值与真实值之间的差异程度，即估计结果的不确定性大小。较小的协方差表示估计结果较为准确，较大的协方差表示估计结果不太可信。通过分析协方差矩阵，可以评估融合后结果的精度。

与上述方法相对应地，本实施例还提供了一种基于相机和激光雷达融合的多目标检测装置，包括时间对齐单元、二维检测框获取单元、三维点云数据获取单元以及点云拟合框获取单元、检测框融合单元；

所述点云拟合框获取单元用于将利用相机数据得到的二维检测框作为ROI区域，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类得到目标物体的点云拟合框；

需要说明的是，装置内容与方法内容相对应，因此，对于装置的其他内容不再赘述。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

Claims

1.一种基于相机和激光雷达融合的多目标检测方法，其特征在于，包括如下步骤：

步骤1：对相机数据和激光雷达数据进行时间对齐；

2.根据权利要求1所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤1中，所述时间对齐包括硬件时间对齐和软件时间对齐；

3.根据权利要求1所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤2中，所述自适应特征融合模块是对特征融合网络FPN的三个输出层进行加权融合。

4.根据权利要求1所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤3中，所述对相机数据和激光雷达数据进行空间对齐，包括如下：

步骤3.1：将激光雷达坐标系O_lX_lY_lZ_l转换为相机坐标系O_cX_cY_cZ_c；

步骤3.2：通过相机内参矩阵K将相机坐标系O_cX_cY_cZ_c中的任意一点转换到像素坐标系中；

步骤3.3：将相机内参矩阵K与外参矩阵为和/>相乘得出转换矩阵M，实现空间对齐。

5.根据权利要求4所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤3.1中，将激光雷达坐标系O_lX_lY_lZ_l转换为相机坐标系O_cX_cY_cZ_c，包括如下：

X_l、Y_l轴绕Z_l轴旋转，坐标系X_lO_lY_l旋转α角度后变换为坐标系，旋转公式如下：

；

得到绕Z_l轴旋转的旋转矩阵为：

；

。

6.根据权利要求4所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤3.2中，所述相机内参矩阵K为：

；

其中，dx和dy分别代表每一行和每一列中，一个像素分别占多少个长度单位；u ₀和v ₀分别代表图像中心像素坐标和图像原点像素坐标之间相差的横向和纵向像素数；f是相机焦距；b是图像点在相机坐标系中的x方向上的坐标；K1是相机坐标系转换为图像坐标系的转换矩阵，K2是图像坐标系转换为像素坐标系的空间矩阵。

7.根据权利要求6所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤3.3中，所述转换矩阵M为：

；

其中，是激光雷达的外参矩阵，/>是相机的外参矩阵。

8.根据权利要求1所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤4中，采用自适应DBSCAN聚类算法对ROI区域中属于目标物体的三维点云数据进行聚类，包括如下：

步骤4.1：将所述三维点云数据导入聚类模块中；

步骤4.5：标记当前数据点为核心点，跳至步骤4.6；

步骤4.7：则当前数据点为边界点，跳至步骤4.9；

步骤4.9：输出聚类结果。

9.根据权利要求1所述的一种基于相机和激光雷达融合的多目标检测方法，其特征在于，步骤5中，利用卡尔曼加权融合算法融合点云拟合框和二维检测框，包括如下：

步骤5.1：确定相机和激光雷达的权重参数，协方差矩阵如下：

相机的协方差矩阵为P _c：

；

激光雷达的协方差矩阵为P _L：

；

步骤5.2：对相机和激光雷达的检测结果进行加权融合，其中，W为融合后的目标参数值，；

其中，W _c和W _L分别表示相机和激光雷达的检测结果；

步骤5.3：融合后的协方差矩阵为P：

。

10.一种基于相机和激光雷达融合的多目标检测装置，其特征在于，包括时间对齐单元、二维检测框获取单元、三维点云数据获取单元以及点云拟合框获取单元、检测框融合单元；