CN116229408A

CN116229408A - 一种图像信息与激光雷达点云信息融合的目标识别方法

Info

Publication number: CN116229408A
Application number: CN202211467668.8A
Authority: CN
Inventors: 唐伦; 刘晋成; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-06-06

Abstract

本发明涉及一种图像信息与激光雷达点云信息融合的目标识别方法，属于自动驾驶技术领域。该方法包括：使用KITTI数据集训练YOLO v4网络，得到基于视觉传感器的人车目标检测网络；对激光雷达原始点云进行处理，包括激光雷达的点云滤波、地面点云分割、点云聚类和目标特征提取，采用基于图像包络的三维位置估计方法，生成目标三维边界框；将激光雷达检测到的三维障碍物点云投影到图像上，投影边界框与图像检测的障碍物边界框通过IOU关联匹配进行融合。本发明能够实现实用性强，且准确、高效的多传感器决策级融合，提高自动驾驶的安全性。

Description

一种图像信息与激光雷达点云信息融合的目标识别方法

技术领域

本发明属于自动驾驶技术领域，涉及一种图像信息与激光雷达点云信息融合的目标识别方法。

背景技术

自动驾驶汽车可为驾驶员实时提供安全预判信息，降低交通事故，提升汽车安全性，而环境感知是保证自动驾驶汽车安全行驶的关键技术，它通过车载传感器获取车辆周围环境信息，为自动驾驶汽车的决策和控制提供可靠信息。目标识别作为自动驾驶汽车感知中的一项基础性工作，对于保障自主车辆安全，提高自动驾驶汽车环境理解力具有重要意义。

车辆在自动驾驶场景下，应用多传感器融合方案是目前本领域内主流的发展方向。在现有技术中，多传感器融合方案分为两种，前融合和后融合(决策级融合)。前融合，是指针对传感器原始数据做融合处理，其数据密集且维度高，时间空间统一难度大，深度特征提取难度大，开发周期长。而决策级融合，则是针对目标级数据做融合处理，数据维度低且稀疏，处理方法简单且灵活，开发周期短。然而，决策级融合方案虽然具有上述的诸多优点，但如何实现一种能够实际应用，且准确、高效的多传感器决策级融合方案，仍是本领域内面临的一项难题。

因此，亟需一种用于自动驾驶的多传感器决策级融合方法，实现准确、高效的多传感器决策级融合，提高自动驾驶的安全性。

发明内容

有鉴于此，本发明的目的在于提供一种图像信息与激光雷达点云信息融合的目标识别方法，用于提高自动驾驶场景下目标检测的准确性，增强检测算法的鲁棒性，同时降低单个传感器的目标检测误检率。首先本发明对激光雷达原始点云进行预处理，包括点云滤波和地面点云分割，构建KD树加速DBSCAN进行点云聚类，随后提出了一种基于Andrew图像包络的三维位置估计方法，生成三维目标边界框，将得到的三维包围盒作为密度聚类的结果输出；最后提出基于决策级的三维激光雷达与视觉图像的目标信息融合算法，在进行时空同步过后，将激光雷达检测到的三维目标点云投影到图像上，投影边界框与图像检测的目标边界框通过IOU关联匹配，融合多维信息。

为达到上述目的，本发明提供如下技术方案：

方案1：一种图像信息与激光雷达点云信息融合的目标识别方法，具体包括以下步骤：

S1：获取激光雷达传感器的环境感知数据，并将激光雷达扫描出的海量点云数据进行处理，包括点云滤波处理、地面点云分割、点云聚类和目标特征提取；

S2：获取视觉传感器的感知数据，将视觉传感器当前采集到的画面输入预先训练的YOLO v4深度学习算法；所述感知数据包括：多个视觉传感器分别采集的目标物体位置、目标物体速度以及目标物体尺寸；

S3：利用激光雷达和视觉传感器分别进行目标检测，激光雷达得出目标在三维点云中的三维边界框，视觉传感器得出目标在图像中的二维边界框；

S4：联合标定的相机外参，判断当前目标点云是否在视觉传感器的扫描范围内，如果不在视觉传感器的扫描范围内，直接返回当前视觉传感器的扫描范围外的三维点云信息；

S5：将激光雷达检测到的三维点云投影到二维图像上，并求解激光雷达投影点云聚类后的最小外接矩形，获得二维投影的边界框；

S6：将步骤S5计算出的投影边界框与步骤S3视觉传感器检测出的二维边界框进行IOU关联匹配，当重叠面积大于等于设定的阈值0.5时，认为匹配成功，输出融合激光雷达的距离信息与视觉传感器的类别信息；当重叠面积小于设定的阈值0.5，只输出视觉传感器检测到的信息。

进一步，步骤S1中，所述点云滤波处理是：在进行点云配准前，采用PCL库的统计滤波器对点云进行滤波处理，减少离群点或粗差点对配准精度的影响。

进一步，步骤S1中，所述地面点云分割是：地面点云的存在会影响后续点云的聚类效果，因此需要对地面点云进行分割和去除，采用基于模型拟合分割算法的随机采样一致性(RANSAC)算法对地面点云进行分割。

进一步，步骤S1中，所述点云聚类是：采用基于KD树的DBSCAN算法对激光雷达点云进行聚类，具体包括以下步骤：

1)遍历所有三维激光点，统计其邻域内的激光点数，判断是否为核心点，记录所有的核心点；

针对传统DBSCAN聚类进行优化，在最近邻域搜索时建立KD树，快速查询与排除相关度不高的点云，提前划分出噪声点和核心点，避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度，实现点云的快速空间索引。

2)遍历所有的核心点，以该点为核心建立点云簇，把密度直达的激光点加入簇中；

3)继续加入密度间接可达的激光点，判断该点云簇是否满足提前设定的聚类最少激光点数；

4)继续执行以上步骤，直到全部的激光点在划分点云簇过程中都使用过。

进一步，步骤S1中，所述目标特征提取是：根据聚类点云拟合边界框，采用基于图像包络的三维位置估计方法得到的三维包围盒，并将其作为密度聚类的结果输出。

更进一步，步骤S1中，基于图像包络的三维位置估计方法，具体步骤如下：1)将聚类完成的点云投影至图像二维平面；2)利用图像包络方法找到对应于二维平面中二维点云的最小凸包；3)提取凸包轮廓的最小外接矩形；4)将该外接矩形的长宽作为三维边界框的长宽，三维边界框的高，根据当前点云簇的最高点和最低点的差值获取。

进一步，步骤S2中，选取KITTI数据集作为YOLO v4的训练集，在集群服务器进行YOLO v4算法的模型训练与测试，为多传感器的融合工作完成对视觉传感器的数据预处理。

进一步，步骤S6中，在对激光雷达和视觉传感器融合前，需要完成时间和空间的同步，也就是将相对应的坐标转化成同一坐标系下。

空间数据匹配即获取激光雷达坐标系和像素坐标系的变换矩阵，实现激光雷达三维数据到图像像素坐标的二维转换。

使用同一台计算机控制采集和检测信息，采用多线程采集数据，进行时间戳软同步的方法，对数据保存时需要记录下系统时间戳；

在完成激光雷达和视觉传感器的空间和时间同步过后，提取图像中目标感兴趣区域中的图像特征，并与相对应区域的点云特征进行融合。

进一步，步骤S6中，IOU(交并比)的计算公式为：

其中，S_v为视觉检测矩形框面积；S_l为激光波雷达检测跟踪矩形框面积。

方案2：一种图像信息与激光雷达点云信息融合的目标识别系统，用于方案1所述的目标识别方法。该系统包括雷达检测处理模块、视觉检测处理模块和融合检测模块；

所述雷达检测处理模块用于完成雷达的点云滤波、地面分割、点云聚类和三维目标特征提取；

所述视觉检测处理模块采用YOLO v4深度学习算法进行目标检测；

所述融合检测模块根据各传感器检测范围与检测框交并比等综合雷达检测处理模块和视觉检测处理模块的检测结果，完成决策级的传感器信息融合。

方案3：一种电子设备，包括存储器、处理器及存储在存储器上并能在处理器上运行的程序，所述程序采用方案1所述的目标识别方法来实现。

方案4：一种车辆，包括处理器和不同类型的多个传感器，所述多个传感器被配置为采集得到感知数据，其特征在于：所述处理器被配置为执行方案1所述的目标识别方法。

本发明的有益效果在于：

1)本发明充分发挥了激光雷达点云和视觉图像数据的互补性，融合两种不同维度的数据，提高了自动驾驶场景下目标检测的准确性，增强了检测算法的鲁棒性。

2)本发明结合激光波雷达与视觉传感器检测信息，提出了兼顾实时性与准确性的决策级融合算法，所提出的融合检测算法有效降低了单个传感器的目标检测误检率。

3)本发明采用的融合激光雷达与视觉传感器信息目标检测算法可实时检测前方车辆与行人，具有比单传感器更强的可靠性与稳定性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的融合算法整体架构；

图2为本发明采用的YOLO v4深度学习算法模型框架图；

图3为世界坐标系图；

图4为径向畸变和切向畸变图；

图5为本发明采用的融合策略总体设计图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图5，本发明提供一种用于自动驾驶的多传感器决策级融合方法，通过基于卷积神经网络训练得到的融合模型，对车辆上不同类型的多个传感器采集的感知数据，进行决策级融合处理，融合得到的融合感知数据能够用于车辆的自动驾驶，实现了实用性强，且准确、高效的多传感器决策级融合，提高自动驾驶的安全性。

本实施例中，采用的不同类型的多个传感器，包括：一个16线激光雷达、一个智能1080p摄像；激光雷达型号为雷神智能C16雷达，探测距离为150米，扫描频率设置为10Hz，结合城市普通轿车的高度与目标识别的特征，确定安装高度H＝1.45m，视觉传感器型号为海康威视E12a摄像头，考虑到电脑性能与图像的处理速度，采集分辨率设置为640×480，采集频率设置为20帧/s，安装在离激光雷达30cm的正下方靠前。

以下，通过具体的实施例进一步详细说明本发明的技术方案。

一种图像信息与激光雷达点云信息融合的目标识别方法，面对庞大的激光雷达点云数据，最大程度的减小了激光雷达点云数据与视觉图像信息融合所带来的时间消耗。如图1所示，一种用于自动驾驶的多传感器决策级融合方法，具体包括以下步骤：

1)利用雷达检测处理模块来完成雷达的点云滤波、地面分割、点云聚类和三维目标特征提取。

2)视觉检测处理模块采用基于OpenCV库的YOLO v4深度学习算法进行目标检测，如图2所示为YOLO v4深度学习算法图。

3)融合检测模块根据各传感器检测范围与检测框交并比等综合激光雷达、视觉算法的检测结果，完成决策级的传感器信息融合。

为了更好地评估上述目标识别方法，利用KITTI公共数据集进行训练和测试。

下载KITTI并解压完毕后，可以看到在文件夹data_object_image_2存放了训练集和测试集图片，其中训练集有7481张，测试集有7518张，共有8个类别：Car(小轿车)，Van(面包车)，Truck(卡车)，Tram(电车)，Pedestrain(行人)，Person(sitting)(行人)，Cyclist(骑行人)，Misc(杂项)，还有一项Don’t Care为不关心的物体，文件夹training存放了训练集的标签，测试集没有给出标签。

在训练自己的模型之前，需要将原来KITTI标注的txt格式先转换为PASCAL VOC的xml格式，再转换成COCO数据集，生成训练和验证的json文件和相应的图片文件夹。

基于YOLOv4目标识别，利用KITTI数据集对训练自己的网络模型，将训练好的模型进行测试分析，该算法能够实时反映目标的类别和置信度，提供丰富的纹理、色彩等信息。

激光雷达的工作原理是通过发射激光束并接收返回的激光束，计算后获取障碍信息，与相机类似，激光雷达输出的点云数据包含目标的位置(x，y坐标)和强度等空间信息。

其中，激光雷达点云滤波原理分为三个步骤：

1)在第一次迭代中，计算每个点到其邻域内最近的k个邻居点之间的平均领域距离d_k.

2)计算雷达点云中所有点的平均领域距离d_k的均值μ和标准差σ，则距离阈值threshold可表示为threshold＝(μ+α·σ)，其中，α为一个常数，可称为比例系数，其值取决于被统计分析的邻居点数目，设置α＝1。

3)在下一次迭代中，依次判断这些点的平均领域距离d_k是否超出距离阈值threshold，若d_k≤threshold，则分类为内点，否则判定其为离群点并从点云中剔除。

选取k＝20，α＝4，本发明所有实验中都用该结果进行滤波处理，减少部分离群噪声点对点云表达准确性的影响。

其中，激光雷达扫描出的地面点云的存在会影响后续点云的聚类效果，因此需要对地面点云进行分割和去除。

假设局内点在点云数据中的占比为t；

那么每次计算模型使用N个点的情况下，选取的点至少有一个局外点的情况为：

1-t^N

在迭代k次的情况下，(1-t_n)^k就是k次迭代计算模型都至少采样到一个局外点计算模型的概率，那么能采样到正确的N个点去计算出正确模型的概率为：

P＝1-(1-tⁿ)^k

通过上式，可以求得迭代次数：

局内点的概率t通常是一个先验值，P为RANSAC得到正确模型的概率。如果t值未知，可使用自适应迭代次数的方法，一开始设定一个无穷大的迭代次数，当每次更新模型参数的时候，用当前的局内点比值当成t来估算出最终迭代次数。

接下来，采用基于KD树的DBSCAN算法对激光雷达点云进行聚类。

(1)输入已构造的KD树，在KD树中找出包含目标点z的叶结点：从根结点出发，递归地向下访问KD树，如果目标点z当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点，直到子结点为叶结点为止。

(2)以此叶结点为当前最近点，递归地向上回退，在每个结点进行以下操作：

如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为当前最近点，当前最近点一定存在于该结点的一个子结点对应的区域。

检查该子结点的父结点的另一子结点对应的区域是否有更近的点。

查找到的邻近节点集合中长度大于等于的点云数据用于聚类，通过过滤噪声点来进一步减少聚类时间。

为了更直观地反映点云的聚类结果，需要根据聚类点云拟合边界框，包括以下步骤：

(1)将聚类完成的点云投影至图像二维平面；

(2)利用Andrew图像包络算法生成对应于这些二维目标点云的最小凸包；

(3)提取凸包轮廓的最小外接矩形；

该外接矩形的长宽作为三维边界框的长宽，三维边界框的高，根据当前点云簇的最高点和最低点的差值获取。

(4)最后，求出该矩形框与车体坐标系正前方的夹角作为目标的方位角。

空间数据匹配即获取激光雷达坐标系和像素坐标系的变换矩阵，实现激光雷达三维数据到图像像素坐标的二维转换。主要包括激光雷达坐标系与世界坐标系的转换，世界坐标系与像素坐标系的转换，其中世界坐标系与像素坐标系的转换又包括相机内参与外参标定。

图3所示为世界坐标系，描述相机的位置，单位为m。

相机的外参标定涉及世界坐标系和相机坐标系，两个坐标系之间存在一个刚体变换，即转换后的物体不会发生形变，整个过程只需要进行旋转和平移。

图4所示为相机的径向畸变和切向畸变，公式为校正图像的径向畸变的计算公式：

其中，x，y为畸变校正前的图像坐标，x′，y′为畸变校正后的图像坐标，r²＝x²+y²，k₁，k₂，k₃为标定获得的径向畸变校正参数。

切向畸变校正公式为：

式中，r²＝x²+y²，p₁，p₂为标定获得的切向畸变校正参数。联立可得相机的畸变校正公式：

最后得到一个点从世界坐标系转换到像素坐标系表示为：

图5所示为激光雷达点云数据与视觉图像数据融合策略总体设计。

(1)利用激光雷达和视觉传感器分别进行目标检测，激光雷达得出目标在三维点云中的三维边界框，视觉传感器得出目标在图像中的二维边界框。

(2)然后联合标定的相机外参，判断当前目标点云是否在视觉传感器的扫描范围内；

如果不在视觉传感器的扫描范围内，直接返回当前视觉传感器的扫描范围外的三维点云信息；

如果在视觉传感器的扫描范围内，则将激光雷达检测到的三维点云投影到二维图像上，并求解激光雷达投影点云聚类后的最小外接矩形，获得二维投影的边界框；

(3)接着对计算出的投影边界框与视觉传感器检测出的目标检测框进行IOU关联匹配；

当重叠面积大于等于设定的阈值0.5时，会被认为匹配成功，输出融合激光雷达的距离信息与视觉传感器的类别信息；当重叠面积小于设定的阈值0.5，只输出视觉传感器检测到的类别信息。

激光雷达与相机各自进行目标检测，对同一个目标，两个独立的检测模块可能会遇到以下几种情况：

雷达的聚类目标在视觉传感器的扫描范围外，激光雷达与视觉传感器检测不到同一个目标，输出激光雷达的三维信息，类别未知。

雷达的聚类目标在视觉传感器的扫描范围内，激光雷达与视觉传感器同时检测到该目标，且IOU大于等于0.5，输出融合后目标的距离、类别信息。

雷达的聚类目标在视觉传感器的扫描范围内，激光雷达与视觉传感器的IOU小于0.5，输出视觉传感器的类别信息，距离未知。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种图像信息与激光雷达点云信息融合的目标识别方法，其特征在于，该方法具体包括以下步骤：

S1：获取激光雷达传感器的环境感知数据，并将激光雷达扫描出的点云数据进行预处理；所述预处理包括点云滤波处理、地面点云分割、点云聚类和目标特征提取；

S6：将步骤S5计算出的投影边界框与步骤S3视觉传感器检测出的二维边界框进行IOU关联匹配，当重叠面积大于等于设定的阈值时，认为匹配成功，输出融合激光雷达的距离信息与视觉传感器的类别信息；当重叠面积小于设定的阈值，只输出视觉传感器检测到的信息。

2.根据权利要求1所述的目标识别方法，其特征在于，步骤S1中，所述点云滤波处理是：采用PCL库的统计滤波器对点云进行滤波处理。

3.根据权利要求1所述的目标识别方法，其特征在于，步骤S1中，所述地面点云分割是：采用基于模型拟合分割算法的随机采样一致性算法对地面点云进行分割。

4.根据权利要求1所述的目标识别方法，其特征在于，步骤S1中，所述点云聚类是：采用基于KD树的DBSCAN算法对激光雷达点云进行聚类，具体包括以下步骤：

5.根据权利要求1所述的目标识别方法，其特征在于，步骤S1中，所述目标特征提取是：根据聚类点云拟合边界框，采用基于图像包络的三维位置估计方法得到的三维包围盒，并将其作为密度聚类的结果输出。

6.根据权利要求5所述的目标识别方法，其特征在于，步骤S1中，基于图像包络的三维位置估计方法，具体步骤如下：1)将聚类完成的点云投影至图像二维平面；2)利用图像包络方法找到对应于二维平面中二维点云的最小凸包；3)提取凸包轮廓的最小外接矩形；4)将该外接矩形的长宽作为三维边界框的长宽，三维边界框的高，根据当前点云簇的最高点和最低点的差值获取。

7.一种图像信息与激光雷达点云信息融合的目标识别系统，用于实现权利要求1～6中任意一项所述方法，其特征在于，该系统包括雷达检测处理模块、视觉检测处理模块和融合检测模块；

所述融合检测模块根据各传感器检测范围与检测框交并比综合雷达检测处理模块和视觉检测处理模块的检测结果，完成决策级的传感器信息融合。

8.一种电子设备，包括存储器、处理器及存储在存储器上并能在处理器上运行的程序，其特征在于，所述程序采用权利要求1～6任意一项所述方法来实现。

9.一种车辆，包括处理器和不同类型的多个传感器，所述多个传感器被配置为采集得到感知数据，其特征在于：所述处理器被配置为执行权利要求1～6中任意一项所述的方法。