CN115471526A

CN115471526A - 基于多源异构信息融合的自动驾驶目标检测与跟踪方法

Info

Publication number: CN115471526A
Application number: CN202211114392.5A
Authority: CN
Inventors: 张学攀; 翟阳; 赵嘉懿; 李虹
Original assignee: Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Current assignee: Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-13

Abstract

本发明公开了基于多源异构信息融合的自动驾驶目标检测与跟踪方法，包括：S1、车载毫米波雷达与相机采集数据的时空配准，并将毫米波雷达点投影至相机图像坐标系中；S2、构建雷达特征图，为相机目标检测算法提供空间注意力模块；S3、将SENET通道注意力模块以及雷达特征图空间注意力模块引入目标检测算法YOLOv5的backbone结构中；S4、构建融合扩展卡尔曼滤波与数据关联算法的KCF目标跟踪算法；S5、在相机未被遮挡情况下，融合目标检测算法与目标跟踪算法对车辆目标追踪；在相机被遮挡情况下，基于目标跟踪算法对车辆目标追踪。本发明采用上述自动驾驶目标检测与跟踪方法，实现了车辆目标的精准检测与稳定跟踪。

Description

基于多源异构信息融合的自动驾驶目标检测与跟踪方法

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及基于多源异构信息融合的自动驾驶目标检测与跟踪方法。

背景技术

近年来，交通事故以及交通拥堵现象频繁发生，给人类生命财产安全造成了极大威胁。随着科技的不断进步，自动驾驶已成为解决这类难题的关键手段。目标检测与目标跟踪技术在自动驾驶领域占据重要地位，但由于驾驶环境具有复杂性和动态性且单一传感器能力有限，需要融合多种传感器以确保对目标稳健、准确、可靠的检测与跟踪。

在自动驾驶目标检测领域，得益于视觉目标检测技术的快速发展，多传感器融合检测技术由雷达为主、相机辅助渐渐转变为雷达为辅、相机为主的策略。利用雷达对目标定位能力强的特性，辅助相机目标检测算法的执行成为近两年研究的重点。YOLOv5目标检测算法是近两年诞生的一款实时高效的单阶段目标检测算法，十分适用于道路环境多变的自动驾驶领域。如果在YOLOv5目标检测算法中提前告知检测网络应该重点检测图像中哪部分区域，那么又会使检测速度与精度提升一个阶段。

在自动驾驶目标跟踪领域，传统的仅依靠视觉的跟踪技术稳定性不高，尤其是目标被障碍物遮挡后容易导致相机出现跟踪失败的情况。因此，采用多传感器融合跟踪方法是提高自动驾驶目标跟踪稳定性的一种有效措施，利用雷达与相机等多传感器对目标进行跟踪能满足不同道路状况下对目标持续稳定跟踪的需求。

发明内容

基于上述背景，本发明基于YOLOv5目标检测算法对相机数据处理，基于KCF目标跟踪算法对雷达数据处理，并采用雷达为辅、相机为主的策略融合两传感器数据，从而实现车辆目标的精准检测与稳定跟踪。

基于多源异构信息融合的自动驾驶目标检测与跟踪方法，包括如下步骤：

S1、将车载毫米波雷达与相机采集数据进行时间与空间配准，然后通过坐标变换将毫米波雷达点投影至相机图像坐标系中；

S2、构建雷达特征图，利用雷达定位能力强的特点，为相机目标检测算法提供空间注意力模块；

S3、将SENET通道注意力模块以及雷达特征图空间注意力模块引入目标检测算法YOLOv5的backbone结构中，从而使目标检测算法更关注于目标可能存在的区域，以提高目标检测的速度与精度；

S4、构建融合扩展卡尔曼滤波与数据关联算法的KCF目标跟踪算法；

S5、在相机未被遮挡情况下，融合目标检测算法与目标跟踪算法对车辆目标追踪；在相机被遮挡情况下，基于目标跟踪算法对车辆目标追踪。

进一步的，S1步骤的具体处理过程如下：

S11、为实现毫米波雷达与相机的时间配准，由于两传感器的采样频率不同，利用雷达采样后触发相机采样的方式实现两传感器时间上的配准问题；

S12、为实现毫米波雷达与相机的空间配准，由于两传感器对目标的坐标描述不同，需要将两传感器的数据统一到同一坐标系中，车载毫米波雷达与相机的空间转换模型可以表示为：

式中，[x_r y_r z_r 1]^T为毫米波雷达坐标下目标的坐标；[u v 1]^T为像素坐标系下目标的坐标；R为3×3的单位正交旋转矩阵；T为3×1的平移矩阵；I为单位矩阵；d_x与d_y分别表示每个像素在横、纵轴上的物理单位下的大小；f为相机的焦距；k为缩放因子；x_r、y_r、z_r为目标在毫米波雷达坐标系下的三维坐标；u、v为目标在像素坐标系下的二维坐标；z_c为相机坐标系下的坐标；u₀、v₀为在坐标系旋转变换操作之前像素坐标系中的二维坐标。

S13、基于配准后的数据，将毫米波雷达点投影至相机图像中。

进一步的，S2步骤的具体处理过程如下：

S21、生成一个和图像同样大小的空白单通道雷达特征图，雷达特征图中每个像素点的初始值设置为0；

S22、在初始化雷达特征图中各像素点值为0以后，以雷达特征图中单个雷达投影点为中心构建ROI感兴趣区域，即雷达探测到的目标可能位置，然后将雷达特征图的ROI感兴趣区域中的像素点值设为1；

S23、当目标距离越近或目标尺寸越大时，经聚类处理后雷达反射点越多；可看做，ROI区域的面积大小与聚类后雷达点数量有关并成线性关系，即：

S＝αn+β

式中，n为雷达反射点的个数；α和β为超参数；

α和β通过最大化ROI与真实标记框的IOU进行学习得到，公式如下：

式中，N为学习超参数过程中输入样本数；M_i为第i个样本中物体的标记框个数；

IOU的计算公式如下：

式中，ROI表示ROI感兴趣区域；GT表示真实标记框区域；S表示求取面积：

S24、最终，生成ROI感兴趣区域内像素值为1、其他部分像素值为0的表示目标位置信息的雷达特征图。

进一步的，S3步骤的具体处理过程如下：

S31、SENET全称是Squeeze-and-Excitation Networks,即压缩和激励网络；其中，Squeeze部分即把输入(H,W,C)特征图压缩为(1,1,C)，Excitation部分将压缩后的(1,1,C)特征图送入一个全连接层从而对每个通道的重要性进行预测，得到不同通道重要性大小后再作用到输入特征图对应的通道上，便于目标检测网络能够对特征图的不同通道特征施加不同注意力，即SENET的作用是对输入特征图的不同通道提供不同权重，从而使目标检测算法更加高效准确；

S32、将SENET通道注意力模块加在目标检测算法YOLOv5中backbone结构的最后一层，将通道权重值分别和特征图对应通道的二维矩阵相乘，从而让网络可以更加专注于特征图中权值大的通道；

S33、将SENET通道注意力模块处理后的特征图与雷达特征图相乘，使特征图同时受通道注意力权重和空间位置注意力权重影响，以此构建融合雷达信息的通道-空间注意力机制模块；

S34、将通道-空间注意力模块插入至目标检测算法YOLOv5的backbone结构的最后一层，以获取目标可能存在的候选区域和先验信息，从而使目标检测算法更加快速高效的检测出目标。

进一步的，S4步骤的具体处理过程如下：

S41、在雷达探测坐标系下，采用Bicycle动力学模型对车辆目标进行建模，用

描述车辆运动状态，主车与前车目标之间的相对运动方程为：

式中，a,b为模型的输入量；B为前车的轴距；v为主车与前车的相对速度；

为前车的前轮转向角；θ为前车的方向角；x_r、y_r为车辆当前的坐标；

将上式离散化，则满足:

式中，δ_a与δ_b为干扰噪声；δ_P与δ_s为相乘噪声，表示了当车辆转向角与速度变化时车辆运动状态不确定性的增加；上述四种噪声相互独立，且都为均值为0、协方差已知的高斯白噪声；

k时刻毫米波雷达的测量方程为：

式中，测量噪声v_ρ、

v_θ分别为均值为0、协方差为δ_ρ ²、

δ_θ ²的高斯白噪声；ρ(k)为k时刻毫米波雷达测量得到的目标的径向距离；θ(k)为k时刻毫米波雷达测量得到的目标的方向角；

S42、由于KCF目标跟踪算法中的扩展卡尔曼滤波每次只能跟踪一个目标，所以需要引入数据关联方法使毫米波雷达同时跟踪多个目标；

由于数据关联算法中用到的是基于聚类和参考过程之后的质心数据，所以首先计算极坐标系统(即毫米波雷达坐标系)中每个目标(旧质心)与观测值(新质心)之间的距离；从上述距离中找到全局最小的距离，将被追踪目标与以此距离链接的新质心相关联；直到所有未关联的新质心和追踪目标都已关联，输出关联关系；

S43、将被关联的质心传递给KCF目标跟踪算法中，以使扩展卡尔曼滤波的更新阶段完成新的状态估计，从而使毫米波雷达实时跟踪多个目标。

进一步的，S5步骤的具体处理过程如下：

S51、将有雷达点投影的图像序列分两路进入目标检测线程与目标跟踪线程；在目标检测线程中，最终得到目标的检测框；在目标跟踪线程中，将检测框内的目标作为训练样本，对目标跟踪算法中的跟踪框进行初始化；

S53、将后续图像样本与训练样本放入目标跟踪算法的核相关滤波器中做相关操作(即通过训练样本训练一个核相关滤波器，在后续图像样本上滑动滤波器得到每一个位置上滤波器的响应值)，取滤波器响应峰值MAX_RES与设定阈值比较；若高于或等于设定阈值，认为跟踪目标成功，此时响应值峰值点作为新的跟踪框的位置，继续迭代更新目标跟踪框；若低于设定阈值，则认为跟踪失败，跳至目标跟踪线程。

综上，本发明采用上述自动驾驶目标检测与跟踪方法，通过雷达定位信息辅助相机目标检测算法为YOLOv5算法的输入图像中目标可能存在的位置提供了先验信息和候选权重，同时在YOLOv5算法中引入SENET通道注意力机制模块，使YOLOv5检测算法可以在运行中对不同重要性的图像通道施加不同的注意力，从而提高YOLOv5目标检测算法对于道路目标检测的速度与准确性。通过融合YOLOv5目标检测算法与KCF目标跟踪算法实现相机对于目标的实时跟踪，由于检测算法输出的检测框可以用来初始化KCF目标跟踪算法，提高了相机目标跟踪的整体性。当相机中目标被遮挡或者相机跟踪效果不理想时，跳至由扩展卡尔曼滤波与数据关联相结合的雷达跟踪线程，有效提高了智能汽车对于目标跟踪的稳定性。

附图说明

图1为本发明的目标检测与跟踪的整体流程图；

图2为本发明中通道-空间注意力机制模块的构建原理图；

图3为本发明中改进后的YOLOv5目标检测算法的模型图；

图4为本发明中KCF目标跟踪算法的模型图；

图5为本发明中融合YOLOv5与KCF算法的相机目标跟踪原理图；

图6为本发明方法在车辆正常行驶过程中采集到的图像；

图7为本发明方法在前车转弯过程中采集到的图像。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

本发明采用YOLOv5检测框架，在其中做了一些改进，构建了雷达特征图空间注意力模块提供目标在相机图像中的位置权重矩阵，引入SENET通道注意力模块提供图像各通道的权重矩阵，最后，将雷达空间注意力模块和SENET通道注意力模块结合，构成目标检测的注意力机制模块，并将该注意力机制模块加入至YOLOv5检测框架的backbone层与neck层之间，形成具有注意力机制的融合雷达信息的目标检测网络，有效提高了智能汽车目标检测的速度与准确性。

本发明采用相机与雷达多线程跟踪框架，在相机跟踪部分，融合YOLOv5目标检测与KCF目标跟踪算法，充分发挥KCF算法在线训练的优势，直接将YOLOv5检测算法输出的检测框输入给KCF跟踪算法进行跟踪算法的初始化即可迭代实现对目标的连续跟踪。当雨雾天或目标被遮挡等相机跟踪效果不理想情况下转至雷达跟踪线程实现对目标的跟踪。雷达跟踪部分，将EKF扩展卡尔曼滤波与数据关联方法相结合实现雷达对多个道路目标的同时跟踪。

具体地，如图1所示的自动驾驶目标检测与跟踪方法，包括以下步骤:

其中，在S1步骤中，由于传感器需要在时间上同步，即需要不同传感器采集到同一时间的信息，所以在时间同步问题上应该以频率最低的传感器为时间基准。因为雷达采集频率低，所以以雷达采集数据频率为准。

要将毫米波雷达检测的目标转移至相机拍到的图像上，需要完成毫米波雷达坐标系、三维世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的坐标转换关系。首先，应该将毫米波雷达坐标系转换至以相机位为中心的世界坐标系，

再将世界坐标系转化为相机坐标系，

再将相机坐标系转化为图像坐标系，

再将图像坐标系转化为像素坐标系，

基于公式(1)-(4)，可实现世界坐标系到像素坐标系的转换，即

最终，即可得到毫米波雷达到相机的空间转换模型，

式中，[x_r y_r z_r 1]^T为毫米波雷达坐标下目标的坐标，其对应的像素坐标为[x_c y_cz_c 1]^T；[u v 1]^T为像素坐标系下目标的坐标；R为3×3的单位正交旋转矩阵；T为3×1的平移矩阵；I为单位矩阵；d_x与d_y分别表示每个像素在横、纵轴上的物理单位下的大小；f为相机的焦距；k为缩放因子；x_r、y_r、z_r为目标在毫米波坐标系下的三维坐标；u、v为目标在像素坐标系下的二维坐标；z_c为相机坐标系下的坐标；u₀、v₀为在坐标系旋转变换操作之前像素坐标系中的二维坐标。

进一步的，在S2步骤中，由于目标检测框架用到的是YOLOv5检测框架，处理的信息为图像或视频格式，所以要将毫米波雷达信息融入目标检测算法中需要以图像格式表达雷达信息。因此，先将雷达点依靠坐标变换投入图像坐标系中，然后生成一副和图像一样大小的空白单通道图片。将图中所有像素点都设为0，然后以图中雷达点为中心生成一定面积的ROI区域，ROI面积公式表示为:

S＝αn+β (7)

式中，n为雷达反射点的个数；α和β为超参数。

α和β可以通过最大化ROI与目标真实标记框之间的IOU进行学习得到，公式为:

式中,N为学习超参数过程中输入样本数；M_i为第i个样本中物体的标注框个数。

IOU计算公式为:

式中，ROI表示雷达点产生的ROI；GT表示目标真实标记框；S表示求取面积。

确定ROI面积后，在生成的ROI区域内设置像素点为1，最终得到雷达点生成的ROI区域内像素值为1，其他区域像素值为0的雷达特征图。

雷达特征图实际上相当于表示目标在图像中位置的权值矩阵，通过让相机图像与雷达特征图相乘，可以帮助目标检测算法抑制掉目标不存在位置处的像素点值，从而让目标检测算法集中在像素值为1即雷达探测到目标可能存在的位置。

进一步的，在S3步骤中，SENET是不同于上文雷达特征图在空间维度而是在通道维度帮助目标检测算法集中在有效目标上的网络结构。该网络通过对图像中通道关系进行建模来提升网络的性能，其中包含Squeeze和Excitation两个关键操作，最终显示建模特征通道之间的相互依赖关系。

在SENET中，Squeeze操作顺着空间维度进行特征压缩，将每个二维的特征通道变成一个实数，并将输出的维度和输入的特征通道数相匹配。表征在特征通道上响应的全局分布，并使靠近输入的层也可以获得全局的感受野；Excitation操作类似于循环神经网络中门的机制，通过参数为每个特征通道生成权重，其中参数被学习用来显示地建模特征通道间的相关性。最终，将Excitation输出的权重看作是经过特征选择后每个特征通道的重要性，然后通过乘法逐通道加权到输入图像的每个通道上。

总之，SENET即通过学习的方式自动获取图像中每个通道的重要程度，然后依照这个重要程度来提升对当前任务有用的特征并抑制对当前任务用处不大的特征。

因此，在以上步骤中，我们构建了表示目标位置权重的雷达特征图，又描述了表示相机图像不同通道权值的SENET网络结构，我们将二者结合，形成通道-空间注意力模块，其表示如图2所示。将该通道-空间注意力模块加至YOLOv5目标检测算法的backbone结构中，即形成基于通道-空间注意力机制的YOLOv5目标检测算法，该目标检测算法结构如图3所示。

进一步的，在S4步骤中，由于毫米波雷达测量原理为多普勒效应，因此毫米波雷达所测数据是在极坐标系下目标的距离、速度和方向角。由于卡尔曼滤波算法仅适用于线性系统，而毫米波雷达在状态更新中涉及极坐标系到笛卡尔坐标的转化这一非线性过程。因此，在这种情况下，不能用卡尔曼滤波来对毫米波雷达进行跟踪。扩展卡尔曼滤波原理与卡尔曼滤波相近，不同之处在于测量矩阵中扩展卡尔曼滤波进行了泰勒级数展开并作了一阶线性化截断处理。因此，我们采用EKF扩展卡尔曼滤波算法对毫米波雷达进行跟踪。

由于EKF算法(扩展卡尔曼滤波算法)只能跟踪单个目标，而道路行驶环境中智能汽车可能面临不止一个目标，因此将数据关联方法与扩展卡尔曼滤波相结合，满足毫米波雷达对多个目标实时跟踪的要求。结合EKF算法与数据关联的毫米波雷达目标跟踪算法原理如图4所示。

进一步的，在S5步骤中，在本文目标检测部分采用了相机为主雷达辅助的策略，在目标跟踪部分仍然采用该策略。当遇到极端雨雾等可见度不高以及目标被遮挡等条件下相机跟踪效果不好时转至雷达跟踪。相机跟踪方法融合了YOLOv5目标检测与KCF目标跟踪算法。

YOLOv5算法的优势在于通过深层卷积网络对目标特征进行提取，并采用FPN+PAN的多尺度融合检测策略，可以提高目标检测的准确性与鲁棒性。但是，基于深度学习的检测算法对于训练样本有很高要求，如果当前样本与训练样本差别很大就会出现检测算法检测不到目标的情况，导致例如特斯拉无人车撞上白色卡车这种惨案的发生。在检测算法检测不到目标的情况下就不能持续稳定的跟踪目标。KCF跟踪算法采用在线学习训练策略，不需要预先准备大量样本对模型进行训练。在跟踪过程中基于视频当前帧训练一个滤波器，使用该滤波器确定下一帧目标的位置，然后以新目标位置更新滤波器，如此重复迭代实现目标跟踪。因此，将YOLOv5目标检测算法检测到的目标检测框输出给KCF跟踪算法即可实现相机对目标的持续跟踪。整个跟踪系统原理如图5所示，检测阶段采集图像如图6所示，跟踪阶段采集图像如图7所示。

以上是本发明的具体实施方式，但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求书所限定的保护范围为准。