CN117331071A

CN117331071A - 一种基于毫米波雷达与视觉多模态融合的目标检测方法

Info

Publication number: CN117331071A
Application number: CN202311297542.5A
Authority: CN
Inventors: 魏文霞; 陈旭娜
Original assignee: Guangzhou Seal Technology Co ltd
Current assignee: Guangzhou Seal Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-02

Abstract

本发明公开了一种基于毫米波雷达与视觉多模态融合的目标检测方法，涉及目标检测技术领域，包括使用高分辨率的毫米波雷达和摄像头进行数据采集；对采集的毫米波雷达数据和图像数据进行预处理操作；对预处理后的数据进行特征提取；将雷达特征和图像特征进行融合；对融合后的数据进行目标检测，并去除重复的检测框。使用多目标跟踪算法，对检测到的目标进行跟踪；对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上。本发明所述方法通过结合毫米波雷达和计算机视觉的数据，可以从多个角度和维度对目标进行检测，大大提高了检测的准确性，多模态融合技术可以互补各种传感器的局限性，确保在各种条件下都能够正常工作。

Description

一种基于毫米波雷达与视觉多模态融合的目标检测方法

技术领域

本发明涉及目标检测技术领域，特别是一种基于毫米波雷达与视觉多模态融合的目标检测方法。

背景技术

在现代交通、机器人导航和自动驾驶等领域，障碍物检测和识别是至关重要的。传统的障碍物检测方法主要依赖单一的传感器，如摄像头、激光雷达或毫米波雷达。然而，每种传感器都有其局限性。例如，摄像头在低光或逆光条件下可能无法正常工作，而雷达在某些复杂场景中可能会受到干扰。

为了提高障碍物检测的准确性和鲁棒性，研究者开始探索多模态融合技术，即结合多种传感器的数据进行检测。其中，毫米波雷达和计算机视觉的融合受到了广泛关注。毫米波雷达可以提供目标的距离、速度和角度信息，而计算机视觉可以提供目标的形状、颜色和纹理信息。通过融合这两种信息，可以实现更准确和稳定的障碍物检测。

发明内容

鉴于上述和/或现有的基于毫米波雷达与视觉多模态融合的目标检测方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种基于毫米波雷达与视觉多模态融合的目标检测方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于毫米波雷达与视觉多模态融合的目标检测方法，其包括，使用高分辨率的毫米波雷达和摄像头进行数据采集；对采集的毫米波雷达数据和图像数据进行预处理操作；对预处理后的数据进行特征提取；基于多模态融合技术，将雷达特征和图像特征进行融合；使用深度学习的目标检测模型，对融合后的数据进行目标检测，并去除重复的检测框。使用多目标跟踪算法，对检测到的目标进行跟踪。对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上，提供直观的反馈。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：对预处理后的数据进行特征提取包括如下步骤，

从毫米波雷达数据提取速度特征、距离特征和角度特征，得到雷达特征F_r，通过如下公式进行，

F_r＝(d₁，θ₁，v₁)、(d₂，θ₂，v₂)……(d_n，θ_n，v_n)

式中，v是目标的速度，Δf是多普勒频移，f₀是雷达的工作频率，C是光速，θ是目标的方位角，是相位差，d是雷达到物体之间的距离，n是雷达探测到的点的总数；

使用卷积神经网络提取图像数据的颜色特征、纹理特征和形状特征，得到图像特征F_i。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：基于多模态融合技术，将雷达特征和图像特征进行融合包括如下步骤，

对于图像特征F_i，使用线性变换得到查询矩阵Q，键矩阵K和值矩阵V，公式如下，

Q＝W_q×F_i

K＝W_q×F_i

V＝W_V×F_i

式中，W_q、W_q和W_V均为权重矩阵；

计算查询矩阵Q和键矩阵K的点积，得到注意力得分矩阵A，公式如下，

式中，T代表转置操作，h_k是键向量的维度；

通过注意力得分矩阵A对值矩阵V进行加权求和，并与雷达特征F_r进行融合，得到融合特征Fm，公式如下，

F_w＝A×V

F_m＝F_w+Fr。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：使用深度学习的目标检测模型，对融合后的数据进行目标检测，并去除重复的检测框包括如下步骤，

根据融合后的特征维度调整YOLOv4的输入层；

使用融合后的特征和对应的标签准备训练数据，将训练数据分为训练集和验证集；

使用YOLOv4的损失函数，包括坐标损失、类别损失和置信度损失，公式如下，

式中，L是损失，λ_coord是坐标损失的权重，S是图像的分割大小，B是每个单元格的边界框数量，是一个指示器函数，表示对象是否出现在单元格中，x_i和y_i是预测的坐标，/>和/>是真实的坐标；

使用Adam优化器进行模型训练，使用早停策略防止过拟合，每个epoch后在验证集上评估模型，若模型的性能在连续的几个epoch中没有提高，则停止训练；

加载在训练数据上训练好的YOLOv4模型，将融合后的特征输入到模型中，得到目标的边界框、类别和置信度。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：使用多目标跟踪算法，对检测到的目标进行跟踪包括如下步骤，

初始化一个空的跟踪器列表，用于存储当前帧中的所有跟踪器；

对于当前帧中的每个检测结果和跟踪器，计算它们的边界框之间的IOU；

基于IOU矩阵，使用匈牙利算法为当前帧中的每个检测结果分配一个跟踪器；

对于与检测结果关联的每个跟踪器，使用卡尔曼滤波器更新其状态，公式如下，

X_k＝X_k-1+P_k(z_k-Hx_k-1)

式中，X_k是当前时刻的状态估计，X_k-1是上一时刻的状态估计，P_k是卡尔曼增益，z_k是当前时刻的观测值，H是观测矩阵。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：若某个跟踪器在连续N帧中都没有与任何检测结果关联，那么将其从跟踪器列表中删除；若某个检测结果在当前帧中没有与任何跟踪器关联，那么为其创建一个新的跟踪器并添加到跟踪器列表中。

作为本发明所述基于毫米波雷达与视觉多模态融合的目标检测方法的一种优选方案，其中：对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上，提供直观的反馈包括如下步骤，

根据预先设定的置信度阈值，筛选出置信度高于该阈值的检测结果，

R_f＝{r_i|r_i.confidence>0}

式中，R_f是筛选后的检测结果集合，r_i是单个检测结果，θ是置信度阈值，r_i.confidence是检测结果r_i的置信度值；

使用NMS算法去除重叠的检测框，确保每个物体只有一个检测框，其中，若两个检测框的IOU大于预设的阈值，则保留置信度较高的检测框并删除另一个，公式如下，

式中，A_o表示两个边界框重叠的面积，A_u表示两个边界框合并后的总面积，等于两个边界框的面积之和减去它们的重叠面积

在原始图像上绘制每个检测结果的边界框，在每个边界框旁边标注目标的类别、置信度和唯一ID，使用跟踪器的历史信息，在图像上绘制目标的移动轨迹；

在用户界面上实时显示带有检测和跟踪结果的图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明有益效果为：通过结合毫米波雷达和计算机视觉的数据，可以从多个角度和维度对目标进行检测，大大提高了检测的准确性，多模态融合技术可以互补各种传感器的局限性，确保在各种条件下都能够正常工作，通过优化算法和硬件加速，可以实现实时的障碍物检测，满足自动驾驶和机器人导航的实时性要求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1中基于毫米波雷达与视觉多模态融合的目标检测方法的场景图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明第一个实施例，该实施例提供了一种基于毫米波雷达与视觉多模态融合的目标检测方法，基于毫米波雷达与视觉多模态融合的目标检测方法包括：

S1、使用高分辨率的毫米波雷达和摄像头进行数据采集。

S2、对采集的毫米波雷达数据和图像数据进行预处理操作。

S3、对预处理后的数据进行特征提取，其包括如下步骤：

S31、从毫米波雷达数据提取速度特征、距离特征和角度特征，得到雷达特征F_r，通过如下公式进行，

F_r＝(d₁，θ₁，v₁)、(d₂，θ₂，v₂)……(d_n，θ_n，v_n)

S32、使用卷积神经网络提取图像数据的颜色特征、纹理特征和形状特征，得到图像特征F_i。

S4、基于多模态融合技术，将雷达特征和图像特征进行融合，其包括如下步骤：

基于多模态融合技术，将雷达特征和图像特征进行融合包括如下步骤，

Q＝W_q×F_i

K＝W_q×F_i

V＝W_V×F_i

式中，W_q、W_q和W_V均为权重矩阵；

式中，T代表转置操作，h_k是键向量的维度；

F_w＝A×V

F_m＝F_w+Fr。

S5、使用深度学习的目标检测模型，对融合后的数据进行目标检测，并去除重复的检测框，其包括如下步骤：

S51、根据融合后的特征维度调整YOLOv4的输入层；

S52、使用融合后的特征和对应的标签准备训练数据，将训练数据分为训练集和验证集；

S53、使用YOLOv4的损失函数，包括坐标损失、类别损失和置信度损失，公式如下，

式中，L是损失，λ_coord是坐标损失的权重，S是图像的分割大小，B是每个单元格的边界框数量，是一个指示器函数，表示对象是否出现在单元格中，x_i和y_i是预测的坐标，/>和/>是真实的坐标。

S54、使用Adam优化器进行模型训练，使用早停策略防止过拟合，每个epoch后在验证集上评估模型，若模型的性能在连续的几个epoch中没有提高，则停止训练；

S55、加载在训练数据上训练好的YOLOv4模型，将融合后的特征输入到模型中，得到目标的边界框、类别和置信度。

S6、使用多目标跟踪算法，对检测到的目标进行跟踪，其包括如下步骤：

S61、初始化一个空的跟踪器列表，用于存储当前帧中的所有跟踪器；

S62、对于当前帧中的每个检测结果和跟踪器，计算它们的边界框之间的IOU；

S63、基于IOU矩阵，使用匈牙利算法为当前帧中的每个检测结果分配一个跟踪器；

S64、对于与检测结果关联的每个跟踪器，使用卡尔曼滤波器更新其状态，公式如下，

X_k＝X_k-1+P_k(z_k-Hx_k-1)

式中，X_k是当前时刻的状态估计，X_k-1是上一时刻的状态估计，P_k是卡尔曼增益，z_k是当前时刻的观测值，H是观测矩阵；

S65、若某个跟踪器在连续N帧中都没有与任何检测结果关联，那么将其从跟踪器列表中删除；若某个检测结果在当前帧中没有与任何跟踪器关联，那么为其创建一个新的跟踪器并添加到跟踪器列表中。

S7、对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上，提供直观的反馈，其包括如下步骤：

S71、根据预先设定的置信度阈值，筛选出置信度高于该阈值的检测结果，

R_f＝{r_i|r_i.confidence>0}

S72、使用NMS算法去除重叠的检测框，确保每个物体只有一个检测框，其中，若两个检测框的IOU大于预设的阈值，则保留置信度较高的检测框并删除另一个，公式如下，

式中，A_o表示两个边界框重叠的面积，A_u表示两个边界框合并后的总面积，等于两个边界框的面积之和减去它们的重叠面积；

S73、在原始图像上绘制每个检测结果的边界框，在每个边界框旁边标注目标的类别、置信度和唯一ID，使用跟踪器的历史信息，在图像上绘制目标的移动轨迹；

S74、在用户界面上实时显示带有检测和跟踪结果的图像。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例2

为本发明的第二个实施例，为了验证本发明的有益效果，通过实验进行科学论证，实验数据如表1所述。

表1

表1中，我方技术方案的检测准确率达到了95％，比现有技术方案高出10个百分点，说明我方技术方案在目标检测上更为准确，能够更快速地响应和处理数据，且在区分目标和背景上更为准确。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：包括，

使用高分辨率的毫米波雷达和摄像头进行数据采集；

对采集的毫米波雷达数据和图像数据进行预处理操作；

对预处理后的数据进行特征提取；

基于多模态融合技术，将雷达特征和图像特征进行融合；

使用深度学习的目标检测模型，对融合后的数据进行目标检测，并去除重复的检测框；

使用多目标跟踪算法，对检测到的目标进行跟踪；

对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上，提供直观的反馈。

2.如权利要求1所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：对预处理后的数据进行特征提取包括如下步骤，

F_r＝(d₁，θ₁，v₁)、(d₂，θ₂，v₂)……(d_n，θ_n，v_n)

3.如权利要求2所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：基于多模态融合技术，将雷达特征和图像特征进行融合包括如下步骤，

Q＝W_q×F_i

K＝W_q×F_i

V＝W_V×F_i

式中，W_q、W_q和W_V均为权重矩阵；

式中，T代表转置操作，h_k是键向量的维度；

F_w＝A×V

F_m＝F_w+Fr。

4.如权利要求3所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：使用深度学习的目标检测模型，对融合后的数据进行目标检测，并去除重复的检测框包括如下步骤，

根据融合后的特征维度调整YOLOv4的输入层；

5.如权利要求4所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：使用多目标跟踪算法，对检测到的目标进行跟踪包括如下步骤，

X_k＝X_k-1+P_k(z_k-Hx_k-1)

6.如权利要求5所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：若某个跟踪器在连续N帧中都没有与任何检测结果关联，那么将其从跟踪器列表中删除；若某个检测结果在当前帧中没有与任何跟踪器关联，那么为其创建一个新的跟踪器并添加到跟踪器列表中。

7.如权利要求6所述的基于毫米波雷达与视觉多模态融合的目标检测方法，其特征在于：对检测和跟踪的结果进行后处理，将检测和跟踪的结果实时显示在用户界面上，提供直观的反馈包括如下步骤，

R_f＝{r_i|r_i.confidence＞0}

式中，R_f是筛选后的检测结果集合，r_j是单个检测结果，θ是置信度阈值，r_i.confidence是检测结果r_i的置信度值；

在用户界面上实时显示带有检测和跟踪结果的图像。