CN115830423A

CN115830423A - 基于毫米波雷达与可见光图像融合的目标检测方法

Info

Publication number: CN115830423A
Application number: CN202211597596.9A
Authority: CN
Inventors: 刘向丽; 范文靖; 王志国; 李赞; 许明辉; 付祎; 李思远
Original assignee: Xidian University; Xian Jiaotong University
Current assignee: Xidian University; Xian Jiaotong University
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-03-21

Abstract

本发明公开了一种于毫米波雷达与可见光图像融合的目标检测方法，其实现方法为：对雷达数据进行预处理，得到雷达图像；搭建毫米波雷达与可见光图像融合的目标检测网络，包括特征提取子网络、图像融合子网络以及RetinaNet网络；将经过预处理过的雷达图像和可见光图像输入毫米波雷达与可见光图像融合的目标检测网络进行训练，得到训练好的网络模型；测试集的雷达数据经过同样的预处理之后与可见光图像输入训练好的模型进行测试，得到目标检测结果。本发明相比于单独的图像检测方法，检测精度更高，能获得较好的检测结果，可用于进行目标检测。

Description

基于毫米波雷达与可见光图像融合的目标检测方法

技术领域

本发明属于数据识别技术领域，更进一步涉及应用电子设备进行识别技术领域中的一种基于毫米波雷达与可见光图像融合的目标检测方法。本发明可用于对可见光图像中的目标进行检测。

背景技术

目标检测技术是目前计算机视觉领域一个重点，热点技术，尤其是基于图像的目标检测技术更是层出不穷，模型的不断改进使得检测性能逐渐提升。但是受一些环境因素的影响，如光照，雨，雪，雾因素对目标检测的准确率造成一定影响。毫米波雷达工作在毫米波波段，具有体积小，重量轻，分辨率低，抗干扰，反隐身的特点，最重要的是毫米波雷达穿透雾、烟、灰尘的能力强，具有全天候全天时的特点。

一般情况下，使用毫米波雷达与可见光图像的融合方式有三种，分别是基于决策级别的融合，基于数据级别的融合以及基于特征级别的融合。基于决策级别的融合方式是将雷达数据和可见光图像的预测结果进行融合。基于数据级别的融合方式是将雷达数据转换到相机坐标系下，根据雷达数据生成感兴趣区域，对生成的感兴趣区域提取输入图像的对应特征，将得到的特征输入检测网络得到结果。对于基于特征级别的融合方式，近年来使用较频繁。将雷达数据转换为特定形式的数据，使用特征提取网络对可见光图像和雷达数据进行特征提取，通过融合网络进行融合，常见的融合方式包括元素级别的加，乘，拼接。融合的特征送入检测网络得到目标信息。目前对于毫米波雷达数据，常用的数据格式类型包括二维点云，三维点云，Range-Azimuth Map，Range-Angle-Doppler(RAD)张量。

上海交通大学在其申请的专利文献“一种基于融合图像特征的毫米波雷达目标检测方法及系统”(专利申请号：202111288212.0，公开号：114218999A)中公开了一种及一种基于融合图像特征的毫米波雷达目标检测方法，该方法首先通过图像特征处理模块得到输入图像的3D鸟瞰特征图，并输入至雷达数据特征与图像特征融合模块。然后通过雷达数据特征与图像特征融合模块得到规范化后的雷达特征图，并将其与3D鸟瞰特征图进行融合，得到融合后的特征图；最后基于融合后的特征图对目标检测模块的目标检测网络进行训练，得到训练好的模型提高自动驾驶汽车目标检测的准确率。该方法仍然存在的不足之处是，将图像特征转换为3D鸟瞰特征图，转换过程较为复杂，忽略了在投影变换中产生的误差以及变形，丢失图像的部分特征，计算耗时长，降低了目标检测的效率。

Shuo Chang等人在其发表的论文“Spatial Attention Fusion for ObstacleDetection Using MmWave Radar and Vision Sensor”(Sensors(Basel,Switzerland),2020,20(4))中提出了一种新的基于毫米波雷达点云数据和可见光图像的空间注意融合的目标检测方法，该方法将雷达点云投影到图像上并对点进行扩充，扩充的方式是以某点为圆心，以指定长度为半径做圆，此圆覆盖的范围全部将像素值与圆心点一致，之后采用了多个不同尺寸的核进行进行卷积提取注意矩阵，对图像特征进行增强。所提出的融合方法可以嵌入到特征提取阶段，有效地利用了毫米波雷达和可见光图像的特征。该方法仍然存在的不足之处是，由于雷达点云数据是经过傅里叶变换，恒虚警率CFAR过程产生的，特征有限，经过投影还会丢失一部分信息，导致目标检测的准确率降低。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于毫米波雷达与可见光图像融合的目标检测方法，用于解决目标检测效率低，目标检测准确率低的问题。

实现本发明目的的思路是，对雷达数据进行预处理，得到雷达图像，搭建一个基于毫米波雷达与可见光图像融合的目标检测网络，包括雷达特征提取子网络，可见光图像特征提取子网络，雷达与可见光图像融合子网络以及RetinaNet网络。其中本发明使用的雷达与可见光图像融合网络能够充分利用雷达信息对可见光图像特征增强。将经过预处理过的雷达图像和可见光图像输入毫米波雷达与可见光图像融合的目标检测网络进行训练，得到训练好的网络模型。测试集的雷达数据经过同样的预处理之后与可见光图像输入训练好的模型进行测试，得到目标检测结果。

本发明实现的具体步骤包括如下：

步骤1，对毫米波雷达数据进行预处理生成雷达图像：

步骤1.1，车载雷达在获取雷达传感器接收雷达回波信号数据的同一时刻，车载视觉传感器获得与雷达回波信号数据对应的可见光图像；

步骤1.2，将雷达回波信号数据转换矩阵A，矩阵A中的行代表距离，列代表角度；对矩阵A进行取模后再归一化，得到一个128*128*1大小的矩阵B，对矩阵A进行归一化后得到128*128*2的矩阵C，将矩阵B与矩阵C进行拼接得到矩阵D；

步骤1.3，将矩阵D保存成雷达图像；

步骤2，生成训练集：

将雷达图像与可见光图像均生成json格式的标注文件，将雷达图像、可见光图像及其生成的标注文件组成训练集；

步骤3，构建一个雷达特征提取子网络：

搭建一个10层的特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，将第一至第五卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1；卷积核数量分别设置为64，256，64，64，256。将第一至第五批规范化层参用FrozenBatchNorm函数实现；

步骤4，构建可见光特征提取子网络：

搭建一个22层的可见光特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层，第十一卷积层，第十一批规范化层。将第一至第十一卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十一卷积层的卷积核数量分别设置为64，256，64，64，256，64，64，256，64，64，256。将第一至第十一批规范化层参用FrozenBatchNorm函数实现；

步骤5，构建雷达与可见光图像融合子网络：

雷达与可见光图像融合子网络的结构依次为：第一多模态融合模块，第二多模态融合模块，第一卷积块，第二卷积块，第三卷积块；

步骤5.1，第一、第二多模态融合模块的结构相同，每个多模态融合模块的结构依次为：第一线性层，第二线性层，第三线性层，第一激活层，第二激活层。将第一多模态融合模块的第一至第三线性层的输出神经元个数均设置为256，将第二多模态融合模块的第一至第三线性层的输出神经元个数分别设置为512，256，256；

步骤5.2，第一卷积块采用Resnet50网络的Stage2结构，第二卷积块采用Resnet50网络的Stage3结构，第三卷积块使用Resnet50网络的Stage4结构；所述的Stage2，Stage3，Stage4结构均为4，6，3个Bottleneck结构串联，每个Bottleneck结构依次为第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层；

步骤6，构建目标检测网络：

将雷达特征提取子网络与可见光特征提取子网络并联后，再与图像融合子网络，RetinaNet子网络依次级联，组成毫米波雷达与可见光图像融合的目标检测网络；

步骤7，训练目标检测网络：

将训练集输入到基于毫米波雷达与可见光图像融合的目标检测网络中，利用随机梯度下降算法，迭代更新网络的权重值，优化网络的总损失函数直至其收敛为止，得到训练好的目标检测网络；

步骤8，对目标进行检测：

采用与步骤1相同的处理方法，将车载雷达传感器接收到的雷达回波信号数据进行预处理，得到的雷达图像，将雷达图像及雷达回波信号数据同一时刻的车载视觉传感器产生的可见光图像输入到训练好的网络中，输出毫米波雷达与可见光图像融合的目标检测结果。

本发明与现有的技术相比具有以下优点：

第一，由于本发明对雷达数据进行预处理，将雷达数据转换为雷达图像，获取了更丰富的特征，克服了现有技术中对可见光图像或雷达数据进行投影变换，导致目标检测效率低的问题，使得本发明在训练网络时能够更加快速的进行迭代，提高了目标检测效率。

第二，由于本发明使用了多模态融合模块搭建了基于毫米波雷达与可见光图像融合的目标检测网络，克服了现有技术中雷达数据与可见光图像融合不完全，导致检测准确度低的问题，使得本发明提高了目标检测准确率，能够更加准确地进行目标检测。

附图说明

图1为本发明的流程图。

图2为本发明的网络模型图。

图3为本发明基于毫米波雷达与可见光图像融合的目标检测网络中的多模态融合模块示意图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的实现步骤做进一步的详细描述。

步骤1，对毫米波雷达数据进行预处理生成雷达图像。

本发明实施例的毫米波雷达数据是从公开网站上下载CRUW数据集，该数据集中包含由雷达传感器接收的雷达回波信号数据和由视觉传感器产生的可见光图像，可见光图像为*.jpg格式，雷达回波信号数据为*.npy格式。

雷达回波信号数据的表达式为128*128*2大小的矩阵A，对矩阵A进行取模后再归一化，得到一个128*128*1大小的矩阵B。

对矩阵A进行归一化后得到128*128*2的矩阵C。

将矩阵B与矩阵C进行拼接，得到一个128*128*3大小预处理后的矩阵D。

将矩阵D使用mp.imsave函数保存成雷达图像。

步骤2，生成训练集和测试集。

由于本发明实施例中使用的雷达数据和可见光图像，是由雷达传感器和由视觉传感器经过良好校准和同步后同时得到的，二者是一一对应的。因此，预处理后的雷达图像与可见光图像同样是一一对应。

将预处理后的雷达图像与可见光图像均生成json格式的标注文件，将预处理后的雷达图像、可见光图像及其生成的标注文件组成训练集。

将样本集中的样本按照8:2的比例划分为训练集和测试集。

步骤3，构建一个雷达特征提取子网络，通过雷达特征提取网络得到输入雷达图像的特征图。

搭建一个10层的特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，将第一至第五卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1；卷积核数量分别设置为64，256，64，64，256。将第一至第五批规范化层参用FrozenBatchNorm函数实现。对于雷达特征提取子网络，信息相对较少，不需要使用过多卷积层进行处理也能够得到足够特征，同时能够提升检测效率。

步骤4，构建可见光特征提取子网络，通过可见光图像特征提取网络得到输入可见光图像的特征图。

搭建一个22层的可见光特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层，第十一卷积层，第十一批规范化层。将第一至第十一卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十一卷积层的卷积核数量分别设置为64，256，64，64，256，64，64，256，64，64，256。将第一至第十一批规范化层参用FrozenBatchNorm函数实现。

步骤5，构建雷达与可见光图像融合子网络，将得到的雷达特征与可见光图像特征输入雷达与可见光图像融合网络，得到融合后的特征图。

雷达与可见光图像融合子网络的结构依次为：第一多模态融合模块，第二多模态融合模块，第一卷积块，第二卷积块，第三卷积块。

参照图3对本发明实施例构建的多模态融合模块作进一步的描述。

第一、第二多模态融合模块的结构相同，每个多模态融合模块的结构依次为：第一线性层，第二线性层，第三线性层，第一激活层，第二激活层。将第一多模态融合模块的第一至第三线性层的输出神经元个数均设置为256，将第二多模态融合模块的第一至第三线性层的输出神经元个数分别设置为512，256，256。使用多模态融合模块能够充分融合雷达与可见光的特征信息，提升目标检测准确率。

第一卷积块使用Resnet50网络的Stage2结构，共26层的网络。其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层，第十一卷积层，第十一批规范化层，第十二卷积层，第十二批规范化层，第十三卷积层，第十三批规范化层。将第一至第十三卷积层的卷积核大小分别设置为1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十三卷积层的卷积核数量分别设置为512，128，128，512，128，128，512，128，128，512，128，128，512。将第一至第十三批规范化层参用FrozenBatchNorm函数实现。

第二卷积块使用Resnet50网络的Stage3结构，共38层的网络。其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层，第十一卷积层，第十一批规范化层，第十二卷积层，第十二批规范化层，第十三卷积层，第十三批规范化层，第十四卷积层，第十四批规范化层，第十五卷积层，第十五批规范化层，第十六卷积层，第十六批规范化层，第十七卷积层，第十七批规范化层，第十八卷积层，第十八批规范化层，第十九卷积层，第十九批规范化层。将第一至第十九卷积层的卷积核大小分别设置为1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十九卷积层的卷积核数量分别设置为1024，256，256，1024，256，256，1024，256，256，1024，256，256，1024，256，256，1024，256，256，1024。将第一至第十九批规范化层参用FrozenBatchNorm函数实现。

第三卷积块使用Resnet50网络的Stage4结构。共20层的网络。其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层。将第一至第十卷积层的卷积核大小分别设置为1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十卷积层的卷积核数量分别设置为2048，512，512，2048，512，512，2048，512，512，2048。将第一至第十批规范化层参用FrozenBatchNorm函数实现。Resnet50是现有的十分成熟的网络，在目标检测领域能够得到良好的性能，选择此网络对信息进一步融合。

步骤6，构建目标检测网络。

将雷达特征提取子网络与可见光特征提取子网络并联后，再与图像融合子网络，RetinaNet子网络依次级联，组成毫米波雷达与可见光图像融合的目标检测网络。所述RetinaNet子网络为现有技术搭建并设置好参数scale为(32，64，128，256，512)，ratios为(0.5，1.0，2.0)。

根据雷达与可见光图像融合子网络中的第一卷积块，第二卷积块，第三卷积块的输出产生p3-p7特征图。

将p3-p7特征图输入各自的Head部分，得到类别结果，中心度及位置结果。

步骤7，训练目标检测网络。

将训练集输入到基于毫米波雷达与可见光图像融合的目标检测网络中，利用随机梯度下降算法，迭代更新网络的权重值，优化网络的总损失函数直至其收敛为止，得到训练好的目标检测网络。

将可见光检测图像和雷达图像等统一设置为长1333，宽800的大小，在每次迭代时随机进行翻转，对数据进行标准化。

设训练批次大小batch为1，即每次迭代以1张可见光图片和1张雷达图片为一组进行训练，模型每迭代一次模型中的参数就进行一次优化。

设初始学习率为0.001，权重衰减设置为0.0001，在一定程度上减少模型过拟合的问题。

设置网络最大迭代次数为10000，经过多轮训练之后得到训练好的融合网络模型。

步骤8，训练完成后输入测试集数据进行目标检测。

将测试集中的每张测试子图像输入到训练好的网络，得到最终的基于毫米波雷达与可见光图像融合的目标检测结果。

以下通过仿真实验，对本发明的技术效果作进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为11th Gen Intel(R)Core，处理器主频为3.50GHz，显卡为NVIDIA GeForce RTX 3090。

本发明的仿真实验的软件平台为：Windows 10系统。

在Python3.7的Pytorch下搭建基于毫米波雷达与可见光图像融合的目标检测网络，开发语言为Python。Pytorch版本为1.7.1+cu110。

2、仿真实验内容及结果分析：

在上述条件下使用CRUW数据集中的20190929_ONRD006中的数据，场景是在公路上行驶采集的数据，用单独可见光图像作为输入的目标检测网络以及本发明搭建的目标检测融合网络进行仿真实验，其中单独可见光图像的检测网络和本发明的网络的区别只有雷达支路是否存在，其他参数保持一致。得到目标检测网络的准确率和召回率。雷达目标检测是指，Yizhou Wang等人在“RODNet:Radar Object Detection using Cross-ModalSupervision，Workshop on Applications of Computer Vision IEEE，2021”提出的RODNet的目标检测方法。对检测结果进行对比，如表1：

表1：目标检测结果对比

	雷达目标检测	可见光图像目标检测	本发明
				准确率AP	83.76	90.8％	98.2％
召回率AR	85.62	71.0％	74.5％

由表1可知，本发明的目标检测的准确率为98.2％，相比于可见光图像目标检测的准确率90.8％，提升了7.4％，相比于雷达目标检测的准确率83.76％，提升了14.44％；本发明的目标检测的召回率为74.5％，相比于可见光图像目标检测的召回率71.0％，提升了3.5％，相比于雷达目标检测的召回率85.62％，降低了11.12％。本发明的准确率增长较高，但召回率略低，以部分召回率为代价获得了准确率的提高，得到更加优异的结果。

综上所述，本发明提出的基于毫米波雷达与可见光图像融合的目标检测方法可以对可见光图像进行更加准确地检测。

Claims

1.一种基于毫米波雷达与可见光图像融合的目标检测方法，其特征在于，对毫米波雷达数据进行预处理生成雷达图像，在目标检测网络中构建雷达与可见光图像融合子网络；该方法的步骤包括如下：

步骤1，对毫米波雷达数据进行预处理生成雷达图像：

步骤1.3，将矩阵D保存成雷达图像；

步骤2，生成训练集：

步骤3，构建一个雷达特征提取子网络：

搭建一个10层的特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，将第一至第五卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1；卷积核数量分别设置为64，256，64，64，256；将第一至第五批规范化层参用FrozenBatchNorm函数实现；

步骤4，构建可见光特征提取子网络：

搭建一个22层的可见光特征提取子网络，其结构依次为：第一卷积层，第一批规范化层，第二卷积层，第二批规范化层，第三卷积层，第三批规范化层，第四卷积层，第四批规范化层，第五卷积层，第五批规范化层，第六卷积层，第六批规范化层，第七卷积层，第七批规范化层，第八卷积层，第八批规范化层，第九卷积层，第九批规范化层，第十卷积层，第十批规范化层，第十一卷积层，第十一批规范化层；将第一至第十一卷积层的卷积核大小分别设置为7×7，1×1，1×1，3×3，1×1，1×1，3×3，1×1，1×1，3×3，1×1；将第一至第十一卷积层的卷积核数量分别设置为64，256，64，64，256，64，64，256，64，64，256；将第一至第十一批规范化层参用FrozenBatchNorm函数实现；

步骤5，构建雷达与可见光图像融合子网络：

步骤5.1，第一、第二多模态融合模块的结构相同，每个多模态融合模块的结构依次为：第一线性层，第二线性层，第三线性层，第一激活层，第二激活层；将第一多模态融合模块的第一至第三线性层的输出神经元个数均设置为256，将第二多模态融合模块的第一至第三线性层的输出神经元个数分别设置为512，256，256；

步骤6，构建目标检测网络：

步骤7，训练目标检测网络：

步骤8，对目标进行检测：

采用与步骤1相同的处理方法，将车载雷达传感器接收到的雷达回波信号数据进行预处理，得到雷达图像，将雷达图像及雷达回波信号数据同一时刻的车载视觉传感器产生的可见光图像输入到训练好的网络中，输出毫米波雷达与可见光图像融合的目标检测结果。

2.根据权利要求1所述的基于毫米波雷达与可见光图像融合的目标检测方法，其特征在于，步骤7中所述的总损失函数如下：

其中，L表示融合目标检测网络的总损失函数，L_cls表示融合目标检测网络输出目标框的类别损失，L_reg表示融合目标检测网络输出目标框与标记的真实框之间的位置损失，N_pos为训练集的正样本数，λ设置为1表示L_reg的平衡权重。