CN117274749B - 一种基于4d毫米波雷达和图像的融合3d目标检测方法 - Google Patents
一种基于4d毫米波雷达和图像的融合3d目标检测方法 Download PDFInfo
- Publication number
- CN117274749B CN117274749B CN202311561947.5A CN202311561947A CN117274749B CN 117274749 B CN117274749 B CN 117274749B CN 202311561947 A CN202311561947 A CN 202311561947A CN 117274749 B CN117274749 B CN 117274749B
- Authority
- CN
- China
- Prior art keywords
- millimeter wave
- target detection
- bev
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 229910052698 phosphorus Inorganic materials 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000002310 reflectometry Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100025444 Gamma-butyrobetaine dioxygenase Human genes 0.000 description 1
- 101000934612 Homo sapiens Gamma-butyrobetaine dioxygenase Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于自动驾驶技术领域,具体为一种基于4D毫米波雷达和图像的融合3D目标检测方法。包括获取样本数据集,样本数据集包括4D毫米波雷达的点云和单目相机图像;基于样本数据集构建端到端3D目标检测网络,并进行训练;计算损失函数值,根据计算出的损失函数值反向传播更新端到端3D目标检测网络参数;利用更新好的端到端3D目标检测网络进行目标检测。本发明利用多模态数据之间的冗余性提升系统的鲁棒性,利用毫米雷达数据的高度稀疏性提升3D目标检测处理速率,并在此过程中,对4D毫米波雷达进行速度维度的特征工程处理,来保证自动驾驶场景下3D目标检测的精度。
Description
技术领域
本发明属于自动驾驶技术领域,具体为一种基于4D毫米波雷达和图像的融合3D目标检测方法。
背景技术
3D目标检测是自动驾驶汽车视觉感知系统的重要组成部分。3D目标检测的整体目标是通过绘制一个定向的3D边界框,输出包括目标的三维位置和朝向信息。
现代自动驾驶汽车通常配备多种传感器,如激光雷达和摄像头。视觉传感器采集的数据具有丰富的颜色纹理信息,易于对目标进行识别分类且成本较低,但其缺乏深度信息,且易受天气(雨、雾、灰尘)和光照(夜晚)的影响。激光雷达通过发射光束并接受目标的反射信号,可以得到目标的距离和角度等空间位置参数,被广泛应用于3D目标检测领域,但其抗干扰能力较低,易受天气影响,且对系统实时性有较高要求,同时价格高昂。毫米波雷达通过发射和接受电磁波,可以得到目标的距离、径向速度和方位角等空间位置参数,且对于恶劣天气鲁棒性强,具有全天候的特点,同时成本较低,但传统毫米波雷达缺乏高度信息,无法将道路交通信息反映在真实的3D空间中。近年来,4D毫米波雷达的出现弥补了传统毫米波雷达的缺陷,在拥有更稠密的点云的同时,增加了高度信息,可以捕捉车辆周围目标的空间坐标和速度。但相较于相机和高线束激光雷达,4D毫米波雷达语义信息模糊,仅仅依靠4D毫米波雷达进行精确感知仍然非常困难。
因此,在保证低成本以及系统鲁棒性和冗余性的前提下,如何融合4D毫米波雷达和图像的信息实现高精度的3D目标检测任务是自动驾驶亟待解决的问题。
发明内容
本发明的目的在于提供一种基于4D毫米波雷达和图像的融合3D目标检测方法,以提升目标检测精度。
为实现上述目的,本发明采用如下技术方案:
一种基于4D毫米波雷达和图像的融合3D目标检测方法,包括以下步骤:
步骤1、获取样本数据集,样本数据集包括4D毫米波雷达的点云和单目相机图像;
步骤2、基于样本数据集构建端到端3D目标检测网络,并进行训练;
步骤3、计算损失函数值,根据计算出的损失函数值反向传播更新端到端3D目标检测网络参数;
步骤4、利用更新好的端到端3D目标检测网络进行目标检测。
进一步的,所述步骤2的训练过程如下:
2.1、生成第一BEV特征和第二BEV特征
所述第一BEV特征的生成包括以下子步骤:
a1、根据4D毫米波雷达点云生成用作显示监督的稀疏深度图;
a2、以单目图像为输入,使用预训练的ResNet50主干网络和FPN网络提取图像特征;然后将提取的图像特征输入至单目深度估计网络,预测图像的深度估计,并在预测过程中引入稀疏深度图对单目深度估计网络进行显示监督,从而得到第一BEV特征;
所述第二BEV特征的生成包括以下子步骤:
b1、对4D毫米波雷达点云的速度维度进行特征工程,并将其加入到原始的毫米波雷达点云特征之中,得到7维的4D毫米波雷达点云;
b2、使用PointPillars的点云编码方法,对b1得到的7维的4D毫米波雷达点云进行转化,得到第二BEV特征;
2.2、使用通道注意力机制的卷积神经网络融合第一BEV特征和第二BEV特征,得到融合特征;
2.3、以融合特征为输入,使用神经网络进行预测得到预测检测结果;将预测检测结果与预设锚框进行匹配、回归,得到最终的目标检测结果。
更进一步的,所述a1生成稀疏深度图的计算公式如下所示:
(2)
其中,pts为原始点云,大小为N×3,Tr_velo_to_cam为点云转换至相机坐标系的外参,P0为相机内参矩阵。
更进一步的,所述a2单目深度估计网络采用了Lift-Splat-Shoot(LSS)结构。
更进一步的,在a2采用单目深度估计网络预测过程中,针对引入的稀疏深度图,采用了双线性插值方法构深度标签,以获得稠密深度图,从而提升监督效果。
更进一步的, 所述b2的详细步骤包括:
b2.1、在x-y平面上均匀划分P个网格,每个网格代表一个柱子,每个柱子在z方向都是无限延伸的;
b2.2、将预处理后的7维点云分配至每个柱子中并进行编码,添加每个点到所属柱子的算数平均值的距离、以及每个点x-y方向上到柱子x-y中心的偏移量;
b2.3、采用多采样、少补零的方法在每个柱子中设置最大点云数量N,形成一个(9,P,N)的稠密张量,使用点网从9维的稠密张量中提取特征得到点云特征图,并对其进行进行最大池化处理,得到每个柱子中最具代表性的点;
b2.4、将P个柱子按照第一步的划分规则划分为H×W投影到x-y平面,得到(C,H,W)的伪图像,即第二BEV特征。
更进一步的,所述2.2的详细步骤包括:
2.2.1、以第一BEV特征为输入,先使用1×1卷积层减少特征的通道数量,再使用两个3×3卷积层进行深层特征提取之后与其相加,得到对齐的第一BEV特征;
2.2.2、将对齐的第一BEV特征与第二BEV特征进行通道注意力计算,得到融合特征。
更进一步的,所述2.3将预测检测结果与预设锚框进行匹配,得到最终的目标检测结果步骤包括:
2.3.1、使用PointPillars作为检测头,根据不同检测类别预设锚框,每个检测类别的锚框数量和角度根据需求设定;
2.3.2、采用是2D IOU的匹配算法,完成预测检测结果与预设锚框的匹配,并根据匹配结果进行回归得到最终的目标检测结果输出,所述目标检测结果包括3D检测框的位置和朝向信息。
进一步的,所述步骤3的损失函数值包括:深度估计损失和3D目标检测损失,深度损失计算如式(6)所示,3D目标检测损失计算如式(7)所示:
(6)
其中,和/>分别代表深度的预测值和深度的真值;
(7)
其中,代表类别损失,使用Focal Loss以平衡不同类别之间的损失差别;代表检测框回归损失、/>代表朝向损失,位置和方向损失使用交叉熵损失;/>代表深度估计损失,/>是根据经验设置的超参数。
本发明提供的一种基于4D毫米波雷达和图像的融合3D目标检测方法,通过构建端到端的3D目标检测网络,实现了目标检测精度的提升。在端到端的3D目标检测网络中,以单目图像为输入提取的图像特征,再将图像特征输入至单目深度估计网络预测图像的深度估计,并在预测过程中引入稀疏深度图对单目深度估计网络进行显示监督,从而得到第一BEV特征。以4D毫米波雷达点云为输入,对4D毫米波雷达点云的速度维度进行特征工程,得到7维的4D毫米波雷达点云;使用PointPillars的点云编码方法,对b1得到的7维的4D毫米波雷达点云进行转化,得到第二BEV特征。然后对第一BEV特征和第二BEV特征进行融合,从而实现了在BEV视角下预测3D目标检测结果。
与现有技术相比,本发明的有益效果是:
1、本发明利用多模态数据,即利用不同性质传感器采集数据之间的冗余性提升系统的鲁棒性,通过对4D毫米波雷达进行速度维度的特征工程处理,实现了保证检测精度的前提下,提升自动驾驶场景下3D目标检测的鲁棒性。
2、本发明利用毫米雷达数据的高度稀疏性,提升了处理速率。
附图说明
图1是本发明融合3D目标检测方法的流程图;
图2是本发明融合部分网络结构的示意图。
实施方式
下面将结合附图与实施例实对本发明技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参阅图1,本实施例提供的一种基于4D毫米波雷达和图像的融合3D目标检测方法,括以下步骤:
步骤1、获取样本数据集。样本数据集包括4D毫米波雷达的点云和单目相机图像。本实施例获取的单目相机图像分辨率为1936 × 1216。4D毫米波雷达点云包含六维信息,其中,/>表示点云的空间三维坐标,RCS表示点云的反射率,v表示点云的相对移动速度,T为时间戳。输出为3D检测框的位置和朝向信息,包括中心坐标/>,检测框尺寸/>,以及旋转角/>。
步骤2、基于样本数据集构建端到端3D目标检测网络,并进行训练。所述训练过程包括:
2.1、生成第一BEV特征和第二BEV特征。
生成第一BEV特征
以单目图像为输入,使用预训练的ResNet50主干网络和FPN网络提取图像特征。然后将提取的图像特征输入至单目深度估计网络,预测图像的深度估计,并在预测过程中引入稀疏深度图对单目深度估计网络进行显示监督,从而得到第一BEV特征。所述单目深度估计网络采用了Lift-Splat-Shoot(LSS)结构。具体预测方法如下:
先通过预设一组离散的深度值,对输入单目图像的每个像素点进行深度估计,然后将估计的深度特征与图像特征外积得到三维视锥特征。再将视锥特征通过相机的内外参数转换为三维坐标的点。然后通过对BEV空间划分栅格,将每个点分配到对应的栅格的“柱子”中,最后将柱子“拍扁”为BEV特征。预测出图像对应的BEV特征的,如果多个像素点在同一个位置,则采用QuickCumsum算法计算新的特征,即将同一个位置的点进行特征的相加去重,最后得到BEV特征。
为提升单目深度估计网络预测准确度,本实施例使用4D毫米波雷达点云生成稀疏深度图作为单目深度估计网络的监督值,对单目图像的深度估计网络进行监督,以增强单目图像的BEV特征,从而提升整体的检测效果。监督过程中损失函数采用公式(1)计算深度标签与预测深度之间的损失。
(1)
其中,为深度预测网络预测的深度值,/>是4D毫米波雷达点云生成的深度标签。所述稀疏深度图的生成方法如下:
使用4D毫米波雷达的标定数据,先将点云从点云坐标系转换到世界坐标系,再通过外参转换至相机坐标系,最后通过相机内参转换至图像坐标系并生成深度信息,以创建出以4D毫米波雷达为显式监督的稀疏深度图。生成稀疏深度图的过程可以按照如下公式计算:
(2)
其中,pts为原始点云,大小为N×3,Tr_velo_to_cam为点云转换至相机坐标系的外参,P0为相机内参矩阵。
在实际应用中,由于4D毫米波雷达点云较为稀疏,为了获得更好的监督效果,本实施例针对引入的稀疏深度图,采用了双线性插值方法构建更加稠密的深度标签,以获得稠密深度图。其公式表示为:
(3)
其中,表示四个已知数据的点,/>表示待求点。
生成第二BEV特征
b1、对4D毫米波雷达点云的速度维度进行特征工程,得到7维的4D毫米波雷达点云数据。4D毫米波雷达点云包含六维信息,其中,/>表示点云的空间三维坐标,RCS表示点云的反射率,v表示点云的相对移动速度,T为时间戳。使用DBSCAN方法对速度维度聚类,离群点或者噪点的聚类标签为-1,然后将聚类结果作为额外的特征维度加入原始数据,得到7维的4D毫米波雷达点云数据。通过添加额外的特征维度,增强了特征表示并提升网络的鲁棒性,同时还可以增强网络迁移学习的能力。
特征工程是指在机器学习和数据挖掘任务中,通过对原始数据进行转换、提取和选择,以创建新的特征或改进现有特征的过程,是构建有效模型和提高预测性能的关键步骤之一。
现有的目标检测方法对于毫米波雷达的速度特征,一般是直接作为额外的特征维度输入网络,通过下游任务的反馈,观察其在主干网络中学习的结果,没有针对速度特征做单独的处理。
由于毫米波雷达点云相对稀疏,本实施例在输入端到端3D目标检测网络前对速度特征进行聚类,并将聚类结果作为额外的维度加入原始特征,基于相同目标的点在速度上更为相近这一特点,通过速度的聚类信息,提升目标检测的结果以此做特征工程。
b2、对7维的4D毫米波雷达点云数据进行转化,得到第二BEV特征。具体操作方法如下:
在x-y平面上均匀划分P个网格,每个网格代表一个柱子,即z方向无限延伸的体素。将预处理后的7维点云分配至每个柱子中并进行编码,添加每个点到所属柱子的算数平均值的距离、以及每个点x-y方向上到柱子x-y中心的偏移量。采用多采样、少不零的方法在每个柱子中设置最大点云数量N,形成一个(9,P,N)的稠密张量,使用点网从9维的稠密张量中提取特征得到点云特征图,并对其进行进行最大池化处理,得到每个柱子中最具代表性的点。将P个柱子按照第一步的划分规则划分为H×W投影到x-y平面,得到(C,H,W)的伪图像,即第二BEV特征。
2.2、使用通道注意力机制的卷积神经网络融合第一BEV特征和第二BEV特征,得到融合特征。本实施例中,通道注意力机制获取取到特征图的每个通道的重要程度,根据获取的重要程度给每个特征赋予一个权重值,从而让卷积神经网络重点关注某些特征通道,提升对当前任务有用的特征图的通道,并抑制对当前任务用处不大的特征通道。详细的操作步骤参阅图2:
以第一BEV特征为输入,先使用1×1卷积层减少特征的通道数量,再使用两个3×3卷积层进行深层特征提取之后与其相加,得到对齐的第一BEV特征,这部分操作的表现形式为:
(4)
其中,和/>分别表示图像BEV特征和进行通道对齐后的输出特征,Conv为卷积操作,/>表示更细致的特征。
将对齐的第一BEV特征与第二BEV特征进行通道注意力计算,以关注更可能存在目标的区域,从而得到融合特征。详细操作步骤如下:
针对对齐后的第一BE特征和第二BE特征,先使用1×1卷积进行融合后,进行全局平均池化获取上下文信息,然后计算注意力向量引导网络关注注意力权重更高的通道。其表现形式为:
(5)
其中,Global表示全局池化操作,RadarFea和ImgFea分别对应4D毫米波雷达点云和图像的BEV特征,表示元素级相乘,Sigmoid表示Sigmoid函数。
2.3、使用融合特征进行3D目标检测
本实施例使用PointPillars作为检测头,设置每个类别对应的锚框进行检测框回归以及类别预测。PointPillars算法避免了在3D目标检测中使用资源消耗巨大的3D卷积,通过对柱状体素编码的方式,将融合特征转化为伪图像,然后使用2D图像的检测方式进行检测,最后再回归3D BBOX得到结果。具体操作方法如下:
以融合特征为输入,使用神经网络预测出目标检测结果。
根据不同的检测类别设置不同的锚框。本实施例共设有三个类别的锚框,每个锚框都有两个方向:分别是BEV视角下的0度和90度。每个类别的先验证只有一种尺度信息;分别是车 [3.9, 1.6, 1.56]、人[0.8, 0.6, 1.73]、自行车[1.76, 0.6, 1.73](单位:米),因此共有3种类型的6个锚框。
采用是2D IOU的匹配算法,完成预测检测结果与预设锚框进行真值匹配,并将匹配结果作为最终的目标检测结果输出,所述目标检测结果包括3D检测框的位置和朝向信息。需要说明的是,本实施例在锚框真值匹配过程中,使用的是2D IOU的匹配算法,直接在BEV视角进行匹配;并没有考虑高度信息,因此,在回归的过程中,每个锚框都需要预测7个参数,分别是,其中/>预测一个锚框的中心坐标在点云中的位置,分别预测了一个锚框的长宽高数据,/>预测了锚框的旋转角度。
步骤3、计算损失函数值,根据计算出的损失函数值反向传播更新端到端3D目标检测网络参数。深度损失计算如式(6)所示,3D目标检测损失计算如式(7)所示:
(6)
其中,和/>分别代表深度的预测值和深度的真值;
(7)
其中,代表类别损失,使用Focal Loss以平衡不同类别之间的损失差别;代表检测框回归损失、/>代表朝向损失,位置和方向损失使用交叉熵损失;/>代表深度估计损失,/>是根据经验设置的超参数。
步骤4、利用更新好的端到端3D目标检测网络进行目标检测。
对上述方法进行验证:
本实施例的训练和测试均使用VOD数据集,VOD数据集不仅包含相机和激光雷达数据,同时包含4D毫米波雷达数据,该数据集包含多个场景下8600帧数据,同时包含多个类别的标注信息,图像分辨率为1936 × 1216。VOD(The View-of-Delft dataset)数据集为代尔夫特大学发布自动驾驶数据集。使用MMDetection3D部署网络,NVIDIA GeForce GTXTITAN X上训练,批大小设置为4,使用Adam优化器,学习率设置为0.0001,并分别在20,40,60轮次将学习率减小10倍。
表1展示了本实施例的融合4D目标检测方法检测结果与传统的PointPillars检测方法检测结果。其中结果分为两种情况,第一种为对于道路全场景标注区域进行检测,而由于自动驾驶更关注行车区域的检测结果,因此特别地,对于自车前方25米,以及左右各4米内的行车区域做了检测。
表1
参阅表1可知,相较于传统的PointPillars检测方法,本实施例的融合3D目标检测方法的检测精度更高,由于毫米波雷达对于恶劣天气的鲁棒性以及低廉的成本,本发明对于实际应用有很大的价值。
上述实施例仅是本发明的较好的实施例,不局限于发明。在这里应指出对于本领域的技术人员来说,在本发明提供的技术相关启示之下,有可能趋其他相似改进,均可以实现本发明的目的,都应当是作为本发明的保护范围。
Claims (8)
1.一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于,包括以下步骤:
步骤1、获取样本数据集,样本数据集包括4D毫米波雷达的点云和单目相机图像;
步骤2、基于样本数据集构建端到端3D目标检测网络,并进行训练;
步骤3、计算损失函数值,根据计算出的损失函数值反向传播更新端到端3D目标检测网络参数;
步骤4、利用更新好的端到端3D目标检测网络进行目标检测;
所述步骤2的训练过程如下:
2.1、生成第一BEV特征和第二BEV特征
所述第一BEV特征的生成包括以下子步骤:
a1、根据4D毫米波雷达点云生成用作显示监督的稀疏深度图;
a2、以单目图像为输入,使用预训练的ResNet50主干网络和FPN网络提取图像特征;基于提取的图像特征使用单目深度估计网络,预测图像的深度估计,并在预测过程中引入稀疏深度图对单目深度估计网络进行显示监督,从而得到第一BEV特征;
所述第二BEV特征的生成包括以下子步骤:
b1、对4D毫米波雷达点云的速度维度进行特征工程,并将其加入到原始的毫米波雷达点云特征之中,得到7维的4D毫米波雷达点云;
b2、使用PointPillars的点云编码方法,对b1得到的7维的4D毫米波雷达点云进行转化,得到第二BEV特征;
2.2、使用通道注意力机制的卷积神经网络融合第一BEV特征和第二BEV特征,得到融合特征;
2.3、以融合特征为输入,使用神经网络进行预测得到预测检测结果;将预测检测结果与预设锚框进行匹配、回归,得到最终的目标检测结果。
2.根据权利要求1所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于,所述a1生成稀疏深度图的计算公式如下所示:
(2)
其中,pts为原始点云,大小为N×3,Tr_velo_to_cam为点云转换至相机坐标系的外参,P0为相机内参矩阵。
3.根据权利要求1所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于:所述a2单目深度估计网络采用了Lift-Splat-Shoot结构。
4.根据权利要求1所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于:所述a2在采用单目深度估计网络预测过程中,针对引入的稀疏深度图,采用了双线性插值方法构建深度标签,以获得稠密深度图。
5.根据权利要求1所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于:所述b2的详细步骤包括:
b2.1、在x-y平面上均匀划分P个网格,每个网格代表一个柱子,每个柱子在z方向都是无限延伸的;
b2.2、将预处理后的7维点云分配至每个柱子中并进行编码,添加每个点到所属柱子的算数平均值的距离、以及每个点x-y方向上到柱子x-y中心的偏移量;
b2.3、采用多采样、少补零的方法在每个柱子中设置最大点云数量N,形成一个(9,P,N)的稠密张量,使用点网从9维的稠密张量中提取特征得到点云特征图,并对其进行进行最大池化处理,得到每个柱子中最具代表性的点;
b2.4、将P个柱子按照第一步的划分规则划分为H×W投影到x-y平面,得到(C,H,W)的伪图像,即第二BEV特征。
6.根据权利要求5所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于,所述2.2的详细步骤包括:
2.2.1、以第一BEV特征为输入,先使用1×1卷积层减少特征的通道数量,再使用两个3×3卷积层进行深层特征提取之后与其相加,得到对齐的第一BEV特征;
2.2.2、将对齐的第一BEV特征与第二BEV特征进行通道注意力计算,得到融合特征。
7.根据权利要求5所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于,所述2.3将预测检测结果与预设锚框进行匹配,得到最终的目标检测结果步骤包括:
2.3.1、使用PointPillars作为检测头,根据不同检测类别预设锚框,每个检测类别的锚框数量和角度根据需求设定;
2.3.2、采用是2D IOU的匹配算法,完成预测检测结果与预设锚框的匹配,并根据匹配结果回归得到最终的目标检测结果输出,所述目标检测结果包括3D检测框的位置和朝向信息。
8.根据权利要求1所述的一种基于4D毫米波雷达和图像的融合3D目标检测方法,其特征在于,所述步骤3的损失函数值包括:深度估计损失和3D目标检测损失,深度损失计算如式(6)所示,3D目标检测损失计算如式(7)所示:
(6)
其中,和/>分别代表深度的预测值和深度的真值;
(7)
其中,代表类别损失,使用Focal Loss以平衡不同类别之间的损失差别;/>代表检测框回归损失、/>代表朝向损失,位置和方向损失使用交叉熵损失;/>代表深度估计损失,/>是根据经验设置的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561947.5A CN117274749B (zh) | 2023-11-22 | 2023-11-22 | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561947.5A CN117274749B (zh) | 2023-11-22 | 2023-11-22 | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117274749A CN117274749A (zh) | 2023-12-22 |
CN117274749B true CN117274749B (zh) | 2024-01-23 |
Family
ID=89218248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311561947.5A Active CN117274749B (zh) | 2023-11-22 | 2023-11-22 | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274749B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612129B (zh) * | 2024-01-24 | 2024-04-16 | 苏州元脑智能科技有限公司 | 车辆动态感知方法、系统及动态感知模型训练方法 |
CN117746204B (zh) * | 2024-02-19 | 2024-05-07 | 电子科技大学 | 一种基于图像和毫米波雷达融合的概率目标检测方法 |
CN118155038B (zh) * | 2024-05-11 | 2024-10-18 | 中国第一汽车股份有限公司 | 多目标轨迹检测方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610044A (zh) * | 2021-08-19 | 2021-11-05 | 清华大学 | 基于自注意力机制的4d毫米波三维目标检测方法及系统 |
CN115712108A (zh) * | 2022-10-14 | 2023-02-24 | 际络科技(上海)有限公司 | 毫米波雷达目标检测模型训练方法、检测方法及装置 |
CN116129234A (zh) * | 2023-03-14 | 2023-05-16 | 南京理工大学 | 一种基于注意力的4d毫米波雷达与视觉的融合方法 |
CN116469079A (zh) * | 2023-04-21 | 2023-07-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶bev任务学习方法及相关装置 |
CN116486396A (zh) * | 2023-04-14 | 2023-07-25 | 南京航空航天大学 | 一种基于4d毫米波雷达点云的3d目标检测方法 |
CN116895059A (zh) * | 2023-07-11 | 2023-10-17 | 深圳佑驾创新科技股份有限公司 | 一种多目透视图像的bev空间目标检测方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11113584B2 (en) * | 2020-02-04 | 2021-09-07 | Nio Usa, Inc. | Single frame 4D detection using deep fusion of camera image, imaging RADAR and LiDAR point cloud |
CN113674421B (zh) * | 2021-08-25 | 2023-10-13 | 北京百度网讯科技有限公司 | 3d目标检测方法、模型训练方法、相关装置及电子设备 |
CN113902897B (zh) * | 2021-09-29 | 2022-08-23 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
-
2023
- 2023-11-22 CN CN202311561947.5A patent/CN117274749B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610044A (zh) * | 2021-08-19 | 2021-11-05 | 清华大学 | 基于自注意力机制的4d毫米波三维目标检测方法及系统 |
CN115712108A (zh) * | 2022-10-14 | 2023-02-24 | 际络科技(上海)有限公司 | 毫米波雷达目标检测模型训练方法、检测方法及装置 |
CN116129234A (zh) * | 2023-03-14 | 2023-05-16 | 南京理工大学 | 一种基于注意力的4d毫米波雷达与视觉的融合方法 |
CN116486396A (zh) * | 2023-04-14 | 2023-07-25 | 南京航空航天大学 | 一种基于4d毫米波雷达点云的3d目标检测方法 |
CN116469079A (zh) * | 2023-04-21 | 2023-07-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶bev任务学习方法及相关装置 |
CN116895059A (zh) * | 2023-07-11 | 2023-10-17 | 深圳佑驾创新科技股份有限公司 | 一种多目透视图像的bev空间目标检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117274749A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Bridging the view disparity between radar and camera features for multi-modal fusion 3d object detection | |
US11532151B2 (en) | Vision-LiDAR fusion method and system based on deep canonical correlation analysis | |
CN117274749B (zh) | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 | |
CN110738121A (zh) | 一种前方车辆检测方法及检测系统 | |
US20230213643A1 (en) | Camera-radar sensor fusion using local attention mechanism | |
CN111832655A (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
Wang et al. | High dimensional frustum pointnet for 3d object detection from camera, lidar, and radar | |
CN116685874A (zh) | 摄像机-激光雷达融合对象检测系统和方法 | |
CN112215306A (zh) | 一种基于单目视觉与毫米波雷达融合的目标检测方法 | |
Li et al. | A feature pyramid fusion detection algorithm based on radar and camera sensor | |
CN115187964A (zh) | 基于多传感器数据融合的自动驾驶决策方法及SoC芯片 | |
Ouyang et al. | A cgans-based scene reconstruction model using lidar point cloud | |
CN115830265A (zh) | 一种基于激光雷达的自动驾驶运动障碍物分割方法 | |
Carranza-García et al. | Object detection using depth completion and camera-LiDAR fusion for autonomous driving | |
CN114966696A (zh) | 一种基于Transformer的跨模态融合目标检测方法 | |
CN116486368A (zh) | 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法 | |
CN116486396A (zh) | 一种基于4d毫米波雷达点云的3d目标检测方法 | |
CN114155414A (zh) | 面向无人驾驶的新型特征层数据融合的方法、系统及目标检测方法 | |
Chen et al. | Multitarget vehicle tracking and motion state estimation using a novel driving environment perception system of intelligent vehicles | |
CN117593707B (zh) | 一种车辆识别方法及设备 | |
Yu et al. | Sparsefusion3d: Sparse sensor fusion for 3d object detection by radar and camera in environmental perception | |
CN114048536A (zh) | 一种基于多任务神经网络的道路结构预测与目标检测方法 | |
CN117409393A (zh) | 一种焦炉机车激光点云与视觉融合障碍物检测方法及系统 | |
Khalil et al. | Licanext: Incorporating sequential range residuals for additional advancement in joint perception and motion prediction | |
CN117037079A (zh) | 一种基于激光雷达的三维车辆检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |