CN115685185A

CN115685185A - 一种4d毫米波雷达与视觉融合感知方法

Info

Publication number: CN115685185A
Application number: CN202211714768.6A
Authority: CN
Inventors: 赵群河
Original assignee: Suzhou Shangtong Mofang Intelligent Technology Co ltd
Current assignee: Shanghai Jidong Technology Co.,Ltd.
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-02-03
Anticipated expiration: 2042-12-30
Also published as: CN115685185B

Abstract

本发明公开了一种4D毫米波雷达与视觉融合感知方法，包括以下步骤：数据获取与预处理；采用点的形式对毫米波雷达点云数据进行雷达主干特征提取，得到雷达特征数据；对图像数据进行图像主干特征提取，得到图像特征数据，再进行图像3D检测，得到定位物体的图像3D框和对应的框的特征数据，将检测到的图像3D框转换到车辆的坐标系；将雷达特征数据与图像3D框转换到极坐标形式，进而将雷达特征数据与图像3D框关联起来，再将关联后的雷达特征数据与图像3D框对应的特征数据进行注意力编码融合；结果输出及后处理。本发明有效地补充空间和上下文信息，当环境中的毫米波数据存在噪声或者丢失部分物体的反射信息时可输出有效的感知信息。

Description

一种4D毫米波雷达与视觉融合感知方法

技术领域

本发明属于雷达目标检测技术领域，具体涉及一种4D毫米波雷达与视觉融合感知方法。

背景技术

现有的图像毫米波雷达融合方法通常采用后融合策略，即分别采用检测算法得到图像和毫米波雷达中的目标，再将不同传感器得到的目标进行融合。这种方法中，各个模块之间的耦合度比较低，可以方便地验证效果，并且能够与现有的系统进行集成。然而，这种融合策略依赖于先验知识，后处理技术的融合策略存在性能与可靠性之间的权衡，特别是当两个传感器预测不一致时，因此，后融合策略不能充分利用每个传感器的潜力。相比之下，基于学习的前融合策略可以充分利用数据，中间编码的信息具有更高的潜力，但它需要深入了解每个传感器的特性，以找到最佳的融合方式。

然而，由于每个传感器的独特特性，开发图像和毫米波雷达的前融合策略并不简单。相机和激光雷达经过了早期的研究已经发展出了不同的方法。然而，直接将图像激光雷达的前融合方法应用于图像毫米波雷达是不合适的，这是因为存在毫米波雷达与激光雷达固有的特性的差异。激光雷达的测量精度在2cm以内，但毫米波雷达的精度较低且测量具有歧义。而毫米波雷达采用了多普勒效应的原理，其在径向上具有较高的分辨率和精度，但同时切向的测量精度比较低，采用快速傅里叶变换（FFT）对数据进行测量。通过使用多个接收天线进行数字波束可以获得方位角。但是这些变换方法都会引入噪声，得到的是包含噪声的稀疏数据。这里的稀疏性与噪声限制了利用激光雷达相似的融合算法的性能。但同时，毫米波雷达与图像具有非常互补的空间特征。密集的相机像素提供了准确的方位分辨率和精度，但由于透视投影，没有提供深度信息。将这两种信息进行融合，可以有效提高融合感知的性能。

现有的毫米波雷达分为多种形式，早期的毫米波雷达主要是3D毫米波雷达，可以检测出毫米波雷达相对于物体的距离、相对速度和水平方位角信息。4D毫米波雷达是在3D毫米波雷达的基础上增加了测量目标的高度信息的能力，这种信息维度的增加提升了毫米波雷达的信息表达能力，但是给算法的处理上带来了相应的挑战。在利用毫米波雷达进行数据处理过程中，由于毫米波雷达的表达形式，存在原始ADC数据，经过FFT变换后的距离速度频谱图、距离方位角频谱图，或者经过CFAR等算法后从这些频谱图中提取出目标，得到目标的信息，最后的表现形式是点云数据，这里的不同的数据得到的是原始数据不同的表现形式，最后的点云数据会比较稀疏且含有噪声。基于4D毫米波雷达与相机的前融合算法还需要更进一步研究。

发明内容

为解决现有技术中存在的技术问题，本发明的目的在于提供一种4D毫米波雷达与视觉融合感知方法。

为实现上述目的，达到上述技术效果，本发明采用的技术方案为：

一种4D毫米波雷达与视觉融合感知方法，包括以下步骤：

1）数据获取与预处理：

获取图像数据与4D毫米波雷达点云数据，对4D毫米波雷达点云数据进行预处理；

2）特征提取：

采用点的形式对步骤1）所得毫米波雷达点云数据进行雷达主干特征提取，得到雷达特征数据；

对步骤1）所得图像数据进行图像主干特征提取，得到图像特征数据，再进行图像3D检测，得到定位物体的图像3D框和对应的框的特征数据，将检测到的图像3D框转换到车辆的坐标系；

3）数据关联及信息融合：

将步骤2）所得雷达特征数据与图像3D框转换到极坐标形式，进而通过极坐标系下的软关联将雷达特征数据与图像3D框关联起来；

再将关联后的雷达特征数据与图像3D框对应的特征数据进行注意力编码融合；

4）结果输出及后处理。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤1）中，所述获取4D毫米波雷达点云数据，对4D毫米波雷达点云数据进行预处理的步骤包括：

选择50m之内的4D毫米波雷达点云数据，采用多帧数据融合的方式对数据进行融合，融合的过程中需要考虑4D毫米波雷达自身的运动和自我运动补偿后的雷达多普勒速度；雷达输入的点数选择固定的点数；

对4D毫米波雷达点云数据进行处理的计算公式为：

其中，

分别表示在时间t时的雷达点的横坐标、纵坐标、高度，

表示了在时间t时的雷达点的位置，

分别表示在时间t-T时的雷达点的横坐标、纵坐标、高度，

分别表示时间

之间的雷达自身运动的横坐标、纵坐标、高度变化，

分别表示自身运动补偿的X轴的雷达多普勒速度值和Y轴的雷达多普勒速度值，

表示时间差。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤2）中，采用点的形式对步骤1）所得毫米波雷达点云数据进行雷达主干特征提取，得到雷达特征数据的步骤包括：

进行雷达主干特征提取时，选择点的形式作为网络的输入，该网络的设计以PointNet++作为基础，采用其中的4个集合抽象层和两个特征传播层提取特征，最远点的采样层被舍弃，用层标准化替代批标准化，舍弃多尺度分组层，提取出雷达点特征。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤2）中，对步骤1）所得图像数据进行图像主干特征提取，得到图像特征数据，再进行图像3D检测，得到定位物体的图像3D框和对应的框的特征数据，将检测到的图像3D框转换到车辆的坐标系的步骤包括：

设计轻型图像3D物体检测器，所述轻型图像3D物体检测器的检测头中添加深度方差预测头，替换了L1回归损失，其计算公式为：

其中，N表示预测的目标的数量，

分别表示目标关键点处的真值和预测值，

表示方差；

将图像提取的特征点投影到3D中心，真值作为三维的中心，并且从这个中心预测目标类别置信度、位置、三维尺寸、方向、速度和深度方差；

预测时，使用负指数函数将网络输出的深度方差映射到0到1的区间，得到深度置信度，再将深度置信度与网络输出的类别置信度相乘得到目标的3D置信度；

3D检测头分类并且用一系列的3D框定位物体，使用DLA34网络作为图像特征提取的主干，提取投影的3D特征点，特征点表示为

，分别是图像中3D特征点中心、深度、深度方差，再根据针孔相机的投影模型将预测出的特征点反向投影到相机坐标系中，最后根据相机与车辆的安装位置的外参将特征点转换到车辆坐标系中。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤3）中，将步骤2）所得雷达特征数据与图像3D框转换到极坐标形式，进而通过极坐标系下的软关联将雷达特征数据与图像3D框关联起来的步骤包括：

极坐标软关联首先将图像3D检测得到的图像3D框转换为极坐标系，每个图像3D框包含8个顶点，利用该极坐标形式的点寻找雷达特征点的子集，关联公式为：

其中，

分别表示垂直方向和水平方向的角度值，

表示最下边和最上边的角度范围，

分别表示最左边和最右边的角度范围，

分别表示最前和最后的径向距离，

表示最小距离，

表示深度方差，

表示调节半径大小的超参，

表示图像proposal中心点的径向距离。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤3）中，将关联后的雷达特征数据与图像3D框对应的特征数据进行注意力编码融合的步骤包括图像特征到雷达特征的注意力编码融合和雷达特征到图像特征的注意力编码融合两个步骤；

图像特征到雷达特征的注意力编码融合采用编码融合模块完成，将图像中的上下文信息融入到雷达点特征中；

雷达特征到图像特征的注意力编码融合采用特征融合模块完成，将雷达的空间信息更好地融入图像特征中。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，所述编码融合模块包括4层堆叠的特征编码器，所述编码融合模块的处理是在图像坐标系中进行；

对于每个雷达点投影到图像平面，从投影的位置定义图像的区块，区块的大小定义为雷达距离的函数，当物体靠近时，雷达点对应更宽的范围，占据图像中更多的像素，再将选取的特征块变形到固定的大小输入网络；使用MLP将图像特征投影到与雷达特征相同的尺寸，然后经过一个可变形交叉注意力模块，最后使用包含2个256个隐藏层的MLP输出融合了上下文信息的雷达点特征。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，所述特征融合模块包括4层堆叠的特征编码器，其输入是图像3D框对应的特征数据和包含64个通道的雷达点特征，所述特征融合模块的处理是在极坐标中，所述雷达点特征是经过编码后融入上下文信息的点特征，保持了固定的输出的形式，未做投影处理，利用交叉注意力模块来处理图像特征和雷达点特征的关联，最后经过MLP后得到融合了雷达空间信息的图像特征信息，精细化检测到的目标的空间与上下文信息。

在本发明提供的一种4D毫米波雷达与视觉融合感知方法中，步骤4）中，结果输出及后处理的步骤包括：

设计融合检测头和NMS后处理模块；

通过融合检测头预测融合分数值，位置偏差，中心度以及速度，对预测的结果进行过滤，假设图像3D框中没有对应的相关联的雷达点，其预测的结果会被舍弃，对于预测出的物体的径向速度会基于物体的方向转换为其实际速度；

基于空间位置使用NMS后处理模块得到最终的输出值。

与现有技术相比，本发明的有益效果为：

本发明公开了一种4D毫米波雷达与视觉融合感知方法，可以有效地补充空间和上下文信息，空间信息包含范围和方位信息，上下文信息包含指语义和多普勒速度信息，当环境中的毫米波数据存在噪声或者丢失部分物体的反射信息时，通过本发明可以输出有效的感知信息。

附图说明

图1为本发明的原理图；

图2为本发明的特征编码模块的原理图；

图3为本发明的特征融合模块的原理图。

具体实施方式

下面对本发明进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

如图1-3所示，一种4D毫米波雷达与视觉融合感知方法，先进行4D毫米波雷达与图像的前融合，

前融合方法为：首先进行数据的处理以提取出特征，然后使用轻型图像3D物体检测器预测三维物体；给定图像proposal和雷达点；通过极坐标系下的软关联将图像proposal与雷达点关联起来，这种关联是在极坐标中查询自适应感知到的存在于椭球形阈值内的点，减少了不同背景点对融合结果的影响；紧接着，融合图像特征和雷达点特征，该编码层是通过两个连续的编码模块，即图像特征到雷达点的编码模块和包含了内容信息的过滤后的雷达点特征到图像特征的编码模块，该层叠的注意力编码层可以有效地交换空间和上下文信息，并自适应地决定融合的位置和信息；最后，预测极坐标中的融合分数和偏移，以优化图像proposal得到的结果，由于一些对象没有有效的雷达点，因此，丢弃具有低融合分数的融合输出，并使用高融合分数值的图像proposal作为最终的预测。

在进行数据的处理时，由于雷达数据的稀疏性，本发明采用了多帧数据融合的方式。累积6帧的雷达数据到1帧的数据当中，大概是0.5s的时间。融合的过程中需要考虑毫米波雷达自身的运动和自我运动补偿后的雷达多普勒速度。雷达输入的点数选择固定的点数K，如果雷达点数太多则需要下采样，同样，点数太少则需要一定比例的复制，以满足数据特征提取器的要求。由于雷达的数据在大于50m之外可靠性大大降低，为了算法的稳定性，在此选择50m之内的雷达点云数据，点的特征还包含归一化后的雷达RCS（雷达散射截面）和速度值。

雷达数据处理的计算公式为：

其中，

分别表示在时间t时的雷达点的横坐标、纵坐标、高度，

表示了在时间t时的雷达点的位置，

分别表示在时间t-T时的雷达点的横坐标、纵坐标、高度，

分别表示时间

之间的雷达自身运动的横坐标、纵坐标、高度变化，

表示时间差。

进行雷达主干特征提取时，由于驾驶场景下的雷达点的方差比较大，并且相对于激光雷达来讲，点云比较稀疏，选择点的形式作为网络的输入，而不是使用voxel或者pillar的数据形式，这样可以提高网络进行卷积的性能。这部分网络的设计以PointNet++作为基础，采用其中的4个set abstraction（集合抽象）和两个feature propagation（特征传播）层提取特征，最远点的采样层被舍弃，用layer normalization（层标准化）替代batchnormalization（批标准化），舍弃multi-scale grouping（多尺度分组）层，经过实际测试，该网络设计不影响融合的性能并且能够有效提取出雷达点特征。

轻型图像3D物体检测器：

图像3D检测主干是由CenterNet为基础，修改了检测头，标签分配策略以及后处理方法，具体来看，在检测头中添加了深度方差预测头，替换了L1回归损失，计算公式表示为：

其中，N表示预测的目标的数量，

分别表示目标关键点处的真值和预测值，

表示方差，这里对方差取了对数值，这样可以保持数值的稳定，更利于网络的收敛。

将图像提取的特征点投影到3D中心，真值作为3维的中心，并且从这个中心预测目标类别置信度、位置、三维尺寸、方向、速度和深度方差。

预测时，使用负指数函数将网络输出的深度方差映射到0到1的区间得到深度置信度，再将深度置信度与网络输出的类别置信度相乘得到目标的3D置信度。

，分别是图像中3D特征点中心、深度、深度方差。这些点利用相机内参然后转换到相机坐标系，进而转换到车辆坐标系，M个图像proposal，表示boxes属性和特征。

极坐标软关联方法包括：

极坐标软关联首先将图像3D检测得到的proposal转换为极坐标系。每个proposal包含8个顶点，利用该极坐标形式的点寻找雷达特征点的子集，关联公式为：

其中，

分别表示垂直方向和水平方向的角度值，

表示最下边和最上边的角度范围，

分别表示最左边和最右边的角度范围，

分别表示最前和最后的径向距离，

表示最小距离，

表示深度方差，

表示调节半径大小的超参，

表示图像proposal中心点的径向距离。

采用自适应阈值的关联可以最大限度地利用信息前景雷达点的机会，同时排除方位方向上的大多数杂波点。

空间信息与上下文信息融合Transformer，包括以下步骤：

空间信息与上下文信息融合的方法包含两个步骤，分别是：图像特征到雷达特征的注意力编码融合和雷达特征到图像proposal特征的注意力编码融合。

1）图像特征到雷达特征的注意力编码融合采用4层堆叠的特征编码器组成的编码融合模块完成，将图像中的上下文信息融入到雷达点的特征中，包含上下文信息的雷达点特征可以提升图像方案特征的空间信息的精度。图像到雷达的特征编码模块结构如图2所示。

编码融合模块的处理是在图像坐标系中进行，对于每一个雷达点的特征，自适应选取图像特征块。具体来看，对于每个雷达点投影到图像平面，从投影的位置定义了图像的区块，区块的大小定义为雷达距离的函数，当物体靠近时，雷达点对应更宽的范围，占据了图像中更多的像素。再将选取的特征块变形到固定的大小输入网络，首先使用7x7的MLP将图像特征投影到与雷达特征相同的尺寸，然后经过一个可变形交叉注意力模块（D-MCA），最后模块使用包含2个256个隐藏层的MLP输出融合了上下文信息的雷达点特征。利用多层的网络的堆叠，可以逐步提升特征提取的效果，更好地将图像特征融入雷达特征点中。

该模块采用一个可变形交叉注意力模块来处理一个投影雷达像素的参考点周围的一小组关键采样点。即使雷达点没有准确投影到图像中或者投影之间存在一定的误差，该模块也能够对于提取出来的查询序列的雷达特征，自适应提取出图像特征中的键值对，形成高效的注意力编码模式。在模型的训练中，模块需要有效的监督来学习哪些特征是需要融合的信息，所以，为每个图像编码的雷达特征设计了一个辅助任务，来预测雷达点在三维边界盒内的概率，提高模块的训练效率。

2）雷达特征到图像proposal特征的注意力编码融合也采用4层特征编码器组成的特征融合模块完成，如图3所示，该模块的作用是将雷达的空间信息更好地融入图像proposal中，提升图像检测结果的空间预测能力。该模块的输入是图像proposal和包含64个通道的雷达点特征。该方案中设置每个图像最多64个proposal，每个图像proposal最多包含128个雷达关联。

该模块的处理是在极坐标中。由于这里的雷达点特征是经过编码后融入上下文信息的点特征，保持了固定的输出的形式，未做投影处理。这里利用交叉注意力模块（MCA）来处理图像proposal和雷达点特征的关联，最后经过MLP后得到融合了雷达空间信息的图像proposal信息，精细化了检测到的目标的空间与上下文信息。该模块也是用4层特征编码器堆叠，逐步提升融合的性能。对于每一个图像proposal的特征查询找到雷达点的键值对，这里还在键值对中添加了零值，当没有一个相关的雷达点从物体上反射出来时，注意力就可以被分配到它身上，该高效的编码模型可以提升模块的鲁棒性。

融合检测头和NMS模块

该模块是融合了空间与上下文信息的图像proposal特征的解码模块，在极坐标下细化图像proposal定位等属性。具体的，共享的MLP层的顶部类别特定的回归头预测融合分数值，位置偏差，中心度以及速度。这里对预测的结果进行过滤，假设图像proposal中没有对应的相关联的雷达点，其预测的结果会进行舍弃。对于预测出的物体的径向速度会基于物体的方向转换为其实际速度。

最后基于空间位置使用NMS后处理模块得到最终的输出值。

本发明为一种新的proposal级早期融合方法，它有效地利用了照图像和雷达的空间和内容特性来进行三维目标检测。首先将图像proposal与极坐标系中的雷达点联系起来，以有效地处理坐标系和空间特性之间的差异。在此基础上，在基于连续的交叉注意的特征融合层之后，自适应地交换相机和雷达之间的空间内容信息，最后利用检测头输出鲁棒且稳定的融合后的目标。

本发明针对4D毫米波雷达进行特征融合，增加了雷达点的高程信息。假设利用3D毫米波雷达对目标进行融合亦可以有对应的效果，在做极坐标软关联时，需要去除高程的约束方案。

实施例1

数据的获取及处理：

获取车载环境下前向端的图像数据与4D毫米波雷达点云数据；对4D毫米波雷达数据和图像数据进行时间与空间上的同步；对4D毫米波雷达数据进行多帧累积，按照距离限制过滤，转换到固定的点数，按照自身运动及多普勒速度进行补偿。

特征提取：

采用点的形式对4D毫米波雷达数据进行特征提取得到雷达特征数据；对图像数据进行多尺度的特征提取得到图像特征数据；对图像特征数据利用检测头分类得到一系列的定位物体的3D框和对应的框的特征数据；将检测到的3D框转换到车辆的坐标系。

数据关联及信息融合：

计算3D框的8个顶点，将所有3D框的点与雷达的特征点转换到极坐标的形式，利用极坐标形式下的自适应阈值的约束关联3D框与雷达特征点；将提取的图像特征数据与进行注意力编码融合；将关联后的雷达特征与图像3D框对应的特征数据进行注意力编码融合。

结果输出及后处理：

将融合后的特征输入回归网络，得到障碍物的类别和三维属性信息；对得到的障碍物进行非极大值抑制得到最终的障碍物信息。

本发明未具体描述的部分或结构采用现有技术或现有产品即可，在此不做赘述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种4D毫米波雷达与视觉融合感知方法，其特征在于，包括以下步骤：

1）数据获取与预处理：

2）特征提取：

3）数据关联及信息融合：

4）结果输出及后处理。

2.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤1）中，所述获取4D毫米波雷达点云数据，对4D毫米波雷达点云数据进行预处理的步骤包括：

对4D毫米波雷达点云数据进行处理的计算公式为：

其中，

分别表示在时间t时的雷达点的横坐标、纵坐标、高度，

表示了在时间t时的雷达点的位置，

分别表示在时间t-T时的雷达点的横坐标、纵坐标、高度，

分别表示时间

之间的雷达自身运动的横坐标、纵坐标、高度变化，

表示时间差。

3.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤2）中，采用点的形式对步骤1）所得毫米波雷达点云数据进行雷达主干特征提取，得到雷达特征数据的步骤包括：

4.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤2）中，对步骤1）所得图像数据进行图像主干特征提取，得到图像特征数据，再进行图像3D检测，得到定位物体的图像3D框和对应的框的特征数据，将检测到的图像3D框转换到车辆的坐标系的步骤包括：

其中，N表示预测的目标的数量，

分别表示目标关键点处的真值和预测值，

表示方差；

5.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤3）中，将步骤2）所得雷达特征数据与图像3D框转换到极坐标形式，进而通过极坐标系下的软关联将雷达特征数据与图像3D框关联起来的步骤包括：

其中，

分别表示垂直方向和水平方向的角度值，

表示最下边和最上边的角度范围，

分别表示最左边和最右边的角度范围，

分别表示最前和最后的径向距离，

表示最小距离，

表示深度方差，

表示调节半径大小的超参，

表示图像proposal中心点的径向距离。

6.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤3）中，将关联后的雷达特征数据与图像3D框对应的特征数据进行注意力编码融合的步骤包括图像特征到雷达特征的注意力编码融合和雷达特征到图像特征的注意力编码融合两个步骤；

7.根据权利要求6所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，所述编码融合模块包括4层堆叠的特征编码器，所述编码融合模块的处理是在图像坐标系中进行；

8.根据权利要求6所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，所述特征融合模块包括4层堆叠的特征编码器，其输入是图像3D框对应的特征数据和包含64个通道的雷达点特征，所述特征融合模块的处理是在极坐标中，所述雷达点特征是经过编码后融入上下文信息的点特征，保持了固定的输出的形式，未做投影处理，利用交叉注意力模块来处理图像特征和雷达点特征的关联，最后经过MLP后得到融合了雷达空间信息的图像特征信息，精细化检测到的目标的空间与上下文信息。

9.根据权利要求1所述的一种4D毫米波雷达与视觉融合感知方法，其特征在于，步骤4）中，结果输出及后处理的步骤包括：

设计融合检测头和NMS后处理模块；

基于空间位置使用NMS后处理模块得到最终的输出值。