CN115082924A

CN115082924A - 一种基于单目视觉和雷达伪图像融合的三维目标检测方法

Info

Publication number: CN115082924A
Application number: CN202210446524.8A
Authority: CN
Inventors: 王章静; 黄振; 曹敏; 刘陈浩; 仇隆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-09-20
Anticipated expiration: 2042-04-26
Also published as: CN115082924B

Abstract

本发明公开了一种基于单目视觉和雷达伪图像融合的三维目标检测方法，包括步骤：获取单目视觉和毫米波雷达点云数据对图像进行语义分割获取目标的二维边框与像素点分类得分；对初始毫米波雷达点云数据进行预处理操作；基于雷达点云和图像语义分割信息生成语义雷达伪图像；将视觉图像和语义雷达伪图像分别输入到卷积神经网络中进行特征融合；将融合特征图输入到检测网络中回归得到三维目标信息。本发明将光学图像与毫米波雷达点云信息进行有效融合，在雷达信息中加入图像分割所得的语义信息在与视觉进行融合，解决雷达点云缺少纹理信息的问题，实现两种模态信息的优势互补，具有提高三维目标检测系统准确率和鲁棒性的优点。

Description

一种基于单目视觉和雷达伪图像融合的三维目标检测方法

技术领域

本发明涉及雷达目标检测技术，特别涉及一种基于多模态融合的三维目标检测技术。

背景技术

雷达利用多普勒效应来精确估计所有被探测物体的速度，而不需要任何时间信息。此外，与激光雷达相比，雷达点云在用作目标检测结果之前需要较少的处理。虽然雷达能提供精确的距离和速度信息，但由于雷达的分辨率比较低，雷达并不擅长对物体进行分类，这使得雷达和其他传感器(如相机)的融合在自动驾驶领域成为一个值得研究的课题。

目前主流的融合算法聚焦于决策级、数据级和特征级。决策级融合首先需要各传感器根据自身的信息计算出目标的位置、速度以及分类结果，然后将处理后的目标信息进行融合。而数据级融合是指直接将获取的毫米波雷达回波数据和摄像头拍摄的图片进行拼接或结合，并经过共享的处理流程得到目标识别的结果。相较而言，特征级融合将原始信息映射到特征空间中，在特征维度实现融合。雷达点云信息一方面在进行特征级融合的特征提取过程中存在信息损失的问题，不能充分发挥传感器融合的优势。另一方面由于雷达点云的稀疏性，雷达特征并不适合与图像特征直接进行拼接，两者之间并没有充分融合。

发明内容

本发明所要解决的技术问题是，提出一种通过生成一种语义雷达伪图像使得毫米波雷达点云信息能与光学图像有效地融合从而完成三维目标检测的方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于单目视觉和雷达伪图像融合的三维目标检测方法，包括以下步骤：

从毫米波雷达处获取初始毫米波雷达点云数据；同时，从光学相机处获取单目视觉图像；

对初始毫米波雷达点云数据进行预处理操作得到雷达点云数据；同时，对单目视觉图像进行语义分割获取图像语义分割结果；图像语义分割结果包括目标的二维边框、像素级分割的掩码和每个像素的分类得分；

基于雷达点云数据和图像语义分割结果生成语义雷达伪图像；

将单目视觉图像和语义雷达伪图像进行特征提取与融合得到融合特征图；

将融合特征图输入到检测网络中得到三维目标信息；

其中，对初始毫米波雷达点云数据的预处理主要包括数据解析、空间同步、目标关联和雷达伪图像生成；

数据解析获取雷达点云在空间中的三维坐标信息[x,y,z]以及目标相对毫米波雷达的径向运动速度在x与y方向的速度分量[v_x,v_y]，然后将毫米波雷达点云数据中的每个点表示为[x,y,z,v_x,v_y]；

以世界坐标系作为参照坐标系，分别获得光学相机和毫米波雷达的外参系数；使用张正友标定法获取光学相机的内参系数；通过外参系数和内参系数的联合标定对毫米波雷达和光学相机进行配准实现毫米波雷达和光学相机的空间同步；

将雷达点云坐标从毫米波雷达坐标系转换到相机坐标系并投影到图像平面上，再利用语义分割得到的掩码对已经投影到图像平面的雷达点云进行过滤，将投影到图像平面的雷达点云与掩码进行按位与操作，再保留下的非0的点云信息与单目视觉图像通过图像语义分割确定的目标进行匹配，从而实现两种模态信息的目标关联；

最后将雷达点云所在位置的像素点分类得分附加到雷达点云上以获得语义雷达点云数据，此时雷达点云的每个点表示为[x,y,d,v_x,v_y,s]，其中，x,y为雷达点云在空间中的三维位置信息中的x与y方向的值，v_x,v_y表示目标相对毫米波雷达的径向运动速度在x与y方向的速度分量，即纵向速度v_x、横向速度v_y， d代表相机坐标系下目标的深度，s为该像素点的分类得分。

进一步的，本发明的方法使用GrabCut算法对Mask R-CNN网络输出的像素级分割掩码进行改善，有效解决了Mask R-CNN网络分割结果存在的背景溢出问题。即，图像语义分割得到的像素级分割的掩码再通过GrabCut算法来去除掩码中多余的背景信息，最后将[0,1]掩码转换为[0,255]掩码。

本发明的有益效果是，通过生成雷达点云伪图像使得目标对象的点云信息与图像信息精确关联，能有效提取雷达点云中的信息并在在雷达点云信息中增加了语义信息，解决了毫米波雷达点云稀疏且缺少纹理信息的问题。注意力特征融合子网络将图像特征与雷达特征进行充分、有效的融合，对小目标有更高的检测率，提高了检测网络的鲁棒性和检测精度。

附图说明

图1为本发明的算法流程图；

图2为实施例多模态融合网络模型结构图；

图3为实施例注意力特征融合子网络结构图。

具体实施方式

为了使本发明的目的、技术方案及效果更加清楚易懂，下面结合附图和实施例，对本发明的技术方案作进一步详细描述，以下的具体实施例用于解释本发明，不用于限制本发明范围。

如图1所示，实施例提供了一种基于多模态融合的三维目标检测方法，包括如下步骤：

对初始毫米波雷达点云数据进行预处理操作得到雷达点云数据；同时，对单目视觉图像图像进行语义分割获取图像语义分割结果；

将融合特征图输入到检测网络中得到三维目标信息。

实施例使用的基于Ubuntu系统和ROS软件环境分别编写的光学相机和毫米波雷达作为信息采集设备。使用ROS提供的时间同步器订阅原始的视觉图像数据和毫米波雷达点云数据，时间同步器将两种数据做时间近似同步处理后采用注册回调的方式发布视觉图像信息话题和毫米波雷达点云信息并保存。

对视觉图像进行语义分割时采用Mask R-CNN网络。图像语义分割结果包括目标的二维边框、像素级分割的掩码和每个像素的分类得分。在对Mask R-CNN 网络进行训练时，使用的数据集的目标分为车辆、行人、摩托车和背景4个类别。将数据集中的图片输入到预训练的Mask R-CNN网络中执行前向传递，获得图像中对象的边界框坐标、每个特定对象的像素级分割掩码以及每个像素的分类得分。再对图像中每个检测到的对象，提取其置信度并根据阈值过滤掉置信度低的目标，其中置信度阈值为0.7，对每一个置信度高于阈值的对象进行保留，并根据图像的原始尺寸恢复该对象边界框的真实坐标，然后确定边界框的宽度和高度信息。最后利用GrabCut算法对利用Mask R-CNN网络得到的掩码进行进一步的修改，首先将Mask R-CNN网络输出的掩码中所有大于0的值替换为3；其次将掩码输入至GrabCut算法，GrabCut算法迭代次数为10，用于去除掩码中多余的背景信息，GrabCut算法迭代完成后掩码数值包括0、1、2和3，分别代表“确定背景”、“确定前景”、“可能背景”和“可能前景”；然后将所有“确定背景”和“可能背景”像素设置为0，并将所有“确定前景”和“可能前景”像素设置为1，最后将掩码值从0,1转换为0,255。

对初始毫米波雷达点云数据的预处理主要包括数据解析、空间同步、目标关联和雷达伪图像生成操作。具体为，对点云文件中保存为二进制格式的毫米波雷达点云信息进行数据解析，获取点云在空间中的三维坐标信息以及目标相对毫米波雷达的径向运动速度在x与y方向的速度分量，然后将毫米波雷达点云数据中的每个点表示为[x,y,z,v_x,v_y]，其中[x,y,z]表示点云在空间中的三维位置信息， [v_x,v_y]表示目标相对毫米波雷达的径向运动速度在x与y方向的速度分量。以右手螺旋定则建立世界坐标系，以世界坐标系作为参照坐标系，确定外参系数中的旋转矩阵和平移矩阵，分别获得光学相机和毫米波雷达的外参系数；使用张正友标定法获取相机的内参系数，通过外参系数和内参系数的联合标定对毫米波雷达和光学相机进行精确配准，实现毫米波雷达和光学相机的空间同步；然后通过多次坐标变换将雷达点云坐标从毫米波雷达坐标系转换到相机坐标系并投影到图像平面上。再利用语义分割得到的掩码信息对已经投影到图像平面的毫米波雷达点云进行过滤，将投影到图像平面的毫米波雷达点云与掩码进行按位与操作，即删除掩码值为0处对应的毫米波雷达点云信息，保留下的掩码值为255的点云信息与图像中的目标进行匹配，实现两种模态信息的目标关联。最后将毫米波雷达点所在位置的像素点分类得分附加到雷达点上以获得语义雷达点云数据，此时雷达点云的每个点表示为[x,y,d,v_x,v_y,s_car,s_pes,s_mcy,s_back]，其中，x,y为雷达点云在空间中的三维位置信息中的x与y方向的值，v_x,v_y表示目标相对毫米波雷达的径向运动速度在x与y方向的速度分量，d代表相机坐标系下目标的深度， [s_car,s_pes,s_mcy,s_back]分别表示该像素点可能为汽车、行人、摩托车和背景的分数。

其中，从毫米波雷达坐标系到世界坐标系的转换公式如下：

x_r、y_r和z_r为毫米波雷达坐标系下点云的三维坐标，x_w、y_w和z_w为世界坐标系下雷达点云的三维坐标，R_r和T_r分别为从毫米波雷达坐标系到世界坐标系的平移矩阵和旋转矩阵。将世界坐标系和相机坐标系重合，此时相机坐标系下雷达点云的三维坐标与世界坐标系下的坐标相同，此时将雷达点云从相机坐标系下投影到图像平面的计算公式如下：

此时x_w、y_w和z_w为相机坐标系下点云三维坐标，f为相机成像的焦距，相机的像素尺寸为dx和dy，为图像每个像素点在x和y方向上的物理尺寸，u₀和v₀分别表示像素坐标系下的中心坐标位置，Z_c为归一化因子，u和v为该点在像素坐标系下的像素坐标。

具体的，实施例对预处理后的毫米波雷达点云信息进行特征提取生成语义雷达伪图像的步骤为：

毫米波雷达设备的最远探测距离为30米，此时采用直通滤波，删除深度超过30米的毫米波雷达点云，另外去除距离过近的毫米波雷达点云，删除深度小于0.5米的点云，然后按照距离从小到大对剩余的点云进行排序；提取直通滤波后的点云信息构建与视觉图像尺寸相同的三通道雷达伪图像，即，将每个点云信息中的纵向速度v_x、横向速度,v_y和深度d分别转换三个通道的像素值。最后在三通道雷达伪图像的基础上添加对一个分类类型额外添加通道，因为实施例中的目标分类为4，因此额外增加4个通道，在直通滤波后的点云信息中以点云所在位置为中心绘制矩形框，其中矩形的宽为5，高为13，然后在每个矩形框范围内填充雷达点云的信息，矩形框范围内的像素值与矩形边界的值相同，矩形框范围外各通道像素值均填充为0，另外由于深度小的点云更加靠近传感器，因此当矩形框出现重叠时，提取深度更小的点云作为该位置的像素值，最后在点云矩形框范围内填充对应雷达点携带的像素点分类得分，类别包括汽车、行人、摩托车和背景。此时完成语义雷达伪图像的生成工作。

具体将每个点云信息中的纵向速度v_x、横向速度,v_y和深度d分别转换三个通道的像素值时使用的统一转化方程如下：

f_c＝α_c·x_c+β_c

其中c的取值为纵向速度v_x、横向速度v_y或深度d，f_c代表相机坐标系下纵向速度v_x、横向速度v_y或深度d经转换后在雷达三通道图像中像素值f_vx，f_vy，f_d，α_c为归一化化因子，β_c为修正值具体大小为127。则

如图2所示为基于单目视觉图像和雷达伪图像的三维检测网络模型结构，该特征提取与融合模型包括图像特征提取模块DLA-Stem、融合特征提取模块 Modified DLA-34、第一雷达特征提取模块Res-Stem、第二雷达特征提取模块 Modified ResNet-50、第一注意力特征融合子网络Fusion_1和第二注意力特征融合子网络Fusion_2。其中图像特征提取模块和融合特征提取模块Modified基于 DLA-34网络进行修改；DLA-Stem接收单目视觉图像输出图像特征IF_1至 Fusion_1，Res-Stem接收雷达伪图像输出雷达特征RF_1至Fusion_1和Modified ResNet-50；Fusion_1输出融合特征IFR_2至Modified DLA-34，Modified DLA-34 输出融合特征IFR_2至Fusion_2，Modified ResNet-50输出雷达特征RF_2至 Fusion_2；Fusion_2输出融合特征IFR_3至DLAUp+IDAUp结构的检测部分，由进行DLAUp和IDAUp的上采样后利用分支卷积网络得到目标的类别、位置、三维包围框和速度。

第一雷达特征提取模块和第二雷达特征提取模块基于ResNet-50网络进行修改；第一注意力特征融合子网络和第二注意力特征融合子网络结构相同，包括 1×1卷积注意力权重生成单元、3×3卷积注意力权重生成单元、权重合成单元、融合特征生成单元。

三维检测网络模型的工作步骤具体如下：

1)图像特征提取模块与第一雷达特征提取模块分别接收时间同步的视觉图像和雷达伪图像，其中视觉图像的大小为1×3×512×512，雷达伪图像的大小为 1×7×512×512；

2)将图像数据输入到图像特征提取模块得到图像特征IF_1，将语义雷达伪图像输入到第一雷达特征提取模块得到雷达特征RF_1，输出的图像特征IF_1和雷达特征RF_1的大小均为1×64×128×128。

3)将图像特征IF_1和雷达特征RF_1输入到第一注意力特征融合子网络，注意力特征融合子网络的结构如图3所示，包含两个注意力权重生成单元，其中第一个卷积层Conv 1×1的卷积核大小为1×1×64×1，步长为(1,1),填充为(0,0)；第二个卷积层Conv 3×3的卷积核大小为3×3×64×1，步长为(1,1)，填充为(1,1)，分别对雷达特征图进行权重提取后得到两个大小为1×1×128×128的注意力权重并将权重矩阵相加。然后将权重与图像特征图相乘再与原来的图像特征图相加得到融合特征IRF_1。

4)将融合特征图融合特征IRF_1输入到融合特征提取模块得到融合特征 IRF_2，将雷达特征RF_1输入到第二雷达特征提取模块得到雷达特征RF_2，输出的图像特征IRF_2和雷达特征RF_2的大小均为1×2048×16×16。

5)将融合特征IRF_2和雷达特征RF_2输入到第二注意力特征融合子网络得到融合特征IRF_3，融合过程与第一注意力特征融合子网络相似，得到的融合特征IRF_3大小为1×2048×16×16。

6)将融合特征图IRF_3输入到检测网络中回归得到三维目标信息。将特征图3上采样8倍后，具体使用Deconv反卷积模块对特征图进行三次反卷积操作，得到大小为1×2048×128×128的特征图，然后将特征图分别输入到不同的回归网络当中，此时得到回归网络输出的信息为向量形式，对回归网络输出的向量信息进行解码，最终得到目标的类别、位置、三维包围框和速度等信息。

在本发明特别适用于智能化社会的背景下的无人自主感知技术。比如，智慧交通和智能车领域。基于多模态融合目标检测技术是未来无人驾驶发展的必然趋势，单一类型的传感器由于自身的局限性，导致目标跟踪的精度有限。虽然基于单一类型传感器的感知技术已经部分应用于无人驾驶领域，但采用多传感器信息融合的方法才能完全满足实际环境下的自动驾驶要求。本发明方案中，视觉相机以像素强度的形式提供详细信息，在更大的程度上提供系统周围环境详细的纹理信息。雷达与光学相机的融合系统可以为自动驾驶场景中所有探测到的目标提供有价值的深度信息，同时降低了使用激光雷达点云进行三维目标检测极高的计算成本和价格成本。

下面结合实验进一步说明本发明的益处。

1.实验条件：

本发明运行的硬件平台为Intel Xeon Silver 4214R+NVIDIA RTX3090+16G DDR4RAM，软件环境为CentOS 7.4+CUDA 11.1+PyTorch 1.7+Python 3.7，使用 PyCharm开发工具进行算法开发工作。

2.实验内容：

实验中使用的数据集为自制数据集，使用1080P高清摄像头采集视觉图像数据，使用TI IWR6843毫米波雷达采集毫米波雷达点云数据，数据集评估指标为基于nuScenes数据集制定的mAP、mATE和mAVE三种评估指标。

为了证明本发明的有效性，选择与单纯基于视觉图像的CenterNet基线模型进行对比，CenterNet网络在文献“Objects as Points”中有详细介绍。

表1：本发明与CenterNet模型结果对比

由表1可知，本发明与基线网络CenterNet相比有更高的目标检测率，当雷达伪图像不包含语义信息时mAP值高于CenterNet网络0.052，提高9.2％，当雷达伪图像包含语义信息时mAP值提高了16.3％，说明语义信息的加入有助于目标类别的预测。本发明的平均偏移误差和平均速度误差与CenterNet相比均有大幅降低，当使用包含语义信息的雷达伪图像时，平均偏移误差降低了19.4％，平均速度误差降低了73.6％，由于加入了雷达点云的深度和速度信息，本发明相比视觉图像能够更加精准地预测目标运动的位置和速度。

综上所述，本申请实施例提供了一种基于单目视觉和雷达伪图像融合的三维目标检测方法。该三维目标检测方法使用经时间配准后的视觉图像与毫米波雷达点云数据作为输入，首先对视觉图像进行语义分割获取目标二维边框与各像素点的分类得分，对毫米波雷达点云数据进行滤波、坐标转换、数据解析和目标关联等预处理操作，然后基于预处理后的雷达点云信息生成语义雷达伪图像，将光学图像和语义雷达伪图像分别输入到特征提取与融合中进行特征融合，最后将融合特征图输入到回归网络中并解码得到三维目标。使用该检测方法的三维目标检测系统能够更加有效地融合光学图像与毫米波雷达点云信息，对小目标有更高的检测率，具有更高的检测精度和鲁棒性。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非对其进行限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于单目视觉和雷达伪图像融合的三维目标检测方法，其特征在于，包括以下步骤：

将融合特征图输入到检测网络中得到三维目标信息；

将雷达点云坐标从毫米波雷达坐标系转换到相机坐标系并投影到图像平面上，再利用语义分割得到的掩码对已经投影到图像平面的雷达点云进行过滤，将投影到图像平面的雷达点云与掩码进行按位与操作，再保留下的非0的点云信息与单目视觉图像通过图像语义分割确定的目标进行匹配，从而完成关联；

最后将雷达点云所在位置的像素点分类得分附加到雷达点云上以获得语义雷达点云数据，此时雷达点云的每个点表示为[x,y,d,v_x,v_y,s]，其中，x,y为雷达点云在空间中的三维位置信息中的x与y方向的值，v_x,v_y表示目标相对毫米波雷达的径向运动速度在x与y方向的速度分量，即纵向速度v_x、横向速度v_y，d代表相机坐标系下目标的深度，s为该像素点的分类得分。

2.根据权利要求1所述方法，其特征在于，图像语义分割得到的像素级分割的掩码再通过GrabCut算法来去除掩码中多余的背景信息，最后将[0,1]掩码转换为[0,255]掩码。

3.根据权利要求1所述方法，其特征在于，基于雷达点云数据和图像语义分割结果生成语义雷达伪图像的具体步骤为：

先通过直通滤波删除深度超过最远探测距离以及小于预设过近阈值的雷达点云，再对按照距离从小到大对雷达点云进行排序，将每个雷达点云中的纵向速度v_x、横向速度v_y和深度d分别转换三个通道的像素值与视觉图像尺寸相同的三通道雷达伪图像；再在三通道雷达伪图像的基础上添加与分类类型数量一致的通道形成语义雷达伪图像，其中每个添加的通道包含了雷达点云对应像素点在该分类类型上的分类得分。

4.根据权利要求3所述方法，其特征在于，添加与分类类型数量一致的通道的具体方法为：

在直通滤波后的雷达点云中以其所在位置为中心绘制矩形框，在每个矩形框范围内填充该雷达点云的信息，矩形框范围内的像素值与矩形边界的值相同，矩形框范围外像素值均填充为0，当矩形框出现重叠时，提取深度更小的雷达点云作为该位置的像素值，最后在矩形框范围内填充对应雷达雷达点云携带的像素点分类得分。

5.根据权利要求3所述方法，其特征在于，将每个雷达点云中的纵向速度v_x、横向速度v_y和深度d分别转换三个通道的像素值的方法为：

f_c＝α_c·x_c+β_c

其中c的取值为纵向速度v_x、横向速度v_y或深度d，f_c代表相机坐标系下纵向速度v_x、横向速度v_y或深度d经转换后在雷达三通道图像中像素值f_vx，f_vy，f_d，α_c为归一化化因子，β_c为修正值。

6.根据权利要求5所述方法，其特征在于，β_c为127，计算f_vx，f_vy，f_d所对应的归一化化因子α_c分别为：

7.根据权利要求3所述方法，其特征在于，最远探测距离为30米，过近阈值为0.5米。