CN114708585B

CN114708585B - 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法

Info

Publication number: CN114708585B
Application number: CN202210399603.8A
Authority: CN
Inventors: 王章静; 黄振; 赵铖鑫; 曹敏; 仇隆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2023-10-10
Anticipated expiration: 2042-04-15
Also published as: CN114708585A

Abstract

本发明提供一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法，包括数据采集与处理步骤：采集时间近似同步的毫米波雷达点云与视觉图像数据；融合步骤：将毫米波雷达点云数据从雷达坐标系转换到相机坐标系实现空间同步后进行预处理操作，提取点云框内目标点云的速度和深度信息构建雷达矩阵数据完成雷达信息提取；再在融合框架中通过神经网络提取图像特征图和雷达特征图并结合注意力机制进行特征融合得到融合特征图；检测步骤：将融合特征图进行上采样输入至分支卷积网络，对分支卷积的输出信息进行解码后得到目标的类别和三维信息。本发明高效地融合了视觉图像数据与毫米波雷达数据，有效提高了复杂场景下三维目标检测的准确率和可靠性。

Description

一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法

技术领域

本发明涉及多模态信息融合进行目标检测的技术领域，更具体地，本发明涉及一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法。

背景技术

目标检测是计算机视觉和图像处理领域的重要研究方向之一，可以用于检测数字图像中特定类别的对象实例。目标检测作为场景理解的重要组成部分，广泛应用于现代社会的许多领域，如监控安全、自动驾驶、交通监控、医疗影像分析和无人机场景分析等诸多领域。

目前主流的目标检测算法都是基于视觉图像的，一直以来是计算机视觉、机器人等相关领域的研究热点，如R-CNN和YOLO系列的目标检测网络。目前基于视觉图像的二维目标检测方法的性能已经得到极大的提升，但是也存在一些缺点和难以立刻解决的问题：一、采集到的光学相机数据质量很大程度会受到外界环境的影响，在天气恶劣、光照不足或者拍摄距离和角度不理想等情况下，采集的图像会出现模糊不清的状况，导致数字图像中关键对象实例的语义信息丢失；二、视觉图像只有平面的信息，仅能够回归目标的像素坐标，像素与像素之间的距离并不是现实物理空间的距离，因此缺乏深度、尺寸和速度等物理世界的参数信息，在实际应用中存在很大的局限性。

为了克服二维检测固有的缺点，研究者提出了三维目标检测的概念，三维目标检测是在二维目标检测的基础上，增加了目标的尺寸、位置和运动速度等信息，能够提供目标更详细的信息。三维目标检测的这些特性相比基于图像的二维检测有着先天的优势，但是三维目标检测仍存在诸多的研究难点。三维目标检测在检测准确率方面还落后于基于图像的二维目标检测算法，目前在相对其他数据集更加完善的KITTI数据集目标检测基准上，二维目标检测的平均精度已经达到了90％以上，而基于激光点云信息的三维目标检测的平均精度不超过85％，基于视觉图像的三维目标检测的平均精度不超过60％。另外由于三维目标检测增加了更多维度的信息，检测网络因此需要更多维度的回归，这大大增加了网络的复杂性，所以三维目标检测在实时性方面也仍有较大的提升空间。

同时为了提高感知系统的鲁棒性，提出了多模态数据融合的方法，将视觉相机、激光雷达、雷达等多种传感器的数据结合起来，不同的传感器可以对当前环境提供不同模态且具有一定互补性的感知信息。以毫米波雷达为例，雷达系统可以提供目标的距离，速度和角度等信息，相比其他传感器更加可靠，在各种光照和天气条件下都可以正常工作，但由于雷达的分辨率比较低，使用雷达对目标进行分类是非常困难的，因此可以加入视觉相机，以像素强度的形式提供详细信息，在更大的程度上提供系统周围环境详细的纹理信息。

发明内容

本发明所要解决的技术问题是，提供一种有效将毫米波雷达与视觉信息融合进行目标检测的方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法，包括以下步骤：

数据采集与处理步骤：采集毫米波雷达点云与视觉图像数据；对毫米波雷达点云与视觉图像数据进行时间近似同步处理；

融合步骤：将毫米波雷达点云数据从雷达坐标系转换到相机坐标系实现空间同步后进行预处理操作，提取点云框内目标点云的速度和深度信息构建雷达矩阵数据完成雷达信息提取；再在融合框架中通过神经网络提取图像特征图和雷达特征图并结合注意力机制进行特征融合得到融合特征图；

检测步骤：将融合特征图进行上采样输入至分支卷积网络，对分支卷积的输出信息进行解码后得到目标的类别和三维信息。

本发明三维目标检测方法，以仅使用视觉图像信息的CenterNet网络为基线，通过一种多模态融合方法对其进行增强，通过修改CenterNet网络结构，在视觉图像信息的基础上增加毫米波雷达点云信息，实现特征级融合，克服单一图像模态信息不足的问题。

对转换到相机坐标系的毫米波雷达点云进行聚类分割并构建三维包围框，并将其投影到图像平面上，实现了目标的图像信息与雷达点云信息的较好关联，提高了特征融合时的匹配精度；

采用注意力机制更加有效地融合了图像和雷达的特征信息，利用传感器间的互补特性，实现两种信息的优势互补，增强了模型的鲁棒性和目标检测算法的检测准确率，尤其提升对远距离小目标的检测率；

加入了基于毫米波雷达采集的目标速度信息，能够不依靠时间信息预测得到更加精确的目标运动速度；

通过设计的多模态融合网络，实现视觉图像和雷达点云数据的特征级融合，能够预测目标的三维尺寸、位置和速度等信息，同时在结构、抗干扰两方面对网络进行优化，选择模型的最佳参数，在算法精度与检测速度之间取得较好的平衡。

本发明的有益效果是，高效地融合了视觉图像数据与毫米波雷达数据，有效提高了复杂场景下三维目标检测的准确率和可靠性。

通过建立联合数据采集平台制作包含汽车和行人的视觉图像与毫米波雷达点云数据集，基于上述自制数据集的测试结果表明，本发明与基于视觉图像信息的CenterNet网络相比，平均精度均值mAP(mean Average Precision)值提高了9.2％，平均偏移误差mATE降低了15.0％，平均速度误差mAVE降低了72.4％。

附图说明

图1为本发明流程示意图；

图2为实施例的毫米波雷达点云投影到平面中的效果图；

图3为多模态融合网络模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及效果更加清楚易懂，下面结合附图和实施例，对本发明的技术方案作进一步详细描述，以下的具体实施例用于解释本发明，不用于限制本发明范围。

如图1所示，实施本发明流程的系统包括数据采集与处理模块、融合模块和检测模块三部分。

系统实施基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法，包括如下步骤：

融合步骤：将毫米波雷达点云数据从雷达坐标系转换到相机坐标系实现空间同步后进行预处理操作，提取点云框内目标点云X与Y两个方向的速度和深度信息构建雷达矩阵数据完成雷达信息提取；再在融合框架中通过神经网络提取图像特征图和雷达特征图并结合注意力机制进行特征融合得到融合特征图；

详细流程如下所示：

步骤1：将毫米波雷达和摄像头同时连接到安装有机器人操作系统ROS的设备上，利用毫米波雷达采集毫米波雷达点云，利用摄像头采集视觉图像数据，使用ROS同时采集毫米波雷达点云数据和视觉图像数据并保存为bag格式。

步骤2：对毫米波雷达点云数据与视觉图像进行时间近似同步处理。

步骤2-1：首先在ROS中使用rosbag包提供的play命令回放保存为bag文件格式的毫米波雷达点云数据和视觉图像数据。

步骤2-2：创建ROS节点，该节点用于订阅毫米波雷达点云数据和视觉图像数据，订阅数据后使用ROS提供的message_filters库中的ApproximateTime策略，该策略使用自适应算法来实现不同数据时间戳信息的近似匹配，随后使用发布器将同步后的多模态数据作为信息对外发布。

步骤2-3：订阅同步后的点云信息和图像信息并保存为bag格式的文件，提取毫米波雷达点云数据保存为pcd格式文件，提取视觉图像数据保存为jpg格式文件。

步骤3：将毫米波雷达点云数据从雷达坐标系转换到相机坐标系实现空间同步，采用张正友标定法获得摄像头的内参系数，以右手螺旋定则建立空间坐标系，通过手动求解旋转矩阵和偏移矩阵获得毫米波雷达和摄像头的外参矩阵，利用外参矩阵，通过刚体变换将雷达点云坐标从毫米波雷达坐标系转换到相机坐标系，刚体变换包括旋转变换和平移变换。

步骤3-1：毫米波雷达坐标系到世界坐标系转换，假设雷达相对于世界坐标系的偏移向量为T_r＝[T_r,x,T_r,y,T_r,z]，雷达坐标系的极坐标系到三维世界坐标系的转换为：

其中，x_w、y_w和z_w为世界坐标系下雷达点云的三维坐标，R为毫米波雷达与目标间的径向距离，θ为雷达和目标间的方位角。

步骤3-2：世界坐标系到相机坐标系转换如下：

其中，x_c、y_c和z_c为相机坐标系下雷达点云的三维坐标，T_c为平移矩阵，R_c为旋转矩阵，点云数据依次绕x轴、y轴和z轴旋转α、β和γ度，即可得到旋转矩阵，R_c旋转矩阵的计算公式如下：

步骤4：对毫米波雷达点云数据进行预处理操作。

步骤4-1：将转换到相机坐标系的毫米波雷达点云数据解析为(5,N)的矩阵，其中N为多帧积累后的点云数量，每一个点云包括5个维度的特征(x,y,z,v_x,v_y)，其中(x,y,z)表示点云的空间位置，(v_x,v_y)表示目标相对雷达的径向运动速度在X与Y方向的速度分量。

步骤4-2：

采用直通滤波，首先指定一个维度以及该维度下的值域范围，然后遍历点云中的每一个维度上的元素值，判断该元素值在指定维度上的取值是否在值域内，若取值不在值域内则删除该点云，遍历结束后留下的点云即完成滤波操作，有效雷达点云筛选公式为：

其中v为目标的径向运动速度在相机坐标系下x与y方向的速度分量，z为目标在相机坐标系下z轴的距离。

步骤4-3：采用欧式聚类分割，依据点云与点云之间的距离将小于距离阈值的作为一个集群，使用Kd-Tree近邻搜索算法进行聚类算法加速，其中聚类容忍度设为0.3m，最小聚类点云数量为8，算法步骤如下：

1)为输入的点云数据集P创建Kd-tree的表示；

2)设置一个空聚类列表C以及一个点云队列Q；

3)在P中选取一个未被聚类处理的点云p_i进行如下聚类处理步骤：

a)将p_i添加到当前队列Q；

b)对每个Q中的p_i进行如下步骤：

b1通过Kd-Tree近邻搜索算法在点云数据集P中找到k个离p_i最近的点组成点云集p_i_k；

b2设置距离阈值r，遍历p_i_k，将p_i_k中与p_i的欧式距离不超过r且未被聚类处理的点云加入到Q中；

b3p_i_k遍历完毕后，则把Q添加到聚类列表C的一个新的聚类上，并将Q清空；

4)当数据集P中的所有点是否均完成聚类，如否则返回步骤3)，如是则完成欧式聚类分割，得到最终的聚类列表C，聚类列表C中的每一个聚类对应一个点云集群。

步骤4-4：利用点云库PCL(Point Cloud Library)中的MomentOfInertiaEstimation类提取欧式分割聚类后每个点云集群的三维的坐标轴平行包围盒。

步骤4-5：将滤波后的点云和坐标轴平行包围盒投影到图像平面进行目标关联，坐标轴平行包围盒投影得到二维点云包围框，包围盒可以看作由很多个点组成，因此包围盒投影与点投影原理相同，如图2所示为雷达点云投影效果，具体投影计算公式如下：

其中Z_c为尺度因子，(u,v)为点云在图像平面的像素坐标系下的像素坐标，f为像距，dx和dy分别表示在像素坐标系的X，Y方向上的一个像素在相机感光板上的物理长度，u₀和v₀分别表示相机感光板中心在像素坐标系下的坐标。将点云在相机坐标中Z轴的值记为距离d，投影后按照距离d从小到大对点云进行排序，然后将点云扩展为三维点云柱，点云柱的大小设置为(2,0.5,0.5)，将点云柱投影到图像平面的像素坐标系得到矩形的点云区域，获取点云区域在图像平面的位置以及宽和高。点云框是由坐标轴平行包围盒投影得到的，点云柱是点云框内点云扩展得到的。，这里的距离和相机坐标系中Z轴的值是一致的，相机坐标系里Z轴是向正前方的，Z轴的值就相当于目标到相机的距离。

步骤5：提取二维点云包围框内目标点云(聚类后得到的点云)的速度(点云信息中目标径向速度的x和y分量v_x,v_y)和距离信息构建雷达矩阵数据构建与图像尺寸相同的3通道雷达矩阵数据，在与二维点云包围框尺寸成比例的矩形内填充雷达点云信息，其余位置填充0，填充区域的数值计算公式如下：

其中3个通道的取值n_c包括相机坐标系下的目标距离d以及目标径向速度的x和y分量，S_c为标准化因子，是缩放系数，一般设置为1，/>和/>是第i个点云柱投影所得的矩形点云区域在像素坐标系下的中心坐标，wⁱ和hⁱ为矩形点云区域的宽和高(此处的宽和高为点云柱投影所得的矩形点云区域的宽和高，投影后可以通过简单的计算得到)，W和H为图像的宽和高，如果两个矩形点云区域存在重叠，则重叠区域保留距离更近点云的信息。每个点云都有距离信息。当两个矩形点云区域重叠的时候，则重叠区域内填充距离近的点云的信息。

步骤6：在融合框架中通过神经网络提取图像特征图和雷达特征图并结合注意力机制进行特征融合得到融合特征图，该融合网络以CenterNet网络作为基线进行修改，如图3所示，其中融合框架包含图像特征提取模块、雷达特征提取模块和注意力融合模块。

首先将尺寸均为1x3x512x512大小的图像和雷达矩阵信息分别输入到网络当中进行特征提取，图像特征提取模块采用DLA-34网络作为主干网提取图像特征，得到尺寸为1×2048×16×16的图像特征图，雷达特征提取模块采用ResNet-50作为主干网提取雷达特征，得到尺寸为1×2048×16×16的雷达特征图。

注意力融合模块包含两个独立的卷积层，分别对雷达特征图进行权重特征提取，该模块基于注意力的思想，借助雷达信息使神经网络关注图像特征中更加关键的信息。其中第一个卷积层的卷积核大小为1×1，步长为(1,1)，填充为(0,0)，第二个卷积层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，分别得到权重矩阵大小为1×2048×16×16，将权重矩阵相加，然后将相加得到的权重矩阵与图像特征图叉乘得到融合后的特征图1。

步骤7：将融合特征图进行DLAUp和IDAUp的上采样并利用分支卷积网络得到目标的类别和三维信息。

步骤7-1：使用反卷积模块Deconv对特征图1进行上采样，反卷积模块包含三个反卷积组，其中每一个组包含一个可形变卷积和一个反卷积，每次反卷积将特征图尺寸增大一倍，特征图1进行可变形卷积和上采样后，得到尺寸为1×64×128×128的特征图2；

步骤7-2：将特征图2分别送进4个卷积分支中进行预测，每个分支卷积包括一个3×3×256的卷积，然后做1×1卷积得到期望输出，预测得到的heatmap尺寸为1×2×128×128，位置尺寸为1×3×128×128，三维边框尺寸1×3×128×128，速度尺寸为1×1×128×128；

步骤7-3：对卷积分支的输出信息进行解码，最终得到目标的类别、位置、三维包围框和速度等信息。

测试实验

1.实验条件：

本发明运行的硬件平台为Intel Xeon Silver 4214R+NVIDIA RTX3090+16G DDR4RAM，软件环境为CentOS 7.4+CUDA 11.1+PyTorch 1.7+Python 3.7，使用PyCharm开发工具进行算法开发工作。

2.实验内容：

实验中使用的数据集为自制数据集，使用1080P高清摄像头采集视觉图像数据，使用TI IWR6843毫米波雷达采集毫米波雷达点云数据，数据集评估指标为基于nuScenes数据集制定的mAP、mATE和mAVE三种评估指标。

为了证明本发明的有效性，选择与单纯基于视觉图像的CenterNet基线模型进行对比，CenterNet网络在文献“Objects as Points”中有详细介绍。

表1：本发明与CenterNet模型结果对比

模型	mAP	mATE	mAVE
				CenterNet	0.566	0.754	1.245
本发明	0.618	0.641	0.344

由表1可知，本发明与基线网络CenterNet相比有更高的目标检测率，平均均度均值mAP值高于CenterNet网络0.052，提高9.2％；平均偏移误差优于CenterNet网络，降低了15.0％；由于加入了雷达点云速度信息，本发明的平均速度误差远远低于CenterNet网络，降低了72.4％，相比视觉图像能够更加精准地预测目标运动速度。

综上所述，本发明针对复杂环境下三维目标检测算法存在的问题，从提高现有三维目标检测算法精度，增强模型鲁棒性出发，设计一种基于视觉相机和毫米波雷达的多模态融合三维目标检测算法，利用传感器间的互补特性，结合注意力机制对图像和雷达数据进行特征级的融合，提高了原有检测模型的检测效率，降低检测误差，提高了模型的鲁棒性，是一种有效且实用的三维目标检测算法。

Claims

1.一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法，其特征在于，包括以下步骤：

检测步骤：将融合特征图进行上采样输入至分支卷积网络，对分支卷积的输出信息进行解码后得到目标的类别和三维信息；

融合步骤中对毫米波雷达点云数据进行预处理操作具体为：

将转换到相机坐标系的毫米波雷达点云数据解析为(5,N)的矩阵，其中N为多帧积累后的点云数量，每一个点云包括5个维度的特征(x,y,z,v_x,v_y)，其中(x,y,z)表示点云的空间位置，(v_x,v_y)表示目标相对雷达的径向运动速度在相机坐标系X与Y方向的速度分量；

采用直通滤波筛选出径向运动速度以及相机坐标系下Z轴的距离满足条件的点云；

采用直通滤波后的点云采用欧式聚类分割得到点云集群；

利用点云库中的类提取欧式分割聚类后每个点云集群的三维的坐标轴平行包围盒；

将坐标轴平行包围盒投影到图像平面进行目标关联，坐标轴平行包围盒投影得到二维点云包围框，具体投影计算公式如下：

其中Z_c为尺度因子，(u,v)为点云在图像平面的像素坐标系下的像素坐标，f为像距，dx和dy分别表示在像素坐标系的X，Y方向上的一个像素在相机感光板上的物理长度，u₀和v₀分别表示相机感光板中心在像素坐标系下的坐标；

将点云在相机坐标中Z轴的值记为距离d，投影后按照距离d从小到大对点云进行排序，然后将点云扩展为三维点云柱，将点云柱投影到图像平面的像素坐标系得到矩形的点云区域，获取点云区域在图像平面的位置以及宽和高。

2.如权利要求1所述方法，其特征在于，数据采集与处理步骤的具体方法为：使用与毫米波雷达和摄像头相连的安装有机器人操作系统ROS的设备采集毫米波雷达点云数据和视觉图像数据并保存为bag格式；

通过以下步骤对毫米波雷达点云数据与视觉图像进行时间近似同步处理：

首先在ROS中回放保存为bag文件格式的毫米波雷达点云数据和视觉图像数据；创建ROS节点，该ROS节点用于订阅毫米波雷达点云数据和视觉图像数据，订阅数据后使用ROS提供的自适应算法来实现不同数据时间戳信息的近似匹配，随后使用发布器将同步后的多模态数据作为信息对外发布；订阅同步后的点云信息和图像信息并保存为bag格式的文件，提取毫米波雷达点云数据保存为pcd格式文件，提取视觉图像数据保存为jpg格式文件。

3.如权利要求1所述方法，其特征在于，融合步骤中提取点云框内目标点云的x和y分量速度、深度构建雷达矩阵数据完成雷达特征图提取的具体方法为：

提取二维点云包围框内的点云构建与图像尺寸相同的3通道雷达矩阵数据，在与二维点云包围框尺寸成比例的矩形内填充雷达点云信息作为雷达特征图，其余位置填充0，填充区域的数值计算公式如下：

其中，i表示第i个点云，n_c为3个通道的取值，分别为相机坐标系下的目标距离d以及目标径向速度X与Y分量；相机坐标系下的目标距离d采用点云的z值，目标径向速度的X与Y分量为点云的v_x值和v_y值；S_c为标准化因子；

是缩放系数，/>和/>是第i个点云柱投影所得的矩形点云区域在像素坐标系下的中心坐标，wⁱ和hⁱ为矩形点云区域的宽和高，W和H为图像的宽和高。

4.如权利要求1所述方法，其特征在于，融合步骤中直通滤波的具体方法是：

首先指定一个维度以及该维度下的值域范围，然后遍历点云中的每一个维度上的元素值，判断该元素值在指定维度上的取值是否在值域内，若取值不在值域内则删除该点云，遍历结束后留下的点云即完成滤波操作，有效雷达点云筛选公式为：

5.如权利要求1所述方法，其特征在于，欧式聚类分割的具体方法为：

依据点云与点云之间的距离将小于距离阈值的作为一个集群，使用Kd-Tree近邻搜索算法进行聚类：

1)为输入的点云数据集P创建Kd-tree的表示；

2)设置一个空聚类列表C以及一个点云队列Q；

a)将p_i添加到当前队列Q；

b)对每个Q中的p_i进行如下步骤：

b3 p_i_k遍历完毕后，则把Q添加到聚类列表C的一个新的聚类上，并将Q清空；

6.如权利要求1所述方法，其特征在于，融合步骤中使用的融合框架包含图像特征提取模块、雷达特征提取模块和注意力融合模块；

图像特征提取模块采用DLA-34网络作为主干网提取图像特征，雷达特征提取模块采用ResNet-50作为主干网提取雷达特征，雷达特征提取模块输出至注意力融合模块，注意力融合模块包含两个独立的卷积层，第一个卷积层的卷积核大小为1×1，步长为(1,1)，填充为(0,0)，第二个卷积层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，再将卷积层输出的权重矩阵相加，然后将相加得到的权重矩阵与图像特征提取模块输出的图像特征图叉乘得到融合后的特征图。