CN113610044A

CN113610044A - 基于自注意力机制的4d毫米波三维目标检测方法及系统

Info

Publication number: CN113610044A
Application number: CN202110955241.1A
Authority: CN
Inventors: 张新钰; 王力; 李骏; 徐保伟; 胡晓梅; 由智文; 李志伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-05
Anticipated expiration: 2041-08-19
Also published as: CN113610044B

Abstract

本发明公开了一种基于自注意力机制的4D毫米波三维目标检测方法，包括：实时采集4D毫米波雷达点云数据并进行预处理；将预处理后的4D毫米波雷达点云数据输入预先训练好的三维目标检测模型，输出目标检测结果；三维目标检测模型包括：鸟瞰视图体素化模块、立柱自注意力特征提取模块、CNN主干网络和PRN检测头；鸟瞰视图体素化模块，用于对4D毫米波雷达点云数据在鸟瞰图视角进行体素化操作，提取整个空间的特征信息F；立柱自注意力特征提取模块，用于利用特征信息F，基于自注意力机制提取点云全局特征，生成一个BEV伪图像；CNN主干网络，用于对BEV伪图像进行特征提取，输出特征图；PRN检测头，用于对特征图进行目标检测，输出3D目标检测结果。

Description

基于自注意力机制的4D毫米波三维目标检测方法及系统

技术领域

本发明涉及自动驾驶领域，具体涉及基于自注意力机制的4D毫米波三维目标检测方法及系统。

背景技术

3D目标检测是自主驾驶感知系统中最具挑战性的问题之一，主要的传感器有RGB摄像头、激光雷达和毫米波雷达。传统相机可以显示较为细致的环境信息，拥有色彩信息和明显的物体轮廓，在目标检测中可以达到比较高的识别精度，但是缺少目标的深度信息，且检测结果易受环境光照变化影响；激光雷达(LiDAR)有较好的分辨率，可以较为准确地进行短距离物体测距,但其受天气影响较为严重，尤其能见度低的雨雪天气，探测精度迅速降低，因此在应对极端驾驶场景时具有一定局限性。毫米波雷达(RaDAR)恰好补足了激光雷达的劣势，毫米波在应对极端恶劣天气也具有良好的鲁棒性，探测精度不会因天气的变化而急速下降，同时价格较激光雷达更低，体积更加小巧轻盈，在自动驾驶车辆的传感器配置中具有较高性价比。

为了满足深度学习网络的输入格式，雷达数据被划分为网格或转换为鸟瞰图。然而，由于3D毫米波雷达数据没有垂直方向的信息，同时加上毫米波雷达点云的稀疏性，使得其在数据处理上具有一定挑战。而4D毫米波雷达具有一定的垂直方向分辨率，可以获得空间的点云信息。工业界和科学界都在积极使用4D毫米波雷达传感器提供物体的三维坐标，从而提升3D目标检测的精度和效果。4D毫米波雷达可以在极端的天气下工作，并且比传统的3D毫米波雷达具有更好的性能，可以全天候、全天时工作，可实现远距离感知与探测。以16线激光雷达为例，数据主要集中在0～70m的范围内，而4D毫米波在0～100m的范围内都会产生有效的数据，但由于传感器角度分辨较弱，远距离点云的垂直信息模糊。目前，基于激光雷达的端到端3D目标检测方法中,点云通常被转换为体素特征，或者直接从点云中提取特征。

4D毫米波雷达传感器属于新兴技术，且数据集较少。目前大部分的公开数据集中均使用3D毫米波数据，缺少垂直方向的信息，仅包含水平信息和速度信息。本发明利用4D毫米波数据的特点，选用Astyx数据集作为训练和测试集，其包含的4D毫米波雷达数据，可以进一步提升单模态毫米波数据在3D目标检测的效果。然而，通用的方法直接应用于4D毫米波雷达点云会造成局部特征在稀疏数据中的表现并不理想。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种基于自注意力机制的4DRaDAR三维物体检测网络RPFA-Net(RaDAR Pillar Feature Attention Network)，旨在调整毫米波数据的输入特征，通过自注意力机制提取点云的全局特征，提高网络对物体方向角的回归能力，进而提高3D目标检测效果。

为实现上述目的，本发明的实施例1提出了一种基于自注意力机制的4D毫米波三维目标检测方法，所述方法包括：

实时采集4D毫米波雷达点云数据，并进行预处理；

将预处理后的4D毫米波雷达点云数据输入预先训练好的三维目标检测模型，输出目标检测结果；所述三维目标检测模型包括：鸟瞰视图体素化模块、立柱自注意力特征提取模块、CNN主干网络和PRN检测头；

所述鸟瞰视图体素化模块，用于对4D毫米波雷达点云数据在鸟瞰图视角进行体素化操作，提取整个空间的特征信息F；

所述立柱自注意力特征提取模块，用于利用特征信息F，基于自注意力机制提取点云全局特征，生成一个BEV伪图像；

所述CNN主干网络，用于对BEV伪图像进行特征提取，输出特征图；

所述PRN检测头，用于对特征图进行目标检测，输出三维目标检测结果。

进一步的，所述鸟瞰视图体素化模块的具体实现过程为：

对4D毫米波雷达点云数据进行映射，投影到水平坐标平面；

在水平坐标平面划分出的网格设立立柱，每个立柱内都存在点云数据点；每个点云数据点包含4个维度，即x、y、z、r；其中，前三个代表坐标系的三个方向，r代表物体的反射强度。

进一步的，所述立柱自注意力特征提取模块的具体实现过程包括：

步骤S1)对输入特征F进行取最大值运算，即找到最能代表立柱的特征，通过全连接层将特征维度扩展到64维：

F₆₄＝Linear(f_max(F))

其中，f_max()是立柱的最大化运算，Linear()是全连接层；F₆₄是64维特征矩阵；

步骤S2)将64维特征矩阵F₆₄降至16维特征矩阵F₁₆：

F₁₆＝Conv(F₆₄)

其中，Conv()是卷积层；

步骤S3)将转置得到的16维特征矩阵与原16维特征矩阵做矩阵乘法运算，之后对运算结果进行归一化，得到注意力权重矩阵F_w：

F_w＝Softmax((F₁₆)^TF₁₆)

其中，Softmax()表示归一化函数；

步骤S4)将注意力权重矩阵F_w和64维特征矩阵F₆₄阵相乘，然后减去F₆₄，经过线性层、归一化层和激活函数后得到全局信息特征F_t：

F_t＝ReLU(BN(LN(F_wF₆₄-F₆₄)))

其中，BN()和Relu()表示批量归一化层和激活函数；

步骤S5)将全局信息特征F_t与64维特征矩阵F₆₄相加，得到最终的区域内点云特征矩阵F_out：

F_out＝F_t+F₆₄

步骤S6)按照输入特征F和区域内点云特征矩阵F_out的具体位置，将F和F_out映射到水平坐标平面，形成一个BEV伪图像。

进一步的，所述方法还包括：对所述三维目标检测模型进行训练的步骤，具体包括：

根据KITTI数据集格式对Astyx数据集进行格式转换；

对Astyx数据集的4D毫米波雷达点云数据进行旋转压缩处理：

其中，x和z是4D毫米波雷达点云数据的源坐标，而x_t和z_t是4D毫米波雷达点云数据旋转压缩后的坐标；β＝0.1035倍；

将旋转压缩处理后的4D毫米波雷达点云数据作为训练集，对三维目标检测模型进行训练。

本发明的实施例2提出了一种基于自注意力机制的4D毫米波三维目标检测系统，所述系统包括：三维目标检测模型、数据预处理模块和目标检测模块；

所述数据预处理模块，用于实时采集4D毫米波雷达点云数据，并进行预处理；

所述目标检测模块，用于将预处理后的4D毫米波雷达点云数据输入预先训练好的三维目标检测模型，输出目标检测结果；所述三维目标检测模型包括：鸟瞰视图体素化模块、立柱自注意力特征提取模块、CNN主干网络和PRN检测头；

进一步的，所述鸟瞰视图体素化模块的具体实现过程为：

对4D毫米波雷达点云数据进行映射，投影到水平坐标平面；

F₆₄＝Linear(f_max(F))

其中，f_max()是立柱的最大化运算，Linear()是全连接层；F₆₄是64维特征矩阵；步骤S2)将64维特征矩阵F₆₄降至16维特征矩阵F₁₆：

F₁₆＝Conv(F₆₄)

其中，Conv()是卷积层；

F_w＝Softmax((F₁₆)^TF₁₆)

其中，Softmax()表示归一化函数；

F_t＝ReLU(BN(LN(F_wF₆₄-F₆₄)))

其中，BN()和Relu()表示批量归一化层和激活函数；

F_out＝F_t+F₆₄

进一步的，所述三维目标检测模型的训练步骤具体包括：

根据KITTI数据集格式对Astyx数据集进行格式转换；

对Astyx数据集的4D毫米波雷达点云数据进行旋转压缩处理：

本发明的优势在于：

本发明提出一种基于自注意力机制的4D毫米波三维目标检测方法，该方法基于自注意力机制的4D毫米波三维物体检测网络RPFA-Net，可以利用自注意力机制提取点云的全局特征，这些包含长距离信息的全局特征可以有效地提高网络对物体方向角的回归能力，提高三维目标检测精度。

附图说明

为了更清晰地介绍本发明，下面将对本发明中所使用的附图做简单地介绍，下面描述中的附图是本发明的一些实施例，对于本发明的一些实施例，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的三维目标检测模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

实施例1

本发明的实施例1提出了一种基于自注意力机制的4D毫米波三维目标检测方法，包括以下步骤：

步骤1)建立并训练三维目标检测模型；

步骤101)建立三维目标检测模型；

如图1所示，三维目标检测模型包括：鸟瞰视图体素化模块、立柱自注意力特征提取模块、2D CNN主干网络的PRN检测头；

鸟瞰视图体素化模块，用于在鸟瞰图(BEV)视角对4D毫米波雷达点云数据进行体素化操作，提取整个空间的特征信息F；

首先对4D毫米波雷达点云数据进行映射，投影到水平坐标平面并根据划分出的网格设立Pillar(立柱)，每个Pillar内都存在点云数据点。由于本发明使用的点云数据存在垂直方向的信息，所以共包含4个维度，即x、y、z、r；其中，前三个代表坐标系的三个方向，r代表物体的反射强度。点云在X,Y,Z方向范围分别为[0,99.84]、[-39.68,39.68]和[-3,1]。最后，点云被划分为624×496个体素。

立柱自注意力特征提取模块，用于在自注意力特征提取层RPFAlayer提取点云的特征，借鉴了自注意力Self-Attention的机制来提取点云全局特征；

首先对输入特征F进行取最大值运算，即找到最能代表Pillar的特征。然后，该特征被映射成Q、K和V三部分，并只对它们进行注意力计算。最后，将具有全局信息特征与原局部信息进行残差连接，进而提取区域内点云特征，具体实现步骤包括：

F₆₄＝Linear(f_max(F))

其中，f_max()是立柱(Pillar)的最大化运算，Linear()是全连接层；F₆₄是降维前的特征矩阵；

步骤S2)通过卷积运算降维，实现特征维度的转换，最终降至16维特征矩阵：

F₁₆＝(F₆₄)

F₁₆是降维后的特征向量，Conv()是卷积层。降维主要是为了减少参数，提高计算效率。

步骤S3)将转置得到的16维特征矩阵与原16维特征矩阵做矩阵乘法运算，之后对结果归一化，得到注意力权重矩阵F_w：

F_w＝Softmax((F₁₆)^TF₁₆)

Softmax()表示归一化函数。

步骤S4)将注意力权重矩阵F_w和64维特征矩F₆₄阵相乘之后，减去F₆₄，经过线性层、归一化层和激活函数后得到全局信息特征F_t：

F_t＝ReLU(BN(LN(F_wF₆₄-F₆₄)))

BN()和Relu()表示批量归一化层和激活函数。

步骤S5)将F_t与F₆₄相加，得到最终的区域内点云特征矩阵F_out：

F_out＝F_t+F₆₄

步骤S6)使用体素特征F和F_out，按照其具体位置映射到水平坐标平面，形成一个BEV伪图像；

2D CNN主干网络，用于对BEV伪图像进行特征提取，输出特征图；

2D CNN网络是目前较为通用且高效的特征提取网络，对于不同尺度信息的特征提取效果显著。

PRN检测头，用于对特征图进行目标检测，完成3D目标检测的全流程，输出检测结果；

步骤102)对三维目标检测模型进行训练；

步骤102-1)根据标准且通用的KITTI数据集格式对Astyx数据集进行转换；

步骤102-2)基于数理统计规律对4D Radar数据进行旋转压缩处理；

首先，基于统计的方法，对每一帧中每个点的发散角进行统计，验证是否符合正态分布；如果是，则选择平均值来代表该帧中所有点的发散角；否则用最大值来代表它们；

计算发散角的平均值和标准差，然后计算其峰度和偏度：

其中，θ_i表示第i个发散角,n为发散角的个数，

表示平均值，S表示方差，Skew_θ和Kurt_θ表示偏度和峰度，θ为发散角统计量；

如果峰度和偏度都很小，就认为它们是正态分布。根据数理统计，发散角度约为96.5825，将角度压缩为原来的β＝0.1035倍；

采用上面计算的角度来调整点云的垂直平面坐标，即X和Z坐标：

x和z是4D毫米波雷达点云数据的源坐标，而x_t和z_t是4D毫米波雷达点云数据旋转压缩后的坐标；

步骤2)实时采集4D毫米波雷达点云数据，进行预处理；

步骤3)将预处理后的集4D毫米波雷达点云数据输入训练好的三维目标检测模型，输出目标检测结果。

实施例2

本发明的实施例2提出了一种基于自注意力机制的4D毫米波三维目标检测系统，系统包括：三维目标检测模型、数据预处理模块和目标检测模块；

数据预处理模块，用于实时采集4D毫米波雷达点云数据，并进行预处理；

目标检测模块，用于将预处理后的4D毫米波雷达点云数据输入预先训练好的三维目标检测模型，输出目标检测结果；三维目标检测模型包括：鸟瞰视图体素化模块、立柱自注意力特征提取模块、2D CNN主干网络和PRN检测头；

鸟瞰视图体素化模块，用于对4D毫米波雷达点云数据在鸟瞰图视角进行体素化操作，提取整个空间的特征信息F；

立柱自注意力特征提取模块，用于利用特征信息F，基于自注意力机制提取点云全局特征，生成一个BEV伪图像；

PRN检测头，用于对特征图进行目标检测，输出三维目标检测结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自注意力机制的4D毫米波三维目标检测方法，所述方法包括：

实时采集4D毫米波雷达点云数据并进行预处理；

2.根据权利要求1所述的基于自注意力机制的4D毫米波三维目标检测方法，其特征在于，所述鸟瞰视图体素化模块的具体实现过程为：

对4D毫米波雷达点云数据进行映射，投影到水平坐标平面；

3.根据权利要求1所述的基于自注意力机制的4D毫米波三维目标检测方法，其特征在于，所述立柱自注意力特征提取模块的具体实现过程包括：

F₆₄＝Linear(f_max(F))

步骤S2)将64维特征矩阵F₆₄降至16维特征矩阵F₁₆：

F₁₆＝Conv(F₆₄)

其中，Conv()是卷积层；

F_w＝Softmax((F₁₆)^TF₁₆)

其中，Softmax()表示归一化函数；

F_t＝ReLU(BN(LN(F_wF₆₄-F₆₄)))

其中，BN()和Relu()表示批量归一化层和激活函数；

F_out＝F_t+F₆₄

4.根据权利要求1所述的基于自注意力机制的4D毫米波三维目标检测方法，其特征在于，所述方法还包括：对所述三维目标检测模型进行训练的步骤，具体包括：

根据KITTI数据集格式对Astyx数据集进行格式转换；

对Astyx数据集的4D毫米波雷达点云数据进行旋转压缩处理：

将旋转压缩处理后的Astyx数据集的4D毫米波雷达点云数据作为训练集，对三维目标检测模型进行训练。

5.一种基于自注意力机制的4D毫米波三维目标检测系统，其特征在于，所述系统包括：三维目标检测模型、数据预处理模块和目标检测模块；

所述数据预处理模块，用于实时采集4D毫米波雷达点云数据并进行预处理；

6.根据权利要求5所述的基于自注意力机制的4D毫米波三维目标检测系统，其特征在于，所述鸟瞰视图体素化模块的具体实现过程为：

对4D毫米波雷达点云数据进行映射，投影到水平坐标平面；

7.根据权利要求5所述的基于自注意力机制的4D毫米波三维目标检测系统，其特征在于，所述立柱自注意力特征提取模块的具体实现过程包括：

F₆₄＝Linear(f_max(F))

步骤S2)将64维特征矩阵F₆₄降至16维特征矩阵F₁₆：

F₁₆＝Conv(F₆₄)

其中，Conv()是卷积层；

F_w＝Softmax((F₁₆)^TF₁₆)

其中，Softmax()表示归一化函数；

F_t＝ReLU(BN(LN(F_wF₆₄-F₆₄)))

其中，BN()和Relu()表示批量归一化层和激活函数；

F_out＝F_t+F₆₄

8.根据权利要求5所述的基于自注意力机制的4D毫米波三维目标检测系统，其特征在于，所述三维目标检测模型的训练步骤具体包括：

根据KITTI数据集格式对Astyx数据集进行格式转换；

对Astyx数据集的4D毫米波雷达点云数据进行旋转压缩处理：