CN114550163A

CN114550163A - 基于可变形注意力机制的成像毫米波三维目标检测方法

Info

Publication number: CN114550163A
Application number: CN202210179044.XA
Authority: CN
Inventors: 李骏; 张新钰; 王力; 张劲钊; 周沫; 李志伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-27
Anticipated expiration: 2042-02-25
Also published as: CN114550163B

Abstract

本发明涉及自动驾驶中三维目标检测领域，尤其涉及基于可变形注意力机制的成像毫米波三维目标检测方法，所述方法包括：采集毫米波激光雷达点云数据，输入预先建立和训练好的毫米波特征增强网络，输出三维目标检测结果；所述毫米波特征增强网络，基于可变形注意力机制，加强特征表达能力。本发明的方法利用4D毫米波的优点，同时增强点云特征表达，得到更好的三维目标检测结果；采用本发明的方法能够适应恶劣天气环境，并且成本可控。

Description

基于可变形注意力机制的成像毫米波三维目标检测方法

技术领域

本发明涉及自动驾驶中三维目标检测领域，特别涉及基于可变形注意力机制的成像毫米波三维目标检测方法。

背景技术

自动驾驶集成了环境感知、运动控制、路径规划、线控执行等功能。而传感器作为实现环境感知的重要媒介，同时也是自动驾驶的基础。常见的传感器包括摄像头、激光雷达、毫米波雷达和超声波雷达等。其中摄像头成本低廉，可以在汽车各个方位进行安装并采集到丰富的信息，但是易受黑夜，暴雨等能见度较低的天气影响。激光雷达优点在于可以精确的探测出汽车周围的三维信息，缺点是造价昂贵。毫米波雷达具有穿透性的特点，可以全天时和全天候的工作，适用于恶劣天气以及明暗对比强烈的环境，并且相比于激光雷达成本可控，对于远距离以及纵向物体的探测要优于其他传感器。车辆的自适应巡航和盲点监测等技术都是基于毫米波雷达实现。

成像毫米波雷达相较于传统的毫米波雷达，可以在四个维度下实现环境感知，从方位角、速度和距离扩展到高度信息，因此，也称为4D毫米波雷达。毫米波雷达可以根据高度信息更准确感知周围环境包括静态和动态的物体，比如地面的井盖以及路标等。4D毫米波雷达不惧光照和恶劣天气影响，成本低廉，使得其易于商业化落地，在自动驾驶中的应用场景十分广泛。

三维目标检测详细的描述了物体的大小和位置信息。在深度学习与点云的结合下，三维目标检测通常包含3个阶段：数据表示、特征提取以及检测网络。在数据表示中，模型通常将传感器提供的点云数据划分为体素、柱体和二维视角的数据等，或者直接将原始点云作为下一个模块的输入。在特征提取阶段，模型从点云中提取出不同类型的特征，包括低维特征和高维特征。在最后的检测网络中，模型对目标物体的三维边界框以及物体方位角进行预测，有些情况下，也会对物体速度进行预测。在使用4D毫米波作为输入时，点云数量相对稀疏，无法准确的描述物体的尺寸和方位角，所以在特征提取阶段需要对点云数据进行特征增强处理，从而提高三维目标检测精度。

在自动驾驶相关的应用中，KITTI数据集是最常用的数据集之一，它提供了多个传感器的校准信息和含有注释的3D边界框(Bounding Box)，根据标记目标的大小、遮挡和截断级别，标注分为简单、中等和困难三种情况。本发明使用的Astyx数据集拥有与KITTI相同的评价指标和规范。同时，Astyx数据集包含有多帧4D毫米波的点云数据，使得Astyx更适用于使用4D毫米波来完成三维目标检测任务。

综上所述，为实现能够适用于恶劣天气以及明暗对比强烈环境的高分辨感知系统，需要使用4D毫米波来对周围环境进行感知。4D毫米波虽然无惧恶劣天气环境，但是其点云数据相比于激光雷达要相对稀疏，如果直接使用原始4D毫米波数据，必然会造成很多漏检和误检，因此增强4D毫米波的特征表达就显得尤为重要。在自然语言处理中，Transformer结构中的自注意力机制得到了大量的应用，它可以增强特征在训练过程中的表达。但是自注意力机制在训练过程中收敛过于缓慢并且需要训练的参数过多。可变形注意力机制结合了可变形卷积稀疏采样的优点和Transformer中的关系建模能力，使模型在训练过程中加速收敛并且能更好的学习到特征中的重点区域。

发明内容

本发明的目的在于克服现有技术缺陷，提出了基于可变形注意力机制的成像毫米波三维目标检测方法。

为了实现上述目的，本发明提出了一种基于可变形注意力机制的成像毫米波三维目标检测方法，所述方法包括：

采集毫米波激光雷达点云数据，输入预先建立和训练好的毫米波特征增强网络，输出三维目标检测结果；

所述毫米波特征增强网络，基于可变形注意力机制，加强特征表达能力。

作为上述方法的一种改进，所述毫米波特征增强网络包括透视体素化模块、伪图像处理模块、特征增强模块和检测头；其中，

所述透视体素化模块，用于读取4D毫米波激光雷达点云数据并在三维空间下进行体素化；

所述伪图像处理模块，用于将体素化处理得到的特征处理为伪图特征；

所述特征增强模块，用于基于可变形注意力机制，将多个不同维度的伪图特征经编码、拼接、卷积和反卷积得到增强的特征矩阵；

所述检测头，用于根据增强的特征矩阵生成3D边界框，从而实现目标检测。

作为上述方法的一种改进，所述透视体素化模块的处理过程具体包括：

将4D毫米波激光雷达点云数据在x-y平面上按H×W的网格划分为H×W个体积为S×S×h的立柱，其中h表示每个立柱的高度，S表示立柱的底面边长，每个立柱包含多个点；

将每个点由4维度(x,y,z,r)扩展为10个维度(x,y,z,r,x_c,y_c,z_c,x_p,y_p,z_p)，其中，x,y,z为该点的三维坐标，r为反射率，x_c,y_c,z_c分别为该点相对于立柱中心点在x，y和z方向的偏差，x_p,y_p,z_p为该点相对于网格中心点在x，y和z方向的偏差；

对柱体中点的数量大于N的柱体进行随机下采样，少于N的填充0，得到对应每一帧点云的一个维度为(D,P,N)的张量，D为10，N为32，P为立柱总数目H×W。

作为上述方法的一种改进，所述伪图像处理模块的处理过程具体包括：

将每个立柱中的点云坐标对应的特征向量按位置编码到x-y平面，得到一个通道数为128的伪图特征。

作为上述方法的一种改进，所述特征增强模块的处理过程具体包括：

将14维度的点云特征O_R通过一个FC层和Maxpool层扩展为64维度的特征F_R：

F_R＝Maxpool(Linear(O_R))

式中，Maxpool表示最大池化层，Linear表示全连接层；

将64维度的点云特征F_R根据Encoder的key和query结构，生成大小为M×N的权重矩阵W_R：

式中，C表示特征维度数64，U和V表示学习后得到的两个权重，exp{.}表示指数函数，T表示转置；

将权重矩阵W_R与F_R相乘得到一个64维加权矩阵M_R：

M_R＝MW_RF_R

式中，M表示学习后得到的权重；

将加权矩阵M_R经过Dropout层之后与64维度的特征F_R相加，使得原始点云特征基于可变形注意力机制进行增强，然后经过归一化之后输出V_R：

V_R＝Norm(F_R+Drop(M_R))

根据下式得到第n个Encoder层增强后的特征F_n：

F_n＝V_R+Norm(V_R)

式中，Norm表示归一化；

由n个Encoder层进行残差连接和卷积操作得到增强后的特征F：

式中，Conv表示卷积层，deConv表示反卷积层。

作为上述方法的一种改进，所述检测头为区域生成网络。

作为上述方法的一种改进，所述方法还包括使用Astyx数据集对毫米波特征增强网络进行训练的步骤。

一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

一种非易失性存储介质，用于存储计算机程序，所述计算机程序当被处理器执行时执行上述任一项所述的方法。

与现有技术相比，本发明的优势在于：

1、本发明针对这些问题设计出一种基于可变形注意力的4D毫米波点云三维目标检测方法，旨在利用4D毫米波的优点，同时增强点云特征表达，得到更好的三维目标检测结果；

2、采用本发明的方法能够适应恶劣天气环境，并且成本可控。

附图说明

图1是本发明的基于可变形注意力的成像毫米波点云三维目标检测方法流程图；

图2是本发明的毫米波特征增强网络结构的示意图；

图3是本发明的毫米波特征增强模块(RDA)结构示意图。

具体实施方式

本发明提出一种基于可变形注意力机制的成像毫米波三维目标检测方法，可以通过增强4D毫米波点云的特征表达，从而使模型关注到更重要的特征。

该方法包括步骤：

步骤1、按KITTI数据的格式将本发明使用的Astyx数据集规范化。

步骤2、将4D毫米波RaDAR点云通过一个全连接网络层(Fully Connected Layer)将维度扩展到64维，在透视视图(Points View)中进行体素化，再通过一个全连接网络层和一个最大池化层(Maxpool Layer)之后与完成PV视角的特征提取。

步骤3、将从PV视角提取得到的特征转换到鸟瞰视角(Birds’Eye View)。

步骤4、使用可变形注意力机制设计了一种RaDAR点云的特征增强模块，这里称之为RDA(RaDAR Deformable Attention)模块。RDA模块首先在特征图中小规模采样，并将其作为对该特征图重点区域选取的预过滤器，然后生成对应区域的增强矩阵，接着对RaDAR特征进行多次编码操作之后得到多个不同维度的矩阵，将多个不同维度的特征进行拼接得到一个新的特征，随后对该特征进行一个卷积和反卷积得到规范化的特征矩阵。

步骤5、将BEV视角提取到的特征输入到RDA模块中，学习RaDAR特征中的重要信息，忽略干扰的特征。

步骤6、将步骤5得到的特征输入到最后的检测网络中。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1和图2所示，本发明的实施例1提出了一种基于可变形注意力机制的成像毫米波三维目标检测方法，包括步骤如下：

步骤1、将本发明使用的Astyx数据集规范化为标准KITTI数据集的格式。

步骤2、读取4D毫米波RaDAR点云并对其在BEV视角下体素化，将点云在x-y平面上按H×W的网格划分为H×W个体积为S×s×h(m)的立柱(Pillar)。每个Pillar包含多个点，原始的点云数据有4个维度(x,y,z,r)，r代表反射率。将其扩展为10个维度(x,y,z,r,x_c,y_c,z_c,x_p,y_p,z_p)，x_c,y_c,z_c表示点云相对于柱体的中心点偏差，x_p,y_p,z_p表示点云相对于网格中心点的偏差。对柱体中点的数量大于N的柱体进行随机下采样，少于N的填充0。由此对每一帧点云得到了一个维度为(D,P,N)的张量，其中D为10，N为32，P为Pillar总数目H×W。

步骤3、在步骤2的体素化过程中存在每个体素的坐标，根据这些坐标将对应的特征向量按位置编码到x-y平面，得到一个通道数为128的伪图特征。

步骤4、将步骤3得到伪图特征输入到RDA模块中。如图3所示，RDA模块借鉴了Transformer中的Encoder结构，让模型只关注点云中的重点区域，并且减小干扰区域的影响。需要说明的是，本图以3个Encoder结构示意，本实施例采用4个Encoder，但不限于4个。

网络实现的具体步骤为：

1)首先将输入的14维度的特征经过一个FC层和Maxpool层之后扩展为64维度的特征：

F_R＝Maxpool(Linear(O_R)) (1)

式中，F_R是原始特征O_R扩展为64维度之后的特征，Conv表示卷积层，Maxpool表示最大池化层，Linear表示全连接层。需要说明的是64维度为优选方案，32维度也可。

2)将64维度的特征根据Encoder的key和query结构，生成大小为M×N权重矩阵：

式中，W_R为权重矩阵，C表示特征的维度，U和V表示需要学习的权重，exp{.}表示指数函数，T表示转置。

3)将权重矩阵W_R与F_R相乘之后得到一个新的64维特征向量：

M_R＝MW_RF_R (3)

式中，M_R表示加权矩阵，M表示需要学习的权重，ReLU为激活函数，BN为归一化层，LN为线性层。

4)将加权矩阵M_R经过Dropout层之后与原始点云特征残差相加，将原始RaDAR特征基于可变形注意力机制进行增强，然后经过归一化(Normalization)之后输出：

V_R＝Norm(F_R+Drop(M_R)) (4)

F_n＝V_R+Norm(V_R) (5)

式中，F_n表示经过一个Encoder层增强后的特征，n表示第几个Encoder层，Norm表示归一化。

5)在RDA模块中使用n个Encoder层来进行残差连接和卷积操作得到最终输出特征矩阵，本实施例以4个Encoder层为例，但不限于4个：

式中，F表示增强后的特征，Conv表示卷积层，deConv表示反卷积层。

步骤5、将步骤4中得到的特征向量输入到RPN检测头(Detection Head)中来生成3D边界框。

实施例2

本发明的实施例2还可提供的一种计算机设备，包括：至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

其中，用户接口可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中，还可通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例3

本发明实施例3提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于可变形注意力机制的成像毫米波三维目标检测方法，所述方法包括：

2.根据权利要求1所述的基于可变形注意力机制的成像毫米波三维目标检测方法，其特征在于，所述毫米波特征增强网络包括透视体素化模块、伪图像处理模块、特征增强模块和检测头；其中，

3.根据权利要求2所述的基于可变形注意力机制的成像毫米波三维目标检测方法，其特征在于，所述透视体素化模块的处理过程具体包括：

将每个点由4维度(x，y，z，r)扩展为10个维度(x，y，z，r，x_c，y_c，z_c，x_p，y_p，z_p)，其中，x，y，z为该点的三维坐标，r为反射率，x_c，y_c，z_c分别为该点相对于立柱中心点在x，y和z方向的偏差，x_p，y_p，z_p为该点相对于网格中心点在x，y和z方向的偏差；

对柱体中点的数量大于N的柱体进行随机下采样，少于N的填充0，得到对应每一帧点云的一个维度为(D，P，N)的张量，D为10，N为32，P为立柱总数目H×W。

4.根据权利要求3所述的基于可变形注意力机制的成像毫米波三维目标检测方法，其特征在于，所述伪图像处理模块的处理过程具体包括：

5.根据权利要求4所述的基于可变形注意力机制的成像毫米波三维目标检测方法，其特征在于，所述特征增强模块的处理过程具体包括：