CN116403186A

CN116403186A - 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法

Info

Publication number: CN116403186A
Application number: CN202310334275.8A
Authority: CN
Inventors: 王源隆; 汪建成; 江恒涛; 陈观迎; 时锋; 马浩杰; 谢泽亮
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-07

Abstract

本发明公开了一种基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法，该方法利用相机和激光雷达获取路况的前视图像和点云信息，通过逆透视变换和投影对应得到融合点云信息的前视图像和鸟瞰图像，将其输入FPN Swin Transformer网络进行特征提取可以得到两种视角下的目标二维检测框和分类结果，通过视锥点云提取工作得到目标的候选点云区域并通过Pointnet++网络进行特征提取可以得到目标的三维边界回归框和分类结果，最后通过综合考虑两个网络下的目标分类结果得到最终的目标分类结果。本发明通过多层次融合图像和点云信息与采用基于二维检测框进行三维边界回归的方法，可以有效解决自动驾驶领域目标检测不全面，目标三维信息检测困难，目标分类结果不准确和鲁棒性差等问题。

Description

基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法

技术领域

本发明自动驾驶领域的三维目标检测任务，具体为一种基于FPN SwinTransformer与Pointnet++的自动驾驶三维目标检测方法。

背景技术

近年来，随着市场对汽车主动安全和智能化需求的不断提高，自动驾驶巨大的社会和经济价值越发凸显，越来越多的企业与科研机构积极参与并推动自动驾驶领域的发展。自动驾驶是一个软硬件结合的复杂系统，主要分为感知，决策，控制三大技术模块。感知模块主要是通过摄像头，激光雷达等高精度传感器，为自动驾驶提供环境信息；决策模块是通过感知系统提供的车辆定位和周边环境数据，在平台中根据自动驾驶模型进行路径规划等决策；控制模块是以自适应控制和协同控制等方式，并结合车辆硬件设备以达到车辆控制效果。其中，环境感知涉及多种不同的传感器，是自动驾驶车辆安全，自主，可靠性行驶的前提和基础，而目标检测任务是感知任务最关键的一环，目标检测指在自动驾驶场景中给出车辆等障碍物各项信息的任务。

专利CN114966603A提出一种基于图像驱动的激光点云目标检测方法及系统，其对二维检测框提取的视锥体点云先后通过检测框预测网络和检测框优化网络两步网络可以有效改善目标检测效果，但是其没有将前期提取的图像特征信息与目标分类结果充分利用起来。专利CN114387202A提出一种基于车端点云与图像融合的3D目标检测方法，体现了从目标二维检测框通过视锥点云处理得到候选点云区域的可行性，但是其仅通过一个视角下的目标二维边界框进行点云区域提取存在目标检测不全面，候选点云区域过大等问题，降低了后续点云特征的提取速度。

发明内容

本发明的目的在于针对上述现有技术存在的问题，提出了一种基于FPN SwinTransformer与Pointnet++的自动驾驶三维目标检测方法，能够改善提高自动驾驶中存在3D目标检测中重要小目标检测困难和单一框架检测单一类别，驾驶场景多样性和复杂性带来的检测困难，光线与天气对于传感器的影响，目标检测网络鲁棒性差等问题。

基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法，包括以下步骤：

步骤1)，获取车辆行驶过程中路况的前视图像与激光雷达点云数据；

步骤2)，对前视图像进行逆透视变换得到路况的鸟瞰图像，将激光雷达点云分别向前视图像与鸟瞰图像进行投影，得到融合点云特征的前视图像与鸟瞰图像；

步骤3)，通过FPN Swim Transformer对融合点云特征的前视图像与鸟瞰图像分别进行特征提取，得到前视视角下的目标二维检测框、目标分类结果以及鸟瞰视角下的目标二维检测框、目标分类结果；

所述FPN Swin Transformer包含Swin Transformer模块和FPN模块；

所述Swin Transformer模块包含Patch Partition模块、以及第一至第四特征提取模块；

所述Swin Transformer模块的构建步骤如下：

步骤3.1.1)，构建Patch Partition模块对融合点云特征的图像进行分块，将输入的大小为H×W×3的融合点云特征的图像分块为四个H/4×W/4×48的图像；

步骤3.1.2)，构建第一特征提取模块，对Patch Partition模块得到的H/4×W/4×48的图像进行特征提取，得到H/4×W/4×C的特征图；

所述第一特征提取模块由一个Linear Embeding层与2个连续的SwinTransformer Block序贯组成；

所述Swin Transformer Block的构建方式如下：将Transformer中的标准多头自注意力模块替换为基于移动窗口的模块，其他层保持不变，在每个MSA模块和每个MLP之前应用一个LayerNorm层；

步骤3.1.3)，构建第二特征提取模块用于提取中层特征，对第一特征提取模块得到的H/4×W/4×C的特征图进行特征提取，得到H/8×W/8×2C的特征图；

所述第二特征提取模块由一个Patch Merging层和六个Swin Transformer Block层序贯组成；

步骤3.1.4)，构建第三特征提取模块，对第二特征提取阶段得到的H/8×W/8×2C的特征图进行特征提取，得到H/16×W/16×4C的特征图；

所述第三特征提取模块由一个Patch Merging层与六个Swin Transformer Block层序贯组成；

步骤3.1.5)，构建第四特征提取模块，对第三特征提取阶段得到的H/16×W/16×4C的特征图进行特征提取，得到H/32×W/32×8C的特征图；

所述第四特征提取模块由一个Patch Merging层与两个Swin Transformer Block层序贯组成；

所述FPN模块的构建步骤如下：

步骤3.2.1)，构建四个Conv2d(1×1,s1)模块分别对第一至第四特征提取模块得到的特征图进行卷积工作，将第四特征提取模块得到的H/32×W/32×8C的特征图转变成H/32×W/32×C的特征图，将第三特征提取模块得到的H/16×W/16×4C的特征图转变成H/16×W/16×C的特征图，将第二特征提取模块得到的H/8×W/8×2C的特征图转变成H/8×W/8×C的特征图，将第一特征提取模块得到的H/4×W/4×C的特征图转变成H/4×W/4×C的特征图；

步骤3.2.2)，构建三个上采样工作与融合模块分别对四个Conv2d(1×1,s1)模块得到的特征图进行尺度变化工作并将相同尺度特征图进行融合，将Conv2d(1×1,s1)模块得到H/32×W/32×C的特征图转变成H/16×W/16×C的特征图并与Conv2d(1×1,s1)模块得到的H/16×W/16×C的特征图进行融合，将Conv2d(1×1,s1)模块得到H/16×W/16×C的特征图变成H/8×W/8×C的特征图并与Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图进行融合，将Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图变成H/4×W/4×C的特征图并与Conv2d(1×1,s1)模块得到的H/4×W/4×C的特征图进行融合；

步骤3.2.3)，构建四个Conv2d(3×3,s1)模块分别对三个经过上采样工作与融合模块得到的特征图、以及经过Conv2d(1×1,s1)模块得到的H/32×W/32×8C的特征图再进行卷积操作，该卷积操作不会对特征图尺度造成影响；

步骤3.2.4)，构建Maxpool(1×1,s2)模块对四个Conv2d(3×3,s1)模块得到的特征图中的H/32×W/32×C的特征图进行池化操作，得到H/64×W/64×C的特征图；

步骤3.2.5)，构建Contact模块对通过四个Conv2d(3×3,s1)模块得到的H/32×W/32×8C特征图、H/16×W/16×C特征图、H/8×W/8×C特征图、H/4×W/4×C特征图与通过Maxpool(1×1,s2)模块进行池化操作得到的H/64×W/64×C特征图进行融合连接，得到融合连接特征图；

步骤3.2.6)，构建Fully Contected Layer对融合连接特征图进行全连接操作，得到图像目标二维检测框、目标分类结果；

步骤4)，对前视视角下的目标二维检测框和鸟瞰视角下的目标二维检测框分别进行点云提取工作，得到前视视角下的视锥点云区域和鸟瞰视角下的柱体点云区域：

步骤4.1)，基于相机成像原理，根据前视视角下的目标二维检测框得到前视视角下的目标二维检测框向三维空间投射的视锥区域，根据和鸟瞰视角下的目标二维检测框得到鸟瞰视角下的目标二维检测框向三维空间投射的柱体区域；

步骤4.2)，考虑相机与激光雷达的内部参数及二者之间的旋转矩阵和平移向量，实现点云从激光雷达坐标系向相机坐标系的坐标转换；若点云位于目标二维检测框向三维空间投射的锥体区域或者柱体区域内，则表示它们能够投影到该目标的二维边界框内，提取这部分点云的信息用于后续对目标的三维边界框的回归；通过点云坐标转换与提取工作分别得到前视视角对应的视锥点云空间区域与鸟瞰视角对应柱体点云空间区域；

步骤5)，对每个目标的前视视角对应的视锥点云空间区域和鸟瞰视角对应的柱体点云空间区域进行匹配，通过提取重合空间区域得到目标的候选点云区域：

对每个目标的视锥点云空间区域的点云坐标与柱体点云空间区域的点云坐标进行比对工作，在视锥点云空间区域与柱体点云空间区域内同时出现的点云坐标即为候选点云，所有候选点云组成点云候选区域；

步骤6)，对候选点云区域进行目标点云分割后使用Pointnet++提取点云特征，得到空间点云下的目标三维边界回归框与目标分类结果；

步骤7)，通过综合考虑前视视角下的目标分类结果、鸟瞰视角下的目标分类结果与空间点云下的目标分类结果，得到目标的最终分类结果。

作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案，步骤1)中通过激光雷达采集激光雷达点云数据，通过光学相机采集车辆行驶过程中路况的前视图像，通过截取相同时间戳获取对应帧的激光雷达点云和前视图像。

作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案，所述步骤2)的具体步骤如下：

步骤2.1)，通过棋盘格标定的方法对相机进行标定获取相机内参与外参，并通过坐标关系推导得到车体坐标系、相机坐标系和像素坐标系的转换如下：

式中,

为像素坐标系，/>

为相机内参矩阵，/>

为车体坐标系，

为相机坐标系，Z_c为该点在相机轴距方向上与成像平面的距离，f_x、f_y分别为相机在x方向与y方向的等效焦距，u₀、v₀分别为图像中心的横、纵像素坐标，R_c为相机坐标系到车体坐标系的旋转矩阵，T_c为相机坐标系到车体坐标系的平移矩阵；

步骤2.2)，结合相机的内参与外参对前视图像进行逆透视变换，将前视图像从像素坐标系转换到世界坐标系的俯视角度下，即转换为鸟瞰图，消除透视形变对路况信息的干扰和距离误差，呈现出真实世界俯视特征，透视图像的像素坐标系与世界坐标系俯视平面的映射关系如下：

式中，X、Y分别为透视图像在世界坐标系俯视平面的横、纵坐标，u_t、v_t分别为透视图像的横、纵坐标像素，θ为摄像头光轴在汽车中垂面上与水平面的夹角，h为摄像头到地面的距离,d₀为摄像头到车前端的距离；

逆透视变换图像的像素坐标系与世界坐标系俯视平面的转换关系如下：

式中，u_n、v_n分别为逆透视变换图像的横、纵像素坐标，W_IPM、h_IPM分别为逆透视图像的像素宽度和高度，σ₁、σ₂分别为逆透视图像横、纵坐标方向上的单位像素在世界坐标系水平方向的实际距离，d₁为摄像头视野最下方与车辆前端的距离；

步骤2.3)，确定前视图像的像素和激光雷达点云数据的雷达点对应关系后，结合相机的内参，求解关于旋转矩阵和平移向量的线性方程，求出相机与线性雷达之间的旋转矩阵和平移向量，实现相机与激光雷达联合标定：

步骤2.3.1)，根据透视成像模型，利用外参矩阵与笛卡尔坐标系下的点云坐标

相乘，将该点云转换至相机坐标系下；将该点经过内参矩阵，投影至像素坐标系下，得到与之对应的像素点/>

完成激光雷达点云与单目相机图像的空间对齐与配准，转换关系为：

式中，

为点的激光雷达坐标系坐标，/>

为点的相机坐标系的坐标，/>

为点的像素坐标系坐标,K为相机的内参矩阵，/>

为激光雷达坐标系到相机坐标系的旋转矩阵，/>

为激光雷达坐标系到相机坐标系的平移矩阵。

作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案，步骤7)中在进行综合考虑时，引入类别可信度公式：P_f＝0.4P₁+0.4P₂+0.2P₃；

式中，P_f为可信度；

为前视视角下FPN Swin Transformer对物体类别的判断，p_1a、p_1b、p_1c分别为前视视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值；

为鸟瞰视角下FPN Swin Transformer对物体类别的判断，p_2a、p_2b、p_2c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值；

为空间点云下Pointnet++对物体类别的判断，p_3a、p_3b、p_3c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明的目标检测方法采用图像与激光雷达点云数据，获取路况信息更加全面。

2.本发明通过激光点云向图像进行投影融合，可以丰富图像的信息，从而一定程度解决由于光线差及雨雪天气带来的图像数据不全面问题。

3.本发明的FPN Swin Transformer网络，通过FPN进行低层特征和高层特征的融合，可以有效的提升网络的特征提取能力，使得目标二维边界框和目标分类准确率得以提升；

4.本发明的通过提取目标不同视角下的两个视锥点云重合部分的工作，可以有效缩小点云候选区域范围，提升后续点云分割与目标三维框回归准确率和效率。

5.本发明通过综合判断目标在FPN Swin Transformer网络和Pointnet++网络中的分类结果，可有效提高目标类别检测准确率。

附图说明

图1为本发明的整体框架图；

图2为本发明的视锥点云优化处理示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。在附图中，为了清楚起见放大了组件。

如图1所示，本发明公开了一种基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法，包括以下步骤：

所述FPN Swin Transformer包含Swin Transformer模块和FPN模块；

所述Swin Transformer模块的构建步骤如下：

所述FPN模块的构建步骤如下：

步骤4)，如图2所示,对前视视角下的目标二维检测框和鸟瞰视角下的目标二维检测框分别进行点云提取工作，得到前视视角下的视锥点云区域和鸟瞰视角下的柱体点云区域：

步骤1)中通过激光雷达采集激光雷达点云数据，通过光学相机采集车辆行驶过程中路况的前视图像，通过截取相同时间戳获取对应帧的激光雷达点云和前视图像。

步骤2)的具体步骤如下：

式中,