CN116403186A - 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法 - Google Patents

基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法 Download PDF

Info

Publication number
CN116403186A
CN116403186A CN202310334275.8A CN202310334275A CN116403186A CN 116403186 A CN116403186 A CN 116403186A CN 202310334275 A CN202310334275 A CN 202310334275A CN 116403186 A CN116403186 A CN 116403186A
Authority
CN
China
Prior art keywords
point cloud
feature
coordinate system
target
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310334275.8A
Other languages
English (en)
Inventor
王源隆
汪建成
江恒涛
陈观迎
时锋
马浩杰
谢泽亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310334275.8A priority Critical patent/CN116403186A/zh
Publication of CN116403186A publication Critical patent/CN116403186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,该方法利用相机和激光雷达获取路况的前视图像和点云信息,通过逆透视变换和投影对应得到融合点云信息的前视图像和鸟瞰图像,将其输入FPN Swin Transformer网络进行特征提取可以得到两种视角下的目标二维检测框和分类结果,通过视锥点云提取工作得到目标的候选点云区域并通过Pointnet++网络进行特征提取可以得到目标的三维边界回归框和分类结果,最后通过综合考虑两个网络下的目标分类结果得到最终的目标分类结果。本发明通过多层次融合图像和点云信息与采用基于二维检测框进行三维边界回归的方法,可以有效解决自动驾驶领域目标检测不全面,目标三维信息检测困难,目标分类结果不准确和鲁棒性差等问题。

Description

基于FPN Swin Transformer与Pointnet++的自动驾驶三维目 标检测方法
技术领域
本发明自动驾驶领域的三维目标检测任务,具体为一种基于FPN SwinTransformer与Pointnet++的自动驾驶三维目标检测方法。
背景技术
近年来,随着市场对汽车主动安全和智能化需求的不断提高,自动驾驶巨大的社会和经济价值越发凸显,越来越多的企业与科研机构积极参与并推动自动驾驶领域的发展。自动驾驶是一个软硬件结合的复杂系统,主要分为感知,决策,控制三大技术模块。感知模块主要是通过摄像头,激光雷达等高精度传感器,为自动驾驶提供环境信息;决策模块是通过感知系统提供的车辆定位和周边环境数据,在平台中根据自动驾驶模型进行路径规划等决策;控制模块是以自适应控制和协同控制等方式,并结合车辆硬件设备以达到车辆控制效果。其中,环境感知涉及多种不同的传感器,是自动驾驶车辆安全,自主,可靠性行驶的前提和基础,而目标检测任务是感知任务最关键的一环,目标检测指在自动驾驶场景中给出车辆等障碍物各项信息的任务。
专利CN114966603A提出一种基于图像驱动的激光点云目标检测方法及系统,其对二维检测框提取的视锥体点云先后通过检测框预测网络和检测框优化网络两步网络可以有效改善目标检测效果,但是其没有将前期提取的图像特征信息与目标分类结果充分利用起来。专利CN114387202A提出一种基于车端点云与图像融合的3D目标检测方法,体现了从目标二维检测框通过视锥点云处理得到候选点云区域的可行性,但是其仅通过一个视角下的目标二维边界框进行点云区域提取存在目标检测不全面,候选点云区域过大等问题,降低了后续点云特征的提取速度。
发明内容
本发明的目的在于针对上述现有技术存在的问题,提出了一种基于FPN SwinTransformer与Pointnet++的自动驾驶三维目标检测方法,能够改善提高自动驾驶中存在3D目标检测中重要小目标检测困难和单一框架检测单一类别,驾驶场景多样性和复杂性带来的检测困难,光线与天气对于传感器的影响,目标检测网络鲁棒性差等问题。
基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,包括以下步骤:
步骤1),获取车辆行驶过程中路况的前视图像与激光雷达点云数据;
步骤2),对前视图像进行逆透视变换得到路况的鸟瞰图像,将激光雷达点云分别向前视图像与鸟瞰图像进行投影,得到融合点云特征的前视图像与鸟瞰图像;
步骤3),通过FPN Swim Transformer对融合点云特征的前视图像与鸟瞰图像分别进行特征提取,得到前视视角下的目标二维检测框、目标分类结果以及鸟瞰视角下的目标二维检测框、目标分类结果;
所述FPN Swin Transformer包含Swin Transformer模块和FPN模块;
所述Swin Transformer模块包含Patch Partition模块、以及第一至第四特征提取模块;
所述Swin Transformer模块的构建步骤如下:
步骤3.1.1),构建Patch Partition模块对融合点云特征的图像进行分块,将输入的大小为H×W×3的融合点云特征的图像分块为四个H/4×W/4×48的图像;
步骤3.1.2),构建第一特征提取模块,对Patch Partition模块得到的H/4×W/4×48的图像进行特征提取,得到H/4×W/4×C的特征图;
所述第一特征提取模块由一个Linear Embeding层与2个连续的SwinTransformer Block序贯组成;
所述Swin Transformer Block的构建方式如下:将Transformer中的标准多头自注意力模块替换为基于移动窗口的模块,其他层保持不变,在每个MSA模块和每个MLP之前应用一个LayerNorm层;
步骤3.1.3),构建第二特征提取模块用于提取中层特征,对第一特征提取模块得到的H/4×W/4×C的特征图进行特征提取,得到H/8×W/8×2C的特征图;
所述第二特征提取模块由一个Patch Merging层和六个Swin Transformer Block层序贯组成;
步骤3.1.4),构建第三特征提取模块,对第二特征提取阶段得到的H/8×W/8×2C的特征图进行特征提取,得到H/16×W/16×4C的特征图;
所述第三特征提取模块由一个Patch Merging层与六个Swin Transformer Block层序贯组成;
步骤3.1.5),构建第四特征提取模块,对第三特征提取阶段得到的H/16×W/16×4C的特征图进行特征提取,得到H/32×W/32×8C的特征图;
所述第四特征提取模块由一个Patch Merging层与两个Swin Transformer Block层序贯组成;
所述FPN模块的构建步骤如下:
步骤3.2.1),构建四个Conv2d(1×1,s1)模块分别对第一至第四特征提取模块得到的特征图进行卷积工作,将第四特征提取模块得到的H/32×W/32×8C的特征图转变成H/32×W/32×C的特征图,将第三特征提取模块得到的H/16×W/16×4C的特征图转变成H/16×W/16×C的特征图,将第二特征提取模块得到的H/8×W/8×2C的特征图转变成H/8×W/8×C的特征图,将第一特征提取模块得到的H/4×W/4×C的特征图转变成H/4×W/4×C的特征图;
步骤3.2.2),构建三个上采样工作与融合模块分别对四个Conv2d(1×1,s1)模块得到的特征图进行尺度变化工作并将相同尺度特征图进行融合,将Conv2d(1×1,s1)模块得到H/32×W/32×C的特征图转变成H/16×W/16×C的特征图并与Conv2d(1×1,s1)模块得到的H/16×W/16×C的特征图进行融合,将Conv2d(1×1,s1)模块得到H/16×W/16×C的特征图变成H/8×W/8×C的特征图并与Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图进行融合,将Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图变成H/4×W/4×C的特征图并与Conv2d(1×1,s1)模块得到的H/4×W/4×C的特征图进行融合;
步骤3.2.3),构建四个Conv2d(3×3,s1)模块分别对三个经过上采样工作与融合模块得到的特征图、以及经过Conv2d(1×1,s1)模块得到的H/32×W/32×8C的特征图再进行卷积操作,该卷积操作不会对特征图尺度造成影响;
步骤3.2.4),构建Maxpool(1×1,s2)模块对四个Conv2d(3×3,s1)模块得到的特征图中的H/32×W/32×C的特征图进行池化操作,得到H/64×W/64×C的特征图;
步骤3.2.5),构建Contact模块对通过四个Conv2d(3×3,s1)模块得到的H/32×W/32×8C特征图、H/16×W/16×C特征图、H/8×W/8×C特征图、H/4×W/4×C特征图与通过Maxpool(1×1,s2)模块进行池化操作得到的H/64×W/64×C特征图进行融合连接,得到融合连接特征图;
步骤3.2.6),构建Fully Contected Layer对融合连接特征图进行全连接操作,得到图像目标二维检测框、目标分类结果;
步骤4),对前视视角下的目标二维检测框和鸟瞰视角下的目标二维检测框分别进行点云提取工作,得到前视视角下的视锥点云区域和鸟瞰视角下的柱体点云区域:
步骤4.1),基于相机成像原理,根据前视视角下的目标二维检测框得到前视视角下的目标二维检测框向三维空间投射的视锥区域,根据和鸟瞰视角下的目标二维检测框得到鸟瞰视角下的目标二维检测框向三维空间投射的柱体区域;
步骤4.2),考虑相机与激光雷达的内部参数及二者之间的旋转矩阵和平移向量,实现点云从激光雷达坐标系向相机坐标系的坐标转换;若点云位于目标二维检测框向三维空间投射的锥体区域或者柱体区域内,则表示它们能够投影到该目标的二维边界框内,提取这部分点云的信息用于后续对目标的三维边界框的回归;通过点云坐标转换与提取工作分别得到前视视角对应的视锥点云空间区域与鸟瞰视角对应柱体点云空间区域;
步骤5),对每个目标的前视视角对应的视锥点云空间区域和鸟瞰视角对应的柱体点云空间区域进行匹配,通过提取重合空间区域得到目标的候选点云区域:
对每个目标的视锥点云空间区域的点云坐标与柱体点云空间区域的点云坐标进行比对工作,在视锥点云空间区域与柱体点云空间区域内同时出现的点云坐标即为候选点云,所有候选点云组成点云候选区域;
步骤6),对候选点云区域进行目标点云分割后使用Pointnet++提取点云特征,得到空间点云下的目标三维边界回归框与目标分类结果;
步骤7),通过综合考虑前视视角下的目标分类结果、鸟瞰视角下的目标分类结果与空间点云下的目标分类结果,得到目标的最终分类结果。
作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案,步骤1)中通过激光雷达采集激光雷达点云数据,通过光学相机采集车辆行驶过程中路况的前视图像,通过截取相同时间戳获取对应帧的激光雷达点云和前视图像。
作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案,所述步骤2)的具体步骤如下:
步骤2.1),通过棋盘格标定的方法对相机进行标定获取相机内参与外参,并通过坐标关系推导得到车体坐标系、相机坐标系和像素坐标系的转换如下:
Figure BDA0004155863590000041
式中,
Figure BDA0004155863590000042
为像素坐标系,/>
Figure BDA0004155863590000043
为相机内参矩阵,/>
Figure BDA0004155863590000044
为车体坐标系,
Figure BDA0004155863590000045
为相机坐标系,Zc为该点在相机轴距方向上与成像平面的距离,fx、fy分别为相机在x方向与y方向的等效焦距,u0、v0分别为图像中心的横、纵像素坐标,Rc为相机坐标系到车体坐标系的旋转矩阵,Tc为相机坐标系到车体坐标系的平移矩阵;
步骤2.2),结合相机的内参与外参对前视图像进行逆透视变换,将前视图像从像素坐标系转换到世界坐标系的俯视角度下,即转换为鸟瞰图,消除透视形变对路况信息的干扰和距离误差,呈现出真实世界俯视特征,透视图像的像素坐标系与世界坐标系俯视平面的映射关系如下:
Figure BDA0004155863590000051
Figure BDA0004155863590000052
式中,X、Y分别为透视图像在世界坐标系俯视平面的横、纵坐标,ut、vt分别为透视图像的横、纵坐标像素,θ为摄像头光轴在汽车中垂面上与水平面的夹角,h为摄像头到地面的距离,d0为摄像头到车前端的距离;
逆透视变换图像的像素坐标系与世界坐标系俯视平面的转换关系如下:
Figure BDA0004155863590000053
Figure BDA0004155863590000054
式中,un、vn分别为逆透视变换图像的横、纵像素坐标,WIPM、hIPM分别为逆透视图像的像素宽度和高度,σ1、σ2分别为逆透视图像横、纵坐标方向上的单位像素在世界坐标系水平方向的实际距离,d1为摄像头视野最下方与车辆前端的距离;
步骤2.3),确定前视图像的像素和激光雷达点云数据的雷达点对应关系后,结合相机的内参,求解关于旋转矩阵和平移向量的线性方程,求出相机与线性雷达之间的旋转矩阵和平移向量,实现相机与激光雷达联合标定:
步骤2.3.1),根据透视成像模型,利用外参矩阵与笛卡尔坐标系下的点云坐标
Figure BDA0004155863590000055
相乘,将该点云转换至相机坐标系下;将该点经过内参矩阵,投影至像素坐标系下,得到与之对应的像素点/>
Figure BDA0004155863590000056
完成激光雷达点云与单目相机图像的空间对齐与配准,转换关系为:
Figure BDA00041558635900000512
式中,
Figure BDA0004155863590000057
为点的激光雷达坐标系坐标,/>
Figure BDA0004155863590000058
为点的相机坐标系的坐标,/>
Figure BDA0004155863590000059
为点的像素坐标系坐标,K为相机的内参矩阵,/>
Figure BDA00041558635900000510
为激光雷达坐标系到相机坐标系的旋转矩阵,/>
Figure BDA00041558635900000511
为激光雷达坐标系到相机坐标系的平移矩阵。
作为本发明基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法进一步的优化方案,步骤7)中在进行综合考虑时,引入类别可信度公式:Pf=0.4P1+0.4P2+0.2P3
式中,Pf为可信度;
Figure BDA0004155863590000061
为前视视角下FPN Swin Transformer对物体类别的判断,p1a、p1b、p1c分别为前视视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure BDA0004155863590000062
为鸟瞰视角下FPN Swin Transformer对物体类别的判断,p2a、p2b、p2c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure BDA0004155863590000063
为空间点云下Pointnet++对物体类别的判断,p3a、p3b、p3c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.本发明的目标检测方法采用图像与激光雷达点云数据,获取路况信息更加全面。
2.本发明通过激光点云向图像进行投影融合,可以丰富图像的信息,从而一定程度解决由于光线差及雨雪天气带来的图像数据不全面问题。
3.本发明的FPN Swin Transformer网络,通过FPN进行低层特征和高层特征的融合,可以有效的提升网络的特征提取能力,使得目标二维边界框和目标分类准确率得以提升;
4.本发明的通过提取目标不同视角下的两个视锥点云重合部分的工作,可以有效缩小点云候选区域范围,提升后续点云分割与目标三维框回归准确率和效率。
5.本发明通过综合判断目标在FPN Swin Transformer网络和Pointnet++网络中的分类结果,可有效提高目标类别检测准确率。
附图说明
图1为本发明的整体框架图;
图2为本发明的视锥点云优化处理示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。在附图中,为了清楚起见放大了组件。
如图1所示,本发明公开了一种基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,包括以下步骤:
步骤1),获取车辆行驶过程中路况的前视图像与激光雷达点云数据;
步骤2),对前视图像进行逆透视变换得到路况的鸟瞰图像,将激光雷达点云分别向前视图像与鸟瞰图像进行投影,得到融合点云特征的前视图像与鸟瞰图像;
步骤3),通过FPN Swim Transformer对融合点云特征的前视图像与鸟瞰图像分别进行特征提取,得到前视视角下的目标二维检测框、目标分类结果以及鸟瞰视角下的目标二维检测框、目标分类结果;
所述FPN Swin Transformer包含Swin Transformer模块和FPN模块;
所述Swin Transformer模块包含Patch Partition模块、以及第一至第四特征提取模块;
所述Swin Transformer模块的构建步骤如下:
步骤3.1.1),构建Patch Partition模块对融合点云特征的图像进行分块,将输入的大小为H×W×3的融合点云特征的图像分块为四个H/4×W/4×48的图像;
步骤3.1.2),构建第一特征提取模块,对Patch Partition模块得到的H/4×W/4×48的图像进行特征提取,得到H/4×W/4×C的特征图;
所述第一特征提取模块由一个Linear Embeding层与2个连续的SwinTransformer Block序贯组成;
所述Swin Transformer Block的构建方式如下:将Transformer中的标准多头自注意力模块替换为基于移动窗口的模块,其他层保持不变,在每个MSA模块和每个MLP之前应用一个LayerNorm层;
步骤3.1.3),构建第二特征提取模块用于提取中层特征,对第一特征提取模块得到的H/4×W/4×C的特征图进行特征提取,得到H/8×W/8×2C的特征图;
所述第二特征提取模块由一个Patch Merging层和六个Swin Transformer Block层序贯组成;
步骤3.1.4),构建第三特征提取模块,对第二特征提取阶段得到的H/8×W/8×2C的特征图进行特征提取,得到H/16×W/16×4C的特征图;
所述第三特征提取模块由一个Patch Merging层与六个Swin Transformer Block层序贯组成;
步骤3.1.5),构建第四特征提取模块,对第三特征提取阶段得到的H/16×W/16×4C的特征图进行特征提取,得到H/32×W/32×8C的特征图;
所述第四特征提取模块由一个Patch Merging层与两个Swin Transformer Block层序贯组成;
所述FPN模块的构建步骤如下:
步骤3.2.1),构建四个Conv2d(1×1,s1)模块分别对第一至第四特征提取模块得到的特征图进行卷积工作,将第四特征提取模块得到的H/32×W/32×8C的特征图转变成H/32×W/32×C的特征图,将第三特征提取模块得到的H/16×W/16×4C的特征图转变成H/16×W/16×C的特征图,将第二特征提取模块得到的H/8×W/8×2C的特征图转变成H/8×W/8×C的特征图,将第一特征提取模块得到的H/4×W/4×C的特征图转变成H/4×W/4×C的特征图;
步骤3.2.2),构建三个上采样工作与融合模块分别对四个Conv2d(1×1,s1)模块得到的特征图进行尺度变化工作并将相同尺度特征图进行融合,将Conv2d(1×1,s1)模块得到H/32×W/32×C的特征图转变成H/16×W/16×C的特征图并与Conv2d(1×1,s1)模块得到的H/16×W/16×C的特征图进行融合,将Conv2d(1×1,s1)模块得到H/16×W/16×C的特征图变成H/8×W/8×C的特征图并与Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图进行融合,将Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图变成H/4×W/4×C的特征图并与Conv2d(1×1,s1)模块得到的H/4×W/4×C的特征图进行融合;
步骤3.2.3),构建四个Conv2d(3×3,s1)模块分别对三个经过上采样工作与融合模块得到的特征图、以及经过Conv2d(1×1,s1)模块得到的H/32×W/32×8C的特征图再进行卷积操作,该卷积操作不会对特征图尺度造成影响;
步骤3.2.4),构建Maxpool(1×1,s2)模块对四个Conv2d(3×3,s1)模块得到的特征图中的H/32×W/32×C的特征图进行池化操作,得到H/64×W/64×C的特征图;
步骤3.2.5),构建Contact模块对通过四个Conv2d(3×3,s1)模块得到的H/32×W/32×8C特征图、H/16×W/16×C特征图、H/8×W/8×C特征图、H/4×W/4×C特征图与通过Maxpool(1×1,s2)模块进行池化操作得到的H/64×W/64×C特征图进行融合连接,得到融合连接特征图;
步骤3.2.6),构建Fully Contected Layer对融合连接特征图进行全连接操作,得到图像目标二维检测框、目标分类结果;
步骤4),如图2所示,对前视视角下的目标二维检测框和鸟瞰视角下的目标二维检测框分别进行点云提取工作,得到前视视角下的视锥点云区域和鸟瞰视角下的柱体点云区域:
步骤4.1),基于相机成像原理,根据前视视角下的目标二维检测框得到前视视角下的目标二维检测框向三维空间投射的视锥区域,根据和鸟瞰视角下的目标二维检测框得到鸟瞰视角下的目标二维检测框向三维空间投射的柱体区域;
步骤4.2),考虑相机与激光雷达的内部参数及二者之间的旋转矩阵和平移向量,实现点云从激光雷达坐标系向相机坐标系的坐标转换;若点云位于目标二维检测框向三维空间投射的锥体区域或者柱体区域内,则表示它们能够投影到该目标的二维边界框内,提取这部分点云的信息用于后续对目标的三维边界框的回归;通过点云坐标转换与提取工作分别得到前视视角对应的视锥点云空间区域与鸟瞰视角对应柱体点云空间区域;
步骤5),对每个目标的前视视角对应的视锥点云空间区域和鸟瞰视角对应的柱体点云空间区域进行匹配,通过提取重合空间区域得到目标的候选点云区域:
对每个目标的视锥点云空间区域的点云坐标与柱体点云空间区域的点云坐标进行比对工作,在视锥点云空间区域与柱体点云空间区域内同时出现的点云坐标即为候选点云,所有候选点云组成点云候选区域;
步骤6),对候选点云区域进行目标点云分割后使用Pointnet++提取点云特征,得到空间点云下的目标三维边界回归框与目标分类结果;
步骤7),通过综合考虑前视视角下的目标分类结果、鸟瞰视角下的目标分类结果与空间点云下的目标分类结果,得到目标的最终分类结果。
步骤1)中通过激光雷达采集激光雷达点云数据,通过光学相机采集车辆行驶过程中路况的前视图像,通过截取相同时间戳获取对应帧的激光雷达点云和前视图像。
步骤2)的具体步骤如下:
步骤2.1),通过棋盘格标定的方法对相机进行标定获取相机内参与外参,并通过坐标关系推导得到车体坐标系、相机坐标系和像素坐标系的转换如下:
Figure BDA0004155863590000091
式中,
Figure BDA0004155863590000092
为像素坐标系,/>
Figure BDA0004155863590000093
为相机内参矩阵,/>
Figure BDA0004155863590000094
为车体坐标系,
Figure BDA0004155863590000095
为相机坐标系,Zc为该点在相机轴距方向上与成像平面的距离,fx、fy分别为相机在x方向与y方向的等效焦距,u0、v0分别为图像中心的横、纵像素坐标,Rc为相机坐标系到车体坐标系的旋转矩阵,Tc为相机坐标系到车体坐标系的平移矩阵;
步骤2.2),结合相机的内参与外参对前视图像进行逆透视变换,将前视图像从像素坐标系转换到世界坐标系的俯视角度下,即转换为鸟瞰图,消除透视形变对路况信息的干扰和距离误差,呈现出真实世界俯视特征,透视图像的像素坐标系与世界坐标系俯视平面的映射关系如下:
Figure BDA0004155863590000101
Figure BDA0004155863590000102
式中,X、Y分别为透视图像在世界坐标系俯视平面的横、纵坐标,ut、vt分别为透视图像的横、纵坐标像素,θ为摄像头光轴在汽车中垂面上与水平面的夹角,h为摄像头到地面的距离,d0为摄像头到车前端的距离;
逆透视变换图像的像素坐标系与世界坐标系俯视平面的转换关系如下:
Figure BDA0004155863590000103
Figure BDA0004155863590000104
式中,un、vn分别为逆透视变换图像的横、纵像素坐标,WIPM、hIPM分别为逆透视图像的像素宽度和高度,σ1、σ2分别为逆透视图像横、纵坐标方向上的单位像素在世界坐标系水平方向的实际距离,d1为摄像头视野最下方与车辆前端的距离;
步骤2.3),确定前视图像的像素和激光雷达点云数据的雷达点对应关系后,结合相机的内参,求解关于旋转矩阵和平移向量的线性方程,求出相机与线性雷达之间的旋转矩阵和平移向量,实现相机与激光雷达联合标定:
步骤2.3.1),根据透视成像模型,利用外参矩阵与笛卡尔坐标系下的点云坐标
Figure BDA0004155863590000105
相乘,将该点云转换至相机坐标系下;将该点经过内参矩阵,投影至像素坐标系下,得到与之对应的像素点/>
Figure BDA0004155863590000106
完成激光雷达点云与单目相机图像的空间对齐与配准,转换关系为:
Figure BDA0004155863590000107
式中,
Figure BDA0004155863590000108
为点的激光雷达坐标系坐标,/>
Figure BDA0004155863590000109
为点的相机坐标系的坐标,/>
Figure BDA00041558635900001010
为点的像素坐标系坐标,K为相机的内参矩阵,/>
Figure BDA00041558635900001011
为激光雷达坐标系到相机坐标系的旋转矩阵,/>
Figure BDA0004155863590000111
为激光雷达坐标系到相机坐标系的平移矩阵。
步骤7)中在进行综合考虑时,引入类别可信度公式:Pf=0.4P1+0.4P2+0.2P3
式中,Pf为可信度;
Figure BDA0004155863590000112
为前视视角下FPN Swin Transformer对物体类别的判断,p1a、p1b、p1c分别为前视视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure BDA0004155863590000113
为鸟瞰视角下FPN Swin Transformer对物体类别的判断,p2a、p2b、p2c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure BDA0004155863590000114
为空间点云下Pointnet++对物体类别的判断,p3a、p3b、p3c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,其特征在于,包括以下步骤:
步骤1),获取车辆行驶过程中路况的前视图像与激光雷达点云数据;
步骤2),对前视图像进行逆透视变换得到路况的鸟瞰图像,将激光雷达点云分别向前视图像与鸟瞰图像进行投影,得到融合点云特征的前视图像与鸟瞰图像;
步骤3),通过FPN Swim Transformer对融合点云特征的前视图像与鸟瞰图像分别进行特征提取,得到前视视角下的目标二维检测框、目标分类结果以及鸟瞰视角下的目标二维检测框、目标分类结果;
所述FPN Swin Transformer包含Swin Transformer模块和FPN模块;
所述Swin Transformer模块包含Patch Partition模块、以及第一至第四特征提取模块;
所述Swin Transformer模块的构建步骤如下:
步骤3.1.1),构建Patch Partition模块对融合点云特征的图像进行分块,将输入的大小为H×W×3的融合点云特征的图像分块为四个H/4×W/4×48的图像;
步骤3.1.2),构建第一特征提取模块,对Patch Partition模块得到的H/4×W/4×48的图像进行特征提取,得到H/4×W/4×C的特征图;
所述第一特征提取模块由一个Linear Embeding层与2个连续的Swin TransformerBlock序贯组成;
所述Swin Transformer Block的构建方式如下:将Transformer中的标准多头自注意力模块替换为基于移动窗口的模块,其他层保持不变,在每个MSA模块和每个MLP之前应用一个LayerNorm层;
步骤3.1.3),构建第二特征提取模块用于提取中层特征,对第一特征提取模块得到的H/4×W/4×C的特征图进行特征提取,得到H/8×W/8×2C的特征图;
所述第二特征提取模块由一个Patch Merging层和六个Swin Transformer Block层序贯组成;
步骤3.1.4),构建第三特征提取模块,对第二特征提取阶段得到的H/8×W/8×2C的特征图进行特征提取,得到H/16×W/16×4C的特征图;
所述第三特征提取模块由一个Patch Merging层与六个Swin Transformer Block层序贯组成;
步骤3.1.5),构建第四特征提取模块,对第三特征提取阶段得到的H/16×W/16×4C的特征图进行特征提取,得到H/32×W/32×8C的特征图;
所述第四特征提取模块由一个Patch Merging层与两个Swin Transformer Block层序贯组成;
所述FPN模块的构建步骤如下:
步骤3.2.1),构建四个Conv2d(1×1,s1)模块分别对第一至第四特征提取模块得到的特征图进行卷积工作,将第四特征提取模块得到的H/32×W/32×8C的特征图转变成H/32×W/32×C的特征图,将第三特征提取模块得到的H/16×W/16×4C的特征图转变成H/16×W/16×C的特征图,将第二特征提取模块得到的H/8×W/8×2C的特征图转变成H/8×W/8×C的特征图,将第一特征提取模块得到的H/4×W/4×C的特征图转变成H/4×W/4×C的特征图;
步骤3.2.2),构建三个上采样工作与融合模块分别对四个Conv2d(1×1,s1)模块得到的特征图进行尺度变化工作并将相同尺度特征图进行融合,将Conv2d(1×1,s1)模块得到H/32×W/32×C的特征图转变成H/16×W/16×C的特征图并与Conv2d(1×1,s1)模块得到的H/16×W/16×C的特征图进行融合,将Conv2d(1×1,s1)模块得到H/16×W/16×C的特征图变成H/8×W/8×C的特征图并与Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图进行融合,将Conv2d(1×1,s1)模块得到的H/8×W/8×C的特征图变成H/4×W/4×C的特征图并与Conv2d(1×1,s1)模块得到的H/4×W/4×C的特征图进行融合;
步骤3.2.3),构建四个Conv2d(3×3,s1)模块分别对三个经过上采样工作与融合模块得到的特征图、以及经过Conv2d(1×1,s1)模块得到的H/32×W/32×8C的特征图再进行卷积操作,该卷积操作不会对特征图尺度造成影响;
步骤3.2.4),构建Maxpool(1×1,s2)模块对四个Conv2d(3×3,s1)模块得到的特征图中的H/32×W/32×C的特征图进行池化操作,得到H/64×W/64×C的特征图;
步骤3.2.5),构建Contact模块对通过四个Conv2d(3×3,s1)模块得到的H/32×W/32×8C特征图、H/16×W/16×C特征图、H/8×W/8×C特征图、H/4×W/4×C特征图与通过Maxpool(1×1,s2)模块进行池化操作得到的H/64×W/64×C特征图进行融合连接,得到融合连接特征图;
步骤3.2.6),构建Fully Contected Layer对融合连接特征图进行全连接操作,得到图像目标二维检测框、目标分类结果;
步骤4),对前视视角下的目标二维检测框和鸟瞰视角下的目标二维检测框分别进行点云提取工作,得到前视视角下的视锥点云区域和鸟瞰视角下的柱体点云区域:
步骤4.1),基于相机成像原理,根据前视视角下的目标二维检测框得到前视视角下的目标二维检测框向三维空间投射的视锥区域,根据和鸟瞰视角下的目标二维检测框得到鸟瞰视角下的目标二维检测框向三维空间投射的柱体区域;
步骤4.2),考虑相机与激光雷达的内部参数及二者之间的旋转矩阵和平移向量,实现点云从激光雷达坐标系向相机坐标系的坐标转换;若点云位于目标二维检测框向三维空间投射的锥体区域或者柱体区域内,则表示它们能够投影到该目标的二维边界框内,提取这部分点云的信息用于后续对目标的三维边界框的回归;通过点云坐标转换与提取工作分别得到前视视角对应的视锥点云空间区域与鸟瞰视角对应柱体点云空间区域;
步骤5),对每个目标的前视视角对应的视锥点云空间区域和鸟瞰视角对应的柱体点云空间区域进行匹配,通过提取重合空间区域得到目标的候选点云区域:
对每个目标的视锥点云空间区域的点云坐标与柱体点云空间区域的点云坐标进行比对工作,在视锥点云空间区域与柱体点云空间区域内同时出现的点云坐标即为候选点云,所有候选点云组成点云候选区域;
步骤6),对候选点云区域进行目标点云分割后使用Pointnet++提取点云特征,得到空间点云下的目标三维边界回归框与目标分类结果;
步骤7),通过综合考虑前视视角下的目标分类结果、鸟瞰视角下的目标分类结果与空间点云下的目标分类结果,得到目标的最终分类结果。
2.根据权利要求1所述的基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,其特征在于,步骤1)中通过激光雷达采集激光雷达点云数据,通过光学相机采集车辆行驶过程中路况的前视图像,通过截取相同时间戳获取对应帧的激光雷达点云和前视图像。
3.根据权利要求2所述的基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,其特征在于,所述步骤2)的具体步骤如下:
步骤2.1),通过棋盘格标定的方法对相机进行标定获取相机内参与外参,并通过坐标关系推导得到车体坐标系、相机坐标系和像素坐标系的转换如下:
Figure FDA0004155863580000031
式中,
Figure FDA0004155863580000032
为像素坐标系,/>
Figure FDA0004155863580000033
为相机内参矩阵,/>
Figure FDA0004155863580000034
为车体坐标系,
Figure FDA0004155863580000035
为相机坐标系,Zc为该点在相机轴距方向上与成像平面的距离,fx、fy分别为相机在x方向与y方向的等效焦距,u0、v0分别为图像中心的横、纵像素坐标,Rc为相机坐标系到车体坐标系的旋转矩阵,Tc为相机坐标系到车体坐标系的平移矩阵;
步骤2.2),结合相机的内参与外参对前视图像进行逆透视变换,将前视图像从像素坐标系转换到世界坐标系的俯视角度下,即转换为鸟瞰图,消除透视形变对路况信息的干扰和距离误差,呈现出真实世界俯视特征,透视图像的像素坐标系与世界坐标系俯视平面的映射关系如下:
Figure FDA0004155863580000041
Figure FDA0004155863580000042
式中,X、Y分别为透视图像在世界坐标系俯视平面的横、纵坐标,ut、vt分别为透视图像的横、纵坐标像素,θ为摄像头光轴在汽车中垂面上与水平面的夹角,h为摄像头到地面的距离,d0为摄像头到车前端的距离;
逆透视变换图像的像素坐标系与世界坐标系俯视平面的转换关系如下:
Figure FDA0004155863580000043
Figure FDA0004155863580000044
式中,un、vn分别为逆透视变换图像的横、纵像素坐标,WIPM、hIPM分别为逆透视图像的像素宽度和高度,σ1、σ2分别为逆透视图像横、纵坐标方向上的单位像素在世界坐标系水平方向的实际距离,d1为摄像头视野最下方与车辆前端的距离;
步骤2.3),确定前视图像的像素和激光雷达点云数据的雷达点对应关系后,结合相机的内参,求解关于旋转矩阵和平移向量的线性方程,求出相机与线性雷达之间的旋转矩阵和平移向量,实现相机与激光雷达联合标定:
步骤2.3.1),根据透视成像模型,利用外参矩阵与笛卡尔坐标系下的点云坐标
Figure FDA0004155863580000045
相乘,将该点云转换至相机坐标系下;将该点经过内参矩阵,投影至像素坐标系下,得到与之对应的像素点/>
Figure FDA0004155863580000046
完成激光雷达点云与单目相机图像的空间对齐与配准,转换关系为:
Figure FDA0004155863580000047
式中,
Figure FDA0004155863580000048
为点的激光雷达坐标系坐标,/>
Figure FDA0004155863580000049
为点的相机坐标系的坐标,
Figure FDA00041558635800000410
为点的像素坐标系坐标,K为相机的内参矩阵,/>
Figure FDA00041558635800000411
为激光雷达坐标系到相机坐标系的旋转矩阵,/>
Figure FDA00041558635800000412
为激光雷达坐标系到相机坐标系的平移矩阵。
4.根据权利要求1所述的基于FPN Swin Transformer与Pointnet++的自动驾驶三维目标检测方法,其特征在于,步骤7)中在进行综合考虑时,引入类别可信度公式:Pf=0.4P1+0.4P2+0.2P3
式中,Pf为可信度;
Figure FDA0004155863580000051
为前视视角下FPN Swin Transformer对物体类别的判断,p1a、p1b、p1c分别为前视视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure FDA0004155863580000052
为鸟瞰视角下FPN Swin Transformer对物体类别的判断,p2a、p2b、p2c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值;
Figure FDA0004155863580000053
为空间点云下Pointnet++对物体类别的判断,p3a、p3b、p3c分别为鸟瞰视角下FPN Swin Transformer判断分类结果为类别a、类别b、其它c的概率值。
CN202310334275.8A 2023-03-31 2023-03-31 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法 Pending CN116403186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310334275.8A CN116403186A (zh) 2023-03-31 2023-03-31 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310334275.8A CN116403186A (zh) 2023-03-31 2023-03-31 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法

Publications (1)

Publication Number Publication Date
CN116403186A true CN116403186A (zh) 2023-07-07

Family

ID=87013654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310334275.8A Pending CN116403186A (zh) 2023-03-31 2023-03-31 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法

Country Status (1)

Country Link
CN (1) CN116403186A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备
CN117058472B (zh) * 2023-10-12 2024-02-20 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备

Similar Documents

Publication Publication Date Title
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN112396650B (zh) 一种基于图像和激光雷达融合的目标测距系统及方法
CN110969655B (zh) 用于检测车位的方法、装置、设备、存储介质以及车辆
US11035958B2 (en) Systems and methods for correcting a high-definition map based on detection of obstructing objects
CN110531376B (zh) 用于港口无人驾驶车辆的障碍物检测和跟踪方法
Zhu et al. Online camera-lidar calibration with sensor semantic information
CN113111887B (zh) 一种基于相机和激光雷达信息融合的语义分割方法及系统
CN110853037A (zh) 一种基于球面投影的轻量化彩色点云分割方法
CN117441113A (zh) 一种面向车路协同的感知信息融合表征及目标检测方法
CN110873879A (zh) 一种多源异构传感器特征深度融合的装置及方法
CN113095154A (zh) 基于毫米波雷达与单目相机的三维目标检测系统及方法
CN115187964A (zh) 基于多传感器数据融合的自动驾驶决策方法及SoC芯片
CN113643345A (zh) 一种基于双光融合的多目道路智能识别方法
CN114413958A (zh) 无人物流车的单目视觉测距测速方法
CN116403186A (zh) 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN117111055A (zh) 一种基于雷视融合的车辆状态感知方法
CN111833443A (zh) 自主机器应用中的地标位置重建
CN113611008B (zh) 一种车辆行驶场景采集方法、装置、设备及介质
CN115359067A (zh) 一种基于连续卷积网络的逐点融合点云语义分割方法
CN115239822A (zh) 分体式飞行车辆多模块间实时视觉识别定位方法及系统
WO2022133986A1 (en) Accuracy estimation method and system
Berrio et al. Semantic sensor fusion: From camera to sparse LiDAR information
Yang et al. Analysis of Model Optimization Strategies for a Low-Resolution Camera-Lidar Fusion Based Road Detection Network
CN116071727A (zh) 目标检测及预警方法、设备、系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination