CN116902003A - 基于激光雷达与摄像头混合模态的无人驾驶方法 - Google Patents

基于激光雷达与摄像头混合模态的无人驾驶方法 Download PDF

Info

Publication number
CN116902003A
CN116902003A CN202310945274.7A CN202310945274A CN116902003A CN 116902003 A CN116902003 A CN 116902003A CN 202310945274 A CN202310945274 A CN 202310945274A CN 116902003 A CN116902003 A CN 116902003A
Authority
CN
China
Prior art keywords
voxel
modal
perception
point cloud
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310945274.7A
Other languages
English (en)
Other versions
CN116902003B (zh
Inventor
丁勇
刘瑞香
戴行
洪宇
韩皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Haipu Microelectronics Co ltd
Original Assignee
Hefei Haipu Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Haipu Microelectronics Co ltd filed Critical Hefei Haipu Microelectronics Co ltd
Priority to CN202310945274.7A priority Critical patent/CN116902003B/zh
Publication of CN116902003A publication Critical patent/CN116902003A/zh
Application granted granted Critical
Publication of CN116902003B publication Critical patent/CN116902003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于激光雷达与摄像头混合模态的无人驾驶方法,包括以下步骤:获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据;将点云模态数据和图像模态数据分别输入对应的体素特征生成网络,生成点云模态体素特征和图像模态体素特征;将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络,得到融合后的融合体素特征;获取感知任务,将融合体素特征输入感知输出头完成感知任务的输出,并获得感知相关的Key与Value。既能充分利用不同模态特征的优势,同时显著降低模型部署难度和训练成本,又能充分利用感知、预测和规划任务之间的内在关联性,实现了整体性能的提升。

Description

基于激光雷达与摄像头混合模态的无人驾驶方法
技术领域
本发明涉及自动驾驶技术领域,尤其涉及基于激光雷达与摄像头混合模态的无人驾驶方法。
背景技术
自人工智能出现以来,自动驾驶(Autonomous Driving)一直是最受人们关注的技术之一,在汽车产业引发了一场技术革命。这项技术的快速发展得益于车载传感器设备的不断更新和配套感知、预测、规划等算法技术的进步。各类车载传感器精度的提高和造价的降低,在为自动驾驶车辆提供全面、精确的场景信息的同时,满足了实际生产中的成本控制需求。在一套完整的自动驾驶流程中,车载传感器相当于自动驾驶车辆的“视觉”,而感知(Perception)、预测(Prediction)和规划(Planning)等算法则相当于自动驾驶车辆的“大脑”,需要“眼”和“脑”有效配合才能实现高质量、高水准的车辆自主行驶。车辆智能化和交通智能化是未来建设智慧城市的关键部分,是为人们提供高效、安全的智慧出行必不可少的关键技术点。
当前主流的车载传感器主要涉及激光雷达和摄像头。激光雷达是目前自动驾驶汽车上最常见的一种传感器,可以提供360°环绕点云数据,能够较为准确地构建车辆自身周围的三维环境,提供精确的深度信息,但是缺乏在驾驶过程中十分重要的场景色彩信息,并且易受距离、天气等因素影像。相较于激光雷达,虽然单个摄像头视野范围有限,但因其低廉的造价可以通过在车身周围部署多个摄像头的方式获取全方位的场景信息,图像数据弥补了点云数据缺乏色彩信息的缺陷,并且对于远距离场景捕获效果好,对于车辆的高速自动行驶十分关键,但是丢失了深度信息。高精度的场景信息获取是自动驾驶的前提,而单一传感器所能提供的信息往往是有限的。为了解决这一问题,可以采用混合模态特征融合的方式,基于不同传感器采集的数据,提取相应模态下的体素特征(Voxel Feature),因为不同模态的体素特征在对场景语义信息、物体的位置和尺度表征上各有优势,有效的特征融合可以生成更加全面、丰富的场景信息。
目前对于自动驾驶的各项任务,一般采用相互独立的深度学习模型实现,感知、预测和规划任务之间相互并行,彼此之间没有交互,这样一来就产生了一些弊端:1)利用特征提取器从传感器数据提取特征是所有任务都必不可少的网络结构,在使用多个独立模型时会增加大量的重复运算,增加了模型训练成本和算力消耗;2)自动驾驶各项任务之间具有一定的关联性,例如感知结果可以为预测和规划提供相关性很强的参考信息,但在独立模型中各项任务之间缺乏有效的交互,无法利用这种内在关联性提升效果;3)采用多个独立模型意味着更高的算力需求,带来了生产成本的增加和模型实际部署难度的提高。
因此,如何有效融合不同模态的体素特征,同时共用部分特征提取网络,在一个模型内部统一完成感知、预测和规划任务,是当前自动驾驶技术发展中亟待解决的关键难点。
发明内容
为解决背景技术中存在的技术问题,本发明提出基于激光雷达与摄像头混合模态的无人驾驶方法。
本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法,包括以下步骤:
S1、获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据;
S2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络,生成点云模态体素特征和图像模态体素特征;
S3、将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络,得到融合后的融合体素特征;
S4、获取感知任务,将融合体素特征输入感知输出头完成感知任务的输出,并获得感知相关的Key与Value;
S5、将感知相关的Key与Value、融合体素特征输入体素特征筛选器,得到体素环境相关的第一类型Key与Value;
S6、将第一类型Key与Value、感知相关的Key与Value输入预先建立和训练好的自动驾驶的Transformer模型,完成自动驾驶车辆周围物体动作预测以及驾驶行为规划的任务。
优选地,“S2”具体包括:
对于点云模态数据,先将其规范化为体素形式,再通过三维神经网络提取点云模态体素特征;
对于图像模态数据,先通过二维神经网络提取图像特征,再投影到三维体素空间内,生成图像模态体素特征;
统一点云模态体素特征、图像模态体素特征的特征维度C和空间分辨率X×Y×Z。
优选地,“S3”具体包括:
将点云模态体素特征和图像模态体素特征分别输入对应的全连接网络后,再进行拼接,使得特征维度上升到2C;
将拼接后的体素特征输入卷积核大小为1×1的卷积神经网络进行降维,获得自适应融合的融合体素特征。
优选地,“S5”具体包括:
将感知相关的Key与Value、融合体素特征输入体素特征筛选器;
体素特征筛选器结合感知结果筛选出三维体素空间中与感知目标相对应的、稀疏的感兴趣体素特征;
利用采样出的体素特征构建体素环境相关的第一类型Key与Value,为后续任务提供体素特征信息。
优选地,所述Transformer模型包括:周围物体动作预测神经网络、驾驶行为规划神经网络;“S6”具体包括:
将第一类型Key与Value、感知相关的Key与Value输入周围物体动作预测神经网络,完成周围物体动作预测的任务,同时获得动作预测相关的第二类型Key与Value;
将第一类型Key与Value、第二类型Key与Value输入驾驶行为规划神经网络,完成自动驾驶车辆驾驶行为规划的任务。
优选地,还包括:所述自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。
优选地,所述感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。
优选地,所述驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。
本发明中,所提出的基于激光雷达与摄像头混合模态的无人驾驶方法,包括模态体素特征提取、自适应模态体素特征融合、部分特征提取网络共用、感知预测规划多任务信息交互。在模态体素特征生成阶段,能够同时获取基于激光雷达点云和摄像头图像两种不同模态数据的体素特征。在自适应模态体素特征融合阶段,可以通过可学习的神经网络将不同模态的体素特征自适应地融合到统一的体素空间,保留不同特征各自的优势。对于所有任务,都会共用之前的体素特征,避免了冗余计算。在输出阶段,统一实现了感知、预测和规划的任务,不同任务之间还进行了充分的信息交互。既能充分利用不同模态特征的优势,同时显著降低模型部署难度和训练成本,又能充分利用感知、预测和规划任务之间的内在关联性,实现了整体性能的提升。
附图说明
图1为本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法的工作流程的结构示意图;
图2为本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法的系统流程的结构示意图。
具体实施方式
参照图1和图2,本发明提出的基于激光雷达与摄像头混合模态的无人驾驶方法,包括以下步骤:
S1、获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据。
在本实施例中,通过激光雷达、摄像头采集在自动驾驶场景下的模态数据,相应的激光雷达采集的点云模态数据记作Ipc、摄像头采集的图像模态数据记作Iimg
S2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络,生成点云模态体素特征和图像模态体素特征。
“S2”具体包括:
对于点云模态数据,先将其规范化为体素形式,再通过三维神经网络提取点云模态体素特征;
对于图像模态数据,先通过二维神经网络提取图像特征,再投影到三维体素空间内,生成图像模态体素特征;
统一点云模态体素特征、图像模态体素特征的特征维度C和空间分辨率X×Y×Z。
在本实施例中,输入的点云模态数据Ipc经过体素化V和三维神经网络Φpc,生成点云模态体素特征Fpc
Fpc=Φpc(V(Ipc));
输入的图像模态数据Iimg经过二维神经网络Φimg提取图像特征,再经由P将其投影到三维体素空间,生成图像模态体素特征Fimg
Fimg=P(Φimg(Iimg));
其中,V表示将输入点云模态数据Ipc体素化,Φpc为提取体素特征的三维神经网络,Φimg为提取图像特征的二维神经网络,P表示将二维图像特征投影到三维体素空间。
将来自不同传感器的不同数据I统一转换为体素特征F∈RC×X×Y×Z。体素特征的后三个维度对应当前的三维空间,确定体素的空间位置,第一个维度对应体素特征通道数。由此生成的体素特征Fpc、Fimg分别为相应传感器对车辆所在三维场景中各个位置的语义信息描述。
点云模态体素特征Fpc、图像模态体素特征Fimg均设置为相同的特征维度C和空间分辨率X×Y×Z,特征维度C可设置为256,空间分辨率X×Y×Z可设置为1024×1024×60,三维体素空间可根据体素大小映射回真实的三维空间,当体素大小为0.1×0.1×0.1时对应真实空间范围为102.4m×102.4m×6m,可以通过调整空间分辨率或体素大小改变体素空间涵盖范围。
S3、将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络,得到融合后的融合体素特征。
“S3”具体包括:
将点云模态体素特征和图像模态体素特征分别输入对应的全连接网络后,再进行拼接,使得特征维度上升到2C;
将拼接后的体素特征输入卷积核大小为1×1的卷积神经网络进行降维,获得自适应融合的融合体素特征记作Fvoxel
在本实施例中,点云模态体素特征Fpc经过一个全连接网络Ωpc生成待拼接的点云体素特征F′pc
F′pc=Ωpc(Fpc);
图像模态体素特征Fimg,经过一个全连接网络Ωimg生成待拼接的图像体素特征F′img
F′img=Ωimg(Fimg);
将点云体素特征F′pc、图像体素特征F′img进行逐体素的特征维度拼接获得拼接后的体素特征F′voxel∈R2C×X×Y×Z
由于拼接后特征维度提升至2C,需要使用一个神经网络对特征通道进行降维,使特征维度相较于S2中获得的特征保持不变:
Fvoxel=conv(F′voxel);
其中,conv为卷积核大小为1×1的卷积神经网络。该融合后的融合体素特征Fvoxel∈RC×X×Y×Z,Fpc和Fimg具有相同的特征维度C和空间分辨率X×Y×Z,可以灵活适应传感器数量的变化。
S4、获取感知任务,将融合体素特征输入感知输出头完成感知任务的输出,并获得感知相关的Key与Value。
感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。
在本实施例中,感知输出头包括三维目标跟踪输出头,三维空间占用预测输出头和在线地图生成输出头,将融合的融合体素特征送入这些感知输出头,分别完成相对应的感知任务,获得感知输出结果Operc
Operc=Hmult-perc(Fvoxel);
所有感知任务的输出Operc会被用于体素特征筛选和构建为感知相关的Key与Value。感知相关的Key与Value分别记作Kperc与Vperc,以实现不同任务之间的信息交互。
S5、将感知相关的Key与Value、融合体素特征输入体素特征筛选器,得到体素环境相关的第一类型Key与Value。
在本实施例中,体素环境相关的第一类型Key与Value分别记作Kvoxel与Vvoxel
“S5”具体包括:
将感知相关的Key与Value、融合体素特征输入体素特征筛选器;
体素特征筛选器结合感知结果筛选出三维体素空间中与感知目标相对应的、稀疏的感兴趣体素特征;
利用采样出的体素特征构建体素环境相关的第一类型Key与Value,为后续任务提供体素特征信息。
在本实施例中,体素特征筛选器会使用多类型感知结果Operc对融合体素特征Fvoxel进行感兴趣体素特征筛选,根据感知目标在三维体素空间中的相应位置,选择关键性的稀疏感兴趣体素特征Fsparse
Fsparse=ψ(Fvoxel,Operc);
筛选出的稀疏感兴趣体素特征Fsparse将被用作体素特征相关的Key与Value,分别记作Kvoxel与Vvoxel
S6、将第一类型Key与Value、感知相关的Key与Value输入预先建立和训练好的自动驾驶的Transformer模型,完成自动驾驶车辆周围物体动作预测以及驾驶行为规划的任务。
驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。
所述Transformer模型包括:周围物体动作预测神经网络、驾驶行为规划神经网络;“S6”具体包括:
将第一类型Key与Value、感知相关的Key与Value输入周围物体动作预测神经网络,完成周围物体动作预测的任务,同时获得动作预测相关的第二类型Key与Value;
将第一类型Key与Value、第二类型Key与Value输入驾驶行为规划神经网络,完成自动驾驶车辆驾驶行为规划的任务。
在本实施例中,周围物体动作预测神经网络记作Tpred、驾驶行为规划神经网络记作Tplan;周围物体动作预测神经网络Tpred包括两个子模块:Tpred1、Tpred2
驾驶行为规划神经网络Tplan包括三个子模块:Tplan1、Tplan2、Tplan3
周围物体动作预测神经网络Tpred分别使用感知相关的Kperc与Vperc和体素特征相关的Kvoxel与Vvoxel对动作预测Qpred进行信息交互和特征更新,使用信息聚合后的动作预测Qpred配合相应的动作预测输出头完成对自动驾驶车辆周围物体进行动作预测的任务,同时作为自动驾驶车辆动作预测相关的Key和Value,记作Kpred与Vpred,以实现不同任务之间的信息交互。
具体实现过程如下:
步骤1、Tpred中的Tpred1部分使用感知相关的Kperc与Vperc对动作预测Qpred进行信息交互和特征更新,该过程使用基于Transformer结构的计算方式,如下:
Qpred=Tpred1(Qpred,Kperc,Vperc)
其中,Tpred1包括注意力计算和前馈网络:
Qpred=Qpred+FFN(Qpred)
其中,计算查询特征和被查询特征的相关性矩阵;δ函数对相关性矩阵进行归一化,通过Softmax函数实现。C为动作预测Qpred的特征维度,设置为与S3中的体素特征维度相同;FFN为前馈神经网络,具体由两个全连接层组合构建,实现特征的升维和降维,有利于在提取更深层次特征的同时保持输出特征通道数不变;
步骤2、Tpred中的Tpred2部分使用体素特征相关的Kvoxel与Vvoxel对Qpred进行进一步的信息交互和特征更新,该过程计算方式,如下:
Qpred=Tpred2(Qpred,Kvoxel,Vvoxel);
步骤3、经上述步骤2更新后的Qpred将会被送至动作预测输出头Hpred中,用于输出自动驾驶车辆自身周围物体的动作预测结果Opred
Opred=Hpred(Qpred);
步骤4、经上述步骤2更新后的Qpred还会被用作动作预测相关的Key与Value,记作Kpred与Vpred,以实现不同任务之间的信息交互。
驾驶行为规划神经网络Tplan分别使用感知相关的Kperc与Vperc、体素特征相关的Kvoxel与Vvoxel、动作预测相关的Kpred与Vpred,对驾驶行为规划Qplan进行信息交互和特征更新,信息聚合后的驾驶行为规划Qplan将被用于完成相应的自动驾驶车辆行为规划任务。
具体实现过程如下:
步骤11、Tplan中的Tplan1使用感知相关的Kperc与Vperc对驾驶行为规划Qplan进行初步信息交互和特征更新,该过程的计算方式,如下:
Qplan=Tplan1(Qplan,Kperc,Vperc);
步骤12、Tplan中的Tplan2使用体素特征相关的Kvoxel与Vvoxel对Qplan进行进一步的信息交互和特征更新,如下:
Qplan=Tplan2(Qplan,Kvoxel,Vvoxel);
步骤13、Tplan中的Tplan3使用动作预测相关的Kpred与Vpred对Qplan进行最终的信息交互和特征更新,如下:
Qplan=Tplan3(Qplan,Kpred,Vpred);
步骤14、经上述步骤11至步骤13更新后的Qplan将会被送至驾驶行为规划输出头Hplan中,用于输出自动驾驶车辆的驾驶行为规划结果Oplan
Oplan=Hplan(Qplan)
其中,该输出结果Oplan具体的驾驶行为包括但不限于保持直行、左转、右转、加速、减速及停车,在实际应用中,还可以根据不同场景下的需求添加前车跟随、左变道、右变道等更加详细的行为指令。
具体的,如图2所示,还包括:自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。
在具体实施方式中,S3中生成的融合体素特征就是自适应融合后的混合模态体素特征;S1-S3中所涉及到的特征提取网络将被后续多项任务共用,可以在满足各项任务需求的同时降低计算消耗;S4-S6的推理结果Operc、Opred及Oplan,就是基于激光雷达与摄像头混合模态的无人驾驶方法输出的感知结果、动作预测和行为规划,不同任务之间会进行有效的信息交互,充分利用了各项任务的内在关联性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,包括以下步骤:
S1、获取激光雷达采集的点云模态数据和摄像头采集的图像模态数据;
S2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络,生成点云模态体素特征和图像模态体素特征;
S3、将点云模态体素特征和图像模态体素特征输入自适应体素特征融合网络,得到融合后的融合体素特征;
S4、获取感知任务,将融合体素特征输入感知输出头完成感知任务的输出,并获得感知相关的Key与Value;
S5、将感知相关的Key与Value、融合体素特征输入体素特征筛选器,得到体素环境相关的第一类型Key与Value;
S6、将第一类型Key与Value、感知相关的Key与Value输入预先建立和训练好的自动驾驶的Transformer模型,完成自动驾驶车辆周围物体动作预测以及驾驶行为规划的任务。
2.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,“S2”具体包括:
对于点云模态数据,先将其规范化为体素形式,再通过三维神经网络提取点云模态体素特征;
对于图像模态数据,先通过二维神经网络提取图像特征,再投影到三维体素空间内,生成图像模态体素特征;
统一点云模态体素特征、图像模态体素特征的特征维度C和空间分辨率X×Y×Z。
3.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,“S3”具体包括:
将点云模态体素特征和图像模态体素特征分别输入对应的全连接网络后,再进行拼接,使得特征维度上升到2C;
将拼接后的体素特征输入卷积核大小为1×1的卷积神经网络进行降维,获得自适应融合的融合体素特征。
4.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,“S5”具体包括:
将感知相关的Key与Value、融合体素特征输入体素特征筛选器;
体素特征筛选器结合感知结果筛选出三维体素空间中与感知目标相对应的、稀疏的感兴趣体素特征;
利用采样出的体素特征构建体素环境相关的第一类型Key与Value,为后续任务提供体素特征信息。
5.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,所述Transformer模型包括:周围物体动作预测神经网络、驾驶行为规划神经网络;“S6”具体包括:
将第一类型Key与Value、感知相关的Key与Value输入周围物体动作预测神经网络,完成周围物体动作预测的任务,同时获得动作预测相关的第二类型Key与Value;
将第一类型Key与Value、第二类型Key与Value输入驾驶行为规划神经网络,完成自动驾驶车辆驾驶行为规划的任务。
6.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,还包括:所述自动驾驶车辆周围物体动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。
7.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,所述感知任务包括但不限于三维目标检测、三维目标跟踪、三维空间占用预测和在线地图生成。
8.根据权利要求1所述的基于激光雷达与摄像头混合模态的无人驾驶方法,其特征在于,所述驾驶行为规划的任务包括但不限于保持直行、左转、右转、加速、减速及停车。
CN202310945274.7A 2023-07-31 2023-07-31 基于激光雷达与摄像头混合模态的无人驾驶方法 Active CN116902003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310945274.7A CN116902003B (zh) 2023-07-31 2023-07-31 基于激光雷达与摄像头混合模态的无人驾驶方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310945274.7A CN116902003B (zh) 2023-07-31 2023-07-31 基于激光雷达与摄像头混合模态的无人驾驶方法

Publications (2)

Publication Number Publication Date
CN116902003A true CN116902003A (zh) 2023-10-20
CN116902003B CN116902003B (zh) 2024-02-06

Family

ID=88364642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310945274.7A Active CN116902003B (zh) 2023-07-31 2023-07-31 基于激光雷达与摄像头混合模态的无人驾驶方法

Country Status (1)

Country Link
CN (1) CN116902003B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108196535A (zh) * 2017-12-12 2018-06-22 清华大学苏州汽车研究院(吴江) 基于增强学习和多传感器融合的自动驾驶系统
CN110363820A (zh) * 2019-06-28 2019-10-22 东南大学 一种基于激光雷达、图像前融合的目标检测方法
US20210181351A1 (en) * 2019-12-17 2021-06-17 Tusimple, Inc. Data integration from multiple sensors
CN115205391A (zh) * 2022-05-20 2022-10-18 武汉理工大学 一种三维激光雷达和视觉融合的目标预测方法
US20220366681A1 (en) * 2021-05-10 2022-11-17 Tsinghua University VISION-LiDAR FUSION METHOD AND SYSTEM BASED ON DEEP CANONICAL CORRELATION ANALYSIS
CN115909815A (zh) * 2023-01-06 2023-04-04 广州通达汽车电气股份有限公司 基于多元数据的融合检测方法、装置、设备及存储介质
CN116229408A (zh) * 2022-11-22 2023-06-06 重庆邮电大学 一种图像信息与激光雷达点云信息融合的目标识别方法
US20230186647A1 (en) * 2020-03-30 2023-06-15 Anditi Pty Ltd Feature extraction from mobile lidar and imagery data
CN116310684A (zh) * 2023-03-17 2023-06-23 合肥工业大学 基于Transformer的多模态特征融合的三维目标检测方法
US20230213643A1 (en) * 2022-01-05 2023-07-06 Waymo Llc Camera-radar sensor fusion using local attention mechanism
US20230237783A1 (en) * 2022-01-26 2023-07-27 Ford Global Technologies, Llc Sensor fusion

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108196535A (zh) * 2017-12-12 2018-06-22 清华大学苏州汽车研究院(吴江) 基于增强学习和多传感器融合的自动驾驶系统
CN110363820A (zh) * 2019-06-28 2019-10-22 东南大学 一种基于激光雷达、图像前融合的目标检测方法
US20210181351A1 (en) * 2019-12-17 2021-06-17 Tusimple, Inc. Data integration from multiple sensors
US20230186647A1 (en) * 2020-03-30 2023-06-15 Anditi Pty Ltd Feature extraction from mobile lidar and imagery data
US20220366681A1 (en) * 2021-05-10 2022-11-17 Tsinghua University VISION-LiDAR FUSION METHOD AND SYSTEM BASED ON DEEP CANONICAL CORRELATION ANALYSIS
US20230213643A1 (en) * 2022-01-05 2023-07-06 Waymo Llc Camera-radar sensor fusion using local attention mechanism
US20230237783A1 (en) * 2022-01-26 2023-07-27 Ford Global Technologies, Llc Sensor fusion
CN115205391A (zh) * 2022-05-20 2022-10-18 武汉理工大学 一种三维激光雷达和视觉融合的目标预测方法
CN116229408A (zh) * 2022-11-22 2023-06-06 重庆邮电大学 一种图像信息与激光雷达点云信息融合的目标识别方法
CN115909815A (zh) * 2023-01-06 2023-04-04 广州通达汽车电气股份有限公司 基于多元数据的融合检测方法、装置、设备及存储介质
CN116310684A (zh) * 2023-03-17 2023-06-23 合肥工业大学 基于Transformer的多模态特征融合的三维目标检测方法

Also Published As

Publication number Publication date
CN116902003B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
Alonso et al. 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation
US12051001B2 (en) Multi-task multi-sensor fusion for three-dimensional object detection
US11989847B2 (en) Photorealistic image simulation with geometry-aware composition
US20180307916A1 (en) System and method for image analysis
CN109214986A (zh) 从下采样的低分辨率lidar 3-d点云和摄像机图像生成高分辨率3-d点云
CN109214987A (zh) 从上采样的低分辨率lidar 3-d点云和摄像机图像生成高分辨率3-d点云
CN109215067A (zh) 基于cnn和crf模型生成高分辨率3-d点云
US11580851B2 (en) Systems and methods for simulating traffic scenes
JP6979228B2 (ja) V2v通信によって取得された、他の自律走行車両の空間探知結果を自身の自律走行車両の空間探知結果と統合する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same}
US11586865B2 (en) Apparatus, system and method for fusing sensor data to do sensor translation
CN117157678A (zh) 用于基于图的全景分割的方法和系统
CN115880560A (zh) 经由等渗卷积神经网络的图像处理
DE112022002079T5 (de) Hochpräzise semantische bildbearbeitung mit neuronalen netzen für systeme und anwendungen zur erzeugung synthetischer daten
CN110281949A (zh) 一种自动驾驶统一分层决策方法
US12050661B2 (en) Systems and methods for object detection using stereovision information
CN110119768A (zh) 用于车辆定位的视觉信息融合系统及方法
CN114326821B (zh) 基于深度强化学习的无人机自主避障系统及方法
CN111401190A (zh) 车辆检测方法、装置、计算机设备和存储介质
CN116902003B (zh) 基于激光雷达与摄像头混合模态的无人驾驶方法
Milz et al. Is artificial intelligence the solution to all our problems? Exploring the applications of AI for automated driving
CN113065499B (zh) 基于视觉学习驱动的空中机器人集群控制方法及系统
CN116863430B (zh) 一种面向自动驾驶的点云融合方法
CN111126310A (zh) 一种基于场景迁移的行人性别识别方法
Liu et al. End-to-end control of autonomous vehicles based on deep learning with visual attention
Zhang et al. A Self-Supervised Monocular Depth Estimation Approach Based on UAV Aerial Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant