CN117237919A - 跨模态监督学习下多传感器融合检测的卡车智驾感知方法 - Google Patents

跨模态监督学习下多传感器融合检测的卡车智驾感知方法 Download PDF

Info

Publication number
CN117237919A
CN117237919A CN202311207792.5A CN202311207792A CN117237919A CN 117237919 A CN117237919 A CN 117237919A CN 202311207792 A CN202311207792 A CN 202311207792A CN 117237919 A CN117237919 A CN 117237919A
Authority
CN
China
Prior art keywords
truck
algorithm
point cloud
obstacle
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311207792.5A
Other languages
English (en)
Inventor
袁豆豆
梁艳菊
潘焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Internet Of Things Innovation Center Co ltd
Original Assignee
Wuxi Internet Of Things Innovation Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Internet Of Things Innovation Center Co ltd filed Critical Wuxi Internet Of Things Innovation Center Co ltd
Priority to CN202311207792.5A priority Critical patent/CN117237919A/zh
Publication of CN117237919A publication Critical patent/CN117237919A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及自动驾驶技术领域,具体公开了一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法,包括:通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据;将自车周围的图像数据和点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测;完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪;输出前景障碍物的跟踪结果和背景障碍物的跟踪结果。本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,能够实现卡车周围环境的全方位、高精度感知,为卡车自动驾驶系统提供可靠的障碍物检测能力。

Description

跨模态监督学习下多传感器融合检测的卡车智驾感知方法
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法。
背景技术
货物运输在现代经济中起着至关重要的作用。然而,长途货运面临着驾驶员疲劳、驾驶风险、人为错误和人力成本等挑战。重型卡车自动驾驶的引入能够解决这些问题,提高运输效率和货运行业的安全性。随着自动驾驶技术的飞速发展,许多公司和研究机构开始探索将自动驾驶技术应用于货车。通过使用激光雷达、相机、毫米波雷达等传感器,以及强大的计算平台和深度学习算法,能够实时监测和识别道路上的障碍物、行人、交通标志和信号,并做出智能的驾驶决策,实现重型卡车的自动驾驶。
重型卡车自动驾驶应用中,由于重型卡车的尺寸较大且存在盲区,单一传感器能采集的卡车周围的环境数据有限,仅仅使用基于单一传感器数据进行障碍物检测的算法,难以获得准确且全面的障碍物感知结果。因此传感器的安装数量也更多,布局也更为复杂,最终导致障碍物的感知变得困难。
相机传感器用于获取自车周围的图像数据,图像数据中包含了丰富的纹理、色彩信息,这些信息对于障碍物的分类至关重要,但图像中缺少深度信息,又导致难以精确定位障碍物的位置,并且相机会受到过曝,低光照等情况影响,使得拍摄的图像数据质量变差。
激光雷达传感器用于获取自车周围的点云数据,点云数据天然包含深度信息和丰富的障碍物结构信息,但其缺少纹理和颜色信息,因此基于点云数据的检测算法对于障碍物的定位和分类,前者的效果要更好。同样的激光雷达也会受外部因素的干扰,如在大雪天气,或因障碍物表面材质的原因,会使得激光的反射率很低,从而影响点云数据的采集。
现有的方案仅仅是将来自车端和路端不同传感器的多模态数据分别进行特征提取,然后变换到统一的BEV空间下进行特征融合,该方案优于基于单一传感器数据进行感知的方案,一定程度上提升了感知效果。但是该方案未考虑多模态数据各自的特点以及它们之间的互补性,没有做到充分融合,仅仅只是独立的对不同模态的数据进行特征提取再融合,对检测结果来说难以有较大的提升。同时较多车身传感器、路端传感器数据的特征融合也难以保证感知的实时性,增加了系统的计算量。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供了一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法,以解决现有技术中存在的重型卡车车身体积大、盲区更多,障碍物的检测跟踪更为困难的问题。
作为本发明的第一个方面,提供一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法,所述跨模态监督学习下多传感器融合检测的卡车智驾感知方法包括:
步骤S1:通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据;
步骤S2:将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测;
步骤S3:完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪;
步骤S4:输出前景障碍物的跟踪结果和背景障碍物的跟踪结果。
进一步地,所述通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据,还包括:
通过8个相机传感器获取自车周围的图像数据,以及通过4个激光雷达传感器获取自车周围的点云数据;其中,4个激光雷达传感器分为1个主激光雷达传感器和3个补盲激光雷达传感器,主激光雷达传感器安装在卡车驾驶室顶部前端,用于获取卡车行驶路线前方、两侧较远距离的点云数据,3个补盲激光雷达传感器分别位于卡车车头两侧以及卡车车尾顶端,用于获取卡车两侧盲区、车尾较远距离的点云数据;2个相机传感器安装在卡车驾驶室顶部前端的主激光雷达传感器下,上下排列,一颗朝向卡车前方,用于获取卡车行驶路线前方较远距离的图像数据,另一颗角度向下,用于获取卡车前方盲区的图像数据;2个相机传感器安装在卡车车尾顶部,左右排列,功能与驾驶室顶部前端的2个相机传感器相同;2个相机传感器分别安装在卡车车头两侧,2个相机传感器分别安装在卡车车尾两侧,8个相机实现对卡车周围360度范围内的监控;
通过CROON算法将3个补盲激光雷达传感器坐标系分别标定到主激光雷达传感器坐标系下,通过CRLF算法将8个相机传感器坐标系分别标定到所述主激光雷达传感器坐标系下;
通过标定结果,对多个激光雷达传感器采集的自车周围点云数据进行拼接,以得到完整点云数据;对多个相机传感器采集的自车周围图像数据进行图像预处理,以得到预处理后的多个视角图像数据。
进一步地,所述将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测,还包括:
点云分支:采用基于VoxelNet的特征提取网络对所述完整点云数据进行特征提取,以得到BEV空间下的点云特征;
图像分支:采用基于Swin-Transformer的特征提取网络对所述预处理后的多个视角图像数据分别进行特征提取,以对应得到多个视角图像特征,随后通过FPN网络聚合多个视角图像特征,得到包含丰富语义信息的融合图像特征,最后采用LSS算法进行特征投影以得到BEV空间下的图像特征;
将所述BEV空间下的点云特征和所述BEV空间下的图像特征进行拼接、卷积操作,以得到BEV空间下的融合特征,然后将所述BEV空间下的融合特征送入3D检测头进行障碍物检测,以得到障碍物检测结果。
进一步地,所述障碍物检测结果包括障碍物的位置、速度和包围框信息。
进一步地,所述多传感器融合检测算法的训练过程包括:
首先将所述完整点云数据分别投影到所述预处理后的各个视角图像数据上,得到各个视角图像中每个像素的深度信息,该深度信息作为图像分支中LSS算法中的深度预测网络的训练真值;
然后采用特征蒸馏的方法,利用点云分支中提取的所述BEV空间下的点云特征来提高图像分支中编码图像几何结构特征的能力。
进一步地,所述基于Swin-Transformer的特征提取网络是一种基于 Transformer架构的图像分类模型,使用分层结构,将输入图像分解成不同的分辨率层级,从而捕捉到不同尺度上的特征;使用了自注意力机制,使得模型能够对输入图像中的不同区域进行全局的上下文关联;引入了窗口化机制,将图像分割成固定大小的图块,然后在这些图块上进行自注意力计算;在大规模数据集上进行预训练,利用无监督的方法学习图像表示,然后,通过微调的方式在特定任务上进行训练。
进一步地,所述FPN网络是一种用于目标检测的深度学习网络架构,通过自顶向下和自底向上的路径来实现特征的跨层级传递和融合;
其中,FPN网络从高层特征图开始,通过上采样操作将特征图的分辨率增加到与低层特征图相同;然后,将高层特征图与相应的低层特征图进行逐元素相加,得到融合后的特征图。
进一步地,所述LSS算法是一种用于从任意相机配置中编码图像的方法,通过隐式反投影到3D空间来实现,将相机图像信息转化为3D点云表示;LSS算法包含抬升Lift和投射Splat两个阶段;
在抬升Lift阶段,首先对每个相机图像中的每个像素点进行语义特征提取和深度预测,并用预测的深度信息加权像素的语义特征,得到每个2D像素点在3D空间中的特征;
在投射Splat阶段,通过像素的2D坐标值和深度值,以及相机的内参和外参,计算出像素在车身坐标系中的3D坐标,进而将每个点分配到对应的体柱中,然后对体柱中的所有点进行求和池化,得到BEV空间下的图像特征。
进一步地,所述完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪,还包括:
所述匈牙利匹配算法是一种多目标跟踪的匹配算法,包括以下步骤:
(1)创建成本矩阵:将检测到的目标和跟踪的目标之间的关联转化为一个成本矩阵,其中每个元素表示两个目标之间的匹配成本;
(2)初始化匹配:对成本矩阵进行初始化,使得每个检测到的目标都与一个跟踪的目标进行匹配;
(3)进行优化:通过修改成本矩阵中的元素值和调整匹配关系来达到优化的目标;
(4)判断终止条件:在迭代过程中,根据特定的终止条件判断是否达到了最优的匹配结果;
(5)输出匹配结果:根据最终的匹配结果,确定每个检测到的目标与其对应的跟踪目标之间的匹配关系,即实现多目标的跟踪。
进一步地,所述完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪,还包括:
所述GNN算法是一种基于图神经网络的目标跟踪方法,包括以下步骤:
(1)图构建:将目标和周围的上下文信息组成图结构,目标作为节点,上下文信息作为边;
(2)特征表示:为每个节点分配特征向量,包括目标的外观和运动特征;
(3)图传播:使用GNN模型在图中传递信息,更新节点的特征表示;
(4)目标跟踪:通过节点的特征表示进行目标的跟踪和预测。
本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法具有以下优点:通过多传感器集成、跨模态监督学习多传感器融合检测算法、标定算法以及跟踪算法等的应用,实现卡车周围环境的充分感知、感知速度与准确性的平衡以及较强的环境变化适应性和鲁棒性。这些优点使得本发明在重型卡车的自动驾驶应用中能够更好地应对各种复杂的道路环境和障碍物情况,提高驾驶的安全性和效果。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
图1为本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法的流程图。
图2为本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法的具体实施方式流程图。
图3为本发明提供的多传感器融合检测算法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域技术人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本实施例中提供了一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法,图1为本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法的流程图。如图1所示,所述跨模态监督学习下多传感器融合检测的卡车智驾感知方法包括:
步骤S1:通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据;
优选地,如图2所示,所述通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据,还包括:
通过8个相机传感器获取自车周围的图像数据,以及通过4个激光雷达传感器获取自车周围的点云数据;其中,4个激光雷达传感器分为1个主激光雷达传感器和3个补盲激光雷达传感器,主激光雷达传感器安装在卡车驾驶室顶部前端,用于获取卡车行驶路线前方、两侧较远距离的点云数据,3个补盲激光雷达传感器分别位于卡车车头两侧以及卡车车尾顶端,用于获取卡车两侧盲区、车尾较远距离的点云数据;2个相机传感器安装在卡车驾驶室顶部前端的主激光雷达传感器下,上下排列,一颗朝向卡车前方,用于获取卡车行驶路线前方较远距离的图像数据,另一颗角度向下,用于获取卡车前方盲区的图像数据;2个相机传感器安装在卡车车尾顶部,左右排列,功能与驾驶室顶部前端的2个相机传感器相同;2个相机传感器分别安装在卡车车头两侧,2个相机传感器分别安装在卡车车尾两侧,8个相机实现对卡车周围360度范围内的监控;实现了不同传感器间数据的互补和自车360度范围(远距离、近距离)的感知。
通过CROON算法(automatic multi-LiDAR Calibration and Refinement methOdin rOad sceNe)将3个补盲激光雷达传感器坐标系分别标定到主激光雷达传感器坐标系下,通过CRLF算法(Automatic Calibration and Refinement based on Line Featurefor LiDAR and Camera in Road Scenes)将8个相机传感器坐标系分别标定到所述主激光雷达传感器坐标系下;
通过标定结果,对多个激光雷达传感器采集的自车周围点云数据进行拼接,以得到完整点云数据;对多个相机传感器采集的自车周围图像数据进行图像预处理,以得到预处理后的多个视角图像数据。
在本发明实施例中,CROON是一种用于道路场景中多个LiDAR系统的自动和准确校准策略,包括粗略校准和精细校准两个阶段。该算法利用道路场景的自然特征实现独立性和易于在大规模条件下应用。CROON算法的第一阶段是粗略校准,可以从任意初始姿态开始校准传感器。该阶段使用了一种基于平面拟合的方法,将LiDAR点云映射到地面平面上,并使用RANSAC算法估计平面参数。第二阶段是精细校准,可以迭代地精确校准传感器。该阶段使用了一种基于ICP的方法,将点云匹配到参考点云上,并使用Levenberg-Marquardt算法优化姿态参数。CROON算法还使用了一种基于平面拟合的方法来估计传感器的内部参数。CROON算法具有以下优点:1)自动化程度高,可以从任意初始姿态开始校准传感器;2)准确性高,可以迭代地精确校准传感器;3)独立性强,利用了道路场景的自然特征,易于在大规模条件下应用。
在本发明实施例中,CRLF(Automatic Calibration and Refinement based onLine Feature for LiDAR and Camera in Road Scenes)是一种基于线特征的激光雷达和相机在道路场景中进行自动标定和细化的方法。该方法旨在解决激光雷达和相机之间的准确的外部参数标定问题,以实现两种传感器之间的数据融合和对道路场景的精确感知。CRLF算法利用道路场景中的线特征,例如道路边缘线和车道线,来进行标定和细化。首先,算法通过激光雷达和相机的数据获取道路场景中的线特征。然后,通过匹配激光雷达点云和相机图像上的线特征,推导出两个传感器之间的外部参数,如相机的位置和姿态。这样就能将激光雷达和相机的坐标系进行准确的对齐。接着,CRLF算法使用细化技术对标定结果进行优化和调整,以进一步提高标定的准确性。通过最小化激光雷达点云和相机图像上线特征之间的重投影误差,算法能够优化外部参数的估计,并进一步提高数据融合的精度。CRLF算法的优点在于它能够自动进行激光雷达和相机的标定,减少了人工标定的工作量和误差。同时,通过利用道路场景中的线特征,该算法对标定结果进行细化,提高了标定的准确性和稳定性。
步骤S2:将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测;
优选地,如图3所示,所述将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测,还包括:
点云分支:采用基于VoxelNet的特征提取网络对所述完整点云数据进行特征提取,以得到BEV空间下的点云特征;
在本发明实施例中,VoxelNet是一种用于点云数据的三维物体检测算法,其特征提取网络主要包括两个关键组件:Voxel Feature Encoding(VFE)和Voxel SetAbstraction(VSA)。Voxel Feature Encoding模块用于将原始的稀疏点云数据转换为密集的体素表示,并提取体素特征。该模块的输入是点云数据,首先通过体素化操作将点云划分为规则的三维体素网格。然后,在每个体素中,VFE模块将点云特征进行编码,包括位置信息、点云强度以及其他可选的附加信息。这样,每个体素就包含了丰富的特征表示。VoxelSet Abstraction模块用于对编码后的体素特征进行进一步的抽象和聚合,以获取更高层次的语义特征表示。该模块通过逐级的聚合操作,将体素特征从粗糙的全局表示逐渐精炼到更细致的局部表示。具体而言,VSA模块首先对体素特征进行层级划分,将体素分为不同的组,然后在每个组内进行特征聚合,得到每个组的局部特征表示。最后,通过逐级聚合,VSA模块将局部特征汇总为整个点云场景的高层次语义特征表示。综合起来,VoxelNet的特征提取网络通过VFE模块将稀疏的点云数据编码为密集的体素特征表示,并通过VSA模块对体素特征进行进一步的抽象和聚合,得到点云数据的高层次语义特征表示,这些特征表示可以用于后续的目标检测任务。
图像分支:采用基于Swin-Transformer的特征提取网络对所述预处理后的多个视角图像数据分别进行特征提取,以对应得到多个视角图像特征,随后通过FPN网络(FeaturePyramid Network)聚合多个视角图像特征,得到包含丰富语义信息的融合图像特征,最后采用LSS算法(Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs byImplicitly Unprojecting to 3D)进行特征投影以得到BEV空间下的图像特征;
将所述BEV空间下的点云特征和所述BEV空间下的图像特征进行拼接、卷积操作,以得到BEV空间下的融合特征,然后将所述BEV空间下的融合特征送入3D检测头进行障碍物检测,以得到障碍物检测结果。
在本发明实施例中,所述障碍物检测结果包括障碍物的位置、速度和包围框信息。
在本发明实施例中,在多传感器融合检测算法的训练阶段采用跨模态监督学习,分别利用点云数据以及点云数据提取到的特征提高网络的检测能力。如图3所示,所述多传感器融合检测算法的训练过程包括:
首先将所述完整点云数据分别投影到所述预处理后的各个视角图像数据上,得到各个视角图像中每个像素的深度信息,该深度信息作为图像分支中LSS算法中的深度预测网络的训练真值;
然后采用特征蒸馏的方法,利用点云分支中提取的所述BEV空间下的点云特征来提高图像分支中编码图像几何结构特征的能力。
步骤S3:完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪;
优选地,所述完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪,还包括:
匈牙利匹配算法,也称为KM算法(Kuhn-Munkres算法),是一种常用于多目标跟踪的匹配算法。其主要目标是在给定一组检测到的目标和一组跟踪的目标之间建立最优的一对一匹配,使得总的匹配成本最小化。匈牙利匹配算法的基本步骤如下:
1. 创建成本矩阵:将检测到的目标和跟踪的目标之间的关联转化为一个成本矩阵,其中每个元素表示两个目标之间的匹配成本。成本可以基于目标之间的距离、外观特征差异等进行定义。
2. 初始化匹配:对成本矩阵进行初始化,使得每个检测到的目标都与一个跟踪的目标进行匹配。
3. 进行优化:通过迭代的方式,尝试不断优化匹配结果以减小总的匹配成本。迭代过程中,通过修改成本矩阵中的元素值和调整匹配关系来达到优化的目标。
4. 判断终止条件:在迭代过程中,根据特定的终止条件判断是否达到了最优的匹配结果。常见的终止条件可以是匹配成本不再变化或达到了最大迭代次数等。
5. 输出匹配结果:根据最终的匹配结果,确定每个检测到的目标与其对应的跟踪目标之间的匹配关系,即实现多目标的跟踪。
匈牙利匹配算法的优势在于能够在时间复杂度为O(n^3) 的情况下找到最优的匹配结果。它通过动态规划的思想,通过不断调整匹配关系来求解最小化总匹配成本的问题。因此,匈牙利匹配算法在多目标跟踪任务中得到广泛应用,特别是在目标关联和数据关联的问题上具有良好的效果。
所述GNN算法(Graph Neural Network)是一种基于图神经网络的目标跟踪方法,它将目标跟踪问题建模为一个图结构,其中目标和周围的上下文信息被表示为图中的节点和边。通过对图结构进行学习和推理,GNN能够捕捉目标之间的关系和上下文信息,从而实现准确的目标跟踪。在 GNN 跟踪中,每个目标被表示为一个节点,并使用特征向量来描述目标的外观和运动特征。同时,周围的目标和环境信息也被表示为图中的其他节点。通过在图中传递信息和更新节点的特征表示,GNN能够融合目标的外观、运动和上下文信息,实现目标的跟踪和预测。GNN跟踪方法通常包括以下步骤:
(1)图构建:将目标和周围的上下文信息组成图结构,目标作为节点,上下文信息作为边;
(2)特征表示:为每个节点(目标和上下文信息)分配特征向量,包括目标的外观和运动特征;
(3)图传播:使用GNN模型在图中传递信息,更新节点的特征表示;
(4)目标跟踪:通过节点的特征表示进行目标的跟踪和预测,如目标位置、速度等;
GNN 跟踪方法具有较强的建模能力和上下文感知能力,能够捕捉目标之间的关系和环境信息,从而在复杂场景下实现准确的目标跟踪。
步骤S4:输出前景障碍物的跟踪结果和背景障碍物的跟踪结果。其中,将输出的障碍物跟踪结果发布到指定通道,由下游模块接收。
在本发明实施例中,所述基于Swin-Transformer的特征提取网络是一种基于Transformer架构的图像分类模型,它在图像分类任务中取得了优秀的性能。相比传统的基于卷积神经网络(CNN)的模型,Swin-Transformer 采用了不同的方式来处理图像信息,利用了 Transformer 中的注意力机制来捕捉全局上下文信息。Swin-Transformer 的主要特点包括以下几个方面:
1. 分层结构:Swin-Transformer 使用了分层结构,将输入图像分解成不同的分辨率层级,从而捕捉到不同尺度上的特征。这种分层结构使得模型能够更好地处理不同尺度的物体和场景;
2. 注意力机制:Swin-Transformer 使用了自注意力机制(Self-Attention),使得模型能够对输入图像中的不同区域进行全局的上下文关联。这有助于模型捕捉图像中的长程依赖关系,提高特征表示的能力;
3. 窗口化机制:为了处理大尺寸图像,Swin-Transformer 引入了窗口化机制,将图像分割成固定大小的图块,然后在这些图块上进行自注意力计算。通过窗口化,Swin-Transformer 在处理大尺寸图像时能够降低计算和内存的复杂度;
4. 深度和宽度:Swin-Transformer 具有相对较深和相对较宽的网络结构,通过增加层数和通道数,提高了模型的表达能力和学习能力;
5. 预训练和微调:Swin-Transformer 在大规模数据集上进行预训练,利用无监督的方法学习图像表示。然后,通过微调的方式在特定任务上进行训练,进一步提升模型的性能和泛化能力;
Swin-Transformer 在多个图像分类任务上表现出色,相较于传统的卷积神经网络,它能够更好地捕捉全局上下文信息,并具有更强的特征表达能力。
在本发明实施例中,所述FPN网络是一种用于目标检测的深度学习网络架构,它旨在解决在不同尺度下检测目标时的特征表达不足的问题。传统的深度卷积神经网络(CNN)在高层特征图上具有较强的语义信息,但在低层特征图上有更好的位置信息和细节信息。FPN的主要目标是融合这些不同层级的特征图,以实现同时具有高语义信息和准确位置信息的特征表示。FPN的核心思想是通过建立特征金字塔来融合不同尺度的特征图。通过自顶向下和自底向上的路径来实现特征的跨层级传递和融合;具体而言,FPN从高层特征图开始,通过上采样操作(如插值或反卷积)将特征图的分辨率增加到与较低层特征图相同。然后,它将高层特征图与相应的低层特征图进行逐元素相加,得到融合后的特征图。这样一来,FPN能够保留高层特征图的语义信息,并将低层特征图的细节信息与之结合,从而在多个尺度上获得丰富的特征表示。
在本发明实施例中,所述LSS算法是一种用于从任意相机配置中编码图像的方法,通过隐式反投影到3D空间来实现,该算法的目标是将从多个相机捕获的图像数据编码为3D场景表示,以便在后续的计算机视觉任务中使用。LSS算法的核心思想是将相机图像信息转化为3D点云表示,然后利用点云进行进一步的处理和分析。LSS算法包含三个主要步骤,分别是Lift(抬升)、Splat(投射)和Shoot(射击)。
在Lift阶段,LSS算法首先对每个相机图像中的每个像素点进行语义特征提取和深度预测,并用预测的深度信息加权像素的语义特征,这样可以得到获得了每个2D像素点在3D空间中的特征。
在Splat阶段,通过像素的2D坐标值和深度值,以及相机的内参和外参,可以计算出像素在车身坐标系中的3D坐标,进而可以将每个点分配到对应的体柱中,然后对体柱中的所有点进行求和池化,就能得到BEV空间中特征。该特征可用于神经网络进行障碍物检测。
Shoot阶段本发明未使用。
LSS算法能够从任意相机配置中编码图像,并生成对应的3D场景表示。这种3D场景表示可以用于各种计算机视觉任务,例如目标检测、语义分割、三维重建等。LSS算法的优势在于可以处理不同相机配置和视角之间的信息融合,并且能够提供更丰富和准确的场景表示。
在本发明实施例中,为应对卡车自动驾驶感知方面的难题,出现了在BEV(Bird’sEye View,鸟瞰图视角)空间下进行多模态数据融合的方案。该实现方案在车身上安装了各种不同的传感器,例如包括支持多个不同视角的相机、激光雷达和毫米波雷达等,还可以包括拾音器。主车上的传感器用于获取主车周围的多视角图像、雷达点云信息和语音信号等。路侧设备可以包括安装在路口或路边的相机、激光雷达和毫米波雷达等不同种类的传感器,通常用于采集路口等道路上固定范围内的信息。主车与路侧设备从不同的视角对道路周围环境、车辆和行人等情况进行观测,获取到不同模态的信息,这些信息分别进行特征提取,由于不同模态数据所在的特征空间差异较大,因此,需要建立一个统一的全局3D表征空间实现特征的融合。全局3D空间例如可以是主车的BEV空间,该鸟瞰图BEV空间是指以主车为坐标系原点,主车的前进方向为Y轴,与Y轴垂直的方向为X轴,从上往下看到的用于描述主车的感知世界的视角。通过BEV等全局3D空间,可以在一个统一的表示下很容易地融合来自不同模态的特征,从相机和激光雷达等不同传感器的多模态输入信息中学习强大且有一致性的特征表示,为接下来的感知提供有力的特征数据支持。在将各模态特征分别映射到全局3D空间得到各模态全局特征后,即可基于多模态融合特征实现自动驾驶感知。例如,在融合特征后接不同的预测头,就可以对不同的感知场景进行预测,包括动态障碍物检测(预测障碍物的3D包围框和位置定位)、道路静态结构分割(预测车道线的分割)等3D感知。
本发明的目的是为重型卡车的自动驾驶提供一种更精确、高效的自动驾驶感知方法,点云数据包含更多的几何特征以及深度信息,图像数据包含更多的色彩、纹理等语义信息,通过跨模态监督学习的方法,利用点云数据包含的深度信息和点云分支更强的几何结构特征编码能力来分别提升图像分支深度预测网络的准确性和特征提取网络编码几何结构特征的能力,可以在统一的BEV空间下充分地进行特征融合,该方案可以有效解决重型卡车在自动驾驶感知中的一些问题,实现卡车周围环境的充分感知、感知速度与准确性的平衡以及较强的环境变化适应性和鲁棒性。
本发明提供的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,通过跨模态监督学习多传感器融合检测算法,充分考虑相机、激光雷达数据的特点进行特征融合,以扩展感知范围、提高检测准确性和鲁棒性,从而更好地解决重型卡车自动驾驶应用中的环境感知问题。通过跨模态监督学习训练图像分支,实现将不同传感器数据的充分融合,并结合先进的感知算法,本发明能够对卡车周围环境的全方位、高精度感知,为卡车自动驾驶系统提供可靠的障碍物检测能力。
首先,本发明在重型卡车上集成了多个传感器,包含8个相机和4个激光雷达,分别采用标定算法CRLF和CROON进行了标定,实现了对卡车行驶区域、车身盲区的数据获取,为感知模块提供了可靠的数据来源。其次,本发明在障碍物检测阶段,采用BEV视角下的跨模态监督学习多传感器融合检测算法,通过在BEV空间融合激光雷达和相机传感器的数据进行检测,可以提升感知结果的准确性和鲁棒性,使得卡车在自动驾驶时能够更全面、更准确的理解和感知道路环境,使其可以适应恶劣的天气和复杂的驾驶场景,即使受到外部因素干扰,也能精确识别、定位其他车辆、行人、道路标志等障碍物。
综上所述,本发明通过多传感器集成、跨模态监督学习多传感器融合检测算法、标定算法以及跟踪算法等的应用,实现卡车周围环境的充分感知、感知速度与准确性的平衡以及较强的环境变化适应性和鲁棒性。这些优点使得本发明在重型卡车的自动驾驶应用中能够更好地应对各种复杂的道路环境和障碍物情况,提高驾驶的安全性和效果。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述跨模态监督学习下多传感器融合检测的卡车智驾感知方法包括:
步骤S1:通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据;
步骤S2:将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测;
步骤S3:完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪;
步骤S4:输出前景障碍物的跟踪结果和背景障碍物的跟踪结果。
2.根据权利要求1所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述通过相机传感器获取自车周围的图像数据,以及通过激光雷达传感器获取自车周围的点云数据,还包括:
通过8个相机传感器获取自车周围的图像数据,以及通过4个激光雷达传感器获取自车周围的点云数据;其中,4个激光雷达传感器分为1个主激光雷达传感器和3个补盲激光雷达传感器,主激光雷达传感器安装在卡车驾驶室顶部前端,用于获取卡车行驶路线前方、两侧较远距离的点云数据,3个补盲激光雷达传感器分别位于卡车车头两侧以及卡车车尾顶端,用于获取卡车两侧盲区、车尾较远距离的点云数据;2个相机传感器安装在卡车驾驶室顶部前端的主激光雷达传感器下,上下排列,一颗朝向卡车前方,用于获取卡车行驶路线前方较远距离的图像数据,另一颗角度向下,用于获取卡车前方盲区的图像数据;2个相机传感器安装在卡车车尾顶部,左右排列,功能与驾驶室顶部前端的2个相机传感器相同;2个相机传感器分别安装在卡车车头两侧,2个相机传感器分别安装在卡车车尾两侧,8个相机实现对卡车周围360度范围内的监控;
通过CROON算法将3个补盲激光雷达传感器坐标系分别标定到主激光雷达传感器坐标系下,通过CRLF算法将8个相机传感器坐标系分别标定到所述主激光雷达传感器坐标系下;
通过标定结果,对多个激光雷达传感器采集的自车周围点云数据进行拼接,以得到完整点云数据;对多个相机传感器采集的自车周围图像数据进行图像预处理,以得到预处理后的多个视角图像数据。
3.根据权利要求2所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述将所述自车周围的图像数据和所述自车周围的点云数据采用多传感器融合检测算法进行特征融合,根据特征融合结果对自车周围的障碍物进行检测,还包括:
点云分支:采用基于VoxelNet的特征提取网络对所述完整点云数据进行特征提取,以得到BEV空间下的点云特征;
图像分支:采用基于Swin-Transformer的特征提取网络对所述预处理后的多个视角图像数据分别进行特征提取,以对应得到多个视角图像特征,随后通过FPN网络聚合多个视角图像特征,得到包含丰富语义信息的融合图像特征,最后采用LSS算法进行特征投影以得到BEV空间下的图像特征;
将所述BEV空间下的点云特征和所述BEV空间下的图像特征进行拼接、卷积操作,以得到BEV空间下的融合特征,然后将所述BEV空间下的融合特征送入3D检测头进行障碍物检测,以得到障碍物检测结果。
4.根据权利要求3所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述障碍物检测结果包括障碍物的位置、速度和包围框信息。
5.根据权利要求3所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述多传感器融合检测算法的训练过程包括:
首先将所述完整点云数据分别投影到所述预处理后的各个视角图像数据上,得到各个视角图像中每个像素的深度信息,该深度信息作为图像分支中LSS算法中的深度预测网络的训练真值;
然后采用特征蒸馏的方法,利用点云分支中提取的所述BEV空间下的点云特征来提高图像分支中编码图像几何结构特征的能力。
6.根据权利要求3所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述基于Swin-Transformer的特征提取网络是一种基于 Transformer架构的图像分类模型,使用分层结构,将输入图像分解成不同的分辨率层级,从而捕捉到不同尺度上的特征;使用了自注意力机制,使得模型能够对输入图像中的不同区域进行全局的上下文关联;引入了窗口化机制,将图像分割成固定大小的图块,然后在这些图块上进行自注意力计算;在大规模数据集上进行预训练,利用无监督的方法学习图像表示,然后,通过微调的方式在特定任务上进行训练。
7.根据权利要求3所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述FPN网络是一种用于目标检测的深度学习网络架构,通过自顶向下和自底向上的路径来实现特征的跨层级传递和融合;
其中,FPN网络从高层特征图开始,通过上采样操作将特征图的分辨率增加到与低层特征图相同;然后,将高层特征图与相应的低层特征图进行逐元素相加,得到融合后的特征图。
8.根据权利要求3所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述LSS算法是一种用于从任意相机配置中编码图像的方法,通过隐式反投影到3D空间来实现,将相机图像信息转化为3D点云表示;LSS算法包含抬升Lift和投射Splat两个阶段;
在抬升Lift阶段,首先对每个相机图像中的每个像素点进行语义特征提取和深度预测,并用预测的深度信息加权像素的语义特征,得到每个2D像素点在3D空间中的特征;
在投射Splat阶段,通过像素的2D坐标值和深度值,以及相机的内参和外参,计算出像素在车身坐标系中的3D坐标,进而将每个点分配到对应的体柱中,然后对体柱中的所有点进行求和池化,得到BEV空间下的图像特征。
9.根据权利要求1所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪,还包括:
所述匈牙利匹配算法是一种多目标跟踪的匹配算法,包括以下步骤:
(1)创建成本矩阵:将检测到的目标和跟踪的目标之间的关联转化为一个成本矩阵,其中每个元素表示两个目标之间的匹配成本;
(2)初始化匹配:对成本矩阵进行初始化,使得每个检测到的目标都与一个跟踪的目标进行匹配;
(3)进行优化:通过修改成本矩阵中的元素值和调整匹配关系来达到优化的目标;
(4)判断终止条件:在迭代过程中,根据特定的终止条件判断是否达到了最优的匹配结果;
(5)输出匹配结果:根据最终的匹配结果,确定每个检测到的目标与其对应的跟踪目标之间的匹配关系,即实现多目标的跟踪。
10.根据权利要求1所述的跨模态监督学习下多传感器融合检测的卡车智驾感知方法,其特征在于,所述完成障碍物检测后,采用匈牙利匹配算法进行前景障碍物的跟踪,以及采用GNN算法进行背景障碍物的跟踪,还包括:
所述GNN算法是一种基于图神经网络的目标跟踪方法,包括以下步骤:
(1)图构建:将目标和周围的上下文信息组成图结构,目标作为节点,上下文信息作为边;
(2)特征表示:为每个节点分配特征向量,包括目标的外观和运动特征;
(3)图传播:使用GNN模型在图中传递信息,更新节点的特征表示;
(4)目标跟踪:通过节点的特征表示进行目标的跟踪和预测。
CN202311207792.5A 2023-09-19 2023-09-19 跨模态监督学习下多传感器融合检测的卡车智驾感知方法 Pending CN117237919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311207792.5A CN117237919A (zh) 2023-09-19 2023-09-19 跨模态监督学习下多传感器融合检测的卡车智驾感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311207792.5A CN117237919A (zh) 2023-09-19 2023-09-19 跨模态监督学习下多传感器融合检测的卡车智驾感知方法

Publications (1)

Publication Number Publication Date
CN117237919A true CN117237919A (zh) 2023-12-15

Family

ID=89081997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311207792.5A Pending CN117237919A (zh) 2023-09-19 2023-09-19 跨模态监督学习下多传感器融合检测的卡车智驾感知方法

Country Status (1)

Country Link
CN (1) CN117237919A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117492452A (zh) * 2024-01-03 2024-02-02 安徽中科星驰自动驾驶技术有限公司 一种用于自动驾驶3d障碍物的多模态融合方法
CN117953459A (zh) * 2024-03-25 2024-04-30 安徽蔚来智驾科技有限公司 感知融合结果获取方法、可读存储介质及智能设备
CN118015286A (zh) * 2024-04-09 2024-05-10 杭州像素元科技有限公司 通过背景分割进行收费站车道通行状态检测的方法及装置
CN117953459B (zh) * 2024-03-25 2024-06-21 安徽蔚来智驾科技有限公司 感知融合结果获取方法、可读存储介质及智能设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117492452A (zh) * 2024-01-03 2024-02-02 安徽中科星驰自动驾驶技术有限公司 一种用于自动驾驶3d障碍物的多模态融合方法
CN117492452B (zh) * 2024-01-03 2024-04-05 安徽中科星驰自动驾驶技术有限公司 一种用于自动驾驶3d障碍物的多模态融合方法
CN117953459A (zh) * 2024-03-25 2024-04-30 安徽蔚来智驾科技有限公司 感知融合结果获取方法、可读存储介质及智能设备
CN117953459B (zh) * 2024-03-25 2024-06-21 安徽蔚来智驾科技有限公司 感知融合结果获取方法、可读存储介质及智能设备
CN118015286A (zh) * 2024-04-09 2024-05-10 杭州像素元科技有限公司 通过背景分割进行收费站车道通行状态检测的方法及装置
CN118015286B (zh) * 2024-04-09 2024-06-11 杭州像素元科技有限公司 通过背景分割进行收费站车道通行状态检测的方法及装置

Similar Documents

Publication Publication Date Title
US10817731B2 (en) Image-based pedestrian detection
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
CN114842438B (zh) 用于自动驾驶汽车的地形检测方法、系统及可读存储介质
CN112184589B (zh) 一种基于语义分割的点云强度补全方法及系统
US20180188733A1 (en) Multi-channel sensor simulation for autonomous control systems
CN111626217A (zh) 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN110648389A (zh) 基于无人机和边缘车辆协同的城市街景3d重建方法和系统
CN116685873A (zh) 一种面向车路协同的感知信息融合表征及目标检测方法
CN117237919A (zh) 跨模态监督学习下多传感器融合检测的卡车智驾感知方法
US20230213643A1 (en) Camera-radar sensor fusion using local attention mechanism
CN111967373B (zh) 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法
US11798289B2 (en) Streaming object detection and segmentation with polar pillars
CN114821507A (zh) 一种用于自动驾驶的多传感器融合车路协同感知方法
CN113095154A (zh) 基于毫米波雷达与单目相机的三维目标检测系统及方法
US20230049383A1 (en) Systems and methods for determining road traversability using real time data and a trained model
Ouyang et al. A cgans-based scene reconstruction model using lidar point cloud
Berrio et al. Fusing lidar and semantic image information in octree maps
CN117315424A (zh) 多源融合的鸟瞰图感知目标检测方法、装置、设备及介质
US20220371606A1 (en) Streaming object detection and segmentation with polar pillars
Forkel et al. Dynamic resolution terrain estimation for autonomous (dirt) road driving fusing lidar and vision
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法
CN112766100A (zh) 一种基于关键点的3d目标检测方法
Tang et al. Environmental perception for intelligent vehicles
Yang et al. Analysis of Model Optimization Strategies for a Low-Resolution Camera-Lidar Fusion Based Road Detection Network
US12020476B2 (en) Data synthesis for autonomous control systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination