CN117058646B - 基于多模态融合鸟瞰图的复杂道路目标检测方法 - Google Patents
基于多模态融合鸟瞰图的复杂道路目标检测方法 Download PDFInfo
- Publication number
- CN117058646B CN117058646B CN202311310813.6A CN202311310813A CN117058646B CN 117058646 B CN117058646 B CN 117058646B CN 202311310813 A CN202311310813 A CN 202311310813A CN 117058646 B CN117058646 B CN 117058646B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- feature
- vector
- image
- voxel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000000295 complement effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 20
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 19
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多模态融合鸟瞰图的复杂道路目标检测方法,从不同实际驾驶场景中获取多视角相机图像与激光雷达点云,分别对图像与点云进行特征提取,并映射为鸟瞰图空间中的稠密向量,获取图像与点云融合的热力图与点云特征向量,实现查询向量初始化,利用空间多通道注意力机制计算出查询向量与图像特征向量的相似性,并将相关性最强的位置的查询向量输入前馈神经网络,对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒;基于采集的数据集建立目标检测模型,对道路上的车辆进行检测。本发明能够有效利用多模态特征使各个传感器在检测任务中彼此互补,提高在复杂路况中的检测精度与鲁棒性。
Description
技术领域
本发明涉及目标检测技术,具体涉及一种基于多模态融合鸟瞰图的复杂道路目标检测方法。
背景技术
随着城市交通的不断发展和智能化水平的提升,车辆检测技术在智能交通系统中发挥着越来越重要的作用。车辆检测是指在交通场景中,利用计算机视觉技术自动识别和定位车辆的过程,是自动驾驶、交通监控、智能交通管理等领域的基础性任务之一。然而,由于现实交通场景的复杂性和多样性,传统的车辆检测方法面临着一系列挑战。
传统的车辆检测方法主要依赖于单一传感器数据,例如图像数据或点云数据。然而,单一传感器的数据存在着各自的局限性。图像数据在处理车辆遮挡、光照变化和天气影响等方面容易受到限制,而点云数据则难以处理细小车辆和车辆边界信息。因此,为了克服这些限制并提高车辆检测的准确性和鲁棒性,学术界和工业界开始探索将多传感器数据进行融合的方法。
在城市复杂路况中,车辆检测任务面临着多样化的场景,例如交通流量大、车辆多样性、遮挡等问题。目前,已有一些使用图像或点云数据进行车辆检测的方法,然而单模态的数据采集方式难以满足在复杂路况进行检测的需求。基于图像的检测方法对于遮挡和光照等因素较为敏感,而基于点云的方法则难以有效区分车辆与其他道路物体,且点云数据本身存在数据稀疏和噪声问题。
因此,如何充分融合图像和点云的信息,以提高车辆检测的准确性和鲁棒性,成为当前研究的热点和难点问题。目前已有相关技术方案,如下:
专利CN114155414A提出一种新型特征层数据融合的方法,该方法通过将激光雷达采集的点云投影到不同视图提取特征,结合相机图像的多尺度特征,叠加融合两类信息,同时,添加额外的点云和图像信息,最终将这些特征拼接融合。但是,该技术方案需要人工设置锚框尺寸与Iou阈值等参数辅助模型进行回归计算,同时引入大量人工先验知识,容易存在误差检测精度不高。
专利CN114663514B提出一种基于多模态稠密融合网络的物体6D姿态估计方法,该方法利用RGB图像和点云信息,通过卷积神经网络提取表面特征,并与物体几何特征进行局部模态融合;通过多层感知机融合全局模态,进而进行实例分割和关键点处理,得到目标关键点,将物体的RGB图像和点云输入网络进行训练,并在待测场景中输入以获得物体的6D姿态估计结果。
专利CN116486368A提出一种自动驾驶场景下的多模态融合三维目标鲁棒检测方法,步骤包括:获取点云和图像数据;点云经特征提取网络转换为鸟瞰图特征;图像数据提取多尺度特征;鸟瞰图特征送入检测模块得初步目标检测;点云和图像特征与初步检测结果输入交错融合模块,自适应融合特征并微调目标检测。
但是,上述现有技术方案所用于特征提取训练的模型对数据集的依赖性较高,若外界条件不存在与训练集中,则检测能力较弱,不适应复杂环境。
专利CN114782787A提出一种点云与图像数据特征融合方法和装置,该技术方案以点云和图像作为输入,基于鸟瞰提取特征生成特征张量,再与像素级语义识别处理生成的特征张量进行融合,得到融合特征张量。该技术方案再提取特征过程中其点柱分辨率较低,无法提供更多空间特征,进而使用检测精度大打折扣。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于多模态融合鸟瞰图的复杂道路目标检测方法,对齐不同传感器收集的异构型特征,并且能够有效利用多模态特征使各个传感器在检测任务中彼此互补,提高在复杂路况中的检测精度与鲁棒性。
技术方案:本发明的一种基于多模态融合鸟瞰图的复杂道路目标检测方法,包括以下步骤:
步骤S1,从不同场景的实际驾驶场景中获取多视角相机图像与激光雷达点云,并对收集到的图像与点云进行标注与划分;
步骤S2,对图像与点云进行特征提取,并映射为鸟瞰图空间中的稠密向量,获取图像与点云融合的热力图与点云特征向量,实现查询向量初始化,具体方法为;
步骤S2.1、利用Voxelnet网络对点云进行特征提取,得到点云鸟瞰图稠密向量;利用Swin transformer模块对图像进行特征提取,并通过lift and splat操作得到图像鸟瞰图稠密向量;
步骤S2.2、通过将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作,得到基于鸟瞰图的融合特征稠密向量,再将其输入神经网络层得到融合特征热力图;
步骤S2.3、根据融合特征热力图中每个像素点的置信度,排序出预选框类别索引与位置索引,根据位置索引匹配点云特征,并将其存储为查询向量,实现查询向量初始化;
步骤S3、利用空间多通道注意力机制计算出查询向量与图像特征向量的相似性,并将相关性最强的位置的查询向量输入前馈神经网络,对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒;
步骤S4、基于采集的数据集建立目标检测模型,对道路上的车辆进行检测。
进一步地,所述步骤S1包括以下具体步骤:
从车辆的正前方、左前方、右前方、左后方、正后方与右后方的相机获取多视角相机图像信息,从车辆顶部的激光雷达中获取点云信息。
通过标签工具labelimg对部分的图像与点云中的目标进行框选与定义,划分为训练集与验证集,剩余的图像与点云划分为测试集。
进一步地,所述步骤S2.1中Voxelnet网络提取点云特征的具体方法为:
步骤A)、将点云数据覆盖的三维空间范围剪裁为[X,Y,Z],设每个体素的大小分别为dx、dy和dz,基于这些参数构建出尺寸为H0=X/dx,W0=Y/dy,D0=Z/dz的体素网格;
步骤B)、在每个体素中随机采样n个点,体素中点的个数超过n则取n,不足则用0补全,使用随机采样可以减少计算量与采样偏差;
步骤C)、采样完成后对点云信息进行处理:由于每一个点云蕴含的信息为坐标x,y,z以及激光反射强度r,信息较为匮乏,先在体素特征编码层第一层拓展初始点云信息,通过对一个体素内采样的点云进行单元最大池化并且求差得到每个点云的偏差特征,然后用点云坐标与体素中心坐标求差得到距离特征,初始特征维度被拓展至10,但是依然无法满足检测需求,接着利用多层感知机(Multilayer Perceptron,MLP)将每个点的特征拓展至64维,通过单元最大池化获取体素的全局特征与每个点的局部特征进行拼接,每个点的特征被拓展至128维,最后通过最大池化得到体素特征,将N个非空体素堆叠在一起得到,最后的整体体素特征;
步骤D)、将特征进行你卷积与下采样操作得到稠密向量,点云数据的鸟瞰图稠密向量特征。
进一步地,所述步骤S2.2通过Swin transformer模块获取图像鸟瞰图稠密向量以及融合特征热力图的具体方法为:
首先,将图像输入补丁分区层划分成16个补丁,每个补丁的宽高减少为原来图像的1/4,堆叠补丁使维度由3变为48;
然后,将堆叠后的补丁送入线性嵌入层,后续再经过四个阶段的补丁合并与SwinTransformer区块(对图像进行下采样,用于缩小分辨率,调整通道数进而形成层次化的设计),在补丁合并的过程中逐步提高特征提取的感受野,在由窗口自注意力机制与滑动窗口自注意力机制组成的Swin Transformer区块中,可使窗口之间的特征产生交互,使需要被提取的特征,能够借助周围特征提升自身分类能力;
最后,形成经过堆叠的Swin Transformer区块,将提取后的多视角图像特征通过lift and splat操作,生成伪深度并映射至鸟瞰图,得到图像鸟瞰图稠密向量,将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作,得到基于鸟瞰图的融合特征稠密向量,再将其输入神经网络层得到融合特征热力图。
进一步地,所述步骤S3计算由步骤2.3中初始化后的查询向量与图像鸟瞰图稠密向量的相似性时,先将查询向量的位置与对应图像特征的位置进行匹配,再将查询向量与图像特征向量输入空间多通道多头注意力机制的解码层,根据查询向量与图像特征的相关性,不断迭代更新查询向量。
进一步地,所述步骤S3将相关性最强的位置的查询向量输入前馈神经网络后,由于初始化的预测边界框数量通常大于原始数据集中标注的真实边界框数量,那么真实边界框选择哪一个预测边界框进行损失计算成为一个问题;本发明通过匈牙利算法对预测边界框分配最优的真实边界框:
记一系列真实目标边界框的标签为,/>为N个预测边界框参数,这两个集合中的最低成本二部匹配的最优分配可以定义为:
(1)
其中是真实值/>与预测值/>的匹配成本,匹配成本需要考虑到预测框与真实框的相似性,令真实框中的每一个框和所有预测框进行匹配成本计算,计算公式为:
(2)
其中为目标类标签,/>的概率为/>,预测框为/>;
通过计算目标类是真实类的概率,与预测框距真实框的位置偏差与尺寸偏差,得出匹配成本最小的预测框为该真实框的最佳匹配框,当所有真实框遍历完毕后,得到所有最佳匹配框;匹配完所有的预测框与真实框后,需要计算所有配对的匈牙利损失,与常规目标检测算法损失的定义类似,为分类损失、回归损失与IoU损失的线性组合,公式为:
(3)
其中用Focalloss计算分类损失,用L1损失计算回归损失,用广义的IoU损失计算IoU损失;λ1、λ2、λ3是单个损失项的系数。
进一步地,步骤S4建立目标检测模型包括以下具体步骤:
步骤S4.1、对训练数据集进行mosaic数据增强、随机翻转、遮挡处理
步骤S4.2、选定深度学习预训练模型,采用随机梯度下降法进行训练,学习率为0.00005,指数衰减因子为0.8,epoch设为10,batch-size设为4,完成模型训练得到检测模型。
有益效果:与现有技术不同,本发明具有优点:
(1)本发明充分融合了图像和点云数据的信息,克服了传统单模态检测方法在复杂路况下特征利用的局限性,不需要人工设置锚框尺寸与Iou阈值等参数辅助模型进行回归计算,免去人工先验知识的介入,更接近于端到端的检测。
(2)本发明通过利用swin transformer作为图像特征提取骨干网络,有效提高了对高分辨率大图像的特征利用,并且基于Swin-transfomer进行特征提取使得训练完成的模型迁移能力较强,其次在提取的特征方面,通过切片补丁操作能有效提取长距离特征,不同于卷积核的滑动窗口仅能建立相邻区块的特征关联,因此使用该网络有助于使模型适应复杂环境。
(3)、本发明通过利用VoxelNet作为点云特征提取骨干网络,有效提高了对于点云局部与全局特征的提取,将点云特征提取网络由PillarNet换为VoxelNet,基于体素的特征提取方式相较于点柱分辨率更高,能有效提供更多空间特征提高检测精度
(4)本发明引入的注意力机制使得车辆检测方法更具鲁棒性,能够有效应对遮挡、光照等干扰因素。
(5)本发明还提出一种特殊的基于图像引导的查询向量初始化方式,实现了自适应特征融合,根据具体情况动态调整图像和点云的权重,提升了车辆检测的灵活性和精确性。
附图说明
图1是本发明的整体检测流程图;
图2是本发明的检测模型图;
图3是本发明的点云特征提取流程图;
图4是本发明一实施例中的点云特征图;
图5是本发明图像特征提取流程图;
图6是本发明一实施例的图像特征图;
图7是本发明实施例中检测方法的检测结果图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1和图2所示,本发明的基于多模态融合鸟瞰图的复杂道路目标检测方法,包括以下步骤:
步骤S1,从不同实际驾驶场景中获取多视角相机图像与激光雷达点云,并对收集到的图像与点云进行标注与划分;
步骤S2,分别对图像与点云进行特征提取,并映射为鸟瞰图空间中的稠密向量,获取图像与点云融合的热力图与点云特征向量,实现查询向量初始化,具体方法为;
步骤S2.1、利用Voxelnet网络对点云进行特征提取,得到点云鸟瞰图稠密向量;利用Swin transformer模块对图像进行特征提取,并通过lift and splat操作得到图像鸟瞰图稠密向量;
步骤S2.2、通过将点云鸟瞰图俯视图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作,得到基于鸟瞰图的融合特征稠密向量,再将其输入神经网络层得到融合特征热力图;
步骤S2.3、根据融合特征热力图中每个像素点的置信度,排序出预选框类别索引与位置索引,根据位置索引匹配点云特征,并将其存储为查询向量,实现查询向量初始化;
步骤S3、首先将查询向量的位置与对应图像特征的位置进行匹配,再将查询向量与图像特征向量输入空间多通道多头注意力机制的解码层,计算查询向量与图像特征的相关性,并将相关性最强的位置的查询向量输入前馈神经网络,对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒;
步骤S4、基于采集的数据集建立目标检测模型,对道路上的车辆进行检测。
如图3所示,本实施例步骤S2.1中Voxelnet网络提取点云特征的具体方法为:
步骤A)、将点云数据覆盖的三维空间范围剪裁为[X,Y,Z],设每个体素的大小分别为dx、dy和dz,构建尺寸为H0=X/dx,W0=Y/dy,D0=Z/dz的体素网格;
步骤B)、对体素网格的每个体素进行随机采样n个点,体素中点的个数超过n则取n,不足则用0补全;
步骤C)、采样完成后对点云信息进行处理:先在体素特征体素特征编码层第一层拓展初始点云信息,通过对一个体素内采样的点云进行单元最大池化并且求差得到每个点云的偏差特征,然后用点云坐标与体素中心坐标求差得到距离特征,初始特征维度被拓展至10,接着利用多层感知机MLP将每个点的特征拓展至64维,通过单元最大池化获取体素的全局特征与每个点的局部特征进行拼接,每个点的特征被拓展至128维,最后通过最大池化得到体素特征,将N个非空体素堆叠在一起得到,最后的整体体素特征;
步骤D)、将特征进行卷积与下采样操作得到稠密向量,进而得到点云数据的点云鸟瞰图稠密向量,提取效果如图4所示。
如图5所示,本实施例步骤S2.1中Swin transformer模块对图像进行特征提取的具体方法为:
首先,将图像输入补丁分区层划分成16个补丁,每个补丁的宽高减少为原来图像的1/4,堆叠补丁使维度由3变为48;
然后,将堆叠后的补丁送入线性嵌入层,后续每个阶段开始均经过补丁合并;
最后,形成经过堆叠的Swin Transformer区块,将提取后的特征输入神经网络层,得到热力图,如图6所示。
本实施例通过匈牙利算法对预测边界框分配最优的真实边界框:
记一系列真实目标边界框的标签为,/>为N个预测边界框参数,这两个集合中的最低成本二部匹配的最优分配可以定义为:
(1)
其中是真实值/>与预测值/>的匹配成本,匹配成本需要考虑到预测框与真实框的相似性,令真实框中的每一个框和所有预测框进行匹配成本计算,计算公式为:
(2)
其中为目标类标签,/>的概率为/>,预测框为/>;
通过计算目标类是真实类的概率,与预测框距真实框的位置偏差与尺寸偏差,得出匹配成本最小的预测框为该真实框的最佳匹配框,当所有真实框遍历完毕后,得到所有最佳匹配框;
匹配完所有的预测框与真实框后,计算所有配对的匈牙利损失,与常规目标检测算法损失的定义类似,为分类损失、回归损失与IoU损失的线性组合,公式为:
(3)
其中用Focalloss计算分类损失,用L1损失计算回归损失,用广义的IoU损失计算IoU损失;λ1、λ2、λ3是单个损失项的系数。
实施例:
表1为本发明与现有前沿目标检测方法在公开数据集nuScenes上进行实验的指标对比。使用检测任务中常用的平均精度均值(mAP)来作为评定模型性能的指标,不过在nuScenes数据集中AP指标是通过对地面上的2D中心距离d来取阈值而非IOU,这样做不仅降低了物体尺寸和方向对AP计算的影响,还可以检测较小的平移误差,其次删除召回率或准确率在10%以下的操作点,减少低精度与误检区域的噪声影响。最终对米的匹配阈值和类别集合C进行平均运算。计算公式为:
(6)
nuScenes还提出一个综合指标,即nuScenes检测分数(NDS),该指标使用正样本(TP)指标计算得出。由平均精度均值(mAP)、平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)组成,计算公式为:
(7)
(8)
表1 本发明与现存算法指标对比
在nuScenes数据集中的检测结果如图7所示,其中第一排图片从左至右为正前方,右前方与左前方相机采集到的图像,第二排图片从左至右为正后方,左后方与右后方相机采集到的图像,由图像中的检测效果来看,本发明在低能见度与有遮挡的情况下仍可以有效辨别出行人,对于复杂路况的分类与位置判断都较为准确。
Claims (6)
1.一种基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,包括以下步骤:
步骤S1,从不同实际驾驶场景中获取多视角相机图像与激光雷达点云,并对收集到的图像与点云进行标注与划分;
步骤S2,分别对图像与点云进行特征提取,并映射为鸟瞰图空间中的稠密向量,获取图像与点云融合的热力图与点云特征向量,将空间信息和像素信息融合,实现查询向量初始化,具体方法为;
步骤S2.1、利用Voxelnet网络对点云进行特征提取,得到点云鸟瞰图稠密向量;利用Swin transformer模块对图像进行特征提取,并通过lift and splat操作得到图像鸟瞰图稠密向量;
步骤S2.2、通过将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作,得到基于鸟瞰图的融合特征稠密向量,再将其输入神经网络层得到融合特征热力图;具体方法为:
首先,将图像输入补丁分区层划分成16个补丁,每个补丁的宽高减少为原来图像的1/4,堆叠补丁使维度由3变为48;
然后,将堆叠后的补丁送入线性嵌入层,后续再经过四个阶段的补丁合并与SwinTransformer区块,补丁合并过程中逐步提高特征提取的感受野;在由窗口自注意力机制与滑动窗口自注意力机制组成的Swin Transformer区块中,窗口之间的特征产生交互;
最后,形成经过堆叠的Swin Transformer区块,将提取后的多视角图像特征通过liftand splat操作,生成伪深度并映射至鸟瞰图,得到图像鸟瞰图稠密向量,将点云鸟瞰图稠密向量与图像鸟瞰图稠密向量用sigmoid函数激活并进行Concat操作,得到基于鸟瞰图的融合特征稠密向量,再将其输入神经网络层得到融合特征热力图,神经网络层为特征热力图的每个像素点上分配一个权重;
步骤S2.3、根据融合特征热力图中每个像素点的置信度,排序出预选框类别索引与位置索引,根据位置索引匹配点云特征,并将其存储为查询向量,实现查询向量初始化;
步骤S3、利用空间多通道注意力机制计算出查询向量与图像特征向量的相似性,并将相关性最强的位置的查询向量输入前馈神经网络,对目标的中心坐标、三维尺寸与偏航角进行预测形成包围盒;
步骤S4、基于采集的数据集建立目标检测模型,对道路上的车辆进行检测。
2.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,所述步骤S1包括以下具体步骤:
从车辆的正前方、左前方、右前方、左后方、正后方与右后方的相机获取多视角相机图像,从车辆顶部的激光雷达中获取点云信息;通过标签工具labelimg对部分的图像与点云中的目标进行框选与定义,划分为训练集与验证集,剩余的图像与点云划分为测试集。
3.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,所述步骤S2.1中Voxelnet网络提取点云特征的具体方法为:
步骤A)、将点云数据覆盖的三维空间范围剪裁为[X,Y,Z],设每个体素的大小分别为dx、dy和dz,构建尺寸为H0=X/dx,W0=Y/dy,D0=Z/dz的体素网格;
步骤B)、对体素网格的每个体素进行随机采样n个点,体素中点的个数超过n则取n,不足则用0补全;
步骤C)、采样完成后对体素特征进行处理:先在体素特征编码层第一层拓展初始点云信息,通过对一个体素内采样的点云进行单元最大池化并且求差得到每个点云的偏差特征,然后用点云坐标与体素中心坐标求差得到距离特征,初始特征维度被拓展至10,接着利用多层感知机MLP将每个点的特征拓展至64维,通过单元最大池化获取体素的全局特征与每个点的局部特征进行拼接,每个点的特征被拓展至128维,最后通过最大池化得到体素特征,将N个非空体素堆叠在一起得到,最后的整体体素特征;
步骤D)、将特征进行卷积与下采样操作得到稠密向量,进而得到点云数据的点云鸟瞰图稠密向量。
4.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,所述步骤S3计算由步骤2.3中初始化后的查询向量与图像鸟瞰图稠密向量的相似性时,先将查询向量的位置与对应图像特征的位置进行匹配,再将查询向量与图像特征向量输入空间多通道多头注意力机制的解码层,根据查询向量与图像特征的相关性,不断迭代更新查询向量。
5.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,所述步骤S3将相关性最强的位置的查询向量输入前馈神经网络后,通过匈牙利算法对预测边界框分配最优的真实边界框:
记一系列真实目标边界框的标签为y,为N个预测边界框参数,这两个集合中的最低成本二部匹配的最优分配可以定义为:
其中是真实值yi与预测值/>的匹配成本,匹配成本需要考虑到预测框与真实框的相似性,令真实框中的每一个框和所有预测框进行匹配成本计算,计算公式为:
其中ci为目标类标签,的概率为预测框为/>
通过计算目标类是真实类的概率,与预测框距真实框的位置偏差与尺寸偏差,得出匹配成本最小的预测框为该真实框的最佳匹配框,当所有真实框遍历完毕后,得到所有最佳匹配框;
匹配完所有的预测框与真实框后,计算所有配对的匈牙利损失,与常规目标检测算法损失的定义类似,为分类损失、回归损失与IoU损失的线性组合,公式为:
其中用Focalloss计算分类损失,用L1损失计算回归损失,用广义的IoU损失计算IoU损失;λ1、λ2、λ3是单个损失项的系数。
6.根据权利要求1所述的基于多模态融合鸟瞰图的复杂道路目标检测方法,其特征在于,步骤S4建立目标检测模型包括以下具体步骤:
步骤S4.1、对训练数据集进行mosaic数据增强、随机翻转、遮挡处理
步骤S4.2、选定深度学习预训练模型,采用随机梯度下降法进行训练,学习率为0.00005,指数衰减因子为0.8,epoch设为10,batch-size设为4,完成模型训练得到检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311310813.6A CN117058646B (zh) | 2023-10-11 | 2023-10-11 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311310813.6A CN117058646B (zh) | 2023-10-11 | 2023-10-11 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117058646A CN117058646A (zh) | 2023-11-14 |
CN117058646B true CN117058646B (zh) | 2024-02-27 |
Family
ID=88659425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311310813.6A Active CN117058646B (zh) | 2023-10-11 | 2023-10-11 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058646B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292338B (zh) * | 2023-11-27 | 2024-02-13 | 山东远东保险公估有限公司 | 基于视频流解析的车辆事故识别和分析方法 |
CN117315238B (zh) * | 2023-11-29 | 2024-03-15 | 福建理工大学 | 一种车辆目标检测的方法与终端 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408454A (zh) * | 2021-06-29 | 2021-09-17 | 上海高德威智能交通系统有限公司 | 一种交通目标检测方法、装置、电子设备及检测系统 |
CN115063768A (zh) * | 2022-07-11 | 2022-09-16 | 阿里巴巴达摩院(杭州)科技有限公司 | 三维目标检测方法、编码器及解码器 |
CN115512132A (zh) * | 2022-10-12 | 2022-12-23 | 吉林大学 | 基于点云数据与多视图图像数据融合的3d目标检测方法 |
CN115690549A (zh) * | 2022-11-12 | 2023-02-03 | 东南大学 | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 |
CN116188931A (zh) * | 2023-02-27 | 2023-05-30 | 苏州轻棹科技有限公司 | 一种基于融合特征进行点云目标检测的处理方法和装置 |
CN116486368A (zh) * | 2023-04-03 | 2023-07-25 | 浙江工业大学 | 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法 |
CN116664856A (zh) * | 2023-06-13 | 2023-08-29 | 苏州科技大学 | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 |
-
2023
- 2023-10-11 CN CN202311310813.6A patent/CN117058646B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408454A (zh) * | 2021-06-29 | 2021-09-17 | 上海高德威智能交通系统有限公司 | 一种交通目标检测方法、装置、电子设备及检测系统 |
CN115063768A (zh) * | 2022-07-11 | 2022-09-16 | 阿里巴巴达摩院(杭州)科技有限公司 | 三维目标检测方法、编码器及解码器 |
CN115512132A (zh) * | 2022-10-12 | 2022-12-23 | 吉林大学 | 基于点云数据与多视图图像数据融合的3d目标检测方法 |
CN115690549A (zh) * | 2022-11-12 | 2023-02-03 | 东南大学 | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 |
CN116188931A (zh) * | 2023-02-27 | 2023-05-30 | 苏州轻棹科技有限公司 | 一种基于融合特征进行点云目标检测的处理方法和装置 |
CN116486368A (zh) * | 2023-04-03 | 2023-07-25 | 浙江工业大学 | 基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法 |
CN116664856A (zh) * | 2023-06-13 | 2023-08-29 | 苏州科技大学 | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 |
Non-Patent Citations (6)
Title |
---|
Multi-View 3D Object Detection Network for Autonomous Driving;Xiaozhi Chen等;《arXiv:1611.07759v3》;20170622;1-9 * |
RaLiBEV: Radar and LiDAR BEV Fusion Learning for Anchor Box Free Object Detection Systems;Yanlong Yang等;《arXiv:2211.06108v3》;1-15 * |
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detectio;Yin Zhou等;《arXiv:1711.06396v1》;1-10 * |
基于特征融合的CenterNet小目标检测方法;琚长瑞等;《舰船电子工程》;20220420;第42卷(第04期);39-42+58 * |
基于红外可见光融合的低能见度道路目标检测算法;吴泽等;《红外技术》;第44卷(第11期);1154-1160 * |
注意力机制在点云和图像融合目标检测中的研究;张何晴;《万方数据知识服务平台》;正文第1章第1.2.3节、第2章第2.2.4节、第3章第3.2-3.5节、第4章第4.1-4.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN117058646A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210142095A1 (en) | Image disparity estimation | |
US10915793B2 (en) | Method and system for converting point cloud data for use with 2D convolutional neural networks | |
CN117058646B (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
CN111626217A (zh) | 一种基于二维图片和三维点云融合的目标检测和追踪方法 | |
KR102338665B1 (ko) | 의미론적 영상을 활용한 포인트 클라우드 분류 장치 및 방법 | |
CN112825192B (zh) | 基于机器学习的对象辨识系统及其方法 | |
CN111461221B (zh) | 一种面向自动驾驶的多源传感器融合目标检测方法和系统 | |
CN115049700A (zh) | 一种目标检测方法及装置 | |
CN113267761B (zh) | 激光雷达目标检测识别方法、系统及计算机可读存储介质 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
TWI745204B (zh) | 基於深度學習之高效率光達物件偵測方法 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
CN113095152A (zh) | 一种基于回归的车道线检测方法及系统 | |
CN113688738A (zh) | 一种基于激光雷达点云数据的目标识别系统及方法 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN110909656A (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
CN114463713A (zh) | 一种车辆在3d空间的信息检测方法、装置及电子设备 | |
Persson et al. | Automatic building detection from aerial images for mobile robot mapping | |
CN113281718A (zh) | 一种基于激光雷达场景流估计的3d多目标跟踪系统及方法 | |
CN117808689A (zh) | 基于毫米波雷达与摄像头融合的深度补全方法 | |
CN106650814B (zh) | 一种基于车载单目视觉室外道路自适应分类器生成方法 | |
US20240151855A1 (en) | Lidar-based object tracking | |
Amini et al. | New approach to road detection in challenging outdoor environment for autonomous vehicle | |
JP2023508276A (ja) | 多重解像度ボクセルにおける共分散を含むマップ | |
CN112766100A (zh) | 一种基于关键点的3d目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |