CN116246119A - 3d目标检测方法、电子设备及存储介质 - Google Patents
3d目标检测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116246119A CN116246119A CN202310079149.2A CN202310079149A CN116246119A CN 116246119 A CN116246119 A CN 116246119A CN 202310079149 A CN202310079149 A CN 202310079149A CN 116246119 A CN116246119 A CN 116246119A
- Authority
- CN
- China
- Prior art keywords
- voxel
- feature
- features
- local
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 230000004927 fusion Effects 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000006116 polymerization reaction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Abstract
本发明公开了一种3D目标检测方法、电子设备及存储介质,解决现有技术存在的检测准确性及实时性低的问题。所述3D目标检测方法包括:根据点云数据获取3D点云体素特征,根据图像数据获取3D图像体素特征;将3D点云体素特征和3D图像体素特征拼接,将拼接后的每个体素块输入特征融合模块进行局部特征信息融合,获得局部融合后体素特征;将局部融合后体素特征输入特征融合模块进行全局特征信息融合,获得全局融合后体素特征;利用局部融合后体素特征和全局融合后体素特征生成注意力掩码,利用注意力掩码对3D点云体素特征和3D图像体素特征进行特征增强,获得融合后特征;将融合后特征输入检测器中进行检测,输出3D目标检测结果。
Description
技术领域
本发明属于计算机视觉技术领域,具体地说,是涉及目标检测技术,更具体地说,是涉及3D目标检测方法、电子设备及存储介质。
背景技术
随着人工智能与深度学习技术的出现与快速发展,计算机视觉进入了“学习”阶段,数据的积累以及计算能力的提高给这种“学习”提供了实践的基本素材和可以高强度劳作的“体魄”。作为计算机视觉领域中重要的研究方向之一的目标检测已广泛应用于虚拟世界与现实世界的交互、无人驾驶、智能感知、机器人定位等产业领域,而2D目标检测因其平面维度的局限制约其发展,已经不能够满足人们的需要,取而代之的3D目标检测成为了众多行业的争相关注的焦点和研究的主流。
传统的3D目标检测算法中常用的两模态数据关联策略是Hard-Association(硬关联),即使用两传感器(相机、激光雷达)之间的校准矩阵对像素点与激光雷达点进行逐点级关联,由于两传感器之间固有的时空差距,导致两传感器之间的校准矩阵不能实现精准的校准,造成两个模态数据之间的关联误差,影响最终的检测结果。
为避免硬关联带来的弊端,现有技术提出了基于Soft-Association(软关联)的关联策略,即不使用两传感器之间的校准矩阵,在相机流中通过深度神经网络对图像中检测目标的深度信息进行预测,进而使用相机的内外参矩阵将2D像素点信息提升到3D空间中,生成3D图像体素信息。从而,使得相机采集的图像数据能够与激光雷达采集的点云数据处于统一的3D空间,突破两个模态数据维度上的界限。例如,公开号为CN114445310A的中国专利申请公开了一种3D目标检测方法、装置、电子设备和介质,3D目标检测方法包括:获取场景中的图像数据以及激光点云数据;根据图像数据进行特征处理,生成鸟瞰图特征;根据激光点云数据,进行特征处理,生成激光点云特征;将鸟瞰图特征与激光点云特征进行特征融合,得到融合后的特征;根据融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;对3D目标框进行损失计算。其中,图像数据包括多相机图像信息,根据多相机图像信息进行特征编码,得到多相机编码特征;将多相机编码特征输入Transformer模型,进行特征解码生成鸟瞰图特征。该专利申请公开的技术方案中,将图像数据生成鸟瞰图特征的过程中,需要将图像信息进行3D投影得到伪3D信息,然后对伪3D信息在高度方向上压缩,转换为鸟瞰图特征。该技术方案其虽然将图像特征的维度扩充到与点云的关键点特征相同的维度,能够实现两种数据的软关联。但是,其融合阶段是在鸟瞰图中完成,导致融合得到的高度特征信息丢失,影响目标检测精度。而且,融合过程是先将图像信息与点云信息进行简单的拼接,然后使用时序神经网络进行卷积处理,该过程并未充分利用两个模态信息的各自优势,造成不同模态信息中有用信息的丢失,影响目标检测精度。另外,在该技术方案中,将多相机图像信息进行特征编码后使用Transformer模型将特征编码为鸟瞰图特征,由于Transformer模型算法参数量太大,况且多视图数据本身体量就很大,这一做法势必会造成整体目标检测方法的低效。
公开号为CN115375731A的中国专利申请公开了一种关联点和体素的3D点云单目标跟踪方法及相关装置,公开了利用Mini-PointNet(迷你点云网络)进行特征聚合,具体方案为:将搜索区域内的种子点云数据根据相似度度量寻找k近邻,每个搜索区域种子点与k个模板区域种子点配对,将搜索区域种子点特征分别和k个对应匹配模板种子点坐标和特征以及九个距离进行连接,随后使用Mini-PointNet进行特征聚合得到张量,实现点级特征融合。该专利申请公开的技术方案中,Mini-PointNet模块针对原始未经过体素化的点云数据,其点云数据是离散且稀疏的,需要Mini-PointNet模块进行点级局部特征提取,通过计算局部区域内的点的坐标转换为相对该区域中心点的坐标后,进而完成局部特征编码,每一个局部区域相当于一个感受野,通过不断叠加Mini-PointNet模块以达到卷积的效果,实现3D特征的提取。整个特征聚合过程复杂,效率低,难以满足目标检测的实时性要求。
发明内容
本发明的目的之一在于提供一种3D目标检测方法,解决现有技术存在的检测准确性及实时性低的问题。
为实现上述发明目的,本发明采用下述技术方案予以实现:
一种3D目标检测方法,所述方法包括:
获取原始数据:获取待检测目标的点云数据和图像数据;
获取3D点云体素特征:将所述点云数据体素化,获得网格数据;对所述网格数据进行特征提取,获得3D点云体素特征;
获取3D图像体素特征:将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征;
特征融合:
将所述3D点云体素特征和所述3D图像体素特征在空间维度进行拼接,获得第一拼接特征;
将所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征;
将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征;
将所述局部融合后体素特征和所述全局融合后体素特征进行拼接,获得第二拼接特征,将所述第二拼接特征卷积处理后,利用Softmax函数生成注意力掩码;
将所述注意力掩码与所述3D点云体素特征进行逐元素点积,获得增强后点云体素特征;将所述注意力掩码与所述3D图像体素特征进行逐元素点积,获得增强后图像体素特征;
将所述增强后点云体素特征和所述增强后图像体素特征相加,生成融合后特征;
将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果。
本申请的一些实施例中,将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征,具体包括:
利用共享权重的骨干网络对所述图像数据进行特征提取,获得多视图高级语义特征;
对所述多视图高级语义特征进行3次2倍下采样,获得3个不同尺度的特征图;
在所述3个不同尺度的特征图上分别进行深度预测,获得3个不同尺度下的多视图深度特征;
对所述3个不同尺度下的多视图深度特征分别进行卷积和Softmax处理,获得3个不同尺度下的深度分布;
将所述3个不同尺度下的深度分布分别与所述多视图高级语义特征相乘,获得每个像素点的深度预测特征值;
利用由相机参数矩阵确定的从参考坐标到局部像素坐标的映射,将2D像素点提升至3D空间,获得3个不同分辨率的初始3D图像体素特征;
将所述3个不同分辨率的初始3D图像体素特征进行堆叠,获得多尺度3D图像体素融合特征;
对所述多尺度3D图像体素融合特征进行网格化处理,获得所述3D图像体素特征。
本申请的一些实施例中,对所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征,具体包括:
获取所述第一拼接特征中的每个体素块的位置信息索引;
利用3D卷积操作构成的模块Conv3D-Block对所述第一拼接特征中的每个体素块进行局部特征提取,获得局部特征flocal(xi):flocal(xi)=Conv3D-Block(xi);
利用3D卷积操作构成的模块MaxPool-3D对所述局部特征flocal(xi)进行特征聚合,获得聚合特征glocal(flocal(xi)):glocal(flocal(xi))=MaxPool-3D(flocal(xi));
将所述聚合特征中的每个体素块根据所述位置信息索引放回到3D空间,获得所述局部融合后体素特征;
其中,xi为带有位置信息索引的第i个体素块的3D空间特征,i=1,2,……,I,I为所述第一拼接特征中的体素块的总数量。
本申请的一些实施例中,将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征,具体包括:
利用所述Conv3D-Block对所述局部融合后体素特征进行特征提取,获得全局特征fglobal(y):fglobal(y)=Conv3D-Block(y);
利用所述MaxPool-3D对所述全局特征fglobal(y)进行特征聚合,获得聚合特征gglobal(fglobal(y)):gglobal(fglobal(y))=MaxPool-3D(fglobal(y)),确定为所述全局融合后体素特征;
其中,y为所述局部融合后体素特征中的3D空间特征。
本申请的一些实施例中,将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果,具体包括:
将所述融合后特征转成鸟瞰图;
将所述鸟瞰图输入Anchor-Free检测器的每个检测头中进行检测,利用检测器的总体损失函数计算损失,输出3D目标检测结果。
本发明还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上的计算机程序,所述处理器配置为执行所述计算机程序,实现上述的3D目标检测方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的3D目标检测方法。
与现有技术相比,本发明的优点和积极效果是:
本发明提供的3D目标检测方法,将点云数据经过特征编码生成3D点云体素特征,将图像数据经过特征编码生成3D图像体素特征,使得点云数据和图像数据这两个模态数据处于同一3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础;将两个模态数据进行特征融合时,采用了由局部到全局的自适应注意力融合策略,利用3D融合体素特征编码器(3D-Voxel Fusion Encoder,简称为3D-VFE)分别进行局部特征信息融合和全局特征信息融合,再基于局部融合后特征和全局融合后特征生成注意力掩码,最后将注意力掩码与两个模态提取特征逐元素点积,获得最终融合后特征,达到两种不同模态数据之间的深度交互与融合,在充分提取局部特征的同时增大感受野,捕获全局信息,最大程度地增强有用特征信息、抑制无用干扰特征信息,充分发挥不同模态信息优势,进而提高了目标检测的准确性;输入至3D-VFE进行特征融合的点云数据为3D点云体素特征数据,经过体素化后的点云数据处于规则的体素网格空间中,每个网格已经包含了局部特征信息,在3D-VFE中无需再进行点级局部特征提取,利于在特征融合时高效完成对两模态数据体素特征信息的处理,进而提高了目标检测的高效性和实时性。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于本发明3D目标检测方法一个实施例的流程图;
图2为本发明3D目标检测方法另一个实施例中获取3D图像体素特征的结构示意图;
图3为图1中实现特征融合的结构示意图;
图4为图1中采用的3D-VFE模块的结构示意图;
图5为基于本发明的电子设备一个实施例的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
需要说明的是,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
首先,简要阐述本发明的技术思路:
为解决现有3D目标检测技术存在的检测准确性低、实时性低等的技术问题,本发明创造性提出一种3D目标检测方法,该方法的输入源数据为点云数据和图像数据这两种不同模态数据,对点云数据进行体素化处理获得3D点云体素特征,对图像数据进行升维后提升到3D空间,获得3D图像体素特征;然后基于统一空间下的特征融合模块将同时处于3D空间的点云特征和图像特征进行由局部到全局的自适应注意力融合,获得融合特征;最后使用检测器对融合特征进行检测,获得3D目标检测结果。
图1所示为基于本发明3D目标检测方法一个实施例的流程图,图2所示为该实施例中实现特征融合的结构示意图。
如图1所示,该实施例采用下述过程实现3D目标检测。
S11:获取待检测目标的点云数据和图像数据。
该实施例进行3D目标检测时,由相机采集图像数据,由激光雷达采集点云数据。具体数据采集方法及过程均为现有技术,在此不作具体描述。
S12:获取3D点云体素特征和3D图像体素特征。
将步骤11获取的点云数据进行特征编码,获得3D点云体素特征。实现过程主要包括两个阶段:将点云数据体素化,获得网格数据;对网格数据进行特征提取,获得3D点云体素特征。该过程的具体实现方法可采用现有技术来实现。
在一些实施例中,对于自动驾驶车辆的3D目标检测,可采用下述过程获取由车载激光雷达采集的点云数据对应的3D点云体素特征:
点云数据体素化:
针对输入点云集P∈RN×4(R为实数集表示符号,N代表点云的数量,4表示每个点带有4个属性,即每个点的x,y,z坐标以及反射率r),首先进行体素化,将原始场景中以自动驾驶车辆为中心,选取前后[-54m,54m]、左右[-54m,54m]、高度上[-8m,3m]的范围对空间进行网格化操作,将整个点云空间划分为1440*1440*41个正方体块,即网格,每个网格的长宽高为[0.075,0.075,0.2],每个网格内包含多个点云数据。由于不同网格中划分得到的点数量是不统一的,为了更好地解决这种离散性,对于每个网格进行归一化处理,先将网格中的所有点的x值、y值、z值和r值进行求和,再除以点的数量,获得一个平均值,以代表一个网格的属性,也称为网格点。由此,离散不规律的点云数据被划分到多个规律的网格中,生成网格数据,为使用卷积操作提供了充分条件。
特征提取:
由于点云数据的天然稀疏性,会产生许多的空网格,即网格点属性值为∞,非空网格数量只占到总数的10%。对于此情况使用传统的逐网格进行卷积操作并不适用,会造成大量的计算资源浪费,且耗费时间。因此,采用稀疏3D卷积,利用4个稀疏卷积模块对所有网格进行特征提取,获得最终的3D点云体素特征。
将步骤11获取的图像数据进行特征编码,获得图像深度特征。然后,利用相机的参数矩阵和图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征。从而,使得图像数据与点云数据处于统一的3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础。将图像数据由2D空间升维至3D空间而获得3D图像体素特征的具体实现方法,可采用现有技术来实现。
在其他一些实施例中,对于自动驾驶车辆的3D目标检测,对车载相机采集的图像数据采用多尺度3D图像体素特征融合网络获取3D图像体素特征,以更精细化地预测深度信息。
结合图2示出的3D目标检测方法另一个实施例中获取3D图像体素特征的结构示意图,可采用下述过程获取由车载相机采集的图像数据对应的多尺度3D图像体素特征:
利用共享权重的骨干网络21对图像数据进行特征提取,获得多视图高级语义特征。骨干网络可为ResNet50、ResNet100等残差网络。为平衡性能,优选ResNet50作为骨干网络。
对多视图高级语义特征进行3次2倍下采样,获得3个不同尺度的特征图,分别为图2中的第一尺度特征图22、第二尺度特征图23和第三尺度特征图24,。
在3个不同尺度的特征图上分别进行深度预测,获得3个不同尺度下的多视图深度特征。
对3个不同尺度下的多视图深度特征分别进行卷积和Softmax(归一化函数)处理,获得3个不同尺度下的深度分布。
将3个不同尺度下的深度分布分别与多视图高级语义特征相乘,获得每个像素点的深度预测特征值。
利用由相机参数矩阵确定的从参考坐标(X,Y,Z)到局部像素坐标(H,W,λ)的映射,将2D像素点提升至3D空间,获得3个不同分辨率的初始3D图像体素特征,分别为与第一尺度特征图22对应的第一初始3D图像体素特征25、与第二尺度特征图23对应的第二初始3D图像体素特征26、与第三尺度特征图24对应的第三初始3D图像体素特征27。其中,H、W、λ分别为高度值、宽度值、深度预测特征值。
经过上述操作,在3个不同尺度的特征图上完成了2D转3D操作。
为进一步对图像信息精细化,再将3个不同分辨率的初始3D图像体素特征25、26、27进行堆叠,获得多尺度3D图像体素融合特征;再对多尺度3D图像体素融合特征进行网格化处理,获得3D图像体素特征28。
S13:对3D点云体素特征和3D图像体素特征进行特征融合,获得融合后特征。
步骤12获得的3D点云体素特征带有精确位置信息和几何信息,而获得的3D图像体素特征含有丰富的语义信息和纹理信息,更具有辨识度,且两种模态信息都处于统一的3D体素空间下,两种模态信息可以互补,为后续的目标检测提供更为精确的特征。
为实现两种模态信息的充分交互,该步骤使用由局部到全局的自适应注意力融合策略对3D点云体素特征和3D图像体素特征进行特征融合。
结合图3示出的特征融合的结构示意图,该实施例采用下述方法进行特征融合。
首先,将3D点云体素特征VP∈RC×D×H×W和3D图像体素特征VI∈RC×D×H×W在空间维度进行拼接,获得第一拼接特征VC∈RC×D×H×W;C为特征通道的个数,D、H、W分别为深度值、高度值、宽度值。
然后,将第一拼接特征中的每个体素块输入3D-VFE模块进行局部特征信息融合,获得局部融合后体素特征VLocal。其中,i=1,2,……,I,I为第一拼接特征VC中的体素块的总数量,根据D、H、W确定。
然后,将局部融合后体素特征VLocal输入3D-VFE模块进行全局特征信息融合,获得全局融合后体素特征VGlobal。
然后,将局部融合后体素特征VLocal和全局融合后体素特征VGlobal进行拼接,获得第二拼接特征V'Attention,将第二拼接特征V'Attention卷积处理后,利用Softmax函数生成注意力掩码VAttention,用于评测不同体素块特征的重要性。拼接之前,首先将全局融合后体素特征VGlobal在空间维度上进行扩充,与局部融合后体素特征VLocal保持相同维度。
再然后,将注意力掩码VAttention与3D点云体素特征VP进行逐元素点积,获得增强后点云体素特征V'P;将注意力掩码VAttention与3D图像体素特征VI进行逐元素点积,获得增强后图像体素特征V'I。由此,可以最大程度地增强有用特征信息,而抑制无用干扰特征信息。
最后,将增强后点云体素特征V'P和增强后图像体素特征V'I相加,生成融合后特征VF。
其中,3D-VFE模块的结构如图4所示,其卷积模块为采用3D卷积操作构成的模块Conv3D-Block,其MaxPool(最大值池化)模块为采用3D最大值池化操作构成的模块MaxPool-3D。采用该结构的3D-VFE模块进行特征融合,能够在保留精确3D空间特征信息的的同时对点云信息进行特征提取,实现对3D空间下3D特征的高效特征提取的目的。
S14:将融合后特征输入检测器中进行检测,输出3D目标检测结果。
检测器为包含多个检测头的Anchor-Free(无锚框)检测器,在Anchor-Free检测器中对融合特征进行检测输出检测结果的具体实现方法,可采用现有技术。
在其他一些实施例中,为减少检测计算的参数量,首先将融合后特征转成鸟瞰图VBEV(参见图3所示),然后将鸟瞰图输入Anchor-Free检测器的每个检测头中进行检测,利用检测器的总体损失函数计算损失,输出3D目标检测结果。转成鸟瞰图的具体实现方法,可以采用现有技术。
在其他一些实施例中,Anchor-Free检测器包含5个检测头,分别为目标热力图检测头、3D框尺寸检测头、目标位置偏差检测头、目标方向角检测头以及目标z轴位置检测头。
在其他一些实施例中,对第一拼接特征中的每个体素块VC i输入3D-VFE模块进行局部特征信息融合,获得局部融合后体素特征,具体包括:
利用3D卷积操作构成的模块Conv3D-Block对第一拼接特征中的每个体素块进行局部特征提取,获得局部特征flocal(xi):flocal(xi)=Conv3D-Block(xi)。具体提取方法为现有技术,在此不作更具体阐述。
利用3D卷积操作构成的模块MaxPool-3D对局部特征flocal(xi)进行特征聚合,获得聚合特征glocal(flocal(xi)):glocal(flocal(xi))=MaxPool-3D(flocal(xi))。具体特征聚合方法为现有技术,在此不作更具体阐述。
将聚合特征中的每个体素块根据位置信息索引放回到3D空间,获得局部融合后体素特征VLocal。
其中,xi为带有位置信息索引的第i个体素块的3D空间特征。
而将局部融合后体素特征输入3D-VFE模块进行全局特征信息融合,获得全局融合后体素特征,具体包括:
利用Conv3D-Block对局部融合后体素特征VLocal进行特征提取,获得全局特征fglobal(y):fglobal(y)=Conv3D-Block(y)。具体提取方法为现有技术,在此不作更具体阐述。
利用MaxPool-3D对全局特征fglobal(y)进行特征聚合,获得聚合特征gglobal(fglobal(y)):gglobal(fglobal(y))=MaxPool-3D(fglobal(y)),并确定为全局融合后体素特征VGlobal。具体特征聚合方法为现有技术,在此不作更具体阐述。
其中,y为局部融合后体素特征中的3D空间特征。
上述个实施例提供的3D目标检测方法,将点云数据经过特征编码生成3D点云体素特征,将图像数据经过特征编码生成3D图像体素特征,使得点云数据和图像数据这两个模态数据处于同一3D空间下,打破了两个模态数据固有的维度界限,为后续两模态数据进行深度交互奠定有利基础。将两个模态数据进行特征融合时,采用了由局部到全局的自适应注意力融合策略,利用3D-VFE分别进行局部特征信息融合和全局特征信息融合,再基于局部融合后特征和全局融合后特征生成注意力掩码,最后将注意力掩码与两个模态提取特征逐元素点积,获得最终融合后特征,达到两种不同模态数据之间的深度交互与融合,在充分提取局部特征的同时增大感受野,捕获全局信息,最大程度地增强有用特征信息、抑制无用干扰特征信息,充分发挥不同模态信息优势,进而提高了目标检测的准确性。输入至3D-VFE进行特征融合的点云数据为3D点云体素特征数据,经过体素化后的点云数据处于规则的体素网格空间中,每个网格已经包含了局部特征信息,在3D-VFE中无需再进行点级局部特征提取,利于在特征融合时高效完成对两模态数据体素特征信息的处理,进而提高了目标检测的高效性和实时性。
图5示出了本发明的电子设备一个实施例的结构框图。该电子设备包括处理器51、存储器52及存储在存储器52上的计算机程序521,处理器51配置为执行计算机程序521,实现图1实施例及其他实施例的3D目标检测方法,并实现相应实施例的技术效果。
本发明的其他实施例还提供一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时,实现图1实施例及其他实施例的3D目标检测方法,并实现相应实施例的技术效果。
上述的计算机存储介质,可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。计算机存储介质可以是通用或专用计算机能够存取的任何可用存储介质。
在一些实施例中,计算机存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于设备中。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。
Claims (7)
1.一种3D目标检测方法,其特征在于,所述方法包括:
获取原始数据:获取待检测目标的点云数据和图像数据;
获取3D点云体素特征:将所述点云数据体素化,获得网格数据;对所述网格数据进行特征提取,获得3D点云体素特征;
获取3D图像体素特征:将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征;
特征融合:
将所述3D点云体素特征和所述3D图像体素特征在空间维度进行拼接,获得第一拼接特征;
将所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征;
将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征;
将所述局部融合后体素特征和所述全局融合后体素特征进行拼接,获得第二拼接特征,将所述第二拼接特征卷积处理后,利用Softmax函数生成注意力掩码;
将所述注意力掩码与所述3D点云体素特征进行逐元素点积,获得增强后点云体素特征;将所述注意力掩码与所述3D图像体素特征进行逐元素点积,获得增强后图像体素特征;
将所述增强后点云体素特征和所述增强后图像体素特征相加,生成融合后特征;
将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果。
2.根据权利要求1所述的3D目标检测方法,其特征在于,将所述图像数据进行特征编码,获得图像深度特征;利用相机的参数矩阵和所述图像深度特征,将2D像素点提升至3D空间,获得3D图像体素特征,具体包括:
利用共享权重的骨干网络对所述图像数据进行特征提取,获得多视图高级语义特征;
对所述多视图高级语义特征进行3次2倍下采样,获得3个不同尺度的特征图;
在所述3个不同尺度的特征图上分别进行深度预测,获得3个不同尺度下的多视图深度特征;
对所述3个不同尺度下的多视图深度特征分别进行卷积和Softmax处理,获得3个不同尺度下的深度分布;
将所述3个不同尺度下的深度分布分别与所述多视图高级语义特征相乘,获得每个像素点的深度预测特征值;
利用由相机参数矩阵确定的从参考坐标到局部像素坐标的映射,将2D像素点提升至3D空间,获得3个不同分辨率的初始3D图像体素特征;
将所述3个不同分辨率的初始3D图像体素特征进行堆叠,获得多尺度3D图像体素融合特征;
对所述多尺度3D图像体素融合特征进行网格化处理,获得所述3D图像体素特征。
3.根据权利要求1所述的3D目标检测方法,其特征在于,对所述第一拼接特征中的每个体素块输入3D融合体素特征编码器模块进行局部特征信息融合,获得局部融合后体素特征,具体包括:
获取所述第一拼接特征中的每个体素块的位置信息索引;
利用3D卷积操作构成的模块Conv3D-Block对所述第一拼接特征中的每个体素块进行局部特征提取,获得局部特征flocal(xi):flocal(xi)=Conv3D-Block(xi);
利用3D卷积操作构成的模块MaxPool-3D对所述局部特征flocal(xi)进行特征聚合,获得聚合特征glocal(flocal(xi)): glocal(flocal(xi))= MaxPool-3D(flocal(xi));
将所述聚合特征中的每个体素块根据所述位置信息索引放回到3D空间,获得所述局部融合后体素特征;
其中,xi为带有位置信息索引的第i个体素块的3D空间特征,i=1,2,……,I,I为所述第一拼接特征中的体素块的总数量。
4.根据权利要求3所述的3D目标检测方法,其特征在于,将所述局部融合后体素特征输入所述3D融合体素特征编码器模块进行全局特征信息融合,获得全局融合后体素特征,具体包括:
利用所述Conv3D-Block对所述局部融合后体素特征进行特征提取,获得全局特征fglobal(y):fglobal(y)=Conv3D-Block(y);
利用所述MaxPool-3D对所述全局特征fglobal(y)进行特征聚合,获得聚合特征gglobal(fglobal(y)): gglobal(fglobal(y))= MaxPool-3D(fglobal(y)),确定为所述全局融合后体素特征;
其中,y为所述局部融合后体素特征中的3D空间特征。
5.根据权利要求1至4中任一项所述的3D目标检测方法,其特征在于,将所述融合后特征输入Anchor-Free检测器中进行检测,输出3D目标检测结果,具体包括:
将所述融合后特征转成鸟瞰图;
将所述鸟瞰图输入Anchor-Free检测器的每个检测头中进行检测,利用检测器的总体损失函数计算损失,输出3D目标检测结果。
6.一种电子设备,包括处理器、存储器及存储在所述存储器上的计算机程序,其特征在于,所述处理器配置为执行所述计算机程序,实现上述权利要求1-5中任一项所述的3D目标检测方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述权利要求1-5中任一项所述的3D目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310079149.2A CN116246119A (zh) | 2023-02-07 | 2023-02-07 | 3d目标检测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310079149.2A CN116246119A (zh) | 2023-02-07 | 2023-02-07 | 3d目标检测方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246119A true CN116246119A (zh) | 2023-06-09 |
Family
ID=86625550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310079149.2A Pending CN116246119A (zh) | 2023-02-07 | 2023-02-07 | 3d目标检测方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246119A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680656A (zh) * | 2023-07-31 | 2023-09-01 | 合肥海普微电子有限公司 | 基于生成型预训练变换器的自动驾驶运动规划方法及系统 |
-
2023
- 2023-02-07 CN CN202310079149.2A patent/CN116246119A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680656A (zh) * | 2023-07-31 | 2023-09-01 | 合肥海普微电子有限公司 | 基于生成型预训练变换器的自动驾驶运动规划方法及系统 |
CN116680656B (zh) * | 2023-07-31 | 2023-11-07 | 合肥海普微电子有限公司 | 基于生成型预训练变换器的自动驾驶运动规划方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eldesokey et al. | Propagating confidences through cnns for sparse data regression | |
CN113819890B (zh) | 测距方法、装置、电子设备及存储介质 | |
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
CN111161349B (zh) | 物体姿态估计方法、装置与设备 | |
Li et al. | Improved point-voxel region convolutional neural network: 3D object detectors for autonomous driving | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
CN110879994A (zh) | 基于形状注意力机制的三维目测检测方法、系统、装置 | |
KR102095842B1 (ko) | 격자지도 생성 장치 및 방법 | |
CN113052109A (zh) | 一种3d目标检测系统及其3d目标检测方法 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN115410167A (zh) | 目标检测与语义分割方法、装置、设备及存储介质 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN113269147B (zh) | 基于空间和形状的三维检测方法、系统、存储及处理装置 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
Huang et al. | ES-Net: An efficient stereo matching network | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
CN117132649A (zh) | 人工智能融合北斗卫星导航的船舶视频定位方法及装置 | |
Hu et al. | R-CNN based 3D object detection for autonomous driving | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
CN114648639B (zh) | 一种目标车辆的检测方法、系统及装置 | |
CN116152800A (zh) | 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |