CN117037141A - 一种3d目标检测方法、装置和电子设备 - Google Patents

一种3d目标检测方法、装置和电子设备 Download PDF

Info

Publication number
CN117037141A
CN117037141A CN202311039239.5A CN202311039239A CN117037141A CN 117037141 A CN117037141 A CN 117037141A CN 202311039239 A CN202311039239 A CN 202311039239A CN 117037141 A CN117037141 A CN 117037141A
Authority
CN
China
Prior art keywords
voxel
point cloud
empty
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311039239.5A
Other languages
English (en)
Inventor
於俊
刘瑞宇
曹力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311039239.5A priority Critical patent/CN117037141A/zh
Publication of CN117037141A publication Critical patent/CN117037141A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了一种3D目标检测方法、装置和电子设备,方法包括步骤:加载点云数据,用向量表示每一个点云,划分场景为多个体素,对每一个体素内进行随机点云下采样;对每个体素进行特征提取,获取每一个体素的特征,将提取后的体素特征保存在当前时刻的非空体素表中;将当前时刻每一位置的体素特征送入时序信息融合模块,得到融合了时序信息的体素特征;将上述体素特征送入空间信息融合模块,得到融合了时空信息特征图;将融合了时空信息的特征图,转化为BEV特征图;将BEV特征图接入2D特征提取网络和检测头网络进行目标检测,获得最终的预测结果。本发明可以更好的应对物体遮挡的情况,小物体会被更容易检测到,可以提高检测速度。

Description

一种3D目标检测方法、装置和电子设备
技术领域
本发明涉及自动驾驶方法技术领域,具体涉及一种3D目标检测方法、装置和电子设备。
背景技术
目前基于二维图像的目标检测技术已经非常成熟,已经在现实生活中拥有了广泛的应用,例如人脸识别、工业产品缺陷检测、安全监控等领域。但是二维的图像并不能检测出物体的深度信息,因此二维的目标检测并不能适应一些三维场景,尤其是在自动驾驶领域,目标的三维信息十分的重要。
近年来,随着硬件和深度学习的发展,基于深度学习的3D目标检测已经拥有高准确率和检测速度快的优点,已经在各个领域起到了作用,尤其是在自动驾驶领域。目前的汽车已经搭载了高精度激光雷达等传感器,即使是面对恶劣天气,激光雷达仍然能够采集到具有丰富空间信息的点云,因此利用激光雷达点云来进行3D目标检测成为了近年来研究队的热点。对于激光雷达传感器采集到的点云数据,为了能够用于深度学习模型,主要有基于原始点云的方法,基于体素的方法、基于视图的方法以及基于特征融合的方法。
其中《BEVFormer:Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》是ECCV 2022的一篇论文。该篇论文提出了一个采用纯视觉(camera)做感知任务的算法模型BEVFormer。BEVFormer通过提取环视相机采集到的图像特征,融合了时间与空间信息特征,从而实现3D目标检测任务,并取得了SOTA的效果。
但是本发明认为,作为自动驾驶车辆传感器依靠雷达获得的信息应该比图像更加准确,如果对点云体素化后进行时间与空间信息的特征融合可以取得比BEVFormer依靠纯视觉方案更加精准的检测结果。但是目前受限点云的稀疏性和算力的瓶颈,无法直接对点云特征快速的时空特征融合。
发明内容
因此本发明提出了一种方法,能在有限的算力的情况下实现对体素化后点云的特征时空融合方法。
本发明提出一种基于点云体素化的时空融合特征提取方法和流程,来实现对自动驾驶场景下3D目标检测的方法。
本发明认为,在面对被遮挡的物体时,如果能够获取该时刻之前的特征,以及该时刻上下文空间信息,那么模型可以很好的判断出遮挡的物体。利用时序信息和空间信息能够实现更可靠的检测性能,尤其是对移动的小目标或是远处的物体,这能够为安全的自动驾驶提供更可靠的保证。
同时因为算力限制,本发明提出了一种基于Hash函数快速体素查询方案,实现如何快速的从非空体素列表中找到上面筛选出来的非空体素,以实现基于体素的时空特征快速融合。
针对上诉问题和目的,本发明提供了一种3D目标检测方法、装置和电子设备,用于构建3D目标检测模型,以实现对自动驾驶场景下目标更准确且鲁棒的定位和识别。
为了实现上述目的,现提出的方案如下:
一种3D目标检测方法,所述方法包括步骤:
(1)加载点云数据,对加载的点云数据预处理,使用向量表示每一个点云,划分场景为多个体素,同时对每一个体素编号,对每一个体素内进行随机点云下采样;
(2)对每个体素进行特征提取,获取每一个体素的特征,对于每一个非空体素,将提取后的体素特征保存在当前时刻的非空体素表中,以便后续查找;
(3)将当前时刻每一位置的非空体素特征送入时序信息融合模块,通过TimeHash函数找到上一时刻相对应位置的体素特征进行特征融合,此时当前时刻每一个体素特征便融合了时序信息;
(4)将融合时序信息后的体素特征送入空间信息融合模块,每一个体素分别与其周边局部非空体素特征融合,得到总的融合了时空信息的4维特征图;
(5)将融合了时空信息的4维特征图送入BEV转化模块,转化为BEV特征图,便于加速后续检测推理;
(6)将上一步BEV特征图接入2D特征提取网络和检测头网络进行目标检测,获得最终的预测结果。
进一步的步骤(1)中,读取原始雷达点云数据,在场景中按照点云数据所在的X,Y轴和Z轴方向,将点云数据划分为一个个的方体网格,凡是落入到一个网格的点云数据被视为其处在一个体素里,或者理解为它们构成了一个体素,同时对每一个体素根据坐标位置进行编号设为(xv,yv,zv);
读取体素中每一个点云的数据信息,其中包括点云坐标(x,y,z)和点云的反射强度r,假设每一个体素中点云的数量为Nsum,那么每个点云的信息可以用维度D=8的向量来表示,分别为D=(x,y,z,r,l,xv,yv,zv),其中x,y,z,r为送入的点云数据信息,l为点云与体素几何中心的相对位置;
其中,xv,yv,zv分别表示体素的中心点的坐标位置。
那么,单个体素可以用(N,D)的张量来表示,整个场景可以用一个(N,D,L,H,W)的张量表示,其中D为点云的维度,L*H*W为体素的数量,N为每个体素内保存点云的数量。
进一步的步骤(2)中,体素特征提取,采用简化后的PointNet网络对点云进行数据处理和特征提取,将体素内每一个点云的信息,经过全连接网络层,将原张量中的D维度生成C维度,N个点一共获得的特征为(N,C),随后进行最大值池化操作,获得该体素的池化特征(1,C),最后将池化特征复制N份,拼接到特征(N,C)中,获得特征每个点的特征与池化特征的拼接(N,2C),最后再进行一次最大值池化操作,获得该体素特征为表示(1,2C);
最后判断该体素是否为空体素,即特征全为0的补零体素,如果不是空体素,则将该体素特征保存在该体素位置所对应的当前帧的非空体素特征表中,反之不做任何处理;
进一步的对于步骤(3),遍历当前时刻场景中每一个体素,首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理,如果不为空体素,则将该体素的坐标位置传入TimeHash函数,获得对应的上一帧相同位置非空体素特征表所在的索引,然后获取上一帧的特征。
假设当前时刻t中的非空体素特征为Ft=(1,2C),上一时刻t-1中位置i的体素特征为Ft-1=(1,2C),将两个体素特征平均分为四份,每一份的大小为(1,C/2),每份的向量再加上位置编码得到最后要传入注意力编码器的特征向量,获取最终要传入注意力编码器的特征向量8*(1,C/2)。
在注意力编码器中,首先对传入的每一份向量进行计算,将每一个向量的组成一个矩阵用X表示,即X=(8,C/2),获取Q,K,V,其中:
Q=X*Wq
K=X*Wk
V=X*Wv
Wq,Wk和Wv是可学习到的线性变换矩阵;
将Q,K,V通过自注意力公式计算后,便可以获得融合了上下特征的特征向量。总的自注意力的计算公式为:
其中,dk是Q,K矩阵的列数,即向量维度;
通过上一步注意力编码器后可以得到与输入维度相同的向量,即8个(C/2)向量,通过将前四个向量按顺序拼接,可以获得最终的当前体素融合了时序信息的特征向量Ftime=(1,2C),随后对每个体素进行相同操作,一共需要操作L*H*W次。
进一步的对于步骤(4),遍历每一个体素,首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理,如果不为空体素,则计算得出该体素的周边体素坐标,分别将周边体素坐标传入ZoneHash函数计算出对应的非空体素特征,获取当前位置非空体素的特征和查询到的周边非空体素特征,送入注意力编码器进行注意力特征提取,具体操作与上一步类似,保留输出向量的第一个作为最终该位置体素的特征向量,随后对每个体素进行相同的操作,一共需要操作L*H*W次。
进一步的对于步骤(5),将最终融合了时空信息的特征图F4D=(2C,L,H,W)送入检查网络完成预测,根据L*H*W的值,对F4D进行分解重塑,降为3DBEV特征图FBEV=(2C,M,M),其中M=(L*H*W)/2。
进一步的对于步骤(6),当FBEV通过2D特征提取网络模块和检测头模块后,输出检测结果为检测目标检测框的类别信息,即x,y,z,w,h,l,θ,通过损失函数来训练网络,使网络收敛,网络的总的损失函数定义为:
LCLS=-αa(1-pα)γlogpα
其中,L为总的损失函数,LCLS为分类的损失函数,LIoc为位置的损失函数,Ldir为方向分类损失函数;βIoc,βCLS,βdir分别为位置损失函数的系数,分类损失函数的系数以及方向分类损失函数的系数;P为预测框,G为真实框,IoU表示预测框与真实框重叠的比例。ρ2(P,G)表示预测框与真实框中心点距离的平方,c2指的是两个矩形框的闭包区域的对角线的距离的平方。参数p为样本为正值的概率;aa为权重系数,α,γ为系统的超参数,Npos为有效预测框数量。
本发明提供一种3D目标检测装置,所述检测装置功能模块包括:体素下采样模块、体素特征提取模块、时序信息融合模块、空间信息融合模块、2D特征提取网络模块、检测头模块。
本发明还提供一种电子设备,其特征在于,设置有如上所述的3D目标检测装置。该设备至少一个处理器和与所述处理器连接的存储器,其中:所述存储器用于存储计算机程序或指令;所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如上所述的3D目标检测方法。
本发明的有益效果在于,与现有技术相比,本发明基于深度学习的3D目标检测办法优点如下:
(1)在算力限制的情况下,提出了一种基于Hash函数快速查找非空体素特征的方法。
(2)对基于体素提取到的点云进一步融合了时序特征,模型可以充分理解当前时刻与之前时刻的场景关系,这样可以更好的应对物体遮挡的情况。
(3)因为融入了空间特征,这样针对小物体的特征信息会被加强,小物体会被更容易检测到。
(4)对提取到的四维体素特征图进行转化,在不造成特征损失的情况下转化为三维特征图,后续将三维特征图传入检测网络,可以提高检测速度。
附图说明
图1为3D目标检测方法流程图;
图2为体素特征提取模块示意图;
图3为时序信息体素查询流程示意图;
图4为时序信息融合模块示意图;
图5为空间信息体素查询流程示意图;
图6为空间信息融合模块示意图;
图7为BEV转化模块示意图;
图8为3D目标检测装置的功能模块图;
图9为电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
图1显示的是本发明的3D目标检测模型的流程图。如图1所示,该模型主要包含七部分:体素下采样模块、体素特征提取模块、时序信息融合模块、空间信息融合模块、BEV转化模块、2D特征提取网络模块、检测头模块。
本发明所述的基于深度学习的3D目标检测系统,包括:
(1)体素化下采样模块:加载点云数据集,对加载的点云数据预处理,使用向量表示每一个点云,划分场景为多个体素。假设每一个体素中点云的数量为Nsum。在场景中按照点云数据所在的X,Y轴和Z轴方向,将点云数据划分为一个个的长方体网格,每个网格的长取0.4m,宽取0.2m,高取0.2m。多余部分的部分直接裁掉。凡是落入到一个网格的点云数据被视为其处在一个体素里,或者理解为它们构成了一个体素,同时对每一个体素根据所处空间位置进行编号设为(xv,yv,zv)。
读取体素中每一个点云的数据信息,其中包括点云坐标(x,y,z)和点云的反射强度r,假设每一个体素中点云的数量为Nsum,那么每个点云的信息可以用维度D=8的向量来表示,分别为D=(x,y,z,r,l,xv,yv,zv),其中x,y,z,r为送入的点云数据信息,l为点云与体素几何中心的相对位置。
其中,xv,yv,zv分别表示体素的中心点的坐标位置。
为了保留每个体素中N个点云,如果N>Nsum补零,反之随机抽取点云直至选中N个点云。
单个体素可以用(N,D)的张量来表示,整个场景可以用一个(N,D,L,H,W)的张量表示,其中D为点云的维度,L*H*W为体素的数量,N为每个体素内保存点云的数量,N=35。
(2)体素特征提取模块:图2为体素特征提取模块示意图,该网络将对上一步得到每一个体素的表示(N,D)进行特征提取。
将体素内每一个点的信息,经过全连接网络层,将原张量中的D维度生成C维度,以获得更多的点云特征信息。N个点云一共可以获得的特征为(N,C),随后进行最大值池化操作,获得该体素的池化特征为(1,C),最后将池化特征复制N份,拼接到(N,C)中,那么可以获得每个点云的特征与池化特征的拼接为(N,2C),最后再进行一次最大值池化操作,获得该体素特征表示为(1,2C)。
最后判断该体素是否为空体素(即特征全为0的补零体素),如果不是空体素,则将该体素特征保存在该体素位置所对应的当前帧的非空体素特征表中,反之不做任何处理。
(3)时序信息融合模块:如图3,为时序信息体素查询流程示意图,首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理。如果不为空体素,则将该体素的坐标位置传入TimeHash函数,获得对应的上一帧相同位置非空提速特征表所在的索引,然后获取上一帧的特征。
拿到上一帧对应位置的体素特征后,根据图4所示的时序信息融合模块示意图进行处理,假设当时时刻t中的体素特征为Ft=(1,2C),上一时刻t-1中位置i的体素特征为Ft-1=(1,2C),将两个体素特征平均分为四份,每一份的大小为(1,C/2),每份的向量再加上位置编码得到最后要传入注意力编码器的特征向量。获取最终要传入注意力编码器的特征向量8*(1,C/2)。
在注意力编码器中,首先对传入的每一份向量进行计算,将每一个向量的组成一个矩阵用X表示,即X=(8,C/2),获取Q,K,V,其中:
Q=X*Wq
K=X*Wk
V=X*Wv
Wq,Wk和Wv是可学习到的线性变换矩阵。将Q,K,V通过自注意力公式计算后,便可以获得融合了上下特征的特征向量。总的自注意力的计算公式为:
其中,dk是Q,K矩阵的列数,即向量维度。通过上一步注意力编码器后可以得到与输入维度相同的向量,即8个(C/2)向量,通过将前四个向量按顺序拼接,可以获得最终的当前体素融合了时序信息的特征向量Ftime=(1,2C),随后对每个体素进行相同步骤(2)和步骤(3)的操作,一共需要操作L*H*W次。
(4)使用空间信息融合模块进行特征提取:如图5为空间信息体素查询流程示意图。首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理。如果不为空体素,则计算得出该体素的周边体素坐标,分别将周边体素坐标传入ZoneHash函数计算出对应的非空体素特征。
如图6空间信息融合模块示意图所示:获取当前位置非空体素的特征和查询到的周边非空体素特征,送入注意力编码器进行注意力特征提取,保留输出向量的第一个作为最终该位置体素的特征向量,随后对每个体素进行相同的步骤(4)操作,一共需要操作L*H*W次。
(5)将融合了时空信息的特征图送入BEV转化模块:如图7所示,为BEV特征转化模块示意图。
将最终融合了时空信息的特征图F4D=(2C,L,H,W)送入检查网络完成预测,根据L*H*W的值,对F4D进行分解重塑,降为伪图像特征图FBEV=(2C,M,M),其中M=(L*H*W)/2。
(6)当FBEV通过2D特征提取网络模块和检测头模块后,输出检测结果主要为检测目标检测框的类别信息,中心点坐标,宽高长,以及偏航角,即(x,y,z,w,h,l,θ),通过损失函数来训练网络,使网络收敛,具体的损失函数为:
LCLS=-αa(1-pα)γlog pα
其中,L为总的损失函数,Npos为预测框的数量,LCLS为分类的损失函数,LIoc为位置的损失函数,Ldir为方向分类损失函数;βIoc,βCLS,βdir分别为位置损失函数的系数,分类损失函数的系数以及方向分类损失函数的系数。
P为预测框,G为真实框,IoU表示预测框与真实框重叠的比例。ρ2(P,G)表示预测框与真实框中心点距离的平方,c2指的是两个矩形框的闭包区域的对角线的距离的平方。参数p为样本为正值的概率;aa为权重系数,α,γ为系统的超参数。本系统采用IoU预测框与真实框之间的占比以及框之间的闭包区域的对角线完成位置回归的损失函数设计来提高预测框的位置以及预测框长度的准确度。
如图8所示,是本发明3D目标检测装置的较佳实施例的功能模块图。该装置共有七个功能模块,分别是体素下采样模块:用于对输入的点云场景进行体素化下采样,得到点云场景的张量表示;体素特征提取模块,获取每个体素的特征;时序信息融合模块,实现对非空体素特征与相对于位置前一帧体素的时空信息融合;空间信息融合模块,实现当前非空体素特征对周围的空间信息的融合;BEV特征转化模块,实现对融合了时空特征的特征图的降维转化为BEV特征图的操作;2D特征提取网络模块和检测头模块,对BEV特征图进行特征提取和目标检测结果预测。本方案融合了时空特征,从而实现对自动驾驶场景下目标的更准确且鲁棒的定位和识别。
如图9所示,是本发明实现3D目标检测方法的较佳实施例的电子设备的结构示意图。
本实施例提供的电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器,该电子设备包括至少一个处理器和存储器,两者通过数据总线连接。该存储器用于存储计算机程序或指令,该处理器用于执行相应计算机程序或指令,以使该电子设备能够实现实施例一中的3D目标检测模型的构建方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种3D目标检测方法,其特征在于,所述方法包括步骤:
(1)加载点云数据,对加载的点云数据预处理,使用向量表示每一个点云,划分场景为多个体素,同时对每一个体素编号,对每一个体素内进行随机点云下采样;
(2)对每个体素进行特征提取,获取每一个体素的特征,对于每一个非空体素,将提取后的体素特征保存在当前时刻的非空体素表中,以便后续查找;
(3)将当前时刻每一位置的非空体素特征送入时序信息融合模块,通过TimeHash函数找到上一时刻相对应位置的体素特征进行特征融合,此时当前时刻每一个体素特征融合了时序信息;
(4)将融合时序信息后的体素特征送入空间信息融合模块,每一个体素分别与其周边局部非空体素特征融合,得到总的融合了时空信息的4维特征图;
(5)将融合了时空信息的4维特征图送入BEV转化模块,转化为BEV特征图,便于加速后续检测推理;
(6)将上一步得到的BEV特征图接入2D特征提取网络和检测头网络进行目标检测,获得最终的预测结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中,读取原始雷达点云数据,在场景中按照点云数据所在的X,Y轴和Z轴方向,将点云数据划分为一个个的方体网格,凡是落入到一个网格的点云数据被视为其处在一个体素里,或者理解为它们构成了一个体素,同时对每一个体素根据坐标位置进行编号设为(xv,yv,zv);
读取体素中每一个点云的数据信息,其中包括点云坐标(x,y,z)和点云的反射强度r,假设每一个体素中点云的数量为Nsum,那么每个点云的信息可以用维度D=8的向量来表示,分别为D=(x,y,z,r,l,xv,yv,zv),其中x,y,z,r为送入的点云数据信息,l为点云与体素几何中心的相对位置;
其中,xv,yv,zv分别表示体素的中心点的坐标位置;
那么,单个体素可以用(N,D)的张量来表示,整个场景用一个(N,D,L,H,W)的张量表示,其中D为点云的维度,L*H*W为体素的数量,N为每个体素内保存点云的数量。
3.根据权利要求2所述的方法,其特征在于,步骤(2)中,采用简化后的PointNet网络对点云进行数据处理和特征提取,将体素内每一个点云的信息,经过全连接网络层,将原张量中的D维度生成C维度,N个点一共获得的特征为(N,C),随后进行最大值池化操作,获得该体素的池化特征(1,C),最后将池化特征复制N份,拼接到特征(N,C)中,获得特征每个点的特征与池化特征的拼接(N,2C),最后再进行一次最大值池化操作,获得该体素特征为表示(1,2C);
最后判断该体素是否为空体素,即特征全为0的补零体素,如果不是空体素,则将该体素特征保存在该体素位置所对应的当前帧的非空体素特征表中,反之不做任何处理。
4.根据权利要求3所述的方法,其特征在于,步骤(3)中,遍历当前时刻场景中每一个体素,首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理,如果不为空体素,则将该体素的坐标位置传入TimeHash函数,获得对应的上一帧相同位置非空体素特征表所在的索引,然后获取上一帧的特征;
假设当前时刻t中的非空体素特征为Ft=(1,2C),上一时刻t-1中位置i的体素特征为Ft-1=(1,2C),将两个体素特征平均分为四份,每一份的大小为(1,C/2),每份的向量再加上位置编码得到最后要传入注意力编码器的特征向量,获取最终要传入注意力编码器的特征向量8*(1,C/2);
在注意力编码器中,首先对传入的每一份向量进行计算,将每一个向量的组成一个矩阵用X表示,即X=(8,C/2),获取Q,K,V,其中:
Q=X*Wq
K=X*Wk
V=X*Wv
Wq,Wk和Wv是可学习到的线性变换矩阵;
将Q,K,V通过自注意力公式计算后,获得融合了上下特征的特征向量,总的自注意力的计算公式为:
其中,dk是Q,K矩阵的列数,即向量维度;
通过上一步注意力编码器后得到与输入维度相同的向量,即8个(C/2)向量,通过将前四个向量按顺序拼接,获得最终的当前体素融合了时序信息的特征向量Ftime=(1,2C),随后对每个体素进行相同操作,一共需要操作L*H*W次。
5.根据权利要求4所述的方法,其特征在于,步骤(4)中,遍历每一个体素,首先判断当前体素是否是空体素,如果是空体素则直接不做任何处理,如果不为空体素,则计算得出该体素的周边体素坐标,分别将周边体素坐标传入ZoneHash函数计算出对应的非空体素特征,获取当前位置非空体素的特征和查询到的周边非空体素特征,送入注意力编码器进行注意力特征提取,具体操作与上一步类似,保留输出向量的第一个作为最终该位置体素的特征向量,随后对每个体素进行相同的操作,一共需要操作L*H*W次。
6.根据权利要求5所述的方法,其特征在于,步骤(5)中,将最终融合了时空信息的特征图F4D=(2C,L,H,W)送入检查网络完成预测,根据L*H*W的值,对F4D进行分解重塑,降为3DBEV特征图FBEV=(2C,M,M),其中M=(L*H*W)/2。
7.根据权利要求6所述方法,其特征在于,步骤(6)中,当FBEV通过2D特征提取网络模块和检测头模块后,输出检测结果为检测目标检测框的类别信息,即x,y,z,w,h,l,θ,通过损失函数来训练网络,使网络收敛,网络的总的损失函数定义为:
LCLS=-αs(1-pα)γlogpα
其中,L为总的损失函数,LCLS为分类的损失函数,LIoc为位置的损失函数,Ldir为方向分类损失函数;βIoc,βCLS,βdir分别为位置损失函数的系数,分类损失函数的系数以及方向分类损失函数的系数;P为预测框,G为真实框,IoU表示预测框与真实框重叠的比例,ρ2(P,G)表示预测框与真实框中心点距离的平方,c2指的是两个矩形框的闭包区域的对角线的距离的平方,参数p为样本为正值的概率;as为权重系数,α,γ为系统的超参数,Npos为有效预测框数量。
8.一种如权利要求1-7任一项所述的方法对应的3D目标检测装置,其特征在于,所述检测装置包括:体素下采样模块、体素特征提取模块、时序信息融合模块、空间信息融合模块、2D特征提取网络模块、检测头模块。
9.一种电子设备,其特征在于,设置有如权利要求8所述的3D目标检测装置,该电子设备至少一个处理器和与所述处理器连接的存储器,其中:所述存储器用于存储计算机程序或指令;所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如权利要求1-7所述的3D目标检测方法。
CN202311039239.5A 2023-08-17 2023-08-17 一种3d目标检测方法、装置和电子设备 Pending CN117037141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311039239.5A CN117037141A (zh) 2023-08-17 2023-08-17 一种3d目标检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311039239.5A CN117037141A (zh) 2023-08-17 2023-08-17 一种3d目标检测方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117037141A true CN117037141A (zh) 2023-11-10

Family

ID=88635111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311039239.5A Pending CN117037141A (zh) 2023-08-17 2023-08-17 一种3d目标检测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117037141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874900A (zh) * 2024-03-12 2024-04-12 中钜(陕西)工程咨询管理有限公司 一种基于bim技术的房屋建筑工程监理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874900A (zh) * 2024-03-12 2024-04-12 中钜(陕西)工程咨询管理有限公司 一种基于bim技术的房屋建筑工程监理方法
CN117874900B (zh) * 2024-03-12 2024-05-24 中钜(陕西)工程咨询管理有限公司 一种基于bim技术的房屋建筑工程监理方法

Similar Documents

Publication Publication Date Title
CN110163904B (zh) 对象标注方法、移动控制方法、装置、设备及存储介质
CN112912890A (zh) 用于使用生成模型生成合成点云数据的方法和系统
US20220156483A1 (en) Efficient three-dimensional object detection from point clouds
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
CN112613378A (zh) 3d目标检测方法、系统、介质及终端
CN113267761B (zh) 激光雷达目标检测识别方法、系统及计算机可读存储介质
CN111091023A (zh) 一种车辆检测方法、装置及电子设备
CN117037141A (zh) 一种3d目标检测方法、装置和电子设备
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
CN114821505A (zh) 基于鸟瞰图的多视角3d目标检测方法、存储器及系统
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN114966603A (zh) 基于相机图像驱动的激光雷达点云目标检测方法及系统
CN113281780B (zh) 对图像数据进行标注的方法、装置及电子设备
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
WO2024055551A1 (zh) 点云特征提取网络模型训练、点云特征提取方法、装置和无人车
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN115937259A (zh) 运动目标检测方法、装置、飞行设备及存储介质
Yang et al. Research on Target Detection Algorithm for Complex Scenes
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和系统
Weber et al. Learning implicit depth information for monocular 3d object detection
CN116524329B (zh) 用于低算力平台的网络模型构建方法、装置、设备和介质
CN117132914B (zh) 通用电力设备识别大模型方法及系统
CN118096834A (zh) 一种基于yolo的多传感器融合动态物体跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination