CN116343194A - 基于垂直表征的双流3d目标检测学习方法及系统 - Google Patents
基于垂直表征的双流3d目标检测学习方法及系统 Download PDFInfo
- Publication number
- CN116343194A CN116343194A CN202310352859.8A CN202310352859A CN116343194A CN 116343194 A CN116343194 A CN 116343194A CN 202310352859 A CN202310352859 A CN 202310352859A CN 116343194 A CN116343194 A CN 116343194A
- Authority
- CN
- China
- Prior art keywords
- voxel
- sparse
- features
- voxels
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于垂直表征的双流3D目标检测学习方法及系统,方法为:对原始点云分别进行3D体素化和2D体素化处理后输入到稀疏卷积网络中,得到3D体素特征和2D体素特征;采用稀疏池化和扩张方法建立3D体素‑2D体素间双向关系;分别以3D体素特征和2D体素特征作为输入,使用密集融合模块进行不同层次的特征融合,得到基于元素的聚合特征;使用基于中心点回归的检测器并使用IoU进行得分修正,得到目标检测结果;稀疏融合操作放大3D体素在垂直方向的感受野,丰富2D体素内的细粒度语义信息,减少稀疏卷积期间的损失,提升目标检测问题中细小目标的准确度,采用稠密特征融合方法,将学习到的不同尺寸的3D体素和2D体素特征进行融合,进一步提高检测性能。
Description
技术领域
本发明属于智能交通技术领域,具体涉及基于垂直方向表征的双流3D目标检测学习方法及系统。
背景技术
3D目标检测根据图像或点云等输入信息,输出场景中目标的三维位置、尺寸、偏航角以及类别。相机和激光雷达是该任务常用的两种传感器。相机所获取的图像反映了场景的纹理信息,在进行检测时,需要对目标所处的深度进行预测。相比之下,激光雷达作为一种光电测距传感器,通过激光发射的角度和飞行时间(ToF),直接将测量数据转换为反映空间几何信息的点云数据。随着激光雷达的推广,以及点云对空间信息的精准度量和对光线变化不敏感的特性,基于纯点云数据的3D目标检测成为当前的研究主流方向。
3D目标检测算法根据点云特征提取的方式可分为两种,即网格化方法和基于点的方法。在网格化方法中,又分为3D体素化(voxel)方法和2D体素化(pillar)方法,对于3D体素化方法,点云转换为相对稠密的3D体素,有效提高了计算效率,但是通常使用的3D稀疏卷积限制了非空3D体素到空3D体素的真实扩散。导致在垂直方向上的感受野有限。
作为对比,2D体素化方法将将点云离散为2D柱形体素,其中每个2D体素对特定X-Y坐标中的所有相邻点进行编码,虽然这种范式获得了垂直方向的全感受野,并且计算量减小,可以增加效率,然而,它在捕获细粒度特征方面性能较弱。
发明内容
为了解决现有技术中存在的垂直方向细粒度语义信息的损失问题,本发明提供一种基于垂直表征的双流3D目标检测学习方法,丰富2D体素内的细粒度语义信息,减少稀疏卷积期间的损失,提升目标检测问题中细小目标的准确度,采用稠密特征融合方法,将学习到的不同尺寸的3D体素和2D体素特征进行融合,进一步提高检测性能。
为了实现上述目的,本发明采用的技术方案是:一种基于垂直表征的双流3D目标检测学习方法,包括以下步骤:
对原始点云分别进行3D体素化和2D体素化处理,得到3D体素和2D体素的初始特征;
将3D体素和2D体素的初始特征输入到双流的稀疏卷积网络中提取稀疏3D体素和稀疏2D体素特征;
对稀疏3D体素特征和稀疏2D体素特征采用稀疏池化和稀疏扩张操作建立双向关系,得到稀疏融合特征;
将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征;
对所述最终的融合特征使用基于中心点的回归检测器并得到最终3D目标检测结果。
将点云3D体素化并提取初始体素特征的过程为:将测量空间划分为大小相等的三维体素,并将点云投影到对应的体素中,构建体素索引,将非空体素中的点云进行动态编码,并均值池化操作后得到非空体素初始特征。
将点云2D体素化并提取初始2D体素特征的过程为:将测量空间的X-Y平面划分为大小相等的2D栅格,并将点云投影到2D栅格对应的2D体素中,采用PointNet网络并使用最大池化操作获得2D体素输入特征。
对3D体素和2D体素初始特征分别做特征提取的过程为:使用具有4个稀疏卷积模块的3D和2D稀疏卷积网络,对3D体素特征做一倍、二倍、四倍和八倍的下采样,其中包括常规3D稀疏卷积和子流3D稀疏卷积,常规3D稀疏卷积完成空间下采样操作,子流3D稀疏卷积约束输出位置与输入位置相同,同时对2D体素特征做一倍、二倍、四倍和八倍的下采样,其中包括常规2D稀疏卷积和子流2D稀疏卷积,常规2D稀疏卷积完成空间下采样操作,子流2D稀疏卷积约束输出位置与输入位置相同。
对稀疏3D体素和2D体素特征建立双向关系的过程为:对于3D体素到2D体素的转换关系,非空的3D体素特征使用稀疏池化操作映射到相同垂直方向的2D体素特征,所述2D体素特征在空间上与原始的稀疏2D体素特征一致,再使用2D子流卷积转换特征维度;对于2D体素到3D体素的转换关系,非空的2D体素特征首先经过2D子流卷积,再经过稀疏扩张操作形成对应空间位置的3D体素特征,3D体素和2D体素特征应用逐元素求和,得到稀疏融合特征。
将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征具体为:将稀疏融合特征转换为俯视视角稠密3D体素2D体素特征,使用2D卷积处理稠密3D体素特征和稠密2D体素特征,首先分别对3D体素分支和2D体素分支使用八倍和十六倍的下采样卷积块提取稠密特征,对同等尺寸下的3D和2D体素特征进行融合操作,通过上采样和拼接操作结合不同尺度的特征,之后通过卷积操作聚合最终的融合特征。
使用基于中心点的回归检测器并得到最终3D目标检测结果时,采用基于中心点的回归检测器,基于目标做回归和分类得分预测,使用IoU对分类得分进行修正,得到最终的预测分数。
基于方法的技术构思,本发明还提供一种基于垂直表征的双流3D目标检测学习系统,初始3D体素-2D体素特征提取模块、稀疏特征提取模块、稀疏融合模块、稠密特征融合模块以及目标预测与回归模块;
初始特征提取模块用于以原始点云作为输入,按照设定尺寸将点云进行3D体素化和2D体素化处理,得到3D体素-2D体素初始特征;
稀疏特征提取模块用于将3D体素和2D体素的初始特征输入到双流的稀疏卷积网络中提取稀疏3D体素和稀疏2D体素特征;
稀疏融合模块用于对稀疏3D体素特征和稀疏2D体素特征建立双向关系,得到稀疏融合特征;
稠密特征融合模块用于将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征;
目标预测与回归模块用于对最终的融合特征使用基于中心点的回归检测器并得到最终3D目标检测结果。
另外,提供一种计算机设备,包括处理器和存储器,存储器中存储可执行程序,处理器执行所述可执行程序时,能执行本发明所述的基于垂直表征的双流3D目标检测学习方法。
以及一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于垂直表征的双流3D目标检测学习方法。
与现有技术相比,本发明至少具有以下有益效果:本发明针对当前3D目标检测网格化方法导致的垂直方向细粒度语义信息损失问题,提出一个一阶段的基于垂直表征的双流3D目标检测框架;针对3D体素特征的稀疏卷积限制非空3D体素到空3D体素之间的扩散问题,提出稀疏融合操作,稀疏融合操作放大了3D体素在垂直方向的感受野,丰富了2D体素内的细粒度语义信息,减少了稀疏卷积期间的损失,可以提升目标检测问题中细小目标的准确度;利用稀疏池化操作和稀疏扩张操作获得3D体素特征和2D体素特征间的双向关系,来自3D体素分支的局部特征内容完善了2D体素表示;针对特征融合问题,采用稠密特征融合方法,将学习到的不同尺寸的3D体素和2D体素特征进行融合,进一步提高检测性能。
附图说明
图1为本发明实施例提供的一种基于垂直表征的双流3D目标检测方法的框图。
图2为本发明实施提供的3D体素-2D体素下采样过程示意图。
图3为本发明与其他检测方法在推理时间和表现层面的对比图。
图4为本发明实施提供的3D目标检测方法在Waymo Open数据集上检测效果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
本发明实施例提供一种基于垂直表征的双流3D目标检测方法,减少垂直方向细粒度语义信息的损失,并通过不同深层次的3D体素-2D体素特征相互融合提高目标检测效果。如图1所示,首先对原始点云分别进行3D体素化和2D体素化处理,后输入到稀疏卷积网络中。得到3D体素特征和2D体素特征;采用稀疏池化和稀疏扩张方法建立3D体素-2D体素间的双向关系;分别以3D体素特征和2D体素特征为输入,使用密集融合模块进行不同层次的特征融合,得到基于元素的聚合特征;使用基于中心点的回归检测器和IoU进行得分修正,得到最终的目标检测结果;具体实施步骤如下:
步骤一、对原始点云分别进行3D体素化和2D体素化处理。如图1所示,本发明作为双流目标检测方法,包含两个分支,即3D体素化分支和2D体素化分支。
在3D体素化分支中,给定点云其中N是点云个数,本发明将测量空间划分为等大小的3D体素,分辨率为L×W×H,接着点云S通过预定义的3D体素大小进行量化,生成点到3D体素索引/>随后,使用均值池化层得到非空3D体素初始特征;
在2D体素化分支中,将测量空间的X-Y平面划分为等大小的2D栅格,分辨率为L×W,接着点云S通过预定义的2D体素大小进行量化,由于俯视视角中3D体素和2D体素的一致性,直接移除3D体素索引中的垂直方向索引即可获得2D体素索引最后,使用PointNet网络和最大池化操作生成2D体素初始特征。
步骤二、对3D体素初始特征和2D体素初始特征使用双流稀疏卷积骨干网络分别处理,提取生成稀疏3D体素和稀疏2D体素特征。
如图1所示,本发明使用具有4个稀疏卷积模块的3D和2D稀疏卷积网络,其中四个稀疏卷积模块分别以1倍、2倍、4倍和8倍下采样尺寸部署,以顺序生成稀疏3D体素和稀疏2D体素特征。其中3D体素分支包含一个3D常规稀疏卷积层和几个3D子流稀疏卷积层,2D体素分支包含一个2D常规稀疏卷积层和几个2D子流稀疏卷积层;常规稀疏卷积实现空间下采样,子流稀疏卷积约束输出和输入特征位置相同。
如图2所示,将水平维度上的2D和3D规则稀疏卷积的内核大小、步长和填充操作设置相同,用以保证同空间语义下的3D体素特征和2D体素特征在X-Y平面位置相同。
步骤三、使用稀疏融合层(SFL)对输入的稀疏3D体素特征和稀疏2D体素特征建立双向关系。
根据步骤一可知,每个3D体素索引为与其对应的特征为 Nv为非空3D体素数量,Dv为3D体素特征维度。同样,每个2D体素索引为其对应的特征为/>对于包含非空2D体素的特定X-Y坐标,都可以找到与之拥有相同水平索引的3D体素,进行比较获得:
cj={vi|li=lj,wi=wj,i=1,…,Nv}
对于作为输入的稀疏3D体素,稀疏特征融合层(Sparse Fusion Layer)首先计算3D体素-2D体素索引稀疏特征通过两条路径互相作用。对于3D体素-2D体素关系,3D体素特征经过稀疏池化操作在垂直方向进行累计得到2D体素类特征,尺寸为(Np,Dv)。应用2D子流稀疏卷积将空间上与原始稀疏特征一致的2D体素类特征转化成与原始特征空间和维度一致,生成尺寸为(Np,Dp)的2D体素类特征/>
随后,分别对3D类体素和2D体素类特征应用逐元素求和,得到稀疏融合特征:
步骤四、将稀疏融合特征转换为俯视视角(BEV)稠密特征,并进行特征融合。
将上阶段获得的稀疏融合特征使用稠密化操作,转换为俯视视角(BEV)稠密3D体素和2D体素特征。将该特征输入到稠密特征融合网络模块(DFN),稠密特征融合网络模块充分利用分稠密3D体素和2D体素特征并进行多尺度的特征融合。如图1所示,稠密特征融合网络模块中,分别使用8倍和16倍下采样尺寸的卷积模块Block(M,D)对3D体素和2D体素分支分别提取稠密特征,其中Block(M,D)代表M个卷积层和D个输出维度。接下来,通过逐元素求和来融合具有相同尺度的稠密3D体素和2D体素特征,再通过上采样和拼接操作结合不同尺度的特征,之后通过另一个卷积块操作来聚合最终的融合特征。
步骤五、以最终的融合特征作为输入,训练目标检测器,采用基于中心点回归的检测器和IoU校正法将回归精度和分类分数相结合。
除了使用分类预测头和3D框回归检测外,使用交并比预测来估计检测框和真实框之间的交并比。最终预测得分由以下校正函数给出:
其中Scls是分类得分,IoUpred是预测得到的交并比,α是一个超参数用于平衡Scls与IoUpred。IoU由L1损失函数进行监督,并编码为(2*IoU-0.2)∈[-1,1].
另外,还加入距离相关的IoU损失来进一步优化目标中心回归,具体为:
其中IoU(b,bgt)代表3D预测框b和真实框bgt之间的交并比,c代表预测框b和真实框bgt之间的中心点偏移,d指包含预测框b和真实框bgt的最小封闭长方体覆盖的对角线距离。
总的损失函数定义为:
实验与分析、本发明在数据规模最大的Waymo Open 3D目标检测数据集上评估本发明方法并与最新方法进行比较,同时还进行了消融实验以分析各个模块的有效性。
Waymo Open Dataset是最大的自动驾驶数据集,收集了多地不同天气条件下的数据。该数据集由1000个带标注的序列组成,其中798个序列(约15.8万点云样本)被分割为训练集,其他202个序列(约4万点云样本)组成验证集。点云数据被截断到75米内。除了坐标和反射强度外,点云数据还包括延展率(elongation)。该数据集的评估指标是平均精度(mAP)和朝向加权的平均准确率(mAPH),其中车辆、行人的IoU阈值分别设置为0.7和0.5。数据集分为两个难度级别,超过5个点的目标为LEVEL_1,而包含至少1个点的目标为LEVEL_2。
本发明展示了主要结果以及与Waymo Open数据集上最新算法的比较,本发明可以使用多种神经网络进行部署,具有四种不同参数尺度的变体,记作VPFusion V1-V4,其中VPFusion V1为3D体素分支部署常用的3D体素CNN,为2D体素分支部署具有稀疏2D卷积的VGGNet;VPFusion V2部署带残差结构的3D体素CNN和VGGNet;VPFusion V3部署常用的3D体素CNN和ResNet18;VPFusion V4部署常用的3D体素CNN和ResNet34。所有变体都采用相同的方案进行训练。
如表1所示,本发明作为一阶段检测器,在所有的一阶段和二阶段检测器对比中,都得到了最先进的结果,并且大幅度领先于基于3D体素的AFDetV2和基于2D体素的PillatNet,在行人和自行车的小目标类别中效果更加明显。本发明VPFusion V4相较于二阶段网络FSD在汽车和行人类别效果明显。
此外,如表2所示本发明还在WOD测试数据集上进行实验并和所有已发布的仅使用激光雷达数据的检测方法进行对比,发现本发明在所有方法中领先,显著超过PV-RCNN++和其他基于网格的检测方法,这证明本发明的检测方法和3D体素-2D体素编码范式的有效性。
另外,如表3所示,本发明还在nuScenes的测试数据集上,对比评估VPFusion-V3和其他先进的仅使用激光雷达数据检测方法的表现,发现本发明在mAP和NDS指标方面领先于之前的方法,并有相当大的改进,尤其在垂直敏感性目标(人、自行车)检测中提升最大。
同时,如图3所示,本发明将性能与推理时间与最先进的方法进行了比较,VPFusion的四个变体推理时间分别为68ms,72ms,78ms和82ms,与PillarNet对比,虽然推理速度减慢,但是检测精度大幅提升;另一方面与先进的FSD对比发现,在效果几乎相同情况下,本发明推理速度更快。因此可证明本发明的方法在性能和推理速度之间取得了更好的平衡。图4展示了本发明在Waymo Open数据集上的检测效果图。本发明提出的方法在目标密集分布和点云稀疏的场景下能精准识别目标(图4前两行)。图4后两行展示部分失效场景,原因为点云过于稀疏以及前背景点云混淆,可通过时序点云融合和图像-点云融合解决。
表1:不同难度划分下Waymo Open数据集验证集结果对比
表2:不同难度划分下Waymo Open数据集测试集检测结果对比
表3:nuScenes数据集测试集检测结果对比
为了验证本发明所述方法的效果,本发明基于Waymo Open数据集进行了广泛的实验。由
于VPFusion结合了3D体素和2D体素编码范式,将流行的CenterPoint和PillarNet作为两个基线对3D体素-2D体素编码融合的有效性进行验证。如表4所示,VPFusion通过将密集3D体素特征和2D体素特征只经过DFN模块融合,在LEVEL_2难度下获得0.5的mAPH指标性能提升,若只经过SFL引入双向关系,可以获得1.7的mAPH指标性能提升。同时配备稠密特征融合网络(DFN)和稀疏特征融合层(SFL)则可以较基线获得极大的提升。除此之外,实验使用非极大值抑制方法(NMS)集合CenterPoint和PillarNet的预测,如表3的第三行所示,尽管此模型获得了等同于添加DFN模块的效果,但是却增加了巨大的延迟。
为了验证SFL层中建立3D体素-2D体素双向关系的必要性,因为SFL模块由3D体素到2D体素和2D体素到3D体素两条分支组成,本发明针对单向关系和双向关系的表现做对比实验。如表4所示,每个单向关系都可以获得明显的表现提升,应用双向关系可以获得最佳效果。还注意到3D体素到2D体素的路径对本发明的模块贡献更大。经过分析,这是因为来自3D体素分支的局部特征内容完善了2D体素表示。另外,如表5所示,本发明进行对于不同阶段部署稀疏融合模块(SFL)的效果对比,实验表明,模型的性能随着每个阶段稀疏融合模块(SFL)的堆叠而提高,这是因为稀疏融合模块(SFL)放大了3D体素在垂直方向的感受野,丰富了2D体素内的细粒度语义信息,减少了稀疏卷积期间的损失。
最后,本发明验证稠密特征融合网络(DFN)模块的效果。在本发明的框架中,稠密特征融合在稀疏骨干网络之后,但是所有信息都可以在稀疏融合模块(SFL)中进行聚集,因此,设计实验研究应用稠密特征融合网络对单个3D体素或2D体素分支进行处理是否可以实现类似的性能。在最后一个稀疏融合模块(SFL)之后保留单个3D体素或2D体素分支,并应用稠密特征融合网络来处理单独的密集3D体素或2D体素特征图。如表6所示,本发明提出的DFN模块才具有最好的性能。
表4:单个模块的影响对比
表5:单向关系与双向关系对比
表6:稀疏融合模块(SFL)在不同阶段部署的对比
表7:稠密特征融合网络(DFN)必要性对比
本发明整个稀疏卷积网络包括四个稀疏卷积模块,其中3D稀疏卷积以非空3D体素及其对应3D体素特征和索引为输入进行特征提取,2D稀疏卷积以非空2D体素及其对应2D体素特征和索引为输入进行特征提取;四个稀疏卷积模块分别对3D体素特征和2D体素特征做一倍、二倍、四倍和八倍的下采样,获得的2D体素特征直接转化为稠密的俯视图特征,获得的3D体素特征经过Z轴方向上的累加获得稠密的俯视图特征;每个稀疏卷积模块中还包含一个稀疏特征融合层,其中3D体素特征经过稀疏池化(sparse pooling)操作映射到对应的2D体素特征,2D体素特征经过稀疏扩张(sparse broadcast)操作散射到具有反向索引的3D体素特征,稀疏特征融合层融合稀疏3D体素特征和稀疏2D体素特征;
将经过稀疏骨干网络处理得到的稠密特征输入到2D的卷积神经网络进行多层级的特征融合;具体的,将处理后的稠密特征输入到密集融合模块,依次采用八倍和十六倍的下采样对3D体素和2D体素分支分别处理,将同尺度的3D体素和2D体素特征进行元素级整合,再使用上采样将不同尺度的特征拼接,通过另一个卷积块来融合最终的融合特征;对最终的融合特征进行目标检测以及训练回归,采用基于中心点回归的检测器和IoU纠正法将回归精度和分类分数相结合。
基于以上构思本发明提供基于垂直表征的双流3D目标检测学习系统,初始3D体素-2D体素特征提取模块、稀疏特征提取模块、稀疏融合模块、稠密特征融合模块以及目标预测与回归模块;
初始特征提取模块用于以原始点云作为输入,按照设定尺寸将点云进行3D体素化和2D体素化处理,得到3D体素-2D体素初始特征;
稀疏特征提取模块用于将3D体素和2D体素的初始特征输入到双流的稀疏卷积网络中提取稀疏3D体素和稀疏2D体素特征;
稀疏融合模块用于对稀疏3D体素特征和稀疏2D体素特征建立双向关系,得到稀疏融合特征;
稠密特征融合模块用于将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征;
目标预测与回归模块用于对最终的融合特征使用基于中心点的回归检测器并得到最终3D目标检测结果。
另外,本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于垂直表征的双流3D目标检测学习方法。
所述计算机设备可以采用笔记本电脑、车载计算机、桌面型计算机或工作站。
处理器可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于垂直表征的双流3D目标检测学习方法。
对于本发明所述存储器,可以是笔记本电脑、车载计算机、桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (10)
1.一种基于垂直表征的双流3D目标检测学习方法,其特征在于,包括以下步骤:
对原始点云分别进行3D体素化和2D体素化处理,得到3D体素和2D体素的初始特征;
将3D体素和2D体素的初始特征输入到双流的稀疏卷积网络中提取稀疏3D体素和稀疏2D体素特征;
对稀疏3D体素特征和稀疏2D体素特征采用稀疏池化和稀疏扩张操作建立双向关系,得到稀疏融合特征;
将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征;
对所述最终的融合特征使用基于中心点的回归检测器并得到最终3D目标检测结果。
2.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,将点云3D体素化并提取初始体素特征的过程为:将测量空间划分为大小相等的三维体素,并将点云投影到对应的体素中,构建体素索引,将非空体素中的点云进行动态编码,并均值池化操作后得到非空体素初始特征。
3.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,将点云2D体素化并提取初始2D体素特征的过程为:将测量空间的X-Y平面划分为大小相等的2D栅格,并将点云投影到2D栅格对应的2D体素中,采用PointNet网络并使用最大池化操作获得2D体素输入特征。
4.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,对3D体素和2D体素初始特征分别做特征提取的过程为:使用具有4个稀疏卷积模块的3D和2D稀疏卷积网络,对3D体素特征做一倍、二倍、四倍和八倍的下采样,其中包括常规3D稀疏卷积和子流3D稀疏卷积,常规3D稀疏卷积完成空间下采样操作,子流3D稀疏卷积约束输出位置与输入位置相同,同时对2D体素特征做一倍、二倍、四倍和八倍的下采样,其中包括常规2D稀疏卷积和子流2D稀疏卷积,常规2D稀疏卷积完成空间下采样操作,子流2D稀疏卷积约束输出位置与输入位置相同。
5.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,对稀疏3D体素和2D体素特征建立双向关系的过程为:对于3D体素到2D体素的转换关系,非空的3D体素特征使用稀疏池化操作映射到相同垂直方向的2D体素特征,所述2D体素特征在空间上与原始的稀疏2D体素特征一致,再使用2D子流卷积转换特征维度;对于2D体素到3D体素的转换关系,非空的2D体素特征首先经过2D子流卷积,再经过稀疏扩张操作形成对应空间位置的3D体素特征,3D体素和2D体素特征应用逐元素求和,得到稀疏融合特征。
6.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征具体为:将稀疏融合特征转换为俯视视角稠密3D体素2D体素特征,使用2D卷积处理稠密3D体素特征和稠密2D体素特征,首先分别对3D体素分支和2D体素分支使用八倍和十六倍的下采样卷积块提取稠密特征,对同等尺寸下的3D和2D体素特征进行融合操作,通过上采样和拼接操作结合不同尺度的特征,之后通过卷积操作聚合最终的融合特征。
7.根据权利要求1所述的基于垂直表征的双流3D目标检测学习方法,其特征在于,使用基于中心点的回归检测器并得到最终3D目标检测结果时,采用基于中心点的回归检测器,基于目标做回归和分类得分预测,使用IoU对分类得分进行修正,得到最终的预测分数。
8.基于垂直表征的双流3D目标检测学习系统,其特征在于,初始3D体素-2D体素特征提取模块、稀疏特征提取模块、稀疏融合模块、稠密特征融合模块以及目标预测与回归模块;
初始特征提取模块用于以原始点云作为输入,按照设定尺寸将点云进行3D体素化和2D体素化处理,得到3D体素-2D体素初始特征;
稀疏特征提取模块用于将3D体素和2D体素的初始特征输入到双流的稀疏卷积网络中提取稀疏3D体素和稀疏2D体素特征;
稀疏融合模块用于对稀疏3D体素特征和稀疏2D体素特征建立双向关系,得到稀疏融合特征;
稠密特征融合模块用于将稀疏融合特征转换为俯视视角稠密特征,并输入到2D卷积网络进行多层级的特征融合,得到最终的融合特征;
目标预测与回归模块用于对最终的融合特征使用基于中心点的回归检测器并得到最终3D目标检测结果。
9.一种计算机设备,其特征在于,包括处理器和存储器,存储器中存储可执行程序,处理器执行所述可执行程序时,能执行权利要求1至7中任一项所述的基于垂直表征的双流3D目标检测学习方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现权利要求1至7中任一项所述的基于垂直表征的双流3D目标检测学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310352859.8A CN116343194A (zh) | 2023-04-04 | 2023-04-04 | 基于垂直表征的双流3d目标检测学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310352859.8A CN116343194A (zh) | 2023-04-04 | 2023-04-04 | 基于垂直表征的双流3d目标检测学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343194A true CN116343194A (zh) | 2023-06-27 |
Family
ID=86894801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310352859.8A Pending CN116343194A (zh) | 2023-04-04 | 2023-04-04 | 基于垂直表征的双流3d目标检测学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343194A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664874A (zh) * | 2023-08-02 | 2023-08-29 | 安徽大学 | 一种单阶段细粒度轻量化点云3d目标检测系统及方法 |
-
2023
- 2023-04-04 CN CN202310352859.8A patent/CN116343194A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664874A (zh) * | 2023-08-02 | 2023-08-29 | 安徽大学 | 一种单阶段细粒度轻量化点云3d目标检测系统及方法 |
CN116664874B (zh) * | 2023-08-02 | 2023-10-20 | 安徽大学 | 一种单阶段细粒度轻量化点云3d目标检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706480B (zh) | 一种基于关键点多尺度特征融合的点云3d目标检测方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN113312983B (zh) | 基于多模态数据融合的语义分割方法、系统、装置及介质 | |
CN115082674A (zh) | 基于注意力机制的多模态数据融合三维目标检测方法 | |
CN113920499A (zh) | 一种面向复杂交通场景的激光点云三维目标检测模型及方法 | |
CN114581887B (zh) | 车道线的检测方法、装置、设备和计算机可读存储介质 | |
CN113762267B (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN111898539A (zh) | 一种多目标检测方法、装置、系统、设备及可读存储介质 | |
CN117152414A (zh) | 一种基于尺度注意力辅助学习方法的目标检测方法及系统 | |
CN112861727A (zh) | 一种基于混合深度可分离卷积的实时语义分割方法 | |
CN116343194A (zh) | 基于垂直表征的双流3d目标检测学习方法及系统 | |
CN116665153A (zh) | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 | |
CN113762003A (zh) | 一种目标对象的检测方法、装置、设备和存储介质 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN116844129A (zh) | 多模态特征对齐融合的路侧目标检测方法、系统及装置 | |
CN114494248A (zh) | 基于点云和不同视角下的图像的三维目标检测系统及方法 | |
CN114118247A (zh) | 一种基于多传感器融合的无锚框3d目标检测方法 | |
Chidanand et al. | Multi-scale voxel class balanced ASPP for LIDAR pointcloud semantic segmentation | |
CN116310368A (zh) | 一种激光雷达3d目标检测方法 | |
CN116152800A (zh) | 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质 | |
Jiangzhou et al. | Research on real-time object detection algorithm in traffic monitoring scene | |
CN114005110A (zh) | 3d检测模型训练方法与装置、3d检测方法与装置 | |
CN117092612B (zh) | 基于激光雷达的自动驾驶导航方法 | |
Guo et al. | Multi-Layer Fusion 3D Object Detection via Lidar Point Cloud and Camera Image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |