CN116468950A - 一种类别引导中心点邻域搜索半径的三维目标检测方法 - Google Patents
一种类别引导中心点邻域搜索半径的三维目标检测方法 Download PDFInfo
- Publication number
- CN116468950A CN116468950A CN202310440172.XA CN202310440172A CN116468950A CN 116468950 A CN116468950 A CN 116468950A CN 202310440172 A CN202310440172 A CN 202310440172A CN 116468950 A CN116468950 A CN 116468950A
- Authority
- CN
- China
- Prior art keywords
- point
- center point
- points
- neural network
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 44
- 230000002776 aggregation Effects 0.000 claims description 31
- 238000004220 aggregation Methods 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 229940050561 matrix product Drugs 0.000 claims description 2
- 230000005251 gamma ray Effects 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 230000008447 perception Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种类别引导中心点邻域搜索半径的3D目标检测方法,包括如下:(1)激光雷达点云不改变点云的结构,在数据预处理阶段,需将不同场景采集的点云均降采样到一个固定数值N,作为神经网络的输入;(2)建立神经网络结构,利用已知的目标检测数据集对神经网络结构进行训练,设置总的损失函数对神经网络输出进行监督,获取完成训练的神经网络结构参数;(3)将自动驾驶场景下激光雷达采集的点云输入到训练完成的神经网络结构中,输出神经网络的类别信息和3D预测框的回归残差,根据当前场景的分类结果和回归残差进行3D预测框的计算,获取最终的预测结果。本发明方法可为自动驾驶真实场景下的3D目标检测提供解决方案。
Description
技术领域
本发明属于自动驾驶感知技术领域,涉及一种基于激光雷达点云的三维目标检测方法,特别是涉及一种类别引导中心点邻域搜索半径的三维目标检测方法。
背景技术
为了全面了解驾驶环境,自动驾驶的感知系统涉及到许多基础视觉任务,例如目标检测和跟踪、车道线检测、语义和实例分割等。在这些感知任务中,3D目标检测是车辆感知系统中最不可或缺的任务。3D目标检测旨在预测3D空间中关键目标的位置、大小、朝向和类别,其中类别包括机动车辆、行人、骑自行车的人等。与仅在图像上生成2D边界框而忽略关键目标与当前车辆的实际距离信息的2D目标检测相比,3D目标检测则更侧重于对真实世界3D坐标系中目标的定位和识别。3D目标检测在现实世界坐标中预测的几何信息可以直接用于测量本车与关键目标之间的距离,并进一步帮助规划行驶路线和避免碰撞。
其中,根据激光雷达点云在3D目标检测方法中的表现形式和对应的特征提取网络可以分为基于体素、基于支柱、基于视图、基于点四种类型。
体素可以类比二维图像中的像素,是一种3D空间中规则的有序的数据表示形式。基于体素的方法首先将不规则点云根据坐标转换为紧凑形状的体素,以便通过3D卷积神经网络有效地提取用于3D目标检测的网格特征,接着将3D特征图沿着高度这一维度重塑为鸟瞰图视角下的2D特征,复用2D目标检测领域的区域候选网络来生成最终的3D检测框。VoxelNet是首个利用体素来完成3D目标检测任务的网络,它引入了体素特征提取VFE(Voxel Feature Extraction)的概念,可以从单个体素内中的点捕获3D形状信息,完成对初始体素特征向量的编码。但是由于3D卷积神经网络的计算效率问题导致其在实时性方面表现较差。SECOND在此基础上提出了一个更加高效的主干网络,利用3D稀疏卷积(3DSparseConvolution)算子来仅对有效的、非空的体素进行特征提取,极大地提升了网络的推理速度。除了卷积算子外,SST利用自注意力机制网络对体素进行特征提取,主要的动机在于体素在经过卷积神经网络后,特征图相较于输入会出现分辨率下降的问题,而关键目标在低分辨率特征图对应的特征非常少,造成误检,注意力机制的优势在于特征提取过程中分辨率保持不变,可以更好地提升网络的检测精度,但注意力机制计算复杂度高,导致实时性差。
与体素的表示形式类似,基于支柱的表示忽略了沿着高度这一维度的划分,并将3D空间划分为固定大小的支柱。直观地,支柱可以被视为高度的未划分的体素,因此基于支柱的点云表示可以被视为多通道的鸟瞰图视角伪图像。最具代表性的基于支柱的特征提取模块由PointPillars提出。首先将点云根据坐标划分为多个支柱,并确定每个支柱的最大点数,不足补零,超过则采样。支柱内的每个点由一个9维矢量编码,该矢量由其原始位置、反射强度、距支柱中心以及距支柱形心坐标(支柱内所有点的算术平均值)的偏移距离组成,支柱的特征通过微型的PointNet来提取。特征提取主干网络是由2D卷积操作组成,相比于体素的3D卷积操作,可以极大地提高推理效率,同时便于部署,也是工业界常采用的感知算法框架之一。
在基于投影的表示中,3D空间中的点在透视变换下投影到2D平面。距离视图投影是点云投影到球形表面,其原点位于激光雷达传感器上。
给定具有三维坐标[xi,yi,zi]的点,其球坐标表示[φi,θi,di]计算如公式(1–1)所示。
Range RCNN是基于视图的代表性网络。首先,激光雷达点云被投影到距离视图,每个像素由5维向量(x,y,z,d,r)编码,其中(x,y,z)是点坐标,r是点的反射强度,d是点到激光雷达传感器的距离。特征提取主干网络采用2D卷积操作学习像素特征。为了解决距离视图中对象的遮挡和比例变化问题,实现了一个距离视图->点->鸟瞰图模块,用于将特征从距离视图像素传输到3D空间的点,然后从3D空间的点传输到鸟瞰图特征图。
基于点的表示形式保留了点云的非结构化形式。但是,为了高效的并行计算,需要降采样到固定大小。基于点的3D目标检测方法常采用随机采样和最远点采样两种采用算法,将点云从原始大小多次降采样为较小的固定大小N个点来实现。在随机采样中,随机选取点,直到选取N个点。然而,这种采样方法的缺点是相比于点云稀疏的区域,点云稠密的区域的点更容易被采样。最远点采样算法通过迭代过程根据最远距离标准采样点,从而减轻这种偏差。与随机采样的点云相比,最远点采样算法采样的结果是更具代表性的点云,但也导致计算成本增加。生成的子采样点云的每个点都使用相同的特征进行编码。而对于3D目标检测任务,目标3D真值框内的前景点更具价值,所以之后也发展出将点在神经网络中产生的语义特征代替欧式距离的最远点采样算法的变种,或者利用语义类别信息来监督降采样过程,这些设计的目的都是为了让更多的前景点在降采样的过程中尽可能更多地保留下来。然而在网络进行多类别目标检测时候,为了照顾尺寸大的关键目标,中心点邻域搜索半径通常设置为较大的、统一的值,这样会让尺寸小的目标聚合到大量背景点的信息,造成误检。在同一个网络中实现多类别的3D目标检测也是自动驾驶场景下对感知系统最基本的要求。
发明内容
本发明的目的在于针对现有技术的不足,提供一种类别引导中心点邻域搜索半径的三维目标检测方法,通过利用特征提取主干网络中保留下的点在神经网络中丰富的语义特征,推断中心点的类别信息,来控制中心点邻域搜索半径的生成,实现3D目标检测网络多类别检测的精度平衡,为自动驾驶真实场景下的3D目标检测提供解决方案。
本发明提出的类别引导中心点邻域搜索半径的3D目标检测方法,基于点的表现形式,不改变点云的原始结构,最大程度上保留点云的3D几何信息。同时,为了解决点云在降采样过程中计算耗时的问题,此方法利用点云在神经网络中丰富的特征来推测点的前/背景分类结果,每次选取前景点置信度高的点保留到下一阶段,一方面加速了采样过程,避免了大量的距离计算问题,另一方面能够让更多有效的前景点在降采样中得以保留,保证了算法的检测精度。为了实现多类目标检测的精度平衡性,类别引导的中心点邻域搜索半径生成模块针对尺寸不同的类别设置了不同大小的邻域搜索半径,让小目标更加专注自身点云的特征,排除背景点的干扰,提升小目标的检测精度。基于通道级注意力机制的中心点特征聚合模块不仅考虑不同邻居节点还考虑了节点特征不同通道对中心点的贡献程度不同,充分挖掘邻居节点的几何特征,形成更加细粒度的实例级特征。点锚框机制平衡了正负样本的数量,并很大程度上缓解了目标朝向难以预测的问题,提升了网络的检测召回率。此方法满足实时性要求的同时,也达到了基于点的同类型算法的最佳检测精度。
本发明采用的技术方案步骤如下:
(1)本发明中激光雷达点云基于点的表现形式,不改变点云的结构,最大程度上保留点云原始的3D几何信息。在数据预处理阶段,为了神经网络并行化操作,需要在预处理阶段将不同场景采集的点云均降采样到一个固定数值N,作为神经网络的输入;
(2)建立神经网络结构,利用已知的数据集对神经网络结构进行训练,设置总的损失函数对神经网络输出进行监督,获取完成训练的神经网络结构参数;
(3)将自动驾驶场景下激光雷达采集的点云输入到训练完成的神经网络结构中,输出神经网络的类别信息和3D预测框的回归残差,根据当前场景的分类结果和回归残差进行3D预测框的计算,获取最终的预测结果。
所述步骤(1)中,因为本发明基于点的表现形式,所以无需对点云进行任何的数据表现形式的转换,但为了神经网络训练过程的并行化,需要将不同场景采集的点云均降采样到同一数值N,作为神经网络的输入。
所述步骤(2)中,神经网络结构包括基于点的特征提取主干网络、中心点生成模块、中心点邻域搜索半径生成模块、基于通道级注意力机制的中心点特征聚合模块和基于点锚框机制的检测头模块。点云的原始特征输入到基于点的特征提取主干网络中,中心点生成模块和中心点邻域搜索半径生成模块并行在后,为后面基于通道级注意力机制的中心点特征聚合模块提供中心点3D坐标和中心点类别信息。基于点锚框机制的检测头与中心点特征聚合模块相连,作为神经网络的输出。
所述基于点的特征提取主干网络包含四个降采样-特征聚合块首尾相连组成,前两个块中的降采样策略采用最远点采样算法,后两个块中的采样策略利用语义信息引导,特征聚合块操作保持一致。
输入点云为N个点,首先经过第一个降采样模块,最远点采样算法后,N1个点保留下来,然后完成特征聚合。具体来说,首先给N1个点设置统一的邻域搜索半径,搜索范围为初始点云的N个点,搜索方式为球形搜索,根据搜索结果完成分组过程,于是保留下的N1个点均有n1个邻居节点;对于每个分组,需要完成特征聚合,首先将邻居节点特征输入多层感知机网络进行升级维度操作,为了保留明显的特征,在点维度进行最大池化操作,获取当前点的特征。为了获取不同层次的特征,邻域搜索过程进行两次,两次邻域搜索的半径不同,两次分组得到的不同层次特征再次输入多层感知机网络,完成特征融合;N1个点及其特征作为第二个降采样块的输入,和前一个块保持一致,首先需要进行最远点采样算法,得到保留下的N2个点,经过两次邻域搜索和分组的过程完成特征汇合。此时保留下的点特征已经具备丰富的语义信息,于是利用语义信息监督降采样的过程,具体来说,将两个多层感知机层附加到编码层以进一步判断每个点的语义类别,其中,真值框内的点云被标记为前景点,来当作点云的标签信息用来监督训练过程。N2个点及其特征作为第三个降采样块的输入,取前景点置信度最高的N3个点保留下来,经过两次邻域搜索分组完成特征汇合。N3个点以及特征作为第四个降采样块的输入,前景点置信度最高的N4个点得以保留,经过两次邻域搜索分组完成特征汇合。基于点的特征提取主干网络完成特征提取。
所述中心点生成模块通过显式预测前景点到目标正中心的偏移量来完成预测。N4个点以及特征作为此模块的输入,经过两个多层感知机网络得到偏移量的输出,偏移量加上前景点坐标得到最终的目标中心坐标的预测值。
所述中心点邻域搜索半径生成模块通过预测前景点的类别信息来完成中心点类别的推断。N4个点以及特征作为此模块的输入,经过两个多层感知机网络来得到类别信息预测信息。
所述基于通道级注意力机制的中心点特征聚合模块的输入为中心点坐标的预测值、中心点的类别信息、N3个点以及特征。首先完成的还是分组,根据N4个中心点的坐标以及类别对应的邻域搜索半径在N3个点的范围内来进行球形搜索,完成邻居节点的搜寻,得到分组结果。完成分组之后,对于每个分组,将中心点嵌入向量特征作为Query向量,其搜索的邻居节点特征作为Key向量和Value向量。首先转置Query向量,将其与Key向量作矩阵乘积得到N×1向量,然后将其沿着第二维度重复为N×D向量,与Key维度保持一致,作哈达玛积得到N×D矩阵,将空间信息传播到每个通道以保持通道差异,将N×D矩阵与Value向量再次作哈达玛积,得到中心点实例级特征向量。为了获取不同层次的特征,分组过程进行两次,两次的邻域搜索半径不同,两次得到的中心点特征进行特征汇合得到最终的中心点实例级特征。
所述基于点锚框机制的检测头,包含3D预测框分类和残差回归两个分支。点锚框机制本质上是锚框机制和无锚框机制的一种折中方法。获取最终的中心点实例级特征之后,在中心点的位置(x,y,z)稀疏地铺设不同类别的目标物体尺寸统计均值(l,w,h),以及航向角0度、45度、90度、135度、180度、225度、270度、315度八个朝向的锚框。因此,每个中心点有8个锚框。判断分类任务中的正负样本的依据为锚框和真值框之间的交并比。
所述的总的损失函数包括3D预测框的分类损失函数、3D预测框的回归损失函数、角度损失函数、前景点分类损失函数、中心点分类损失函数、中心点偏移损失函数,计算公式如下:
Loss=lcla+γ1lreg+lsem+γ2lcenter+lcenter-cla
其中,Loss表示总的损失函数,lcla表示3D预测框的分类损失函数,lreg表示3D预测框的回归损失函数,lsem表示前景点分类损失函数,lcenter表示中心点的偏移损失函数,lcenter-cla表示中心点的分类损失函数,γ1、γ2分别为lreg、lcenter损失函数的权重。
所述步骤(3)中,根据神经网络的输出来计算3D预测框分类置信度和3D预测框的输出来计算3D预测框的参数,计算公式如下:
x=xa+daxp,y=ya+dayp,z=za+dazp
l=lalp,w=wawp,h=hahp,θ=θa+θp
其中,x,y,z,l,w,h,θ分别表示最终3D预测框的坐标、尺寸、朝向,xa,ya,za,la,wa,ha,θa分别表示3D预设锚框的坐标、尺寸、朝向,xp,yp,zp,lp,wp,hp,θp分别表示网络的输出结果。
与背景技术相比,本发明具有的有益效果是:
(1)本发明能够有效利用前景点在神经网络中丰富的语义信息来预测前景点的类别信息,为后面中心点特征聚合过程中,根据不同的类别信息设置不同的邻域搜索半径,相比于统一设置的方案,可以为尺寸小的目标提供更合适的邻域搜索半径,过滤掉背景点或其他实例点的干扰,提升小目标物体检测的精度。
(2)本发明设计了一个基于通道级的中心点特征聚合方案,利用通道级的注意力机制充分挖掘点云的3D几何特征。
(3)本发明设计了一个基于点锚框机制的检测头,可以平衡正负样本的数量,解决无锚框机制中朝向难以回归的难题。
(4)本发明中均由多层感知机网络和单层注意力网络构成,不含3D卷积等耗时操作,为算法的实时性提供保证。
附图说明
图1是本发明方法的流程图;
图2是本发明方法的神经网络整体框架图;
图3是基于点的特征提取主干网络;
图4是基于通道级注意力机制的中心点特征聚合模块;
图5是点锚框机制与传统锚框机制、无锚框机制的区别。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1流程图所示,按照本发明完整方法实施的实施例及其实施过程如下:
以KITTI 3D目标检测数据集作为已知数据集和3D目标检测为例,来表述类别引导中心点邻域搜索半径的3D目标检测的方法思想和具体实施步骤。
实施例的激光雷达点云数据和标注的3D真值框和类别信息均来自于KITTI 3D目标检测数据集,标注的类别包括Car类、Pedestrian类和Cyclist类。
利用KITTI 3D目标检测已知数据集的划分,提供包含真值标注的数据一共7481例,其中训练集为3712例,验证集为3769例。训练集与验证集来自不同的场景采集序列,数据之间不存在交集。训练集与验证集均有关键目标的类别信息标注和3D边界框标注。对训练集中激光雷达采集的点云,执行步骤(1)到步骤(2);
本发明包括以下步骤:
(1)为了网络并行化处理,需要将不同场景激光雷达采集的点云采集到同一数值N;
本实例步骤(1)中,采集到的统一数值为16384个点。
(2)建立神经网络,利用KITTI 3D目标检测数据集中的点云数据及其真值框标注对神经网络进行训练,设置总的损失函数对网络结构进行监督,获取训练完成的神经网络参数;
所述步骤(2)中,神经网络结构包括基于点的特征提取主干网络、中心点生成模块、中心点邻域搜索半径生成模块、基于通道级注意力机制的中心点特征聚合模块和基于点锚框机制的检测头模块。点云的原始特征16384×4输入到基于点的特征提取主干网络中,中心点生成模块和中心点邻域搜索半径生成模块并行在后,为后面基于通道级注意力机制的中心点特征聚合模块提供中心点3D坐标和中心点类别信息。基于点锚框机制的检测头与中心点特征聚合模块相连,作为神经网络的输出。
所述基于点的特征提取主干网络包含四个降采样-特征聚合块首尾相连组成,前两个块中的降采样策略采用最远点采样算法,后两个块中的采样策略利用语义信息引导,特征聚合块操作保持一致。
输入点云为16384个点,首先经过第一个降采样模块,经过最远点采样算法后,4096个点保留下来,然后完成特征聚合。首先给4096个点设置统一的邻域搜索半径,搜索范围为初始点云的16384个点,搜索方式为球形搜索,根据搜索结果完成分组过程,于是保留下的4096个点均有8个邻居节点;对于每个分组,需要完成特征聚合,首先将邻居节点特征输入多层感知机网络进行升级维度操作,为了保留明显的特征,在点维度进行最大池化操作,获取当前点的特征。为了获取不同层次的特征,邻域搜索过程进行两次,两次搜索的半径不同,两次邻居搜索分组得到的特征再输入多层感知机网络,完成特征的融合;4096个点及其64维特征作为第二个降采样块的输入,和前一个块保持一致,首先需要进行最远点采样算法,得到保留下的1024个点,经过两次邻域搜索完成特征汇合。此时的特征已经具备丰富的语义信息,于是利用语义信息监督降采样的过程,具体来说,将两个多层感知机层附加到编码层以进一步判断每个点的语义类别,其中,真值框内的点云被标记为前景点,来当作点云的标签信息用来监督训练过程。1024个点及其特征作为第三个降采样块的输入,取前景点置信度最高的512个点保留下来,经过两次邻域搜索完成特征汇合。512个点以及特征作为第四个降采样块的输入,前景点置信度最高的256个点得以保留,经过两次邻域搜索完成特征汇合。具体超参数如表1所示。
表1特征提取主干网络具体参数设置
所述中心点生成模块通过显式预测前景点到目标正中心的偏移量来完成预测。256个点以及256维特征作为此模块的输入,经过两个多层感知机网络得到偏移量的输出,偏移量加上前景点坐标得到最终的目标中心坐标的预测值。
所述中心点邻域搜索半径生成模块通过预测前景点的类别信息来完成中心点类别的推断。256个点以及256维特征作为此模块的输入,经过两个多层感知机网络来得到类别信息预测信息。
所述基于通道级注意力机制的中心点特征聚合模块的输入为中心点坐标的预测值、中心点的类别信息,搜索范围为512个点以及256维度特征。首先完成的分组,根据256个中心点的坐标以及类别对应的半径在512个点的范围内来进行球形搜索,完成邻居节点的搜寻,得到分组结果。如图4所示,完成分组之后,对于每个分组,将中心点256维度嵌入向量特征作为Query向量,其搜索的邻居节点特征作为Key向量和Value向量。首先转置Query向量,将其与Key向量作矩阵乘积得到256×1向量,然后将其沿着第二维度重复为256×256向量,与Key维度保持一致,作哈达玛积得到256×256矩阵,将空间信息传播到每个通道以保持通道差异,将256×256矩阵与Value向量再次作哈达玛积,得到中心点实例级特征向量,维度为256×256。为了得到不同层次的特征,分组的过程进行两次,每次的邻域搜索半径不同,具体超参数如表2所示。每个类别完成两次分组后,进行特征汇合,最终得到的中心点实例级特征大小为256×512。
表2中心点特征聚合模块超参数设置
所述基于点锚框机制的检测头,包含分类和残差回归两个分支。获取最终的中心点实例级特征之后,在中心点的位置(x,y,z)稀疏地铺设不同类别的目标物体尺寸统计均值(l,w,h),以及航向角0度、45度、90度、135度、180度、225度、270度、315度八个朝向的锚框。因此,每个中心点有8个锚框。判断分类任务中的正负样本的依据为锚框和真值框之间的交并比。在KITTI 3D目标检测数据集中,对于Car类来说,大于0.6为正样本,小于0.45为负样本;对于Pedestrian类和Cyclist类来说,大于0.5为正样本,小于0.35为负样本。256个中心点根据特征分别对锚框的预设残差和分类结果进行预测。
在KITTI 3D目标检测数据集验证集中,以IA-SSD为基准算法,来测试不同模块给检测带来的精度提升,实验结果如表3所示。
表3各个模块在KITTI 3D目标检测数据集中对检测精度的综合影响
加入基于中心点类别信息的搜索半径生成模块之后,在Car类、Pedestrian类和Cyclist类上均有较大的提升,尤其在小目标物体上,达到了1%以上的精度提升。这是因为网络回归出目标的中心点坐标后,不再使用统一的超参数作为邻域搜索半径,可以为尺寸小的目标缩小邻域搜索范围,从而更加关注目标本身点云的几何特征,以实现检测精度的提升。
加入基于通道级注意力机制的特征聚合模块,可以对邻居节点通道级的特征赋予不同的权重,而不再是简单的最大池化操作,可以充分挖掘中心点邻居节点对中心点的贡献程度和相对的几何特征。同时,只用每个中心点的Embedding特征向量去作为Query向量,并没有给网络带来过大的内存开销负担,也保证了网络的推理速度。
加入基于点锚框机制的检测头,相较于无锚框机制,可以明显提升算法检测结果的召回率。这是因为对于数据集中遮挡情况比较严重或者距离较远的目标,其包含的点云数量很少,甚至就10个点左右,无锚框机制仅在中心点回归一个检测框,难免会造成误检,因为朝向的回归对于网络来说是一件比较难的事情。加入点锚框机制,可以在中心点预测更多的检测框出来,覆盖更多可能的朝向情况,并且跟传统的锚框机制相比,点锚框出框的数量远远小于传统的锚框机制。点锚框机制只会在有意义的点的位置设置锚框,所以同样不会带来后处理速度的影响。综上,点锚框机制结合了两者的优点,实验结果也证明了点锚框机制的有效性。
Claims (10)
1.一种类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,包括如下:
(1)激光雷达点云基于点的表现形式,不改变点云的结构,最大程度保留点云原始的3D几何信息;在数据预处理阶段,需将不同场景采集的点云均降采样到一个固定数值N,作为神经网络的输入;
(2)建立神经网络结构,利用已知的目标检测数据集对神经网络结构进行训练,设置总的损失函数对神经网络输出进行监督,获取完成训练的神经网络结构参数;
(3)将自动驾驶场景下激光雷达采集的点云输入到训练完成的神经网络结构中,输出神经网络的类别信息和3D预测框回归残差,根据当前场景的分类结果和回归残差进行3D预测框的计算,获取最终的预测结果。
2.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述步骤(2)中所建立的神经网络结构,包括如下:
基于点的特征提取主干网络、中心点生成模块、中心点邻域搜索半径生成模块、基于通道级注意力机制的中心点特征聚合模块和基于点锚框机制的检测头模块;点云的原始特征输入到基于点的特征提取主干网络中,进行特征提取,中心点生成模块和中心点邻域搜索半径生成模块并行在后,为后面基于通道级注意力机制的中心点特征聚合模块提供中心点3D坐标和中心点类别信息,基于通道级注意力机制的中心点特征聚合模块得到最终的中心点实例级特征向量,基于点锚框机制的检测头模块与所述中心点特征聚合模块相连,对最终的中心点实例级特征向量进行预测分类,作为神经网络的输出。
3.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述基于点的特征提取主干网络包含四个降采样-特征聚合块首尾相连组成,前两个块中的降采样策略采用最远点采样算法,后两个块中的采样策略利用语义信息引导,特征聚合块操作保持一致。
4.根据权利要求3所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,输入点云为N个点,首先经过第一个降采样模块,最远点采样算法后,N1个点保留下来,然后完成特征聚合,具体来说,首先给N1个点设置统一的邻域搜索半径,搜索范围为初始点云的N个点,搜索方式为球形搜索,根据是否为邻居节点完成分组过程,于是保留下的N1个点均有n1个邻居节点,获得N1个分组;对于每个分组,需要完成特征聚合,首先将邻居节点特征输入多层感知机网络进行升级维度操作,为了保留明显的特征,在点维度进行最大池化操作,获取当前点的特征;为了获取不同层次的特征,邻域搜索过程进行两次,两次邻域搜索的半径不同,两次分组得到的不同层次特征再次输入多层感知机网络,完成特征融合;N1个点及其特征作为第二个降采样块的输入,和前一个块保持一致,首先需要进行最远点采样算法,得到保留下的N2个点,经过两次邻域搜索的分组过程完成特征汇合;此时保留下的点特征已经具备丰富的语义信息,于是利用语义信息监督降采样的过程,具体来说,将两个多层感知机层附加到编码层以进一步判断每个点的语义类别,其中,真值框内的点云被标记为前景点,当作点云的标签信息用来监督训练过程,N2个点及其特征作为第三个降采样块的输入,取前景点置信度最高的N3个点保留下来,经过两次邻域搜索分组完成特征汇合;N3个点以及特征作为第四个降采样块的输入,前景点置信度最高的N4个点得以保留,经过两次邻域搜索分组完成特征汇合,完成特征提取。
5.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述中心点生成模块通过显式预测前景点到目标正中心的偏移量来完成预测,N4个点以及特征作为此模块的输入,经过两个多层感知机网络得到偏移量的输出,偏移量加上前景点坐标得到最终的目标中心坐标的预测值。
6.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述中心点邻域搜索半径生成模块通过预测前景点的类别信息来完成中心点类别的推断,N4个点以及特征作为此模块的输入,经过两个多层感知机网络来得到类别信息预测信息。
7.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述基于通道级注意力机制的中心点特征聚合模块的输入为中心点坐标的预测值、中心点的类别信息、N3个点以及其特征,首先根据N4个中心点的坐标以及类别对应的邻域搜索半径在N3个点的范围内来进行球形搜索,完成邻居节点的搜索,得到分组结果,完成分组之后,对于每个分组,将中心点嵌入向量特征作为Query向量,其搜索的邻居节点特征作为Key向量和Value向量,首先转置Query向量,将其与Key向量作矩阵乘积得到N×1向量,然后将其沿着第二维度重复为N×D向量,与Key维度保持一致,作哈达玛积得到N×D矩阵,将空间信息传播到每个通道以保持通道差异,将N×D矩阵与Value向量再次作哈达玛积,得到中心点实例级特征向量;为了获取不同层次的特征,分组过程进行两次,两次的邻域搜索半径不同,两次得到的中心点特征进行特征汇合得到最终的中心点实例级特征。
8.根据权利要求2所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述基于点锚框机制的检测头模块包含3D预测框分类和残差回归两个分支,获取最终的中心点实例级特征之后,在中心点的位置(x,y,z)稀疏地铺设不同类别的目标物体尺寸统计均值(l,w,h),以及航向角0度、45度、90度、135度、180度、225度、270度、315度八个朝向的锚框,因此,每个中心点有8个锚框,判断分类任务中的正负样本的依据为锚框和真值框之间的交并比。
9.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述的总的损失函数包括3D预测框的分类损失函数、3D预测框的回归损失函数、角度损失函数、前景点分类损失函数、中心点分类损失函数、中心点偏移损失函数,计算公式如下:
Loss=lcla+γ1lreg+lsem+γ2lcenter+lcenter-cla
其中,Loss表示总的损失函数,lcla表示3D预测框的分类损失函数,lreg表示3D预测框的回归损失函数,lsem表示前景点分类损失函数,lcenter表示中心点的偏移损失函数,lcenter-cla表示中心点的分类损失函数;γ1、γ2分别为lreg、lcenter损失函数的权重。
10.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述步骤(3)中,根据神经网络的输出来计算3D预测框分类置信度和3D预测框的输出来计算3D预测框的参数,计算公式如下:
x=xa+daxp,y=ya+dayp,z=za+dazp
l=lalp,w=wawp,h=hahp,θ=θa+θp
其中,x,y,z,l,w,h,θ分别表示最终3D预测框的坐标、尺寸、朝向,xa,ya,za,la,wa,ha,θa分别表示3D锚框的坐标、尺寸、朝向,xp,yp,zp,lp,wp,hp,θp分别表示网络的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440172.XA CN116468950A (zh) | 2023-04-23 | 2023-04-23 | 一种类别引导中心点邻域搜索半径的三维目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310440172.XA CN116468950A (zh) | 2023-04-23 | 2023-04-23 | 一种类别引导中心点邻域搜索半径的三维目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468950A true CN116468950A (zh) | 2023-07-21 |
Family
ID=87178574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310440172.XA Pending CN116468950A (zh) | 2023-04-23 | 2023-04-23 | 一种类别引导中心点邻域搜索半径的三维目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468950A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475410A (zh) * | 2023-12-27 | 2024-01-30 | 山东海润数聚科技有限公司 | 基于前景点筛选的三维目标检测方法、系统、设备、介质 |
-
2023
- 2023-04-23 CN CN202310440172.XA patent/CN116468950A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475410A (zh) * | 2023-12-27 | 2024-01-30 | 山东海润数聚科技有限公司 | 基于前景点筛选的三维目标检测方法、系统、设备、介质 |
CN117475410B (zh) * | 2023-12-27 | 2024-03-15 | 山东海润数聚科技有限公司 | 基于前景点筛选的三维目标检测方法、系统、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zamanakos et al. | A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving | |
Wang et al. | Pointseg: Real-time semantic segmentation based on 3d lidar point cloud | |
CN111832655B (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN111242041B (zh) | 基于伪图像技术的激光雷达三维目标快速检测方法 | |
CN111428765B (zh) | 一种基于全局卷积、局部深度卷积融合的目标检测方法 | |
JP7556142B2 (ja) | 点群からの効率的な三次元物体検出 | |
CN113255779B (zh) | 多源感知数据融合识别方法、系统及计算机可读存储介质 | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
Nguyen et al. | Real-time vehicle detection using an effective region proposal-based depth and 3-channel pattern | |
CN117274749B (zh) | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 | |
Li et al. | MVF-CNN: Fusion of multilevel features for large-scale point cloud classification | |
Bieder et al. | Exploiting multi-layer grid maps for surround-view semantic segmentation of sparse lidar data | |
CN114140758A (zh) | 一种目标检测方法、装置及计算机设备 | |
CN116468950A (zh) | 一种类别引导中心点邻域搜索半径的三维目标检测方法 | |
CN116030445A (zh) | 一种结合点云形状特征的自动驾驶实时三维目标检测方法 | |
CN115100741A (zh) | 一种点云行人距离风险检测方法、系统、设备和介质 | |
Engels et al. | 3d object detection from lidar data using distance dependent feature extraction | |
CN112950786A (zh) | 一种基于神经网络的车辆三维重建方法 | |
Kim et al. | Pedestrian detection with simplified depth prediction | |
CN116883767A (zh) | 一种基于多源信息多尺度融合的目标检测方法 | |
CN115861944A (zh) | 一种基于激光雷达的交通目标检测系统 | |
Dao et al. | Attention-based proposals refinement for 3D object detection | |
Song et al. | CNN-based object detection and distance prediction for autonomous driving using stereo images | |
CN114118125A (zh) | 多模态输入与空间划分的三维目标检测方法 | |
Raut et al. | End-to-End 3D Object Detection using LiDAR Point Cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |