CN115294355A

CN115294355A - 一种空间感知增强的单阶段无锚框三维目标检测方法及系统

Info

Publication number: CN115294355A
Application number: CN202210866274.3A
Authority: CN
Inventors: 王海; 陶乐; 蔡英凤; 王子宁; 陈龙; 李祎承; 孙晓强; 刘擎超
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-04

Abstract

本发明公开一种空间感知增强的单阶段无锚框三维目标检测方法及系统，利用三维特征提取器对点云数据的非空体素特征进行特征提取并进行降维处理，得到伪图像特征，对伪图像特征进行融合，为了使提取到伪图像特征包含更多的目标边界特征，增加前景点分割分支；无锚框检测头对融合后的伪图像特征进行目标参数的回归，得到各个类别目标的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向；无锚框检测头包括IoU预测头，用于预测候选边界框和真实边界框之间的IoU值，并合并到目标类别置信度，得到各个类别最终的置信度得分，置信度得分用于热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向的筛选。本发明显著提升无锚框三维目标检测算法的性能。

Description

一种空间感知增强的单阶段无锚框三维目标检测方法及系统

技术领域

本发明属于智能汽车技术领域，具体涉及一种空间感知增强的单阶段无锚框三维目标检测方法及系统。

背景技术

随着激光雷达在自动驾驶和机器人领域的广泛应用，基于激光雷达的三维目标检测越来越受到工业界和学术界的关注。相较于摄像头，激光雷达对于环境的鲁棒性和适应性更强，能够直接获得深度信息，更有利于自动驾驶汽车对三维场景的感知与理解。

根据是否使用锚框，三维目标检测算法可以分为基于锚框和无锚框两类。基于锚框的算法通过预先设置锚框可以加快算法的收敛速度，但锚框的使用增加了算法的计算成本。无锚框算法丢弃了锚框的使用，将目标用关键点表示，虽然加快了算法的检测速度，但造成网络收敛速度慢、精度不够高的问题。根据是否使用二阶段修正模块，三维目标检测算法又可分为单阶段和两阶段两类，单阶段检测算法速度快但是精度较低，二阶段的算法精度高但是速度较慢。考虑到算法在自动驾驶汽车对实时性的要求，结构更简单的单阶段无锚框的三维目标检测算法越来越受到学界和工业界的关注。

点云数据的稀疏性一直是三维目标检测任务需要面对的挑战。由于激光雷达自身的局限性以及受遮挡等因素的影响，每个目标被分配的点云数量极其有限。这就要求三维检测网络具备强大的空间感知能力，能够根据局部点云数据来预测目标的全局尺寸。没有锚框提供的空间先验信息，目前的无锚框检测网络缺失足够空间感知能力，对于点云数量较少的目标极易出现漏检和误检的问题。

发明内容

针对现有技术中存在不足，本发明提供了一种空间感知增强的单阶段无锚框三维目标检测方法及系统，提高三维检测网络的空间感知能力，从而提升无锚框三维目标检测算法的性能。

本发明是通过以下技术手段实现上述技术目的的。

一种空间感知增强的单阶段无锚框三维目标检测方法：

利用三维特征提取器对点云数据的非空体素特征进行特征提取并进行降维处理，得到伪图像特征；

伪图像特征融合模块对伪图像特征进行融合；

无锚框检测头对融合后的伪图像特征进行目标参数的回归，得到各个类别目标的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向；

所述三维特征提取器包括四个阶段组成，第一阶段由子流形卷积和两个空间残差模块构成，第二、三、四阶段均由稀疏卷积和两个空间残差模块构成，每个阶段的特征通道数分别为32、64、128、128；

伪图像特征融合模块的空间组输入伪图像特征，输出空间几何特征，所述空间几何特征进行特征通道变换，语义组对所述空间几何特征进行下采样操作和特征通道变换；将上采样操作和特征通道变换后的语义特征与特征通道变换后的空间几何特征进行叠加，得到语义增强的空间几何特征；分别对语义增强空间几何特征、上采样操作和特征通道变换后的语义特征进行通道变换与尺寸变换，对通道变换与尺寸变换后的语义增强空间几何特征、语义特征进行加权处理并叠加。

进一步地，所述无锚框检测头包括IoU预测头，所述IoU预测头用于预测候选边界框和真实边界框之间的IoU值，并合并到目标类别置信度，得到各个类别最终的置信度得分，所述置信度得分用于热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向的筛选，得到三维目标最终的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向。

进一步地，所述伪图像特征中的目标边界特征利用前景点分割分支进行增强：

前景点分割利用融合点特征进行，所述融合点特征的公式为：

其中：

为融合点特征，w_j(p_i)为ONCE数据集中原始点云K个特征点和原始点的距离，

表示最近邻区域，ε是个极小正值，p_i为ONCE数据集中点坐标，p_j为三维特征提取器每个阶段的非空体素特征对应的特征点坐标，M表示特征点总数。

进一步地，所述空间组和语义组均由一个卷积层和两个自校正卷积层组成，所述空间组的特征通道数为128，所述语义组的特征通道数为256。

进一步地，所述空间残差模块由三部分组成，第一部分由子流形卷积、批量归一化层、ReLU激活层依次连接，由子流形卷积、批量归一化层、SE-layer模块依次连接，第三部分为ReLU激活层。

进一步地，非空体素特征是通过对预处理后的点云数据进行体素化处理得到的。

进一步地，所述加权处理利用注意力图实现，所述注意力图包含一层卷积预测空间特征和语义特征。

一种空间感知增强的单阶段无锚框三维目标检测系统，包括：

体素化处理模块，将ONCE数据集中点云数据转换成体素级特征；

三维特征提取器，引入空间注意力机制SE-layer模块和残差结构，提取伪图像特征；

伪图像特征融合模块，使用空间语义特征聚集架构，融合语义特征和空间几何特征；

无锚框检测头，用于最终的目标类别回归和边界框预测；

前景点分割分支，辅助三维特征提取器学习到更多的目标边界特征。

一种电子设备，包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现上述单阶段无锚框三维目标检测方法。

一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行上述单阶段无锚框三维目标检测方法。

本发明的有益效果为：

(1)本发明通过构建更有效的三维特征提取器和伪图像特征融合模块，能够提取更加精细的空间几何特征，融合后的特征更能满足各类别目标的检测；

(2)通过在无锚框检测头增加一个轻量化的IoU预测头，进一步提高了对边界框尺寸预测的准确性，并有效地缓解了目标类别置信度和定位置信度不匹配的问题；

(3)通过增加一个前景点分割分支，促使三维特征提取器提取到更多目标边界特征，进一步增强了算法的空间感知能力，显著减少了错误检测。

附图说明

图1为本发明所述空间感知增强的单阶段无锚框三维目标检测流程图；

图2为本发明所述三维特征提取器网络结构图；

图3为本发明所述伪图像特征融合模块结构图；

图4为本发明所述自校正卷积结构图；

图5为本发明所述前景点分割分支结构图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明一种空间感知增强的单阶段无锚框三维目标检测方法，具体包括如下步骤：

步骤一，点云数据预处理

对ONCE数据集中有标注的点云数据提取真值，从而建立真值样本数据库。本发明使用不同的数据增强方法对ONCE数据集中的点云数据进行预处理，本发明采用的数据增强方法包括：(1)真值采样，从真值样本数据库中分别为每个类别目标选取若干个真值样本，直接放入训练集的点云数据中去，类别包括汽车、行人、卡车、骑手和公交车；(2)随机翻转操作，将(1)得到的点云数据沿着激光雷达坐标系的X轴和Y轴进行随机翻转，翻转角度范围设置为

(3)随机全局缩放，将(2)得到的点云数据在

范围内进行随机全局缩放。

步骤二，点云体素化

点云体素化是由体素化处理模块完成的。体素化处理模块输入预处理后形状为B×N×4的点云数据，其中B和N分别表示点云帧数和每帧场景中点的数量，输入的点云数据中每个点由其在激光雷达坐标系下的三维坐标(x,y,z)和反射强度r组成。点云根据预定义的体素尺寸沿着激光雷达坐标系的X、Y、Z轴方向进行体素划分；然后，每个点根据其三维坐标被分配到对应的体素；最后，计算属于同一个体素的所有点特征平均值，得到点云数据的三维体素级特征，便于三维卷积进行高效地处理体素特征。体素化处理模块的具体结构为现有技术，在此不再赘述。

步骤三，三维特征提取

三维特征提取是通过三维特征提取器对非空体素特征处理完成的，利用哈希表对点云数据的体素级特征进行查询，得到非空体素特征。为满足自动驾驶场景中进行多目标检测的需要，三维特征提取器所提取的特征需要充分满足各类别目标检测；而现有的用于无锚框检测算法的三维特征提取器，不仅难以提取足够精细的空间特征，并且所提取的空间特征难以平衡各个类别目标的检测。对此，本实施例构建了一个更加有效的三维特征提取器，如图2所示，三维特征提取器由四个阶段组成，第一阶段由子流形卷积和两个空间残差模块构成，第二、三、四阶段均由稀疏卷积和两个空间残差模块构成，每个阶段的特征通道数分别为32、64、128、128。对于第一个阶段，首先使用子流形卷积进行特征提取，并执行步长为1的下采样，紧接着使用两个空间残差模块进行特征提取。空间残差模块由三部分组成，第一部分由子流形卷积、批量归一化层、ReLU激活层依次连接，由子流形卷积、批量归一化层、SE-layer模块依次连接，第三部分为ReLU激活层。SE-layer模块引入了空间注意力机制，能够关注到局部特征和全局特征之间的联系，从而提取到更能满足各类别目标检测的精细的空间特征；同时，为了减少特征提取过程中的信息损失，引入了残差结构，将空间残差模块的输入与SE-layer模块的输出进行叠加；最后，将叠加后的特征送入ReLU激活层处理。稀疏卷积用于特征提取和下采样，第二、三、四阶段分别执行步长为2、4、8的下采样。经过四个阶段的特征提取，并沿着高度方向上进行降维处理，得到尺寸为256×H×W的伪图像特征，H、W分别为伪图像的高和宽。

步骤四，伪图像特征融合

伪图像特征融合是由伪图像融合模块进行的。伪图像特征融合模块将伪图像特征进一步融合，融合后的特征将用于最终的目标分类和边界框回归。高层语义特征有利于目标的分类，而浅层的空间几何特征对与目标边界框的回归非常重要。因此，伪图像特征融合模块在进行特征融合时，如何平衡空间几何特征和语义特征非常关键。而现有的无锚框检测算法的伪图像特征提取器不能够高效的平衡空间几何特征和语义特征。为了解决这个问题，本实施例设计一个更加有效的伪图像特征融合模块，如图3所示，该模块使用了一种空间语义聚集架构，能够自适应地融合高层抽象的语义特征和低层空间几何特征。具体来说，伪图像特征融合模块的空间组输入伪图像特征，输出粗粒度的空间几何特征，同时传递给语义组；空间组和语义组均是由一个卷积层和两个自校正卷积层组成，空间组的特征通道数为128，语义组的特征通道数为256；为了不丢失过多的空间几何特征，保证输入和输出大小的一致，接着，语义组以空间组所提取的空间几何特征为输入，并进行步长为2的下采样操作，同时将特征通道数由128变为256，从而输出了精细的高层语义特征。为了得到更能区分各类别目标的空间几何特征，对语义组输出的语义特征进行上采样操作并进行特征通道变换，空间组输出的空间几何特征进行特征通道变换，将上采样操作和特征通道变换后的语义特征与特征通道变换后的空间几何特征进行叠加，得到语义增强的空间几何特征。分别对语义增强空间几何特征、上采样操作和特征通道变换后的语义特征进行通道变换和尺寸变换，保证两者特征通道和尺寸的一致性。最后，为了能够自适应地平衡空间几何特征和语义特征，使用一层卷积分别预测空间特征和语义特征的注意力图，分别利用注意力图对通道变换和尺寸变换后的语义增强空间几何特征、语义特征进行加权处理，然后将加权后的语义增强空间几何特征和语义特征进行叠加。为了使得融合后的特征更能满足各类别目标的检测，伪图像特征融合模块使用自校正卷积来替代普通卷积，如图4所示，自校正卷积引入了通道和空间注意力机制，不仅能够扩大网络感受野，而且使得伪图像融合模块更能捕捉到局部特征和全局特征的联系。本实施例的伪图像融合模块更好地平衡了空间几何特征和语义特征，融合后的特征更能满足各类目标的检测。

步骤五，目标参数的回归

目标相关参数的回归是由无锚框检测头完成的。为了更加高效且准确的进行目标边界框参数回归和目标类别置信度预测，本实施例使用无锚框检测头对融合后的伪图像特征进行目标参数的回归。无锚框检测头由六个子预测头组成，除了常用的热力图预测头、中心点局部偏移预测头、中心点高度位置预测头、三维尺寸预测头和朝向预测头之外，本实施例增加了一个轻量化的IoU预测头；热力图预测头、中心点局部偏移预测头、中心点高度位置预测头、三维尺寸预测头和朝向预测头对融合后的伪图像特征进行预测，分别得到各个类别目标的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向；IoU预测头用于预测候选边界框和真实边界框之间的IoU值，可以作为目标定位置信度的一个度量标准，在本实施例中，将IoU预测头所预测的IoU值合并到目标类别置信度中，并利用一个后处理函数重新计算各个类别最终的置信度得分CF：

CF＝score^1-α*iou^α (1)

其中：score是初始的类别置信度得分，iou是预测的IoU值，α是一个超参数∈[0,1]，用于控制类别置信度得分和和预测的IoU值之间的占比；置信度得分CF用于热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向的筛选，得到三维目标最终的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向。

所增加的IoU预测头有效的增强了检测系统对各类别目标尺寸的感知，并且很好地缓解了目标类别置信度和定位置信度不匹配的问题。

步骤六，前景点分割辅助训练

前景点分割辅助训练是由前景点分割分支完成的。在基于点云的三维目标检测中，准确地区分前景和背景能够有效地减少漏检和误检，而对目标边界的感知能够促进将前景从背景中区分开来。为了使三维特征提取器学习到更加精细的目标边界特征(目标边界特征包含于伪图像特征)，将三维特征提取器四个阶段对应的非空体素特征坐标转换为真实坐标，根据当前阶段的下采样步长，每个阶段的非空体素特征都对应一个特征点坐标，利用{(f_j,p_j):j＝1,…,M}表示特征点，f_j为特征向量，p_j为特征点坐标，M表示特征点总数；特征点坐标的计算公式如下所示：

p_j＝(VC_j+0.5)*VS*DT+R (2)

其中：VC表示非空体素中心点坐标，VS表示非空体素尺寸，DT为下采样倍数，R表示点云范围。

然后，使用插值的方法分别将三维特征提取器四个阶段提取的特征插值到ONCE数据集中点云的位置，ONCE数据集中点坐标表示为{p_i:i＝1,…,N}，p_i为点坐标，N表示点总数。对于插值，需要找到原始点云每个点最近邻的K(本实施例中K取3)个特征点，并计算K个特征点和原始点的距离w_j(p_i)，然后对最近邻的K个特征点使用反距离加权平均得到在原始点云位置的插值特征，最后将原始点云中同一位置处的来自不同阶段的插值特征拼接起来，得到最终用于前景点分割的融合点特征，表示为

每个融合点特征

计算公式如下：

其中：

表示最近邻区域；ε是个极小正值，本实施例取10^-8。

将位于真实边界框内的点视为前景点，为了区分前景点是前景还是背景，通过融合点特征对前景点进行分割；前景点分割分支有效地帮助三维特征提取器提取到伪图像特征包含更多的目标边界特征，进一步提升空间特征感知能力，且完全不影响算法计算速度。

步骤七，模型训练与损失函数设置

无锚框检测头中不同的子预测头使用了不同的损失函数，本实施例使用Focalloss来监督热力图预测头训练，而对于中心点局部偏移预测头、中心点高度位置预测头、三维尺寸预测头、朝向预测头和IoU预测头，采用L1 loss进行监督训练；对于前景点分割分支，也采用Focal loss进行监督训练。

将所有损失的加权和作为最终的损失：

L_box＝λ_offL_off+λ_zL_Z+λ_sizeL_size+λ_oriL_ori (5)

L＝λ_heatL_heat+L_box+λ_iouL_iou+λ_segL_seg (6)

其中L_heat、L_off、L_Z、L_size、L_ori、L_iou、L_seg分别对应热力图预测头、中心的局部偏移预测头、中心的高度位置预测头、三维尺寸预测头、朝向预测头、IoU预测头和前景点分割分支的损失，λ_heat、λ_off、λ_z、λ_size、λ_ori、λ_iou、λ_seg分别为对应热力图预测头、中心的局部偏移预测头、中心的高度位置预测头、三维尺寸预测头、朝向预测头、IoU预测头和前景点分割分支对应损失的权值，L_box为中间量。

体素化处理模块，将不规则的ONCE数据集中点云数据转换成规则的三维体素级特征，体素化后的点云数据能够被三维卷积高效处理；

伪图像特征融合模块，使用空间语义特征聚集架构，能够自适应地融合高层抽象的语义特征和低层的空间几何特征；

无锚框检测头，用于最终的目标类别回归和边界框预测；

前景点分割分支，辅助三维特征提取器能够学习到更多的目标边界特征。

基于与一种空间感知增强的单阶段无锚框三维目标检测方法相同的发明构思，本申请还提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，存储器中存储了计算机可读代码，其中，计算机可读代码当由一个或多个处理器执行时，进行空间感知增强的单阶段无锚框三维目标检测方法的实施。其中，存储器可以包括非易失性存储介质和内存储器；非易失性存储介质可存储操作系统和计算机可读代码。该计算机可读代码包括程序指令，该程序指令被执行时，可使得处理器执行任意一种空间感知增强的单阶段无锚框三维目标检测方法。处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器为非易失性存储介质中的计算机可读代码的运行提供环境，该计算机可读代码被处理器执行时，可使得处理器执行任意一种空间感知增强的单阶段无锚框三维目标检测方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读代码，所述计算机可读代码中包括程序指令，所述处理器执行所述程序指令，实现本申请的空间感知增强的单阶段无锚框三维目标检测方法。

其中，所述计算机可读存储介质可以是前述实施例所述电子设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘、智能存储卡(SmartMedia Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种空间感知增强的单阶段无锚框三维目标检测方法，其特征在于：

伪图像特征融合模块对伪图像特征进行融合；

2.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，所述无锚框检测头包括IoU预测头，所述IoU预测头用于预测候选边界框和真实边界框之间的IoU值，并合并到目标类别置信度，得到各个类别最终的置信度得分，所述置信度得分用于热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向的筛选，得到三维目标最终的热力图、中心点局部偏移、中心点高度位置、三维尺寸和朝向。

3.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，所述伪图像特征中的目标边界特征利用前景点分割分支进行增强：

其中：

4.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，所述空间组和语义组均由一个卷积层和两个自校正卷积层组成，所述空间组的特征通道数为128，所述语义组的特征通道数为256。

5.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，所述空间残差模块由三部分组成，第一部分由子流形卷积、批量归一化层、ReLU激活层依次连接，由子流形卷积、批量归一化层、SE-layer模块依次连接，第三部分为ReLU激活层。

6.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，非空体素特征是通过对预处理后的点云数据进行体素化处理得到的。

7.根据权利要求1所述的单阶段无锚框三维目标检测方法，其特征在于，所述加权处理利用注意力图实现，所述注意力图包含一层卷积预测空间特征和语义特征。

8.一种实现权利要求1-7任一项所述的单阶段无锚框三维目标检测方法的系统，其特征在于，包括：

无锚框检测头，用于最终的目标类别回归和边界框预测；

9.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7任一项所述的单阶段无锚框三维目标检测方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7任一项所述的单阶段无锚框三维目标检测方法。