CN113920498A

CN113920498A - 一种基于多层特征金字塔的点云3d物体检测方法

Info

Publication number: CN113920498A
Application number: CN202111193973.8A
Authority: CN
Inventors: 刘卫朋; 朱鹏旭; 陈海永; 陈鹏; 王鹏
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-11
Anticipated expiration: 2041-10-13
Also published as: CN113920498B

Abstract

本发明为一种基于多层特征金字塔的点云3D物体检测方法，该检测方法包括以下内容：在VoteNet网络的基础上，同样是以点云作为输入，在PointNet++骨干网络上产生多层特征金字塔来获得多个点云特征层，这些点云特征层分别配备一个投票模块，获得深度霍夫投票的同时也将其映射到同一个特征空间，然后进行特征融合形成投票簇。通过多层特征的获取以及多层特征信息的合理使用，提高对不同尺寸的物体检测的鲁棒性和准确率。在所搭建的特征金字塔的最下面一层，同时也是点的数量最多的一层进行前背景点分割，根据前背景的得分判定属于该点属于前景点还是背景点，来得到前景点，进一步地提取了这些前景点的特征，来减小杂乱的背景点对检测结果的干扰。

Description

一种基于多层特征金字塔的点云3D物体检测方法

技术领域

本发明属于室内3D物体检测领域，具体涉及一种基于多层特征金字塔的点云3D物体检测方法。

背景技术

随着深度相机和激光雷达等3D传感器的普及，越来越多的3D数据被捕获和处理，这些 3D数据通常是以点云形式。3D点云是三维空间中离散的点，点云数据有着准确的几何信息，而且对光照强度的改变具有鲁棒性。点云的3D物体检测是机器视觉里一项富有挑战性的任务，预测出真实的3D场景下物体的包围框和相应的语义标签对很多任务是至关重要的意义，比如室内机器人导航，机器人抓取等等。2D RGB图像具有高分辨率，而且像素点排列规整和密集，但是3D点云具有稀疏和不规则性，这就导致了2D RGB图像物体检测和3D点云物体检测是两个不同的任务，且由于点云的稀疏性、不规则性和无序性，使得RGB图像中很成功的2D物体检测方法如卷积神经网络(CNNS)难以直接用于处理点云。

这个问题的解决方法迎来了越来越多的关注。随着可以处理点云的深度卷积网络的出现，一些能直接从点云中检测出3D物体的深度学习网络也被提了出来。由于传感器获取的仅仅是在特定视角下目标表面的部分点云，因此场景点云中该目标的中心点很可能在远离任何点云的空间中的任何点，导致该中心点附近的局部特征难以学习，然而投票机制是针对稀疏集合设计的，很自然地适合于点云中定位目标的任务。基于此，Qi等受到广义霍夫投票的启发，提出了端到端3D目标检测网络VoteNet(ICCV,2019)，它将传统的霍夫投票机制转换为由深度网络实现的回归问题。VoteNet从输入中采样一些种子点(seedpoints)来生成对潜在对象中心的投票，最后将投票的中心用于估计3D包围框。投票策略使VoteNet可以大大减少搜索空间，并在多个基准数据集中获得最好的结果。

然而，包括VoteNet在内的很多3D物体检测网络没用充分的利用多层特征信息。比如 VoteNet只是在一个点云特征层上产生投票和预测，对多层特征和多层语义信息使用不够充分，这样会忽视对物体检测的一些有用的信息。杂乱的背景点也往往会对预测结果产生不利影响，投票机制虽然能较为准确的找到物体的中心点，但是杂乱的背景点也会参与投票从而对预测结果产生干扰。因此找到部分合适的前景点并进一步提取这些点的特征，有助于减小杂乱的背景点对预测结果的干扰。

发明内容

针对纯点云输入的3D物体检测困难，检测精度有待提高的问题，本发明拟解决的技术问题是，提出一种基于多层特征金字塔的点云3D物体检测方法。并且在SUN RGB-D和ScanNet V2这两个大规模室内场景公开数据集上对提出的方法进行评估，验证本方法的有效性。

本发明解决所述技术问题采用的技术方案是：一种基于多层特征金字塔的点云3D物体检测方法，其特征在于，该检测方法包括以下内容：

在VoteNet的基础上，同样是以点云作为输入，在PointNet++骨干网络上产生多层特征金字塔(FPN网络结构)来获得多个点云特征层，这些点云特征层分别配备一个投票模块，获得深度霍夫投票的同时也将其映射到同一个特征空间，然后进行特征融合形成投票簇。

进一步地，本发明在多层特征金字塔的最下面一层同时也是点的数量最多的一层进行前、背景点分割来获得前景点，接着把特征融合形成的投票簇和这部分前景点的坐标与特征送入到Back-tracing模块获得代表点，以每一个代表点为中心实施PointNet++的一个SA层来进一步提取这部分前景点的特征，最终将投票簇的特征和提取到的前景点的特征相结合做预测来得到物体包围框和语义标签的预测。本发明这种寻找前景点(物体上的点)以及使用的前景点的数量能够直接简化网络的计算复杂度和检测精度。

与现有技术相比，本发明具有以下优点：

1.通过多层特征的获取以及多层特征信息的合理使用，提高对不同尺寸的物体检测的鲁棒性和准确率。在多层特征的获取方面：在PointNet++骨干网络上来获得多个不同尺度的预测特征层，并搭建特征金字塔。其中，低层特征具有较为准确的位置信息，高层特征具有丰富的语义信息；在多层特征的使用方面：多层特征的合理使用对检测结果有着重要的影响，不同于经典的FPN在每个预测特征层上分别进行预测，本发明为每个预测特征层都配备了深度霍夫投票模块，在产生投票的同时将不同预测特征层的特征投票到同一个特征空间，以便于后续的不同层特征结合。最终将投票后的不同预测特征层上点的坐标和特征分别拼接在一起，以此有机的结合和使用了多层特征信息，保证了多层预测的预测结果的稳定性。这些投票后的结合了不同语义的特征也会紧接着形成投票簇。

2.由于点云具有稀疏性和无序性，通过对前景点的合理选择与进一步提取前景点信息来减小杂乱的背景点对物体检测的干扰，提升预测的准确率。在前景点选择方面：寻找前景点的策略以及在这个过程中使用的点的数量也会直接影响网络的计算效率、复杂度和对前景点信息提取的效果。为了平衡这些因素，本发明在所搭建的特征金字塔的最下面一层，同时也是点的数量最多的一层进行前背景点分割，根据前背景的得分判定属于该点属于前景点还是背景点，来得到前景点。并且进一步地提取了这些前景点的特征，来减小杂乱的背景点对检测结果的干扰。

3.本发明的方法在SUN RGB-D和ScanNet V2这两个公开数据集上的平均检测精度较 VoteNet均有提升(在SUN RGB-D上的mAP@0.25较VoteNet提升了1.6％；在ScanNet V2的mAP@0.25较VoteNet提升了4.5％)。

附图说明

图1为本发明中使用的SUN RGB-D数据集的一个场景的可视化结果图，其中左边为场景的真实图片，右边为可视化后的效果图；

图2本发明中使用的ScanNetV2集的两个不同场景的可视化的效果图；

图3为本发明的MLFFVNet模型的网络结构图；

图4为在SUN RGB-D数据集上不同预测模型的预测结果的可视化的效果图，其中第一列为数据集中的真实场景图，第二列为VoteNet模型的预测结果，第三列为本申请MLFFVNet 模型的预测结果，第四列为Ground Truth(标注信息，简称GT)的可视化，可以作为预测准确性的对比基准；

图5为在ScanNet V2数据集上不同预测模型的预测结果的可视化的效果图，其中第一列为VoteNet模型的真实场景和预测结果图，第二列为本申请MLFFVNet模型的真实场景和预测结果，第三列为Ground Truth(标注信息，简称GT)的可视化，可以作为预测准确性的对比基准。

图6为VoteNet的网络结构图。

具体实施方式

以下结合本发明中的实施例附图对本发明的具体实施方案进行更完整更清楚地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有任何创造性劳动前提下所获得的所有其他实施例，都属于本发明的范畴。

本发明为一种以纯点云作为输入基于多层特征金字塔的点云3D物体检测方法，该方法用于3D物体的检测和识别，目前很多3D物体检测方法没用充分的利用多层特征信息，这就会限制对不同尺寸的物体的预测性能以及不能很好地适应点云的稀疏性。并且，杂乱的背景点也会对预测结果产生一定的影响。本发明在VoteNet(ICCV,2019)基础上建立一个特征金字塔来获得多层特征信息，将来自不同层的特征分别进行深度霍夫投票，同时将这些特征投票到同一个特征空间，然后进行特征融合来利用多层特征信息。本发明并没有使用所有前景点，而是只对少数前景点进一步提取特征来减小杂乱的背景点对预测产生的影响。下面以该检测方法基于MLFFVNe模型进行室内3D物体检测为例具体说明其检测过程。

主要包括以下步骤：

(1)SUN RGB-D和ScanNet V2这两个公开数据集的介绍和处理

SUN RGB-D是2015年普林斯顿大学发布的单目室内真实场景的数据集，包含10355张单目RGB-D图像并标注有3D包围框和语义标签，可用于场景分类、语义分割和3D目标检测。本发明使用提供的相机参数将深度图转化为点云，获得的点云场景有着严重的遮挡和很多空洞，为检测带来了难度。附图1是SUN RGB-D数据集一个场景的可视化。本发明使用这个数据集检测了10种最常见的物体：床(bed)、平板桌(table)、沙发(sofa)、椅子(chair)、马桶(toilet)、桌子(desk)、梳妆台(dresser)、床头柜(night stand)、书架(bookshelf)、浴缸(bathtub)。

ScanNet V2是由室内场景进行3D重建得到的3D网格(mesh)数据集，它是2017年斯坦福大学发布的并具有丰富标记的室内真实场景数据集。这个数据集有1500个3D重建室内场景，这些场景来自于数百个不同的房间并且对18类物体标注有密集的坐标轴对齐的物体包围框标签。附图2是ScanNet V2数据集两个场景的可视化。预测的18类物体分别是：'cabinet':0, 床(bed)”:1,椅子(chair)、沙发(sofa)、平板桌(table)、门(door)、窗户(window)、书架(bookshelf)、挂图(picture)、柜台(counter)、桌子(desk)、窗帘(curtain)、冰箱(refrigerator)、浴帘(shower curtain)、马桶(toilet)、洗碗槽(sink)、浴缸(bathtub)、垃圾桶(garbage bin)。相比于SUN RGB-D是对场景的部分扫描，ScanNetV2有着更完整的场景，更大的覆盖面积和更多的物体种类。本发明从重建的网格里采样出顶点作为本发明输入的点云。

为了确保对比的公平性，本发明在这两个数据集上均采用和VoteNet(ICCV，2019)使用相同的数据准备以及相同训练集和验证集划分。

(2)MLFFVNett(Multi-Level Features and ForegroundVoteNet)网络模型

图3是MLFFVNet网络模型结构图，其中左边虚线框里就是本发明搭建的多层特征金字塔，右边虚线框里表示在不同的点云特征层上分别进行深度霍夫投票和投票后的特征与坐标的分别融合。本发明的MLFFVNet有四个重要的组成部分：①基于VoteNet的基础的3D物体检测框架，②多层特征金字塔的建立，③在不同的点云特征层上分别进行深度霍夫投票和投票后的特征与坐标的分别融合，④部分前景点的获取以及其特征的进一步提取。

①VoteNet：VoteNet网络由三个主要部分组成，包括点云特征提取、投票和目标推荐及其分类。其中PointNet++用作点云特征提取的骨干网络进行种子点采样，并从输入点云中提取种子点的高维特征。投票模块将种子点及其特征作为输入，并经过回归预测种子点所属目标的中心点，中心点的预测由一个多层感知器(MLP)模拟霍夫投票过程。然后，通过对所有回归预测种子点所属目标的中心点进行分组来生成聚类，并形成目标候选，然后从中预测出目标的3D包围框并通过另一个MLP层对目标类别进行判断，最后由3D-NMS(3D非极大值抑制)去除所有预测的3D包围框信息的重叠冗余部分。这两个多层感知器(MLP)都是带有激活函数的全连接层，同时也有相应的损失函数指导参数更新。

②多层特征金字塔的建立：如图3所示，左下角的虚线框线里就是本发明的特征金字塔。网络输入的是一系列点云

n是场景点云的点数，每一个点x_i属于

的向量空间，其中D表示点的特征长度，3表示点的坐标长度。其中每个点x_i＝[f_i,p_i],其中

是点云的几何坐标，

是点的特征。由于本发明以纯点云作为PointNet++骨干网络的输入，所输入的点云特征长度为零，只有xyz坐标。首先输入的点云尺寸为N*3，每一个点都有它的3D坐标，将这些点依次送入4个set abstraction层(点集抽象层，分别是SA1,SA2,S A3,SA4)进行下采样和提取点云特征，每一层的采样点数分别为2048,1024,512,256。然后就开始搭建特征金字塔，如图3所示，本发明搭建的是一个有四层的点云特征层(P4,P3,P2,P1) 的特征金字塔。

其中，点云特征层P4,P3,P2,P1层点的个数与坐标和它相对应的SA层上点的个数与坐标保持一致。同时，P4到P3与P3到P2也是一个上采样的过程，P4,P3,P2每一层点的个数分别为256,512,1024。首先，在得到P4层上点的特征方面，本发明将SA4层点的特征送入一个三层的MLP(带激活函数的全连接层)得到P4层点的特征，在调整特征维度的同时进一步整合高层语义特征，这个三层的MLP前两层有ReLU激活函数和批标准化，三层的MLP的第三层只有ReLU激活函数。然后，在得到P3、P2和P1层上点的特征方面，以P3层为例， P3层点的输入来自于两个输入，即P4层的输出和SA3层的输出。本发明使用PointNet++中的插值操作来从P4层获得一部分特征，将对应的SA3层的特征全部复制过来(在图中以虚线跳线连接)得到第二部分特征，这两部分特征在特征维度上拼起来后，送入一个MLP来调整特征的维度和整合特征。同样的方法获得P2和P1层点的特征。这样本发明就搭建出了具有多层点云特征层(point feature maps)的特征金字塔。需要注意的是，为了方便后续将这些特征投票到同一个特征空间，每一层的点云特征层上的点的特征长度都保持了一致，在这里本发明选取的特征长度是256。本发明的网络以PointNet++为骨干网络，很注重对点的xyz空间坐标的利用，点的xyz空间坐标数据也一直都保留并使用着，所以每个点既有它的坐标，也有它的特征(比如网络结构图里对点的可视化就是可视化的点的坐标，每一层点的数量也有差异)。本发明搭建特征金字塔的关键是得到MLP层的输入部分。

③在不同的点云特征层上分别进行深度霍夫投票和投票后的特征与坐标的分别融合。

由于不同点云特征层对位置信息和语义信息的侧重情况不同，本发明相应的为每一个点云特征层都设置了一个投票模块，如图3的右边虚线框。在每一点云特征层使用该层的特征进行深度霍夫投票，来为每一层点的坐标和特征生成投票，并且更新坐标和特征得到投票后的坐标和投票后的特征，在这里每一个投票模块默认投一票。在使用MLP模拟深度霍夫投票的同时，四个点云特征层的特征也会被投票到同一个特征空间，指导和优化这个过程的投票损失函数L_votin如下：

式中，

表明一个点s_i是否在物体表面，M_pos是特征金字塔中的第m层点云特征层中前景点的个数，m是点云特征层的层数(也就是特征金字塔的层数)，i表示点的索引，Δx_i是从种子位置x_i到其所属对象的边界框中心的距离预测值，

是从种子位置x_i到其所属对象的边界框中心的距离真值。

这些投票后的坐标与特征也会被分别融合在一起，在这里本发明对投票后的坐标使用最远点采样(FPS采样)找到投票簇的中心点，并对每个中心点进行球查询(ballquery)来形成投票簇(vote clusters)。投票簇的特征一方面参与产生最终的预测结果(每一个投票簇的特征都会预测一个提案proposal，之后再使用3D NMS对冗余的提案进行过滤)，另一方面也会对投票簇应用Back-tracing模块生成num_proposals*6个代表点(representative points)。 Back-tracing模块的大概过程是先使用投票簇的特征对提案(proposal)进行一次大致预测，解算出提案的6个面的中心点作为代表点(representativepoints)。

本发明用到了这个Back-tracing模块来进一步提取前景点的特征，本发明并没有使用所有前景点，而是只对少数前景点进一步提取特征来减小杂乱的背景点对预测产生的影响，这种方式能找到合适的前景点并且是从一些数量有限的点里找的这些前景点的特征。关于损失函数方面：本发明关于投票损失函数(L_voting)是对VoteNet的投票损失函数上改进的，本发明的投票损失函数是计算多个点云特征层的，每一个预测特征层(点云特征层)都分别进行计算。

④本发明在特征金字塔的P1层进行前背景点分割，这样做一方面能和搭建好的特征金字塔很好的结合，另一方面使用的点的数量也很有限(P1层只有2048个点)。本发明将P1 层点的特征送入到一个三层的MLP得到前、背景点的预测得分(2048*2)，对P1层2048个点预测前景点得分和背景点得分，2048*2是指预测得分的维度，取前景点的预测得分大于背景点的预测得分的这些点为前景点，来进行前、背景点分割。本发明取物体的3D包围框内的点为前景点，并以此制作训练时所需要的前背景点标签，本发明使用交叉熵损失函数(cross-entropy loss)来指导和优化前背景点的分割，减少计算量。

得到前景点后，通过Back-tracing模块对投票簇先进行一次物体包围框的大致回归，包围框的六个面的中心点就是代表点，以得到的代表点为中心进行球查询得到个num_proposals*6 个local regions ofpoints，以每一个代表点为中心实施PointNet++的一个SA层提取特征，即使用shared-MLP(强调对点云中的每一个点都采取相同的特征转换)对这些local region的前景点进一步提取特征。属于同一个proposal的local region的特征会被连接(concatenate)在一起，这样就完成了对前景点特征的进一步提取，并提取到num_proposals*C的特征，即为前景点的特征。

从分割后获得的前景点进一步提取到的前景点的特征和投票簇的特征相结合送入到提案模块(Proposal Refinement&Classification module)并紧接着进行3D NMS来最终得到预测的物体的3D包围框和物体种类。

(3)网络训练

本发明的网络可以端到端的训练，其中使用的优化器是AdamW优化器，批量大小(batch size)设置为8。在ScanNet V2数据集初始的学习率设置为0.008，在SUN RGB-D数据集初始的学习率设置为0.001。两个数据集都是训练230个epoch，学习率衰减的steps设置为{120， 160，200}，衰减率为{0.1，0.1，0.1}。基于Pytorch的深度学习框架，并装备有一张RTX 3090 GPU，整个训练过程在ScanNet V2 dataset上需要大概4个小时，在SUN RGB-Ddataset上需要大概11个小时。

(4)与近几年的方法对比

本发明在ScanNet V2和SUN RGB-D这两个数据集上评估了本发明的方法，为了公平对比，所检测的物体种类均和VoteNet保持一致。本发明同时也和一些其他的3D物体检测方法做量化对比，包括DSS(CVPR,2016),cloud of gradients COG(CVPR,2017),2D-driven(CVP R,2016),GSPN(CVPR,2019)，3D-SIS(CVPR,2019)，F-PointNet(CVPR,2018)。

表1:在ScanNet V2 validation set上的3D物体检测结果

表2:在SUN RGB-D V1 validation set上的3D物体检测结果

表1和表2中评价指标是mAP，3D IoU的阈值为0.25和0.5。Geo+RGB表示输入点云和图像；Geo only表示只输入点云。

表3:在ScanNet V2 validation set上每一类3D物体的检测得分

表3中3D IoU的阈值为0.25(mAP@0.25)。

表4:在ScanNet V2 validation set上每一类3D物体的检测得分

表4中3D IoU的阈值为0.5(mAP@0.5)。

表5:在SUN RGB-D V1 validation set上每一类3D物体的检测得分

表5中3D IoU的阈值为0.25(mAP@0.25)。

表1和表2汇总了对比结果。本发明的方法相较于VoteNet有了明显的提升，在ScanNet V2 validation set上在mAP@0.25和mAP@0.5的指标下分别提升了4.5％和6.7％；在SUN RGB-D validation set上在mAP@0.25和mAP@0.5的指标下分别提升了1.6％和2.5％。需要注意的是，mAP@0.5是一个比较严苛的指标，因为它基本上需要在边界框的每个维度中覆盖 79％以上。这也说明了，本发明网络的预测结果的准确率比VoteNet高的同时，预测质量也比 VoteNet高。表3和表4表示在ScanNetV2 validation set上每类3D物体的检测得分，其中的评价指标分别为mAP@0.25和mAP@0.5。表5表示在SUN RGB-D V1 validationset上每类 3D物体的检测得分，其中的评价指标分别为mAP@0.25。如表3和表4所示，在ScanNet数据集中的18类3D物体中，在mAP@0.25的指标下，本发明的方法在13类3D物体的检测上获得最好的性能；在mAP@0.5的指标下，本发明的方法在16类3D物体的检测上获得最好的性能。如表5所示，在SUN RGB-D数据集中的10类3D物体中，在mAP@0.25的指标下，本发明的方法在5类3D物体的检测上获得最好的性能。本发明的网络在书架、浴缸 (bathtub)、窗帘(curtain)和洗碗槽等的表现明显比VoteNet要好，这些物体往往尺寸比较大或者形状比较小，这也得益于本发明的网络对多层特征的利用以及预测时受杂乱的背景点影响较小。

(5)定性分析

图4和图5显示了在ScanNet V2数据集和SUN RGB-D数据集上使用MLFFVNet和VoteNet进行3D对象检测的结果的定性比较，预测结果是物体的包围框，准确性是和基准(GroundTruth,GT)进行比较的，越接近基准(GT)说明预测效果越好，本申请的预测结果(物体的框)要比VoteNet要好。在图4中可以看到本申请预测的假阳性(通俗点说就是明明不是物体，但却预测成了一个物体)要比VoteNet少；在图5的较复杂场景，本申请的预测质量明显的比VoteNet要好。结果表明本发明的方法能够实现更加准确的预测，即使在一些杂乱的场景也能实现更加可靠的预测并且能更有效地消除假阳性。

(6)消融实验

表6:在SUN RGB-D数据集和ScanNet V2数据集上进行定量消融实验

表6中基准模块Baseline是由自己的机器进行训练。表中一个√是残缺版，两个√是完整版，表示存在相应的模块，起到消融实验的作用。

为了量化的评估本发明为了利用多层特征信息搭建特征金字塔方式(简称MLF模块)的有效性以及寻找的前景点对最终预测带来的优化(简称Foreg模块)效果，本发明对这两个模块的不同组合进行了实验。量化的结果如表6所示。VoteNet是本发明的基准方法，使用 MLF模块在mAP@0.25的条件下提升了1.1％和2.3％。在应用了MLF模块和Foreg模块后，最终结果提升到了59.3％和63.1％。这些结果显示了本发明的改进是非常有效的。

(7)总结

本发明在VoteNet的基础上，以PointNet++为骨干网络搭建特征金字塔，使用多层特征进行3D物体检测，本发明搭建了一个具有多层点云特征层的特征金字塔，然后为每一层点云特征层配备了各自的深度霍夫投票模块，并且将不同层的特征投票到统一特征空间里，然后将投票后的坐标和特征分别融合。紧接着，在所搭建的特征金字塔的最底层点云特征层进行前背景点分割，使用少数的点(相对整个点云场来说)进行计算来获取到部分的前景点，然后进一步地提取前景点的特征，这种找前景点的方式和进一步提取特征的方式是非常有效且合适的，既提高了检测的效率和精度，也缩短了检测时间。详细的对比实验和丰富的消融实验也证明了本发明提出的模块和对VoteNet的改进的有效性。

本发明未述及之处适用于现有技术。

Claims

1.一种基于多层特征金字塔的点云3D物体检测方法，其特征在于，该检测方法包括以下内容：

在VoteNet网络的基础上，同样是以点云作为输入，在PointNet++骨干网络上产生多层特征金字塔来获得多个点云特征层，这些点云特征层分别配备一个投票模块，获得深度霍夫投票的同时也将其映射到同一个特征空间，然后进行特征融合形成投票簇。

2.根据权利要求1所述的检测方法，其特征在于，在多层特征金字塔的最下面一层同时也是点的数量最多的一层进行前、背景点分割来获得前景点，接着把特征融合形成的投票簇和这部分前景点的坐标与特征送入到Back-tracing模块获得代表点，以每一个代表点为中心实施PointNet++的一个SA层来进一步提取这部分前景点的特征，最终将投票簇的特征和提取到的前景点的特征相结合做预测来得到物体包围框和语义标签的预测。

3.根据权利要求2所述的检测方法，其特征在于，在多层特征金字塔的最下面一层进行前背景点分割，将最下面一层的点的特征送入到一个三层的MLP得到前、背景点的预测得分，取前景点的预测得分大于背景点的预测得分的这些点为前景点；使用交叉熵损失函数来指导和优化前背景点的分割；

得到前景点后，通过Back-tracing模块对投票簇先进行一次物体包围框的大致回归，包围框的六个面的中心点就是代表点，以得到的代表点为中心进行球查询得到个num_proposals*6个local regions ofpoints，使用shared-MLP对这些local region的前景点进一步提取特征；属于同一个proposal的local region的特征会被连接在一起，这样就完成了对前景点特征的进一步提取，并提取到num_proposals*C的特征，即为前景点的特征；

从分割后获得的前景点进一步提取到的前景点的特征和投票簇的特征相结合送入到提案模块并紧接着进行3D NMS来最终得到预测的物体的3D包围框和物体种类。

4.根据权利要求1所述的检测方法，其特征在于，所述VoteNet网络由三个主要部分组成，包括点云特征提取、投票和目标推荐及其分类；其中PointNet++用作点云特征提取的骨干网络进行种子点采样，并从输入点云中提取种子点的高维特征；投票模块将种子点及其特征作为输入，并经过回归预测种子点所属目标的中心点，中心点的预测由一个多层感知器(MLP)模拟霍夫投票过程；然后，通过对中心点进行分组来生成聚类，并形成目标候选，然后从中预测出目标的3D包围框并通过另一个MLP层对目标类别进行判断，最后由3D-NMS去除所有预测的3D包围框信息的重叠冗余部分。

5.根据权利要求1所述的检测方法，其特征在于，所述多层特征金字塔的点云特征层P4,P3,P2,P1层点的个数与坐标和它相对应的PointNet++骨干网络中的四个SA层上点的个数与坐标保持一致；首先输入的点云尺寸为N*3，N是一个场景点云中点的个数，3代表xyz坐标，每一个点都有它的3D坐标，将这些点依次送入4个点集抽象层SA1,SA2,SA3,SA4层进行下采样和提取点云特征，每一层的采样点数分别为2048,1024,512,256，然后就开始；

同时，P4到P3与P3到P2也是一个上采样的过程，P4,P3,P2每一层点的个数分别为256,512,1024；将SA4层点的特征送入一个三层的MLP得到P4层点的特征，在调整特征维度的同时进一步整合高层语义特征，得到P4层上点的特征；然后，在得到P3、P2和P1层上点的特征方面，以P3层为例，P3层点的输入来自于两个输入，即P4层的输出和SA3层的输出，使用PointNet++中的插值操作来从P4层获得一部分特征，将对应的SA3层的特征全部复制过来得到第二部分特征，这两部分特征在特征维度上拼起来后，送入一个MLP来调整特征的维度和整合特征，获得P3层上点的特征；同样的方法获得P2层和P1层点的特征；至此，搭建好多层特征金字塔，每一层的点云特征层上的点的特征长度都保持一致，能将这些特征投票到同一个特征空间。

6.根据权利要求5所述的检测方法，其特征在于，所述三层的MLP的前两层有ReLU激活函数和批标准化，三层的MLP的第三层只有ReLU激活函数；选取每一层的点云特征层上的点的特征长度是256。

7.根据权利要求1所述的检测方法，其特征在于，获得深度霍夫投票的同时也将其映射到同一个特征空间，然后进行特征融合形成投票簇，指导和优化这个过程的投票损失函数L_votin为：

式中，

表明一个点s_i是否在物体表面，M_pos是特征金字塔中的第m层点云特征层中前景点的个数，m是点云特征层的层数，i表示点的索引，Δx_i是从种子位置x_i到其所属对象的边界框中心的距离预测值，

是从种子位置x_i到其所属对象的边界框中心的距离真值；

这些投票后的坐标与特征也会被分别融合在一起，对投票后的坐标使用最远点采样找到投票簇的中心点，并对每个中心点进行球查询来形成投票簇。