CN114882495B

CN114882495B - 一种基于上下文感知特征聚集的3d目标检测方法

Info

Publication number: CN114882495B
Application number: CN202210340978.7A
Authority: CN
Inventors: 毛爱华; 陈婉昕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2024-04-12
Anticipated expiration: 2042-04-02
Also published as: CN114882495A

Abstract

本发明公开了一种基于上下文感知特征聚集的3D目标检测方法，步骤如下：S1、提取输入点云的局部特征点集并预测坐标和特征偏移量；S2、根据投票操作形成的特征聚类生成优化后的搜索半径；S3、根据步骤S2中的优化后的搜索半径生成语义特征；S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果。与现有技术相比，本发明的目标检测方法能在保持网络轻量级的同时，提升了目标检测任务的精度，达到理想的目标检测效果。

Description

一种基于上下文感知特征聚集的3D目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于上下文感知特征聚集的3D目标检测方法。

背景技术

近年来，深度学习的兴起极大地推动了计算机视觉领域的快速发展，在很多传统2D目标检测任务上都取得了突出的成果，但难以直接应用到更为广泛的三维场景的任务中，因此3D目标检测具有重要研究价值。3D目标检测是一种对三维场景中的物体进行定位和识别的计算机技术，目前已经成为计算机视觉在理解三维场景的重要研究方向之一，广泛应用于自动驾驶、智能机器人、增强现实等技术领域，具有很重要的研究意义。

基于点云数据的3D目标检测由于其数据格式的简单、灵活，且保留了完整的三维数据信息而受到越来越多的关注。针对点云数据，又根据不同的表示方式衍生出不同的学习方法。基于投影的方法将数据转换为图片形式，将成熟的2D目标检测方法迁移到3D领域，受限于2D目标检测框架，没有充分利用3D数据信息且可拓展性较差。基于体素的方法可以更好地提取局部特征，但是体素化的分辨率较低时容易丢失信息，分辨率较高时需要较高计算代价。基于点的方法保持输入数据为点的表示形式，与其余方法相比，具有复杂度较低、效率更高的优势，但是其捕捉和聚集局部特征的能力较弱，造成识别精度下降。

发明内容

本发明的目的是为了解决现有技术存在的上述问题，提出一种基于上下文感知特征聚集的3D目标检测方法，以提升3D目标检测的识别精度。

本发明的目的可以通过采取如下技术方案达到：

一种基于上下文感知特征聚集的3D目标检测方法，所述3D目标检测方法包括以下步骤：

S1、提取输入点云的局部特征点集并预测坐标和特征偏移量，过程如下：

S101、提取输入点云的局部特征点集；

S102、预测局部特征点集中特征点的坐标和特征偏移量；

S103、使用局部特征点集中特征点的坐标和特征偏移量进行坐标和特征的投票操作，形成特征聚类；

S2、根据投票操作形成的特征聚类生成优化后的搜索半径，过程如下：

S201、对投票后的特征聚类进行采样操作得到一组聚类中心点X；

S202、对每个聚类中心点X进行搜索得到对应的一组强关键点集；

S203、将每组强关键点集的特征进行聚合来预测搜索半径的偏移量，生成优化后的搜索半径；

S3、根据步骤S2中生成的优化后的搜索半径生成语义特征，过程如下：

S301、根据该优化后的搜索半径重新对每个聚类中心进行自适应半径的最近邻搜索得到新的一组关键点集；

S302、基于新得到的关键点集进行特征聚合操作，得到语义特征；

S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果，过程如下：

S401、根据语义特征，利用多层感知机检测框分类和回归，得到中间结果向量；

S402、解码中间结果向量，得到一组冗余的3D检测框；

S403、对冗余的3D检测框进行去冗余处理，得到无冗余的3D检测框的最终输出结果。

进一步地，在步骤S101中，所述提取输入点云的局部特征点集，为缓解点云数据采样后的失真问题，采用最远点采样策略是常用的基于点云数据3D目标检测的方式。PointNet++是一种比较通用的提取点云局部特征的深度学习网络。最远点采样策略和PointNet++都是出自文献“PointNet++:Deep Hierarchical Feature Learning onPointSets in a Metric Space”。

进一步地，在步骤S102中，所述预测局部特征点集中特征点的坐标和特征偏移量，由于特征点的无序性，采用多层感知机实现序列无关的特征变换是一种常用的特征点预测方式。

进一步地，在步骤S103中，所述使用局部特征点集中特征点的坐标和特征偏移量进行坐标和特征的投票操作，本发明提出矢量损失函数，可以优化投票方向的准确性，增加训练稳定性。

进一步地，在步骤S201中，所述对每个聚类中心点X进行搜索得到对应的一组强关键点集，使用最邻近搜索方法进行搜索是基于点的方法的常用方式。

进一步地，在步骤S203中，所述将每组强关键点集的特征进行聚合来预测搜索半径的偏移量，生成优化后的搜索半径。在聚合时使用多层感知机和最大池化层是常用的基于点云数据3D目标检测的特征聚合方式。本发明提出半径损失函数，可以监督生成的半径，指导其尽可能覆盖物体的特征点所处的范围。使用每个聚类中心点的强关键点集聚合上下文信息生成对应的半径偏移量，提高了最近邻搜索覆盖的有效范围。

进一步地，在步骤S301中，所述根据该搜索半径重新对每个聚类中心进行自适应半径的最近邻搜索得到新的一组关键点集，利用优化后的搜索半径对聚类中心点集进行自适应的最近邻搜索，得到不同聚类中心点对应的新关键点集，减少了噪声点，增加了有效特征点。

进一步地，在步骤S302中，所述基于新得到的关键点集进行特征聚集操作得到语义特征，使用新的关键点集进行不同聚类中心点的特征聚合，提高了每个聚类中心点的语义特征表达能力。

进一步地，在步骤S403中，所述对冗余的3D检测框进行去冗余处理，采用非极大值抑制(Non-Maximum Suppression，NMS)去除冗余的检测框，然后根据检测框的尺度、朝向、中心点绘制3D检测框，得到无冗余的3D检测框的最终输出结果，是常用的基于点云数据的3D目标检测结果产生方式。

本发明相对于现有技术具有如下的优点及效果：

1.本发明在步骤S103中，使用局部特征点集中特征点的坐标和特征偏移量进行坐标和特征的投票操作过程中，同现有方法相比，本发明提出矢量损失函数，监督向真实方向移动，优化投票方向的准确性，增加训练稳定性，从而提高聚类准确性；

2.本发明在步骤S203中，将每组强关键点集的特征进行聚合来预测搜索半径的偏移量，生成优化后的搜索半径，同现有方法相比，本发明提出半径损失函数，可以监督生成的半径，指导其尽可能覆盖物体的特征点所处的范围，优化了搜索范围，覆盖更多上下文有效信息，使属于聚类中心的特征更容易被捕捉；

3.本发明在步骤S301中，根据该搜索半径重新对每个聚类中心进行自适应半径的最近邻搜索得到新的一组关键点集，同现有方法相比，本发明利用自适应半径的最邻近搜索增加关键点集的有效信息，可为下一步骤S302中生成的语义特征提升丰富度。

4.本发明在步骤S302中，基于新得到的关键点集进行特征聚集操作得到语义特征，使用新的关键点集进行不同聚类中心点的特征聚合，同现有方法相比，新的关键点集和噪声点区分更大，有效特征聚集更紧凑，更容易被搜索到然后聚合。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例1中公开的3D目标检测方法的流程图；

图2是本发明实施例2中公开的3D目标检测方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例公开了一种基于上下文感知特征聚集的3D目标检测方法，所述3D目标检测方法包括以下步骤：

S1、提取输入点云的局部特征点集并预测坐标和特征偏移量：

S101、提取输入点云的局部特征点集；

S1011、输入原始点云，即读取点云数据集，数据集包含所有待识别目标，并存在一定数量的非识别目标，数据集共5285条记录，每个点n＝(x，y，z)，其中x，y，z代表了点的三维坐标。

S1012、采用最远点采样策略，对原始点云进行采样得到输入数量一致的点云，即对点云数据中共N个特征点(n₁，n₂，...，n_N)，N＞20000，采样20000个点，首先随机采样一个点，假设是特征点n₁，放入集合S中，然后对于剩余的N-1个点，计算其到最新被采样的点n₁的欧式距离选择距离最大的点加入到S中，重复上述采样，得到20000个点。

S1013、使用点云深度学习网络PointNet++作为骨干网络提取局部特征点，即输入20000个特征点，经过PointNet++生成1024个特征点，每个特征点的维度为256。

PointNet++由4个集合特征抽取(Set Abstraction，简称SA)层和2个特征反向传播(Feature Propagation，简称FP)层组成。每个SA层包含一个最远点采样(FarthestPoint Sampling，简称FPS)操作，一个最近邻搜索操作，一个多层感知机(MultilayerPerceptron，简称MLP)+最大池化层。

PointNet++结构：第一SA层->第二SA层->第三SA层->第四SA层->第一FP层->第二FP层。

每个SA层结构：第一FPS层->第一最近邻搜索层->第一卷积层->第一归一化层->第一激活函数层->第二卷积层->第二归一化层->第二激活函数层->第三卷积层->最大池化层。

4个SA层中的每个FPS采样操作点数分别为2048，1024，512，256。每个最近邻搜索半径分别为0.2，0.4，0.8，1.2，搜索邻居数分别为64，32，16，16。每个MLP分别包含3个卷积层，2个激活函数层，2个归一化层。

第一SA层中的第一与第二卷积层由64个1*1卷积构成，第三卷积层由128个1*1卷积构成。

2个归一化层均为批量归一化(Batch Normalization，简称BN)层，输入维度为64。

1个最大池化层由128个1*64卷积核构成，步长为1。

第二SA层中的第一与第二卷积层由128个1*1卷积构成，第三卷积层由256个1*1卷积构成。

2个归一化层均为BN层，输入维度为128。

1个最大池化层由256个1*32卷积核构成，步长为1。

第三SA层中的第一与第二卷积层由128个1*1卷积构成，第三卷积层由256个1*1卷积构成。

2个归一化层均为BN层，输入维度为128。

1个最大池化层由256个1*16卷积核构成，步长为1。

第四SA层中的第一与第二卷积层由128个1*1卷积构成，第三卷积层由256个1*1卷积构成。

2个归一化层均为BN层，输入维度为128。

1个最大池化层由256个1*16卷积核构成，步长为1。

所有卷积层步长均为1。

激活函数层均为ReLU激活函数层。

每个FP层结构：一个最近邻搜索+一个三线性插值+一个MLP层。

S102、预测局部特征点集中特征点的坐标和特征偏移量；

将PointNet++采集的特征点输入多层感知机得到所有特征点坐标偏移量和特征偏移量。多层感知机3个卷积层、2个批量归一化层和2个激活函数层组成，其结构关系为：

第一卷积层->第一归一化层->第一激活函数层->第二卷积层->第二归一化层->第二激活函数层->第三卷积层。

3个卷积层中，第一与第二卷积层由256个1*1卷积构成，第三卷积层由259个1*1卷积构成，上述卷积层步长均为1。

2个激活函数层均为ReLU激活函数层。

2个归一化层均为BN层，输入维度为256。

第三卷积层输出维度259中的前3维作为坐标偏移量。

第三卷积层输出维度259中的4-259维作为特征偏移量。

S103、使用局部特征点集中特征点的坐标和特征偏移量进行坐标和特征的投票操作，形成特征聚类。

局部特征点集中特征点的坐标投票操作定义如下：

其中，表示预测的第i个点的坐标偏移量，/>表示经过投票后的局部特征点集中特征点坐标，p_i表示投票前的特征点坐标。

局部特征点集中特征点的特征投票操作定义如下：

其中，f_i表示投票前提取的局部特征，表示预测的特征偏移量，/>表示经过投票后的局部特征。

对投票后的局部特征点集中特征点计算误差损失函数作为监督信号，所述误差损失函数定义如下：

Loss_vote＝Dist(C，G)

其中，Dist(·)表示计算给定点集之间的欧式距离，C表示投票后得到的局部特征中特征点集，G表示聚类中心点对应的真实物体中心构成的点集。

对局部特征进行投票操作时，采用基于投票方向的矢量损失作为额外监督信号，其中，基于投票方向的矢量损失定义如下：

Loss_vector＝SmoothL1(v_i，u_i)

其中，SmoothL1(·)表示L1平滑损失：

在本发明中beta的值为1，u_i＝Norm(g_i-p_i)，表示期望的投票方向矢量，g_i表示真实物体中心点坐标，Norm(·)表示归一化操作：

其中，表示预测的投票方向矢量。

S2、根据投票后的特征聚类生成优化后的搜索半径：

S201、对投票后的特征聚类进行采样操作得到一组聚类中心点；

采用最远点采样策略，对特征聚类中共1024个特征点(n₁，n₂，...，n₁₀₂₄)，采样256个点，首先随机采样一个点，假设是特征点n₁，放入集合S中，然后对于剩余的N-1个点，计算其到最新被采样的点n₁的欧式距离选择距离最大的点加入到S中，重复上述采样，得到256个聚类中心点。

S202、对每个聚类中心点进行搜索得到对应的一组强关键点集；

使用固定半径r＝0.2对每个聚类中心点n_i进行最邻近搜索得到对应的一组强关键点集，即对于每个特征点ni，计算其与其余N-1个特征点n_j的欧式距离对所有距离小于r＝0.2的特征点进行采样，选择距离最小的k＝16个特征点作为n_i的强关键点集N(i)

使用多层感知机和最大池化层进行聚合，最大池化层结构关系为：

第一卷积层->第一归一化层->第一激活函数层->第二卷积层->第二归一化层->第二激活函数层->第三卷积层->最大池化层。

3个卷积层均由128个1*1卷积构成，步长均为1。

2个激活函数层均为ReLU激活函数层。

2个归一化层均为BN层，输入维度为128。

1个最大池化层由256个1*16卷积核构成，步长为1。

输入为256个特征点，每个特征点取16个邻居点，每个邻居点的特征维度是256。多层感知机将维度256降至128，最大池化层将维度进行融合由16*128变为1*128。

定义如下半径损失进行监督学习，并采用梯度下降法进行反向传播；半径损失定义如下：

Loss_radii＝Loss_pos-radii+Loss_neg-radii

其中，表示有效检测框对应的半径损失值，mask表示正负样本的二进制掩码，用于标注过滤有效检测框，表示无效检测框对应的半径损失。μ_r,i表示用于聚合第i个语义特征的第i个关键点集中的所有特征点的坐标在投票前的坐标的均值，var_r,i表示坐标的方差。g_r，i表示第i个检测框的真实期望半径，计算第i个检测框的对应的真实检测框的对角线的1/2得到，/>l_i，w_i,h_i分别表示检测框所表示的长方体的长宽高。mask_i表示正负样本的二进制掩码的第i个值，代表第i个检测框是否有效，0无效，1有效。

S3、根据步骤S2中的优化后的搜索半径生成语义特征；

S301、根据该搜索半径重新对每个聚类中心进行自适应半径的最近邻搜索得到新的一组关键点集；

对于每个特征点n_i，计算其与其余N-1个特征点n_j的欧式距离对所有距离小于对应优化半径r_i的特征点进行采样，选择距离最小的k＝16个特征点作为n_i的强关键点集N(i)。

使用多层感知机和最大池化层进行聚合，其结构关系为：

3个卷积层均由128个1*1卷积构成，步长均为1。

2个激活函数层均为ReLU激活函数层。

2个归一化层均为BN层，输入维度为128。

1个最大池化层由256个1*16卷积核构成，步长为1。

神经网络输出(256*128)的高维向量即为语义特征。

S4、根据步骤S3中的语义特征进行3D目标的检测框分类和回归任务得到具有3D检测框的最终输出结果：

使用多层感知机，其结构关系为：

3个卷积层中，第一与第二卷积层均由128个1*1卷积构成，第三卷积层由79个1*1卷积构成，步长均为1。

2个激活函数层均为ReLU激活函数层。

2个归一化层均为BN层，输入维度为128。

多层感知机输出256个中间向量，每个中间向量维度为79，第0-1维度为检测对象分数，第2-4维度为检测框中心点坐标，第5-16维度为检测框朝向分类分数，第17-28维度为检测框朝向偏移量，第29-38维度为检测框尺度分类分数，第39-68维度为检测框尺度偏移量，第69-78维度为检测框语义类别分数。

S402、解码中间结果向量，得到一组冗余的3D检测框；

将中间向量各个维度的值按照对应的参数，即每个中间向量维度为79，第0-1维度为检测对象分数，第2-4维度为检测框中心点坐标，第5-16维度为检测框朝向分类分数，第17-28维度为检测框朝向偏移量，第29-38维度为检测框尺度分类分数，第39-68维度为检测框尺度偏移量，第69-78维度为检测框语义类别分数，进行拆分后，分别保存得到冗余的3D检测框。

通过非极大值抑制(Non-Maximum Suppression，NMS)去除冗余的检测框，然后根据检测框的尺度、朝向、中心点绘制3D检测框，得到无冗余的3D检测框的最终输出结果。

假设有N个冗余检测框，设定阈值t＝0.25，根据N个检测对象分数进行降序排列，score_objn表示检测框的检测对象分数。选取score_objn最高的检测框box1加入输出检测框列表S_box中，计算其余N-1个检测框与box1的3D IoU值，将3DIoU值大于t的检测框删除，从剩余检测框中选择score_objn最高的加入S_box中，重复上述过程得到去冗余后的3D检测框输出结果。

3D IoU(3D Intersection Over Union)：

得到检测框的中心点和长宽高和朝向，输入meshlab软件直接可视化。

在本发明方法的执行过程中，使用对象二分类损失、语义分类损失、检测框参数损失、投票误差损失、半径损失和基于投票方向的矢量损失共同作为本发明提出的基于上下文感知特征聚集的3D目标检测方法的监督信号；使用Adam梯度下降算法联合训练，直到总体损失在一定迭代轮数内不在下降或满足预设的迭代轮数，则完成联合训练，并保存联合训练后得到的参数；

总体损失定义如下：

Loss＝α×Loss_objn+β×Loss_sem-cls+Loss_box+Loss_vote+Loss_radii+Loss_vector

其中，α为实现检测框分类功能的超参数，β为实现语义分类功能的超参数。在本发明实例中，α＝0.5，β＝1。

对象二分类损失：

score_obj_i表示第i个检测框的检测对象分数，是一个2维向量，第一维表示是对象检测框的置信度，第二维表示不是对象检测框的置信度，label_obj_i表示第i个检测框的真实对象标签的one-hot编码向量，维度为2，第一维是1表示是对象检测框，第二维是1表示不是对象检测框。Loss_{cross-entropy}(p_i，y_i)表示交叉熵损失，M2表示有效的检测框个数，正负样本的二进制掩码mask中的非0元素和。

p_i，c表示p_i的第c维的值，y_i，c表示y_i的第c维度值，p_i和y_i是输入的多维向量。

语义分类损失：

score_sem_i表示第i个检测框的语义类别分数，是一个向量，label_sem_i表示第i个检测框的真实语义类别的one-hot编码向量，维度为10表示10个语义类别，属于第j个类别，第j个维度为1，其余为0。

检测框参数损失：包含中心点损失、朝向损失、尺度损失三个子损失。

Loss_box＝Loss_center+Loss_heading+Loss_size

dist(pred_center_i，label_center_i)表示计算第i个检测框中心点和真实中心点的欧式距离。pred_center_i和label_center_i分别表示三维坐标点，维度为3的向量

Loss_heading＝Loss_heading-cls+Loss_heading-reg

score_heading_i，label_heading_i分别表示检测框的朝向分类分数和真实的朝向类别的one-hot编码向量，都是维度为12的向量，计算交叉熵损失

pred_heading_offset_i，label_heading_offset_i分别表示检测框的朝向偏移量和真实的偏移量，都是一个维度为12的向量。

Loss_size＝Loss_size-cls+Loss_size-reg

score_size_i，label_size_i分别表示检测框的尺度类别分数和真实尺度类标的one-hot编码向量，都是一个10维度向量。

pred_size_offset_i，label_size_offset_i分别表示检测框的尺度偏移量和真实的偏移量，都是一个10维向量。

投票误差损失：

Loss_vote＝Dist(C，G)

半径损失：

Loss_radii＝Loss_pos-radii+Loss_neg-radii

μ_r，i表示用于聚合第i个语义特征的第i个关键点集中的所有特征点的坐标在投票前的坐标的均值，var_r,i表示坐标的方差。g_r,i表示第i个检测框的真实期望半径，计算第i个检测框的对应的真实检测框的对角线的1/2得到。mask_i表示正负样本的二进制掩码的第i个值，代表第i个检测框是否有效，0无效，1有效。

对方法运行过程中的所有参数使用Adam梯度下降算法联合训练，直到总体损失在250次迭代轮数内不在下降或满足预设的迭代轮数，则完成联合训练，并保存联合训练后得到的参数。

实施例2

本实施例基于实施例1公开的一种基于上下文感知特征聚集的3D目标检测方法，结合实验对本发明的技术效果作进一步说明。如图2所示，图2是本实施例中公开的3D目标检测方法的流程图。

实验环境：实验用硬件环境：CPU：16Intel(R)Core(TM)i9-9900K，主频：3.6GHz，内存：32G，固态硬盘：2T，GPU：GeForce RTX 2080Ti11G。软件环境：Pytorch1.8.0，python3.8.11，CUDA10.2，cudnn7.6.5，英伟达显卡驱动440.10。操作系统：Ubuntu18.04LST。

实验数据集描述：本发明实验所采用的数据集是SUN RGB-D数据集，一个单视角RGB-D图像构成的数据集，可以用于三维视觉领域的相关任务。该数据集包含大约5千张RGB-D图像用于构建训练数据集，其中对每个场景中的物体均使用3D检测框进行标注，共包括37个物体种类，数据集提供的相机参数来将深度图像转化为点云表示形式，对10个最常用类别的检测性能进行评估。

实验过程：分别使用本发明和现有的方案在数据集上进行检测，检测结果如表1所示：

表1.本发明与现有相关3D目标检测网络的性能对比结果表

现有方法1：F-PointNet，由文献“Frustum PointNets for 3D Object Detectionfrom RGB-D Data”提出。

现有方法2：VoteNet，由文献“Deep Hough voting for 3D object detection inpoint clouds”提出。

现有方法3：MLCVNet，由文献“MLCVNet:Multi-Level Context VoteNet for 3DObject Detection”提出。

表格名词解释。Geo：表示只使用几何信息作为输入，即点云的坐标(20000*3)。RGB：表示使用图像特征，图像特征用2D的特征提取网络获取，然后投影到点云上20000*(3+d)。w/o Lossvector：表示使用了投票方向的矢量损失函数。

实验评估指标：

其中，TP是检测结果中正确的目标个数，FP是非目标被判定为目标的个数，FN是真实的目标被判定为非目标个数，Precision是精确度，Recall是召回率。

Table、sofa、booksh、chair、desk、dresser、nightst、bed、bathtub、toilet分别代表了数据集中十种待识别的3D物体

每列数字表示该类别的平均精度(Average Precision，AP)值，计算每个目标recall值对应的最大precision值，得到类似坐标点表示(recall，precision)，绘制二维曲线，横轴为recall值，纵轴为precision值，所有坐标点构成曲线，曲线下面积为AP。所有类别的平均AP值(mean Average Precision，mAP)，该值越高代表识别精度越高，计算公式如下:

其中，n代表识别目标数量，在本发明的本次实验中n＝10。

通过该实验证明本发明的优势在于：

对比F-PointNet：在不使用RGB额外信息输入的情况下，mAP提升了6.1。

对比VoteNet：所有类别的AP都得到了提升，且mAP提升了2.4。

对比MLCVNet：在10个类别中有6个类别的AP都得到了提升，且MLCVNet使用了多层特征融合结构，引入大量训练参数。

矢量损失：单独验证矢量损失的有效性，且五个类别的AP得到提升，且mAP进一步提升0.9。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，所述3D目标检测方法包括以下步骤：

S101、提取输入点云的局部特征点集；

S102、预测局部特征点集中特征点的坐标和特征偏移量；

S402、解码中间结果向量，得到一组冗余的3D检测框；

S403、对冗余的3D检测框进行去冗余处理，得到无冗余的3D检测框的最终输出结果；

其中，在全局计算过程中，使用对象二分类损失、语义分类损失、检测框参数损失、投票误差损失、半径损失和基于投票方向的矢量损失函数共同作为监督信号；使用Adam梯度下降算法联合训练，直到总体损失函数在一定迭代轮数内不在下降或满足预设的迭代轮数，则完成联合训练，并保存联合训练后得到的参数；

总体损失函数定义如下：

Loss＝α×Loss_objn+β×Loss_sem-cls+Loss_box+Loss_vote+Loss_radii+Loss_vector

其中，α为实现检测框分类功能的超参数，β为实现语义分类功能的超参数，Loss_vote表示误差损失函数，Loss_radii表示半径损失函数，Loss_vector表示矢量损失函数；

其中，Loss_objn为对象二分类损失，计算公式如下：

score_obj_i表示第i个检测框的检测对象分数，是一个2维向量，第一维表示是对象检测框的置信度，第二维表示不是对象检测框的置信度，label_obj_i表示第i个检测框的真实对象标签的one-hot编码向量，维度为2，第一维是1表示是对象检测框，第二维是1表示不是对象检测框，Loss_{cross-entropy}(p_i，y_i)表示交叉熵损失，M2表示有效的检测框个数，M2取值等于正负样本的二进制掩码mask中的非0元素和，

p_i，c表示p_i的第c维的值，y_i，c表示y_i的第c维度值，p_i和y_i是输入的多维向量；

Loss_sem-cls为语义分类损失，计算公式如下：

score_sem_i表示第i个检测框的语义类别分数，是一个向量，label_sem_i表示第i个检测框的真实语义类别的one-hot编码向量；

Loss_box为检测框参数损失，包括中心点损失Loss_center、朝向损失Loss_heading、尺度损失Loss_size，计算公式如下：

Loss_box＝Loss_center+Loss_heading+Loss_size

dist(pred_center_i，label_center_i)表示计算第i个检测框中心点和真实中心点的欧式距离，pred_center_i和label_center_i分别表示三维坐标点，维度为3的向量，假设pred_center_i＝(x₁，y₁，z₁)，label_center_i＝(x₂，y₂，z₂)，x₁，y₁，z₁以及x₂，y₂，z₂分别表示三维坐标点pred_center_i和label_center_i的在x轴、y轴、z轴的坐标值，

Loss_heading＝Loss_heading-cls+Loss_heading-reg

score_heading_i，label_heading_i分别表示检测框的朝向分类分数和真实的朝向类别的one-hot编码向量，都是维度为12的向量；

pred_heading_offset_i，label_heading_offset_i分别表示检测框的朝向偏移量和真实的偏移量，都是一个维度为12的向量；

Loss_size＝Loss_size-cls+Loss_size-reg

score_size_i，label_size_i分别表示检测框的尺度类别分数和真实尺度类标的one-hot编码向量，都是一个10维度向量；

2.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S101中，采用通用的最远点采样策略，对原始点云进行采样得到输入数量一致的点云；使用点云深度学习网络工具PointNet++作为骨干网络提取局部特征点。

3.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S102中，使用多层感知机预测局部特征点集中特征点的坐标和特征偏移量，将PointNet++采集的特征点输入多层感知机得到所有特征点坐标偏移量和特征偏移量。

4.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S103中，局部特征点集中特征点的坐标投票操作定义如下：

其中，表示预测的第i个点的坐标偏移量，/>表示经过投票后的局部特征点集中特征点坐标，p_i表示投票前的特征点坐标；

局部特征点集中特征点的特征投票操作定义如下：

其中，f_i表示投票前提取的局部特征，表示预测的特征偏移量，f_i ^vote表示经过投票后的局部特征；

Loss_vote＝Dist(C，G)

其中，Dist(·)表示计算给定点集之间的欧式距离，C表示投票后得到的局部特征中特征点集，G表示聚类中心点对应的真实物体中心构成的点集；

对局部特征进行投票操作时，采用基于投票方向的矢量损失函数作为额外监督信号，其中，基于投票方向的矢量损失函数定义如下：

其中，SmoothL1(·)表示L1平滑损失函数：

u_i＝Norm(g_i-p_i)，u_i,j表示u_i的第j维值，表示期望的投票方向矢量，g_i表示真实物体中心点坐标，x，y表示参与运算的两个自然数，Norm(·)表示归一化操作：

||x||表示对x求范数，表示预测的投票方向矢量，v_i，j表示v_i第j维值。

5.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S201中，对投票后的特征点进行通用的最远点采样操作得到一组聚类中心点X。

6.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S202中，使用固定半径r对每个聚类中心点X进行最邻近搜索得到对应的一组强关键点集。

7.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S203中，使用多层感知机和最大池化层将每组强关键点集的特征进行聚合，从而预测搜索半径的偏移量，生成优化后的搜索半径，定义如下半径损失函数进行监督学习，并采用梯度下降法进行反向传播；半径损失函数定义如下：

Loss_radii＝Loss_pos-radii+Loss_neg-radii

其中，Loss_pos-radii＝Norm(mask×SmoothL1(μ_r+var_r，g_r))表示有效检测框对应的半径损失值，mask表示正负样本的二进制掩码，用于标注过滤有效检测框，均值μ_r＝Mu(Dist(S，G))，S表示最近邻搜索得到的关键点集所对应的投票前坐标点集，G表示聚类中心点对应的真实物体中心构成的点集，Mu(·)表示计算给定一组数据的均值，方差var_r＝Var(Dist(S，G))，Var(·)表示计算给定一组数据的方差，期望的搜索半径值l、w、h分别表示检测框所表示的长方体的长、宽、高，Loss_neg-radii＝(μ_r+var_r)×(1-mask)表示无效检测框对应的半径损失值。

8.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S401中，使用多层感知机进行检测框的分类和回归得到一个中间向量，包含分类和回归参数。

9.根据权利要求1所述的一种基于上下文感知特征聚集的3D目标检测方法，其特征在于，步骤S403中，通过非极大值抑制NMS去除冗余的检测框，然后根据检测框的尺度、朝向、中心点绘制3D检测框，得到无冗余的3D检测框的最终输出结果。