CN113989797A

CN113989797A - 一种基于体素点云融合的三维动态目标检测方法及装置

Info

Publication number: CN113989797A
Application number: CN202111250717.8A
Authority: CN
Inventors: 陶重犇; 郑四发; 曹杰程; 周锋; 张祖峰
Original assignee: Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

本发明提出了一种基于体素点云融合的三维动态目标检测方法及装置，采用两阶段的多次、多尺度特征融合的检测架构,第一阶段对点云直接处理提78取关键点特征和划分体素空间提取多尺度体素特征,将两者特征进行初次融合生成预选框.第二阶段在每个体素中设置参考点并吸收周围的关键点进行第二次的特征融合,将最终特征输入检测模块,实现预选框的优化.另外,针对分类和定位置信度不一致的问题,提出一种强制一致性损失函数,可以进一步提高检测的准确性.本发明的算法在Kitti,Waymo,Nuscene数据集中与其他算法进行了对比,并且通过实物车辆平台进行了可移植性和消融性研究,结果表明,本发明算法针对三维动态目标检测的准确率高,鲁棒性、可移植性和泛化能力强。

Description

一种基于体素点云融合的三维动态目标检测方法及装置

技术领域

本发明属于计算机技术，具体涉及三维动态目标检测方法，尤其涉及一种基于体素点云融合的三维动态目标检测方法及装置。

背景技术

近年来，自动驾驶在三维空间下的目标检测算法引起学术界和工业界的广泛关注。三维目标检测主要使用相机和激光雷达作为采集数据的传感器。Van等全面分析和研究了三维目标检测领域的各类传感器的优缺点并提供了多传感器融合的思路，Li等针对目标检测在自动驾驶领域的应用，提出了一种提出了基于结构感知的候选区域生成模块方法，这为本发明利用实物平台进行算法的评估提供了理论依据。

三维动态多目标检测算法主要可以分为两种类型：基于图像的方法和基于点云的方法。其中基于图像的方法一直以来是传统三维目标检测的重点探索的方向，主要可以分为三种：单目、双目、深度相机。基于图像的检测方法本质上是对图像进行分割，获取稠密的特征进行三维目标的匹配，Ku等使用单目相机，通过2D目标检测方法为场景中的目标生成3D建议，并设计一种投影对齐方式来优化3D定位的问题。针对双目相机，Wang提出一种融合多尺度局部特征与深度特征的三维目标匹配算法并将基于双目图像的深度图转换为雷达点云形式，使用3D点云算法进行训练和检测。然而，无论是单目还是双目相机，都缺乏直接的深度信息，而基于视觉图像通过几何计算得出的深度信息存在误差，难以生成准确的3D边界框。深度相机是利用计算发射和接收经过调制的红外脉冲的飞行时间(ToF)来推测深度，目前，Elkhalili等证明了深度相机已经成功应用于安全驾驶中。然而相机传感器容易受到光线和天气条件的影响，Chen等使用深度相机并且提出一种基于多尺度金字塔结构和条件生成对抗网络(GAN)来解决上述问题。随着激光雷达传感器的成本降低，近年来越来越多的算法针对点云数据进行处理，并且主要衍生出三种类别：直接处理点云法，划分体素空间法，映射法。直接处理点云的方法的先驱是Qi等提出的一种名为Pointnet的框架，可以直接将无序的点云输入系统，进行目标的位姿校正，特征提取，置信度预测，分类等工作。直接处理点云的方法虽然可以通过特征提取得到更大的感受野但是计算的复杂度较高。划分体素的方法也是点云目标检测中的一种常用思路。Zhou等开创性的提出VoxelNet的框架，将点云划分为体素，将不同尺度的体素特征进行堆叠，提取更复杂的特征信息并在立体空间生成检测框。基于体素的方法虽然计算的效率更高，但是受到卷积核大小的限制，不可避免的会降低定位精度。最后是映射的方法，Lang等将点云进行编码，映射为伪二维数据，使用成熟的2D CNN的方法进行检测，例如采用Li等提出的一种基于改进的Faster R-CNN网络的实时目标检测方法，避免了费时的3D卷积运算，然而映射过程中不可避免地会导致特征信息的丢失。上述基于点云的处理方法都存在各自的优点和缺陷，因此考虑多种特征的融合成为必然。点云数据和双目视图的融合可以提高目标检测准确性，通过迭代式自主学习的三维目标检测方法，提高在目标区域中的准确性。Tang等提出一种点云匹配算法。Qi等提出了一种名为F-PointNet的视锥方法，将相机图像与点云数据相融合从而确定目标在点云中的区域，然而该方法需要对额外对相机图像进行标注，其检测效果也会受到2D检测的影响。

发明内容

针对目前三维目标检测领域采用的方法在特征提取上普遍存在目标上下文特征不够丰富，无法实现精准的动态多目标检测的问题，本发明从点云出发，提出一种基于体素点云融合的三维动态目标检测算法。在Kitti， Waymo， Nuscene数据集以及实物车辆平台上测试并评估了提出的算法。实验表明，通过结合多尺度的特征，算法性能得到了显著的提升。另外，考虑到分类置信度和定位置信度存在不一致将会导致目标检测不够准确。例如存在A，B两个预选框，预选框A具有较高的分类置信度而定位置信度较低，预选框B的定位置信度较高而分类置信度略低于框A，非极大值抑制（NMS）的方法会自动过滤掉置信度较低的框。因此本发明提出了一个强制性一致损失函数，能够保留下与真实值更为接近的预选框，并且该损失函数不需要对目标检测的框架进行更改，易于实现，不需要过多额外的计算成本。

本发明采用如下技术方案：

一种基于体素点云融合的三维动态目标检测方法，采集三维动态目标后经过第一阶段与第二阶段，再点云输出三维动态目标，完成三维动态目标检测；具体的，采集三维动态目标后点云输入；第一阶段为对点云提取关键点特征、体素特征提取、特征融合、预选框生成；第二阶段为预选框优化、损失函数计算。更具体的，第一阶段中，通过划分体素进行3D卷积操作，利用子流形稀疏卷积的方法，作为特征编码和预选框生成的主干网络，同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类，提取其周围区域的特征，最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合，得到点云空间中关键点的高级特征；第二阶段在基于体素生成的ROI区域中选取参考点，进行聚类，融合第一阶段生成的关键点特征对预选框进行优化，并通过置信度强制约束的损失函数计算。

本发明中，第一阶段中，对点云提取关键点特征为：关键点采样层、聚类层、特征提取层、前景点分割层；

(1)采样层：以往随机采样的方式难以获取到点云的全局信息，本发明引入FPS(迭代最远点采样)的方法从点云中采样关键点；其具体原理如下：输入点云集合

共有n个点，随机选取

作为起始点，并写入关键点的集合

，计算

和剩余的n-1个点的欧式距离，选择最远点

写入集合

。下一次迭代同时考虑两个点，计算剩余n-2个点到集合K中两个点的距离，取最短的作为该点到点集的距离，得到n-2个点到集合K的距离，选取其中最远的点

写入集合

，继续迭代上述过程，直到采样出所需要的点的数目；

(2)聚类层：接着利用多分辨率组合(MRG)，以关键点为中心，R为半径划分球形区域，提取区域中包含的点的信息，获取到目标相关联的特征；提取的特征由两个特征向量串联构成，前半部分由原始点云数据中的所有点进行特征提取构成，后半部分由前半部分特征输入PointNet网络中得到；

(3)特征提取层：使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作，得到的多分辨率特征作为该中心点的局部特征，得到维度一致的特征；

(4)前景点分割层：利用关键点预测加权层对特征提取层得到的关键点进行检测，筛选出前景点；其具体原理是将关键点特征输入两层的感知机网络(MLP)，得出其属于前景点的权重信息，其中第一层MLP(128，256)网络有两次卷积过程，第一次为128个1×128×1大小的卷积核与输入特征进行卷积，得到的n个1×128的特征向量，第二次使用256个1×1×128大小的卷积核进行卷积，得到n个1×256的特征向量，并通过维度变换将特征向量变为n×256；第二层MLP(128，1)网络有两次卷积过程，第一次使用128个1×256×1大小的卷积核与输入特征进行卷积，得到n个1×128的特征向量，第二次使用1个1×1×128大小的卷积核进行卷积，得到n个1×1的特征向量，最后再通过维度变换将前景点预测值变为n×1；在处理包含多个点的点云数据时，对每个点乘以相同权重，权值范围在(0，1)之间，最后与特征向量相乘，得到该关键点的最终特征；每个关键点特征

的预测特征权重表示如下

(1)

其中

是一个两层的MLP网络，以预测(0，1)之间的前景点置信度。其计算公式分为正向传播和权值更新两部分，正向传播公式如下：

(2)

在正向传播公式中，

为隐藏层网络权值，激活函数为softmax函数，

为输出层网络权值，输出标签

采用One-Hot编码，损失函数使用焦点损失函数FocalLoss。输出层和隐藏层的梯度计算及权值更新公式如下：

其中

为损失函数计算的结果，

为梯度下降权值。

本发明中，第一阶段中，体素特征提取由三个部分组成：体素划分层，VFE特征提取层，子流形稀疏卷积层；

(1) 体素划分层划分体素空间。将3D空间细分为等距等大小的体素，定义点云是沿Z，Y，X轴的范围为D，H，W的3D空间，定义每个体素的大小为

，则沿每一个坐标轴划分的数量为

，整个点云空间被划分为N个等大小的体素。其中

(2)VFE特征提取层使用VFE层对体素进行特征编码，对于包含

个点的非空体素，使用

表示，其中

包含体素中第i个点的X，Y，Z坐标及反射率

，首先计算体素V中的局部均值作为质心，表示为

，计算

相对于质心的偏移量，表示为

，可得输入特征集

；接下来使用全连接层（FCN）将输入的7维向量

映射为32维，每个体素中共有t个32维的特征向量，使用最大池化操作得到该体素的全局变量，与每个点特征进行拼接，此时每个点的特征为64维。再次重复上述过程，得到该体素t个128维的特征向量，最后通过最大池化得到该体素128维的全局特征；

(3) 子流形稀疏卷积层在点云空间中若没有相关的输入点，则不计算输出点；构建一个哈希表来存储特征图中有值的位置，设输入特征图为

，其中非零值元素有a个，将

编码为一个

的特征矩阵

和一个哈希表

，

中存放

中所有非零的特征向量，m表示特征向量的维度，

是一个键值对(Key-Value)组成的散列表，Key指的是特征矩阵的行索引，取值为[0，a-1]之间的整数。Value表示对应元素在

中的索引，是一个d维向量，输出的稀疏特征图

同样编码为

和

，

。

是

的矩阵，n是输出特征向量的维度；定义卷积核的尺寸以及卷积步长如下：设

其中

指输入的维度，

指输出的维度，

和

满足约束条件：

其中f代表卷积核的尺寸，s代表卷积步长，p代表0值填充；

子流形稀疏卷积层分为两个部分：空值补零，强制清零；

是d维的张量，定义感受野的大小为

(指一个边长为f的d维立方体)，以

中某元素

为中心，周围

空间中的所有空值的位置进行补零操作，再与卷积核进行卷积计算；设

中零值区域为

，将

中的对应零值区域置零；

子流形稀疏卷积层特征提取后，三维卷积参数含义为

，k为卷积核大小，s为步长，p为零值填充，通过将4倍下采样的3D特征图转换为2D鸟瞰特征图，使用基于锚点的方法生成高质量的3D预选框，具体来说，沿着Z轴堆叠特征量从而得到四倍下采样的鸟瞰图，即在XY平面上拥有400×352个体素每个体素使用32维的特征向量来表示。输入框生成网络，即根据生成的回归图(regression map)和可能性概率图(probably scoremap)进行预选框的生成，对鸟瞰图中每个体素进行评估产生两个预选锚框，分别为0°和90°方向，为第二阶段的框优化做准备。

本发明中，第一阶段中，特征融合将上文得到的特征进行融合；定义子流形稀疏卷积层第k级的体素特征向量集合为

，对应的3D坐标集合为

，由三维空间中的体素坐标索引和实际体素尺寸大小计算得出，其中

代表第k级体素特征中非空体素的数量。以关键点

为中心，

为半径检测相邻的非空体素，并将其用集合

表示：

其中

为局部相对坐标，用于对应在体素特征

中的相对位置，然后通过归一化处理得到不同尺度下的非空体素集合

的特征：

其中

表示从集合

中随机采样最多T个体素进行计算，而

表示多层感知机网络，用于对体素特征和相对位置进行编码。通过最大池化操作

将不同相邻体素数量的特征向量映射为

，可以将不同尺度的卷积操作下得到的特征进行级联，得到

的多尺度特征：

通过公式(9)可以得到原始点云特征

和鸟瞰图特征

，进一步得到关键点

的特征：

可以十分有效地保留整个3D场景的结构信息，有利于后续的检测。

本发明中，第一阶段中，预选框生成对鸟瞰图进行分析处理得到概率分数图和回归图，其中概率分数图代表了对特征的评分，鸟瞰图中每个点会在回归图中生成两个角度的预选框，每个框有七个参数

，分别代表在空间中的X，Y，Z轴的坐标和框的高度、宽度、长度以及偏向角信息。

本发明中，第二阶段中，预选框优化从关键点特征中提取融合得到每个ROI的特征，生成准确可靠的3D检测框(ROI)。具体的，对于每个3D空间中的ROI，沿X，Y，Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点，表示为

，以参考点为中心，r为半径聚合周围关键点的特征，其相邻关键点特征集合如下：

其中

为关键点

相对于参考点

的局部相对位置，然后聚合相邻关键点特征集合：

其中

和

与公式(9)中定义相同；

在获取ROI区域内关键点聚合特征

后选取0°,30°,60°,90°,120°,150°，六个角度生成预选框. 并输入框优化网络，进行框中心，大小和方向的残差计算；

框优化网络由两层MLP层构成，网络有两个分支，分别进行置信度预测和预选框优化，第k个ROI归一化得到分类置信度

如下：

其中

的取值范围为[0，1]，

是第k个ROI和真实数据标签的交互比，然后结合强制性一致损失对置信度分支进行训练；强制性一致损失如下：

其中D和G表示预选框和真实数据标签，

代表框的定位置信度。

本发明中，第二阶段中，损失函数由三个部分组成：预选框损失

，关键点提取损失

，框优化损失

；

(1)预选框损失如下：

其中

代表预测残差，

代表回归目标，smooth_L1损失函数用于对两者进行回归计算。

为分类损失，使用焦点损失函数用于平衡正负样本，其计算公式如下：

其中平衡因子

，用来平衡正负样本本身的比例不均，因子

，用于减少易分类样本的损失，

是属于真实值的输出概率：

(2)关键点的提取损失

为前景点分割时的焦点损失函数；前景点提供了预测目标位置和方向的丰富信息，通过一个关键点预测加权层(PKW)对特征提取层得到的关键点进行检测，以筛选出前景点；在训练阶段，使用基于焦点损失的函数，结合地面真实值，即通过检查每个关键点是否在地面真实3D框的内部或者外部，以处理训练集中前景点与背景点不平衡的问题。

(3)框优化损失计算如下：

其中

为强制性一致损失函数，

是预测残差，

的是回归目标，与

编码方式相同；本发明总的损失函数即上述三个损失函数相同权重的总和。

本发明公开了一种基于体素点云融合的三维动态目标检测的装置，用于上述基于体素点云融合的三维动态目标检测方法，包括图像采集模块以及数据处理模块，数据处理模块包括点云输入模块、对点云提取关键点特征模块、体素特征提取模块、特征融合模块、预选框生成模块、预选框优化模块、损失函数计算模块以及点云输出模块；图像采集模块为雷达传感器、摄像头。

本发明公开了一种电子设备，包括处理器与存储器，其中，存储器存储被处理器执行的指令，是的处理器可执行所述基于体素点云融合的三维动态目标检测方法。

本发明公开了一种存储计算机指令的计算机可读存储介质，所述计算机指令使得计算机执行所述基于体素点云融合的三维动态目标检测方法。

本发明的创新点如下：

(1)将直接处理点云方法中感受野灵活和划分空间体素方法中计算效率较高的优势相融合，提出一种两阶段的三维目标检测算法，在一阶段实现预选框生成和二阶段进行两次融合实现框优化，可以得到丰富的点云特征。

(2)在提取体素空间特征过程中，引入了子流形稀疏卷积的方法，对非空体素空间进行编码和高维特征的提取。并且引入FPS迭代最远点采样的方法弥补划分体素无法对整个空间进行描述的缺陷，两者融合获取全局空间的高级特征。

(3)提出一种强制性一致损失函数，对分类置信度和定位置信度进行约束，并且该损失函数易于实现，不需要修改目标检测框架。

附图说明

图1为系统框图；

图2为基于点的特征提取流程；

图3为前景点分割(PKW)模块；

图4为子流形稀疏卷积特征提取层；

图5为框优化网络；

图6为BEV鸟瞰视图各种方法的mAP比较；

图7为Recall-Precision曲线；

图8为点云数据检测结果可视化；

图9为基于Kitti数据集的消融研究；

图10为损失函数曲线，(a) 各模块损失曲线，(b) 总损失曲线；

图11为精度检测曲线，(a)三种方法的各类别目标检测精度，(b)三种方法在不同距离下目标检测精度；

图12为可视化检测结果。

具体实施方式

本发明提出了一个基于体素点云融合的三维动态目标检测算法框架，为体素点云融合算法框架，如图1所示，框架的第一阶段通过划分体素来进行3D卷积操作，并且在传统VoxelNet^[10]的基础上进行了创新，引入子流形稀疏卷积^[19]的方法，作为特征编码和预选框生成的主干网络，同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类，提取其周围区域的特征，最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合，得到点云空间中关键点的高级特征。第二阶段在基于体素生成的ROI区域中选取参考点，以一定范围进行聚类，融合第一阶段生成的关键点特征对预选框进行优化，并通过置信度强制约束的损失函数，实现更为准确的检测框生成和位置优化效果。在本发明公开方法的基础上，具体的步骤操作为现有技术。

实施例

通过传感器对实物进行数据采集，常规方法得到点云文件，然后进行以下步骤。

关键点特征提取：直接对检测对象点云进行关键点提取主要分为四个步骤：关键点采样层，聚类层，特征提取层，前景点分割层。

(1)采样层：以往随机采样的方式难以获取到点云的全局信息，因此引入FPS(迭代最远点采样)的方法从点云中采样少量关键点，其具体原理如下：输入点云集合

共有n个点，随机选取

作为起始点，并写入关键点的集合

，计算

和剩余的n-1个点的欧式距离，选择最远点

写入集合

。下一次迭代需要同时考虑两个点，因此计算剩余n-2个点到集合K中两个点的距离，取最短的作为该点到点集的距离，得到n-2个点到集合K的距离，选取其中最远的点

写入集合

，继续迭代上述过程，直到采样出所需要的点的数目。在Kitti数据集和Nuscene数据集的点云空间中采样关键点数目为2048，在Waymo数据集中采样的关键点数目为4096。

(2)聚类层：接着以关键点为中心，R为半径划分球形区域，提取区域中包含的点的信息，这种方式可以获取到目标相关联的特征. 由于点云在空间中是不均匀分布的，若每个区域使用相同的球半径，会导致某些稀疏区域的采样点过少，从而使得特征信息不足，因此本发明引入一种多分辨率组合(MRG)的方法，如图2所示，提取的特征由两个特征向量串联构成，前半部分由原始点云数据中的所有点进行特征提取构成，后半部分由前半部分特征输入PointNet网络中得到；

(3)特征提取层：使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作，得到的多分辨率特征作为该中心点的局部特征，虽然聚类层给出的各个局部可能由不同数量的点构成，但是通过PointNet网络后可以得到维度一致的特征；

(4)前景点分割层：前景点提供了预测目标位置和方向的丰富信息，本发明提出一个关键点预测加权层(PKW)，如图3所示，对特征提取层得到的关键点进行检测，以筛选出前景点。其具体原理是将关键点特征输入一个两层的感知机网络(MLP)，得出其属于前景点的权重信息，其中第一层MLP(128，256)网络有两次卷积过程，第一次为128个1×128×1大小的卷积核与输入特征进行卷积，得到的n个1×128的特征向量，第二次使用256个1×1×128大小的卷积核进行卷积，得到n个1×256的特征向量，通过维度变换将特征向量变为n×256。第二层MLP(128，1)网络同样有两次卷积过程，第一次使用128个1×256×1大小的卷积核与输入特征进行卷积，得到n个1×128的特征向量，第二次使用1个1×1×128大小的卷积核进行卷积，得到n个1×1的特征向量，该过程的目的是获取每个关键点的是否属于前景点的可能性，最后再通过维度变换将前景点预测值变为n×1. 图3中，Shared意为在处理包含多个点的点云数据时，对每个点乘以相同权重，因为在点云中，每个点不是独立的，因此不应该看作独立的样本，为了简化计算，权值范围在(0，1)之间，最后与特征向量相乘，得到该关键点的最终特征，在训练阶段，使用基于焦点损失的函数，结合真实数据标签，即通过检查每个关键点是否在真实数据标签的3D框的内部或者外部，以处理训练集中前景点与背景点不平衡的问题。每个关键点特征

的预测特征权重可以表示为：

(1)

其中

是一个两层的MLP网络，以预测(0，1)之间的前景点置信度。其计算公式分为正向传播和权值更新两部分：

(2)

在正向传播公式中，

为隐藏层网络权值，激活函数为softmax函数，

为输出层网络权值，输出标签

采用One-Hot编码。损失函数使用焦点损失函数Focal Loss。输出层和隐藏层的梯度计算及权值更新公式为：

其中

为损失函数计算的结果，

为梯度下降权值，该过程在训练过程中进行。

体素特征提取：基于体素的特征提取方法的优势是计算效率较高，而且可以获取目标更为准确的上下信息，该方法由三个部分组成：体素划分层，VFE特征提取层，子流形稀疏卷积层。

(1)划分体素空间

将3D空间细分为等距等大小的体素，假设点云是沿Z，Y，X轴的范围为D，H，W的3D空间，定义每个体素的大小为

，则沿每一个坐标轴划分的数量为

，整个点云空间被划分为N个等大小的体素。其中

以Kitti的3D点云数据集为例，针对车辆检测，

，每个体素的大小为

，行人或骑行目标检测，则

，每个体素的大小为

。

激光雷达工作时，点云在整个3D空间中是不均匀分布的，在划分体素空间后，每个体素中包含的点的数量是不同的，通常高分辨率激光雷达的点云由超过100K的点组成，直接处理所有的点不仅会增加计算成本，而且由于点密度不均匀可能会导致检测出现误差。因此，引入一个阈值T，对于点数目多于T的体素，采用随机采样选取固定的T个点，使用这种方式的目的，一方面是减少计算量，另一方面是为了减少体素之间的点数目的不平衡，缩小采样偏差，例如在检测车辆时T=35，检测行人时T=45。

(2)VFE特征提取层

如图1中基于体素的方法描述了使用VFE层对体素进行特征编码过程，对于包含

个点的非空体素，使用

表示，其中

包含体素中第i个点的X，Y，Z坐标及反射率

，首先计算体素V中的局部均值作为质心，表示为

。计算

相对于质心的偏移量，表示为

，可得输入特征集

为了避免信息损失，接下来使用全连接层（FCN）将输入的7维向量

映射为32维，因此现在每个体素中共有t个32维的特征向量，使用最大池化操作得到该体素的全局变量，与每个点特征进行拼接，此时每个点的特征为64维。再次重复上述过程，得到该体素t个128维的特征向量，最后通过最大池化得到该体素128维的全局特征。因此整个点云空间得到的特征维度为(128,10,400,352)。其中，由Kitti数据集点云空间大小以及每个体素的大小信息可计算出，沿着Z，X，Y轴将空间划分为

。即10×400×352个体素。

(3)子流形三维稀疏卷积

空间稀疏卷积主要原理是在点云空间中若没有相关的输入点，则不计算输出点，例如Kitti数据集，将点云分割成5k-8k个体素，其稀疏度接近0.005，使用普通卷积则计算成本十分高昂。因此引入子流形稀疏卷积的方法，只有在输入点云的相关位置处于激活状态时，输出点云的相应位置才会是激活的，这一方法避免了太多激活位置的产生从而导致后续卷积过程中速度的降低。

3D稀疏卷积的输入和输出都是稀疏的特征图，因此不需要无差别的存储特征图中全部的值，只需要构建一个哈希表来存储特征图中有值的位置即可。设输入特征图为

，其中非零值元素有a个，将

编码为一个

的特征矩阵

和一个哈希表

。

中存放

中所有非零的特征向量，m表示特征向量的维度，

中的索引，是一个d维向量，输出的稀疏特征图

同样编码为

和

，考虑到稀疏卷积过程将保持输入特征图的稀疏性，因此

。

是

的矩阵，n是输出特征向量的维度。

稀疏卷积和普通卷积一样，需要定义卷积核的尺寸以及卷积步长等参数，设

其中

指输入的维度，

指输出的维度，

和

满足约束条件：

其中f代表卷积核的尺寸，s代表卷积步长，p代表0值填充。

子流形3D稀疏卷积主要分为两个部分：空值补零，强制清零。空值补零为了维护正常的卷积计算，强制清零为了维护特征的稀疏性，由于

是d维的张量，则感受野的大小为

(指一个边长为f的d维立方体)。稀疏卷积会以

中某元素

为中心，周围

空间中的所有空值的位置进行补零操作，再与卷积核进行卷积计算，为了保持输入尺寸和输出尺寸一致，需要在

上进行零值补充，由于受到感受野区域的影响，原本是零值的位置经过卷积会得到非零值结果，会导致特征失真，为了维护原特征的稀疏性，设

中零值区域为

，将

中的对应零值区域置零。

通过引入子流形稀疏卷积，可以忽略零值区域的卷积计算，则d维稀疏卷积的计算量为

其中a是感受野范围内的非零值，m和n分别是输入和输出的特征维度，而传统卷积需要

次运算，两者相比，引入子流形稀疏卷积极大地减少了运算量。

如图4所示为子流形稀疏卷积特征提取层，其中白色框代表常规卷积，黄色框代表子流形卷积，红色框代表维度重构，三维卷积参数含义为

，k为卷积核大小，s为步长，p为零值填充，即通过将4倍下采样的3D特征图转换为2D鸟瞰特征图，可以使用基于锚点的方法生成高质量的3D预选框，具体来说，沿着Z轴堆叠特征量从而得到四倍下采样的鸟瞰图，即在XY平面上拥有400×352个体素，每个体素使用32维的特征向量来表示.输入框生成网络，即根据生成的回归图(regression map)和可能性概率图(probablyscore map)进行预选框的生成，对鸟瞰图中每个体素进行评估产生两个预选锚框，分别为0°和90°方向。由于此时的特征尚不够丰富，预选框仅选用两个角度是为了确定目标的大致位置，为第二阶段的框优化做准备。

特征融合算法。需要将上述得到的特征进行融合。特征提取层是对特征图进行多次卷积，得到1倍，2倍，4倍的下采样特征，定义3D卷积第k级的体素特征向量集合为

，对应的3D坐标集合为

代表第k级体素特征中非空体素的数量。以关键点

为中心，

为半径检测相邻的非空体素，并将其用集合

表示。

其中

为局部相对坐标，用于对应在体素特征

的特征。

其中

表示从集合

中随机采样最多T个体素进行计算，而

表示多层感知机网络，用于对体素特征和相对位置进行编码. 通过最大池化操作

将不同相邻体素数量的特征向量映射为

，可以将不同尺度的卷积操作下得到的特征进行级联，得到

的多尺度特征。

该过程的目的是以关键点为中心，将

范围内不同尺度的非空体素特征进行聚合，由于特征维度不同，因此使用多层感知机进行卷积操作统一特征维度即128维。由于不同关键点周围的非空体素数量不同，因此使用最大池化操作得到

维特征。1倍，2倍，4倍情况下均按照上述操作，得到

维特征。

为了获取更为丰富的特征，考虑到2D鸟瞰视图在Z轴具有较大的感受野，可以通过双线性插值得到关键点

映射到鸟瞰图的特征，另外

在原始点云中对应的特征可以弥补体素量化过程中的损失，通过公式(9)可以得到原始点云特征

和鸟瞰图特征

。

综上所述，得到关键点

的特征。

预选框生成与框优化网络

预选框的生成是对鸟瞰图的特征信息进行打分，鸟瞰图每一个点代表了原始3D空间中Z方向上的特征，因此将鸟瞰图进行分析处理得到概率分数图和回归图，其中概率分数图代表了对特征的评分，鸟瞰图中每个点会在回归图中生成两个角度的预选框，每个框有七个参数

，分别代表在空间中的X，Y，Z轴的坐标和框的高度、宽度，长度以及偏向角信息.

为了生成准确可靠的3D检测框(ROI)，需要从关键点特征中提取融合得到每个ROI的特征，因此本发明采用基于关键点的ROI特征提取方法，如图5所示，用于多尺度的ROI特征编码. 与公式(9)采取的方法类似，对于每个3D空间中的ROI，沿X，Y，Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点，参考点仅作为设定的坐标，用于聚合周围的关键点的特征，其本身不自带特征信息，并且在后续训练过程中不需要更新参考点数量。表示为

，以参考点为中心，r为半径聚合周围关键点的特征，其相邻关键点特征集合为：

其中

为关键点

相对于参考点

的局部相对位置，然后聚合相邻关键点特征集合

其中

和

与公式(9)中定义相同，本发明设置了多个半径r，并且串联了不同感受野的关键点特征以获得更为丰富的多尺度特征信息. 在获取ROI区域内关键点聚合特征

后选取0°,30°,60°,90°,120°,150°六个角度生成预选框。并输入框优化网络，进行框中心，大小和方向的残差计算，框优化网络由两层MLP层构成，网络有两个分支，分别进行置信度预测和预选框优化，第k个ROI归一化得到分类置信度

为

其中

的取值范围为[0,1]，

是第k个ROI和真实数据标签的交互比，然后对置信度分支进行训练. 考虑到分类置信度和定位置信度通常不完全一致，因此提出一种强制性一致损失以确保定位和分类置信度之间的一致性，使得具有较高定位置信度的预选框同时具有较高的分类置信度，该损失可以表示为：

其中D和G表示预选框和真实数据标签，

代表框的定位置信度，为了优化该损失函数，要求分类置信度和定位置信度尽可能地共同提高，本发明提出的强制性一致损失函数虽然类似于交互比(IOU)，但是目的和功能是不同的，IOU尝试通过优化置信度来产生更为精准的回归，而强制性一致损失的目的在于保证定位和分类置信度的一致性，得到更为精确的边界框。

损失函数本发明的损失函数由三个部分组成：预选框损失

，关键点提取损失

，框优化损失

。

(1)预选框损失

其中

代表预测残差，

代表回归目标，smooth_L1损失函数用于对两者进行回归计算。

其中平衡因子

，用来平衡正负样本本身的比例不均，因子

，用于减少易分类样本的损失，

是属于真实值的输出概率；

(2)关键点的提取损失

在上文前景点分割部分给出，同样使用焦点损失函数计算；

(3)框优化损失

其中

为强制性一致损失函数，

是预测残差，

的是回归目标，与

编码方式相同；总的损失函数即上述三个损失函数相同权重的总和。

实验与分析

本发明使用Kitti, Waymo和Nuscene的3D目标检测数据集对提出的算法框架进行验证. 主要是在Kitti数据集进行多种方法对比验证，绘制P-R曲线，进行消融研究和展示可视化结果。为了验证本方法的泛化性能，在Waymo和Nuscene大型数据集上也进行了多种方法的对比验证，同时对多种方法的损失函数进行了评估并绘制了曲线。最后本发明基于实物车辆，依靠清华大学自动驾驶研究院的测试平台，使用激光雷达进行点云数据采集，并进行了标注工作，将代码移植到ROS平台，用于检验算法的可移植性和泛化能力，同时进行了子模块的消融研究，绘制了mAP检验精度表格。

Kitti数据集

Kitti数据集有7481个训练样本和7518个测试样本，使用平均准确率(mAP)作为评估标准，其中汽车的IoU阈值为0.7，行人和骑车的人的IoU阈值为0.5，召回率为40。表1显示了本发明提出的方法在Kitti测试数据集上与其他优秀的方法的mAP对比，其中Second,PointPillar, Part-A2是基于划分体素的方法，其主干网络是以VoxelNet为基础并做了大量的创新改进. PointRCNN是基于直接处理点云的方法，其主干网络是以PointNet为基础并做了大量的改进. AVOD，F-PointNet基于图像和点云相结合的方法。

由表1可知，本发明提出的方法在车辆的检测中明显优于其他方法，即在简单、中等，困难等级上把mAP提高了0.29%，1.45%，0.49%。并且本发明提出的方法没有像^{[11，20，22]}为骑行的人和行人提供单独类别的训练模型，而是采用唯一的训练模型。

在鸟瞰视图下的检测结果如图6所示，其中IoU阈值为0.7，召回率仍为40，由折线可以看到本发明提出的方法在简单和中等难度上具备优势，分别将平均准确率(mAP)提高了0.34%和0.33%，并且在困难情况下准确率也较高，达到了69.55%，具备与其他方法的竞争能力。

如图7所示，对于Kitti数据集上测试的多种方法，绘制了召回率(Recall)和精确度(Precision)曲线，精确度的计算方法为在设定某一阈值的情况下，正样本的预测数除以被预测为正样本的数量（包含错误预测为正样本的负样本）。召回率计算方法为在设定某一阈值的情况下，分类正确的样本除以所有正样本的数量。由曲线图可知，在不同阈值下，本发明提出的方法能够更好地兼顾精确率和召回率，并且比其他方法收敛地更慢。

对Kitti数据集的道路、城市、校园等场景进行了测试，检测结果如图8所示，每一个子图的上半部分是点云数据，下半部分是RGB图像. 检测结果中绿色框是汽车，蓝色框是行人，黄色框是骑行的人，由结果可知，本发明对点云数据的检测结果位置准确，且分类精确度高，可以检测出RGB图像中存在遮挡的目标。

为了验证本发明提出的融合算法的有效性，将模型拆分为三个子模块：完全基于体素进行3D卷积提取特征，体素特征结合框优化网络提取特征，体素特征在框优化阶段融合关键点进行特征提取(本发明方法)。分别在Kitti数据集的容易、中等，困难标准进行验证，得到检测结果曲线如图9所示。

通过消融研究图表可知，本发明提出的多特征融合的方法能够显著的提高检测精度，在三种难度下mAP分别达到了92.18%，83.96%，81.86%. 而仅仅使用基于体素的特征提取效果较差，尤其是在困难等级上，比本发明方法的检测精度低了7.61%。

最后，为了验证本发明提出算法的时间效率，分别选择基于直接处理点云的优秀方法PointRCNN，基于体素的优秀方法SECOND，多传感器融合的方法F-PointNet，在Kitti数据集中与本发明提出的方法对比，检测每一帧点云数据的检测时间，得到的结果如表2所示。

由表2可知，本发明提出的算法相比较其他三种算法时间效率提升明显，达到了0.06s。多传感器融合的方法需要处理不同形式的数据，计算成本较高。基于直接处理点云的方法需要将无序的点云进行采样、聚类、特征提取，并且没有使用前景点分割层即PKW模块，需要对每个点都进行处理，这无疑需要大量的时间和计算成本。基于体素的方法虽然对传统三维卷积方法做了改进，但是仍然存在时间效率不够高的问题。而本发明提出的算法结合了直接处理点云并提出了前景点分割模块(PKW)和划分体素空间的方法并引入子流形稀疏卷积法，在实现多尺度特征融合的基础上保证了时间效率。

Waymo数据集

在大规模数据集Waymo上评估本发明提出的模型，进一步验证方法的有效性。X和Y轴的检测范围为

，Z轴的检测范围为

，并将体素大小设置为

。使用官方的评估工具评估本发明的方法，其中设置IoU阈值为0.7，基于目标到传感器的距离，将点云空间划分为

。

由表3可知，本发明提出的方法显著优于其他先进的方法，其中3D对象检测的mAP提升了6.21%，BEV对象检测的mAP提升了2.83%。证明了本发明提出的多尺度体素点云融合的特征能够有效获取更准确的上下文信息以改善3D检测性能。使用4个GTX1080ti的GPU进行模型的训练，其中设置批处理为16，学习率为0.01，训练80次，得到如图10所示的损失函数曲线，其中(a)图是算法各个模块的损失函数曲线图，即

，(b)图是总的损失函数曲线图。通过曲线可以看出梯度下降在一开始表现的非常迅速，到后期可能会不断的趋于平缓，这是正常的表现，后期不会有太大幅度的下降。

Nuscene数据集

为了证明本发明提出的算法拥有良好的泛化能力，在Nuscene数据集也进行了检测，该数据集包含了多种场景。检测结果如表4所示，可知本发明提出的方法在Nuscene数据集上表现仍然良好，其对于轿车和货车的检测精度达到90.57%和79.24%。行人和骑行的人的检测精度达到57.94%和91.35%，优于另外两种方法。

参考文献：

11. 李晓光，付陈平，李晓莉，王章辉. 面向多尺度目标检测的改进Faster R-CNN算法[J]. 计算机辅助设计与图形学学报， 2019， 31(07): 1095-1101.

15. Geiger A， Lenz P， Stiller C， et al. Vision meets robotics: Thekitti dataset[J]. The International Journal of Robotics Research， 2013， 32(11): 1231-1237.

20. Shi S， Wang Z， Wang X， et al. Part-aˆ 2 net: 3d part-aware andaggregation neural network for object detection from point cloud[J]. arXivpreprint arXiv:1907.03670， 2019， 2(3).

21. Shi S， Wang X， Li H. Pointrcnn: 3d object proposal generation anddetection from point cloud[C]//Proceedings of the IEEE/ CVF Conference onComputer Vision and Pattern Recognition. 2019: 770-779.

22. Ku J， Mozifian M， Lee J， et al. Joint 3d proposal generation andobject detection from view aggregation[C]//2018 IEEE/ RSJ InternationalConference on Intelligent Robots and Systems (IROS). IEEE， 2018: 1-8.

24. Qi C R， Yi L， Su H， et al. Pointnet++: Deep hierarchical featurelearning on point sets in a metric space[J]. arXiv preprint arXiv:1706.02413，2017。

实物平台测试

最后，本发明依托清华大学自动驾驶研究院的实物车辆平台和测试场地，验证了提出的算法，由于本发明提出的算法对点云进行处理，因此使用激光雷达传感器进行实验，通过使用实物平台进行数据采集，最终得到Rosbag格式的点云文件。测试过程分为三个部分：实时动态多目标检测，消融对比研究，精度检测。为了进行消融研究和精度检测，并制作点云格式的小型数据集，因此将Rosbag文件进行播放，抽取其中的点云帧，再通过标注软件在点云中框出目标真实数据标签和位置信息，标定了四类目标，分别是小型汽车，厢式货车，行人，骑行的人。另外，数据集中点云空间尺寸信息参照Kitti数据集。

本发明进行了消融研究，将本发明提出的特征提取模块单独提取出来进行测试，将各个子模块移植到基于ROS的操作平台，把采集到的数据输入子模块，与真实数据标签比较，得到检测的精度数据，并绘制了消融研究表格，如表5所示。

其中

在上述给出了介绍，由表5可得，使用本发明提出的多特征融合的方法在检测精度上效果最好，达到85.02%，而仅仅对点云直接处理得到的特征检测精度只达到80.26%，同比低了4.76%。另外基于体素提取的不同尺度的特征检测效果表明，本发明提出的子流形稀疏卷积效果很好，通过多次卷积得到的特征融合可以显著提高检测精度，达到了84.44%。

精度检测研究分为两个部分：目标类别与定位检测，不同距离下精度检测。分别绘制了如图11的曲线图。如图11(a)所示，从实物平台采集数据并构建的数据集输入模型得到的各类别检测结果来看，对于车辆的检测精度较高，达到了86.25%和87.38%，平均精度也达到了84.15%，说明本发明提出的方法可泛化能力强，在各种数据集中均有良好的表现。如图11(b)所示，在不同距离上研究了三种模型的检测目标的能力，如汽车类别的检测，从0-70.4m的距离检测精度只衰减了13.67%，在检测骑行的人中，本发明提出的方法和该领域优秀的方法有可比较的能力，在30-48m的距离上有2.17%的余量，说明本发明提出的算法鲁棒性好，能够通过多特征融合的方式实现更为精准的目标检测。

最后采用基于ROS的操作平台，并将点云数据输入已经训练好的模型中进行实时动态多目标检测，检测速度达到0.06s，可视化结果如图12所示。由图可知检测结果精确，可以识别的目标有箱式货车，小型车辆、行人、骑行的人，因此进一步证明了本发明提出的算法鲁棒性和泛化能力强，运算速度快。

本发明提出了基于体素点云融合的三维动态目标检测方法，是一种新颖的将体素和直接处理点云特征进行融合的方法，解决了传统方法中特征不够丰富导致检测结果不准确的问题，并且在此基础上提出强制性一致损失函数，针对置信度不一致问题进行了优化。在Kitti，Waymo，Nuscene数据集以及实物平台上进行了实验，结果表明与其他优秀的方法相比，本发明提出的方法效果显著，并且可移植性和泛化能力强。

Claims

1.一种基于体素点云融合的三维动态目标检测方法，采集三维动态目标后经过第一阶段与第二阶段，再点云输出三维动态目标，完成三维动态目标检测；其特征在于，采集三维动态目标后点云输入；第一阶段为对点云提取关键点特征、体素特征提取、特征融合、预选框生成；第二阶段为预选框优化、损失函数计算。

2.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第一阶段中，通过划分体素进行3D卷积操作，利用子流形稀疏卷积的方法，作为特征编码和预选框生成的主干网络，同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类，提取其周围区域的特征，最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合，得到点云空间中关键点的高级特征；第二阶段在基于体素生成的ROI区域中选取参考点，进行聚类，融合第一阶段生成的关键点特征对预选框进行优化，并通过置信度强制约束的损失函数计算。

3.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第一阶段中，对点云提取关键点特征为关键点采样层、聚类层、特征提取层、前景点分割层；其中，关键点采样层采用迭代最远点采样的方法从点云中采样关键点，包括以下步骤，输入点云集合

共有n个点，随机选取

作为起始点，并写入关键点的集合

，计算

和剩余的n-1个点的欧式距离，选择最远点

写入集合

，下一次迭代同时考虑两个点，计算剩余n-2个点到集合K中两个点的距离，取最短的作为该点到点集的距离，得到n-2个点到集合K的距离，选取其中最远的点

写入集合

，继续迭代上述过程，直到采样出所需要的点的数目；聚类层利用多分辨率组合，以关键点为中心，R为半径划分球形区域，提取区域中包含的点的信息，获取到目标相关联的特征；提取的特征由两个特征向量串联构成，前半部分由原始点云数据中的所有点进行特征提取构成，后半部分由前半部分特征输入PointNet网络中得到；特征提取层使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作，得到的多分辨率特征作为该中心点的局部特征，得到维度一致的特征；前景点分割层利用关键点预测加权层对特征提取层得到的关键点进行检测，筛选出前景点。

4.根据权利要求3所述基于体素点云融合的三维动态目标检测方法，其特征在于，前景点分割层将关键点特征输入两层的感知机网络，得出其属于前景点的权重信息；其中第一层MLP(128，256)网络有两次卷积过程，第一次为128个1×128×1大小的卷积核与输入特征进行卷积，得到的n个1×128的特征向量，第二次使用256个1×1×128大小的卷积核进行卷积，得到n个1×256的特征向量，并通过维度变换将特征向量变为n×256；第二层MLP(128，1)网络有两次卷积过程，第一次使用128个1×256×1大小的卷积核与输入特征进行卷积，得到n个1×128的特征向量，第二次使用1个1×1×128大小的卷积核进行卷积，得到n个1×1的特征向量，最后再通过维度变换将前景点预测值变为n×1；在处理包含多个点的点云数据时，对每个点乘以相同权重，权值范围在(0，1)之间，最后与特征向量相乘，得到该关键点的最终特征；每个关键点特征

的预测特征权重表示如下：

(1)

其中

是一个两层的MLP网络，以预测(0，1)之间的前景点置信度；其计算公式分为正向传播和权值更新两部分，正向传播公式如下：

(2)

在正向传播公式中，

为隐藏层网络权值，激活函数为softmax函数，

为输出层网络权值，输出标签

采用One-Hot编码；损失函数使用焦点损失函数Focal Loss；输出层和隐藏层的梯度计算及权值更新公式如下：

其中

为损失函数计算的结果，

为梯度下降权值。

5.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第一阶段中，体素特征提取由三个部分组成：体素划分层，VFE特征提取层，子流形稀疏卷积层；其中体素划分层将3D空间细分为等距等大小的体素，定义点云是沿Z，Y，X轴的范围为D，H，W的3D空间，定义每个体素的大小为

，则沿每一个坐标轴划分的数量为

，整个点云空间被划分为N个等大小的体素：

VFE特征提取层使用VFE层对体素进行特征编码，对于包含

个点的非空体素，使用

表示，其中

包含体素中第i个点的X，Y，Z坐标及反射率

，首先计算体素V中的局部均值作为质心，表示为

，计算

相对于质心的偏移量，表示为

，可得输入特征集

；接下来使用全连接层（FCN）将输入的7维向量

映射为32维，每个体素中共有t个32维的特征向量，使用最大池化操作得到该体素的全局变量，与每个点特征进行拼接，此时每个点的特征为64维，再次重复上述过程得到该体素t个128维的特征向量，最后通过最大池化得到该体素128维的全局特征；子流形稀疏卷积层构建一个哈希表来存储特征图中有值的位置，设输入特征图为

，其中非零值元素有a个，将

编码为一个

的特征矩阵

和一个哈希表

，

中存放

中所有非零的特征向量，m表示特征向量的维度，

是一个键值对(Key-Value)组成的散列表，Key指的是特征矩阵的行索引，取值为[0，a-1]之间的整数，Value表示对应元素在

中的索引，是一个d维向量，输出的稀疏特征图

同样编码为

和

，

，

是

其中

指输入的维度，

指输出的维度，

和

满足约束条件

其中f代表卷积核的尺寸，s代表卷积步长，p代表0值填充；

子流形稀疏卷积层分为两个部分：空值补零，强制清零；

是d维的张量，定义感受野的大小为

(指一个边长为f的d维立方体)，以

中某元素

为中心，周围

中零值区域为

，将

中的对应零值区域置零；子流形稀疏卷积层特征提取后，三维卷积参数含义为

，k为卷积核大小，s为步长，p为零值填充，通过将4倍下采样的3D特征图转换为2D鸟瞰特征图，使用基于锚点的方法生成高质量的3D预选框。

6.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第一阶段中，特征融合将得到的特征进行融合；定义子流形稀疏卷积层第k级的体素特征向量集合为

，对应的3D坐标集合为

代表第k级体素特征中非空体素的数量. 以关键点

为中心，

为半径检测相邻的非空体素，并将其用集合

表示：

其中

为局部相对坐标，用于对应在体素特征

的特征：

其中

表示从集合

中随机采样最多T个体素进行计算，而

表示多层感知机网络，用于对体素特征和相对位置进行编码，通过最大池化操作

将不同相邻体素数量的特征向量映射为

，可以将不同尺度的卷积操作下得到的特征进行级联，得到

的多尺度特征：

通过公式(9)可以得到原始点云特征

和鸟瞰图特征

，进一步得到关键点

的特征：

可以十分有效地保留整个3D场景的结构信息。

7.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第一阶段中，预选框生成对鸟瞰图进行分析处理得到概率分数图和回归图，鸟瞰图中每个点会在回归图中生成两个角度的预选框，每个框有七个参数

，分别代表在空间中的X，Y，Z轴的坐标和框的高度、宽度、长度以及偏向角信息。

8.根据权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，第二阶段中，预选框优化从关键点特征中提取融合得到每个ROI的特征，生成准确可靠的3D检测框；对于每个3D空间中的ROI，沿X，Y，Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点，表示为

其中

为关键点

相对于参考点

的局部相对位置，然后聚合相邻关键点特征集合：

其中

和

与公式(9)中定义相同；

在获取ROI区域内关键点聚合特征

后选取0°，30°，60°，90°，120°，150°六个角度生成预选框，并输入框优化网络，进行框中心，大小和方向的残差计算；

如下：

其中

的取值范围为[0，1]，

其中D和G表示预选框和真实数据标签，

代表框的定位置信度；

损失函数由三个部分组成：预选框损失

，关键点提取损失

，框优化损失

；所述预选框损失如下：

其中

代表预测残差，

代表回归目标，smooth_L1损失函数用于对两者进行回归计算；

其中平衡因子

，用来平衡正负样本本身的比例不均，因子

，用于减少易分类样本的损失，

是属于真实值的输出概率；所述关键点提取损失为前景点分割时的焦点损失函数；所述框优化损失计算如下：

其中

为强制性一致损失函数，

是预测残差，

的是回归目标，与

9.一种基于体素点云融合的三维动态目标检测的装置，用于权利要求1所述基于体素点云融合的三维动态目标检测方法，其特征在于，包括图像采集模块以及数据处理模块，数据处理模块包括点云输入模块、对点云提取关键点特征模块、体素特征提取模块、特征融合模块、预选框生成模块、预选框优化模块、损失函数计算模块以及点云输出模块；图像采集模块为雷达传感器、摄像头。

10.一种电子设备，包括处理器与存储器，存储器存储被处理器执行的指令，使得处理器可执行权利要求1所述基于体素点云融合的三维动态目标检测方法；一种存储计算机指令的计算机可读存储介质，所述计算机指令使得计算机执行权利要求1所述基于体素点云融合的三维动态目标检测方法。