CN114550161A

CN114550161A - 一种端到端的三维目标稀疏检测方法

Info

Publication number: CN114550161A
Application number: CN202210066907.2A
Authority: CN
Inventors: 周秉锋; 韩健红; 冯洁
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-27

Abstract

本发明公开了一种端到端的三维目标稀疏检测方法，其步骤包括：将点云样本输入三维目标检测网络，得到点云样本的目标预测结果；利用损失函数计算模块计算目标预测结果与其对应的真实目标对之间损失值，通过降低损失函数的值对三维目标检测网络进行优化；三维目标检测网络包括体素化模块、三维特征提取模块、折叠到鸟瞰视角模块、特征对齐模块、稀疏检测模块；将待检测的点云场景输入训练优化后的三维目标检测网络，得到该待测点云场景中的目标预测结果。本发明通过维护一组少量的可学习候选来表示潜在的候选对象，并通过稀疏检测模块直接对3D对象进行分类和定位；不需要依赖任何预定义的锚和中间表示来辅助检测，不需要非极大值抑制等后处理。

Description

一种端到端的三维目标稀疏检测方法

技术领域

本发明属于计算机视觉和三维感知领域，提供一种基于激光雷达点云数据的三维目标检测方法，具体涉及一种适用于三维目标的稀疏预测方法，无需非极大值抑制之类的后处理，实现了真正的端到端检测，提高了检测的效率和鲁棒性。

背景技术

三维目标检测是一种用于识别三维场景中关键目标的类别和位置的技术，在许多场景中都承担着关键作用，例如自动驾驶和增强现实。激光雷达扫描得到的点云，本质上是对真实三维世界中物体几何的低分辨率采样，因此具有对真实世界较好的表示能力，在三维感知领域取得了显著的成效。

对于基于点云数据的三维目标检测任务来说，目标是将一个输入场景点云中的关键目标以有向的三维包围盒来表示。为此，研究者们提出了多种有效的方法。

早期的稠密三维目标检测器主要采用基于锚的设计，需要人为地为每一个类别的目标设定锚的配置。典型的表示方法是VoxelNet(参考文献Yin Zhou and OncelTuzel.2018.Voxelnet:End-to-end learning for point cloud based 3d objectdetection.In CVPR.4490–4499)，其首先将点云划分成体素表示，通过一个体素特征编码(VFE)层进行体素的特征提取。然后将这些特征输入一个区域候选网络(RPN)来产生稠密的三维预测包围盒候选。

以PointRCNN(参考文献Shaoshuai Shi,Xiaogang Wang,and HongshengLi.2019.PointRCNN:3d object proposal generation and detection from pointcloud.In CVRR.770–779)为代表的从稠密到稀疏的三维目标检测范式通常包括两个阶段：第一阶段通过一个RPN来产生大量的包围盒候选，为了给第二阶段的R-CNN提供高质量的候选，最终，第二阶段的R-CNN通过精修从RPN阶段得到的稀疏候选，进一步估计出最终的三维包围盒。与稠密的三维目标检测范式相比，这类方法通常检测效果更好但运行速度较慢。

这些方法在以下三个方面是有限的：1.必须仔细调整锚的大小和纵横比等超参数，才能进行有效检测。2.关键目标的中间表示和最终检测结果之间的差距使得检测器的标签分配策略至关重要。3.稠密预测需要进行例如非极大值抑制(NMS)之类的后处理以形成最终检测并且对其非常敏感。

发明内容

本发明探索了以一种稀疏的方式进行端到端的三维目标检测方法，通过维护一组少量的可学习候选来表示潜在的候选对象，并通过堆叠的稀疏检测模块直接对3D对象进行分类和定位。不需要依赖任何预定义的锚，不需要任何基于标签分配的中间表示来辅助检测，不需要任何诸如NMS之类的后处理来抑制掉大量冗余的候选即可实现有效的3D对象检测。

本发明的技术方案为：

一种端到端的三维目标稀疏检测方法，其步骤包括：

将点云样本输入三维目标检测网络，得到所述点云样本的目标预测结果；利用损失函数计算模块计算目标预测结果与其对应的真实目标对之间损失值，通过降低损失函数的值对所述三维目标检测网络进行优化；其中所述三维目标检测网络包括体素化模块、三维特征提取模块、折叠到鸟瞰视角模块、特征对齐模块、稀疏检测模块；所述点云样本包括点云场景，该场景中每个目标的3D包围盒及其对应的类别标签；

所述体素化模块用于将所述点云样本中的点云场景进行3D体素划分；

所述三维特征提取模块根据所述点云样本的3D体素数据得到所述点云样本对应的分辨率降低而特征维度增加的三维特征图并输入所述折叠到鸟瞰视角模块；

所述折叠到鸟瞰视角模块对输入的三维特征图在鸟瞰视角下进行折叠，得到伪二维特征图并输入所述特征对齐模块，得到一特征图列表；其中所述特征图列表包括多张相同维度不同分辨率的伪二维特征图；

所述稀疏检测模块将所述特征图列表、N个初始化为整个输入点云场景大小的可学习建议包围盒及与其对应的随机初始化可学习建议特征作为输入，提取每个可学习建议包围盒的RoI特征，将所述RoI特征与其对应的可学习建议特征通过一个动态卷积模块进行交互过滤掉无效的包围盒，然后根据动态卷积模块输出的目标特征得到最终的目标预测结果；

将待检测的点云场景输入训练优化后的三维目标检测网络，得到该待检测的点云场景中的目标预测结果。

进一步的，所述损失函数计算模块通过两阶段计算所述损失值：第一阶段为N-M匹配过程，目标是从所有N个预测中筛选出M个候选，然后采用基于匈牙利算法的二分匹配损失方法来计算逐对的匹配代价，确定出匹配对；第二阶段利用确定出的匹配对通过损失函数

计算所述损失值；其中，

是预测的分类结果和真实的类别标签之间的焦点损失，

是归一化的预测包围盒和真实目标包围盒之间的L1损失，

是将用于限制包围盒之间重叠程度的带有角度和高度信息的旋转三维DIoU损失；λ_cls,λ_L1和λ_IoU是设定系数。

进一步的，所述匹配代价为

其中，

代表真实目标的集合，

代表N个预测结果，N＞M；逐对的代价

为轴对齐的鸟瞰视角二维包围盒的IoU损失。

进一步的，所述稀疏检测模块的具体实现方法为：

1.采用N个可学习建议包围盒与其对应的可学习建议特征作为目标的候选；

2.通过丢弃可学习建议包围盒的位置和尺度中的纵向信息获得鸟瞰视角下对应的二维包围盒，从所述二维包围盒中提取对应的RoI特征；从而每个所述学习建议包围盒包括可学习建议特征与RoI特征；

3.将所述可学习建议特征输入到一个多头注意力模块和一个归一化层，学习所述可学习建议特征所代表的建议目标之间的关系；将所述RoI特征通过动态卷积模块与对应的可学习建议特征进行交互，以过滤掉无效的包围盒；

4.将动态卷积模块的输出作为最终的目标特征，用于计算预测的分类结果和包围盒回归参数，得到最终的目标预测结果。

进一步的，将所述动态卷积模块输出的目标特征通过两个多层感知器分支回归出每个预测目标的包围盒参数和类别，得到最终的目标预测结果。

进一步的，所述动态卷积模块将1×1卷积、LayerNorm和ReLU激活函数作为一个卷积单元并连续执行多次该卷积单元。

进一步的，所述三维特征提取模块将所述点云样本的各3D体素数据输入体素特征编码层中以提取每个3D体素的特征；然后将各3D体素特征组成的三维特征图输入到一组三维下采样卷积层中，得到所述点云样本对应的三维特征。

进一步的，所述特征对齐模块的具体实现方法为：

1.通过三个卷积模块，分别以自顶向下的方式对输入的所述伪二维特征图进行降采样，获得两倍、四倍、八倍降采样的特征；其中，两倍降采样的特征为B₁，四倍降采样的特征为B₂，八倍降采样的特征为B₃；

2.将B₁的两倍和四倍降采样特征与其本身组成B₁的特征金字塔；将B₂与其两倍降采样和两倍上采样特征组成B₂的特征金字塔；将B₃与其两倍和四倍上采样组成B₃的特征金字塔；

3.将每个特征金字塔中相同大小的特征链接起来，得到跨层的特征；用一个融合卷积块对跨层特征进行融合；

4.融合后的特征输入一特征金字塔样式的结构中，得到特征图列表；其中，所述特征金字塔样式的结构用于将自底向上插值的特征添加到上一个层次结构的横向特征中。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本方法的三维目标检测网络大致可以分成六个模块：体素化模块、三维特征提取模块、折叠到鸟瞰视角(Bird Eyes View,BEV)、特征对齐模块、稀疏检测模块和损失函数计算模块。在训练阶段需要用到全部六个模块，而在推理阶段则只需前五个模块，无需计算损失函数。

输入的数据为待检测场景的点云，即3D空间中的点集P，定义为

其中x_i,y_i,z_i表示第i个点沿着X，Y，Z轴的坐标值，r_i表示点云中第i个点获取时的激光反射强度，M表示点集中点的数量。给定3D空间中的目标，可以通过一个3D包围盒(c_x,c_y,c_z,h,w,l,θ)来表示，其中(c_x,c_y,c_z)表示其中心位置，(h,w,l)表示其形状大小，方向角θ表示其头部与前向轴的夹角。在训练三维目标检测网络时，除了输入的点云场景，还会有该场景中每个目标的3D包围盒及其对应的类别标签；而在实际推理时，则仅输入点云场景即可输出该场景中的关键目标预测结果。

体素化模块将输入的点云场景划分进空间中大小均匀的规则栅格，也就是3D体素，以解决点云数据的不规则性和无序性；

三维特征提取模块首先将上一步得到的3D体素数据输入体素特征编码(VFE)层中以提取每个体素的特征；而后将各3D体素特征组成的三维特征图输入到一组三维下采样卷积层中，以得到该点云场景对应的分辨率降低而特征维度增加的丰富三维特征图；

折叠到BEV模块将上一步得到的三维特征图在BEV视角下进行折叠，即将高度维度和通道数进行合并，得到伪二维特征图；

特征对齐模块将上一步得到的伪二维特征图作为输入，通过一系列二维卷积模块，得到一个高度信息化的特征图列表，包含相同维度不同分辨率的几张伪二维特征图；

稀疏检测模块将特征对齐模块中得到的特征图列表、N个初始化为整个输入点云场景大小的可学习建议包围盒及与其对应的随机初始化可学习建议特征作为输入，通过RoIAlign操作提取每个建议包围盒的RoI特征，RoI特征与其对应的可学习建议特征通过一个动态卷积模块进行交互，动态卷积模块的实现方式是连续的1×1卷积，加上LayerNorm和ReLU激活函数。动态卷积模块的输出作为最终的目标特征，用于通过两个多层感知器(MLP)分支回归出每个预测目标的包围盒参数和类别，得到最终的目标预测结果；

损失函数计算模块：当训练网络时，需要计算损失函数。有两个阶段：第一个阶段是固定数量的N个预测结果和M个真实目标之间的匹配；第二阶段是M个匹配上的预测结果与其对应的真实目标对之间的优化，所有的损失都是直接在预测结果和真实目标之间比较计算的；通过降低损失函数的值来进行对整个网络的训练优化。具体实现如下：

1.第一个阶段是一个N-M匹配，采用基于匈牙利算法的二分匹配损失方法来计算逐对的匹配代价，取每个真实目标对应的代价函数值最小的预测结果，即可从所有N个预测中筛选出M个有竞争力的候选。用

来标识真实目标的集合，用

来标识N个预测结果，其中N＞M。匹配代价的定义如下：

其中，逐对的代价计算如下：

λ_cls,λ_L1和λ_IoU是每一部分的系数。

是预测的分类结果和真实的类别标签之间的焦点损失(focal loss)。对于三维包围盒的回归预测损失，采用L1损失和IoU损失结合的方法。

是归一化的预测包围盒和真实目标包围盒之间的L1损失，由两个部分组成：

其中，

是角度θ的回归损失。

是除θ之外其他参数的回归损失，包含中心点位置和包围盒的大小共六个参数；采用正弦误差(Sin-Error)损失来解决0和π方向之间的对抗性样本问题。

IoU损失用于限制包围盒之间的重叠程度。在匹配阶段，使用轴对齐的鸟瞰视角(AA_BEV)二维包围盒来计算预测和真实目标之间的IoU损失，以

来表示。轴对齐表示按照包围盒原始方向角θ的大小，将其旋转至与X轴或与Y轴平行。

2.训练过程的损失函数计算只在匹配上的对之间执行。其与匹配代价基本一致，除了将二维的轴对齐鸟瞰视角IoU替换为加上角度和高度信息的旋转三维DIoU损失，这样会使得匹配过程更加精确。整个损失函数表示如下：

其中，稀疏检测模块可以重复几遍以形成一个自优化结构，即将上一个稀疏检测模块输出的预测包围盒和特征输入给下一个阶段，作为建议包围盒和建议特征；若是三维目标检测网络训练阶段，则每个稀疏检测模块都附加一个损失函数计算模块。

上述基于点云数据的三维目标稀疏检测方法，通过对输入的点云数据进行体素化、提取三维特征、折叠到BEV、对齐特征、稀疏检测和计算损失函数后可以得到训练好的三维目标检测网络；使用训练好的三维目标检测网络对输入点云进行检测，就可以预测得到关键目标的类别和位置。

与现有技术相比，本发明的有益效果是：

现有的技术依赖于在三维或二维栅格的所有位置上分布大量的目标候选，然而这种稠密的范式需要大量人工设定的先验超参数，需要数据方面的专业知识来填补标签和检测之间的差距，需要大量的后处理操作来剔除冗余候选。

作为一种新的检测范式，本发明提出了点云中端到端的高效三维目标检测范式，其维护并迭代地细化了一组稀疏的可学习建议，并且直接在这些稀疏候选中执行分类和定位。由于不需要依赖任何预定义的锚，不需要任何基于标签分配的中间表示来辅助检测，不需要任何诸如NMS之类耗时的后处理来抑制掉大量冗余的候选即可实现有效的三维对象检测，本发明适用性更强、检测精确度更高、在运行效率上远超现有技术、且对点云中的嘈杂数据更加鲁棒。

附图说明

图1是本发明训练阶段的流程图。

图2是本发明推理阶段的流程图。

图3是本发明中稀疏检测模块的设计模式示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于点云数据的三维目标稀疏检测方法，通过对输入的点云数据进行体素化、提取三维特征、折叠到鸟瞰视角、对齐特征、稀疏检测和计算损失函数后可以得到训练好的网络；使用训练好的网络对输入点云进行检测，就可以预测得到关键目标的类别和位置。图1、图2所示为本发明提供的基于点云数据的三维目标稀疏检测方法的流程。以街景数据集KITTI中的数据为例，目标是检测出场景中的小汽车。本发明方法主要包括如下步骤：

A.体素化模块将输入的点云场景划分进空间中大小均匀的规则栅格，也就是3D体素，以解决点云数据的不规则性和无序性，具体实现如下：

A1.给定范围为L×W×H的点云，和大小为D_x×D_y×D_z的体素，可以得到形状为S_x×S_y×S_z的离散栅格，其中

在本实例中，给定范围为[0,70.4]×[-40,40]×[-3,1]的点云，和大小为0.05×0.05×0.1的体素，可以得到形状为1408×1600×40的离散栅格；

A2.限制每个体素中的最大点数为T，当体素内的点数超过T时，采用采样方法来产生满足数量要求的点；在本实例中，限制每个体素中的最大点数为T＝5，当体素内的点数超过5时，采用随机采样的方法来产生满足数量要求的点；

B.三维特征提取模块首先将上一步得到的3D体素数据输入体素特征编码(VFE)层中以提取每个体素的特征；而后将逐体素特征组成的三维特征图输入到一组三维下采样卷积层中，以得到分辨率降低而特征维度增加的丰富三维特征；在本实例中，VFE采用将体素内的点的信息取平均的方式以提取逐体素特征；而后采用三维空间稀疏卷积(参考文献Benjamin Graham.2014.Spatially-sparse convolutional neural networks.arXivpreprint arXiv:1409.6070(2014).)进行8倍下采样，得到维度为L′×W′×H′×C′的三维特征图，其中L′×W′×H′为长、宽、高的空间分辨率，C′为特征通道数，本实例中为176×200×2×128；

C.折叠到BEV模块将上一步得到的三维体素特征在BEV视角下进行折叠，即将高度维度和通道数进行合并，得到伪二维特征图；本实例中，维度为176×200×256；

D.特征对齐模块将上一步得到的伪二维特征图作为输入，通过一系列二维卷积模块，得到一个高度信息化的特征图列表，包含相同维度不同分辨率的几张伪二维特征图；在本实例中，BEV特征对齐模块具体实现如下：

D1.通过三个4层的卷积模块，以自顶向下的方式获得两倍、四倍、八倍降采样的特征，其滤波器数量分别为64，128和256。用B₁,B₂和B₃分别标识上述三个卷积模块的输出；

D2.通过降采样和上采样组合的方式提取B₁,B₂和B₃的特征金字塔。具体来说，B₁的两倍和四倍降采样特征与其本身组成了其特征金字塔；B₂与其两倍降采样和两倍上采样特征组成了其特征金字塔；B₃与其两倍和四倍上采样组成其特征金字塔。至此，每个特征金字塔都有了相同的形状；

D3.将每个金字塔中相同大小的特征链接起来，就可以得到跨层的特征；用一个融合卷积块实现跨层特征的融合；

D4.融合后的特征输入一个特征金字塔网络(FPN)(参考文献：T.-Y.,Dolla′r,P.,Girshick,R.,He,K.,Hariharan,B.,and Belongie,S.(2017).Feature pyramid networksfor object detection.In CVPR,pages 2117–2125.)样式的结构中，即将自底向上插值的特征添加到上一个层次结构的横向特征中，最终可以得到一个高度信息化的特征列表，维度为[176×200×128,88×100×128,44×50×128]；

E.稀疏检测模块将特征对齐模块中得到的特征图列表、N个可学习建议包围盒与其对应的可学习建议特征作为输入来进行关键目标的稀疏检测，通过RoIAlign操作提取每个建议包围盒的RoI特征，RoI特征与其对应的可学习包围盒的特征通过一个动态卷积模块进行交互，回归出每个预测目标的包围盒参数和类别，得到最终的目标预测结果；稀疏检测模块的设计模式如图3所示，稀疏检测模块的具体实现如下：

E1.采用N个可学习建议包围盒与其对应的可学习建议特征作为目标的候选。本发明采用多个点云场景训练模型，每一点云场景包括多个目标，将这些目标求和除以点云场景总数，得到平均目标数，N取大于该平均目标数的数字。这些可学习的建议包围盒初始化为整个输入点云场景的大小，没有旋转，即包围盒初始参数为(35.2,0,-1,4,80,70.4,0)；每个可学习建议特征由一个稍高维度的潜在向量表示，并随机初始化；本实例中，平均目标数为5.42，设N＝100，建议特征的维度为128；

E2.通过丢弃可学习建议包围盒的位置和尺度中的纵向信息获得BEV下对应的二维包围盒；每个BEV包围盒都可以通过带旋转的RoIAlign操作来提取特征图中对应的RoI特征；至此，我们有了两种类型的特征：建议特征与RoI特征。对于这N个建议包围盒来说，有N个建议特征，以及N×S×S个RoI特征，其中S是RoIAlign操作中的池化分辨率；本实例中，设S为7；

E3.建议特征会输入到一个多头注意力模块和一个归一化(LayerNorm)层，目的是推理出建议特征所代表的建议目标之间的关系；接着，每个RoI特征会通过一个动态卷积模块与对应的建议特征进行交互，目的是过滤掉无效的包围盒；动态卷积模块的实现方式是将1×1卷积、LayerNorm和ReLU激活函数作为一个卷积单元，连续执行两次该卷积单元；

E4.动态卷积模块的输出将会作为最终的目标特征，用于通过两个多层感知器(MLP)分支计算预测的分类结果和七维的包围盒回归参数；回归分支的输出是一个表示三维建议包围盒与真实包围盒标签之间的残差向量

其中：

Δ_θ＝θ_g-θ_p

其中，

角标g表示ground_truth，即训练数据真实包围盒的标签，角标p表示prediction，即本三维目标检测网络的预测值，其余符号均与3D包围盒参数3D包围盒(c_x,c_y,c_z,h,w,l,θ)相对应。残差向量Δ将会解码到当前阶段的的可学习建议包围盒中，以构成新的预测；

F.损失函数计算模块：当训练网络时，需要计算损失函数。有两个阶段：第一个阶段是固定数量的N个预测结果和M个真实目标之间的匹配；第二阶段是M个匹配上的预测结果与其对应的真实目标对之间的优化，所有的损失都是直接在预测结果和真实目标之间比较计算的；通过降低损失函数的值来进行对整个网络的训练优化；具体实现如下：

F1.第一个阶段是一个N-M匹配，采用基于匈牙利算法的二分匹配损失方法来计算逐对的匹配代价，取每个真实目标对应的代价函数值最小的预测结果，即可从所有N个预测中筛选出M个有竞争力的候选。用

来标识真实目标的集合，用

来标识N个预测结果，其中N＞M。匹配代价的定义如下：

其中，逐对的代价计算如下：

λ_cls,λ_L1和λ_IoU是每一部分的系数。

其中，

是角度θ的回归损失。

F2.训练过程的损失函数计算只在匹配上的对之间执行。其与匹配代价基本一致，除了将二维的轴对齐鸟瞰视角IoU替换为加上角度和高度信息的旋转三维DIoU损失，这样会使得匹配过程更加精确。整个损失函数表示如下：

G.将步骤E输出的目标预测结果与目标特征看做新的建议包围盒和建议特征，作为输入重新执行稀疏检测模块E2-E4，执行一次E2-E4称作一个阶段，整个稀疏检测头共执行K个阶段；第K个阶段的输出作为最终的预测结果进行输出。图2中i表示阶段的索引数，可学习建议包围盒和可学习建议特征经过K次稀疏检测模块，得到最终的检测结果。若是网络训练阶段，则每个阶段执行E2-F2；本实例中，设K＝6；

通过以上步骤，就可以实现一种检测精确度更高、在运行效率上远超现有技术、且对点云中的嘈杂数据更加鲁棒的三维目标稀疏检测方法。其不需要依赖任何预定义的锚，不需要任何基于标签分配的中间表示来辅助检测，不需要任何诸如NMS之类耗时的后处理来抑制掉大量冗余的候选即可实现有效的三维对象检测，适用性更强。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种端到端的三维目标稀疏检测方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述损失函数计算模块通过两阶段计算所述损失值：第一阶段为N-M匹配过程，目标是从所有N个预测中筛选出M个候选，然后采用基于匈牙利算法的二分匹配损失方法来计算逐对的匹配代价，确定出匹配对；第二阶段利用确定出的匹配对通过损失函数

计算所述损失值；其中，

是预测的分类结果和真实的类别标签之间的焦点损失，

是归一化的预测包围盒和真实目标包围盒之间的L1损失，

3.根据权利要求2所述的方法，其特征在于，所述匹配代价为

其中，

代表真实目标的集合，

代表N个预测结果，N＞M；逐对的代价

为轴对齐的鸟瞰视角二维包围盒的IoU损失。

4.根据权利要求1或2或3所述的方法，其特征在于，所述稀疏检测模块的具体实现方法为：

4.1.采用N个可学习建议包围盒与其对应的可学习建议特征作为目标的候选；

4.2.通过丢弃可学习建议包围盒的位置和尺度中的纵向信息获得鸟瞰视角下对应的二维包围盒，从所述二维包围盒中提取对应的RoI特征；从而每个所述学习建议包围盒包括可学习建议特征与RoI特征；

4.3.将所述可学习建议特征输入到一个多头注意力模块和一个归一化层，学习所述可学习建议特征所代表的建议目标之间的关系；将所述RoI特征通过动态卷积模块与对应的可学习建议特征进行交互，以过滤掉无效的包围盒；

4.4.将动态卷积模块的输出作为最终的目标特征，用于计算预测的分类结果和包围盒回归参数，得到最终的目标预测结果。

5.根据权利要求1或2或3所述的方法，其特征在于，将所述动态卷积模块输出的目标特征通过两个多层感知器分支回归出每个预测目标的包围盒参数和类别，得到最终的目标预测结果。

6.根据权利要求1或2或3所述的方法，其特征在于，所述动态卷积模块将1×1卷积、LayerNorm和ReLU激活函数作为一个卷积单元并连续执行多次该卷积单元。

7.根据权利要求1或2或3所述的方法，其特征在于，所述三维特征提取模块将所述点云样本的各3D体素数据输入体素特征编码层中以提取每个3D体素的特征；然后将各3D体素特征组成的三维特征图输入到一组三维下采样卷积层中，得到所述点云样本对应的三维特征。

8.根据权利要求1或2或3所述的方法，其特征在于，所述特征对齐模块的具体实现方法为：

8.1.通过三个卷积模块，分别以自顶向下的方式对输入的所述伪二维特征图进行降采样，获得两倍、四倍、八倍降采样的特征；其中，两倍降采样的特征为B₁，四倍降采样的特征为B₂，八倍降采样的特征为B₃；

8.2.将B₁的两倍和四倍降采样特征与其本身组成B₁的特征金字塔；将B₂与其两倍降采样和两倍上采样特征组成B₂的特征金字塔；将B₃与其两倍和四倍上采样组成B₃的特征金字塔；

8.3.将每个特征金字塔中相同大小的特征链接起来，得到跨层的特征；用一个融合卷积块对跨层特征进行融合；

8.4.融合后的特征输入一特征金字塔样式的结构中，得到特征图列表；其中，所述特征金字塔样式的结构用于将自底向上插值的特征添加到上一个层次结构的横向特征中。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。