CN116597264A

CN116597264A - 融合二维图像语义的三维点云目标检测方法

Info

Publication number: CN116597264A
Application number: CN202310557880.1A
Authority: CN
Inventors: 张姗姗; 殷子玥; 杨健
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-15

Abstract

本发明公开了一种融合二维图像语义的三维点云目标检测方法，具体包括以下步骤：对图像进行全景分割，获得实例掩码和像素级类概率分布；利用点云生成稀疏深度图；利用实例掩码在稀疏深度图中筛选实例的深度值集合，聚类得到最大簇聚类中心，计算最大簇外的异常深度值与聚类中心的差值倒数，作为对应像素的权重；修改异常深度值对应像素的类概率分布并加权；为点云拼接对应像素的加权类概率分布；将点云空间划分为多个柱体，聚合柱内特征得到伪图像特征；提取伪图像特征的多尺度特征并整合为高维特征，输入检测头获得三维目标检测结果；后处理利用地面点云调整边界框高度。本方法适用于基于LiDAR的三维目标检测网络。

Description

融合二维图像语义的三维点云目标检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种融合二维图像语义的三维点云目标检测方法。

背景技术

随着人工智能深入大众日常生活，自动驾驶系统成为学术界和工业界的一项研究热点，环境感知是自动驾驶系统的重要一环，车辆需要准确观察周围环境，从而做出正确的预测和规划。三维目标检测是环境感知的关键技术之一，与二维检测相比，三维检测具有物体在真实世界的坐标定位，更符合自动驾驶任务的环境需求，它可以利用传感器数据预测物理空间中目标物体的类别、位置、尺寸和朝向，作为后续避障、路径规划等工作的基础。环境信息的采集依靠传感器，丰富和高质量的传感器数据为环境感知提供更加可靠的学习与判断依据。当前激光雷达凭借其在精度、灵敏度、视角等指标的优秀表现，成为三维目标检测的热门传感器之一，激光雷达发射脉冲激光，遇障碍物反射后被接受单元接收，生成的点云数据可较好地描述物体的表面形状，具有丰富的几何信息。但激光雷达分辨率较低，生成的点云稀疏，在远距离和小尺度物体上稀疏性表现更为严重，此外，激光雷达价格较高，数据采集容易受到雨雪天气影响，造成数据误差。相机获取的RGB图像尺度和遮挡问题严重，且缺少三维目标检测所需的精确深度信息，但包含颜色、纹理等丰富的语义信息，且像素具有高分辨率。两种传感器数据具有明显的互补性，因此许多研究通过融合点云和图像知识，获得更佳的三维目标检测性能。

现有的基于点云和图像融合的三维目标检测模型大致分为三种：(1)基于特征级融合的方法，这类方法的融合对象通常是不同模态数据经各自主干特征提取网络获取到的特征，融合操作发生在三维目标检测的中间阶段；例如3D-CVF利用自动校准矩阵，将图像特征转换为在鸟瞰视角下与激光雷达特征对应的平滑空间特征图，再使用空间注意力，根据区域融合两种模态特征；(2)基于决策级融合的方法，这类方法通常结合2D和3D检测网络的决策输出，调整得到更加精细的检测结果；例如CLOCs，选取2D和3D目标检测器在非极大值抑制之前的候选框，将两种模态的候选框共同编码为稀疏张量，并使用二维卷积神经网络处理稀疏张量的非空元素，最终映射生成3D检测框的概率分数；(3)基于数据级融合的方法，这类方法在传入检测器之前，直接融合不同模态的传感器数据，通常是将图像知识融合到点云数据中；例如PointPainting，使用图像语义分割网络获取像素级类分数向量，获取点云在图像坐标系对应像素的类分数向量，逐点沿特征维度进行拼接作为装饰信息，最终将装饰点云输入任意基于激光雷达的三维目标检测器中。这种利用空间变换获取点云对应图像像素语义信息，并用其扩充点云特征来融合两种模态知识的方法，性能受到分割网络性能的制约，尤其是图像分割不可避免的边界模糊问题，在从2D映射到3D空间时更加明显，例如会将背景点云渲染上前景的语义信息，从而对检测产生负面影响。

发明内容

本发明的目的在于提供一种融合二维图像语义的三维点云目标检测方法。

实现本发明目的的技术解决方案为：一种融合二维图像语义的三维点云目标检测方法，包括以下步骤：

获取由激光雷达和单目相机在时间和空间上同步采集的点云和RGB图像数据，并对所述RGB图像进行全景分割，得到语义分割任务输出的像素级类分数向量和实例分割任务输出的实例掩码；

将点云投影到图像坐标系，生成稀疏深度图；

利用所述实例掩码在所述稀疏深度图中选取每个实例对应的深度值，对所述深度值聚类，将深度值划分为最大簇内的可靠深度值和最大簇外的异常深度值，并记录最大簇的聚类中心，计算异常深度值和聚类中心的差值，根据差值为对应像素设置权重；

修改深度异常像素的类分数向量，将其由当前类修改为背景类，并用所述权重对类分数加权，对所述类分数向量进行加权；

利用点云和像素的对应关系，逐点获取对应像素的加权类分数，并与所述点云数据拼接；

将所述点云所在的三维空间沿地面栅格化，划分为均匀柱体，将点云中的点依次分配到对应柱体中，并聚合每个柱体的特征，得到鸟瞰视角下的伪图像特征；

在主干特征提取阶段，利用卷积提取伪图像特征的多尺度特征，再利用反卷积将多尺度特征上采样到相同大小，并沿特征通道拼接为高维特征图；

将高维特征图输入检测头，输出预测结果，包括目标的类别和三维边界框，所述三维边界框用位置、尺寸和朝向进行描述；

对每个三维边界框，搜索周围指定半径范围内的圆柱状空间，获取类别为地面的点，并计算高度均值，将所述三维边界框的底面调整到相同高度，得到最终预测框。

进一步的，所述获取由激光雷达和单目相机在时间和空间上同步采集的点云和RGB图像数据，并对所述RGB图像进行全景分割，得到语义分割任务输出的像素级类分数向量和实例分割任务输出的实例掩码，具体包括：

获取与激光雷达点云在时间和空间上同步采集的RGB图像，使用预训练的panoptic-deeplab全景分割网络对所述RGB图像进行全景分割，其中实例分割任务预测的m个类别与后续三维检测任务的目标类别一致，得到一组实例掩码，语义分割任务额外增加背景和地面两类，得到像素级类概率分布向量，标记地面类像素后，将地面类分量合并到背景类分量中，最终输出m+1维的像素级类概率分布向量。

进一步的，所述将点云投影到图像坐标系，生成稀疏深度图，具体包括：

根据事先标定好的相机内外参和激光雷达外参，首先将点云从激光雷达坐标系转换到相机坐标系，再转换到图像坐标系，删除超出图像范围的点，得到点云和像素的对应关系；

构造与所述RGB图像分辨率相同的深度图，所述深度图的像素值均初始化为0，根据所述点云和像素的对应关系，将点云沿深度方向的坐标值赋给对应像素，得到稀疏深度图。

进一步的，所述利用所述实例掩码在所述稀疏深度图中选取每个实例对应的深度值，对所述深度值聚类，将深度值划分为最大簇内的可靠深度值和最大簇外的异常深度值，并记录最大簇的聚类中心，计算异常深度值和聚类中心的差值，根据差值为对应像素设置权重，具体包括：

利用实例掩码在稀疏深度图中筛选每个实例对应的深度值，构成与实例数目相同的多个深度值集合；

对每个深度值集合，使用MeanShift聚类算法进行无监督聚类得到多个簇，获取最大簇的聚类中心以及落在最大簇中的深度值，其余深度值视作异常深度值，计算每个异常深度值与最大簇聚类中心的差值；

将异常深度值对应像素的权重设置为所述差值的倒数，并归一化到[0,1]区间，其余像素的权重设置为1。

进一步的，所述修改深度异常像素的类分数向量，将其由当前类修改为背景类，并用所述权重对类分数加权，具体包括：

根据所述RGB图像像素与所述深度图像素的一一对应关系，对每个实例的深度值集合，获取异常深度值对应像素在语义分割任务中得到的类概率分布向量，若所述类概率分布向量的最大分量是目标类，则减小该分量，增大背景类分量；

每个像素的类概率分布向量与权重进行数乘，得到加权类概率分布。

进一步的，所述利用点云和像素的对应关系，逐点获取对应像素的加权类概率分布，并与所述点云数据拼接，具体包括：

根据点云投影到二维图像中的像素坐标，获取对应像素处的加权类概率分布向量，与原始点云数据沿特征维度拼接，得到融合图像语义信息的点云。

进一步的，所述将所述点云所在的三维空间沿地面栅格化，划分为均匀柱体，将点云中的点依次分配到对应柱体中，并聚合每个柱体的特征，得到鸟瞰视角下的伪图像特征，具体包括：

将点云所在的三维空间沿地面栅格化，从而将所述三维空间划分为无高度限制的多个单位柱体，并将点云中的每个点按空间位置分配到对应柱体中；

为点云添加与柱体有关的位置特征，包括点所在柱体内所有点的几何中心坐标，以及点到柱体中心的x，y偏移量，将所述位置特征与点云沿特征维度拼接；

指定每个柱体中点数的最大值N，若柱体中点数超过最大值则随机采样至最大值，若点数不足最大值则用0填充至最大值，从而为不规则点云构造稠密的结构化表示；

将点云输入简化的PointNet网络，使用多层感知机提取点的高维特征，并沿点通道做卷积，获得每个柱体的高维特征；

将柱体的高维特征映射到柱体对应的二维栅格坐标空间，构成伪图像形式的鸟瞰特征图。

进一步的，所述在主干特征提取阶段，利用卷积提取伪图像特征的多尺度特征，再利用反卷积将多尺度特征上采样到相同大小，并沿特征通道拼接为高维特征图，具体包括：

一个自上而下的子网络，生成具有越来越小空间分辨率的特征图；

一个自下而上的子网络，将所述不同分辨率的特征图通过反卷积上采样到相同大小，然后拼接成一个高维特征图。

进一步的，所述将高维特征图输入检测头，输出预测结果，包括目标的类别和三维边界框，所述三维边界框用位置、尺寸和朝向进行描述，具体包括：

在特征图的每个点处预先为每个目标类设置两个垂直方向的先验框，作为预测的基准，高维特征输入检测头得到目标的类别和预测框相对先验框的偏移，通过解码得到预测框的真实位置参数(x，y，z，l，w，h，θ)，其中x，y，z为三维边界框的底面中心坐标，l，w，h为边界框的长宽高，θ为绕z轴的偏转角，表示边界框的朝向。

进一步的，所述对每个三维边界框，搜索周围指定半径范围内的圆柱状空间，获取类别为地面的点，并计算高度均值，将所述三维边界框的底面调整到相同高度，得到最终预测框，具体包括：

获取预测三维边界框中心的x₀，y₀坐标，在其周围半径R范围内的圆柱状空间(x-x₀)²+(y-y₀)²≤R²，z∈(-∞，+∞)，搜索类别为地面的点，计算地面点的z坐标均值，将所述三维边界框的底面高度调整为该值，得到最终预测框位置。

本发明与现有技术相比，其显著优点在于：(1)本发明利用全景分割同时获取二维图像的实例信息和语义信息，利用点云获取稀疏深度图，通过结合实例信息和深度信息对语义信息进行修正和加权，改善了因图像分割不准确，尤其是难以避免的边缘模糊带来的从2D到3D映射时被放大的语义误差问题；(2)本发明设计了一种后处理方法，在数据预处理阶段利用图像分割的地面类别预先标记点云中的地面点，在三维目标检测器生成三维预测框后，通过计算其指定半径空间内地面类点云的平均高度，调整预测框的底面至相同高度，从而使三维预测框向地面对齐，改进高度回归不准确的问题。

附图说明

图1为本发明方法的网络结构示意图。

图2为本发明方法中对像素级概率分布修正和加权部分(步骤3～4)的示意图。

具体实施方式

如图1、图2所示，本发明的一种融合二维图像语义的三维点云目标检测方法，包括以下步骤：

步骤1：获取由激光雷达和单目相机在时间和空间上同步采集的点云和RGB图像数据，并对所述RGB图像进行全景分割，得到语义分割任务输出的像素级类分数向量和实例分割任务输出的实例掩码；

在多模态目标检测中，参与信息融合的点云和图像需要保证时间和空间上的同步，即需为同一辆信息采集车辆上搭载的激光雷达和相机以相同频率采集到的不同类型环境信息。利用全景分割模型对其中的图像数据进行处理，同时获得语义分割结果和实例分割结果，具体包括：

步骤1.1：使用大型城市街道场景数据集对图像全景分割网络panoptic-deeplab进行预训练，然后使用该模型对与点云同步采集的h×w分辨率的图像进行全景分割，分别获取其实例分割任务和语义分割任务的结果；

具体地，实例分割任务的目标类别与后续三维检测的目标类别一致，均为m类，实例分割结果包括一组实例掩码M＝{M₁，M₂，…，M_k}和类别标签L＝{L₁，L₂，…，L_k}，k是实例数量。其中属于实例的像素值为1，否则为0，类别标签L_i记录了M_i的实例类别id。语义分割任务类别在三维检测目标类别的基础上，额外添加背景类和地面类，语义分割任务的结果为像素级类概率分布向量s_(u，v)＝(s₁，s₂，…，s_n)，且有s₁+…+s_n＝1，其中(u，v)是像素坐标，n是类别数量。

步骤1.2：对语义分割结果进行分量合并；

具体地，对于像素级类分数向量s，只保留与目标检测任务相关的类别分量。首先标记地面类别分量最大的点，然后将除检测任务目标类以外的类别分量合并，作为背景类的概率分数，此时s_(u，v)＝(s₁，s₂，…，s_m+1)。

步骤2：将点云投影到图像坐标系，生成稀疏深度图；

首先将点云从激光雷达坐标系转换到图像坐标系，并裁剪掉超出图像范围的点。具体地，三维空间中的一组点云集合可表示为{p⁽¹⁾，…，p⁽ⁿ⁾}，其中任意一点p^(k)＝(x，y，z，r)，x，y，z表示点云在激光雷达坐标系下的三维坐标，r表示该点处的反射强度。首先将点云坐标转换为齐次坐标形式并获取激光雷达到相机的外参矩阵T_v→c，它包含旋转矩阵/>和平移矩阵/>两部分，利用T_v→c可将点云从激光雷达坐标系转换到相机坐标系，然后利用0号相机的矫正旋转矩阵/>将坐标转换到矫正的0号相机坐标系下，再利用第i个相机的内参矩阵/>得到该点在第i个相机图像中的坐标。因此，点云/>从激光雷达坐标系转换到第i个相机图像坐标系下的点/>的转换公式如下：

且有：

其中是第i号相机的焦距，/>是第i号相机的主点偏移，即相机主轴与图像平面的交点相对图像坐标的偏移，/>是第i号相机与0号相机在x方向的偏移。

然后过滤掉超出图像范围的即过滤掉u∈(-∞，0)∪(h，+∞)或v∈(-∞，0)∪(w，+∞)的点。

通过上述空间坐标变换，建立了点云到像素的映射关系创建h×w的深度图像，初始像素值均为0，将点云深度方向的坐标，即在相机坐标系下z轴方向的坐标值，赋给对应像素，得到稀疏深度图。则在稀疏深度图中，有点云对应的像素值非零，无点云对应的像素值为零。同时，将这些深度值添加到集合D中。

步骤3：利用所述实例掩码在所述稀疏深度图中选取每个实例对应的深度值，对所述深度值聚类，将深度值划分为最大簇内的可靠深度值和最大簇外的异常深度值，并记录最大簇的聚类中心，计算异常深度值和聚类中心的差值，根据差值为对应像素设置权重；

步骤3.1：根据第i个实例掩码M_i∈M，在深度图中选出属于该实例的非零深度值集合元素下标表示深度值在深度图中对应的像素坐标。使用MeanShift算法对集合中的深度值进行无监督聚类，该算法通过计算某点与其r半径范围内点的距离均值，确定下一步的移动方向和距离，因此无需指定簇的数量，而需指定搜索半径。本方法针对不同类别设置不同的半径，具体地，当实例类别为car，person，bicycle和rider时的聚类半径分别设置为2.0，0.5，0.7，0.5。聚类完成后，将所有深度值划分为最大簇内的可靠深度值集合D_in⁽ⁱ⁾，和最大簇外的异常深度值集合D_out⁽ⁱ⁾＝D⁽ⁱ⁾-D_in⁽ⁱ⁾。

步骤3.2：计算D_in⁽ⁱ⁾中元素的平均值得到最大簇的聚类中心以及异常深度值d_(u，v)∈D_out⁽ⁱ⁾与/>的差值dis_(u,v)，将1/dis_(u，v)作为像素(u，v)的权重，得到所有异常深度值对应像素的权重后，将权重归一化到[0，1]区间，其余像素的权重均为1。则根据实例掩码M_i计算得到的图像权重矩阵/>中，像素(u，v)处的权重如下：

步骤3.3：最终图像中每个像素的权重k为实例掩码数量。

步骤4：修改深度异常像素的类分数向量，将其由当前类修改为背景类，并用所述权重对类分数加权；

具体地，获取深度值在D_out⁽ⁱ⁾集合中的像素(u，v)对应的类分数向量s_(u，v)＝(s₁，…，s_m+1)，通过最大分量s_current＝max{s₁，…，s_m+1}判断该像素所属类别，若为检测任务的目标类，则按以下规则修改分量：

其中S_bg表示背景类的分量值，目的是将当前类别分量减小，背景类分量增大，从而将点由当前目标类修改为背景类。

用步骤3.3得到的权重为像素级类分数向量加权，得到加权类分数向量s′_(u，v)：

s′_(u，v)＝W_(u，v)·s_(u，v)

步骤5：利用点云和像素的对应关系，逐点获取对应像素的加权类分数，并与所述点云数据拼接；

具体地，根据上述点云和像素的映射关系获取该像素的加权类分数向量s′_(u，v)，沿特征通道拼接在原始点云数据之后，得到新的点云p^(k)＝(x，y，z，r，s′_(u，v))。

步骤6：将所述点云所在的三维空间沿地面栅格化，划分为均匀柱体，将点云中的点依次分配到对应柱体中，并聚合每个柱体的特征，得到鸟瞰视角下的伪图像特征。

具体地，设置点云三维空间范围[x_min，x_max]，[y_min，y_max]，[z_min，z_max]，指定单位柱体的长k和窝w，沿地面将三维空间划分为H×W单位柱体，则有高度方向不进行划分。

然后根据点云的空间坐标将其分配到对应的柱体中，并为每个点添加与柱体相关的信息，包括点所在柱体内所有点的几何中心坐标(x_ct,y_ct,z_ct)，以及点到所在柱体中心的x，y偏移(x_off，y_off)，此时每个点的特征为(x，y，z，r，x_ct,y_ct，z_ct,，x_off，y_off，s′)，特征维度C＝m+10。

规定每个柱体中的最大点数N，若柱体中的点数小于N，则用0填充至N个点，若点数大于N，则随机采样至N个点。于是，不规则点云通过柱体组织成了规则的结构化表示(P，N，C)，其中P是柱体数量，N是每个柱体中的最大点数，C是点云的特征维度。

进一步地，将该张量输入一个简易的PointNet，使用多维感知机将C维特征转化为更高维的C′维特征，得到张量(P，N，C′)，然后对每个柱体做最大池化得到柱体的聚合特征(P，C′)。根据P个柱体在H×W的栅格坐标系中的位置，将张量转换为(C′，H，W)的形式，此时的点云特征可视作鸟瞰视角的伪图像特征。

步骤7：在主干特征提取阶段，利用卷积提取伪图像特征的多尺度特征，再利用反卷积将多尺度特征上采样到相同大小，并沿特征通道拼接为高维特征图。

主干特征提取网络包括两个子网，一个自上而下的子网络用来生成越来越小空间分辨率的特征图，一个自下而上的子网络将不同分辨率的特征图上采样至相同大小，最终整合为高维特征。

其中，自上而下的子网络由三个块串联而成，每个块包含多个层，其中每层包含一组3×3二维卷积、BatchNorm和ReLU，第一层中的卷积修改特征的通道数和大小，后续层中的卷积维持通道数不变且步长等于l。三个块中包含的层数分别为3，5，5。本方法为不同目标类别分别训练了两个网络模型，一个检测Car，一个检测Pedestrian和Cyclist。其中Car的检测网络每个块中的第一层卷积步长均为2，输入(C′，H，W)的伪图像特征，三个块分别输出(C′，H/2，W/2)，(2C′，H/4，W/4)，(4C′，H/8，W/8)尺寸的特征；Pedestrian和Cyclist的检测网络每个块中第一层卷积步长分别为1，2，2，输入(C′，H，W)的伪图像特征，三个块分别输出(C′，H，W)，(2C′，H/2，W/2)，(4C′，H/4，W/4)尺寸的特征。

另一个自下而上的子网络利用反卷积，将自上而下子网络中生成的三个不同尺度特征图上采样到相同大小。具体地，自下而上的子网络也由三个块构成，每个块由二维反卷积、BatchNorm和ReLU组成。反卷积后的特征分辨率均等于自上而下子网第一个块输出的特征分辨率，通道数是其两倍。

最终将上采样至相同大小的三个特征图沿特征维度拼接，因此在主干特征提取阶段，Car的检测网络输出的高维特征大小为(6C′，H/2，W/2)，Pedestrian和Cyclist的检测网络输出的高维特征大小为(6C′，H，W)。

步骤8：将高维特征图输入检测头，输出预测结果，包括目标的类别和三维边界框，所述三维边界框用位置、尺寸和朝向进行描述；

具体地，在特征图的每个点处预先为每个目标类设置两个垂直朝向的先验框，分别为鸟瞰视角下的0°和90°，每个类别只有一种尺度，car类先验框的长宽高为(3.9，1.6，1.5)，pedestrian类为(0.8，0.6，1.73)，cyclist类为(1.76，0.6，1.73)，这些先验框将作为预测框的基准。每个先验框负责预测七个参数(x，y，z，l，w，h，θ)，其中x，y，z为三维边界框的底面中心坐标，l，w，h为边界框的长宽高，θ为绕z轴的偏转角，表示边界框的朝向。通过对先验框和真实框进行BEV视角下的2D IoU匹配，将先验框划分为正负样本，而中心坐标高度z和边界框高度h作为额外的回归目标。

将步骤7得到的高维特征输入检测头，得到目标的分类结果和边界框回归结果，回归结果为相对先验框的偏移量(Δx，Δy，Δz，Δl，Δw，Δh，Δθ)，偏移量的定义具体如下：

其中，下标gt和下标an分别表示真实框和先验框。

最后通过解码获得边界框的真实位置，并通过非极大值抑制算法，过滤掉重叠较大的预测框。

步骤9：对每个三维边界框，搜索周围指定半径范围内的圆柱状空间，获取类别为地面的点，并计算高度均值，将所述三维边界框的底面调整到相同高度，得到最终预测框；

搜索三维边界框底面中心(x₀，y₀，z₀)周围圆柱状空间(x-x₀)²+(y-y₀)²≤R²，z∈(-∞，+∞)，根据步骤1.2中标记的地面点，找出该圆柱状空间中的所有地面点，并计算这些点的高度均值将预测框底面调整到相同高度，则修改后的预测框参数为

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合二维图像语义的三维点云目标检测方法，其特征在于，包括以下步骤：

将点云投影到图像坐标系，生成稀疏深度图；

修改深度异常像素的类分数向量，将其由当前类修改为背景类，并用所述权重对类分数加权；

2.根据权利要求1所述的方法，其特征在于，所述获取由激光雷达和单目相机在时间和空间上同步采集的点云和RGB图像数据，并对所述RGB图像进行全景分割，得到语义分割任务输出的像素级类分数向量和实例分割任务输出的实例掩码，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述将点云投影到图像坐标系，生成稀疏深度图，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述利用所述实例掩码在所述稀疏深度图中选取每个实例对应的深度值，对所述深度值聚类，将深度值划分为最大簇内的可靠深度值和最大簇外的异常深度值，并记录最大簇的聚类中心，计算异常深度值和聚类中心的差值，根据差值为对应像素设置权重，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述修改深度异常像素的类分数向量，将其由当前类修改为背景类，并用所述权重对类分数加权，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述利用点云和像素的对应关系，逐点获取对应像素的加权类概率分布，并与所述点云数据拼接，具体包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述点云所在的三维空间沿地面栅格化，划分为均匀柱体，将点云中的点依次分配到对应柱体中，并聚合每个柱体的特征，得到鸟瞰视角下的伪图像特征，具体包括：

8.根据权利要求7所述的方法，其特征在于，所述在主干特征提取阶段，利用卷积提取伪图像特征的多尺度特征，再利用反卷积将多尺度特征上采样到相同大小，并沿特征通道拼接为高维特征图，具体包括：

9.根据权利要求8所述的方法，其特征在于，所述将高维特征图输入检测头，输出预测结果，包括目标的类别和三维边界框，所述三维边界框用位置、尺寸和朝向进行描述，具体包括：

在特征图的每个点处预先为每个目标类设置两个垂直方向的先验框，作为预测的基准，高维特征输入检测头得到目标的类别和预测框相对先验框的偏移，通过解码得到预测框的真实位置参数(x,y,z,l,w,h,θ)，其中x，y，z为三维边界框的底面中心坐标，l，w，h为边界框的长宽高，θ为绕z轴的偏转角，表示边界框的朝向。

10.根据权利要求9所述的方法，其特征在于，所述对每个三维边界框，搜索周围指定半径范围内的圆柱状空间，获取类别为地面的点，并计算高度均值，将所述三维边界框的底面调整到相同高度，得到最终预测框，具体包括：

获取预测三维边界框中心的x₀，y₀坐标，在其周围半径R范围内的圆柱状空间(x-x₀)²+(y-y₀)²≤R²，z∈(-∞,+∞)，搜索类别为地面的点，计算地面点的z坐标均值，将所述三维边界框的底面高度调整为该值，得到最终预测框位置。