CN117173655A

CN117173655A - 基于语义传播和跨注意力机制的多模态3d目标检测方法

Info

Publication number: CN117173655A
Application number: CN202311084859.0A
Authority: CN
Inventors: 魏明强; 李赫翀; 李明磊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-05

Abstract

本发明公开了一种基于语义传播和跨注意力机制的多模态3D目标检测方法，包括以下步骤：将稀疏深度图与彩色图像输入到深度补全网络中获得伪点云，再将原始点云与伪点云分别进行体素化，通过3D骨干网络获取鸟瞰图视角特征，在空间语义信息传播模块下提取特征，获取第一阶段候选框并进行感兴趣区域池化，网格点跨注意力机制模块丰富网格点间特征，获取第二阶段包围框，进行后处理获得检测结果。本发明能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征，从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果，能够减少误检以及漏检现象的发生，进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。

Description

基于语义传播和跨注意力机制的多模态3D目标检测方法

技术领域

本发明涉及无人驾驶和3D目标检测领域，具体而言涉及一种基于语义传播和跨注意力机制的多模态3D目标检测方法。

背景技术

在当今科技日新月异的时代，无人驾驶技术正逐渐出现在人们的生活当中。借助强大的人工智能和视觉计算等技术，无人驾驶汽车能够在没有人类主动干预的情况下自主行驶，缓解交通堵塞的同时提高公路安全性。在无人驾驶中，感知系统扮演着至关重要的角色，其能使车辆对周围的3D场景进行感知，而3D目标检测作为实现无人驾驶的一项重要技术，在车辆感知系统中不可或缺。3D目标检测能够获取关键物体在3D空间中的类别以及位置信息，并为路径规划、运动预测、碰撞避免等提供重要指导作用。激光雷达和彩色相机是其中最常用的两种传感器，激光雷达能够对3D空间下的点云场景进行扫描，提供了精确和高空间维度的几何信息；彩色相机能够捕获2D空间中的图像，提供了丰富的语义和纹理信息。伴随着深度学习的不断发展，利用图像和点云数据探究的多模态3D目标检测方法得到了广泛进步，但依旧存在一些问题。目前，大多数多模态3D目标检测方法对于鸟瞰图视角下特征提取的自适应能力不足，并且在融合图像与点云的感兴趣区域特征时，忽略了图像以及点云中的对应关系，因而会对检测结果造成一定影响。

发明内容

针对现有技术中存在的问题，本发明提供一种基于语义传播和跨注意力机制的多模态3D目标检测方法。解决了现有目标检测方法中点云场景表示鲁棒性较低以及检测的精度较低的问题，针对上述背景技术中存在的问题，本发明将原始点云与伪点云作为主要使用的信息，利用空间语义信息传播模块，对鸟瞰图视角下的特征进行自适应融合，从而得到更鲁棒的视觉特征，并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息，丰富感兴趣区域特征并促进特征的友好对齐，从而提高检测精度，减少误检以及漏检现象的发生。

为实现上述目的，本发明采用如下技术方案：基于语义传播和跨注意力机制的多模态3D目标检测方法，包括以下步骤：

S1、将从激光雷达中获取到原始点云场景对应的稀疏深度图与从相机中获取到的彩色图像输入到深度补全网络中，获得伪点云；

S2、将原始点云与伪点云分别进行体素化，并作为初始化的体素特征v_raw和v_pse；

S3、将初始化的体素特征v_raw和v_pse利用3D卷积组成的骨干网络进行特征提取，从而能够得到特征以及高阶语义特征和/>

S4、将得到的高阶语义特征沿Z轴压缩，得到对应鸟瞰图视角下的特征/>

S5、鸟瞰图视角下的特征输入空间语义信息传播模块得到的特征/>再通过分类分支以及回归分支组成的区域候选网络得到第一阶段的候选框，并计算模型第一阶段的损失；

S6、将第一阶段的候选框进行感兴趣区域池化，得到感兴趣区域池化后的特征和/>

S7、将和/>输入网格点跨注意力机制模块进一步提取不同模态的网格点间特征，丰富感兴趣区域特征，接着利用得到的特征再通过分类分支以及回归分支，得到最终第二阶段的包围框及其对应的类别信息，并计算模型第二阶段的损失；

S8、进行后处理阶段去除冗余的预测框，进而得到最终的检测结果。

进一步地，S1包括以下步骤：

S101、首先将激光雷达点云通过投影变换获取到稀疏深度图；

S102、然后将稀疏深度图与彩色图像利用深度补全网络PENet生成稠密深度图；

S103、将稠密深度图利用投影变换得到伪点云。

进一步地，S2具体包括：将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度，然后分别进行体素化，并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征v_raw和v_pse。

进一步地，S3中将初始化的体素特征v_raw和v_pse利用3D卷积组成的骨干网络进行特征提取，包括以下步骤：

S301、首先将初始化的原始点云和伪点云的体素特征v_raw和v_pse利用3D子流形卷积，BatchNorm1d，ReLU激活函数进行特征提取进而得到特征和/>

S302、进行深度特征的提取，利用3D稀疏卷积，BatchNorm1d一维批归一化，ReLU激活函数将原始点云和伪点云的体素特征的维度扩大2倍，同时将特征图在X，Y，Z轴的大小分别压缩至原来的1/2，再使用2个3D子流形稀疏卷积，BatchNorm1d，ReLU激活函数进一步提取深层特征信息，我们将上述模块称为Block骨干网络特征提取模块，重复使用3次Block后，分别得到特征进而再利用3D稀疏卷积，BatchNorm1d，ReLU激活函数将特征维度提高，获得最终提取到的高阶语义特征/>和

进一步地，S5包括以下步骤：

S501、空间语义信息传播模块主要包括空间信息传播分支以及语义信息传播分支，先将经过空间信息传播分支提取特征，其由4个2D卷积，BatchNorm2d二维批归一化以及ReLU激活函数组成的模块构成，并在第1到第4个模块间使用SE压缩激励模块加入通道注意力信息，利用空间信息传播分支能够得到/>将/>再经过2D卷积，BatchNorm2d以及ReLU激活函数组成的模块，得到/>

S502、将再经过语义信息传播分支提取特征，其也由4个2D卷积，BatchNorm2d以及ReLU激活函数模块构成，并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积，BatchNorm2d以及ReLU激活函数组成的模块，得到再经过一个2D反卷积，BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到/>

S503、将经过一个2D反卷积，BatchNorm2d以及ReLU激活函数组成的模块得到再将/>经过另一个2D反卷积，BatchNorm2d以及ReLU激活函数组成的模块后得到之后将/>及/>在特征维度进行拼接，得到经过空间语义信息传播模块后的特征

S504、将特征利用由2D卷积构成的分类、回归以及转向角的预测分支组成的区域候选网络得到第一阶段的候选框；

S505、在计算模型第一阶段的损失时主要分为三个部分：分类损失，定位损失，转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算，定位损失利用WeightedSmoothL1加权平滑L1损失函数计算，转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算，将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失L_{rpn_loss}；

进一步地，S6包括以下步骤：

S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理，将第一阶段得到的候选框均匀的分成6*6*6个部分，每个部分的中心点作为网格点，利用不同的查询半径以及范围的大小对每个网格点采样/> 特征中对应的16个体素邻居，并聚合对应邻居体素的特征，进而得到/>同时，也将候选框均匀的分成4*4*4个部分，对伪点云特征/>进行相同的处理操作，进而得到/>

S602、利用简单的PointNet点云特征提取网络分别对和/>进行多尺度的特征提取，最后将得到的多尺度特征分别使用最大池化后拼接，从而得到感兴趣区域池化后的特征/>和/>

进一步地，S7包括以下步骤：

S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q，K，V；再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q，K，V，然后对/>和/>分别利用多头注意力机制得到网格点间的联系，最后使用残差连接丰富特征信息，从而得到和/>

S702、将和/>分别经过由1D卷积，BatchNorm1d，ReLU激活函数组成的共享全连接层编码器将/>和/>的特征维度降低，进而得到特征/>和/>再将/>和在特征维度上进行拼接后分别送入到分类分支以及回归分支进行类别的预测及包围框的细化，进而得到最终的分类以及定位结果；

S703、在计算网络第二阶段的损失时，主要分为三个部分：分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵函数进行计算，回归损失主要利用Smooth-L1平滑L1损失函数进行计算，中心损失也主要使用Smooth-L1进行计算，将这三部分进行加权求和从而得到第二阶段的损失L_{rcnn_loss}。

进一步地，S8具体包括：在后处理的过程中主要利用了非最大值抑制NMS算法，设定大小合适的阈值将冗余的预测框剔除，从而得到模型最终的输出结果。

与现有技术相比，本发明具有如下有益效果：本发明将原始点云与伪点云作为主要使用的信息，利用空间语义信息传播模块，对鸟瞰图视角下的特征进行自适应融合，能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征，从而得到更鲁棒的视觉特征，并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息，丰富感兴趣区域特征并促进特征的友好对齐，从而构建了两阶段的多模态3D目标检测方法提高检测精度，减少误检以及漏检现象的发生，从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果，进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法的流程示意图；

图2为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法的整体网络结构图；

图3为本发明实例提供的空间语义信息传播模块的结构图；

图4为本发明实例提供的网格点跨注意力机制模块的结构图；

图5为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法在2D彩色图像中的高质量检测结果图；

图6为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法在3D点云场景中的高质量检测结果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

请参照图1-图6，示出了本实施例的一种具体实施方式，本发明将原始点云与伪点云作为主要使用的信息，利用空间语义信息传播模块，对鸟瞰图视角下的特征进行自适应融合，从而得到更鲁棒的视觉特征，并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息，丰富感兴趣区域特征并促进特征的友好对齐，从而提高检测精度，减少误检以及漏检现象的发生。

请参照图1,本实施例提出了一种基于语义传播和跨注意力机制的多模态3D目标检测方法,该方法包括以下步骤：

具体的，S1包括以下步骤：

S101、首先将激光雷达点云通过投影变换获取到稀疏深度图；

S103、将稠密深度图利用投影变换得到伪点云。

具体的，S2包括：

将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度，然后分别进行体素化，并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征v_raw和v_pse。

具体的，S3包括以下步骤：

S301、首先将初始化的原始点云和伪点云的体素特征v_raw和v_pse利用3D子流形卷积，BatchNorm1d，ReLU激活函数进行特征提取进而得到特征和/>这可以为后面的特征提取层提供更鲁棒的特征信息；

具体的，S5包括以下步骤：

S501、空间语义信息传播模块主要包括空间信息传播分支以及语义信息传播分支，如图3所示，先将经过空间信息传播分支提取特征，其由4个2D卷积，BatchNorm2d二维批归一化以及ReLU激活函数组成的模块构成，并在第1到第4个模块间使用SE压缩激励模块加入通道注意力信息，利用空间信息传播分支能够得到/>将/>再经过2D卷积，BatchNorm2d以及ReLU激活函数组成的模块，得到/>

S502、将再经过语义信息传播分支提取特征，其也由4个2D卷积，BatchNorm2d以及ReLU激活函数模块构成，并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积，BatchNorm2d以及ReLU激活函数组成的模块，得到/>再经过一个2D反卷积，BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到/>

S505、在计算模型第一阶段的损失时主要分为三个部分：分类损失，定位损失，转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算，定位损失利用WeightedSmoothL1加权平滑L1损失函数计算，转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算，将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失L_{rpn_loss}，公式如式(1)所示：

L_{rpn_loss}＝1.0*L_{SigmoidFocalLoss}+2.0*L_{WeightedSmoothL1}+0.2*L_{WeightedCrossEntropy} (1)

具体的，S6包括以下步骤：

S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理，将第一阶段得到的候选框均匀的分成6*6*6个部分，如图4所示，每个部分的中心点作为网格点，利用不同的查询半径以及范围的大小对每个网格点采样/>特征中对应的16个体素邻居，并聚合对应邻居体素的特征，进而得到/>同时，也将候选框均匀的分成4*4*4个部分，对伪点云特征/> 进行相同的处理操作，进而得到/>

具体的，S7包括以下步骤：

S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q，K，V；再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q，K，V，然后对/>和/>分别利用多头注意力机制得到网格点间的联系，公式如式(2)—(4)所示，其中softmax表示归一化函数，d_k表示特征通道维度，W_i ^Q，W_i ^K，W_i ^V表示对于Q，K，V的可学习权重参数，通过式(2)—(3)可以得到第i个头的注意力信息head_i；Concat表示拼接操作，W^O表示整体可学习权重参数，通过式(4)可以得到多头注意力信息，由于在网格点跨注意力机制模块中使用的均是点云表示的数据，因此在融合时能够进行更好的对齐，最后使用残差连接丰富特征信息，从而得到/>和/>

head_i＝Attention(QW_i ^Q,KW_i ^k,VW_i ^V) (3)

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (4)

S703、在计算网络第二阶段的损失时，主要分为三个部分：分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵损失函数进行计算，回归损失主要利用Smooth-L1进行计算，中心损失也主要使用Smooth-L1平滑L1损失函数进行计算，将这三部分进行加权求和从而得到第二阶段的损失L_{rcnn_loss}，公式如式(5)所示：

L_{rcnn_loss}＝1.0*L_{BinaryCrossEntropy}+1.0*L_{smooth-L1_reg}+1.0*L_{smooth-L1_corner} (5)

S8、进行后处理阶段去除冗余的预测框，进而得到最终的检测结果，如图2所示。

具体的，S8包括：

在后处理的过程中主要利用了非最大值抑制NMS算法，设定大小合适的阈值将冗余的预测框剔除，从而得到模型最终的输出结果，如图5和图6所示，分别为本发明在本实施中2D彩色图像中高质量检测结果图和3D点云场景中的高质量检测结果图。

本发明构建的两阶段的多模态3D目标检测方法，能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征，从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果，提升检测结果的鲁棒性，并且能够减少误检以及漏检现象的发生，进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，包括以下步骤：

S3、将初始化的体素特征v_raw和v_pse利用3D卷积组成的骨干网络进行特征提取，从而能够得到特征以及高阶语义特征/>和

S6、将第一阶段的候选框进行感兴趣区域池化，得到感兴趣区域池化后的特征和

2.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S1包括以下步骤：

S101、首先将激光雷达点云通过投影变换获取到稀疏深度图；

S103、将稠密深度图利用投影变换得到伪点云。

3.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S2具体包括：将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度，然后分别进行体素化，并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征v_raw和v_pse。

4.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S3中将初始化的体素特征v_raw和v_pse利用3D卷积组成的骨干网络进行特征提取，包括以下步骤：

5.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S5包括以下步骤：

S502、将再经过语义信息传播分支提取特征，其也由4个2D卷积，BatchNorm2d以及ReLU激活函数模块构成，并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积，BatchNorm2d以及ReLU激活函数组成的模块，得到/>再经过一个2D反卷积，BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到

S505、在计算模型第一阶段的损失时主要分为三个部分：分类损失，定位损失，转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算，定位损失利用WeightedSmoothL1加权平滑L1损失函数计算，转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算，将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失L_{rpn_loss}。

6.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S6包括以下步骤：

S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理，将第一阶段得到的候选框均匀的分成6*6*6个部分，每个部分的中心点作为网格点，利用不同的查询半径以及范围的大小对每个网格点采样/> 特征中对应的16个体素邻居，并聚合对应邻居体素的特征，进而得到/>同时，也将候选框均匀的分成4*4*4个部分，对伪点云特征/> 进行相同的处理操作，进而得到/>

7.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S7包括以下步骤：

S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q，K，V；再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q，K，V，然后对/>和/>分别利用多头注意力机制得到网格点间的联系，最后使用残差连接丰富特征信息，从而得到/>和/>

S702、将和/>分别经过由1D卷积，BatchNorm1d，ReLU激活函数组成的共享全连接层编码器将/>和/>的特征维度降低，进而得到特征/>和/>再将/>和/>在特征维度上进行拼接后分别送入到分类分支以及回归分支进行类别的预测及包围框的细化，进而得到最终的分类以及定位结果；

S703、在计算网络第二阶段的损失时，主要分为三个部分：分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵函数进行计算，回归损失主要利用Smooth-L1进行计算，中心损失也主要使用Smooth-L1平滑L1损失函数进行计算，将这三部分进行加权求和从而得到第二阶段的损失L_{rcnn_loss}；

8.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法，其特征在于，S8具体包括：在后处理的过程中主要利用了非最大值抑制NMS算法，设定大小合适的阈值将冗余的预测框剔除，从而得到模型最终的输出结果。