CN117173655A - 基于语义传播和跨注意力机制的多模态3d目标检测方法 - Google Patents

基于语义传播和跨注意力机制的多模态3d目标检测方法 Download PDF

Info

Publication number
CN117173655A
CN117173655A CN202311084859.0A CN202311084859A CN117173655A CN 117173655 A CN117173655 A CN 117173655A CN 202311084859 A CN202311084859 A CN 202311084859A CN 117173655 A CN117173655 A CN 117173655A
Authority
CN
China
Prior art keywords
loss
point cloud
features
semantic
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311084859.0A
Other languages
English (en)
Inventor
魏明强
李赫翀
李明磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202311084859.0A priority Critical patent/CN117173655A/zh
Publication of CN117173655A publication Critical patent/CN117173655A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义传播和跨注意力机制的多模态3D目标检测方法,包括以下步骤:将稀疏深度图与彩色图像输入到深度补全网络中获得伪点云,再将原始点云与伪点云分别进行体素化,通过3D骨干网络获取鸟瞰图视角特征,在空间语义信息传播模块下提取特征,获取第一阶段候选框并进行感兴趣区域池化,网格点跨注意力机制模块丰富网格点间特征,获取第二阶段包围框,进行后处理获得检测结果。本发明能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征,从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果,能够减少误检以及漏检现象的发生,进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。

Description

基于语义传播和跨注意力机制的多模态3D目标检测方法
技术领域
本发明涉及无人驾驶和3D目标检测领域,具体而言涉及一种基于语义传播和跨注意力机制的多模态3D目标检测方法。
背景技术
在当今科技日新月异的时代,无人驾驶技术正逐渐出现在人们的生活当中。借助强大的人工智能和视觉计算等技术,无人驾驶汽车能够在没有人类主动干预的情况下自主行驶,缓解交通堵塞的同时提高公路安全性。在无人驾驶中,感知系统扮演着至关重要的角色,其能使车辆对周围的3D场景进行感知,而3D目标检测作为实现无人驾驶的一项重要技术,在车辆感知系统中不可或缺。3D目标检测能够获取关键物体在3D空间中的类别以及位置信息,并为路径规划、运动预测、碰撞避免等提供重要指导作用。激光雷达和彩色相机是其中最常用的两种传感器,激光雷达能够对3D空间下的点云场景进行扫描,提供了精确和高空间维度的几何信息;彩色相机能够捕获2D空间中的图像,提供了丰富的语义和纹理信息。伴随着深度学习的不断发展,利用图像和点云数据探究的多模态3D目标检测方法得到了广泛进步,但依旧存在一些问题。目前,大多数多模态3D目标检测方法对于鸟瞰图视角下特征提取的自适应能力不足,并且在融合图像与点云的感兴趣区域特征时,忽略了图像以及点云中的对应关系,因而会对检测结果造成一定影响。
发明内容
针对现有技术中存在的问题,本发明提供一种基于语义传播和跨注意力机制的多模态3D目标检测方法。解决了现有目标检测方法中点云场景表示鲁棒性较低以及检测的精度较低的问题,针对上述背景技术中存在的问题,本发明将原始点云与伪点云作为主要使用的信息,利用空间语义信息传播模块,对鸟瞰图视角下的特征进行自适应融合,从而得到更鲁棒的视觉特征,并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息,丰富感兴趣区域特征并促进特征的友好对齐,从而提高检测精度,减少误检以及漏检现象的发生。
为实现上述目的,本发明采用如下技术方案:基于语义传播和跨注意力机制的多模态3D目标检测方法,包括以下步骤:
S1、将从激光雷达中获取到原始点云场景对应的稀疏深度图与从相机中获取到的彩色图像输入到深度补全网络中,获得伪点云;
S2、将原始点云与伪点云分别进行体素化,并作为初始化的体素特征vraw和vpse
S3、将初始化的体素特征vraw和vpse利用3D卷积组成的骨干网络进行特征提取,从而能够得到特征以及高阶语义特征和/>
S4、将得到的高阶语义特征沿Z轴压缩,得到对应鸟瞰图视角下的特征/>
S5、鸟瞰图视角下的特征输入空间语义信息传播模块得到的特征/>再通过分类分支以及回归分支组成的区域候选网络得到第一阶段的候选框,并计算模型第一阶段的损失;
S6、将第一阶段的候选框进行感兴趣区域池化,得到感兴趣区域池化后的特征和/>
S7、将和/>输入网格点跨注意力机制模块进一步提取不同模态的网格点间特征,丰富感兴趣区域特征,接着利用得到的特征再通过分类分支以及回归分支,得到最终第二阶段的包围框及其对应的类别信息,并计算模型第二阶段的损失;
S8、进行后处理阶段去除冗余的预测框,进而得到最终的检测结果。
进一步地,S1包括以下步骤:
S101、首先将激光雷达点云通过投影变换获取到稀疏深度图;
S102、然后将稀疏深度图与彩色图像利用深度补全网络PENet生成稠密深度图;
S103、将稠密深度图利用投影变换得到伪点云。
进一步地,S2具体包括:将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度,然后分别进行体素化,并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征vraw和vpse
进一步地,S3中将初始化的体素特征vraw和vpse利用3D卷积组成的骨干网络进行特征提取,包括以下步骤:
S301、首先将初始化的原始点云和伪点云的体素特征vraw和vpse利用3D子流形卷积,BatchNorm1d,ReLU激活函数进行特征提取进而得到特征和/>
S302、进行深度特征的提取,利用3D稀疏卷积,BatchNorm1d一维批归一化,ReLU激活函数将原始点云和伪点云的体素特征的维度扩大2倍,同时将特征图在X,Y,Z轴的大小分别压缩至原来的1/2,再使用2个3D子流形稀疏卷积,BatchNorm1d,ReLU激活函数进一步提取深层特征信息,我们将上述模块称为Block骨干网络特征提取模块,重复使用3次Block后,分别得到特征 进而再利用3D稀疏卷积,BatchNorm1d,ReLU激活函数将特征维度提高,获得最终提取到的高阶语义特征/>
进一步地,S5包括以下步骤:
S501、空间语义信息传播模块主要包括空间信息传播分支以及语义信息传播分支,先将经过空间信息传播分支提取特征,其由4个2D卷积,BatchNorm2d二维批归一化以及ReLU激活函数组成的模块构成,并在第1到第4个模块间使用SE压缩激励模块加入通道注意力信息,利用空间信息传播分支能够得到/>将/>再经过2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到/>
S502、将再经过语义信息传播分支提取特征,其也由4个2D卷积,BatchNorm2d以及ReLU激活函数模块构成,并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到再经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到/>
S503、将经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块得到再将/>经过另一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后得到之后将/>及/>在特征维度进行拼接,得到经过空间语义信息传播模块后的特征
S504、将特征利用由2D卷积构成的分类、回归以及转向角的预测分支组成的区域候选网络得到第一阶段的候选框;
S505、在计算模型第一阶段的损失时主要分为三个部分:分类损失,定位损失,转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算,定位损失利用WeightedSmoothL1加权平滑L1损失函数计算,转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算,将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失Lrpn_loss
进一步地,S6包括以下步骤:
S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理,将第一阶段得到的候选框均匀的分成6*6*6个部分,每个部分的中心点作为网格点,利用不同的查询半径以及范围的大小对每个网格点采样/> 特征中对应的16个体素邻居,并聚合对应邻居体素的特征,进而得到/>同时,也将候选框均匀的分成4*4*4个部分,对伪点云特征/>进行相同的处理操作,进而得到/>
S602、利用简单的PointNet点云特征提取网络分别对和/>进行多尺度的特征提取,最后将得到的多尺度特征分别使用最大池化后拼接,从而得到感兴趣区域池化后的特征/>和/>
进一步地,S7包括以下步骤:
S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q,K,V;再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q,K,V,然后对/>和/>分别利用多头注意力机制得到网格点间的联系,最后使用残差连接丰富特征信息,从而得到和/>
S702、将和/>分别经过由1D卷积,BatchNorm1d,ReLU激活函数组成的共享全连接层编码器将/>和/>的特征维度降低,进而得到特征/>和/>再将/>在特征维度上进行拼接后分别送入到分类分支以及回归分支进行类别的预测及包围框的细化,进而得到最终的分类以及定位结果;
S703、在计算网络第二阶段的损失时,主要分为三个部分:分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵函数进行计算,回归损失主要利用Smooth-L1平滑L1损失函数进行计算,中心损失也主要使用Smooth-L1进行计算,将这三部分进行加权求和从而得到第二阶段的损失Lrcnn_loss
进一步地,S8具体包括:在后处理的过程中主要利用了非最大值抑制NMS算法,设定大小合适的阈值将冗余的预测框剔除,从而得到模型最终的输出结果。
与现有技术相比,本发明具有如下有益效果:本发明将原始点云与伪点云作为主要使用的信息,利用空间语义信息传播模块,对鸟瞰图视角下的特征进行自适应融合,能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征,从而得到更鲁棒的视觉特征,并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息,丰富感兴趣区域特征并促进特征的友好对齐,从而构建了两阶段的多模态3D目标检测方法提高检测精度,减少误检以及漏检现象的发生,从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果,进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法的流程示意图;
图2为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法的整体网络结构图;
图3为本发明实例提供的空间语义信息传播模块的结构图;
图4为本发明实例提供的网格点跨注意力机制模块的结构图;
图5为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法在2D彩色图像中的高质量检测结果图;
图6为本发明实例提供的基于语义传播和跨注意力机制的多模态3D目标检测方法在3D点云场景中的高质量检测结果图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
请参照图1-图6,示出了本实施例的一种具体实施方式,本发明将原始点云与伪点云作为主要使用的信息,利用空间语义信息传播模块,对鸟瞰图视角下的特征进行自适应融合,从而得到更鲁棒的视觉特征,并进一步利用网格点跨注意力机制模块提取候选框中选取的网格点间的信息,丰富感兴趣区域特征并促进特征的友好对齐,从而提高检测精度,减少误检以及漏检现象的发生。
请参照图1,本实施例提出了一种基于语义传播和跨注意力机制的多模态3D目标检测方法,该方法包括以下步骤:
S1、将从激光雷达中获取到原始点云场景对应的稀疏深度图与从相机中获取到的彩色图像输入到深度补全网络中,获得伪点云;
具体的,S1包括以下步骤:
S101、首先将激光雷达点云通过投影变换获取到稀疏深度图;
S102、然后将稀疏深度图与彩色图像利用深度补全网络PENet生成稠密深度图;
S103、将稠密深度图利用投影变换得到伪点云。
S2、将原始点云与伪点云分别进行体素化,并作为初始化的体素特征vraw和vpse
具体的,S2包括:
将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度,然后分别进行体素化,并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征vraw和vpse
S3、将初始化的体素特征vraw和vpse利用3D卷积组成的骨干网络进行特征提取,从而能够得到特征以及高阶语义特征和/>
具体的,S3包括以下步骤:
S301、首先将初始化的原始点云和伪点云的体素特征vraw和vpse利用3D子流形卷积,BatchNorm1d,ReLU激活函数进行特征提取进而得到特征和/>这可以为后面的特征提取层提供更鲁棒的特征信息;
S302、进行深度特征的提取,利用3D稀疏卷积,BatchNorm1d一维批归一化,ReLU激活函数将原始点云和伪点云的体素特征的维度扩大2倍,同时将特征图在X,Y,Z轴的大小分别压缩至原来的1/2,再使用2个3D子流形稀疏卷积,BatchNorm1d,ReLU激活函数进一步提取深层特征信息,我们将上述模块称为Block骨干网络特征提取模块,重复使用3次Block后,分别得到特征 进而再利用3D稀疏卷积,BatchNorm1d,ReLU激活函数将特征维度提高,获得最终提取到的高阶语义特征/>
S4、将得到的高阶语义特征沿Z轴压缩,得到对应鸟瞰图视角下的特征/>
S5、鸟瞰图视角下的特征输入空间语义信息传播模块得到的特征/>再通过分类分支以及回归分支组成的区域候选网络得到第一阶段的候选框,并计算模型第一阶段的损失;
具体的,S5包括以下步骤:
S501、空间语义信息传播模块主要包括空间信息传播分支以及语义信息传播分支,如图3所示,先将经过空间信息传播分支提取特征,其由4个2D卷积,BatchNorm2d二维批归一化以及ReLU激活函数组成的模块构成,并在第1到第4个模块间使用SE压缩激励模块加入通道注意力信息,利用空间信息传播分支能够得到/>将/>再经过2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到/>
S502、将再经过语义信息传播分支提取特征,其也由4个2D卷积,BatchNorm2d以及ReLU激活函数模块构成,并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到/>再经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到/>
S503、将经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块得到再将/>经过另一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后得到之后将/>及/>在特征维度进行拼接,得到经过空间语义信息传播模块后的特征
S504、将特征利用由2D卷积构成的分类、回归以及转向角的预测分支组成的区域候选网络得到第一阶段的候选框;
S505、在计算模型第一阶段的损失时主要分为三个部分:分类损失,定位损失,转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算,定位损失利用WeightedSmoothL1加权平滑L1损失函数计算,转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算,将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失Lrpn_loss,公式如式(1)所示:
Lrpn_loss=1.0*LSigmoidFocalLoss+2.0*LWeightedSmoothL1+0.2*LWeightedCrossEntropy (1)
S6、将第一阶段的候选框进行感兴趣区域池化,得到感兴趣区域池化后的特征和/>
具体的,S6包括以下步骤:
S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理,将第一阶段得到的候选框均匀的分成6*6*6个部分,如图4所示,每个部分的中心点作为网格点,利用不同的查询半径以及范围的大小对每个网格点采样/>特征中对应的16个体素邻居,并聚合对应邻居体素的特征,进而得到/>同时,也将候选框均匀的分成4*4*4个部分,对伪点云特征/> 进行相同的处理操作,进而得到/>
S602、利用简单的PointNet点云特征提取网络分别对和/>进行多尺度的特征提取,最后将得到的多尺度特征分别使用最大池化后拼接,从而得到感兴趣区域池化后的特征/>和/>
S7、将和/>输入网格点跨注意力机制模块进一步提取不同模态的网格点间特征,丰富感兴趣区域特征,接着利用得到的特征再通过分类分支以及回归分支,得到最终第二阶段的包围框及其对应的类别信息,并计算模型第二阶段的损失;
具体的,S7包括以下步骤:
S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q,K,V;再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q,K,V,然后对/>和/>分别利用多头注意力机制得到网格点间的联系,公式如式(2)—(4)所示,其中softmax表示归一化函数,dk表示特征通道维度,Wi Q,Wi K,Wi V表示对于Q,K,V的可学习权重参数,通过式(2)—(3)可以得到第i个头的注意力信息headi;Concat表示拼接操作,WO表示整体可学习权重参数,通过式(4)可以得到多头注意力信息,由于在网格点跨注意力机制模块中使用的均是点云表示的数据,因此在融合时能够进行更好的对齐,最后使用残差连接丰富特征信息,从而得到/>和/>
headi=Attention(QWi Q,KWi k,VWi V) (3)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (4)
S702、将和/>分别经过由1D卷积,BatchNorm1d,ReLU激活函数组成的共享全连接层编码器将/>和/>的特征维度降低,进而得到特征/>和/>再将/>在特征维度上进行拼接后分别送入到分类分支以及回归分支进行类别的预测及包围框的细化,进而得到最终的分类以及定位结果;
S703、在计算网络第二阶段的损失时,主要分为三个部分:分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵损失函数进行计算,回归损失主要利用Smooth-L1进行计算,中心损失也主要使用Smooth-L1平滑L1损失函数进行计算,将这三部分进行加权求和从而得到第二阶段的损失Lrcnn_loss,公式如式(5)所示:
Lrcnn_loss=1.0*LBinaryCrossEntropy+1.0*Lsmooth-L1_reg+1.0*Lsmooth-L1_corner (5)
S8、进行后处理阶段去除冗余的预测框,进而得到最终的检测结果,如图2所示。
具体的,S8包括:
在后处理的过程中主要利用了非最大值抑制NMS算法,设定大小合适的阈值将冗余的预测框剔除,从而得到模型最终的输出结果,如图5和图6所示,分别为本发明在本实施中2D彩色图像中高质量检测结果图和3D点云场景中的高质量检测结果图。
本发明构建的两阶段的多模态3D目标检测方法,能够提取更鲁棒的鸟瞰图视角下的特征以及感兴趣区域特征,从而使得模型在点云场景中能够得到更加精确的3D目标检测分类以及定位结果,提升检测结果的鲁棒性,并且能够减少误检以及漏检现象的发生,进而使得模型在无人驾驶的实际感知应用中给人类提供更加安全稳定的服务。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (8)

1.基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,包括以下步骤:
S1、将从激光雷达中获取到原始点云场景对应的稀疏深度图与从相机中获取到的彩色图像输入到深度补全网络中,获得伪点云;
S2、将原始点云与伪点云分别进行体素化,并作为初始化的体素特征vraw和vpse
S3、将初始化的体素特征vraw和vpse利用3D卷积组成的骨干网络进行特征提取,从而能够得到特征以及高阶语义特征/>
S4、将得到的高阶语义特征沿Z轴压缩,得到对应鸟瞰图视角下的特征/>
S5、鸟瞰图视角下的特征输入空间语义信息传播模块得到的特征/>再通过分类分支以及回归分支组成的区域候选网络得到第一阶段的候选框,并计算模型第一阶段的损失;
S6、将第一阶段的候选框进行感兴趣区域池化,得到感兴趣区域池化后的特征
S7、将和/>输入网格点跨注意力机制模块进一步提取不同模态的网格点间特征,丰富感兴趣区域特征,接着利用得到的特征再通过分类分支以及回归分支,得到最终第二阶段的包围框及其对应的类别信息,并计算模型第二阶段的损失;
S8、进行后处理阶段去除冗余的预测框,进而得到最终的检测结果。
2.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S1包括以下步骤:
S101、首先将激光雷达点云通过投影变换获取到稀疏深度图;
S102、然后将稀疏深度图与彩色图像利用深度补全网络PENet生成稠密深度图;
S103、将稠密深度图利用投影变换得到伪点云。
3.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S2具体包括:将从激光雷达中获取到的原始点云与深度补全生成的伪点云的特征对齐到相同维度,然后分别进行体素化,并将每个体素中的点云坐标信息、像素值大小及反射强度特征信息进行均值池化后作为初始化的体素特征vraw和vpse
4.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S3中将初始化的体素特征vraw和vpse利用3D卷积组成的骨干网络进行特征提取,包括以下步骤:
S301、首先将初始化的原始点云和伪点云的体素特征vraw和vpse利用3D子流形卷积,BatchNorm1d,ReLU激活函数进行特征提取进而得到特征和/>
S302、进行深度特征的提取,利用3D稀疏卷积,BatchNorm1d一维批归一化,ReLU激活函数将原始点云和伪点云的体素特征的维度扩大2倍,同时将特征图在X,Y,Z轴的大小分别压缩至原来的1/2,再使用2个3D子流形稀疏卷积,BatchNorm1d,ReLU激活函数进一步提取深层特征信息,我们将上述模块称为Block骨干网络特征提取模块,重复使用3次Block后,分别得到特征 进而再利用3D稀疏卷积,BatchNorm1d,ReLU激活函数将特征维度提高,获得最终提取到的高阶语义特征/>
5.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S5包括以下步骤:
S501、空间语义信息传播模块主要包括空间信息传播分支以及语义信息传播分支,先将经过空间信息传播分支提取特征,其由4个2D卷积,BatchNorm2d二维批归一化以及ReLU激活函数组成的模块构成,并在第1到第4个模块间使用SE压缩激励模块加入通道注意力信息,利用空间信息传播分支能够得到/>将/>再经过2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到/>
S502、将再经过语义信息传播分支提取特征,其也由4个2D卷积,BatchNorm2d以及ReLU激活函数模块构成,并且也在第1到第4个模块间使用SE模块加入通道注意力信息进而得到/>将/>经过1个2D卷积,BatchNorm2d以及ReLU激活函数组成的模块,得到/>再经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后与/>相加得到
S503、将经过一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块得到再将/>经过另一个2D反卷积,BatchNorm2d以及ReLU激活函数组成的模块后得到之后将/>及/>在特征维度进行拼接,得到经过空间语义信息传播模块后的特征
S504、将特征利用由2D卷积构成的分类、回归以及转向角的预测分支组成的区域候选网络得到第一阶段的候选框;
S505、在计算模型第一阶段的损失时主要分为三个部分:分类损失,定位损失,转向角损失。分类损失利用SigmoidFocalLoss带有Sigmoid的焦点损失函数计算,定位损失利用WeightedSmoothL1加权平滑L1损失函数计算,转向角损失利用WeightedCrossEntropy加权交叉熵损失函数计算,将这三种损失分配设定的权重进行加权求和从而得到第一阶段的损失Lrpn_loss
6.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S6包括以下步骤:
S601、感兴趣区域池化主要利用了S3中由3D卷积组成的骨干网络中提取到的原始点云特征以及伪点云特征/>首先对原始点云特征/> 进行处理,将第一阶段得到的候选框均匀的分成6*6*6个部分,每个部分的中心点作为网格点,利用不同的查询半径以及范围的大小对每个网格点采样/> 特征中对应的16个体素邻居,并聚合对应邻居体素的特征,进而得到/>同时,也将候选框均匀的分成4*4*4个部分,对伪点云特征/> 进行相同的处理操作,进而得到/>
S602、利用简单的PointNet点云特征提取网络分别对和/>进行多尺度的特征提取,最后将得到的多尺度特征分别使用最大池化后拼接,从而得到感兴趣区域池化后的特征/>和/>
7.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S7包括以下步骤:
S701、将和/>经过3个不同的MLP分别得到/>作为一个网格点跨注意机制模块的Q,K,V;再将/>和/>经过3个不同的MLP多层感知机分别得到作为另一个网格点跨注意机制模块的Q,K,V,然后对/>和/>分别利用多头注意力机制得到网格点间的联系,最后使用残差连接丰富特征信息,从而得到/>和/>
S702、将和/>分别经过由1D卷积,BatchNorm1d,ReLU激活函数组成的共享全连接层编码器将/>和/>的特征维度降低,进而得到特征/>和/>再将/>和/>在特征维度上进行拼接后分别送入到分类分支以及回归分支进行类别的预测及包围框的细化,进而得到最终的分类以及定位结果;
S703、在计算网络第二阶段的损失时,主要分为三个部分:分类损失、回归损失、中心损失。分类损失主要利用Binary Cross Entropy二元交叉熵函数进行计算,回归损失主要利用Smooth-L1进行计算,中心损失也主要使用Smooth-L1平滑L1损失函数进行计算,将这三部分进行加权求和从而得到第二阶段的损失Lrcnn_loss
8.根据权利要求1所述的基于语义传播和跨注意力机制的多模态3D目标检测方法,其特征在于,S8具体包括:在后处理的过程中主要利用了非最大值抑制NMS算法,设定大小合适的阈值将冗余的预测框剔除,从而得到模型最终的输出结果。
CN202311084859.0A 2023-08-28 2023-08-28 基于语义传播和跨注意力机制的多模态3d目标检测方法 Pending CN117173655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311084859.0A CN117173655A (zh) 2023-08-28 2023-08-28 基于语义传播和跨注意力机制的多模态3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311084859.0A CN117173655A (zh) 2023-08-28 2023-08-28 基于语义传播和跨注意力机制的多模态3d目标检测方法

Publications (1)

Publication Number Publication Date
CN117173655A true CN117173655A (zh) 2023-12-05

Family

ID=88932888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311084859.0A Pending CN117173655A (zh) 2023-08-28 2023-08-28 基于语义传播和跨注意力机制的多模态3d目标检测方法

Country Status (1)

Country Link
CN (1) CN117173655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523461A (zh) * 2024-01-08 2024-02-06 南京航空航天大学 一种基于机载单目相机的运动目标跟踪与定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486887A (zh) * 2021-06-30 2021-10-08 杭州飞步科技有限公司 三维场景下的目标检测方法和装置
CN113920499A (zh) * 2021-10-27 2022-01-11 江苏大学 一种面向复杂交通场景的激光点云三维目标检测模型及方法
CN115393601A (zh) * 2022-05-19 2022-11-25 湖南大学 一种基于点云数据的三维目标检测方法
CN115880333A (zh) * 2022-12-05 2023-03-31 东北大学 一种基于多模态信息融合的三维单目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486887A (zh) * 2021-06-30 2021-10-08 杭州飞步科技有限公司 三维场景下的目标检测方法和装置
CN113920499A (zh) * 2021-10-27 2022-01-11 江苏大学 一种面向复杂交通场景的激光点云三维目标检测模型及方法
CN115393601A (zh) * 2022-05-19 2022-11-25 湖南大学 一种基于点云数据的三维目标检测方法
CN115880333A (zh) * 2022-12-05 2023-03-31 东北大学 一种基于多模态信息融合的三维单目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOPEI WU, LIANG PENG, HONGHUI YANG, LIANG XIE, CHENXI HUANG, CHENGQI DENG, HAIFENG LIU, DENG CAI: "Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 24 June 2022 (2022-06-24), pages 5408 - 5417, XP034193538, DOI: 10.1109/CVPR52688.2022.00534 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523461A (zh) * 2024-01-08 2024-02-06 南京航空航天大学 一种基于机载单目相机的运动目标跟踪与定位方法
CN117523461B (zh) * 2024-01-08 2024-03-08 南京航空航天大学 一种基于机载单目相机的运动目标跟踪与定位方法

Similar Documents

Publication Publication Date Title
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Lai et al. Spherical transformer for lidar-based 3d recognition
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
AU2017324923A1 (en) Predicting depth from image data using a statistical model
KR20200060194A (ko) 차선들의 깊이값을 예측하는 방법, 3차원 차선들을 출력하는 방법 및 그 장치
EP3992908A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
CN115984494A (zh) 一种基于深度学习的月面导航影像三维地形重建方法
CN111027581A (zh) 一种基于可学习编码的3d目标检测方法及系统
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111696196A (zh) 一种三维人脸模型重建方法及装置
CN117173655A (zh) 基于语义传播和跨注意力机制的多模态3d目标检测方法
Maslov et al. Online supervised attention-based recurrent depth estimation from monocular video
CN113222033A (zh) 基于多分类回归模型与自注意力机制的单目图像估计方法
CN113344869A (zh) 一种基于候选视差的行车环境实时立体匹配方法及装置
CN113486887A (zh) 三维场景下的目标检测方法和装置
Yang et al. Development of a fast transmission method for 3D point cloud
CN115512319A (zh) 基于异构图网络的多模态协同检测方法及系统
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
CN110390336B (zh) 一种提高特征点匹配精度的方法
CN113808006B (zh) 一种基于二维图像重建三维网格模型的方法及装置
Yoon et al. Single image based three-dimensional scene reconstruction using semantic and geometric priors
CN110245553B (zh) 路面测距方法及装置
CN112652059B (zh) 基于Mesh R-CNN模型改进的目标检测与三维重构方法
CN117333627B (zh) 一种自动驾驶场景的重建与补全方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination