CN115937819A - 基于多模态融合的三维目标检测方法及系统 - Google Patents
基于多模态融合的三维目标检测方法及系统 Download PDFInfo
- Publication number
- CN115937819A CN115937819A CN202211487209.6A CN202211487209A CN115937819A CN 115937819 A CN115937819 A CN 115937819A CN 202211487209 A CN202211487209 A CN 202211487209A CN 115937819 A CN115937819 A CN 115937819A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- image
- dimensional
- fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000002708 enhancing effect Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000001965 increasing effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于多模态融合的三维目标检测方法及系统,其中方法包括下列步骤:S1、获取相机采集的图像数据;S2、获取激光雷达采集的原始的点云数据,并对点云进行降噪预处理;S3、将图像和点云的数据分别输入到训练后的相应网络中,获得对应的图像特征和点云特征;S4、将二维图像的图像特征映射到三维的点云空间坐标系;S5、将所述点云特征与映射后的图像特征进行级联,将其输入到自适应表现力增强融合模块,进行重新校准,得到加权后的融合特征;S6、将加权后的融合特征输入到检测输出网络,对目标进行边界框的生成,进而完成三维目标检测。本发明有效的抑制了不重要的特征表现,可以提升后续检测输出模块的3D目标检测的精度。
Description
技术领域
本发明属于自动驾驶环境感知技术领域,具体基于多模态融合的三维目标检测方法及系统。
背景技术
随着深度学习的快速发展,自动驾驶技术得到了巨大的推动力。作为自动驾驶感知技术的重要组成部分,三维目标检测为自动驾驶提供了基础条件,可为车辆路径规划和行为决策提供数据支持。自动驾驶需要对空间中的障碍物进行准确定位和检测,以避免复杂交通场景下的车辆事故。因此,如何通过不同的方式实现高精度、高效率的目标检测越来越受到研究人员的关注。多模态融合目标检测在复杂交通场景下表现良好,可以弥补不同信息的不足,实现各种传感器之间的信息互补,从而成为研究人员的研究热点。然而由于自动驾驶场景中会存在光照变化、目标遮挡等问题,现有的三维目标检测算法会受到很大干扰,因此会出现检测漏检、误检和检测精度低情况,而如何更好解决这些问题面临着很大的挑战。
发明内容
本发明的目的是提供基于多模态融合的三维目标检测方法,用于解决现有技术中由于自动驾驶场景中会存在光照变化、目标遮挡等问题,三维目标检测算法受到很大干扰,出现漏检、误检和检测精度低的技术问题。
所述的基于多模态融合的三维目标检测方法,包括下列步骤。
S1、获取相机采集的图像数据。
S2、获取激光雷达采集的原始的点云数据,并对点云进行降噪预处理。
S3、将图像和点云的数据分别输入到训练后的相应网络中,获得各自数据中目标的深度语义特征信息,即对应的图像特征和点云特征。
S4、将二维图像的图像特征映射到三维的点云空间坐标系。
S5、将所述点云特征与映射后的图像特征进行级联,将级联后的图像和点云特征输入到自适应表现力增强融合模块,对融合特征进行重新校准,将权重与原始对应通道相乘得到加权后的融合特征。
S6、将加权后的融合特征输入到检测输出网络,对目标进行边界框的生成,进而完成三维目标检测。
优选的,所述步骤S3包括:
S3.1、对被配置为点云的数据进行处理:使用PointNet网络作为点云特征提取的主干网络对输入的点云的数据进行特征提取。
S3.2、对被配置为图像的数据进行处理:使用MobileNetv2深度神经网络作为基础卷积层对输入的图像数据进行特征提取。
优选的,所述步骤S3.1具体包括:根据PointNet的直接坐标卷积法构造点云的输入特征层,并对原始数据坐标信息进行计算,得到输入特征图,再利用卷积神经网络完成对点云特征的提取。
所述步骤S3.2具体包括:模型使用已经训练好的MobileNetv2的前几层参数作为图像特征提取器的初始卷积核值,获得图像特征。
优选的,所述步骤S4具体包括:首先,给定点云鸟瞰图上的目标像素点i,并且提取K(一般选取十个点)个距离目标像素点最近的激光雷达点云j;然后我们将激光雷达点云j投影到相机前视图得到对应的相邻像素点xj;检索与目标像素点i相应的图像特征点xi;从各个相邻像素点xj到相机前视图上与图像特征点xi做差得到连续几何偏移xj-xi;最后,我们将相邻像素点xj对应的输入图像特征fj和连续几何偏移xj-xi输入BP神经网络以生成对应的映射到三维的点云空间坐标系的特征。
对于每个目标像素点i,BP神经网络通过对其所有相邻像素点xj的BP神经网络输出求和来输出其图像特征点xi映射到三维的点云空间坐标系的图像特征hi,公式如下。
其中,fj是对应激光雷达点云j的输入图像特征,xj-xi是从相邻像素点j到目标i在相机前视图上投影产生的几何偏移量,concat(·)是多个向量的串联。
优选的,所述步骤S5中,借助注意力机制构建了自适应表现力增强融合模块,采用自适应表现力增强融合模块来增强不同特征的表现力,重点关注重要特征,同时抑制非重要特征,具体包括:首先给定一个输入的图像和点云的级联特征,特征层的大小为H×W×C。通过最大池化操作后,将候选大小变为1×1;然后,第一个全连接层是用于将通道数减少到C/r,r是用于减少通道数从而减少计算量的缩放因子;接着使用ReLU激活函数,特征的维数保持不变;第二个全连接层是用于增加维数,通道数变回C;Sigmoid函数用于输出每个通道的权重;最后,对其进行特征重新校准,将权重与原始对应通道相乘,得到加权后的点云和图像的融合特征。
优选的,所述步骤S6包括:将加权后的融合特征输入到检测输出网络,并且经过区域提议网络RPN处理给对应的目标生成相应的边界框和边界框的相应的分数;对于生成的边界框我们利用自适应非极大值预测算法A-NMS处理,去除边界框中得分数较低的边界框,同时保留最大的得分的边界框作为最终目标检测的结果。
优选的,所述步骤S6中,A-NMS的详细步骤包括:根据分数对所有的边界框排序,选择得分最高的边界框,使用预定义的阈值抑制所有其他与得分最大的边界框有显着重叠的边界框;这个过程依次应用于剩下的边界框,并计算得分最高的边界框与其他候选区域的边界框的交并比IoU,交并比IoU是预测框和真值边界框之间的交集和并集的比率;A-NMS算法的计算公式如下。
其中,Si是比较和计算后的边界框得分,si为边界框的初始得分,M为得分最高的边界框,bi为当前边界框,IoU(M,bi)为M和bi之间的交并比,Ni、Nt均为阈值。
如果当前边界框bi与得分最高的边界框M之间的得分IoU(M,bi)<Nt,则去除边界框bi;如果Ni<IoU(M,bi)<Nt,则边界框bi将被赋予IoU(M,bi)惩罚比的权重作为惩罚因子与原始分数相结合;如果IoU(M,bi)<Ni,则表示bi和M的重叠很小,则不对边界框bi去除,保持原来的分数。
本发明还提供了基于多模态融合的三维目标检测系统,包括单目相机、激光雷达和相机和数据处理单元,所述数据处理单元连接单目相机、激光雷达获取数据,所述单目相机实时采集视角前方的图像,并发送给数据处理单元;同时激光雷达通过扫描构建环境中的点云图,并发送给数据处理单元;数据处理单元执行自身存储的计算机程序实现如前所述的基于多模态融合的三维目标检测方法的步骤以提取前方的目标。
优选的,所述数据处理单元包括。
点云特征提取模块,集成有训练好的PointNet网络模型并用于对被配置为点云的数据进行处理,获得点云特征。
图像特征提取模块,集成有训练好的MobileNetv2网络模型并用于对被配置为图像的数据进行处理,获得图像特征。
空间变换模块,用于将二维图像特征映射到三维点云的特征空间。
自适应表现力增强融合模块,用于将点云特征与图像特征进行级联,对级联后的图像和点云特征进行重新校准,增强不同特征的表现力,再将权重与原始对应通道相乘得到加权后的融合特征。
检测输出模块,用于将图像和点云的融合特征输入到区域提议网络RPN中,对目标进行边界框的生成,使用非极大值抑制算法A-NMS对多余的边界框去除,获得三维目标检测的最终边界框,进而完成三维目标检测。
本发明具有以下优点:
1.本发明借助注意力机制构建了自适应表现力增强融合模块,来处理点云和图像的级联特征,以达到融合级联特征的目的。由于注意力机制可以增强不同特征的重要性,而融合特征中有些特征并不重要,我们可以赋予较小的权重,而重要的特征则赋予较大的权重,因此经过自适应表现了增强融合后可以输出不同权重的融合特征,有效的抑制了不重要的特征表现,可以提升后续检测输出模块的3D目标检测的精度。
2.因此本发明能利用相机和激光雷达获得的数据进行有效的环境感知,对于复杂交通环境场景下,本方法仍然可以对于环境中的目标进行检测,保证车辆驾驶的安全性和稳定性。本发明充分利用传感器之间互补的优点,通过将缺乏深度信息的图像和不具有颜色和纹理信息的点云进行特征融合,避免单一传感器进行目标检测存在的缺陷。
3.本发明使用空间变换投影算法将二维图像特征映射到三维点云鸟瞰图特征,并将所获得的特征与点云鸟瞰图特征级联,输入到自适应表现力增强融合模块,增加重要的特征的权重,降低不明显特征的重要性。而对于检测输出网络来说,A-NMS算法可以有效的降低三维目标的漏检和误检情况。
附图说明
图1为本发明中基于多模态融合的三维目标检测方法的基本流程图。
图2为本发明中空间变换模块提供的空间变换投影算法的示意图。
图3为本发明提供的自适应表现力增强融合模块的示意图。
图4为本发明中基于多模态融合的三维目标检测系统的系统结构示意图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
实施例一:
如图1-4所示,本发明提供了基于多模态融合的三维目标检测方法,包括下列步骤。
S1、获取相机采集的图像数据。
S2、获取激光雷达采集的原始的点云数据,并对点云进行降噪预处理。
S3、将图像和点云的数据分别输入到训练后的相应网络中,获得各自数据中目标的深度语义特征信息,即对应的图像特征和点云特征。
该步骤包括对被配置为点云的数据进行处理和对被配置为图像的数据进行处理两个部分。
S3.1、对被配置为点云的数据进行处理:使用PointNet网络作为点云特征提取的主干网络对输入的点云的数据进行特征提取;根据PointNet的直接坐标卷积法构造点云的输入特征层,并对原始数据坐标信息进行计算,得到输入特征图,再利用卷积神经网络完成对点云特征的提取。
S3.2、对被配置为图像的数据进行处理:使用MobileNetv2深度神经网络作为基础卷积层对输入的图像数据进行特征提取;为了防止网络一开始就训练图像特征提取器的网络参数,模型使用已经训练好的MobileNetv2的前几层参数作为图像特征提取器的初始卷积核值,以节省训练时间,同时可以更快速的对图像特征进行提取,获得图像特征。
S4、将二维图像的图像特征映射到三维的点云空间坐标系。
由于点云特征和图像特征处于不同的维度,我们需要通过空间变换模块将二维图像特征映射到三维点云的特征空间,为后续在三维空间中对图像特征和点云特征进行级联做准备。
该步骤具体包括:首先,给定点云鸟瞰图上的目标像素点i,并且提取K(一般选取十个点)个距离目标像素点最近的激光雷达点云j;然后我们将激光雷达点云j投影到相机前视图得到对应的相邻像素点xj;检索与目标像素点i相应的图像特征点xi;从各个相邻像素点xj到相机前视图上与图像特征点xi做差得到连续几何偏移xj-xi;最后,我们将相邻像素点xj对应的输入图像特征fj和连续几何偏移xj-xi输入BP神经网络以生成对应的映射到三维的点云空间坐标系的特征。
根据激光雷达点云和目标像素点i之间的邻近偏移在所述图像特征上进行编码,以模拟点云之间的依赖关系。每个目标像素点i都为所述BP神经网络提供输入,对于每个目标像素点i,BP神经网络通过对其所有相邻像素点xj的BP神经网络输出求和来输出其图像特征点xi映射到三维的点云空间坐标系的图像特征hi,公式如下。
其中,fj是对应激光雷达点云j的输入图像特征,xj-xi是从相邻像素点j到目标i在相机前视图上投影产生的几何偏移量,concat(·)是多个向量的串联。
S5、将所述点云特征与映射后的图像特征进行级联,通过自适应表现力增强融合模块对级联后的图像和点云特征进行重新校准,再将权重与原始对应通道相乘得到加权后的融合特征。
该步骤中,主要借助注意力机制构建了自适应表现力增强融合模块,来处理点云和图像的级联特征,以达到融合级联特征的目的。采用自适应表现力增强融合模块来增强不同特征的表现力,重点关注重要特征,同时抑制非重要特征,经过自适应表现力增强融合模块的加权运算后,输出不同权重的图像和点云的融合特征。
具体来说:首先给定一个输入的图像和点云的级联特征,特征层的大小为H×W×C。通过最大池化操作后,将候选大小变为1×1。然后,第一个全连接层是用于将通道数减少到C/r,r是用于减少通道数从而减少计算量的缩放因子。接着使用ReLU激活函数,特征的维数是保持不变。第二个全连接层是用于增加维数,通道数变回C;Sigmoid函数用于输出每个通道的权重;最后,对其进行特征重新校准,将权重与原始对应通道相乘,得到加权后的点云和图像的融合特征。
S6、将加权后的融合特征输入到检测输出网络,对目标进行边界框的生成,进而完成三维目标检测。
该步骤具体包括:将加权后的融合特征输入到检测输出网络,并且经过区域提议网络RPN处理给对应的目标生成相应的边界框和边界框的相应的分数。由于每个目标在候选区域中生成的边界框的数量很多,对于生成的边界框我们利用自适应非极大值预测算法A-NMS处理,去除边界框中得分数较低的边界框,同时保留最大的得分的边界框作为最终目标检测的结果。检测的目标包括:汽车、行人和骑自行车的人。
A-NMS的详细步骤是:它根据分数对所有的边界框排序,选择得分最高的边界框,使用预定义的阈值抑制所有其他与得分最大的边界框有显着重叠的边界框。这个过程依次应用于剩下的边界框,并计算得分最高的边界框与其他候选区域的边界框的交并比IoU,交并比IoU是预测框和真值边界框之间的交集和并集的比率。A-NMS算法的计算公式如下:
其中,Si是比较和计算后的边界框得分,si为边界框的初始得分,M为得分最高的边界框,bi为当前边界框,IoU(M,bi)为M和bi之间的交并比,Ni、Nt均为阈值。
如果当前边界框bi与得分最高的边界框M之间的得分IoU(M,bi)<Nt,则去除边界框bi;如果Ni<IoU(M,bi)<Nt,则边界框bi将被赋予IoU(M,bi)惩罚比的权重作为惩罚因子与原始分数相结合;如果IoU(M,bi)<Ni,则表示bi和M的重叠很小,则不对边界框bi去除,保持原来的分数。这种方法可以降低IoU(M,bi)小于Ni的边界框中目标的漏检和误检概率。
实施例二:
如图1-4所示,本发明实施例还提供了基于多模态融合的三维目标检测系统,包括单目相机、激光雷达和相机和数据处理单元,所述数据处理单元连接单目相机、激光雷达获取数据,所述单目相机实时采集视角前方的图像,并发送给数据处理单元;同时激光雷达通过扫描构建环境中的点云图,并发送给数据处理单元;数据处理单元执行自身存储的计算机程序实现实施例一所述的基于多模态融合的三维目标检测方法的步骤以提取前方的目标,所述步骤包括。
S1、获取相机采集的图像数据。
S2、获取激光雷达采集的原始的点云数据,并对点云进行降噪预处理。
S3、将图像和点云的数据分别输入到训练后的相应网络中,获得各自数据中目标的深度语义特征信息,即对应的图像特征和点云特征。
S4、将二维图像的图像特征映射到三维的点云空间坐标系。
S5、将所述点云特征与映射后的图像特征进行级联,通过自适应表现力增强融合模块对级联后的图像和点云特征进行重新校准,再将权重与原始对应通道相乘得到加权后的融合特征。
S6、将加权后的融合特征输入到检测输出网络,对目标进行边界框的生成,进而完成三维目标检测。
上述各步骤的具体限定可以参见实施例一,在此不再做详细说明。
所述数据处理单元可以集成到整车控制系统中,包括下列模块:点云特征提取模块、图像特征提取模块、空间变换投影模块、自适应表现力增强融合模块和检测输出模块。
所述点云特征提取模块:集成有训练好的PointNet网络模型对被配置为点云的数据进行处理。使用PointNet网络作为点云特征提取的主干网络对输入的点云的数据进行特征提取,根据PointNet的直接坐标卷积法构造点云的输入特征层,并对原始数据坐标信息进行计算,得到输入特征图,再利用卷积神经网络完成对点云的特征提取。
所述图像特征提取模块:集成有训练好的MobileNetv2网络模型对被配置为图像的数据进行处理,使用MobileNetv2深度神经网络作为基础卷积层对输入的图像数据进行特征提取。为了防止网络一开始就训练图像特征提取器的网络参数,模型使用已经训练好的MobileNetv2的前几层参数作为图像特征提取器的初始卷积核值,以节省训练时间,同时可以更快速的对图像特征进行提取,获得图像特征。
所述空间变换模块:由于点云特征和图像特征处于不同的维度,我们的空间变换模块可以将二维图像特征映射到三维点云的特征空间,为后续在三维空间中进行图像特征和点云的特征进行级联做准备。
所述自适应表现力增强融合模块:将点云特征提取网络提取的点云特征与空间变换模块映射后的图像特征进行级联,得到级联的图像和点云特征。采用自适应表现力增强融合模块来增强不同特征的表现力,重点关注重要特征,同时抑制重要的特征。经过自适应表现力增强融合模块的加权运算后,输出不同权重的图像和点云的融合特征图。
所述检测输出模块:将级联的图像和点云的融合特征输入到区域提议网络RPN中,对目标进行边界框的生成。由于不同的目标会生成很多的边界框,使用非极大值抑制算法A-NMS对多余的边界框去除,获得三维目标检测的最终边界框,进而完成三维目标检测。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。
Claims (9)
1.基于多模态融合的三维目标检测方法,其特征在于:包括下列步骤:
S1、获取相机采集的图像数据;
S2、获取激光雷达采集的原始的点云数据,并对点云进行降噪预处理;
S3、将图像和点云的数据分别输入到训练后的相应网络中,获得各自数据中目标的深度语义特征信息,即对应的图像特征和点云特征;
S4、将二维图像的图像特征映射到三维的点云空间坐标系;
S5、将所述点云特征与映射后的图像特征进行级联,将级联后的图像和点云特征输入到自适应表现力增强融合模块,对融合特征进行重新校准,将权重与原始对应通道相乘得到加权后的融合特征;
S6、将加权后的融合特征输入到检测输出网络,对目标进行边界框的生成,进而完成三维目标检测。
2.根据权利要求1所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S3包括:
S3.1、对被配置为点云的数据进行处理:使用PointNet网络作为点云特征提取的主干网络对输入的点云的数据进行特征提取;
S3.2、对被配置为图像的数据进行处理:使用MobileNetv2深度神经网络作为基础卷积层对输入的图像数据进行特征提取。
3.根据权利要求2所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S3.1具体包括:根据PointNet的直接坐标卷积法构造点云的输入特征层,并对原始数据坐标信息进行计算,得到输入特征图,再利用卷积神经网络完成对点云特征的提取;
所述步骤S3.2具体包括:模型使用已经训练好的MobileNetv2的前几层参数作为图像特征提取器的初始卷积核值,获得图像特征。
4.根据权利要求1所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S4具体包括:首先,给定点云鸟瞰图上的目标像素点i,并且提取K(一般选取十个点)个距离目标像素点最近的激光雷达点云j;然后我们将激光雷达点云j投影到相机前视图得到对应的相邻像素点xj;检索与目标像素点i相应的图像特征点xi;从各个相邻像素点xj到相机前视图上与图像特征点xi做差得到连续几何偏移xj-xi;最后,我们将相邻像素点xj对应的输入图像特征fj和连续几何偏移xj-xi输入BP神经网络以生成对应的映射到三维的点云空间坐标系的特征;
对于每个目标像素点i,BP神经网络通过对其所有相邻像素点xj的BP神经网络输出求和来输出其图像特征点xi映射到三维的点云空间坐标系的图像特征hi,公式如下,
其中,fj是对应激光雷达点云j的输入图像特征,xj-xi是从相邻像素点j到目标i在相机前视图上投影产生的几何偏移量,concat(·)是多个向量的串联。
5.根据权利要求1所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S5中,借助注意力机制构建了自适应表现力增强融合模块,采用自适应表现力增强融合模块来增强不同特征的表现力,重点关注重要特征,同时抑制非重要特征,具体包括:首先给定一个输入的图像和点云的级联特征,特征层的大小为H×W×C。通过最大池化操作后,将候选大小变为1×1;然后,第一个全连接层是用于将通道数减少到C/r,r是用于减少通道数从而减少计算量的缩放因子;接着使用ReLU激活函数,特征的维数保持不变;第二个全连接层是用于增加维数,通道数变回C;Sigmoid函数用于输出每个通道的权重;最后,对其进行特征重新校准,将权重与原始对应通道相乘,得到加权后的点云和图像的融合特征。
6.根据权利要求1所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S6包括:将加权后的融合特征输入到检测输出网络,并且经过区域提议网络RPN处理给对应的目标生成相应的边界框和边界框的相应的分数;对于生成的边界框我们利用自适应非极大值预测算法A-NMS处理,去除边界框中得分数较低的边界框,同时保留最大的得分的边界框作为最终目标检测的结果。
7.根据权利要求6所述的基于多模态融合的三维目标检测方法,其特征在于:所述步骤S6中,A-NMS的详细步骤包括:根据分数对所有的边界框排序,选择得分最高的边界框,使用预定义的阈值抑制所有其他与得分最大的边界框有显着重叠的边界框;这个过程依次应用于剩下的边界框,并计算得分最高的边界框与其他候选区域的边界框的交并比IoU,交并比IoU是预测框和真值边界框之间的交集和并集的比率;A-NMS算法的计算公式如下:
其中,Si是比较和计算后的边界框得分,si为边界框的初始得分,M为得分最高的边界框,bi为当前边界框,IoU(M,bi)为M和bi之间的交并比,Ni、Nt均为阈值;
如果当前边界框bi与得分最高的边界框M之间的得分IoU(M,bi)<Nt,则去除边界框bi;如果Ni<IoU(M,bi)<Nt,则边界框bi将被赋予IoU(M,bi)惩罚比的权重作为惩罚因子与原始分数相结合;如果IoU(M,bi)<Ni,则表示bi和M的重叠很小,则不对边界框bi去除,保持原来的分数。
8.基于多模态融合的三维目标检测系统,其特征在于:包括单目相机、激光雷达和相机和数据处理单元,所述数据处理单元连接单目相机、激光雷达获取数据,所述单目相机实时采集视角前方的图像,并发送给数据处理单元;同时激光雷达通过扫描构建环境中的点云图,并发送给数据处理单元;数据处理单元执行自身存储的计算机程序实现根据权利要求1-7中任一所述的基于多模态融合的三维目标检测方法的步骤以提取前方的目标。
9.根据权利要求8所述的基于多模态融合的三维目标检测系统,其特征在于:所述数据处理单元包括:
点云特征提取模块,集成有训练好的PointNet网络模型并用于对被配置为点云的数据进行处理,获得点云特征;
图像特征提取模块,集成有训练好的MobileNetv2网络模型并用于对被配置为图像的数据进行处理,获得图像特征;
空间变换模块,用于将二维图像特征映射到三维点云的特征空间;
自适应表现力增强融合模块,用于将点云特征与图像特征进行级联,对级联后的图像和点云特征进行重新校准,增强不同特征的表现力,再将权重与原始对应通道相乘得到加权后的融合特征;
检测输出模块,用于将图像和点云的融合特征输入到区域提议网络RPN中,对目标进行边界框的生成,使用非极大值抑制算法A-NMS对多余的边界框去除,获得三维目标检测的最终边界框,进而完成三维目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487209.6A CN115937819A (zh) | 2022-11-24 | 2022-11-24 | 基于多模态融合的三维目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487209.6A CN115937819A (zh) | 2022-11-24 | 2022-11-24 | 基于多模态融合的三维目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115937819A true CN115937819A (zh) | 2023-04-07 |
Family
ID=86555041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211487209.6A Pending CN115937819A (zh) | 2022-11-24 | 2022-11-24 | 基于多模态融合的三维目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115937819A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129365A (zh) * | 2023-04-18 | 2023-05-16 | 天津美腾科技股份有限公司 | 输送设备上颗粒物料的检测方法和系统 |
CN116501908A (zh) * | 2023-05-16 | 2023-07-28 | 哈尔滨工程大学 | 一种基于特征融合可学习图注意力网络的图像检索方法 |
CN117152330A (zh) * | 2023-07-10 | 2023-12-01 | 中国地质大学(武汉) | 一种基于深度学习的点云3d模型贴图方法和装置 |
CN117690079A (zh) * | 2023-12-05 | 2024-03-12 | 合肥雷芯智能科技有限公司 | 一种基于图像融合的安防警戒系统及目标检测方法 |
CN118298416A (zh) * | 2024-03-13 | 2024-07-05 | 南京航空航天大学 | 一种基于时序建模的多模态3d目标检测方法 |
WO2024217115A1 (zh) * | 2023-04-21 | 2024-10-24 | 长安大学 | 基于多模态融合与深度注意力机制的三维目标检测方法 |
-
2022
- 2022-11-24 CN CN202211487209.6A patent/CN115937819A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129365A (zh) * | 2023-04-18 | 2023-05-16 | 天津美腾科技股份有限公司 | 输送设备上颗粒物料的检测方法和系统 |
CN116129365B (zh) * | 2023-04-18 | 2023-08-15 | 天津美腾科技股份有限公司 | 输送设备上颗粒物料的检测方法和系统 |
WO2024217115A1 (zh) * | 2023-04-21 | 2024-10-24 | 长安大学 | 基于多模态融合与深度注意力机制的三维目标检测方法 |
CN116501908A (zh) * | 2023-05-16 | 2023-07-28 | 哈尔滨工程大学 | 一种基于特征融合可学习图注意力网络的图像检索方法 |
CN116501908B (zh) * | 2023-05-16 | 2024-04-26 | 哈尔滨工程大学 | 一种基于特征融合可学习图注意力网络的图像检索方法 |
CN117152330A (zh) * | 2023-07-10 | 2023-12-01 | 中国地质大学(武汉) | 一种基于深度学习的点云3d模型贴图方法和装置 |
CN117152330B (zh) * | 2023-07-10 | 2024-05-28 | 中国地质大学(武汉) | 一种基于深度学习的点云3d模型贴图方法和装置 |
CN117690079A (zh) * | 2023-12-05 | 2024-03-12 | 合肥雷芯智能科技有限公司 | 一种基于图像融合的安防警戒系统及目标检测方法 |
CN118298416A (zh) * | 2024-03-13 | 2024-07-05 | 南京航空航天大学 | 一种基于时序建模的多模态3d目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115937819A (zh) | 基于多模态融合的三维目标检测方法及系统 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN110659664B (zh) | 一种基于ssd的高精度识别小物体的方法 | |
JP7556142B2 (ja) | 点群からの効率的な三次元物体検出 | |
EP3992908A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN111292369A (zh) | 激光雷达的伪点云数据生成方法 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN115909268A (zh) | 一种动态障碍物检测方法及装置 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN117542045B (zh) | 一种基于空间引导自注意力的食品识别方法及系统 | |
CN117689906A (zh) | 一种基于3d提示信息的彩色和深度图像单目标跟踪算法 | |
CN115731517A (zh) | 一种基于Crowd-RetinaNet网络的拥挤人群检测方法 | |
Song et al. | CNN-based object detection and distance prediction for autonomous driving using stereo images | |
CN113569803A (zh) | 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及系统 | |
CN114266900B (zh) | 一种基于动态卷积的单目3d目标检测方法 | |
CN118584465B (zh) | 基于雷视融合的三维空间占据与目标检测的系统及方法 | |
CN118608759A (zh) | 4d毫米波雷达三维目标检测方法及系统 | |
CN117789193A (zh) | 基于二次增强的多模态数据融合3d目标检测方法 | |
CN118799727A (zh) | 一种基于双向融合的多模态激光雷达点云目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |