CN115082674A - 基于注意力机制的多模态数据融合三维目标检测方法 - Google Patents

基于注意力机制的多模态数据融合三维目标检测方法 Download PDF

Info

Publication number
CN115082674A
CN115082674A CN202210816612.2A CN202210816612A CN115082674A CN 115082674 A CN115082674 A CN 115082674A CN 202210816612 A CN202210816612 A CN 202210816612A CN 115082674 A CN115082674 A CN 115082674A
Authority
CN
China
Prior art keywords
point cloud
layer
dimensional
dimensional target
cloud data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210816612.2A
Other languages
English (en)
Other versions
CN115082674B (zh
Inventor
朱虎明
李佳昌
杨贵鹏
惠少雄
王光磊
王金成
田小林
侯彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210816612.2A priority Critical patent/CN115082674B/zh
Publication of CN115082674A publication Critical patent/CN115082674A/zh
Application granted granted Critical
Publication of CN115082674B publication Critical patent/CN115082674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于注意力机制的多模态数据融合三维目标检测方法,实现步骤为:建立训练和测试样本集并对数据进行预处理;构建基于注意力机制的多模态数据融合三维目标检测网络;定义基于注意力机制的多模态数据融合三维目标检测网络的损失函数;对网络模型进行迭代训练;获取三维目标的检测结果。本发明利用特征学习网络,初步提取出一些候选区域,然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合,充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息,减小了误差累积,进而提高了局部空间出现多个目标时的检测精度。

Description

基于注意力机制的多模态数据融合三维目标检测方法
技术领域
本发明属于机器视觉和自动驾驶技术领域,涉及一种目标检测方法,具体涉及一种基于注意力机制的多模态数据融合三维目标检测方法,可应用于自动驾驶、机器人、AR和VR等领域。
背景技术
随着车载传感器设备的不断迭代,传统的二维目标检测已经无法满足自动驾驶等应用场景。为了增强自动驾驶车辆的环境感知和定位能力,需要三维目标检测算法检测出环境中物体的空间信息,比如物体在空间中的位置、以及物体的长、宽、高和旋转角等信息。三维目标检测算法需要更多类型的传感器信息来提高检测精度,其中常用的传感器主要是激光雷达和相机。然而,不同的传感器获取的信息形式不同、优缺点不同。激光点云包含精确的空间距离信息,但是数据无序和稀疏,纹理和颜色信息不足,受雨雾天气的影响大;图像具有高分辨率像素和丰富的纹理,但是无法获取物体之间的精确距离,受光线影响大。因此,为了提高三维目标检测算法精度,一般会采用多模态数据融合的方式来提高算法对周围环境的感知能力。
多模态数据融合,也就是对相同场景下,不同传感器数据进行信息的映射拼接。通常会根据多传感器数据融合时机、融合方法的不同,将数据融合方法分为数据融合、特征融合和结果融合,这类方法又被统称为强融合。另外,还有一些方法仅仅是借助于其它模态数据微弱的数据优势来增补自身数据缺陷,这类方法被称为弱融合。如何有效的融合激光雷达和相机之间的数据,达到取长补短的效果,得到更可靠的检测结果,是自动驾驶技术中的难点之一。
虽然目前的一些多传感器融合算法虽然在一定程度上提高了三维目标检测的平均检测精度,但并没有充分利用不同模态数据的特征信息,甚至会带来定位不准确的问题。如Sindagi等人于2019年在International Conference on Robotics and Automation发表的论文“MVX-Net:Multimodal VoxelNet for 3D Object Detection”中,公开了一种点云数据和图像融合的三维目标检测方法。该方法利用标定矩阵将图像信息和原始点云数据进行融合,用设计好的特征提取网络对融合信息进行特征提取,有效的提高了模型的三维目标检测精度。但该方法将图像中的所有像素不加区分的和点云数据进行融合,融合过程粗糙,容易产生误差累积,在局部空间出现多个目标时会出现分类置信度和定位不一致的问题,从而导致模型的三维目标检测精度较低。
发明内容
本发明的目的在于克服现有技术存在的不足,提出了一种基于多传感器融合三维目标检测方法,用于解决现有技术中存在的局部空间出现多个目标时检测精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集E1和测试样本集E2
从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据,并对每个点云数据进行预处理,然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1,将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2,其中,T≥5000,T1>T2,T1+T2=T;
(2)基于注意力机制的多模态数据融合三维目标检测网络:
(2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构:
构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D,其中,点云特征学习模块,包括顺次连接的三维稀疏卷积网络和区域回归网络;基于Transformer的特征提取模块,包括顺次连接的编码器和解码器;
(2b)定义三维目标检测网络D的损失函数L:
定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L:
L=Lconf+Lrpn
(3)对三维目标检测网络D进行迭代训练:
(3a)初始化迭代次数为r,最大迭代次数为R,当前三维目标检测网络模型为Dr的权值参数为θr,并令r=1,Dr=D;
(3b)从训练样本集E1中无放回的随机选取B个训练样本作为网络模型Dr的输入进行前向传播,实现步骤为:
(3b1)将训练样本集E1作为三维目标检测网络Dr的输入,点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习,点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成,得到共包含T1个点云数据的S个候选区域
Figure BDA0003740910680000031
且每个候选区域至少包含一个点云数据,其中S≥1000,
Figure BDA0003740910680000032
Figure BDA0003740910680000033
分别表示每个候选区域的中心点坐标值,lrpn、wrpn和hrpn分别表示每个候选区域的长、宽和高,θrpn表示每个候选区域的旋转角度值;
(3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息,进行多模态数据拼接,得到N个融合后的点云数据P={pi,Δpi c,Δpi j,fi},i=1,2,…,n,其中pi表示候选区域中的n个点,Δpi c表示候选区域中的每个点到候选区域中心点的距离、Δpi j表示候选区域中的每个点到八个角点的距离,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;
(3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取,得到P的点云特征;解码器对P的点云特征进行通道加权解码,得到T1个点云数据中的预测三维目标框xpre={xpre,ypre,zpre,lpre,wpre,hpre}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir;
(3c)采用三维目标检测网络D的损失函数L,并根据置信度概率c计算置信度损失值Lconf,根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率dir计算三维目标损失值Lrpn,然后采用随机梯度下降法,通过计算三维目标检测网络D的Lconf与Lrpn的和对权值参数θr的偏导数,对θr进行更新,得到本次迭代的三维目标检测网络模型Dr
(3d)判断r=R是否成立,若是,得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*,否则令r=r+1,Dr=D,并执行步骤(3b);
(4)获取三维目标的检测结果:
将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*的输入进行前向传播,得到每个测试样本的三维目标检测结果,包括每个测试样本中的预测三维目标框xpre、以及三维目标框对应的角度值θpre和目标类别。
本发明与现有技术相比,具有以下优点:
第一,本发明首先利用特征学习网络,初步提取出一些候选区域,然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合,充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息,避免现有技术因采用所有像素与点云数据进行融合容易产生误差累积的缺陷,在的局部空间出现多个目标时能够有效提高三维目标的检测精度。
第二,本发明使用Transformer编解码的方式,该编解码方式具有强大的特征提取能力,由于该方式的self-attention结构能适应各种不同类型的数据,使其在多模态融合方面表现更好。
附图说明
图1是本发明的实现流程图;
图2是本发明三维目标检测网络的结构示意图。
具体实施方式
以下结合附图和具体实施例,对本发明进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集E1和测试样本集E2
从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据,并对每个点云数据进行预处理,对每个点云数据进行预处理,去噪处理时,将高度超过4.2米的点云数据定义为噪声数据;对点云数据进行随机水平翻转,随机种子设置为688,降采样过程中,设置最少点的个数为1000;然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1,将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2,其中,W=1224,H=370,N=10000,K=4,T1=7481,T2=7518,T=14999;
本实例中,采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作的KITTI数据集,包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,共包含80256个标记的目标,还有各种程度的遮挡与截断;标注数据中第一维数据表示类别、第二维数据代表是否为截断图像,第三维数据用四个数字代表遮挡的程度,分别代表完全可见、部分遮挡、大范围遮挡和未知;数据集的公开部分被划分为训练集和测试集,其中训练集和测试集分别包含7481幅RGB图像和对应场景下的点云数据、7518幅RGB图像和对应场景下的点云数据。
步骤2)基于注意力机制的多模态数据融合的三维目标检测网络:
步骤2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构:
构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D,其中,点云特征学习模块,包括顺次连接的三维稀疏卷积网络和区域回归网络;基于Transformer的特征提取模块,包括顺次连接的编码器和解码器;Transformer的整体架构可以分为四个模块:输入模块、编码模块、解码模块和输出模块,而编码器模块一般由N个编码器层堆叠而成。
点云特征学习模块,其所包含的三维稀疏卷积网络包括顺次连接的8个三维稀疏卷积结构;每个三维稀疏卷积结构包括顺次连接的子流形三维稀疏卷积层、批量规范化层和Relu激活层;区域回归网络包括顺次连接的4个复合层和2个全连接层,每个复合层包括顺次连接的三维稀疏卷积层、归一化层和Relu激活层,2个全连接层连接在第4复合层的输出端;4复合层中的卷积层的卷积核大小均为3,卷积核个数均为256,第1卷积层的卷积步长为2,第2、第3、第4卷积层的卷积步长均为1;
多模态数据融合模块,首先对每个候选区域RPN内所有点云数据中的点使用最远点采样方法,在实验设置中采样点数量是256,如果少于这个阈值就不进行采样;然后将图像中的像素色彩信息添加到点云上,具体来说,通过空间转换矩阵将候选框中的所有点映射到图像中去,得到对应点的RGB通道值采样后的点与其对应的RGB图像信息;
对于KITTI官网下载到的所有数据集合,都可以找到包含相机内参、外参的校正文件;下面展示了校正文件"calib_velo_to_cam.txt“的部分内容,表明了激光雷达和左摄像头的相对位置关系;calib_time:15-Mar-201211:37:16R:7.533745e-03-9.999714e-01-6.166020e-04 1.480249e-027.280733e-04-9.998902e-01 9.998621e-01 7.523790e-031.480755e-02T:-4.069766e-03-7.631618e-02-2.717806e-01;矩阵R和向量T提供给我们了相机的外参。当然,为了完成三维点云到相机图像的映射,我们还需要相机的内参。它们保存在"calib_cam_to_cam.txt"文件中,相关内容如下:calib_time:09-Jan-2012 13:57:47;R_rect_00:9.999239e-01 9.837760e-03-7.445048e-03-9.869795e-03 9.999421e-01-4.278459e-03 7.402527e-03 4.351614e-03 9.999631e-01;P_rect_00:7.215377e+020.000000e+006.095593e+02 0.000000e+00 0.000000e+00 7.215377e+02 1.728540e+020.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00 0.000000e+00;矩阵R_rect_00是一个3*3的修正旋转矩阵,用于使相机图像共面,例如,对齐立体视觉平台的多个摄像头,对于这辆KITTI数据采集车,有两部摄像头,这可以通过将左侧摄像头的一行像素直接对齐右侧摄像头的另一行像素,而不是两条在两个相机平面交叉的倾斜直线。由于我们当前主要考虑MONO单通道相机,因此我们将不再深究上述对齐操作的基础理论——但是如果你对此比较感兴趣,可以搜索对极几何epipolar geometry获取更多相关内容。矩阵P_rect_00则包含了相机的内参,我们称之为KK。下列公式展示了如何使用齐次坐标系将KITTI数据集中的激光雷达3D点云X映射到左侧相机的2D相机图像点Y,这里使用了Kittireadme文件中的符号。
Y=P_rect_xx*R_rect_00*(R|T)_velo_to_cam*X
要实现将KITTI数据集中的点云X映射到相机的2D相机图像点Y上,在程序中主要执行以下几步:遍历获取激光雷达点云信息时,将每个3D点转换为齐次坐标,并存入4D变量X中;应用映射公式,将X映射到相机的图像平面,并将结果存储到变量Y中;将变量Y从齐次坐标系转换回欧几里得坐标系,从而得到对应的图像中的像素位置,并将结果存入点云数据P中。
计算候选区域中的每个点到候选区域中心点的距离,用Δpi c=pi-pc表示,pi表示候选区域点的坐标,pc表示候选区域中心点的坐标,然后计算候选区域内每个采样点到候选区域中心点的距离;计算候选区域采样点到候选区域八个角点的距离,用Δpi j=pi-pj,j=1,2,…,8表示,pj表示候选区域的八个角点的坐标;进行多模态数据拼接后得到融合后的点云数据
P={pi,Δpi c,Δpi j,fi},(i=1,2,…,n),其中pi表示候选区域中的n个点,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;
基于Transformer的特征提取模块,其所包含的编码器包括3个堆叠的特征编码模块,每个特征编码模块包括2个线性层、3个Dropout层和2个归一化层,具体结构为:第1线性层—>第1Dropout层—>第2线性层—>第1归一化层—>第2归一化层—>第2Dropout层—>第3Dropout层;第1线性层的输入、输出通道数分别为256和512,第2线性层的输入、输出通道数分别为512和256,归一化层的输入维度均为256,每个Dropout层的概率值均为0.1;
基于Transformer的特征提取模块,其所包含的解码器包含3个卷积层、3个线性层、3个Dropout层和4个归一化层;3个卷积层的输入维度均为256,卷积核均为1,步长均为1;第1线性层的输入、输出维度分别为64、1,第2线性层的输入、输出维度分别为256、512,第3线性层的输入、输出维度分别为512、256;3个Dropout层的概率值均为0.1;4个归一化层的输入维度都为256;该解码器的具体结构为:第1卷积层—>第2卷积层—>第3卷积层—>第1线性层—>第2线性层—>第1Dropout层—>第3线性层—>第1归一化层—>第2归一化层—>第3归一化层—>第2Dropout层—>第3Dropout层—>第4归一化层。
步骤2b)定义三维目标检测网络D的损失函数L:
三维目标检测网络D的损失函数L为三维目标的置信度损失Lconf和三维目标损失Lrpn的和,公式如下所示。其中分类损失使用的是focal loss公式,focal loss是最初由何恺明提出的,最初用于图像领域解决数据不平衡造成的模型性能问题;
L=Lconf+Lrpn
Lconf=-clog(c)-(1-c)log(1-c)
Figure BDA0003740910680000081
Lrpn=β1Lcls2(Lreg-θ+Lreg-other)+β3Ldir
Lcls=-α(1-y)γlog(y)
Lreg-θ=SmoothL1(sin(θpre-θ))
Lreg-other=SmoothL1(sin(xpre-x))
Figure BDA0003740910680000082
Ldir=-α(1-dir)γlog(dir)
其中,IoU是预测目标框和真实目标框的交并比,αF、αB分别表示前景、背景的交并比值,β1=0.3、β2=0.4、β3=0.3表示权重,Lcls表示分类损失,α=0.6和γ=0.9为分类损失Lcls的超参数,SmoothL1表示回归损失函数,Lreg-θ表示角度损失,θ表示真实的角度值,Lreg-other表示目标框回归值损失,x为真实的目标框,Ldir是方向的分类损失。
步骤3)对三维目标检测网络D进行迭代训练:
步骤3a)初始化迭代次数为r,最大迭代次数为120,当前三维目标检测网络模型为Dr的权值参数为θr,并令r=1,Dr=D;
步骤3b)从训练样本集E1中无放回的随机选取2个训练样本作为网络模型Dr的输入进行前向传播,实现步骤为:
步骤3b1)将选取的2个训练样本作为三维目标检测网络Dr的输入,点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习,点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成,得到共包含T1个点云数据的S个候选区域
Figure BDA0003740910680000091
且每个候选区域至少包含一个点云数据,其中S≥1000,
Figure BDA0003740910680000092
Figure BDA0003740910680000093
分别表示每个候选区域的中心点坐标值,lrpn、wrpn和hrpn分别表示每个候选区域的长、宽和高,θrpn表示每个候选区域的旋转角度值;
步骤3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息,进行多模态数据拼接,得到T1个融合后的点云数据P={pi,Δpi c,Δpi j,fi},(i=1,2,…,n),其中pi表示候选区域中的n个点,Δpi c表示候选区域中的每个点到候选区域中心点的距离、Δpi j表示候选区域中的每个点到八个角点的距离,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;
步骤3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取,得到P的点云特征;解码器对P的点云特征进行通道加权解码,得到T1个点云数据中的预测三维目标框xpre={xpre,ypre,zpre,lpre,wpre,hpre}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir;
步骤3c)采用三维目标检测网络D的损失函数L,并根据置信度概率c计算置信度损失值Lconf,根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率dir计算三维目标损失值Lrpn,然后采用随机梯度下降法,通过计算三维目标检测网络D的Lconf与Lrpn的和对权值参数θr的偏导数,对θr进行更新,得到本次迭代的三维目标检测网络模型Dr
步骤3d)判断r=120是否成立,若是,得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*,否则令r=r+1,Dr=D,并执行步骤(3b);
步骤4)获取三维目标的检测结果:
将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*的输入进行前向传播,得到每个测试样本的三维目标检测结果,包括每个测试样本中的预测三维目标框xpre、以及三维目标框对应的角度值θpre、三维目标的类别。本实例中目标的类别有两个,分别是车和行人类别。在KITTI测试集中的三维目标检测精度用mAP作为指标;mAP(mean Average Precision)表示平均精度均值,即多个类别的AP均值,主要用来衡量模型在所有类别上的整体精度表现。平均精度(Average Precision,AP)表示PR曲线下的面积,对应IOU的三种计算方式。AP值主要用来衡量模型在单个类别上的检测精准率,AP值越大,表示这个类别的检测精度越高。
下面结合仿真实验,对本发明的技术效果作进一步的描述。
1.仿真条件和内容:
仿真实验在ubuntu 18.04系统上进行,模型训练使用pytorch 1.6深度学习框架,使用2块NVIDIA RTX 2080Ti显卡,总显存22GB。
仿真实验中用到的数据集为KITTI数据集,该数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作的汽车传感器数据,单帧点云数为60000多,图像大小为1243×375,包含9类目标,本仿真仅测试了汽车和行人两类目标作为检测对象,仿真实验中选取7518个样本作为测试样本。
训练和推理过程中,每次均将2个预处理过的样本输入本方法中的三维目标检测模型,经过点云学习模块学习测试样本中的点云特征,得到区域候选框;融合模块将区域候选框中的点云数据与图像数据进行精细化的融合,得到融合后的点云数据,其中每个点的维度由原来的4维扩充至16维;然后将16维的点云数据输入到基于Transformer的特征提取模块,经过编解码处理,得到三维目标检测结果。
2.仿真结果分析:
本发明提出的方法与其他公开的三维目标检测方法进行对比,表1展示了本发明和现有技术MVX-Net方法在KITTI数据集中车和行人目标的检测效果。
表1
Figure BDA0003740910680000111
由表1的实验结果可以看出,本发明较于现有技术在车和行人检测中均具有更高的三维目标检测精度。本发明在车类别和行人类别上取得了较好的结果,尤其在车类别的中等样例级别上比MVX-Net高出了7.74%,根据实验结果分析,认为在细化阶段处理原始信息,而不是依赖于人工设计的特征或融合特征,能够更好的解析目标结构。另外,在行人类别上的精度低了一些,可能是因为每个候选框选取的点,过分稀疏造成了细节的丢失。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理和结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围内。

Claims (4)

1.一种基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,包括如下步骤:
(1)获取训练样本集E1和测试样本集E2
从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据,并对每个点云数据进行预处理,然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1,将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2,其中,T≥5000,T1>T2,T1+T2=T;
(2)基于注意力机制的多模态数据融合三维目标检测网络:
(2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构:
构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D,其中,点云特征学习模块,包括顺次连接的三维稀疏卷积网络和区域回归网络;基于Transformer的特征提取模块,包括顺次连接的编码器和解码器;
(2b)定义三维目标检测网络D的损失函数L:
定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L:
L=Lconf+Lrpn
(3)对三维目标检测网络D进行迭代训练:
(3a)初始化迭代次数为r,最大迭代次数为R,当前三维目标检测网络模型为Dr的权值参数为θr,并令r=1,Dr=D;
(3b)从训练样本集E1中无放回的选取训练样本作为网络模型Dr的输入进行前向传播,实现步骤为:
(3b1)将训练样本集E1作为三维目标检测网络Dr的输入,点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习,点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成,得到共包含T1个点云数据的S个候选区域
Figure FDA0003740910670000021
且每个候选区域至少包含一个点云数据,其中S≥1000,
Figure FDA0003740910670000022
Figure FDA0003740910670000023
分别表示每个候选区域的中心点坐标值,lrpn、wrpn和hrpn分别表示每个候选区域的长、宽和高,θrpn表示每个候选区域的旋转角度值;
(3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGB图像信息,进行多模态数据拼接,得到N个融合后的点云数据P={pi,Δpi c,Δpi j,fi},i=1,2,…,n,其中pi表示候选区域中的i个点,Δpi c表示候选区域中的每个点到候选区域中心点的距离、Δpi j表示候选区域中的每个点到八个角点的距离,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;
(3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取,得到P的点云特征;解码器对P的点云特征进行通道加权解码,得到T1个点云数据中的预测三维目标框xpre={xpre,ypre,zpre,lpre,wpre,hpre}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir;
(3c)采用三维目标检测网络D的损失函数L,并根据置信度概率c计算置信度损失值Lconf,根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率dir计算三维目标损失值Lrpn,然后采用随机梯度下降法,通过计算三维目标检测网络D的Lconf与Lrpn的和对权值参数θr的偏导数,对θr进行更新,得到本次迭代的三维目标检测网络模型Dr
(3d)判断r=R是否成立,若是,得到训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*,否则令r=r+1,Dr=D,并执行步骤(3b);
(4)获取三维目标的检测结果:
将测试样本集E2作为训练好的基于注意力机制的多模态数据融合三维目标检测网络模型D*的输入进行前向传播,得到每个测试样本的三维目标检测结果,包括每个测试样本中的预测三维目标框xpre、以及三维目标框对应的角度值θpre和目标类别。
2.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,步骤(1)中所述的对每个点云数据进行预处理,实现步骤为:对每幅RGB图像对应的点云数据进行去噪处理,并对去噪后的每个点云数据进行随机水平翻转,再对随机水平翻转处理后的点云数据进行降采样,得到T个预处理后的点云数据。
3.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,步骤(2a)中所述的三维目标检测网络D,其中:
点云特征学习模块,其所包含的三维稀疏卷积网络包括顺次连接的8个三维稀疏卷积结构;每个三维稀疏卷积结构包括顺次连接的子流形三维稀疏卷积层、批量规范化层和Relu激活层;区域回归网络包括顺次连接的4个复合层和2个全连接层,每个复合层包括顺次连接的三维稀疏卷积层、归一化层和Relu激活层,2个全连接层连接在第4复合层的输出端;4复合层中的卷积层的卷积核大小均为3,卷积核个数均为256,第1卷积层的卷积步长为2,第2、第3、第4卷积层的卷积步长均为1;
基于Transformer的特征提取模块,其所包含的编码器包括3个堆叠的特征编码模块,每个特征编码模块包括2个线性层、3个Dropout层和2个归一化层,具体结构为:第1线性层—>第1Dropout层—>第2线性层—>第1归一化层—>第2归一化层—>第2Dropout层—>第3Dropout层;第1线性层的输入、输出通道数分别为256和512,第2线性层的输入、输出通道数分别为512和256,归一化层的输入维度均为256,每个Dropout层的概率值均为0.1;
基于Transformer的特征提取模块,其所包含的解码器包含3个卷积层、3个线性层、3个Dropout层和4个归一化层;3个卷积层的输入维度均为256,卷积核均为1,步长均为1;第1线性层的输入、输出维度分别为64、1,第2线性层的输入、输出维度分别为256、512,第3线性层的输入、输出维度分别为512、256;3个Dropout层的概率值均为0.1;4个归一化层的输入维度都为256;该解码器的具体结构为:第1卷积层—>第2卷积层—>第3卷积层—>第1线性层—>第2线性层—>第1Dropout层—>第3线性层—>第1归一化层—>第2归一化层—>第3归一化层—>第2Dropout层—>第3Dropout层—>第4归一化层。
4.根据权利要求1所述的基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,步骤(2b)中所述的置信度损失Lconf和三维目标损失Lrpn,其表达式分别为:
Lconf=-clog(c)-(1-c)log(1-c)
Figure FDA0003740910670000041
Lrpn=β1Lcls2(Lreg-θ+Lreg-other)+β3Ldir
Lcls=-α(1-y)γlog(y)
Lreg-θ=SmoothL1(sin(θpre-θ))
Lreg-other=SmoothL1(sin(xpre-x))
Figure FDA0003740910670000042
Ldir=-α(1-dir)γlog(dir)
其中,IoU是预测目标框和真实目标框的交并比,αF、αB分别表示前景、背景的交并比阈值,β1、β2、β3表示权重,Lcls表示分类损失,α和γ为分类损失Lcls的超参数,SmoothL1表示回归损失函数,Lreg-θ表示角度损失,θ表示真实的角度值,Lreg-other表示目标框回归值损失,x为真实的目标框,Ldir是方向的分类损失。
CN202210816612.2A 2022-07-12 2022-07-12 基于注意力机制的多模态数据融合三维目标检测方法 Active CN115082674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210816612.2A CN115082674B (zh) 2022-07-12 2022-07-12 基于注意力机制的多模态数据融合三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210816612.2A CN115082674B (zh) 2022-07-12 2022-07-12 基于注意力机制的多模态数据融合三维目标检测方法

Publications (2)

Publication Number Publication Date
CN115082674A true CN115082674A (zh) 2022-09-20
CN115082674B CN115082674B (zh) 2024-09-06

Family

ID=83260241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210816612.2A Active CN115082674B (zh) 2022-07-12 2022-07-12 基于注意力机制的多模态数据融合三维目标检测方法

Country Status (1)

Country Link
CN (1) CN115082674B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116222577A (zh) * 2023-04-27 2023-06-06 苏州浪潮智能科技有限公司 闭环检测方法、训练方法、系统、电子设备及存储介质
CN116299247A (zh) * 2023-05-19 2023-06-23 中国科学院精密测量科学与技术创新研究院 一种基于稀疏卷积神经网络的InSAR大气校正方法
CN116503418A (zh) * 2023-06-30 2023-07-28 贵州大学 一种复杂场景下的作物三维目标检测方法
CN116994240A (zh) * 2023-09-27 2023-11-03 之江实验室 一种基于注意力机制的三维目标检测系统
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备
CN117173692A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备
CN118134927A (zh) * 2024-05-07 2024-06-04 季华实验室 一种基于2d及3d图像的板材缺陷检测方法及相关设备
CN118230113A (zh) * 2024-05-27 2024-06-21 华东交通大学 一种基于多模态融合与注意力机制的目标检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347987A (zh) * 2020-11-30 2021-02-09 江南大学 一种多模数据融合的三维目标检测方法
CN113065590A (zh) * 2021-03-26 2021-07-02 清华大学 一种基于注意力机制的视觉与激光雷达多模态数据融合方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114495089A (zh) * 2021-12-21 2022-05-13 西安电子科技大学 基于多尺度异源特征自适应融合的三维目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN112347987A (zh) * 2020-11-30 2021-02-09 江南大学 一种多模数据融合的三维目标检测方法
CN113065590A (zh) * 2021-03-26 2021-07-02 清华大学 一种基于注意力机制的视觉与激光雷达多模态数据融合方法
CN114495089A (zh) * 2021-12-21 2022-05-13 西安电子科技大学 基于多尺度异源特征自适应融合的三维目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAOQING XU等: "Fusionpainting: Multimodal fusion with adaptive attention for 3d object detection", 《COMPUTER VISION AND PATTERN RECOGNITION》, 10 August 2021 (2021-08-10) *
李佳昌: "自动驾驶场景下基于特征融合的三维目标检测算法研究", 《CNKI》, 1 January 2023 (2023-01-01) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116222577A (zh) * 2023-04-27 2023-06-06 苏州浪潮智能科技有限公司 闭环检测方法、训练方法、系统、电子设备及存储介质
CN116299247A (zh) * 2023-05-19 2023-06-23 中国科学院精密测量科学与技术创新研究院 一种基于稀疏卷积神经网络的InSAR大气校正方法
CN116299247B (zh) * 2023-05-19 2023-08-04 中国科学院精密测量科学与技术创新研究院 一种基于稀疏卷积神经网络的InSAR大气校正方法
CN116503418A (zh) * 2023-06-30 2023-07-28 贵州大学 一种复杂场景下的作物三维目标检测方法
CN116503418B (zh) * 2023-06-30 2023-09-01 贵州大学 一种复杂场景下的作物三维目标检测方法
CN116994240B (zh) * 2023-09-27 2024-01-09 之江实验室 一种基于注意力机制的三维目标检测系统
CN116994240A (zh) * 2023-09-27 2023-11-03 之江实验室 一种基于注意力机制的三维目标检测系统
CN117014633B (zh) * 2023-10-07 2024-04-05 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117014633A (zh) * 2023-10-07 2023-11-07 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备
CN117058472B (zh) * 2023-10-12 2024-02-20 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备
CN117173692A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备
CN117173692B (zh) * 2023-11-02 2024-02-02 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备
CN118134927A (zh) * 2024-05-07 2024-06-04 季华实验室 一种基于2d及3d图像的板材缺陷检测方法及相关设备
CN118230113A (zh) * 2024-05-27 2024-06-21 华东交通大学 一种基于多模态融合与注意力机制的目标检测方法及系统
CN118230113B (zh) * 2024-05-27 2024-07-23 华东交通大学 一种基于多模态融合与注意力机制的目标检测方法及系统

Also Published As

Publication number Publication date
CN115082674B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
CN115082674B (zh) 基于注意力机制的多模态数据融合三维目标检测方法
CN113111887B (zh) 一种基于相机和激光雷达信息融合的语义分割方法及系统
CN113706480B (zh) 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN110570429B (zh) 一种基于三维点云的轻量级实时语义分割方法
CN111626217A (zh) 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN112613378B (zh) 3d目标检测方法、系统、介质及终端
CN111145174A (zh) 基于图像语义特征进行点云筛选的3d目标检测方法
CN115019043B (zh) 基于交叉注意力机制的图像点云融合三维目标检测方法
CN113312983B (zh) 基于多模态数据融合的语义分割方法、系统、装置及介质
CN113506318A (zh) 一种车载边缘场景下的三维目标感知方法
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
CN117975436A (zh) 基于多模态融合和可变形注意力的三维目标检测方法
CN114089329A (zh) 一种基于长短焦相机与毫米波雷达融合的目标检测方法
CN115327524B (zh) 基于毫米波雷达与视觉融合的路侧端目标检测方法及装置
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN114792416A (zh) 一种目标检测方法及装置
CN112257668A (zh) 主辅路判断方法、装置、电子设备及存储介质
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN117475428A (zh) 一种三维目标检测方法、系统及设备
CN116704304A (zh) 一种混合注意力机制的多模态融合目标检测方法
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
Song et al. Automatic detection and classification of road, car, and pedestrian using binocular cameras in traffic scenes with a common framework
CN113378647B (zh) 基于三维点云的实时轨道障碍物检测方法
CN114821508A (zh) 基于隐式上下文学习的道路三维目标检测方法
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant