CN116310684A - 基于Transformer的多模态特征融合的三维目标检测方法 - Google Patents

基于Transformer的多模态特征融合的三维目标检测方法 Download PDF

Info

Publication number
CN116310684A
CN116310684A CN202310263222.1A CN202310263222A CN116310684A CN 116310684 A CN116310684 A CN 116310684A CN 202310263222 A CN202310263222 A CN 202310263222A CN 116310684 A CN116310684 A CN 116310684A
Authority
CN
China
Prior art keywords
point cloud
feature
iteration
image
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310263222.1A
Other languages
English (en)
Inventor
张炳力
王怿昕
姜俊昭
张成标
潘泽昊
杨程磊
王欣雨
王焱辉
程进
张羊阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310263222.1A priority Critical patent/CN116310684A/zh
Publication of CN116310684A publication Critical patent/CN116310684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于Transformer的多模态特征融合的三维目标检测方法,包括:1.使用激光雷达采集点云数据并对点云数据进行采样,同时使用摄像头采集图像数据2.将激光雷达与摄像头采集到的数据输入基于Transformer的多模态特征融合RPN网络,提取区域建议框3.将区域建议框信息输入精细化网络,得到最终预测框。本发明能避免对基于多模态特征融合的目标检测过程中,误检、漏检的问题,从而能够保证对感知环境评估的准确性。

Description

基于Transformer的多模态特征融合的三维目标检测方法
技术领域
本发明涉及基于多传感器融合的环境感知技术领域,具体的说是一种基于Transformer的多模态特征融合的三维目标检测方法。
背景技术
当前的3D目标检测技术大致可分为仅激光雷达方法和多模态方法。仅激光雷达方法利用激光雷达摄取的点云来提取深度和几何结构信息,以理解3D场景。然而,仅激光雷达采集到的点云缺乏语义信息,因此可能会混淆具有相似结构的前景和背景,并导致误检,干扰正常驾驶。同时,点云的稀疏性影响了仅激光雷达方法识别远程物体和小物体的准确性。
在这种情况下,多模态方法越来越受到关注,研究人员致力于通过融合激光雷达和相机采集到的信息来感知周围环境。现有的多模态融合方法可分为前融合和后融合。后期融合方法鲁棒性强,但受到单模态检测器检测精度的限制,准确率有待提高。前融合方法可分为数据级融合和特征级融合,其准确率通常优于后融合方法,但它们难以解决异构的数据对齐问题。具体的,MV3D和AVOD算法通过融合区域特征进行预测。Huang Tengteng等人通过学习估计多模态特征的重要性,生成多模态之间的权重以融合多模态特征。但上述方法在执行过程中难以准确建立起不同传感器数据之间的对应关系,导致参与融合的点云特征与图像特征所包含的语义信息并不一致,融合后的特征图无法精准表述实际情况,严重影响检测的准确性。
发明内容
发明针对现有方法中存在的问题,提供了一种基于Transformer的多模态特征融合的三维目标检测方法,以期能实现三维检测过程中的多源异构特征融合,从而能保证对感知环境评估的准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于Transformer的多模态特征融合的三维目标检测方法的特点在于,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集所述目标场景的点云数据后进行采样,得到激光雷达特征序列Fp;其中,所述图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
所述激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;所述信息包括中心坐标(xo,yo,zo)以及反射强度ro
B、建立基于Transformer的多模态特征融合RPN网络,包括:K个SetAbstraction层、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个Feature Propagation层、二维转置卷积层、分类层和回归层;其中,所述卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
将所述图像Pi作为第k次迭代的图像特征Fi k,所述激光雷达特征序列Fp作为第k次迭代的激光雷达点云特征
Figure BDA0004132109800000021
B2、第k+1个SetAbstraction层对所述第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征
Figure BDA0004132109800000022
且/>
Figure BDA0004132109800000023
的维度为
Figure BDA0004132109800000024
其中,Nr/(4(k+1))表示/>
Figure BDA0004132109800000025
的点云数据个数,/>
Figure BDA0004132109800000026
表示/>
Figure BDA0004132109800000027
中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对所述第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,且Fi k+1的维度为
Figure BDA0004132109800000028
其中,Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>
Figure BDA0004132109800000029
表示Fi k+1中每个特征元素点包含的特征通道数;
B4、第k+1个Transformer多模态特征融合模块对所述第k+1次迭代的高层次激光雷达点云特征
Figure BDA00041321098000000210
和第k+1次迭代高层次图像特征Fi k+1进行特征融合,得到第k+1次迭代的增强点云特征/>
Figure BDA00041321098000000211
B5、将
Figure BDA00041321098000000212
赋值给/>
Figure BDA00041321098000000213
将Fi k+1赋值给Fi k,将k+1赋值给k后,返回步骤B2顺序执行,直到k=K为止,从而获得K个高层次激光雷达点云特征/>
Figure BDA00041321098000000214
和高层次图像特征{Fi k|k=1,2,…,K};
B6、K个Feature Propagation层依次对
Figure BDA00041321098000000215
中的/>
Figure BDA00041321098000000216
进行K次的解码,得到最终点云特征/>
Figure BDA00041321098000000217
且/>
Figure BDA00041321098000000218
的维度为(Nr/4,Cp),其中,Cp表示/>
Figure BDA00041321098000000219
中每个点云数据的特征通道数;
B7、所述二维转置卷积层对{Fi k|k=1,2,…,K}进行解码,得到转置图像特征
Figure BDA0004132109800000031
其中,/>
Figure BDA0004132109800000032
表示高层次图像特征Fi k的转置图像特征;
B8、将
Figure BDA0004132109800000033
进行级联连接后输入第K+1个卷积模块,获得最终图像特征Fi K+1,且Fi K+1的维度为(Hr/2,Wr/2,Ci),其中,Ci表示Fi K+1中每个点数据的特征通道数;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征
Figure BDA0004132109800000034
和最终图像特征Fi K+1进行特征融合,获得融合语义信息的点云特征Fep,且Fep的维度为(Nr/4,C),其中,C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入所述分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN
C、将所述区域建议框信息输入所述精细化网络进行处理,得到最终预测框信息,包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult
本发明所述的基于Transformer的多模态特征融合三维目标检测方法的特点也在于,所述B4中的Transformer多模态特征融合模块包括:两个全连接层、两个Transformer交叉注意力模块,并按如下步骤进行特征融合:
B4.1、将所述第k+1次迭代的高层次图像特征Fi k+1压缩成维度为
Figure BDA0004132109800000035
的第k+1次迭代的高层次压缩图像特征/>
Figure BDA0004132109800000036
然后将所述第k+1次迭代的高层次激光雷达点云特征/>
Figure BDA0004132109800000037
与所述高层次压缩图像特征/>
Figure BDA0004132109800000038
分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>
Figure BDA0004132109800000039
与第k+1次迭代的待融合的高层次图像特征Fik+1,其中,/>
Figure BDA00041321098000000310
的维度为(Nr/(4(k+1)),Ck+1),Fik+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;
B4.2、第一个Transformer交叉注意力模块对
Figure BDA00041321098000000311
与Fik+1进行处理,获得第k+1次迭代的自适应点云特征/>
Figure BDA0004132109800000041
其中,/>
Figure BDA0004132109800000042
的维度为((Hr×Wr)/4k+1,Ck+1);
B4.3、将Fik+1
Figure BDA0004132109800000043
进行级联连接,获得第k+1次迭代的级联连接图像特征/>
Figure BDA0004132109800000044
后输入第二全连接层中进行处理,获得第k+1次迭代的增强图像特征/>
Figure BDA0004132109800000045
其中,/>
Figure BDA0004132109800000046
的维度为((Hr×Wr)/4k+1,2Ck+1),/>
Figure BDA0004132109800000047
的维度为((Hr×Wr)/4k+1,Ck+1);
B4.4、第二个Transformer交叉注意力模块对
Figure BDA0004132109800000048
和/>
Figure BDA0004132109800000049
进行处理,获得第k+1次迭代的自适应图像特征/>
Figure BDA00041321098000000410
其中,/>
Figure BDA00041321098000000411
的维度为(Nr/(4(k+1)),Ck+1);
B4.5、将
Figure BDA00041321098000000412
与/>
Figure BDA00041321098000000413
进行级联连接后,获得第k+1次迭代的增强点云特征/>
Figure BDA00041321098000000414
其中,/>
Figure BDA00041321098000000415
的维度为(Nr/(4(k+1)),2(Ck+1))。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述三维目标检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述三维目标检测方法的步骤。
与现有技术相比,本发明的有益效果在于:
1.本发明针对基于多传感器特征级融合的三维目标检测方法异构数据对齐困难的问题,提出了一种基于Transformer的多模态特征融合三维目标检测方法,利用传统Transformer网络能够动态动态估计两种模态之间的相关性的特点,让网络自动对齐多源异构数据,从而提高了基于多传感器融合的目标检测的准确率,有利于智能车辆环境感知能力的提高。
2.本发明提出了一种基于Transformer的多源异构特征双向增强融合策略。与先前的基于Transformer的多模态融合方法相比,本发明方法首先利用Transformer网络提取基于注意力的自适应点云特征,接着将图像特征与自适应点云特征级联来增强图像特征,接着基于Transformer网络使用增强图像特征生成基于注意力的自适应图像特征,最后将点云特征与自适应图像特征级联以获取被语义信息增强的点云特征,解决了基于Transformer的多模态特征融合策略过于单一、无法充分发挥Transformer网络优越性的问题,从而优化了特征级融合的自适应性,提高了基于多传感器融合的目标检测的准确性,有利于智能车辆环境感知能力的提高。
附图说明
图1为本发明多模态特征融合的三维目标检测方法的整体流程图;
图2为本发明基于Transformer的多源异构特征双向增强融合策略的流程图;
图3为本发明机器视觉检测效果图。
具体实施方式
本实施例中,一种基于Transformer的多模态特征融合三维目标检测方法,如图1所示,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集目标场景的点云数据后进行采样,采样过程包括:将激光雷达采集到的点云数量记作No,并规定采样后的点云数量Nr,若No>Nr,则对激光雷达采集到的点云进行随机下采样直至点云数量为Nr,若No<Nr,则对激光雷达采集到的点云进行随机复制直至点云数量达到Nr,输出激光雷达特征序列Fp,其中,其中,图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;信息包括中心坐标(xo,yo,zo)以及反射强度ro。本实施例中,设置No=16384;
B、建立基于Transformer的多模态特征融合RPN网络包括:K个PointNet++算法的Set Abstraction层(SA层)、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个PointNet++算法的Feature Propagation层(FP层)、二维转置卷积层、分类层和回归层;其中,卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
将图像Pi作为第k次迭代的图像特征Fi k,激光雷达特征序列Fp作为第k次迭代的激光雷达点云特征Fp k
B2、第k+1个Set Abstraction层对第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征
Figure BDA0004132109800000051
包括:利用FPS算法选取相互间距离最大的No'个点,本实施例中,设置No'=Nr/(4(k+1));然后利用ball query算法,以上述No'个点为质心,在半径为ro的球体范围内采样Ko个点,本实施例中,设置ro=0.5(k+1),Ko=32;最后,将这No'个球体分别输入PointNet层,得到高层次激光雷达点云特征/>
Figure BDA0004132109800000052
其中,/>
Figure BDA0004132109800000061
的维度为/>
Figure BDA0004132109800000062
其中,Nr/(4(k+1))表示/>
Figure BDA0004132109800000063
的点云数据个数,/>
Figure BDA0004132109800000064
表示/>
Figure BDA0004132109800000065
中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,其中,Fi k+1的维度为
Figure BDA0004132109800000066
Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>
Figure BDA0004132109800000067
表示Fi k+1中每个特征元素点包含的特征通道数;
B4、第k+1个Transformer多模态特征融合模块对第k+1次迭代的高层次激光雷达点云特征
Figure BDA0004132109800000068
和第k+1次迭代高层次图像特征Fi k+1进行特征融合,得到第k+1次迭代的增强点云特征/>
Figure BDA0004132109800000069
其中,Transformer多模态特征融合模块的流程图如图2所示:
B4.1、将第k+1次迭代的高层次图像特征Fi k+1压缩成维度为
Figure BDA00041321098000000610
的第k+1次迭代的高层次压缩图像特征/>
Figure BDA00041321098000000611
然后将第k+1次迭代的高层次激光雷达点云特征/>
Figure BDA00041321098000000612
与高层次压缩图像特征/>
Figure BDA00041321098000000613
分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>
Figure BDA00041321098000000614
与第k+1次迭代的待融合的高层次图像特征Fik+1,其中,/>
Figure BDA00041321098000000615
的维度为(Nr/(4(k+1)),Ck+1),Fik+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;本发明中,设置/>
Figure BDA00041321098000000616
B4.2、第一个Transformer交叉注意力模块对
Figure BDA00041321098000000617
与Fik+1进行处理,获得第k+1次迭代的自适应点云特征/>
Figure BDA00041321098000000618
获得自适应点云特征/>
Figure BDA00041321098000000619
其中Transformer交叉注意力模块由式(1)所表征,包括:先将待融合高层次图像特征Fi k+1'映射到图像Query矩阵/>
Figure BDA00041321098000000620
同时将待融合高层次激光雷达点云特征/>
Figure BDA00041321098000000621
映射到点云Key矩阵/>
Figure BDA00041321098000000622
和点云Value矩阵/>
Figure BDA00041321098000000623
即:
Figure BDA00041321098000000624
Figure BDA00041321098000000625
Figure BDA00041321098000000626
式(1)~式(3)中,Wi Q
Figure BDA00041321098000000627
均为可学习线性变换矩阵;
然后将图像Query矩阵
Figure BDA00041321098000000628
与点云Key矩阵/>
Figure BDA00041321098000000629
相乘,并作Softmax处理,获得点云注意力权重矩阵/>
Figure BDA0004132109800000071
即:
Figure BDA0004132109800000072
接着将点云注意力权重矩阵
Figure BDA0004132109800000073
与点云Value矩阵/>
Figure BDA0004132109800000074
相乘,获得自适应点云特征
Figure BDA0004132109800000075
即:
Figure BDA0004132109800000076
式(5)中,
Figure BDA0004132109800000077
的维度为((Hr×Wr)/4k+1,Ck+1);
B4.3、将Fik+1
Figure BDA0004132109800000078
进行级联连接,获得第k+1次迭代的级联连接图像特征/>
Figure BDA0004132109800000079
后输入第二全连接层中进行处理,获得第k+1次迭代的增强图像特征/>
Figure BDA00041321098000000710
即:
Figure BDA00041321098000000711
式(6)中,FC代表全连接层,
Figure BDA00041321098000000712
代表Concatenation级联连接;
其中,级联拼接是指在特征张量第2维进行拼接,级联拼接是指在特征张量第2维进行拼接,级联连接图像特征大小为((Hr×Wr)/4k+1,2Ck+1),全连接层输出的增强图像特征
Figure BDA00041321098000000713
是大小为((Hr×Wr)/4k+1,Ck+1)的特征张量;
B4.4、利用第二个Transformer交叉注意力模块对
Figure BDA00041321098000000714
和/>
Figure BDA00041321098000000715
进行处理,第k+1次迭代的自适应图像特征/>
Figure BDA00041321098000000716
其中Transformer交叉注意力模块由式(7)所表征,包括:先将待融合高层次激光雷达点云特征/>
Figure BDA00041321098000000717
映射到点云Query矩阵/>
Figure BDA00041321098000000718
将增强图像特征/>
Figure BDA00041321098000000719
映射到图像Key矩阵/>
Figure BDA00041321098000000720
和图像Value矩阵Vi k+1,即:
Figure BDA00041321098000000721
Figure BDA00041321098000000722
Vi k+1=Fi k+1'·Wi V (9)
式(7)~式(9)中,
Figure BDA00041321098000000723
Wi K、Wi V均为可学习线性变换矩阵;
接着将点云Query矩阵
Figure BDA00041321098000000724
与图像Key矩阵/>
Figure BDA00041321098000000725
相乘,并作Softmax处理,获得图像注意力权重矩阵/>
Figure BDA00041321098000000726
即:
Figure BDA0004132109800000081
最后,将图像注意力权重矩阵
Figure BDA0004132109800000082
与图像Value矩阵Vi k+1相乘,获得自适应图像特征/>
Figure BDA0004132109800000083
即:
Figure BDA0004132109800000084
式(11)中,自适应图像特征
Figure BDA0004132109800000085
是大小为(Nr/(4(k+1)),Ck+1)的特征张量;
B4.5、将待融合高层次激光雷达点云特征
Figure BDA0004132109800000086
与自适应图像特征/>
Figure BDA0004132109800000087
进行级联连接,获得增强点云特征/>
Figure BDA0004132109800000088
即:
Figure BDA0004132109800000089
将增强点云特征
Figure BDA00041321098000000810
赋值给激光雷达点云特征/>
Figure BDA00041321098000000811
其中,级联连接是指在特征张量第2维度进行拼接,第k+1次迭代的增强点云特征/>
Figure BDA00041321098000000812
是大小为(Nr/(4(k+1)),2(Ck+1))的特征张量/>
Figure BDA00041321098000000813
B5、将
Figure BDA00041321098000000814
赋值给/>
Figure BDA00041321098000000815
将Fi k+1赋值给Fi k,将k+1赋值给k后,返回步骤B2顺序执行,直到k=K为止,从而获得K个高层次激光雷达点云特征/>
Figure BDA00041321098000000816
和高层次图像特征{Fi k|k=1,2,…,K}Pi 4
B6、K个Feature Propagation层依次对
Figure BDA00041321098000000817
中的/>
Figure BDA00041321098000000818
进行K次的解码,包括利用IDW插值法对特征进行上采样,IDW插值法可表示为:
Figure BDA00041321098000000819
式(13)中:ωi(x)计算点权重,它与距离成反比,距离越近,影响越大。fi (j)表示已知点的值,f(j)表示未知点的值,s表示在已知点集中取s个点进行插值计算,e表示距离对权重的影响程度;
经过上述操作,得到最终点云特征
Figure BDA00041321098000000820
其中,/>
Figure BDA00041321098000000821
的维度为(Nr/4,Cp),Cp表示
Figure BDA00041321098000000822
中每个点云数据的特征通道数;
B7、二维转置卷积层对{Fi k|k=1,2,…,K}进行解码,得到转置图像特征
Figure BDA0004132109800000091
其中,/>
Figure BDA0004132109800000092
表示高层次图像特征Fi k的转置图像特征;
B8、将
Figure BDA0004132109800000093
进行级联连接后输入第K+1个卷积模块,获得最终图像特征Fi K+1,其中,Fi K+1的维度为(Hr/2,Wr/2,Ci),Ci表示Fi K+1中每个点数据的特征通道数;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征
Figure BDA0004132109800000094
和最终图像特征Fi K+1进行特征融合,获得融合语义信息的点云特征Fep,其中,Fep的维度为(Nr/4,C),C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN;区域建议物体的2D边界框大小bboxRPN包括:2D边界框中心点坐标(xRPN_2D,yRPN_2D),长wRPN_2D和宽hRPN_2D;区域建议物体的3D边界框尺寸dimensionsRPN包括:长wRPN_3D,宽hRPN_3D和高lRPN_3D;区域建议物体的3D边界框位置locationRPN包括:(xRPN_3D,yRPN_3D,zRPN_3D);
C、将步骤B10中区域建议框信息输入PointRCNN算法的精细化网络,精细化网络包括:用于提取全局描特征的3个SA层,以及两个子网络,两个字网络均具有两个级联的1×1卷积层,分别用于分类和回归,从而得到最终预测框信息,其中,最终预测框信息包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult;最终预测物体的2D预测框大小bboxresult包括:2D预测框中心点坐标(xresult_2D,yresult_2D),长wresult_2D和宽hresult_2D;最终预测物体的3D预测框尺寸dimensionsresult包括:长wresult_3D,宽hresult_3D和高lresult_3D;最终预测物体的3D预测框位置locationresult包括:(xresult_3D,yresult_3D,zresult_3D),检测效果图如图3所示,图中白色框即代表网络检测到的最终预测框。
本实施例中,设计一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该多模态特征融合三维目标检测方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,设计一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该多模态特征融合三维目标检测方法的步骤。

Claims (4)

1.一种基于Transformer的多模态特征融合的三维目标检测方法,其特征在于,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集所述目标场景的点云数据后进行采样,得到激光雷达特征序列Fp;其中,所述图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
所述激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;所述信息包括中心坐标(xo,yo,zo)以及反射强度ro
B、建立基于Transformer的多模态特征融合RPN网络,包括:K个SetAbstraction层、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个Feature Propagation层、二维转置卷积层、分类层和回归层;其中,所述卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
将所述图像Pi作为第k次迭代的图像特征Fi k,所述激光雷达特征序列Fp作为第k次迭代的激光雷达点云特征
Figure FDA0004132109790000011
B2、第k+1个SetAbstraction层对所述第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征
Figure FDA0004132109790000012
且/>
Figure FDA0004132109790000013
的维度为/>
Figure FDA0004132109790000014
其中,Nr/(4(k+1))表示/>
Figure FDA0004132109790000015
的点云数据个数,/>
Figure FDA0004132109790000016
表示/>
Figure FDA0004132109790000017
中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对所述第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,且Fi k+1的维度为
Figure FDA0004132109790000018
其中,Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>
Figure FDA0004132109790000019
表示Fi k+1中每个特征元素点包含的特征通道数;
B4、第k+1个Transformer多模态特征融合模块对所述第k+1次迭代的高层次激光雷达点云特征
Figure FDA00041321097900000110
和第k+1次迭代高层次图像特征Fi k+1进行特征融合,得到第k+1次迭代的增强点云特征/>
Figure FDA00041321097900000111
B5、将
Figure FDA00041321097900000112
赋值给/>
Figure FDA00041321097900000113
将Fi k+1赋值给Fi k,将k+1赋值给k后,返回步骤B2顺序执行,直到k=K为止,从而获得K个高层次激光雷达点云特征/>
Figure FDA0004132109790000021
和高层次图像特征{Fi k|k=1,2,…,K};
B6、K个Feature Propagation层依次对
Figure FDA0004132109790000022
中的/>
Figure FDA0004132109790000023
进行K次的解码,得到最终点云特征/>
Figure FDA0004132109790000024
且/>
Figure FDA0004132109790000025
的维度为(Nr/4,Cp),其中,Cp表示/>
Figure FDA0004132109790000026
中每个点云数据的特征通道数;
B7、所述二维转置卷积层对{Fi k|k=1,2,…,K}进行解码,得到转置图像特征
Figure FDA0004132109790000027
其中,/>
Figure FDA0004132109790000028
表示高层次图像特征Fi k的转置图像特征;
B8、将
Figure FDA0004132109790000029
进行级联连接后输入第K+1个卷积模块,获得最终图像特征Fi K +1,且Fi K+1的维度为(Hr/2,Wr/2,Ci),其中,Ci表示Fi K+1中每个点数据的特征通道数;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征
Figure FDA00041321097900000210
和最终图像特征Fi K +1进行特征融合,获得融合语义信息的点云特征Fep,且Fep的维度为(Nr/4,C),其中,C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入所述分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN
C、将所述区域建议框信息输入所述精细化网络进行处理,得到最终预测框信息,包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult
2.根据权利要求1所述的基于Transformer的多模态特征融合三维目标检测方法,其特征在于,所述B4中的Transformer多模态特征融合模块包括:两个全连接层、两个Transformer交叉注意力模块,并按如下步骤进行特征融合:
B4.1、将所述第k+1次迭代的高层次图像特征Fi k+1压缩成维度为
Figure FDA00041321097900000211
的第k+1次迭代的高层次压缩图像特征/>
Figure FDA0004132109790000031
然后将所述第k+1次迭代的高层次激光雷达点云特征/>
Figure FDA0004132109790000032
与所述高层次压缩图像特征/>
Figure FDA0004132109790000033
分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>
Figure FDA0004132109790000034
与第k+1次迭代的待融合的高层次图像特征Fik+1,其中,/>
Figure FDA0004132109790000035
的维度为(Nr/(4(k+1)),Ck+1),Fik+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;
B4.2、第一个Transformer交叉注意力模块对
Figure FDA0004132109790000036
与Fik+1进行处理,获得第k+1次迭代的自适应点云特征/>
Figure FDA0004132109790000037
其中,/>
Figure FDA0004132109790000038
的维度为((Hr×Wr)/4k+1,Ck+1);
B4.3、将Fik+1
Figure FDA0004132109790000039
进行级联连接,获得第k+1次迭代的级联连接图像特征/>
Figure FDA00041321097900000310
后输入第二全连接层中进行处理,获得第k+1次迭代的增强图像特征/>
Figure FDA00041321097900000311
其中,/>
Figure FDA00041321097900000312
的维度为((Hr×Wr)/4k+1,2Ck+1),/>
Figure FDA00041321097900000313
的维度为((Hr×Wr)/4k+1,Ck+1);
B4.4、第二个Transformer交叉注意力模块对
Figure FDA00041321097900000314
和/>
Figure FDA00041321097900000315
进行处理,获得第k+1次迭代的自适应图像特征/>
Figure FDA00041321097900000316
其中,/>
Figure FDA00041321097900000317
的维度为(Nr/(4(k+1)),Ck+1);
B4.5、将
Figure FDA00041321097900000318
与/>
Figure FDA00041321097900000319
进行级联连接后,获得第k+1次迭代的增强点云特征/>
Figure FDA00041321097900000320
其中,
Figure FDA00041321097900000321
的维度为(Nr/(4(k+1)),2(Ck+1))。
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1或2所述三维目标检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1或2所述三维目标检测方法的步骤。
CN202310263222.1A 2023-03-17 2023-03-17 基于Transformer的多模态特征融合的三维目标检测方法 Pending CN116310684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310263222.1A CN116310684A (zh) 2023-03-17 2023-03-17 基于Transformer的多模态特征融合的三维目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310263222.1A CN116310684A (zh) 2023-03-17 2023-03-17 基于Transformer的多模态特征融合的三维目标检测方法

Publications (1)

Publication Number Publication Date
CN116310684A true CN116310684A (zh) 2023-06-23

Family

ID=86818223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310263222.1A Pending CN116310684A (zh) 2023-03-17 2023-03-17 基于Transformer的多模态特征融合的三维目标检测方法

Country Status (1)

Country Link
CN (1) CN116310684A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116902003A (zh) * 2023-07-31 2023-10-20 合肥海普微电子有限公司 基于激光雷达与摄像头混合模态的无人驾驶方法
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116902003A (zh) * 2023-07-31 2023-10-20 合肥海普微电子有限公司 基于激光雷达与摄像头混合模态的无人驾驶方法
CN116902003B (zh) * 2023-07-31 2024-02-06 合肥海普微电子有限公司 基于激光雷达与摄像头混合模态的无人驾驶方法
CN117058472A (zh) * 2023-10-12 2023-11-14 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备
CN117058472B (zh) * 2023-10-12 2024-02-20 华侨大学 基于自注意力机制的3d目标检测方法、装置、设备

Similar Documents

Publication Publication Date Title
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
CN111161349B (zh) 物体姿态估计方法、装置与设备
CN116310684A (zh) 基于Transformer的多模态特征融合的三维目标检测方法
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
WO2023019875A1 (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN113239907A (zh) 一种人脸识别的检测方法、装置、电子设备及存储介质
US20230298307A1 (en) System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm)
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN116385810B (zh) 一种基于YOLOv7的小目标检测方法及系统
CN113313703A (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN114519853A (zh) 一种基于多模态融合的三维目标检测方法及系统
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN110909685A (zh) 姿势估计方法、装置、设备及存储介质
CN110992404A (zh) 目标跟踪方法、装置和系统及存储介质
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN111709269B (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
US20230196841A1 (en) Behavior recognition artificial intelligence network system and method for efficient recognition of hand signals and gestures
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
CN115375742A (zh) 生成深度图像的方法及系统
WO2022017129A1 (zh) 目标对象检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination