CN116310684A - 基于Transformer的多模态特征融合的三维目标检测方法 - Google Patents
基于Transformer的多模态特征融合的三维目标检测方法 Download PDFInfo
- Publication number
- CN116310684A CN116310684A CN202310263222.1A CN202310263222A CN116310684A CN 116310684 A CN116310684 A CN 116310684A CN 202310263222 A CN202310263222 A CN 202310263222A CN 116310684 A CN116310684 A CN 116310684A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- feature
- iteration
- image
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 4
- 230000009466 transformation Effects 0.000 abstract description 4
- 230000008447 perception Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于Transformer的多模态特征融合的三维目标检测方法,包括:1.使用激光雷达采集点云数据并对点云数据进行采样,同时使用摄像头采集图像数据2.将激光雷达与摄像头采集到的数据输入基于Transformer的多模态特征融合RPN网络,提取区域建议框3.将区域建议框信息输入精细化网络,得到最终预测框。本发明能避免对基于多模态特征融合的目标检测过程中,误检、漏检的问题,从而能够保证对感知环境评估的准确性。
Description
技术领域
本发明涉及基于多传感器融合的环境感知技术领域,具体的说是一种基于Transformer的多模态特征融合的三维目标检测方法。
背景技术
当前的3D目标检测技术大致可分为仅激光雷达方法和多模态方法。仅激光雷达方法利用激光雷达摄取的点云来提取深度和几何结构信息,以理解3D场景。然而,仅激光雷达采集到的点云缺乏语义信息,因此可能会混淆具有相似结构的前景和背景,并导致误检,干扰正常驾驶。同时,点云的稀疏性影响了仅激光雷达方法识别远程物体和小物体的准确性。
在这种情况下,多模态方法越来越受到关注,研究人员致力于通过融合激光雷达和相机采集到的信息来感知周围环境。现有的多模态融合方法可分为前融合和后融合。后期融合方法鲁棒性强,但受到单模态检测器检测精度的限制,准确率有待提高。前融合方法可分为数据级融合和特征级融合,其准确率通常优于后融合方法,但它们难以解决异构的数据对齐问题。具体的,MV3D和AVOD算法通过融合区域特征进行预测。Huang Tengteng等人通过学习估计多模态特征的重要性,生成多模态之间的权重以融合多模态特征。但上述方法在执行过程中难以准确建立起不同传感器数据之间的对应关系,导致参与融合的点云特征与图像特征所包含的语义信息并不一致,融合后的特征图无法精准表述实际情况,严重影响检测的准确性。
发明内容
发明针对现有方法中存在的问题,提供了一种基于Transformer的多模态特征融合的三维目标检测方法,以期能实现三维检测过程中的多源异构特征融合,从而能保证对感知环境评估的准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于Transformer的多模态特征融合的三维目标检测方法的特点在于,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集所述目标场景的点云数据后进行采样,得到激光雷达特征序列Fp;其中,所述图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
所述激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;所述信息包括中心坐标(xo,yo,zo)以及反射强度ro;
B、建立基于Transformer的多模态特征融合RPN网络,包括:K个SetAbstraction层、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个Feature Propagation层、二维转置卷积层、分类层和回归层;其中,所述卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
B2、第k+1个SetAbstraction层对所述第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征且/>的维度为其中,Nr/(4(k+1))表示/>的点云数据个数,/>表示/>中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对所述第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,且Fi k+1的维度为其中,Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>表示Fi k+1中每个特征元素点包含的特征通道数;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征和最终图像特征Fi K+1进行特征融合,获得融合语义信息的点云特征Fep,且Fep的维度为(Nr/4,C),其中,C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入所述分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN;
C、将所述区域建议框信息输入所述精细化网络进行处理,得到最终预测框信息,包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult。
本发明所述的基于Transformer的多模态特征融合三维目标检测方法的特点也在于,所述B4中的Transformer多模态特征融合模块包括:两个全连接层、两个Transformer交叉注意力模块,并按如下步骤进行特征融合:
B4.1、将所述第k+1次迭代的高层次图像特征Fi k+1压缩成维度为的第k+1次迭代的高层次压缩图像特征/>然后将所述第k+1次迭代的高层次激光雷达点云特征/>与所述高层次压缩图像特征/>分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>与第k+1次迭代的待融合的高层次图像特征Fi′k+1,其中,/>的维度为(Nr/(4(k+1)),Ck+1),Fi′k+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;
B4.3、将Fi′k+1与进行级联连接,获得第k+1次迭代的级联连接图像特征/>后输入第二全连接层中进行处理,获得第k+1次迭代的增强图像特征/>其中,/>的维度为((Hr×Wr)/4k+1,2Ck+1),/>的维度为((Hr×Wr)/4k+1,Ck+1);
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述三维目标检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述三维目标检测方法的步骤。
与现有技术相比,本发明的有益效果在于:
1.本发明针对基于多传感器特征级融合的三维目标检测方法异构数据对齐困难的问题,提出了一种基于Transformer的多模态特征融合三维目标检测方法,利用传统Transformer网络能够动态动态估计两种模态之间的相关性的特点,让网络自动对齐多源异构数据,从而提高了基于多传感器融合的目标检测的准确率,有利于智能车辆环境感知能力的提高。
2.本发明提出了一种基于Transformer的多源异构特征双向增强融合策略。与先前的基于Transformer的多模态融合方法相比,本发明方法首先利用Transformer网络提取基于注意力的自适应点云特征,接着将图像特征与自适应点云特征级联来增强图像特征,接着基于Transformer网络使用增强图像特征生成基于注意力的自适应图像特征,最后将点云特征与自适应图像特征级联以获取被语义信息增强的点云特征,解决了基于Transformer的多模态特征融合策略过于单一、无法充分发挥Transformer网络优越性的问题,从而优化了特征级融合的自适应性,提高了基于多传感器融合的目标检测的准确性,有利于智能车辆环境感知能力的提高。
附图说明
图1为本发明多模态特征融合的三维目标检测方法的整体流程图;
图2为本发明基于Transformer的多源异构特征双向增强融合策略的流程图;
图3为本发明机器视觉检测效果图。
具体实施方式
本实施例中,一种基于Transformer的多模态特征融合三维目标检测方法,如图1所示,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集目标场景的点云数据后进行采样,采样过程包括:将激光雷达采集到的点云数量记作No,并规定采样后的点云数量Nr,若No>Nr,则对激光雷达采集到的点云进行随机下采样直至点云数量为Nr,若No<Nr,则对激光雷达采集到的点云进行随机复制直至点云数量达到Nr,输出激光雷达特征序列Fp,其中,其中,图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;信息包括中心坐标(xo,yo,zo)以及反射强度ro。本实施例中,设置No=16384;
B、建立基于Transformer的多模态特征融合RPN网络包括:K个PointNet++算法的Set Abstraction层(SA层)、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个PointNet++算法的Feature Propagation层(FP层)、二维转置卷积层、分类层和回归层;其中,卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
将图像Pi作为第k次迭代的图像特征Fi k,激光雷达特征序列Fp作为第k次迭代的激光雷达点云特征Fp k;
B2、第k+1个Set Abstraction层对第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征包括:利用FPS算法选取相互间距离最大的No'个点,本实施例中,设置No'=Nr/(4(k+1));然后利用ball query算法,以上述No'个点为质心,在半径为ro的球体范围内采样Ko个点,本实施例中,设置ro=0.5(k+1),Ko=32;最后,将这No'个球体分别输入PointNet层,得到高层次激光雷达点云特征/>其中,/>的维度为/>其中,Nr/(4(k+1))表示/>的点云数据个数,/>表示/>中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,其中,Fi k+1的维度为Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>表示Fi k+1中每个特征元素点包含的特征通道数;
B4、第k+1个Transformer多模态特征融合模块对第k+1次迭代的高层次激光雷达点云特征和第k+1次迭代高层次图像特征Fi k+1进行特征融合,得到第k+1次迭代的增强点云特征/>其中,Transformer多模态特征融合模块的流程图如图2所示:
B4.1、将第k+1次迭代的高层次图像特征Fi k+1压缩成维度为的第k+1次迭代的高层次压缩图像特征/>然后将第k+1次迭代的高层次激光雷达点云特征/>与高层次压缩图像特征/>分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>与第k+1次迭代的待融合的高层次图像特征Fi′k+1,其中,/>的维度为(Nr/(4(k+1)),Ck+1),Fi′k+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;本发明中,设置/>
B4.2、第一个Transformer交叉注意力模块对与Fi′k+1进行处理,获得第k+1次迭代的自适应点云特征/>获得自适应点云特征/>其中Transformer交叉注意力模块由式(1)所表征,包括:先将待融合高层次图像特征Fi k+1'映射到图像Query矩阵/>同时将待融合高层次激光雷达点云特征/>映射到点云Key矩阵/>和点云Value矩阵/>即:
其中,级联拼接是指在特征张量第2维进行拼接,级联拼接是指在特征张量第2维进行拼接,级联连接图像特征大小为((Hr×Wr)/4k+1,2Ck+1),全连接层输出的增强图像特征是大小为((Hr×Wr)/4k+1,Ck+1)的特征张量;
B4.4、利用第二个Transformer交叉注意力模块对和/>进行处理,第k+1次迭代的自适应图像特征/>其中Transformer交叉注意力模块由式(7)所表征,包括:先将待融合高层次激光雷达点云特征/>映射到点云Query矩阵/>将增强图像特征/>映射到图像Key矩阵/>和图像Value矩阵Vi k+1,即:
Vi k+1=Fi k+1'·Wi V (9)
B5、将赋值给/>将Fi k+1赋值给Fi k,将k+1赋值给k后,返回步骤B2顺序执行,直到k=K为止,从而获得K个高层次激光雷达点云特征/>和高层次图像特征{Fi k|k=1,2,…,K}Pi 4;
式(13)中:ωi(x)计算点权重,它与距离成反比,距离越近,影响越大。fi (j)表示已知点的值,f(j)表示未知点的值,s表示在已知点集中取s个点进行插值计算,e表示距离对权重的影响程度;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征和最终图像特征Fi K+1进行特征融合,获得融合语义信息的点云特征Fep,其中,Fep的维度为(Nr/4,C),C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN;区域建议物体的2D边界框大小bboxRPN包括:2D边界框中心点坐标(xRPN_2D,yRPN_2D),长wRPN_2D和宽hRPN_2D;区域建议物体的3D边界框尺寸dimensionsRPN包括:长wRPN_3D,宽hRPN_3D和高lRPN_3D;区域建议物体的3D边界框位置locationRPN包括:(xRPN_3D,yRPN_3D,zRPN_3D);
C、将步骤B10中区域建议框信息输入PointRCNN算法的精细化网络,精细化网络包括:用于提取全局描特征的3个SA层,以及两个子网络,两个字网络均具有两个级联的1×1卷积层,分别用于分类和回归,从而得到最终预测框信息,其中,最终预测框信息包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult;最终预测物体的2D预测框大小bboxresult包括:2D预测框中心点坐标(xresult_2D,yresult_2D),长wresult_2D和宽hresult_2D;最终预测物体的3D预测框尺寸dimensionsresult包括:长wresult_3D,宽hresult_3D和高lresult_3D;最终预测物体的3D预测框位置locationresult包括:(xresult_3D,yresult_3D,zresult_3D),检测效果图如图3所示,图中白色框即代表网络检测到的最终预测框。
本实施例中,设计一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该多模态特征融合三维目标检测方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,设计一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该多模态特征融合三维目标检测方法的步骤。
Claims (4)
1.一种基于Transformer的多模态特征融合的三维目标检测方法,其特征在于,包括如下步骤:
A、使用摄像头采集目标场景的图像Pi,同时使用激光雷达采集所述目标场景的点云数据后进行采样,得到激光雷达特征序列Fp;其中,所述图像Pi的维度为(Hr,Wr,3),其中,Hr表示图像Pi的高度,Wr表示图像Pi的宽度,3表示图像Pi的RGB通道数;
所述激光雷达特征序列Fp的维度为(Nr,4),其中,Nr表示点云数据的个数,4表示每个点云数据的信息数;所述信息包括中心坐标(xo,yo,zo)以及反射强度ro;
B、建立基于Transformer的多模态特征融合RPN网络,包括:K个SetAbstraction层、K+1个卷积模块、K+1个Transformer多模态特征融合模块、K个Feature Propagation层、二维转置卷积层、分类层和回归层;其中,所述卷积模块依次包括:第一卷积层、一个批归一化层、一个ReLU激活函数层和第二卷积层;
B1、定义当前迭代次数为k,并初始化k=0,令K表示总的迭代次数;
B2、第k+1个SetAbstraction层对所述第k次迭代的激光雷达点云特征Fp k进行编码,得到第k+1次迭代的高层次激光雷达点云特征且/>的维度为/>其中,Nr/(4(k+1))表示/>的点云数据个数,/>表示/>中每个点云数据包含的特征通道数;
B3、第k+1个卷积模块对所述第k次迭代的图像特征Fi k进行编码,获得第k+1次迭代的高层次图像特征Fi k+1,且Fi k+1的维度为其中,Hr/2k+1×Wr/2k+1表示Fi k+1包含的特征元素点个数,/>表示Fi k+1中每个特征元素点包含的特征通道数;
B9、第K+1个Transformer多模态特征融合模块对最终点云特征和最终图像特征Fi K +1进行特征融合,获得融合语义信息的点云特征Fep,且Fep的维度为(Nr/4,C),其中,C表示Fep中每个点云数据的特征通道数;
B10、将Fep分别输入所述分类层和回归层中进行处理,获得区域建议框信息,包括:区域建议物体类别typeRPN、区域建议物体的2D边界框大小bboxRPN、区域建议物体的3D边界框尺寸dimensionsRPN、区域建议物体的3D边界框位置locationRPN、区域建议物体的3D边界框空间方向rotationRPN以及区域建议网络检测的置信度scoreRPN;
C、将所述区域建议框信息输入所述精细化网络进行处理,得到最终预测框信息,包括:最终预测物体类别typeresult、最终预测物体的2D预测框大小bboxresult、最终预测物体的3D预测框尺寸dimensionsresult、最终预测物体的3D预测框位置locationresult、最终预测物体的3D预测框空间方向rotationresult以及网络最终预测的置信度scoreresult。
2.根据权利要求1所述的基于Transformer的多模态特征融合三维目标检测方法,其特征在于,所述B4中的Transformer多模态特征融合模块包括:两个全连接层、两个Transformer交叉注意力模块,并按如下步骤进行特征融合:
B4.1、将所述第k+1次迭代的高层次图像特征Fi k+1压缩成维度为的第k+1次迭代的高层次压缩图像特征/>然后将所述第k+1次迭代的高层次激光雷达点云特征/>与所述高层次压缩图像特征/>分别输入第一全连接层中进行处理,得到第k+1次迭代的待融合的激光雷达点云特征/>与第k+1次迭代的待融合的高层次图像特征Fi′k+1,其中,/>的维度为(Nr/(4(k+1)),Ck+1),Fi′k+1的维度为((Hr×Wr)/4k+1,Ck+1),Ck+1表示待融合特征的通道数;
B4.3、将Fi′k+1与进行级联连接,获得第k+1次迭代的级联连接图像特征/>后输入第二全连接层中进行处理,获得第k+1次迭代的增强图像特征/>其中,/>的维度为((Hr×Wr)/4k+1,2Ck+1),/>的维度为((Hr×Wr)/4k+1,Ck+1);
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1或2所述三维目标检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1或2所述三维目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263222.1A CN116310684A (zh) | 2023-03-17 | 2023-03-17 | 基于Transformer的多模态特征融合的三维目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263222.1A CN116310684A (zh) | 2023-03-17 | 2023-03-17 | 基于Transformer的多模态特征融合的三维目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310684A true CN116310684A (zh) | 2023-06-23 |
Family
ID=86818223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310263222.1A Pending CN116310684A (zh) | 2023-03-17 | 2023-03-17 | 基于Transformer的多模态特征融合的三维目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310684A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116902003A (zh) * | 2023-07-31 | 2023-10-20 | 合肥海普微电子有限公司 | 基于激光雷达与摄像头混合模态的无人驾驶方法 |
CN117058472A (zh) * | 2023-10-12 | 2023-11-14 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
-
2023
- 2023-03-17 CN CN202310263222.1A patent/CN116310684A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116902003A (zh) * | 2023-07-31 | 2023-10-20 | 合肥海普微电子有限公司 | 基于激光雷达与摄像头混合模态的无人驾驶方法 |
CN116902003B (zh) * | 2023-07-31 | 2024-02-06 | 合肥海普微电子有限公司 | 基于激光雷达与摄像头混合模态的无人驾驶方法 |
CN117058472A (zh) * | 2023-10-12 | 2023-11-14 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
CN117058472B (zh) * | 2023-10-12 | 2024-02-20 | 华侨大学 | 基于自注意力机制的3d目标检测方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
CN111161349B (zh) | 物体姿态估计方法、装置与设备 | |
CN116310684A (zh) | 基于Transformer的多模态特征融合的三维目标检测方法 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
WO2023019875A1 (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN113052109A (zh) | 一种3d目标检测系统及其3d目标检测方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
JP6756406B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN113239907A (zh) | 一种人脸识别的检测方法、装置、电子设备及存储介质 | |
US20230298307A1 (en) | System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm) | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
CN116385810B (zh) | 一种基于YOLOv7的小目标检测方法及系统 | |
CN113313703A (zh) | 基于深度学习图像识别的无人机输电线巡检方法 | |
CN112200056A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN114519853A (zh) | 一种基于多模态融合的三维目标检测方法及系统 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN110909685A (zh) | 姿势估计方法、装置、设备及存储介质 | |
CN110992404A (zh) | 目标跟踪方法、装置和系统及存储介质 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
US20230196841A1 (en) | Behavior recognition artificial intelligence network system and method for efficient recognition of hand signals and gestures | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
CN115375742A (zh) | 生成深度图像的方法及系统 | |
WO2022017129A1 (zh) | 目标对象检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |