CN116664856A - 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 - Google Patents
基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116664856A CN116664856A CN202310694347.XA CN202310694347A CN116664856A CN 116664856 A CN116664856 A CN 116664856A CN 202310694347 A CN202310694347 A CN 202310694347A CN 116664856 A CN116664856 A CN 116664856A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- dimensional
- point
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000002156 mixing Methods 0.000 title claims abstract description 11
- 238000003860 storage Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000008878 coupling Effects 0.000 claims abstract description 4
- 238000010168 coupling process Methods 0.000 claims abstract description 4
- 238000005859 coupling reaction Methods 0.000 claims abstract description 4
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000001502 supplementing effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 8
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Optical Radar Systems And Details Thereof (AREA)
Abstract
本发明提供了一种基于点云‑图像多交叉混合的三维目标检测方法、系统及存储介质,包括如下步骤:步骤一:分别对图像和原始点云提取特征,通过坐标细化模块将原始点位置编码与图像特征相结合,将采样点迭代地向边界框移动,增强图像与点云间的耦合度;步骤二:在体素鸟瞰特征提取过程中,将体素内的区域细粒度信息集成到全局特征中,用于补充Transformer缺乏局部信息,获得了更广感受野的鸟瞰特征图。本发明的优势:本发明融合了激光雷达和摄像头两种传感器的优势,实现自动驾驶领域中的3D目标检测的技术,能够对车辆、行人、骑行的人等目标进行准确的识别和定位,能够应用在实际的场景中。
Description
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质。
背景技术
3D目标检测是计算机视觉领域中一种重要的任务,它旨在从三维空间结构中检测目标的位置、尺寸、类等属性。为了弥补单一的相机和激光雷达的各自的缺点,多模态3D目标检测技术应运而生。主要是利用多个不同媒介的信息来检测和定位三维空间中的物体。多模态3D目标检测技术更好地检测复杂的场景中的物体,比如在遮挡、反射、复杂背景等情况下,更好地检测出目标物体。尽管多模态3D目标检测技术取得了一定的进展,但由于传感器的本质特性,激光雷达和相机检测到的物体信息之间存在较大的差异,这就导致了模型的训练数据不平衡,从而影响了模型的有效性。同时,由于数据的维度不同,数据处理方式也大不相同,从而导致了特征差异,影响了多模态数据间的耦合性。最后,目前先进的多模态Transformer方法主要是进行全局融合,即在整个场景中融合图像特征和点云特征。这种做法缺乏细粒度的区域级信息,无法充分探索全局上下文信息,导致远距离小目标难以捕捉。
发明内容
本发明提供了一种基于点云-图像多交叉混合的三维目标检测方法,包括如下步骤:
步骤一:分别对图像和原始点云提取特征,通过坐标细化模块将原始点位置编码与图像特征相结合,将采样点迭代地向边界框移动,增强图像与点云间的耦合度;
步骤二:在体素鸟瞰特征提取过程中,将体素内的区域细粒度信息集成到全局特征中,用于补充Transformer缺乏局部信息,获得了更广感受野的鸟瞰特征图;
步骤三:基于图像特征、鸟瞰特征和点级特征通过多交叉的Transformer融合成一个混合表示,最后采用区域提案网络和分类回归学习网络实现3D目标检测。
本发明还提供了一种基于点云-图像多交叉混合的三维目标检测系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述三维目标检测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的三维目标检测方法的步骤
本发明的有益效果是:本发明融合了激光雷达和摄像头两种传感器的优势,实现自动驾驶领域中的3D目标检测的技术,能够对车辆、行人、骑行的人等目标进行准确的识别和定位,能够应用在实际的场景中。
附图说明
图1是基于点云-图像多交叉混合的三维目标检测方法的框架图;
图2是图像自注意模块图;
图3点云坐标细化模块图;
图4是双流特征提取网络图;
图5是多交叉融合Transformer模块图。
具体实施方式
本发明公开了一种基于点云-图像多交叉混合的三维目标检测方法(PIMFormer),减少多模态信息融合的目标检测在降维过程中,局部信息和全局信息的不匹配的问题,提高3D目标检测的定位精度。
本发明适用于用于自动驾驶的多模态三维目标检测。行驶车辆采用多传感器采集目标数据,迭代地将来自不同模态数据有效融合,提高目标检测的精度。
本发明将图像特征、鸟瞰特征和点级特征,通过多模态Transformer来有效地融合,提高3D目标检测的定位精度。
如图1至5所示,本发明公开了一种基于点云-图像多交叉混合的三维目标检测方法,具体步骤如下:
步骤一:分别对图像和原始点云提取特征,设计了一个坐标细化模块将原始点位置编码与图像特征相结合,将采样点迭代地向边界框移动,增强图像与点云间的耦合度,解决偏移导致的匹配问题。
步骤1包括:
步骤1:基于视觉Transformer设计图像自注意模块。本发明采用修改过的ResNet作为2D骨干网络,将I∈RH×W×3的图像作为输入,其中H×W是原始图像的分辨率,图像的RGB通道数为3。通过骨干网络生成大小为的特征图FI。本发明图像自注意模块由自注意(SA)和前馈神经网络(FFN)两个子编码器层组成。每个子层由采用残差连接,然后进行归一化(LN)处理。首先,为了进一步采用Transformer编码处理2D图像,本发明将图像特征/>调整为一系列大小为的2D特征块FIB∈RN×D,其中P2是每个图像特征块的分辨率,故特征块的数量为/>也是Transformer的输入序列长度。具体而言,将输入图像特征/>变换为询问QI、键KI和值VI:QI=FIBWQ,KI=FIBWK,VI=FIBWV,其中/> 和/>为线性投影矩阵。再利用softmax函数对相关值进行归一化,从而得到注意力权重。最后通过点积计算,得到不同标记之间的相似度的到自注意加权值。因此,自注意加权值得到:/>随后,将得到的自注意加权值输入FFN中执行逐点操作。本发明采用多层感知器(MLP)作为FFN,因此得到FFN(x)=MLP(x)=σ((xw1+b1)w2+b2),其中利用/>作为第一层的权重,将x投影到维度K。/>为第二层的权值。b1∈RK和/>是偏差,并且σ(·)为非线性激活。综上,每个编码器的输出表示为/>最后将变换后的向量特征块F′IB再次重塑为二维特征图FI,以便后续的多交叉融合。
步骤2:采用点云坐标细化提取特征。本发明引入了双流网络来获取点云特征弥补图像对目标深度信息的缺失。首先对原始的点云提取点云特征。给定输入点云P={p1,p2,...,pN},为了采样更好地复盖整个点云,使用最远点抽样(FPS)来选择点的子集使得/>是相对于其他同点集/>总距离最远的点。然后采用球查询寻找中心点/>周围k个邻近点构造局部区域集Si。以这种方式,获得与目标相关联的特征。再对Ps领域内的点进行聚类,得到的每个局部特征再进行卷积和池化操作。所获得的多分辨率特征被用作中心点的局部特征。最后,通过PointNet将局部区域模式编码为特征向量/>其中/>和μ均为MLP网络。同时,为了建立了三维空间与图像特征的位置相关性,本发明将三维位置编码器引入特征提取网络,目的是通过将二维图像特征/>与三维位置信息相关联来获得三维特征因此,3D位置编码器表述为其中,θ(·)是位置编码函数中的位置编码(PE)部分所示。具体而言,给定二维特征FI和三维坐标pi,首先将pi送入多层感知(MLP)网络,并将其转换为三维位置嵌入(PE)。然后,对二维特征FI进行1×1卷积层变换,并加入三维PE形成三维位置感知特征/>最后,分别将三维位置特征/>和原始点云特征/>进行了合并为其中,/>为链接操作。
步骤二:在体素鸟瞰特征提取过程中,采用一种双流特征提取网络。将体素内的区域细粒度信息集成到全局特征中,用于补充Transformer缺乏局部信息,获得了更广感受野的鸟瞰特征图。
步骤二包括:
步骤A1:局部Transformer探索体素内部点的邻域关系。首先将W×H×D的点云空间延X、Y、Z轴划分为均匀分布的体素网格,其中每个体素大小为VW×VH×VD。由于点云的稀疏性,每个体素中的点数可能会有所不同。为了减少学习偏差,对每个体素随机采样点相同的数量N个点,若体素具有太少的点数据,则采用零填充。将每个体素内最靠近中心的点作为一个质心集合其中N为体素的个数。将体素/>内的点并馈送到基于自关注的局部结构中,用于体素内部信息聚合。给定输入/>输出的FL可得到:其中“⊙”是Hadamard积,j是体素/>内的采样点pj索引。特征线性转换函数β为产生能与自适应权重向量α(ci,pj)聚合的特征向量β(pj)。ρ是softmax函数。注意力权重的函数α计算权重ci和pj之间的权重,本发明将函数α分解如下:其中关系函数δ输出融合特征ci和pj的单个特征向量,本发明采用的是点积方法,/>和ψ是特征线性投影。映射函数γ为具有两个线性层和一个Relu非线性的MLP。
步骤A2:全局Transformer关注体素整体上下文关系。尽管局部层对长程依赖关系进行了探索,但局部转换层对点云进行局部处理。本发明还额外使用了一个全局转换层提供整体的上下文信息,它具有与局部转换层相似的转换结构,但以所有体素FL作为输入,而不是局部子集由局部和全局转换器层生成的特征被级联以集成局部和全局上下文。输出的体素FV可得到:/>最后采用子流形稀疏卷积提取特征,采用空间重构的方法将体素特征FV向下采样转化为鸟瞰(BEV)特征FB,并且馈送入多交叉融合模块。同时,基于FB生成高质量的三维预选框。简而言之,沿Z轴的三维特征进行叠加,并对得到大小为/>的FB进行评估,生成预选框并在后续进行优化。
步骤三:基于图像特征、鸟瞰特征和点级特征通过多交叉Transformer融合成一个混合表示,最后采用区域提案网络和分类回归学习网络实现3D目标检测。
步骤三包括:
步骤B1:类似于图像自注意模块的数据处理方式,分别通过点级特征投影的方式,得到与点级特征坐标P相对应的图像特征块坐标PI和鸟瞰特征块坐标PB,投影可得:其中,TLiDAR→cam和TLiDAR→bev分别为从LiDAR的坐标到相机和鸟瞰的变换矩阵,Crect和Rrect分别是相机的校准矩阵和校正旋转。
在获得了Fp相对应的FI和FB后,类似于图像自注意,本发明将输入点级特征Fp、FI和FB变换为询问Q*、键K*和值V*:其中,/>和为线性投影矩阵。本发明为了Transformer能够自适应地学习不同模态间权重来进行互补增强,因此,本发明对图像、点级和鸟瞰特征的问题矩阵进行交叉融合,得到新的融合查询/>然后,再将融合查询与另外一种模态的键K现结合,获得一种多模态的多交叉融合权重。例如:/>与KB结合。再利用归一化函数的到新的权重得分:通过点积计算得到新的图像、点级和鸟瞰特征最后,将具有多融合的跨模态交互的特征聚合为新的特征其中/>代表连接。
步骤B2:本发明首先通过体素鸟瞰图中一组预测边界框B={bk},其中每个边界框b=(u,v,d,w,l,h,θ)由中心位置(u,v,d)、边界框大小(w,l,h)和偏航旋转角度θ组成。本发明应用CenterPoint来预测指定类的热图、目标大小、细化位置和旋转角度。
综上本发明融合了激光雷达和摄像头两种传感器的优势,实现自动驾驶领域中的3D目标检测的技术,能够对车辆、行人、骑行的人等目标进行准确的识别和定位,能够应用在实际的场景中。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于点云-图像多交叉混合的三维目标检测方法,其特征在于,包括如下步骤:
步骤一:分别对图像和原始点云提取特征,通过坐标细化模块将原始点位置编码与图像特征相结合,将采样点迭代地向边界框移动,增强图像与点云间的耦合度;
步骤二:在体素鸟瞰特征提取过程中,将体素内的区域细粒度信息集成到全局特征中,用于补充Transformer缺乏局部信息,获得了更广感受野的鸟瞰特征图;
步骤三:基于图像特征、鸟瞰特征和点级特征通过多交叉的Transformer融合成一个混合表示,最后采用区域提案网络和分类回归学习网络实现3D目标检测。
2.根据权利要求1所述的三维目标检测方法,其特征在于,所述步骤一包括如下步骤:
步骤1,基于视觉Transformer设计图像自注意模块:采用修改过的ResNet作为2D骨干网络,将I的图像作为输入;通过骨干网络生成特征图FI;图像自注意模块由自注意和前馈神经网络两个子编码器层组成;每个子层由采用残差连接,然后进行归一化处理;将图像特征FI调整为一系列大小为的2D特征块FIB,特征块的数量为N,也是Transformer的输入序列长度;
步骤2,采用点云坐标细化提取特征:首先对原始的点云提取点云特征,给定输入点云P,使用最远点抽样来选择点的子集Ps,使得是相对于其他同点集/>总距离最远的点;然后采用球查询寻找中心点/>周围k个邻近点构造局部区域集Si,获得与目标相关联的特征;再对Ps领域内的点进行聚类,得到的每个局部特征再进行卷积和池化操作;所获得的多分辨率特征被用作中心点的局部特征,最后,通过PointNet将局部区域模式编码为特征向量/>其中/>和μ均为MLP网络;将三维位置编码器引入特征提取网络,通过将二维图像特征FI与三维位置信息相关联来获得三维特征/>3D位置编码器表述为:/>其中/>是位置编码函数中的位置编码部分所示。
3.根据权利要求2所述的三维目标检测方法,其特征在于,在所述步骤1中,将输入图像特征FIp变换为询问QI、键KI和值VI,再利用softmax函数对相关值进行归一化,从而得到注意力权重;最后通过点积计算,得到不同标记之间的相似度的到自注意加权值;因此,自注意加权值得到随后,将得到的自注意加权值输入FFN中执行逐点操作;采用多层感知器作为FFN,因此得到FFN(x)=MLP(x)=σ((xw1+b1)w2+b2),其中利用w1作为第一层的权重,将x投影到维度K,w2为第二层的权值,b1和b2是偏差,并且σ(·)为非线性激活;每个编码器的输出表示为/>最后将变换后的向量特征块F′IB再次重塑为二维特征图FI,以便后续的多交叉融合。
4.根据权利要求2所述的三维目标检测方法,其特征在于,在所述步骤1中,将I∈RH×W×3的图像作为输入,其中H×W是原始图像的分辨率,图像的RGB通道数为3;通过骨干网络生成大小为的特征图FI;将图像特征/>调整为一系列大小为的2D特征块/>其中P2是每个图像特征块的分辨率,故特征块的数量为/>
5.根据权利要求2所述的三维目标检测方法,其特征在于,在所述步骤2中,给定二维特征FI和三维坐标pi,首先将pi送入多层感知网络,并将其转换为三维位置嵌入,然后,对二维特征FI进行1×1卷积层变换,并加入三维PE形成三维位置感知特征最后,分别将三维位置特征/>和原始点云特征/>进行了合并为/>其中,/>为链接操作。
6.根据权利要求1所述的三维目标检测方法,其特征在于,所述步骤二包括如下步骤:
步骤A1:首先将W×H×D的点云空间延X、Y、Z轴划分为均匀分布的体素网格,其中每个体素大小为VW×VH×VD;对每个体素随机采样点相同的数量N个点,若体素具有小于设定值的点数据,则采用零填充;将每个体素内最靠近中心的点作为一个质心集合C,其中N为体素的个数;将体素内的点并馈送到基于自关注的局部结构中,用于体素内部信息聚合;给定输入/>输出的FL可得到:/>其中⊙是Hadamard积,j是体素内的采样点pj索引;特征线性转换函数β为产生能与自适应权重向量α(ci,pj)聚合的特征向量β(pj);ρ是softmax函数;注意力权重的函数α计算权重ci和pj之间的权重;
步骤A2:使用全局转换层提供整体的上下文信息,以所有体素FL作为输入,由局部和全局转换器层生成的特征被级联以集成局部和全局上下文;输出的体素FV可得到:最后采用子流形稀疏卷积提取特征,采用空间重构的方法将体素特征FV向下采样转化为鸟瞰特征FB,并且馈送入多交叉融合模块;同时,基于FB生成高质量的三维预选框。
7.根据权利要求6所述的三维目标检测方法,其特征在于,在所述步骤A1中,将函数α分解如下:其中关系函数δ输出融合特征ci和pj的单个特征向量,/>和ψ是特征线性投影,映射函数γ为具有两个线性层和一个Relu非线性的MLP。
8.根据权利要求1所述的三维目标检测方法,其特征在于,所述步骤三包括如下步骤:
步骤B1:分别通过点级特征投影的方式,得到与点级特征坐标P相对应的图像特征块坐标PI和鸟瞰特征块坐标PB,投影可得:其中,TLiDAR→cam和TLiDAR→bev分别为从LiDAR的坐标到相机和鸟瞰的变换矩阵,Crect和Rrect分别是相机的校准矩阵和校正旋转;在获得了Fp相对应的FI和FB后,将输入点级特征Fp、FI和FB变换为询问Q*、键K*和值V*;对图像、点级和鸟瞰特征的问题矩阵进行交叉融合,得到新的融合查询Q**;然后,再将融合查询与另外一种模态的键K现结合,获得一种多模态的多交叉融合权重;通过点积计算得到新的图像、点级和鸟瞰特征F′*,最后,将具有多融合的跨模态交互的特征聚合为新的特征F:/>其中/>代表连接。
步骤B2:通过体素鸟瞰图中一组预测边界框B={bk},其中每个边界框b=(u,v,d,w,l,h,θ)由中心位置(u,v,d)、边界框大小(w,l,h)和偏航旋转角度θ组成;应用CenterPoint来预测指定类的热图、目标大小、细化位置和旋转角度。
9.一种基于点云-图像多交叉混合的三维目标检测系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述三维目标检测方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的三维目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694347.XA CN116664856A (zh) | 2023-06-13 | 2023-06-13 | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694347.XA CN116664856A (zh) | 2023-06-13 | 2023-06-13 | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664856A true CN116664856A (zh) | 2023-08-29 |
Family
ID=87709479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310694347.XA Pending CN116664856A (zh) | 2023-06-13 | 2023-06-13 | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664856A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058646A (zh) * | 2023-10-11 | 2023-11-14 | 南京工业大学 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
CN117788962A (zh) * | 2024-02-27 | 2024-03-29 | 南京信息工程大学 | 基于持续学习的可扩展点云目标识别方法与系统 |
-
2023
- 2023-06-13 CN CN202310694347.XA patent/CN116664856A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058646A (zh) * | 2023-10-11 | 2023-11-14 | 南京工业大学 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
CN117058646B (zh) * | 2023-10-11 | 2024-02-27 | 南京工业大学 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
CN117788962A (zh) * | 2024-02-27 | 2024-03-29 | 南京信息工程大学 | 基于持续学习的可扩展点云目标识别方法与系统 |
CN117788962B (zh) * | 2024-02-27 | 2024-05-10 | 南京信息工程大学 | 基于持续学习的可扩展点云目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Vpfnet: Improving 3d object detection with virtual point based lidar and stereo data fusion | |
Jörgensen et al. | Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss | |
Yang et al. | Pixor: Real-time 3d object detection from point clouds | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN116664856A (zh) | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
Li et al. | Homogeneous multi-modal feature fusion and interaction for 3d object detection | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
Hu et al. | A video streaming vehicle detection algorithm based on YOLOv4 | |
CN114639115A (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN117351078A (zh) | 基于形状先验的目标尺寸与6d姿态估计方法 | |
CN111563423A (zh) | 基于深度去噪自动编码器的无人机图像目标检测方法及系统 | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
Li et al. | Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems | |
Fernando et al. | Transformer point net: cost-efficient classification of on-road objects captured by light ranging sensors on low-resolution conditions | |
Dong et al. | An Intelligent Detection Method for Optical Remote Sensing Images Based on Improved YOLOv7. | |
Hazarika et al. | Multi-camera 3D object detection for autonomous driving using deep learning and self-attention mechanism | |
Hazer et al. | Deep learning based point cloud processing techniques | |
Wei et al. | An Efficient Point Cloud-based 3D Single Stage Object Detector | |
Zhang et al. | Spatial and Temporal Awareness Network for Semantic Segmentation on Automotive Radar Point Cloud | |
Ahmed et al. | Lidar and camera data fusion in self-driving cars | |
Saravanarajan et al. | Geometric feature learning network for detecting the objects in urban streets | |
Liu et al. | Camera–Radar Fusion with Modality Interaction and Radar Gaussian Expansion for 3D Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |