CN113870318A - 一种基于多帧点云的运动目标检测系统和方法 - Google Patents
一种基于多帧点云的运动目标检测系统和方法 Download PDFInfo
- Publication number
- CN113870318A CN113870318A CN202111456208.0A CN202111456208A CN113870318A CN 113870318 A CN113870318 A CN 113870318A CN 202111456208 A CN202111456208 A CN 202111456208A CN 113870318 A CN113870318 A CN 113870318A
- Authority
- CN
- China
- Prior art keywords
- target
- module
- tensor
- feature tensor
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多帧点云的运动目标检测系统和方法,系统包括体素特征提取模块,将连续帧点云序列进行体素化,并提取特征张量序列;转换模块,对特征张量序列通过跨模态注意力模块进行匹配融合,将第一特征张量与第二特征张量融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量;跨模态注意力模块,将两个特征张量,根据注意力机制,通过卷积神经网络融合,得到融合后的特征张量;识别模块,对最终融合后的特征张量进行特征提取,输出目标的检测信息。方法包括:S1,构建各系统模块;S2,通过训练集数据,对模型进行训练;S3,通过训练好的模型进行预测。
Description
技术领域
本发明涉及三维目标检测技术领域,尤其是涉及一种基于多帧点云的运动目标检测系统和方法。
背景技术
现阶段自动驾驶技术应用越来越广泛,感知技术中尤其是基于点云的三维目标检测技术是自动驾驶技术中最重要的任务之一。现阶段效果较佳的基于点云的三维目标检测技术包括论文《Sparsely Embedded Convolutional Detection》、《3D Object ProposalGeneration and Detection from Point Cloud》以及专利《一种基于激光点云的三维目标检测系统及其检测方法》、《一种基于点云的三维目标检测方法》等,但上述现有技术存在一下问题:首先上述方法未考虑连续帧点云数据,不但没有预测目标轨迹,而且也影响目标的检测精度;其次上述方法完全依赖于训练数据集的固有类别,即当实际场景中出现训练集没有的类别,会产生目标漏检的现象。
发明内容
为解决现有技术的不足,本发明不但考虑多帧点云数据,并且对运动目标的检测,不强依赖训练集目标的类别,从而实现能够预测目标轨迹、提高检测精度,以及避免漏检的目的,本发明采用如下的技术方案:
一种基于多帧点云的运动目标检测系统,包括体素特征提取模块、转换模块和识别模块,转换模块包括跨模态注意力模块;
所述体素特征提取模块,将连续帧点云序列{Pointcloud[i],0<i<=N}进行体素化,并提取特征张量序列{F_Base[i],0<i<=N},i表示帧索引,N表示帧数;
所述转换模块,获取特征张量序列{F_Base[i],0<i<=N},通过跨模态注意力模块,将第一特征张量与第二特征张量进行融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量F_Base_fusion_seq[N-1,N];
所述跨模态注意力模块,将两个特征张量,根据注意力机制进行匹配融合,并通过卷积神经网络融合,得到融合后的特征张量;
所述识别模块,对最终融合后的特征张量F_Base_fusion_seq[N-1,N]进行特征提取,输出目标的检测信息。
进一步地,体素特征提取模块根据每帧激光雷达对应的位姿{Pose[i],0<i<=N},将连续帧点云序列{Pointcloud[i],0<i<=N}转换到大地坐标系C_Base上,并对转换后的连续帧点云序列{Pointcloud_Base[i],0<i<=N}进行体素化,大地坐标系C_Base是相对于大地的固定预设坐标原点的笛卡尔正交坐标系,以第一帧点云数据向前方向为大地坐标系C_Base的X轴正方向,向右方向为大地坐标系C_Base的Y轴正方向,向上方向为大地坐标系C_Base的Z轴正方向。
进一步地,体素化是通过构建体素大小及体素化范围,将每个体素内所有点的均值作为体素化特征,体素化特征大小为C*D*W*H,C表示特征通道数,D表示高度,W表示宽度,H表示长度。
进一步地,提取特征张量是对体素化得到的特征序列{Voxel_Base[i],0<i<=N},通过三维稀疏卷积模块进行特征提取,得到特征张量序列{F_Base[i],0<i<=N},三维稀疏卷积模块包括一组子卷积模块,子卷积模块包括三维子流行卷积层、归一化层和Relu层。
进一步地,转换模块将形状大小为C*D*W*H的特征张量F_Base[i],重塑成大小为C*(D*W*H)的特征张量F_Base_seq[i],C表示特征通道数,D表示高度,W表示宽度,H表示长度,再对重塑后的特征张量序列{F_Base_seq[i],0<i<=N}进行匹配融合。
进一步地,所述特征张量序列为{F_Base_seq[i],0<i<=N},i表示帧索引,N表示帧数,对序列中的特征张量进行匹配融合,得到融合后的特征张量F_Base_fusion_seq[j,j+1],j表示帧索引,0<j<=N,当j=1时,对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合,当1<j<N时,对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合,输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。
进一步地,跨模态注意力模块的匹配融合如下:
其中,Q_a=X_a*W_Q和Q_b=X_b*W_Q分别表示注意力机制中的Query,K_a=X_a*W_K和K_b=X_b*W_K分别表示注意力机制中Key,V_a=X_a*W_V和V_b=X_b*W_V分别表示注意力机制中Value,X_a和X_b表示待融合的两个特征张量,W_Q、W_K以及*W_V分别表示可训练权重矩阵,d分别表示Q_a与K_b的维度和Q_b与K_a的维度,Trans()为矩阵转置操作,softmax_col()表示矩阵按列进行归一化操作;
再将Y(X_a, X_b)和Y(X_b, X_a)通过卷积神经网络进行融合,得到融合后的特征张量:
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))
其中,Conv()表示卷积神经网络。
进一步地,识别模块将最终融合后的特征张量F_Base_fusion_seq[N-1,N]重塑成形状大小为(C*D)W*H的特征张量F_Base_fusion,再对重塑后的特征张量进行特征提取,输出目标的检测信息。
进一步地,识别模块通过一组二维卷积神经网络,分别获取目标中心点在C_Base大地坐标系下的三维坐标hm、目标中心点的运动方向diret、目标中心点偏移量offset、目标中心点预测轨迹trajectory、目标的长宽高dim、目标的高度z和目标的类别信息;训练阶段,目标中心点三维坐标的检测采用Focal_loss损失函数,目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,目标中心点的偏移量的回归采用L1_Loss损失函数,目标中心点的预测轨迹的回归采用L1_Loss损失函数,目标的长宽高以及目标高度(Z轴坐标)的回归采用SmothL1_loss损失函数,其中不同检测分支的损失分配不同的权重,最终得到训练好的系统。
一种基于多帧点云的运动目标检测方法,包括如下步骤:
S1,构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块;
S2,通过训练集数据,对模型进行训练;
S3,通过训练好的模型进行预测。
本发明的优势和有益效果在于:
本发明通过多帧融合的机制,判断目标的运动状态,从而判断目标采用的运动方式,例如两轮运动、四轮运动、两足运动、四足运动等;当训练数据集中只有人,轿车两种类别,在实际预测中,出现卡车的目标类别时,同样可以通过多帧信息,识别出它是四轮运动,不依赖训练数据集中的固有类别,从而在提高检测精度的同时,避免了目标漏检的现象。
附图说明
图1是本发明的方法流程图。
图2是本发明中稀疏3D_Conv的网络结构示意图。
图3是本发明中卷积神经网络的网络结构示意图。
图4是本发明的系统结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的实施例采用的kitti数据集,其中,实施例的数据集包括5000段长度为10的连续帧点云数据、点云采集设备激光雷达的位姿以及目标的三维信息标签,其中4000段数据为训练集,1000段数据为验证集。
如图1所示,一种基于多帧点云的运动目标检测系统和方法,包括以下步骤:
第一步:首先构造体素特征提取模块。
输入长度为10的连续帧点云序列{Pointcloud[i]|i为帧索引,0<i<=10}以及每帧激光雷达传感器的位姿{Pose[i]|i为帧索引,0<i<=N}。
将长度为10的连续帧点云序列,通过每帧激光雷达的位姿,转换到C_Base坐标系上,得到10帧新的点云序列{Pointcloud_Base[i]|i为帧索引,0<i<=10},其中C_Base坐标系为以相对于大地的固定预设坐标原点的笛卡尔正交坐标系,第一帧点云数据向前方向为C_Base坐标系的X轴正方向,向右方向为C_Base坐标系的Y轴正方向,向上方向为C_Base坐标系的Z轴正方向。
对长度为10的连续帧点云序列{Pointcloud_Base[i]|i为帧索引,0<i<=10}进行体素化,并得到10帧点云体素化后的特征{Voxel_Base[i]|i为帧索引,0<i<=10},其中体素化的点云特征序列在X、Y、Z轴的取值范围分别是[0米, 70.4米],[-40米, 40米],[-3米, 1米],每个体素的大小为[0.05米, 0.05米, 0.1米],每个体素化特征为体素内所有点的均值。体素化后的特征大小为C*D*W*H,C表示特征通道数,D表示高度,W表示宽度,H表示长度,本实施例中的大小为3*40*1600*1408。
对体素化特征序列{Voxel_Base[i]|i为帧索引,0<i<=10}通过稀疏3D_Conv进行特征提取,得到特征张量序列{F_Base[i]|i为帧索引,0<i<=10},形状大小为64* 2* 200*176,其中稀疏3D_Conv的网络结构如图2所示,包括一组子卷积模块,卷积模块由子流行卷积层、归一化层和Relu层,具体网络参数如下表所示:
F_Base[i]为体素特征提取模块的输出。
第二步,构造Crossmodal_Attention模块。
输入为两个特征张量,X_a和X_b(张量的选取在第三步中设置,第三步是对第二步的调用)。
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))。
,其中Q_a=X_a*W_Q作为Query,K_b
=X_b*W_K作为Key,V_b=X_b*W_V作为Value,W_Q、W_K以及*W_V分别为可训练权重矩阵;d为
Q_a与K_b的维度;Trans()为矩阵转置函数;softmax_col()为矩阵按列进行归一化操作。
Conv()为卷积神经网络函数,将Y(X_a, X_b),Y(X_b, X_a)进行Concat再通过1*1卷积神经网络融合,得到特征张量Crossmodal_Attention(X_a,X_b),形状大小为64*(200*176*2)。
第三步:构造Transformer模块。
输入为长度为10的连续帧特征张量序列{F_Base[i]|i为帧索引,0<i<=10}。将{F_Base[i]|i为帧索引,0<i<=10}reshape成形状大小为64*(2*200*176)的特征序列{F_Base_seq[i]|i为帧索引,0<i<=10}。
使用Crossmodal_Attention对{F_Base[i]|i为帧索引,0<i<=N}特征序列进行匹配融合。其中当j=1时,F_Base_fusion_seq[1,2]=Crossmodal_Attention(F_Base_seq[1],F_Base_seq[2]),当1<j<10时,F_Base_fusion_seq[j,j+1]=Crossmodal_Attention(F_Base_fusion_seq[j-1,j],F_Base_seq[j+1]),其中,j为帧索引,Crossmodal_Attention为多帧融合模块,特征张量F_Base_fusion_seq[10-1,10]为Transformer模块的输出。
第四步,构造识别模块。
输入为F_Base_fusion_seq[10-1,10],将其reshape成形状大小为(C*D)*W*H,本实施例中为128*200*176的特征张量F_Base_fusion。使用卷积神经网络对特征张量F_Base_fusion进行特征提取,并输出目标的检测信息,包括目标中心点在C_Base坐标系下的三维坐标hm、目标的长宽高dim、目标中心点的运动方向diret、目标中心点偏移量offset、目标的高度z、目标的类别信息,目标类别信息包括两轮运动、四轮运动、两足运动、四足运动,针对于kitti数据,将轿车划分为四足运动,行人划分为两足运动,骑自行车的人划分为两轮运动。卷积神经网络的网络结构如图3所示,具体网络参数如下表所示:
第五步,如图4所示,对各模块进行连接,训练。
使用kitti训练集数据对神经网络进行训练,其中针对于目标中心点的检测采用Focal_loss损失函数,针对目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,针对目标中心点的偏移量的回归采用L1_Loss损失函数,针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。其中不同检测分支的损失分配不同的权重。最后,得到训练好的模型。
第六步,推理测试。
加载训练好的模型,使用kitti的验证集数据对神经网络进行推理测试。
所述采用本发明实施方案中的基于多帧点云的运动目标检测系统和方法,与现阶段较为流行的基于纯点云的三维目标检测方案PointPillars、PointRCNN、Second相对比,在同样的训练集以及模型参数优化方法下,各自在验证集的各类别指标的3D map比较如下表所示:
通过上表可以看出,本发明相对于现有的主流方法,在三维目标检测精度上有较大的提升,且本发明的整体效率只降低了15ms,保证了三维目标检测的实时性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于多帧点云的运动目标检测系统,包括体素特征提取模块、转换模块和识别模块,其特征在于所述转换模块包括跨模态注意力模块;
所述体素特征提取模块,将连续帧点云序列进行体素化,并提取特征张量序列;
所述转换模块,获取特征张量序列,通过跨模态注意力模块,将第一特征张量与第二特征张量进行融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量;跨模态注意力模块,将两个特征张量,根据注意力机制进行匹配融合,并通过卷积神经网络融合后,得到融合后的特征张量;
所述识别模块,对最终融合后的特征张量进行特征提取,输出目标的检测信息。
2.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述体素特征提取模块,根据每帧对应的位姿,将连续帧点云序列转换到大地坐标系,并对转换后的连续帧点云序列进行体素化,大地坐标系是相对于大地的固定预设坐标原点的笛卡尔正交坐标系,以第一帧点云数据向前方向为大地坐标系的X轴正方向,向右方向为大地坐标系的Y轴正方向,向上方向为大地坐标系的Z轴正方向。
3.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述体素化,通过构建体素大小及体素化范围,将每个体素内点的均值作为体素化特征。
4.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述提取特征张量,是对体素化得到的特征,通过稀疏卷积模块进行特征提取,得到特征张量,稀疏卷积模块包括一组子卷积模块,子卷积模块包括子流行卷积层、归一化层和Relu层。
5.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述转换模块,将形状大小为C*D*W*H的特征张量重塑成大小为C*(D*W*H)的特征张量,C表示特征通道数,D表示高度,W表示宽度,H表示长度,再对重塑后的特征张量序列进行匹配融合。
6.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述特征张量序列为{F_Base_seq[i],0<i<=N},i表示帧索引,N表示帧数,对序列中的特征张量进行匹配融合,得到融合后的特征张量F_Base_fusion_seq[j,j+1],j表示帧索引,0<j<=N,当j=1时,对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合,当1<j<N时,对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合,输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。
7.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述跨模态注意力模块的匹配融合如下:
其中,Q_a=X_a*W_Q和Q_b=X_b*W_Q分别表示注意力机制中的Query,K_a=X_a*W_K和K_b=X_b*W_K分别表示注意力机制中Key,V_a=X_a*W_V和V_b=X_b*W_V分别表示注意力机制中Value,X_a和X_b表示待融合的两个特征张量,W_Q、W_K以及*W_V分别表示可训练权重矩阵,d分别表示Q_a与K_b的维度和Q_b与K_a的维度,Trans()为矩阵转置操作,softmax_col()表示矩阵按列进行归一化操作;
再将Y(X_a, X_b)和Y(X_b, X_a)通过卷积神经网络进行融合,得到融合后的特征张量:
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))
其中,Conv()表示卷积神经网络。
8.根据权利要求5所述的一种基于多帧点云的运动目标检测系统,其特征在于所述识别模块,将最终融合后的特征张量重塑成形状大小为(C*D)*W*H的特征张量,再对重塑后的特征张量进行特征提取,输出目标的检测信息。
9.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述识别模块,通过一组卷积神经网络,分别获取目标中心点坐标、目标中心点的运动方向、目标中心点偏移量、目标的长宽高、目标的高度和目标的类别信息;训练阶段,目标中心点坐标的检测采用Focal_loss损失函数,目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,目标中心点的偏移量的回归采用L1_Loss损失函数,目标中心点的预测轨迹的回归采用L1_Loss损失函数,目标的长宽高以及目标高度的回归采用SmothL1_loss损失函数,其中不同检测分支的损失分配不同的权重,最终得到训练好的模型。
10.一种使用如权利要求1所述的一种基于多帧点云的运动目标检测系统的目标检测方法,其特征在于包括如下步骤:
S1,构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块;
S2,通过训练集数据,对模型进行训练;
S3,通过训练好的模型进行预测。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456208.0A CN113870318B (zh) | 2021-12-02 | 2021-12-02 | 一种基于多帧点云的运动目标检测系统和方法 |
PCT/CN2022/098356 WO2023098018A1 (zh) | 2021-12-02 | 2022-06-13 | 一种基于多帧点云的运动目标检测系统和方法 |
US18/338,328 US11900618B2 (en) | 2021-12-02 | 2023-06-20 | System and method for detecting moving target based on multi-frame point cloud |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456208.0A CN113870318B (zh) | 2021-12-02 | 2021-12-02 | 一种基于多帧点云的运动目标检测系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870318A true CN113870318A (zh) | 2021-12-31 |
CN113870318B CN113870318B (zh) | 2022-03-25 |
Family
ID=78985530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111456208.0A Active CN113870318B (zh) | 2021-12-02 | 2021-12-02 | 一种基于多帧点云的运动目标检测系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11900618B2 (zh) |
CN (1) | CN113870318B (zh) |
WO (1) | WO2023098018A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067371A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 一种跨模态行人轨迹生成式预测框架、方法和装置 |
CN114322994A (zh) * | 2022-03-10 | 2022-04-12 | 之江实验室 | 一种基于离线全局优化的多点云地图融合方法和装置 |
CN114494248A (zh) * | 2022-04-01 | 2022-05-13 | 之江实验室 | 基于点云和不同视角下的图像的三维目标检测系统及方法 |
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测系统和方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665019B (zh) * | 2023-07-31 | 2023-09-29 | 山东交通学院 | 一种用于车辆重识别的多轴交互多维度注意力网络 |
CN116664874B (zh) * | 2023-08-02 | 2023-10-20 | 安徽大学 | 一种单阶段细粒度轻量化点云3d目标检测系统及方法 |
CN117014633B (zh) * | 2023-10-07 | 2024-04-05 | 深圳大学 | 一种跨模态数据压缩方法、装置、设备及介质 |
CN117392396B (zh) * | 2023-12-08 | 2024-03-05 | 安徽蔚来智驾科技有限公司 | 跨模态目标状态的检测方法、设备、智能设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080210A1 (en) * | 2017-09-13 | 2019-03-14 | Hrl Laboratories, Llc | Independent component analysis of tensors for sensor data fusion and reconstruction |
CN111429514A (zh) * | 2020-03-11 | 2020-07-17 | 浙江大学 | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 |
CN112731339A (zh) * | 2021-01-04 | 2021-04-30 | 东风汽车股份有限公司 | 一种基于激光点云的三维目标检测系统及其检测方法 |
CN113379709A (zh) * | 2021-06-16 | 2021-09-10 | 浙江工业大学 | 一种基于稀疏多尺度体素特征融合的三维目标检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970518B1 (en) * | 2017-11-14 | 2021-04-06 | Apple Inc. | Voxel-based feature learning network |
CN113870318B (zh) * | 2021-12-02 | 2022-03-25 | 之江实验室 | 一种基于多帧点云的运动目标检测系统和方法 |
-
2021
- 2021-12-02 CN CN202111456208.0A patent/CN113870318B/zh active Active
-
2022
- 2022-06-13 WO PCT/CN2022/098356 patent/WO2023098018A1/zh unknown
-
2023
- 2023-06-20 US US18/338,328 patent/US11900618B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190080210A1 (en) * | 2017-09-13 | 2019-03-14 | Hrl Laboratories, Llc | Independent component analysis of tensors for sensor data fusion and reconstruction |
CN111429514A (zh) * | 2020-03-11 | 2020-07-17 | 浙江大学 | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 |
CN112731339A (zh) * | 2021-01-04 | 2021-04-30 | 东风汽车股份有限公司 | 一种基于激光点云的三维目标检测系统及其检测方法 |
CN113379709A (zh) * | 2021-06-16 | 2021-09-10 | 浙江工业大学 | 一种基于稀疏多尺度体素特征融合的三维目标检测方法 |
Non-Patent Citations (1)
Title |
---|
HUA WEI: "Two-Level Progressive Attention Convolutional Network for Fine-Grained Image Recognition", 《IEEE ACCESS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023098018A1 (zh) * | 2021-12-02 | 2023-06-08 | 之江实验室 | 一种基于多帧点云的运动目标检测系统和方法 |
US11900618B2 (en) | 2021-12-02 | 2024-02-13 | Zhejiang Lab | System and method for detecting moving target based on multi-frame point cloud |
CN114067371A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 一种跨模态行人轨迹生成式预测框架、方法和装置 |
CN114322994A (zh) * | 2022-03-10 | 2022-04-12 | 之江实验室 | 一种基于离线全局优化的多点云地图融合方法和装置 |
CN114322994B (zh) * | 2022-03-10 | 2022-07-01 | 之江实验室 | 一种基于离线全局优化的多点云地图融合方法和装置 |
CN114494248A (zh) * | 2022-04-01 | 2022-05-13 | 之江实验室 | 基于点云和不同视角下的图像的三维目标检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230351618A1 (en) | 2023-11-02 |
US11900618B2 (en) | 2024-02-13 |
WO2023098018A1 (zh) | 2023-06-08 |
CN113870318B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870318B (zh) | 一种基于多帧点云的运动目标检测系统和方法 | |
CN109241972B (zh) | 基于深度学习的图像语义分割方法 | |
CN113807355B (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN110298387A (zh) | 融入像素级attention机制的深度神经网络目标检测方法 | |
CN109635744A (zh) | 一种基于深度分割网络的车道线检测方法 | |
CN113807464B (zh) | 基于改进yolo v5的无人机航拍图像目标检测方法 | |
CN113076804B (zh) | 基于YOLOv4改进算法的目标检测方法、装置及系统 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
CN112785848A (zh) | 一种交通数据预测方法以及系统 | |
CN114494248B (zh) | 基于点云和不同视角下的图像的三维目标检测系统及方法 | |
CN113313176A (zh) | 一种基于动态图卷积神经网络的点云分析方法 | |
CN115410087A (zh) | 一种基于改进YOLOv4的输电线路异物检测方法 | |
Asgarian et al. | Fast drivable area detection for autonomous driving with deep learning | |
Tao et al. | F-pvnet: Frustum-level 3-d object detection on point–voxel feature representation for autonomous driving | |
CN110826810B (zh) | 一种空间推理与机器学习相结合的区域降雨预测方法 | |
Mobahi et al. | An improved deep learning solution for object detection in self-driving cars | |
Naufal et al. | Weather image classification using convolutional neural network with transfer learning | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
Shi et al. | Cobev: Elevating roadside 3d object detection with depth and height complementarity | |
CN115861944A (zh) | 一种基于激光雷达的交通目标检测系统 | |
CN112464750B (zh) | 一种基于深度学习的车牌特征点检测方法 | |
Ye et al. | M2F2-Net: Multi-Modal Feature Fusion for Unstructured Off-Road Freespace Detection | |
Kim et al. | Real-time object detection using a domain-based transfer learning method for resource-constrained edge devices | |
CN114154740A (zh) | 基于兴趣点时空残差神经网络的多方向交通流量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |