CN113870318B - 一种基于多帧点云的运动目标检测系统和方法 - Google Patents

一种基于多帧点云的运动目标检测系统和方法 Download PDF

Info

Publication number
CN113870318B
CN113870318B CN202111456208.0A CN202111456208A CN113870318B CN 113870318 B CN113870318 B CN 113870318B CN 202111456208 A CN202111456208 A CN 202111456208A CN 113870318 B CN113870318 B CN 113870318B
Authority
CN
China
Prior art keywords
target
module
tensor
feature
feature tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111456208.0A
Other languages
English (en)
Other versions
CN113870318A (zh
Inventor
华炜
马也驰
冯权
张顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111456208.0A priority Critical patent/CN113870318B/zh
Publication of CN113870318A publication Critical patent/CN113870318A/zh
Application granted granted Critical
Publication of CN113870318B publication Critical patent/CN113870318B/zh
Priority to PCT/CN2022/098356 priority patent/WO2023098018A1/zh
Priority to US18/338,328 priority patent/US11900618B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于多帧点云的运动目标检测系统和方法,系统包括体素特征提取模块,将连续帧点云序列进行体素化,并提取特征张量序列;转换模块,对特征张量序列通过跨模态注意力模块进行匹配融合,将第一特征张量与第二特征张量融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量;跨模态注意力模块,将两个特征张量,根据注意力机制,通过卷积神经网络融合,得到融合后的特征张量;识别模块,对最终融合后的特征张量进行特征提取,输出目标的检测信息。方法包括:S1,构建各系统模块;S2,通过训练集数据,对模型进行训练;S3,通过训练好的模型进行预测。

Description

一种基于多帧点云的运动目标检测系统和方法
技术领域
本发明涉及三维目标检测技术领域,尤其是涉及一种基于多帧点云的运动目标检测系统和方法。
背景技术
现阶段自动驾驶技术应用越来越广泛,感知技术中尤其是基于点云的三维目标检测技术是自动驾驶技术中最重要的任务之一。现阶段效果较佳的基于点云的三维目标检测技术包括论文《Sparsely Embedded Convolutional Detection》、《3D Object ProposalGeneration and Detection from Point Cloud》以及专利《一种基于激光点云的三维目标检测系统及其检测方法》、《一种基于点云的三维目标检测方法》等,但上述现有技术存在一下问题:首先上述方法未考虑连续帧点云数据,不但没有预测目标轨迹,而且也影响目标的检测精度;其次上述方法完全依赖于训练数据集的固有类别,即当实际场景中出现训练集没有的类别,会产生目标漏检的现象。
发明内容
为解决现有技术的不足,本发明不但考虑多帧点云数据,并且对运动目标的检测,不强依赖训练集目标的类别,从而实现能够预测目标轨迹、提高检测精度,以及避免漏检的目的,本发明采用如下的技术方案:
一种基于多帧点云的运动目标检测系统,包括体素特征提取模块、转换模块和识别模块,转换模块包括跨模态注意力模块;
所述体素特征提取模块,将连续帧点云序列{Pointcloud[i],0<i<=N}进行体素化,并提取特征张量序列{F_Base[i],0<i<=N},i表示帧索引,N表示帧数;
所述转换模块,获取特征张量序列{F_Base[i],0<i<=N},通过跨模态注意力模块,将第一特征张量与第二特征张量进行融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量F_Base_fusion_seq[N-1,N];
所述跨模态注意力模块,将两个特征张量,根据注意力机制进行匹配融合,并通过卷积神经网络融合,得到融合后的特征张量;
所述识别模块,对最终融合后的特征张量F_Base_fusion_seq[N-1,N]进行特征提取,输出目标的检测信息。
进一步地,体素特征提取模块根据每帧激光雷达对应的位姿{Pose[i],0<i<=N},将连续帧点云序列{Pointcloud[i],0<i<=N}转换到大地坐标系C_Base上,并对转换后的连续帧点云序列{Pointcloud_Base[i],0<i<=N}进行体素化,大地坐标系C_Base是相对于大地的固定预设坐标原点的笛卡尔正交坐标系,以第一帧点云数据向前方向为大地坐标系C_Base的X轴正方向,向右方向为大地坐标系C_Base的Y轴正方向,向上方向为大地坐标系C_Base的Z轴正方向。
进一步地,体素化是通过构建体素大小及体素化范围,将每个体素内所有点的均值作为体素化特征,体素化特征大小为C*D*W*H,C表示特征通道数,D表示高度,W表示宽度,H表示长度。
进一步地,提取特征张量是对体素化得到的特征序列{Voxel_Base[i],0<i<=N},通过三维稀疏卷积模块进行特征提取,得到特征张量序列{F_Base[i],0<i<=N},三维稀疏卷积模块包括一组子卷积模块,子卷积模块包括三维子流行卷积层、归一化层和Relu层。
进一步地,转换模块将形状大小为C*D*W*H的特征张量F_Base[i],重塑成大小为C*(D*W*H)的特征张量F_Base_seq[i],C表示特征通道数,D表示高度,W表示宽度,H表示长度,再对重塑后的特征张量序列{F_Base_seq[i],0<i<=N}进行匹配融合。
进一步地,所述特征张量序列为{F_Base_seq[i],0<i<=N},i表示帧索引,N表示帧数,对序列中的特征张量进行匹配融合,得到融合后的特征张量F_Base_fusion_seq[j,j+1],j表示帧索引,0<j<=N,当j=1时,对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合,当1<j<N时,对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合,输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。
进一步地,跨模态注意力模块的匹配融合如下:
Figure 993298DEST_PATH_IMAGE001
Figure 848121DEST_PATH_IMAGE002
其中,Q_a=X_a*W_Q和Q_b=X_b*W_Q分别表示注意力机制中的Query,K_a=X_a*W_K和K_b=X_b*W_K分别表示注意力机制中Key,V_a=X_a*W_V和V_b=X_b*W_V分别表示注意力机制中Value,X_a和X_b表示待融合的两个特征张量,W_Q、W_K以及*W_V分别表示可训练权重矩阵,d分别表示Q_a与K_b的维度和Q_b与K_a的维度,Trans()为矩阵转置操作,softmax_col()表示矩阵按列进行归一化操作;
再将Y(X_a, X_b)和Y(X_b, X_a)通过卷积神经网络进行融合,得到融合后的特征张量:
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))
其中,Conv()表示卷积神经网络。
进一步地,识别模块将最终融合后的特征张量F_Base_fusion_seq[N-1,N]重塑成形状大小为(C*D)W*H的特征张量F_Base_fusion,再对重塑后的特征张量进行特征提取,输出目标的检测信息。
进一步地,识别模块通过一组二维卷积神经网络,分别获取目标中心点在C_Base大地坐标系下的三维坐标hm、目标中心点的运动方向diret、目标中心点偏移量offset、目标中心点预测轨迹trajectory、目标的长宽高dim、目标的高度z和目标的类别信息;训练阶段,目标中心点三维坐标的检测采用Focal_loss损失函数,目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,目标中心点的偏移量的回归采用L1_Loss损失函数,目标中心点的预测轨迹的回归采用L1_Loss损失函数,目标的长宽高以及目标高度(Z轴坐标)的回归采用SmothL1_loss损失函数,其中不同检测分支的损失分配不同的权重,最终得到训练好的系统。
一种基于多帧点云的运动目标检测方法,包括如下步骤:
S1,构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块;
S2,通过训练集数据,对模型进行训练;
S3,通过训练好的模型进行预测。
本发明的优势和有益效果在于:
本发明通过多帧融合的机制,判断目标的运动状态,从而判断目标采用的运动方式,例如两轮运动、四轮运动、两足运动、四足运动等;当训练数据集中只有人,轿车两种类别,在实际预测中,出现卡车的目标类别时,同样可以通过多帧信息,识别出它是四轮运动,不依赖训练数据集中的固有类别,从而在提高检测精度的同时,避免了目标漏检的现象。
附图说明
图1是本发明的方法流程图。
图2是本发明中稀疏3D_Conv的网络结构示意图。
图3是本发明中卷积神经网络的网络结构示意图。
图4是本发明的系统结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的实施例采用的kitti数据集,其中,实施例的数据集包括5000段长度为10的连续帧点云数据、点云采集设备激光雷达的位姿以及目标的三维信息标签,其中4000段数据为训练集,1000段数据为验证集。
如图1所示,一种基于多帧点云的运动目标检测系统和方法,包括以下步骤:
第一步:首先构造体素特征提取模块。
输入长度为10的连续帧点云序列{Pointcloud[i]|i为帧索引,0<i<=10}以及每帧激光雷达传感器的位姿{Pose[i]|i为帧索引,0<i<=N}。
将长度为10的连续帧点云序列,通过每帧激光雷达的位姿,转换到C_Base坐标系上,得到10帧新的点云序列{Pointcloud_Base[i]|i为帧索引,0<i<=10},其中C_Base坐标系为以相对于大地的固定预设坐标原点的笛卡尔正交坐标系,第一帧点云数据向前方向为C_Base坐标系的X轴正方向,向右方向为C_Base坐标系的Y轴正方向,向上方向为C_Base坐标系的Z轴正方向。
对长度为10的连续帧点云序列{Pointcloud_Base[i]|i为帧索引,0<i<=10}进行体素化,并得到10帧点云体素化后的特征{Voxel_Base[i]|i为帧索引,0<i<=10},其中体素化的点云特征序列在X、Y、Z轴的取值范围分别是[0米, 70.4米],[-40米, 40米],[-3米, 1米],每个体素的大小为[0.05米, 0.05米, 0.1米],每个体素化特征为体素内所有点的均值。体素化后的特征大小为C*D*W*H,C表示特征通道数,D表示高度,W表示宽度,H表示长度,本实施例中的大小为3*40*1600*1408。
对体素化特征序列{Voxel_Base[i]|i为帧索引,0<i<=10}通过稀疏3D_Conv进行 特征提取,得到特征张量序列{F_Base[i]|i为帧索引,0<i<=10},形状大小为64* 2* 200* 176,其中稀疏3D_Conv的网络结构如图2所示,包括一组子卷积模块,卷积模块由子流行卷 积层、归一化层和Relu层,具体网络参数如下表所示:
Figure 34383DEST_PATH_IMAGE003
Figure 226330DEST_PATH_IMAGE004
F_Base[i]为体素特征提取模块的输出。
第二步,构造Crossmodal_Attention模块。
输入为两个特征张量,X_a和X_b(张量的选取在第三步中设置,第三步是对第二步的调用)。
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))。
Figure 712806DEST_PATH_IMAGE005
,其中Q_a=X_a*W_Q作为Query,K_b =X_b*W_K作为Key,V_b=X_b*W_V作为Value,W_Q、W_K以及*W_V分别为可训练权重矩阵;d为 Q_a与K_b的维度;Trans()为矩阵转置函数;softmax_col()为矩阵按列进行归一化操作。
Figure 207373DEST_PATH_IMAGE006
,其中Q_b=X_b*W_Q作为Query,K_a=X_ a*W_K作为Key,V_a=X_a*W_V作为Value,d为Q_b与K_a的维度;softmax为对向量进行归一化 操作。
Conv()为卷积神经网络函数,将Y(X_a, X_b),Y(X_b, X_a)进行Concat再通过1*1卷积神经网络融合,得到特征张量Crossmodal_Attention(X_a,X_b),形状大小为64*(200*176*2)。
第三步:构造Transformer模块。
输入为长度为10的连续帧特征张量序列{F_Base[i]|i为帧索引,0<i<=10}。将{F_Base[i]|i为帧索引,0<i<=10}reshape成形状大小为64*(2*200*176)的特征序列{F_Base_seq[i]|i为帧索引,0<i<=10}。
使用Crossmodal_Attention对{F_Base[i]|i为帧索引,0<i<=N}特征序列进行匹配融合。其中当j=1时,F_Base_fusion_seq[1,2]=Crossmodal_Attention(F_Base_seq[1],F_Base_seq[2]),当1<j<10时,F_Base_fusion_seq[j,j+1]=Crossmodal_Attention(F_Base_fusion_seq[j-1,j],F_Base_seq[j+1]),其中,j为帧索引,Crossmodal_Attention为多帧融合模块,特征张量F_Base_fusion_seq[10-1,10]为Transformer模块的输出。
第四步,构造识别模块。
输入为F_Base_fusion_seq[10-1,10],将其reshape成形状大小为(C*D)*W*H,本实施例中为128*200*176的特征张量F_Base_fusion。使用卷积神经网络对特征张量F_Base_fusion进行特征提取,并输出目标的检测信息,包括目标中心点在C_Base坐标系下的三维坐标hm、目标的长宽高dim、目标中心点的运动方向diret、目标中心点偏移量offset、目标的高度z、目标的类别信息,目标类别信息包括两轮运动、四轮运动、两足运动、四足运动,针对于kitti数据,将轿车划分为四足运动,行人划分为两足运动,骑自行车的人划分为两轮运动。卷积神经网络的网络结构如图3所示,具体网络参数如下表所示:
Figure 143580DEST_PATH_IMAGE007
第五步,如图4所示,对各模块进行连接,训练。
使用kitti训练集数据对神经网络进行训练,其中针对于目标中心点的检测采用Focal_loss损失函数,针对目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,针对目标中心点的偏移量的回归采用L1_Loss损失函数,针对目标的长宽高以及Z轴坐标的回归采用SmothL1_loss损失函数。其中不同检测分支的损失分配不同的权重。最后,得到训练好的模型。
第六步,推理测试。
加载训练好的模型,使用kitti的验证集数据对神经网络进行推理测试。
所述采用本发明实施方案中的基于多帧点云的运动目标检测系统和方法,与现阶段较为流行的基于纯点云的三维目标检测方案PointPillars、PointRCNN、Second相对比,在同样的训练集以及模型参数优化方法下,各自在验证集的各类别指标的3D map比较如下表所示:
Figure 139218DEST_PATH_IMAGE008
通过上表可以看出,本发明相对于现有的主流方法,在三维目标检测精度上有较大的提升,且本发明的整体效率只降低了15ms,保证了三维目标检测的实时性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (9)

1.一种基于多帧点云的运动目标检测系统,包括体素特征提取模块、转换模块和识别模块,其特征在于所述转换模块包括跨模态注意力模块;
所述体素特征提取模块,将连续帧点云序列进行体素化,并提取特征张量序列;
所述转换模块,获取特征张量序列,通过跨模态注意力模块,将第一特征张量与第二特征张量进行融合,融合的结果再与第三特征张量融合,再将融合后的结果与第四特征张量融合,在以此类推,得到最终融合后的特征张量;跨模态注意力模块,将两个特征张量,根据注意力机制进行匹配融合,并通过卷积神经网络融合后,得到融合后的特征张量;
所述识别模块,对最终融合后的特征张量进行特征提取,输出目标的检测信息;
跨模态注意力模块的匹配融合如下:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,Q_a=X_a*W_Q和Q_b=X_b*W_Q分别表示注意力机制中的Query,K_a=X_a*W_K和K_b=X_b*W_K分别表示注意力机制中Key,V_a=X_a*W_V和V_b=X_b*W_V分别表示注意力机制中Value,X_a和X_b表示待融合的两个特征张量,W_Q、W_K以及W_V分别表示可训练权重矩阵,d分别表示Q_a与K_b的维度和Q_b与K_a的维度,Trans()为矩阵转置操作,softmax_col()表示矩阵按列进行归一化操作;
再将Y(X_a, X_b)和Y(X_b, X_a)通过卷积神经网络进行融合,得到融合后的特征张量:
Crossmodal Attention(X_a,X_b)=Conv(Y(X_a, X_b),Y(X_b, X_a))
其中,Conv()表示卷积神经网络。
2.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述体素特征提取模块,根据每帧对应的位姿,将连续帧点云序列转换到大地坐标系,并对转换后的连续帧点云序列进行体素化,大地坐标系是相对于大地的固定预设坐标原点的笛卡尔正交坐标系,以第一帧点云数据向前方向为大地坐标系的X轴正方向,向右方向为大地坐标系的Y轴正方向,向上方向为大地坐标系的Z轴正方向。
3.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述体素化,通过构建体素大小及体素化范围,将每个体素内点的均值作为体素化特征。
4.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述提取特征张量,是对体素化得到的特征,通过稀疏卷积模块进行特征提取,得到特征张量,稀疏卷积模块包括一组子卷积模块,子卷积模块包括子流行卷积层、归一化层和Relu层。
5.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述转换模块,将形状大小为C*D*W*H的特征张量重塑成大小为C*(D*W*H)的特征张量,C表示特征通道数,D表示高度,W表示宽度,H表示长度,再对重塑后的特征张量序列进行匹配融合。
6.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述特征张量序列为{F_Base_seq[i],0<i<=N},i表示帧索引,N表示帧数,对序列中的特征张量进行匹配融合,得到融合后的特征张量F_Base_fusion_seq[j,j+1],j表示帧索引,0<j<=N,当j=1时,对特征张量F_Base_seq[j]和特征张量F_Base_seq[j+1]进行融合,当1<j<N时,对融合后的特征张量F_Base_fusion_seq[j-1,j]和特征张量F_Base_seq[j+1]进行循环融合,输出最终融合后的特征张量F_Base_fusion_seq[N-1,N]。
7.根据权利要求5所述的一种基于多帧点云的运动目标检测系统,其特征在于所述识别模块,将最终融合后的特征张量重塑成形状大小为(C*D)*W*H的特征张量,再对重塑后的特征张量进行特征提取,输出目标的检测信息。
8.根据权利要求1所述的一种基于多帧点云的运动目标检测系统,其特征在于所述识别模块,通过一组卷积神经网络,分别获取目标中心点坐标、目标中心点的运动方向、目标中心点偏移量、目标的长宽高、目标的高度和目标的类别信息;训练阶段,目标中心点坐标的检测采用Focal_loss损失函数,目标中心点的运动方向的检测,回归其正弦值与余弦值,并采用L1_loss损失函数,目标中心点的偏移量的回归采用L1_Loss损失函数,目标中心点的预测轨迹的回归采用L1_Loss损失函数,目标的长宽高以及目标高度的回归采用SmothL1_loss损失函数,其中不同检测分支的损失分配不同的权重,最终得到训练好的模型。
9.一种使用如权利要求1所述的一种基于多帧点云的运动目标检测系统的目标检测方法,其特征在于包括如下步骤:
S1,构建体素特征提取模块、转换模块、识别模块和跨模态注意力模块;
S2,通过训练集数据,对模型进行训练;
S3,通过训练好的模型进行预测。
CN202111456208.0A 2021-12-02 2021-12-02 一种基于多帧点云的运动目标检测系统和方法 Active CN113870318B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111456208.0A CN113870318B (zh) 2021-12-02 2021-12-02 一种基于多帧点云的运动目标检测系统和方法
PCT/CN2022/098356 WO2023098018A1 (zh) 2021-12-02 2022-06-13 一种基于多帧点云的运动目标检测系统和方法
US18/338,328 US11900618B2 (en) 2021-12-02 2023-06-20 System and method for detecting moving target based on multi-frame point cloud

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111456208.0A CN113870318B (zh) 2021-12-02 2021-12-02 一种基于多帧点云的运动目标检测系统和方法

Publications (2)

Publication Number Publication Date
CN113870318A CN113870318A (zh) 2021-12-31
CN113870318B true CN113870318B (zh) 2022-03-25

Family

ID=78985530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111456208.0A Active CN113870318B (zh) 2021-12-02 2021-12-02 一种基于多帧点云的运动目标检测系统和方法

Country Status (3)

Country Link
US (1) US11900618B2 (zh)
CN (1) CN113870318B (zh)
WO (1) WO2023098018A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870318B (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于多帧点云的运动目标检测系统和方法
CN114067371B (zh) * 2022-01-18 2022-09-13 之江实验室 一种跨模态行人轨迹生成式预测框架、方法和装置
CN114322994B (zh) * 2022-03-10 2022-07-01 之江实验室 一种基于离线全局优化的多点云地图融合方法和装置
CN114494248B (zh) * 2022-04-01 2022-08-05 之江实验室 基于点云和不同视角下的图像的三维目标检测系统及方法
CN116665019B (zh) * 2023-07-31 2023-09-29 山东交通学院 一种用于车辆重识别的多轴交互多维度注意力网络
CN116664874B (zh) * 2023-08-02 2023-10-20 安徽大学 一种单阶段细粒度轻量化点云3d目标检测系统及方法
CN117014633B (zh) * 2023-10-07 2024-04-05 深圳大学 一种跨模态数据压缩方法、装置、设备及介质
CN117392396B (zh) * 2023-12-08 2024-03-05 安徽蔚来智驾科技有限公司 跨模态目标状态的检测方法、设备、智能设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726311B2 (en) * 2017-09-13 2020-07-28 Hrl Laboratories, Llc Independent component analysis of tensors for sensor data fusion and reconstruction
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN111429514B (zh) * 2020-03-11 2023-05-09 浙江大学 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN112731339A (zh) * 2021-01-04 2021-04-30 东风汽车股份有限公司 一种基于激光点云的三维目标检测系统及其检测方法
CN113379709B (zh) * 2021-06-16 2024-03-08 浙江工业大学 一种基于稀疏多尺度体素特征融合的三维目标检测方法
CN113870318B (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于多帧点云的运动目标检测系统和方法

Also Published As

Publication number Publication date
CN113870318A (zh) 2021-12-31
WO2023098018A1 (zh) 2023-06-08
US20230351618A1 (en) 2023-11-02
US11900618B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
CN113870318B (zh) 一种基于多帧点云的运动目标检测系统和方法
CN109241972B (zh) 基于深度学习的图像语义分割方法
CN109101907B (zh) 一种基于双边分割网络的车载图像语义分割系统
CN113807355B (zh) 一种基于编解码结构的图像语义分割方法
CN110298387A (zh) 融入像素级attention机制的深度神经网络目标检测方法
CN109635744A (zh) 一种基于深度分割网络的车道线检测方法
CN113807464B (zh) 基于改进yolo v5的无人机航拍图像目标检测方法
CN112434586B (zh) 一种基于域自适应学习的多复杂场景目标检测方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
EP4174792A1 (en) Method for scene understanding and semantic analysis of objects
CN113076804B (zh) 基于YOLOv4改进算法的目标检测方法、装置及系统
CN115984586A (zh) 一种鸟瞰视角下的多目标跟踪方法及装置
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测系统及方法
CN115410087A (zh) 一种基于改进YOLOv4的输电线路异物检测方法
Tao et al. F-pvnet: Frustum-level 3-d object detection on point–voxel feature representation for autonomous driving
Zhang et al. CR-YOLOv8: Multiscale object detection in traffic sign images
Mobahi et al. An improved deep learning solution for object detection in self-driving cars
CN112464750B (zh) 一种基于深度学习的车牌特征点检测方法
Jiangzhou et al. Research on real-time object detection algorithm in traffic monitoring scene
CN110738113B (zh) 一种基于邻近尺度特征滤除与转移的物体检测方法
Jiang et al. Knowledge distillation from 3d to bird’s-eye-view for lidar semantic segmentation
CN114154740A (zh) 基于兴趣点时空残差神经网络的多方向交通流量预测方法
Ye et al. M2F2-Net: Multi-Modal Feature Fusion for Unstructured Off-Road Freespace Detection
Shi et al. Cobev: Elevating roadside 3d object detection with depth and height complementarity
Kim et al. Real-time object detection using a domain-based transfer learning method for resource-constrained edge devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant