CN113989797A - 一种基于体素点云融合的三维动态目标检测方法及装置 - Google Patents

一种基于体素点云融合的三维动态目标检测方法及装置 Download PDF

Info

Publication number
CN113989797A
CN113989797A CN202111250717.8A CN202111250717A CN113989797A CN 113989797 A CN113989797 A CN 113989797A CN 202111250717 A CN202111250717 A CN 202111250717A CN 113989797 A CN113989797 A CN 113989797A
Authority
CN
China
Prior art keywords
point
voxel
feature
point cloud
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111250717.8A
Other languages
English (en)
Inventor
陶重犇
郑四发
曹杰程
周锋
张祖峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Automotive Research Institute of Tsinghua University
Original Assignee
Suzhou Automotive Research Institute of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Automotive Research Institute of Tsinghua University filed Critical Suzhou Automotive Research Institute of Tsinghua University
Priority to CN202111250717.8A priority Critical patent/CN113989797A/zh
Publication of CN113989797A publication Critical patent/CN113989797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于体素点云融合的三维动态目标检测方法及装置,采用两阶段的多次、多尺度特征融合的检测架构,第一阶段对点云直接处理提78取关键点特征和划分体素空间提取多尺度体素特征,将两者特征进行初次融合生成预选框.第二阶段在每个体素中设置参考点并吸收周围的关键点进行第二次的特征融合,将最终特征输入检测模块,实现预选框的优化.另外,针对分类和定位置信度不一致的问题,提出一种强制一致性损失函数,可以进一步提高检测的准确性.本发明的算法在Kitti,Waymo,Nuscene数据集中与其他算法进行了对比,并且通过实物车辆平台进行了可移植性和消融性研究,结果表明,本发明算法针对三维动态目标检测的准确率高,鲁棒性、可移植性和泛化能力强。

Description

一种基于体素点云融合的三维动态目标检测方法及装置
技术领域
本发明属于计算机技术,具体涉及三维动态目标检测方法,尤其涉及一种基于体素点云融合的三维动态目标检测方法及装置。
背景技术
近年来,自动驾驶在三维空间下的目标检测算法引起学术界和工业界的广泛关注。三维目标检测主要使用相机和激光雷达作为采集数据的传感器。Van等全面分析和研究了三维目标检测领域的各类传感器的优缺点并提供了多传感器融合的思路,Li等针对目标检测在自动驾驶领域的应用,提出了一种提出了基于结构感知的候选区域生成模块方法,这为本发明利用实物平台进行算法的评估提供了理论依据。
三维动态多目标检测算法主要可以分为两种类型:基于图像的方法和基于点云的方法。其中基于图像的方法一直以来是传统三维目标检测的重点探索的方向,主要可以分为三种:单目、双目、深度相机。基于图像的检测方法本质上是对图像进行分割,获取稠密的特征进行三维目标的匹配,Ku等使用单目相机,通过2D目标检测方法为场景中的目标生成3D建议,并设计一种投影对齐方式来优化3D定位的问题。针对双目相机,Wang提出一种融合多尺度局部特征与深度特征的三维目标匹配算法并将基于双目图像的深度图转换为雷达点云形式,使用3D点云算法进行训练和检测。然而,无论是单目还是双目相机, 都缺乏直接的深度信息,而基于视觉图像通过几何计算得出的深度信息存在误差,难以生成准确的3D边界框。深度相机是利用计算发射和接收经过调制的红外脉冲的飞行时间(ToF)来推测深度,目前,Elkhalili等证明了深度相机已经成功应用于安全驾驶中。然而相机传感器容易受到光线和天气条件的影响,Chen等使用深度相机并且提出一种基于多尺度金字塔结构和条件生成对抗网络(GAN)来解决上述问题。随着激光雷达传感器的成本降低,近年来越来越多的算法针对点云数据进行处理, 并且主要衍生出三种类别:直接处理点云法, 划分体素空间法,映射法。直接处理点云的方法的先驱是Qi等提出的一种名为Pointnet的框架,可以直接将无序的点云输入系统,进行目标的位姿校正,特征提取,置信度预测,分类等工作。直接处理点云的方法虽然可以通过特征提取得到更大的感受野但是计算的复杂度较高。划分体素的方法也是点云目标检测中的一种常用思路。Zhou等开创性的提出VoxelNet的框架,将点云划分为体素,将不同尺度的体素特征进行堆叠,提取更复杂的特征信息并在立体空间生成检测框。基于体素的方法虽然计算的效率更高,但是受到卷积核大小的限制,不可避免的会降低定位精度。最后是映射的方法,Lang等将点云进行编码,映射为伪二维数据,使用成熟的2D CNN的方法进行检测,例如采用Li等提出的一种基于改进的Faster R-CNN网络的实时目标检测方法,避免了费时的3D卷积运算,然而映射过程中不可避免地会导致特征信息的丢失。上述基于点云的处理方法都存在各自的优点和缺陷,因此考虑多种特征的融合成为必然。点云数据和双目视图的融合可以提高目标检测准确性,通过迭代式自主学习的三维目标检测方法,提高在目标区域中的准确性。Tang等提出一种点云匹配算法。Qi等提出了一种名为F-PointNet的视锥方法,将相机图像与点云数据相融合从而确定目标在点云中的区域,然而该方法需要对额外对相机图像进行标注,其检测效果也会受到2D检测的影响。
发明内容
针对目前三维目标检测领域采用的方法在特征提取上普遍存在目标上下文特征不够丰富,无法实现精准的动态多目标检测的问题,本发明从点云出发,提出一种基于体素点云融合的三维动态目标检测算法。在Kitti, Waymo, Nuscene数据集以及实物车辆平台上测试并评估了提出的算法。实验表明,通过结合多尺度的特征,算法性能得到了显著的提升。另外,考虑到分类置信度和定位置信度存在不一致将会导致目标检测不够准确。例如存在A,B两个预选框,预选框A具有较高的分类置信度而定位置信度较低,预选框B的定位置信度较高而分类置信度略低于框A,非极大值抑制(NMS)的方法会自动过滤掉置信度较低的框。因此本发明提出了一个强制性一致损失函数,能够保留下与真实值更为接近的预选框,并且该损失函数不需要对目标检测的框架进行更改,易于实现,不需要过多额外的计算成本。
本发明采用如下技术方案:
一种基于体素点云融合的三维动态目标检测方法,采集三维动态目标后经过第一阶段与第二阶段,再点云输出三维动态目标,完成三维动态目标检测;具体的,采集三维动态目标后点云输入;第一阶段为对点云提取关键点特征、体素特征提取、特征融合、预选框生成;第二阶段为预选框优化、损失函数计算。更具体的,第一阶段中,通过划分体素进行3D卷积操作,利用子流形稀疏卷积的方法,作为特征编码和预选框生成的主干网络,同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类,提取其周围区域的特征,最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合,得到点云空间中关键点的高级特征;第二阶段在基于体素生成的ROI区域中选取参考点,进行聚类,融合第一阶段生成的关键点特征对预选框进行优化,并通过置信度强制约束的损失函数计算。
本发明中,第一阶段中,对点云提取关键点特征为:关键点采样层、聚类层、特征提取层、前景点分割层;
(1)采样层:以往随机采样的方式难以获取到点云的全局信息, 本发明引入FPS(迭代最远点采样)的方法从点云中采样关键点;其具体原理如下:输入点云集合
Figure 76611DEST_PATH_IMAGE001
共有n个点,随机选取
Figure 400276DEST_PATH_IMAGE002
作为起始点,并写入关键点的集合
Figure 976751DEST_PATH_IMAGE003
,计算
Figure 106381DEST_PATH_IMAGE002
和剩余的n-1个点的欧式距离,选择最远点
Figure 327278DEST_PATH_IMAGE004
写入集合
Figure 946478DEST_PATH_IMAGE005
。下一次迭代同时考虑两个点,计算剩余n-2个点到集合K中两个点的距离,取最短的作为该点到点集的距离,得到n-2个点到集合K的距离,选取其中最远的点
Figure 620036DEST_PATH_IMAGE006
写入集合
Figure 553357DEST_PATH_IMAGE007
,继续迭代上述过程,直到采样出所需要的点的数目;
(2)聚类层:接着利用多分辨率组合(MRG),以关键点为中心,R为半径划分球形区域, 提取区域中包含的点的信息,获取到目标相关联的特征;提取的特征由两个特征向量串联构成,前半部分由原始点云数据中的所有点进行特征提取构成,后半部分由前半部分特征输入PointNet网络中得到;
(3)特征提取层:使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作,得到的多分辨率特征作为该中心点的局部特征,得到维度一致的特征;
(4)前景点分割层:利用关键点预测加权层对特征提取层得到的关键点进行检测,筛选出前景点;其具体原理是将关键点特征输入两层的感知机网络(MLP),得出其属于前景点的权重信息,其中第一层MLP(128,256)网络有两次卷积过程,第一次为128个1×128×1大小的卷积核与输入特征进行卷积,得到的n个1×128的特征向量,第二次使用256个1×1×128大小的卷积核进行卷积,得到n个1×256的特征向量,并通过维度变换将特征向量变为n×256;第二层MLP(128,1)网络有两次卷积过程,第一次使用128个1×256×1大小的卷积核与输入特征进行卷积,得到n个1×128的特征向量,第二次使用1个1×1×128大小的卷积核进行卷积,得到n个1×1的特征向量,最后再通过维度变换将前景点预测值变为n×1;在处理包含多个点的点云数据时,对每个点乘以相同权重,权值范围在(0,1)之间,最后与特征向量相乘,得到该关键点的最终特征;每个关键点特征
Figure 18973DEST_PATH_IMAGE008
的预测特征权重表示如下
Figure 746758DEST_PATH_IMAGE009
(1)
其中
Figure 173191DEST_PATH_IMAGE010
是一个两层的MLP网络,以预测(0,1)之间的前景点置信度。其计算公式分为正向传播和权值更新两部分,正向传播公式如下:
Figure 441361DEST_PATH_IMAGE011
(2)
在正向传播公式中,
Figure 699167DEST_PATH_IMAGE012
为隐藏层网络权值,激活函数为softmax函数,
Figure 801115DEST_PATH_IMAGE013
为输出层网络权值,输出标签
Figure 777162DEST_PATH_IMAGE014
采用One-Hot编码,损失函数使用焦点损失函数FocalLoss。输出层和隐藏层的梯度计算及权值更新公式如下:
Figure 849023DEST_PATH_IMAGE015
其中
Figure 896089DEST_PATH_IMAGE016
为损失函数计算的结果,
Figure 965676DEST_PATH_IMAGE017
为梯度下降权值。
本发明中,第一阶段中,体素特征提取由三个部分组成:体素划分层,VFE特征提取层,子流形稀疏卷积层;
(1) 体素划分层划分体素空间。将3D空间细分为等距等大小的体素,定义点云是沿Z,Y,X轴的范围为D,H,W的3D空间,定义每个体素的大小为
Figure 491335DEST_PATH_IMAGE018
,则沿每一个坐标轴划分的数量为
Figure 304570DEST_PATH_IMAGE019
,整个点云空间被划分为N个等大小的体素。其中
Figure 474652DEST_PATH_IMAGE020
(2)VFE特征提取层使用VFE层对体素进行特征编码,对于包含
Figure 980719DEST_PATH_IMAGE021
个点的非空体素, 使用
Figure 462516DEST_PATH_IMAGE022
表示,其中
Figure 17126DEST_PATH_IMAGE023
包含体素中第i个点的X,Y,Z坐标及反射率
Figure 104030DEST_PATH_IMAGE024
,首先计算体素V中的局部均值作为质心,表示为
Figure 843316DEST_PATH_IMAGE025
,计算
Figure 15672DEST_PATH_IMAGE023
相对于质心的偏移量,表示为
Figure 108392DEST_PATH_IMAGE026
,可得输入特征集
Figure 315383DEST_PATH_IMAGE027
;接下来使用全连接层(FCN)将输入的7维向量
Figure 225570DEST_PATH_IMAGE028
映射为32维,每个体素中共有t个32维的特征向量,使用最大池化操作得到该体素的全局变量,与每个点特征进行拼接,此时每个点的特征为64维。再次重复上述过程,得到该体素t个128维的特征向量,最后通过最大池化得到该体素128维的全局特征;
(3) 子流形稀疏卷积层在点云空间中若没有相关的输入点,则不计算输出点;构建一个哈希表来存储特征图中有值的位置,设输入特征图为
Figure 885222DEST_PATH_IMAGE029
,其中非零值元素有a个,将
Figure 516054DEST_PATH_IMAGE030
编码为一个
Figure 374289DEST_PATH_IMAGE031
的特征矩阵
Figure 65164DEST_PATH_IMAGE032
和一个哈希表
Figure 212112DEST_PATH_IMAGE033
Figure 36848DEST_PATH_IMAGE032
中存放
Figure 624956DEST_PATH_IMAGE029
中所有非零的特征向量,m表示特征向量的维度,
Figure 549049DEST_PATH_IMAGE033
是一个键值对(Key-Value)组成的散列表,Key指的是特征矩阵的行索引,取值为[0,a-1]之间的整数。Value表示对应元素在
Figure 245610DEST_PATH_IMAGE030
中的索引,是一个d维向量,输出的稀疏特征图
Figure 546141DEST_PATH_IMAGE034
同样编码为
Figure 519913DEST_PATH_IMAGE035
Figure 614908DEST_PATH_IMAGE036
Figure 533186DEST_PATH_IMAGE037
Figure 583880DEST_PATH_IMAGE038
Figure 208897DEST_PATH_IMAGE039
的矩阵,n是输出特征向量的维度;定义卷积核的尺寸以及卷积步长如下:设
Figure 537110DEST_PATH_IMAGE040
其中
Figure 818049DEST_PATH_IMAGE041
指输入的维度,
Figure 725963DEST_PATH_IMAGE042
指输出的维度,
Figure 533382DEST_PATH_IMAGE041
Figure 235758DEST_PATH_IMAGE042
满足约束条件:
Figure 3994DEST_PATH_IMAGE043
其中f代表卷积核的尺寸,s代表卷积步长,p代表0值填充;
子流形稀疏卷积层分为两个部分:空值补零,强制清零;
Figure 246757DEST_PATH_IMAGE030
d维的张量,定义感受野的大小为
Figure 846365DEST_PATH_IMAGE044
(指一个边长为fd维立方体),以
Figure 657327DEST_PATH_IMAGE029
中某元素
Figure 975175DEST_PATH_IMAGE045
为中心,周围
Figure 21629DEST_PATH_IMAGE044
空间中的所有空值的位置进行补零操作,再与卷积核进行卷积计算;设
Figure 413427DEST_PATH_IMAGE030
中零值区域为
Figure 457606DEST_PATH_IMAGE046
,将
Figure 325068DEST_PATH_IMAGE047
中的对应零值区域置零;
子流形稀疏卷积层特征提取后,三维卷积参数含义为
Figure 112896DEST_PATH_IMAGE048
k为卷积核大小,s为步长,p为零值填充,通过将4倍下采样的3D特征图转换为2D鸟瞰特征图,使用基于锚点的方法生成高质量的3D预选框,具体来说,沿着Z轴堆叠特征量从而得到四倍下采样的鸟瞰图,即在XY平面上拥有400×352个体素 每个体素使用32维的特征向量来表示。输入框生成网络,即根据生成的回归图(regression map)和可能性概率图(probably scoremap)进行预选框的生成,对鸟瞰图中每个体素进行评估产生两个预选锚框,分别为0°和90°方向,为第二阶段的框优化做准备。
本发明中,第一阶段中,特征融合将上文得到的特征进行融合;定义子流形稀疏卷积层第k级的体素特征向量集合为
Figure 624780DEST_PATH_IMAGE049
,对应的3D坐标集合为
Figure 839860DEST_PATH_IMAGE050
,由三维空间中的体素坐标索引和实际体素尺寸大小计算得出,其中
Figure 929039DEST_PATH_IMAGE051
代表第k级体素特征中非空体素的数量。以关键点
Figure 520557DEST_PATH_IMAGE052
为中心,
Figure 621369DEST_PATH_IMAGE053
为半径检测相邻的非空体素,并将其用集合
Figure 69667DEST_PATH_IMAGE054
表示:
Figure 849405DEST_PATH_IMAGE055
其中
Figure 916718DEST_PATH_IMAGE056
为局部相对坐标,用于对应在体素特征
Figure 996669DEST_PATH_IMAGE057
中的相对位置,然后通过归一化处理得到不同尺度下的非空体素集合
Figure 819132DEST_PATH_IMAGE058
的特征:
Figure 755339DEST_PATH_IMAGE059
其中
Figure 688660DEST_PATH_IMAGE060
表示从集合
Figure 888697DEST_PATH_IMAGE061
中随机采样最多T个体素进行计算,而
Figure 882061DEST_PATH_IMAGE062
表示多层感知机网络, 用于对体素特征和相对位置进行编码。通过最大池化操作
Figure 308494DEST_PATH_IMAGE063
将不同相邻体素数量的特征向量映射为
Figure 779927DEST_PATH_IMAGE064
,可以将不同尺度的卷积操作下得到的特征进行级联,得到
Figure 100050DEST_PATH_IMAGE065
的多尺度特征:
Figure 264315DEST_PATH_IMAGE066
通过公式(9)可以得到原始点云特征
Figure 646886DEST_PATH_IMAGE067
和鸟瞰图特征
Figure 984326DEST_PATH_IMAGE068
,进一步得到关键点
Figure 362218DEST_PATH_IMAGE065
的特征:
Figure 369488DEST_PATH_IMAGE069
Figure 832831DEST_PATH_IMAGE070
可以十分有效地保留整个3D场景的结构信息,有利于后续的检测。
本发明中,第一阶段中,预选框生成对鸟瞰图进行分析处理得到概率分数图和回归图, 其中概率分数图代表了对特征的评分,鸟瞰图中每个点会在回归图中生成两个角度的预选框,每个框有七个参数
Figure 442804DEST_PATH_IMAGE071
,分别代表在空间中的XYZ轴的坐标和框的高度、宽度、长度以及偏向角信息。
本发明中,第二阶段中,预选框优化从关键点特征中提取融合得到每个ROI的特征,生成准确可靠的3D检测框(ROI)。具体的,对于每个3D空间中的ROI,沿X,Y,Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点,表示为
Figure 612885DEST_PATH_IMAGE072
,以参考点为中心,r为半径聚合周围关键点的特征,其相邻关键点特征集合如下:
Figure 853373DEST_PATH_IMAGE073
其中
Figure 866329DEST_PATH_IMAGE074
为关键点
Figure 483255DEST_PATH_IMAGE075
相对于参考点
Figure 507843DEST_PATH_IMAGE076
的局部相对位置,然后聚合相邻关键点特征集合:
Figure 184812DEST_PATH_IMAGE077
其中
Figure 419484DEST_PATH_IMAGE078
Figure 574522DEST_PATH_IMAGE079
与公式(9)中定义相同;
在获取ROI区域内关键点聚合特征
Figure 453616DEST_PATH_IMAGE080
后选取0°,30°,60°,90°,120°,150°,六个角度生成预选框. 并输入框优化网络,进行框中心,大小和方向的残差计算;
框优化网络由两层MLP层构成,网络有两个分支,分别进行置信度预测和预选框优化,第k个ROI归一化得到分类置信度
Figure 98224DEST_PATH_IMAGE081
如下:
Figure 757876DEST_PATH_IMAGE082
其中
Figure 654287DEST_PATH_IMAGE083
的取值范围为[0,1],
Figure 715784DEST_PATH_IMAGE084
是第k个ROI和真实数据标签的交互比,然后结合强制性一致损失对置信度分支进行训练;强制性一致损失如下:
Figure 796873DEST_PATH_IMAGE085
其中DG表示预选框和真实数据标签,
Figure 943820DEST_PATH_IMAGE086
代表框的定位置信度。
本发明中,第二阶段中,损失函数由三个部分组成:预选框损失
Figure 109835DEST_PATH_IMAGE087
,关键点提取损失
Figure 88155DEST_PATH_IMAGE088
,框优化损失
Figure 277828DEST_PATH_IMAGE089
(1)预选框损失如下:
Figure 849755DEST_PATH_IMAGE091
其中
Figure 947024DEST_PATH_IMAGE092
代表预测残差,
Figure 717534DEST_PATH_IMAGE093
代表回归目标,smooth_L1损失函数用于对两者进行回归计算。
Figure 15791DEST_PATH_IMAGE094
为分类损失,使用焦点损失函数用于平衡正负样本,其计算公式如下:
Figure 137331DEST_PATH_IMAGE095
其中平衡因子
Figure 38291DEST_PATH_IMAGE096
,用来平衡正负样本本身的比例不均,因子
Figure 600990DEST_PATH_IMAGE097
,用于减少易分类样本的损失,
Figure 132466DEST_PATH_IMAGE098
是属于真实值的输出概率:
(2)关键点的提取损失
Figure 538039DEST_PATH_IMAGE099
为前景点分割时的焦点损失函数;前景点提供了预测目标位置和方向的丰富信息,通过一个关键点预测加权层(PKW)对特征提取层得到的关键点进行检测,以筛选出前景点;在训练阶段,使用基于焦点损失的函数,结合地面真实值,即通过检查每个关键点是否在地面真实3D框的内部或者外部,以处理训练集中前景点与背景点不平衡的问题。
(3)框优化损失计算如下:
Figure 445952DEST_PATH_IMAGE100
其中
Figure 128738DEST_PATH_IMAGE101
为强制性一致损失函数,
Figure 627852DEST_PATH_IMAGE102
是预测残差,
Figure 458405DEST_PATH_IMAGE103
的是回归目标,与
Figure 576534DEST_PATH_IMAGE104
编码方式相同;本发明总的损失函数即上述三个损失函数相同权重的总和。
本发明公开了一种基于体素点云融合的三维动态目标检测的装置,用于上述基于体素点云融合的三维动态目标检测方法,包括图像采集模块以及数据处理模块,数据处理模块包括点云输入模块、对点云提取关键点特征模块、体素特征提取模块、特征融合模块、预选框生成模块、预选框优化模块、损失函数计算模块以及点云输出模块;图像采集模块为雷达传感器、摄像头。
本发明公开了一种电子设备,包括处理器与存储器,其中,存储器存储被处理器执行的指令,是的处理器可执行所述基于体素点云融合的三维动态目标检测方法。
本发明公开了一种存储计算机指令的计算机可读存储介质,所述计算机指令使得计算机执行所述基于体素点云融合的三维动态目标检测方法。
本发明的创新点如下:
(1)将直接处理点云方法中感受野灵活和划分空间体素方法中计算效率较高的优势相融合,提出一种两阶段的三维目标检测算法,在一阶段实现预选框生成和二阶段进行两次融合实现框优化,可以得到丰富的点云特征。
(2)在提取体素空间特征过程中,引入了子流形稀疏卷积的方法,对非空体素空间进行编码和高维特征的提取。并且引入FPS迭代最远点采样的方法弥补划分体素无法对整个空间进行描述的缺陷,两者融合获取全局空间的高级特征。
(3)提出一种强制性一致损失函数,对分类置信度和定位置信度进行约束,并且该损失函数易于实现,不需要修改目标检测框架。
附图说明
图1为系统框图;
图2为基于点的特征提取流程;
图3为前景点分割(PKW)模块;
图4为子流形稀疏卷积特征提取层;
图5为框优化网络;
图6为BEV鸟瞰视图各种方法的mAP比较;
图7为Recall-Precision曲线;
图8为点云数据检测结果可视化;
图9为基于Kitti数据集的消融研究;
图10为损失函数曲线,(a) 各模块损失曲线,(b) 总损失曲线;
图11为精度检测曲线,(a)三种方法的各类别目标检测精度,(b)三种方法在不同距离下目标检测精度;
图12为可视化检测结果。
具体实施方式
本发明提出了一个基于体素点云融合的三维动态目标检测算法框架,为体素点云融合算法框架,如图1所示,框架的第一阶段通过划分体素来进行3D卷积操作,并且在传统VoxelNet[10]的基础上进行了创新,引入子流形稀疏卷积[19]的方法,作为特征编码和预选框生成的主干网络,同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类,提取其周围区域的特征,最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合,得到点云空间中关键点的高级特征。第二阶段在基于体素生成的ROI区域中选取参考点,以一定范围进行聚类,融合第一阶段生成的关键点特征对预选框进行优化,并通过置信度强制约束的损失函数,实现更为准确的检测框生成和位置优化效果。在本发明公开方法的基础上,具体的步骤操作为现有技术。
实施例
通过传感器对实物进行数据采集,常规方法得到点云文件,然后进行以下步骤。
关键点特征提取:直接对检测对象点云进行关键点提取主要分为四个步骤:关键点采样层,聚类层,特征提取层,前景点分割层。
(1)采样层:以往随机采样的方式难以获取到点云的全局信息,因此引入FPS(迭代最远点采样)的方法从点云中采样少量关键点,其具体原理如下:输入点云集合
Figure 441721DEST_PATH_IMAGE105
共有n个点,随机选取
Figure 377316DEST_PATH_IMAGE106
作为起始点,并写入关键点的集合
Figure 367269DEST_PATH_IMAGE107
, 计算
Figure 351406DEST_PATH_IMAGE106
和剩余的n-1个点的欧式距离,选择最远点
Figure 133417DEST_PATH_IMAGE108
写入集合
Figure 177596DEST_PATH_IMAGE109
。下一次迭代需要同时考虑两个点,因此计算剩余n-2个点到集合K中两个点的距离, 取最短的作为该点到点集的距离,得到n-2个点到集合K的距离,选取其中最远的点
Figure 654845DEST_PATH_IMAGE110
写入集合
Figure 504989DEST_PATH_IMAGE111
,继续迭代上述过程,直到采样出所需要的点的数目。在Kitti数据集和Nuscene数据集的点云空间中采样关键点数目为2048,在Waymo数据集中采样的关键点数目为4096。
(2)聚类层:接着以关键点为中心,R为半径划分球形区域,提取区域中包含的点的信息, 这种方式可以获取到目标相关联的特征. 由于点云在空间中是不均匀分布的,若每个区域使用相同的球半径,会导致某些稀疏区域的采样点过少,从而使得特征信息不足,因此本发明引入一种多分辨率组合(MRG)的方法,如图2所示,提取的特征由两个特征向量串联构成,前半部分由原始点云数据中的所有点进行特征提取构成,后半部分由前半部分特征输入PointNet网络中得到;
(3)特征提取层:使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作, 得到的多分辨率特征作为该中心点的局部特征,虽然聚类层给出的各个局部可能由不同数量的点构成,但是通过PointNet网络后可以得到维度一致的特征;
(4)前景点分割层:前景点提供了预测目标位置和方向的丰富信息,本发明提出一个关键点预测加权层(PKW),如图3所示,对特征提取层得到的关键点进行检测,以筛选出前景点。其具体原理是将关键点特征输入一个两层的感知机网络(MLP),得出其属于前景点的权重信息,其中第一层MLP(128,256)网络有两次卷积过程, 第一次为128个1×128×1大小的卷积核与输入特征进行卷积,得到的n个1×128的特征向量,第二次使用256个1×1×128大小的卷积核进行卷积,得到n个1×256的特征向量,通过维度变换将特征向量变为n×256。第二层MLP(128,1)网络同样有两次卷积过程,第一次使用128个1×256×1大小的卷积核与输入特征进行卷积,得到n个1×128的特征向量,第二次使用1个1×1×128大小的卷积核进行卷积,得到n个1×1的特征向量,该过程的目的是获取每个关键点的是否属于前景点的可能性,最后再通过维度变换将前景点预测值变为n×1. 图3中,Shared意为在处理包含多个点的点云数据时,对每个点乘以相同权重,因为在点云中,每个点不是独立的,因此不应该看作独立的样本,为了简化计算,权值范围在(0,1)之间,最后与特征向量相乘,得到该关键点的最终特征,在训练阶段,使用基于焦点损失的函数,结合真实数据标签,即通过检查每个关键点是否在真实数据标签的3D框的内部或者外部,以处理训练集中前景点与背景点不平衡的问题。每个关键点特征
Figure 79190DEST_PATH_IMAGE112
的预测特征权重可以表示为:
Figure 229024DEST_PATH_IMAGE113
(1)
其中
Figure 255886DEST_PATH_IMAGE114
是一个两层的MLP网络,以预测(0,1)之间的前景点置信度。其计算公式分为正向传播和权值更新两部分:
Figure 909721DEST_PATH_IMAGE115
(2)
在正向传播公式中,
Figure 10533DEST_PATH_IMAGE116
为隐藏层网络权值,激活函数为softmax函数,
Figure 396515DEST_PATH_IMAGE117
为输出层网络权值,输出标签
Figure 972989DEST_PATH_IMAGE118
采用One-Hot编码。损失函数使用焦点损失函数Focal Loss。输出层和隐藏层的梯度计算及权值更新公式为:
Figure 40303DEST_PATH_IMAGE120
其中
Figure 323516DEST_PATH_IMAGE121
为损失函数计算的结果,
Figure 208296DEST_PATH_IMAGE122
为梯度下降权值,该过程在训练过程中进行。
体素特征提取:基于体素的特征提取方法的优势是计算效率较高,而且可以获取目标更为准确的上下信息,该方法由三个部分组成:体素划分层,VFE特征提取层,子流形稀疏卷积层。
(1)划分体素空间
将3D空间细分为等距等大小的体素,假设点云是沿Z,Y,X轴的范围为D,H,W的3D空间,定义每个体素的大小为
Figure 881854DEST_PATH_IMAGE123
,则沿每一个坐标轴划分的数量为
Figure 549595DEST_PATH_IMAGE124
,整个点云空间被划分为N个等大小的体素。其中
Figure 15212DEST_PATH_IMAGE125
以Kitti的3D点云数据集为例,针对车辆检测,
Figure 8576DEST_PATH_IMAGE126
,每个体素的大小为
Figure 169430DEST_PATH_IMAGE127
,行人或骑行目标检测,则
Figure 703179DEST_PATH_IMAGE128
,每个体素的大小为
Figure 960985DEST_PATH_IMAGE129
激光雷达工作时,点云在整个3D空间中是不均匀分布的,在划分体素空间后,每个体素中包含的点的数量是不同的,通常高分辨率激光雷达的点云由超过100K的点组成,直接处理所有的点不仅会增加计算成本,而且由于点密度不均匀可能会导致检测出现误差。因此,引入一个阈值T,对于点数目多于T的体素,采用随机采样选取固定的T个点,使用这种方式的目的,一方面是减少计算量,另一方面是为了减少体素之间的点数目的不平衡,缩小采样偏差,例如在检测车辆时T=35,检测行人时T=45
(2)VFE特征提取层
如图1中基于体素的方法描述了使用VFE层对体素进行特征编码过程,对于包含
Figure 797354DEST_PATH_IMAGE130
个点的非空体素,使用
Figure 570138DEST_PATH_IMAGE131
表示,其中
Figure 845262DEST_PATH_IMAGE132
包含体素中第i个点的X,Y,Z坐标及反射率
Figure 629678DEST_PATH_IMAGE133
,首先计算体素V中的局部均值作为质心,表示为
Figure 27161DEST_PATH_IMAGE134
。计算
Figure 224924DEST_PATH_IMAGE132
相对于质心的偏移量,表示为
Figure 241422DEST_PATH_IMAGE135
,可得输入特征集
Figure 473820DEST_PATH_IMAGE136
为了避免信息损失,接下来使用全连接层(FCN)将输入的7维向量
Figure 776626DEST_PATH_IMAGE137
映射为32维,因此现在每个体素中共有t个32维的特征向量,使用最大池化操作得到该体素的全局变量,与每个点特征进行拼接,此时每个点的特征为64维。再次重复上述过程,得到该体素t个128维的特征向量,最后通过最大池化得到该体素128维的全局特征。因此整个点云空间得到的特征维度为(128,10,400,352)。其中,由Kitti数据集点云空间大小以及每个体素的大小信息可计算出,沿着Z,X,Y轴将空间划分为
Figure 727264DEST_PATH_IMAGE138
。即10×400×352个体素。
(3)子流形三维稀疏卷积
空间稀疏卷积主要原理是在点云空间中若没有相关的输入点,则不计算输出点,例如Kitti数据集,将点云分割成5k-8k个体素,其稀疏度接近0.005,使用普通卷积则计算成本十分高昂。因此引入子流形稀疏卷积的方法,只有在输入点云的相关位置处于激活状态时, 输出点云的相应位置才会是激活的,这一方法避免了太多激活位置的产生从而导致后续卷积过程中速度的降低。
3D稀疏卷积的输入和输出都是稀疏的特征图,因此不需要无差别的存储特征图中全部的值,只需要构建一个哈希表来存储特征图中有值的位置即可。设输入特征图为
Figure 290662DEST_PATH_IMAGE139
,其中非零值元素有a个,将
Figure 174305DEST_PATH_IMAGE139
编码为一个
Figure 585694DEST_PATH_IMAGE140
的特征矩阵
Figure 695733DEST_PATH_IMAGE141
和一个哈希表
Figure 116350DEST_PATH_IMAGE142
Figure 120078DEST_PATH_IMAGE141
中存放
Figure 967948DEST_PATH_IMAGE139
中所有非零的特征向量,m表示特征向量的维度,
Figure 299704DEST_PATH_IMAGE143
是一个键值对(Key-Value)组成的散列表,Key指的是特征矩阵的行索引,取值为[0,a-1]之间的整数。Value表示对应元素在
Figure 320749DEST_PATH_IMAGE139
中的索引,是一个d维向量,输出的稀疏特征图
Figure 382246DEST_PATH_IMAGE144
同样编码为
Figure 338701DEST_PATH_IMAGE145
Figure 220069DEST_PATH_IMAGE146
,考虑到稀疏卷积过程将保持输入特征图的稀疏性,因此
Figure 44806DEST_PATH_IMAGE147
Figure 632913DEST_PATH_IMAGE145
Figure 822586DEST_PATH_IMAGE148
的矩阵,n是输出特征向量的维度。
稀疏卷积和普通卷积一样,需要定义卷积核的尺寸以及卷积步长等参数,设
Figure 519147DEST_PATH_IMAGE149
其中
Figure 819678DEST_PATH_IMAGE150
指输入的维度,
Figure 527871DEST_PATH_IMAGE151
指输出的维度,
Figure 888445DEST_PATH_IMAGE150
Figure 806722DEST_PATH_IMAGE152
满足约束条件:
Figure 583049DEST_PATH_IMAGE153
其中f代表卷积核的尺寸,s代表卷积步长,p代表0值填充。
子流形3D稀疏卷积主要分为两个部分:空值补零,强制清零。空值补零为了维护正常的卷积计算,强制清零为了维护特征的稀疏性,由于
Figure 473644DEST_PATH_IMAGE139
d维的张量,则感受野的大小为
Figure 67437DEST_PATH_IMAGE154
(指一个边长为fd维立方体)。稀疏卷积会以
Figure 410693DEST_PATH_IMAGE139
中某元素
Figure 990710DEST_PATH_IMAGE155
为中心,周围
Figure 735812DEST_PATH_IMAGE154
空间中的所有空值的位置进行补零操作,再与卷积核进行卷积计算,为了保持输入尺寸和输出尺寸一致,需要在
Figure 500506DEST_PATH_IMAGE139
上进行零值补充,由于受到感受野区域的影响,原本是零值的位置经过卷积会得到非零值结果,会导致特征失真,为了维护原特征的稀疏性, 设
Figure 331059DEST_PATH_IMAGE139
中零值区域为
Figure 711837DEST_PATH_IMAGE156
,将
Figure 577025DEST_PATH_IMAGE157
中的对应零值区域置零。
通过引入子流形稀疏卷积,可以忽略零值区域的卷积计算,则d维稀疏卷积的计算量为
Figure 512620DEST_PATH_IMAGE158
其中a是感受野范围内的非零值,mn分别是输入和输出的特征维度,而传统卷积需要
Figure 564889DEST_PATH_IMAGE159
次运算,两者相比,引入子流形稀疏卷积极大地减少了运算量。
如图4所示为子流形稀疏卷积特征提取层,其中白色框代表常规卷积,黄色框代表子流形卷积,红色框代表维度重构,三维卷积参数含义为
Figure 486709DEST_PATH_IMAGE160
k为卷积核大小,s为步长,p为零值填充,即通过将4倍下采样的3D特征图转换为2D鸟瞰特征图,可以使用基于锚点的方法生成高质量的3D预选框,具体来说,沿着Z轴堆叠特征量从而得到四倍下采样的鸟瞰图,即在XY平面上拥有400×352个体素,每个体素使用32维的特征向量来表示.输入框生成网络,即根据生成的回归图(regression map)和可能性概率图(probablyscore map)进行预选框的生成,对鸟瞰图中每个体素进行评估产生两个预选锚框,分别为0°和90°方向。由于此时的特征尚不够丰富,预选框仅选用两个角度是为了确定目标的大致位置,为第二阶段的框优化做准备。
特征融合算法。需要将上述得到的特征进行融合。特征提取层是对特征图进行多次卷积, 得到1倍,2倍,4倍的下采样特征,定义3D卷积第k级的体素特征向量集合为
Figure 268720DEST_PATH_IMAGE161
,对应的3D坐标集合为
Figure 312900DEST_PATH_IMAGE162
, 由三维空间中的体素坐标索引和实际体素尺寸大小计算得出,其中
Figure 790149DEST_PATH_IMAGE163
代表第k级体素特征中非空体素的数量。以关键点
Figure 577976DEST_PATH_IMAGE164
为中心,
Figure 214494DEST_PATH_IMAGE165
为半径检测相邻的非空体素,并将其用集合
Figure 101678DEST_PATH_IMAGE166
表示。
Figure 394119DEST_PATH_IMAGE167
其中
Figure 782375DEST_PATH_IMAGE168
为局部相对坐标,用于对应在体素特征
Figure 476662DEST_PATH_IMAGE169
中的相对位置,然后通过归一化处理得到不同尺度下的非空体素集合
Figure 534748DEST_PATH_IMAGE170
的特征。
Figure 111223DEST_PATH_IMAGE171
其中
Figure 240853DEST_PATH_IMAGE172
表示从集合
Figure 727329DEST_PATH_IMAGE173
中随机采样最多T个体素进行计算,而
Figure 80950DEST_PATH_IMAGE174
表示多层感知机网络, 用于对体素特征和相对位置进行编码. 通过最大池化操作
Figure 82404DEST_PATH_IMAGE175
将不同相邻体素数量的特征向量映射为
Figure 953408DEST_PATH_IMAGE176
,可以将不同尺度的卷积操作下得到的特征进行级联,得到
Figure 356707DEST_PATH_IMAGE132
的多尺度特征。
Figure 146809DEST_PATH_IMAGE177
该过程的目的是以关键点为中心,将
Figure 307663DEST_PATH_IMAGE178
范围内不同尺度的非空体素特征进行聚合,由于特征维度不同,因此使用多层感知机进行卷积操作统一特征维度即128维。由于不同关键点周围的非空体素数量不同,因此使用最大池化操作得到
Figure 44675DEST_PATH_IMAGE179
维特征。1倍,2倍,4倍情况下均按照上述操作,得到
Figure 364798DEST_PATH_IMAGE180
维特征。
为了获取更为丰富的特征,考虑到2D鸟瞰视图在Z轴具有较大的感受野,可以通过双线性插值得到关键点
Figure 263483DEST_PATH_IMAGE132
映射到鸟瞰图的特征,另外
Figure 908704DEST_PATH_IMAGE132
在原始点云中对应的特征可以弥补体素量化过程中的损失,通过公式(9)可以得到原始点云特征
Figure 246144DEST_PATH_IMAGE181
和鸟瞰图特征
Figure 358457DEST_PATH_IMAGE182
综上所述,得到关键点
Figure 631306DEST_PATH_IMAGE132
的特征。
Figure 829069DEST_PATH_IMAGE183
Figure 970201DEST_PATH_IMAGE184
可以十分有效地保留整个3D场景的结构信息,有利于后续的检测。
预选框生成与框优化网络
预选框的生成是对鸟瞰图的特征信息进行打分,鸟瞰图每一个点代表了原始3D空间中Z方向上的特征,因此将鸟瞰图进行分析处理得到概率分数图和回归图,其中概率分数图代表了对特征的评分,鸟瞰图中每个点会在回归图中生成两个角度的预选框,每个框有七个参数
Figure 937020DEST_PATH_IMAGE185
,分别代表在空间中的X,Y,Z轴的坐标和框的高度、宽度,长度以及偏向角信息.
为了生成准确可靠的3D检测框(ROI),需要从关键点特征中提取融合得到每个ROI的特征,因此本发明采用基于关键点的ROI特征提取方法, 如图5所示,用于多尺度的ROI特征编码. 与公式(9)采取的方法类似,对于每个3D空间中的ROI,沿X,Y,Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点,参考点仅作为设定的坐标,用于聚合周围的关键点的特征, 其本身不自带特征信息,并且在后续训练过程中不需要更新参考点数量。表示为
Figure 115191DEST_PATH_IMAGE186
,以参考点为中心,r为半径聚合周围关键点的特征, 其相邻关键点特征集合为:
Figure 862567DEST_PATH_IMAGE187
其中
Figure 479494DEST_PATH_IMAGE188
为关键点
Figure 504081DEST_PATH_IMAGE189
相对于参考点
Figure 181050DEST_PATH_IMAGE190
的局部相对位置,然后聚合相邻关键点特征集合
Figure 150143DEST_PATH_IMAGE191
其中
Figure 508444DEST_PATH_IMAGE192
Figure 449855DEST_PATH_IMAGE193
与公式(9)中定义相同,本发明设置了多个半径r,并且串联了不同感受野的关键点特征以获得更为丰富的多尺度特征信息. 在获取ROI区域内关键点聚合特征
Figure 94463DEST_PATH_IMAGE194
后选取0°,30°,60°,90°,120°,150°六个角度生成预选框。并输入框优化网络,进行框中心,大小和方向的残差计算,框优化网络由两层MLP层构成,网络有两个分支,分别进行置信度预测和预选框优化,第k个ROI归一化得到分类置信度
Figure 691797DEST_PATH_IMAGE195
Figure 650526DEST_PATH_IMAGE196
其中
Figure 774340DEST_PATH_IMAGE197
的取值范围为[0,1],
Figure 527532DEST_PATH_IMAGE198
是第k个ROI和真实数据标签的交互比,然后对置信度分支进行训练. 考虑到分类置信度和定位置信度通常不完全一致,因此提出一种强制性一致损失以确保定位和分类置信度之间的一致性,使得具有较高定位置信度的预选框同时具有较高的分类置信度,该损失可以表示为:
Figure 612163DEST_PATH_IMAGE199
其中DG表示预选框和真实数据标签,
Figure 374583DEST_PATH_IMAGE200
代表框的定位置信度,为了优化该损失函数, 要求分类置信度和定位置信度尽可能地共同提高,本发明提出的强制性一致损失函数虽然类似于交互比(IOU),但是目的和功能是不同的,IOU尝试通过优化置信度来产生更为精准的回归,而强制性一致损失的目的在于保证定位和分类置信度的一致性,得到更为精确的边界框。
损失函数本发明的损失函数由三个部分组成:预选框损失
Figure 87324DEST_PATH_IMAGE201
,关键点提取损失
Figure 214680DEST_PATH_IMAGE202
,框优化损失
Figure 583344DEST_PATH_IMAGE203
(1)预选框损失
Figure 946192DEST_PATH_IMAGE204
其中
Figure 982281DEST_PATH_IMAGE205
代表预测残差,
Figure 277609DEST_PATH_IMAGE206
代表回归目标,smooth_L1损失函数用于对两者进行回归计算。
Figure 133570DEST_PATH_IMAGE207
为分类损失,使用焦点损失函数用于平衡正负样本,其计算公式如下:
Figure 34529DEST_PATH_IMAGE208
其中平衡因子
Figure 862808DEST_PATH_IMAGE209
,用来平衡正负样本本身的比例不均,因子
Figure 394284DEST_PATH_IMAGE210
,用于减少易分类样本的损失,
Figure 534278DEST_PATH_IMAGE211
是属于真实值的输出概率;
(2)关键点的提取损失
Figure 114295DEST_PATH_IMAGE212
在上文前景点分割部分给出, 同样使用焦点损失函数计算;
(3)框优化损失
Figure 859397DEST_PATH_IMAGE213
其中
Figure 624091DEST_PATH_IMAGE214
为强制性一致损失函数,
Figure 454644DEST_PATH_IMAGE215
是预测残差,
Figure 572772DEST_PATH_IMAGE216
的是回归目标,与
Figure 234698DEST_PATH_IMAGE217
编码方式相同;总的损失函数即上述三个损失函数相同权重的总和。
实验与分析
本发明使用Kitti, Waymo和Nuscene的3D目标检测数据集对提出的算法框架进行验证. 主要是在Kitti数据集进行多种方法对比验证,绘制P-R曲线,进行消融研究和展示可视化结果。为了验证本方法的泛化性能,在Waymo和Nuscene大型数据集上也进行了多种方法的对比验证,同时对多种方法的损失函数进行了评估并绘制了曲线。最后本发明基于实物车辆,依靠清华大学自动驾驶研究院的测试平台,使用激光雷达进行点云数据采集,并进行了标注工作,将代码移植到ROS平台,用于检验算法的可移植性和泛化能力,同时进行了子模块的消融研究,绘制了mAP检验精度表格。
Kitti数据集
Kitti数据集有7481个训练样本和7518个测试样本,使用平均准确率(mAP)作为评估标准, 其中汽车的IoU阈值为0.7,行人和骑车的人的IoU阈值为0.5,召回率为40。表1显示了本发明提出的方法在Kitti测试数据集上与其他优秀的方法的mAP对比,其中Second,PointPillar, Part-A2是基于划分体素的方法,其主干网络是以VoxelNet为基础并做了大量的创新改进. PointRCNN是基于直接处理点云的方法,其主干网络是以PointNet为基础并做了大量的改进. AVOD,F-PointNet基于图像和点云相结合的方法。
由表1可知,本发明提出的方法在车辆的检测中明显优于其他方法,即在简单、中等,困难等级上把mAP提高了0.29%,1.45%,0.49%。并且本发明提出的方法没有像[11,20,22]为骑行的人和行人提供单独类别的训练模型,而是采用唯一的训练模型。
在鸟瞰视图下的检测结果如图6所示,其中IoU阈值为0.7,召回率仍为40,由折线可以看到本发明提出的方法在简单和中等难度上具备优势,分别将平均准确率(mAP)提高了0.34%和0.33%,并且在困难情况下准确率也较高,达到了69.55%,具备与其他方法的竞争能力。
Figure 107976DEST_PATH_IMAGE219
如图7所示,对于Kitti数据集上测试的多种方法,绘制了召回率(Recall)和精确度(Precision)曲线,精确度的计算方法为在设定某一阈值的情况下,正样本的预测数除以被预测为正样本的数量(包含错误预测为正样本的负样本)。召回率计算方法为在设定某一阈值的情况下,分类正确的样本除以所有正样本的数量。由曲线图可知,在不同阈值下,本发明提出的方法能够更好地兼顾精确率和召回率,并且比其他方法收敛地更慢。
对Kitti数据集的道路、城市、校园等场景进行了测试,检测结果如图8所示,每一个子图的上半部分是点云数据,下半部分是RGB图像. 检测结果中绿色框是汽车,蓝色框是行人,黄色框是骑行的人,由结果可知,本发明对点云数据的检测结果位置准确,且分类精确度高,可以检测出RGB图像中存在遮挡的目标。
为了验证本发明提出的融合算法的有效性,将模型拆分为三个子模块:完全基于体素进行3D卷积提取特征,体素特征结合框优化网络提取特征,体素特征在框优化阶段融合关键点进行特征提取(本发明方法)。分别在Kitti数据集的容易、中等,困难标准进行验证,得到检测结果曲线如图9所示。
通过消融研究图表可知,本发明提出的多特征融合的方法能够显著的提高检测精度,在三种难度下mAP分别达到了92.18%,83.96%,81.86%. 而仅仅使用基于体素的特征提取效果较差,尤其是在困难等级上,比本发明方法的检测精度低了7.61%。
最后, 为了验证本发明提出算法的时间效率,分别选择基于直接处理点云的优秀方法PointRCNN,基于体素的优秀方法SECOND,多传感器融合的方法F-PointNet,在Kitti数据集中与本发明提出的方法对比,检测每一帧点云数据的检测时间,得到的结果如表2所示。
Figure 363508DEST_PATH_IMAGE220
由表2可知,本发明提出的算法相比较其他三种算法时间效率提升明显,达到了0.06s。多传感器融合的方法需要处理不同形式的数据,计算成本较高。基于直接处理点云的方法需要将无序的点云进行采样、聚类、特征提取,并且没有使用前景点分割层即PKW模块,需要对每个点都进行处理,这无疑需要大量的时间和计算成本。基于体素的方法虽然对传统三维卷积方法做了改进,但是仍然存在时间效率不够高的问题。而本发明提出的算法结合了直接处理点云并提出了前景点分割模块(PKW)和划分体素空间的方法并引入子流形稀疏卷积法,在实现多尺度特征融合的基础上保证了时间效率。
Waymo数据集
在大规模数据集Waymo上评估本发明提出的模型, 进一步验证方法的有效性。XY轴的检测范围为
Figure 409961DEST_PATH_IMAGE221
,Z轴的检测范围为
Figure 864076DEST_PATH_IMAGE222
,并将体素大小设置为
Figure 845939DEST_PATH_IMAGE223
。使用官方的评估工具评估本发明的方法, 其中设置IoU阈值为0.7, 基于目标到传感器的距离,将点云空间划分为
Figure 651084DEST_PATH_IMAGE224
由表3可知,本发明提出的方法显著优于其他先进的方法,其中3D对象检测的mAP提升了6.21%,BEV对象检测的mAP提升了2.83%。证明了本发明提出的多尺度体素点云融合的特征能够有效获取更准确的上下文信息以改善3D检测性能。使用4个GTX1080ti的GPU进行模型的训练, 其中设置批处理为16,学习率为0.01,训练80次, 得到如图10所示的损失函数曲线,其中(a)图是算法各个模块的损失函数曲线图,即
Figure 501228DEST_PATH_IMAGE225
,(b)图是总的损失函数曲线图。通过曲线可以看出梯度下降在一开始表现的非常迅速,到后期可能会不断的趋于平缓,这是正常的表现,后期不会有太大幅度的下降。
Figure 747533DEST_PATH_IMAGE227
Nuscene数据集
为了证明本发明提出的算法拥有良好的泛化能力,在Nuscene数据集也进行了检测,该数据集包含了多种场景。检测结果如表4所示,可知本发明提出的方法在Nuscene数据集上表现仍然良好,其对于轿车和货车的检测精度达到90.57%和79.24%。行人和骑行的人的检测精度达到57.94%和91.35%,优于另外两种方法。
Figure 962613DEST_PATH_IMAGE228
参考文献:
11. 李晓光, 付陈平, 李晓莉, 王章辉. 面向多尺度目标检测的改进Faster R-CNN算法[J]. 计算机辅助设计与图形学学报, 2019, 31(07): 1095-1101.
15. Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: Thekitti dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
20. Shi S, Wang Z, Wang X, et al. Part-aˆ 2 net: 3d part-aware andaggregation neural network for object detection from point cloud[J]. arXivpreprint arXiv:1907.03670, 2019, 2(3).
21. Shi S, Wang X, Li H. Pointrcnn: 3d object proposal generation anddetection from point cloud[C]//Proceedings of the IEEE/ CVF Conference onComputer Vision and Pattern Recognition. 2019: 770-779.
22. Ku J, Mozifian M, Lee J, et al. Joint 3d proposal generation andobject detection from view aggregation[C]//2018 IEEE/ RSJ InternationalConference on Intelligent Robots and Systems (IROS). IEEE, 2018: 1-8.
24. Qi C R, Yi L, Su H, et al. Pointnet++: Deep hierarchical featurelearning on point sets in a metric space[J]. arXiv preprint arXiv:1706.02413,2017。
实物平台测试
最后,本发明依托清华大学自动驾驶研究院的实物车辆平台和测试场地,验证了提出的算法,由于本发明提出的算法对点云进行处理, 因此使用激光雷达传感器进行实验,通过使用实物平台进行数据采集, 最终得到Rosbag格式的点云文件。测试过程分为三个部分:实时动态多目标检测,消融对比研究,精度检测。为了进行消融研究和精度检测,并制作点云格式的小型数据集, 因此将Rosbag文件进行播放,抽取其中的点云帧,再通过标注软件在点云中框出目标真实数据标签和位置信息,标定了四类目标,分别是小型汽车,厢式货车,行人,骑行的人。另外,数据集中点云空间尺寸信息参照Kitti数据集。
本发明进行了消融研究,将本发明提出的特征提取模块单独提取出来进行测试,将各个子模块移植到基于ROS的操作平台,把采集到的数据输入子模块,与真实数据标签比较,得到检测的精度数据,并绘制了消融研究表格,如表5所示。
Figure 317371DEST_PATH_IMAGE229
其中
Figure 315414DEST_PATH_IMAGE230
在上述给出了介绍,由表5可得,使用本发明提出的多特征融合的方法在检测精度上效果最好,达到85.02%,而仅仅对点云直接处理得到的特征检测精度只达到80.26%,同比低了4.76%。另外基于体素提取的不同尺度的特征检测效果表明,本发明提出的子流形稀疏卷积效果很好,通过多次卷积得到的特征融合可以显著提高检测精度,达到了84.44%。
精度检测研究分为两个部分:目标类别与定位检测,不同距离下精度检测。分别绘制了如图11的曲线图。如图11(a)所示,从实物平台采集数据并构建的数据集输入模型得到的各类别检测结果来看,对于车辆的检测精度较高,达到了86.25%和87.38%,平均精度也达到了84.15%,说明本发明提出的方法可泛化能力强,在各种数据集中均有良好的表现。 如图11(b)所示,在不同距离上研究了三种模型的检测目标的能力,如汽车类别的检测,从0-70.4m的距离检测精度只衰减了13.67%,在检测骑行的人中,本发明提出的方法和该领域优秀的方法有可比较的能力,在30-48m的距离上有2.17%的余量,说明本发明提出的算法鲁棒性好,能够通过多特征融合的方式实现更为精准的目标检测。
最后采用基于ROS的操作平台,并将点云数据输入已经训练好的模型中进行实时动态多目标检测,检测速度达到0.06s,可视化结果如图12所示。由图可知检测结果精确,可以识别的目标有箱式货车,小型车辆、行人、骑行的人,因此进一步证明了本发明提出的算法鲁棒性和泛化能力强,运算速度快。
本发明提出了基于体素点云融合的三维动态目标检测方法,是一种新颖的将体素和直接处理点云特征进行融合的方法,解决了传统方法中特征不够丰富导致检测结果不准确的问题, 并且在此基础上提出强制性一致损失函数,针对置信度不一致问题进行了优化。在Kitti,Waymo,Nuscene数据集以及实物平台上进行了实验,结果表明与其他优秀的方法相比,本发明提出的方法效果显著,并且可移植性和泛化能力强。

Claims (10)

1.一种基于体素点云融合的三维动态目标检测方法,采集三维动态目标后经过第一阶段与第二阶段,再点云输出三维动态目标,完成三维动态目标检测;其特征在于,采集三维动态目标后点云输入;第一阶段为对点云提取关键点特征、体素特征提取、特征融合、预选框生成;第二阶段为预选框优化、损失函数计算。
2.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第一阶段中,通过划分体素进行3D卷积操作,利用子流形稀疏卷积的方法,作为特征编码和预选框生成的主干网络,同时使用FPS迭代最远点采样的方法对点云提取关键点并进行聚类,提取其周围区域的特征,最后将关键点在对应体素空间的特征与关键点周围区域特征进行融合,得到点云空间中关键点的高级特征;第二阶段在基于体素生成的ROI区域中选取参考点,进行聚类,融合第一阶段生成的关键点特征对预选框进行优化,并通过置信度强制约束的损失函数计算。
3.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第一阶段中,对点云提取关键点特征为关键点采样层、聚类层、特征提取层、前景点分割层;其中,关键点采样层采用迭代最远点采样的方法从点云中采样关键点,包括以下步骤,输入点云集合
Figure 85235DEST_PATH_IMAGE001
共有n个点,随机选取
Figure 787612DEST_PATH_IMAGE002
作为起始点,并写入关键点的集合
Figure 555847DEST_PATH_IMAGE003
,计算
Figure 484096DEST_PATH_IMAGE002
和剩余的n-1个点的欧式距离,选择最远点
Figure 286967DEST_PATH_IMAGE004
写入集合
Figure 894666DEST_PATH_IMAGE005
,下一次迭代同时考虑两个点,计算剩余n-2个点到集合K中两个点的距离,取最短的作为该点到点集的距离,得到n-2个点到集合K的距离,选取其中最远的点
Figure 461782DEST_PATH_IMAGE006
写入集合
Figure 383602DEST_PATH_IMAGE007
, 继续迭代上述过程,直到采样出所需要的点的数目;聚类层利用多分辨率组合,以关键点为中心,R为半径划分球形区域,提取区域中包含的点的信息,获取到目标相关联的特征;提取的特征由两个特征向量串联构成, 前半部分由原始点云数据中的所有点进行特征提取构成, 后半部分由前半部分特征输入PointNet网络中得到;特征提取层使用基于PointNet网络对聚类层得到的各个局部特征进行卷积和池化操作, 得到的多分辨率特征作为该中心点的局部特征,得到维度一致的特征;前景点分割层利用关键点预测加权层对特征提取层得到的关键点进行检测, 筛选出前景点。
4.根据权利要求3所述基于体素点云融合的三维动态目标检测方法,其特征在于,前景点分割层将关键点特征输入两层的感知机网络,得出其属于前景点的权重信息;其中第一层MLP(128,256)网络有两次卷积过程,第一次为128个1×128×1大小的卷积核与输入特征进行卷积,得到的n个1×128的特征向量,第二次使用256个1×1×128大小的卷积核进行卷积,得到n个1×256的特征向量,并通过维度变换将特征向量变为n×256;第二层MLP(128,1)网络有两次卷积过程,第一次使用128个1×256×1大小的卷积核与输入特征进行卷积,得到n个1×128的特征向量,第二次使用1个1×1×128大小的卷积核进行卷积,得到n个1×1的特征向量,最后再通过维度变换将前景点预测值变为n×1;在处理包含多个点的点云数据时,对每个点乘以相同权重,权值范围在(0,1)之间,最后与特征向量相乘,得到该关键点的最终特征;每个关键点特征
Figure 103296DEST_PATH_IMAGE008
的预测特征权重表示如下:
Figure 835891DEST_PATH_IMAGE009
(1)
其中
Figure 641036DEST_PATH_IMAGE010
是一个两层的MLP网络,以预测(0,1)之间的前景点置信度;其计算公式分为正向传播和权值更新两部分,正向传播公式如下:
Figure 615814DEST_PATH_IMAGE011
(2)
在正向传播公式中,
Figure 924436DEST_PATH_IMAGE012
为隐藏层网络权值,激活函数为softmax函数,
Figure 139516DEST_PATH_IMAGE013
为输出层网络权值,输出标签
Figure 851864DEST_PATH_IMAGE014
采用One-Hot编码;损失函数使用焦点损失函数Focal Loss;输出层和隐藏层的梯度计算及权值更新公式如下:
Figure 443382DEST_PATH_IMAGE015
其中
Figure 809773DEST_PATH_IMAGE016
为损失函数计算的结果,
Figure 445022DEST_PATH_IMAGE017
为梯度下降权值。
5.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第一阶段中,体素特征提取由三个部分组成:体素划分层,VFE特征提取层,子流形稀疏卷积层;其中体素划分层将3D空间细分为等距等大小的体素,定义点云是沿Z,Y,X轴的范围为D,H,W的3D空间,定义每个体素的大小为
Figure 428022DEST_PATH_IMAGE018
,则沿每一个坐标轴划分的数量为
Figure 511647DEST_PATH_IMAGE019
,整个点云空间被划分为N个等大小的体素:
Figure 732543DEST_PATH_IMAGE020
VFE特征提取层使用VFE层对体素进行特征编码,对于包含
Figure DEST_PATH_IMAGE021
个点的非空体素, 使用
Figure 945219DEST_PATH_IMAGE022
表示,其中
Figure 946673DEST_PATH_IMAGE002
包含体素中第i个点的X,Y,Z坐标及反射率
Figure 311619DEST_PATH_IMAGE023
,首先计算体素V中的局部均值作为质心,表示为
Figure 714919DEST_PATH_IMAGE024
,计算
Figure 895233DEST_PATH_IMAGE002
相对于质心的偏移量,表示为
Figure 118404DEST_PATH_IMAGE025
,可得输入特征集
Figure 793099DEST_PATH_IMAGE026
;接下来使用全连接层(FCN)将输入的7维向量
Figure 4900DEST_PATH_IMAGE027
映射为32维,每个体素中共有t个32维的特征向量,使用最大池化操作得到该体素的全局变量,与每个点特征进行拼接,此时每个点的特征为64维,再次重复上述过程 得到该体素t个128维的特征向量,最后通过最大池化得到该体素128维的全局特征;子流形稀疏卷积层构建一个哈希表来存储特征图中有值的位置,设输入特征图为
Figure 106848DEST_PATH_IMAGE028
,其中非零值元素有a个,将
Figure 535424DEST_PATH_IMAGE028
编码为一个
Figure DEST_PATH_IMAGE029
的特征矩阵
Figure 964875DEST_PATH_IMAGE030
和一个哈希表
Figure DEST_PATH_IMAGE031
Figure 998559DEST_PATH_IMAGE030
中存放
Figure 271409DEST_PATH_IMAGE028
中所有非零的特征向量,m表示特征向量的维度,
Figure 469172DEST_PATH_IMAGE031
是一个键值对(Key-Value)组成的散列表,Key指的是特征矩阵的行索引,取值为[0,a-1]之间的整数,Value表示对应元素在
Figure 236402DEST_PATH_IMAGE028
中的索引,是一个d维向量,输出的稀疏特征图
Figure 468800DEST_PATH_IMAGE032
同样编码为
Figure 896239DEST_PATH_IMAGE033
Figure 50140DEST_PATH_IMAGE034
Figure 618131DEST_PATH_IMAGE035
Figure 705036DEST_PATH_IMAGE036
Figure 319688DEST_PATH_IMAGE037
的矩阵,n是输出特征向量的维度;定义卷积核的尺寸以及卷积步长如下:设
Figure 616677DEST_PATH_IMAGE038
其中
Figure 788027DEST_PATH_IMAGE039
指输入的维度,
Figure 667121DEST_PATH_IMAGE040
指输出的维度,
Figure 514991DEST_PATH_IMAGE041
Figure 361593DEST_PATH_IMAGE040
满足约束条件
Figure 320322DEST_PATH_IMAGE042
其中f代表卷积核的尺寸,s代表卷积步长,p代表0值填充;
子流形稀疏卷积层分为两个部分:空值补零,强制清零;
Figure DEST_PATH_IMAGE043
d维的张量,定义感受野的大小为
Figure 801726DEST_PATH_IMAGE044
(指一个边长为fd维立方体),以
Figure 758180DEST_PATH_IMAGE045
中某元素
Figure 92079DEST_PATH_IMAGE046
为中心,周围
Figure 854498DEST_PATH_IMAGE044
空间中的所有空值的位置进行补零操作,再与卷积核进行卷积计算;设
Figure 458917DEST_PATH_IMAGE047
中零值区域为
Figure 648590DEST_PATH_IMAGE048
,将
Figure 220517DEST_PATH_IMAGE049
中的对应零值区域置零;子流形稀疏卷积层特征提取后,三维卷积参数含义为
Figure 770316DEST_PATH_IMAGE050
k为卷积核大小,s为步长,p为零值填充,通过将4倍下采样的3D特征图转换为2D鸟瞰特征图,使用基于锚点的方法生成高质量的3D预选框。
6.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第一阶段中,特征融合将得到的特征进行融合;定义子流形稀疏卷积层第k级的体素特征向量集合为
Figure 478509DEST_PATH_IMAGE051
,对应的3D坐标集合为
Figure 839083DEST_PATH_IMAGE052
,由三维空间中的体素坐标索引和实际体素尺寸大小计算得出,其中
Figure DEST_PATH_IMAGE053
代表第k级体素特征中非空体素的数量. 以关键点
Figure 126669DEST_PATH_IMAGE054
为中心,
Figure DEST_PATH_IMAGE055
为半径检测相邻的非空体素,并将其用集合
Figure 152262DEST_PATH_IMAGE056
表示:
Figure 980541DEST_PATH_IMAGE057
其中
Figure 262749DEST_PATH_IMAGE058
为局部相对坐标,用于对应在体素特征
Figure 543689DEST_PATH_IMAGE059
中的相对位置,然后通过归一化处理得到不同尺度下的非空体素集合
Figure 186023DEST_PATH_IMAGE056
的特征:
Figure 914813DEST_PATH_IMAGE060
其中
Figure 554873DEST_PATH_IMAGE061
表示从集合
Figure 385426DEST_PATH_IMAGE056
中随机采样最多T个体素进行计算,而
Figure 516937DEST_PATH_IMAGE062
表示多层感知机网络, 用于对体素特征和相对位置进行编码,通过最大池化操作
Figure 382124DEST_PATH_IMAGE063
将不同相邻体素数量的特征向量映射为
Figure 442353DEST_PATH_IMAGE064
,可以将不同尺度的卷积操作下得到的特征进行级联,得到
Figure 229044DEST_PATH_IMAGE065
的多尺度特征:
Figure 478759DEST_PATH_IMAGE066
通过公式(9)可以得到原始点云特征
Figure 886869DEST_PATH_IMAGE067
和鸟瞰图特征
Figure 931049DEST_PATH_IMAGE068
,进一步得到关键点
Figure 408297DEST_PATH_IMAGE069
的特征:
Figure 445392DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
可以十分有效地保留整个3D场景的结构信息。
7.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第一阶段中,预选框生成对鸟瞰图进行分析处理得到概率分数图和回归图,鸟瞰图中每个点会在回归图中生成两个角度的预选框,每个框有七个参数
Figure 691697DEST_PATH_IMAGE072
,分别代表在空间中的X,Y,Z轴的坐标和框的高度、宽度、长度以及偏向角信息。
8.根据权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,第二阶段中,预选框优化从关键点特征中提取融合得到每个ROI的特征,生成准确可靠的3D检测框;对于每个3D空间中的ROI,沿X,Y,Z轴分别等距划分6个点即在空间中统一生成6×6×6个参考点,表示为
Figure 592264DEST_PATH_IMAGE073
,以参考点为中心,r为半径聚合周围关键点的特征,其相邻关键点特征集合如下:
Figure 884705DEST_PATH_IMAGE074
其中
Figure 663174DEST_PATH_IMAGE075
为关键点
Figure 560723DEST_PATH_IMAGE076
相对于参考点
Figure 900699DEST_PATH_IMAGE077
的局部相对位置,然后聚合相邻关键点特征集合:
Figure 352540DEST_PATH_IMAGE078
其中
Figure 934700DEST_PATH_IMAGE079
Figure 483493DEST_PATH_IMAGE080
与公式(9)中定义相同;
在获取ROI区域内关键点聚合特征
Figure 243639DEST_PATH_IMAGE081
后选取0°,30°,60°,90°,120°,150°六个角度生成预选框,并输入框优化网络,进行框中心,大小和方向的残差计算;
框优化网络由两层MLP层构成,网络有两个分支,分别进行置信度预测和预选框优化,第k个ROI归一化得到分类置信度
Figure 930579DEST_PATH_IMAGE082
如下:
Figure 67162DEST_PATH_IMAGE083
其中
Figure 719729DEST_PATH_IMAGE084
的取值范围为[0,1],
Figure 385197DEST_PATH_IMAGE085
是第k个ROI和真实数据标签的交互比,然后结合强制性一致损失对置信度分支进行训练;强制性一致损失如下:
Figure 827942DEST_PATH_IMAGE086
其中DG表示预选框和真实数据标签,
Figure 564954DEST_PATH_IMAGE087
代表框的定位置信度;
损失函数由三个部分组成:预选框损失
Figure 26022DEST_PATH_IMAGE088
,关键点提取损失
Figure 580500DEST_PATH_IMAGE089
,框优化损失
Figure 519330DEST_PATH_IMAGE090
;所述预选框损失如下:
Figure 997716DEST_PATH_IMAGE091
其中
Figure 110028DEST_PATH_IMAGE092
代表预测残差,
Figure 897725DEST_PATH_IMAGE093
代表回归目标,smooth_L1损失函数用于对两者进行回归计算;
Figure 33171DEST_PATH_IMAGE094
为分类损失,使用焦点损失函数用于平衡正负样本,其计算公式如下:
Figure 65980DEST_PATH_IMAGE095
其中平衡因子
Figure 236062DEST_PATH_IMAGE096
,用来平衡正负样本本身的比例不均,因子
Figure 194659DEST_PATH_IMAGE097
,用于减少易分类样本的损失,
Figure 879718DEST_PATH_IMAGE098
是属于真实值的输出概率;所述关键点提取损失为前景点分割时的焦点损失函数;所述框优化损失计算如下:
Figure DEST_PATH_IMAGE099
其中
Figure 306764DEST_PATH_IMAGE100
为强制性一致损失函数,
Figure DEST_PATH_IMAGE101
是预测残差,
Figure 65773DEST_PATH_IMAGE102
的是回归目标,与
Figure 493474DEST_PATH_IMAGE103
编码方式相同;总的损失函数即上述三个损失函数相同权重的总和。
9.一种基于体素点云融合的三维动态目标检测的装置,用于权利要求1所述基于体素点云融合的三维动态目标检测方法,其特征在于,包括图像采集模块以及数据处理模块,数据处理模块包括点云输入模块、对点云提取关键点特征模块、体素特征提取模块、特征融合模块、预选框生成模块、预选框优化模块、损失函数计算模块以及点云输出模块;图像采集模块为雷达传感器、摄像头。
10.一种电子设备,包括处理器与存储器,存储器存储被处理器执行的指令,使得处理器可执行权利要求1所述基于体素点云融合的三维动态目标检测方法;一种存储计算机指令的计算机可读存储介质,所述计算机指令使得计算机执行权利要求1所述基于体素点云融合的三维动态目标检测方法。
CN202111250717.8A 2021-10-26 2021-10-26 一种基于体素点云融合的三维动态目标检测方法及装置 Pending CN113989797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111250717.8A CN113989797A (zh) 2021-10-26 2021-10-26 一种基于体素点云融合的三维动态目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111250717.8A CN113989797A (zh) 2021-10-26 2021-10-26 一种基于体素点云融合的三维动态目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN113989797A true CN113989797A (zh) 2022-01-28

Family

ID=79741943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111250717.8A Pending CN113989797A (zh) 2021-10-26 2021-10-26 一种基于体素点云融合的三维动态目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN113989797A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638954A (zh) * 2022-02-22 2022-06-17 深圳元戎启行科技有限公司 点云分割模型的训练方法、点云数据分割方法及相关装置
CN114862952A (zh) * 2022-04-27 2022-08-05 江西理工大学 无人机检测与防御方法及系统
CN114882495A (zh) * 2022-04-02 2022-08-09 华南理工大学 一种基于上下文感知特征聚集的3d目标检测方法
CN114972763A (zh) * 2022-07-28 2022-08-30 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
CN115932721A (zh) * 2022-12-15 2023-04-07 中际医学科技(山东)有限公司 超宽带射频天线的近距离探测系统及其方法
CN116664874A (zh) * 2023-08-02 2023-08-29 安徽大学 一种单阶段细粒度轻量化点云3d目标检测系统及方法
CN116912238A (zh) * 2023-09-11 2023-10-20 湖北工业大学 基于多维识别网络级联融合的焊缝管道识别方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638954A (zh) * 2022-02-22 2022-06-17 深圳元戎启行科技有限公司 点云分割模型的训练方法、点云数据分割方法及相关装置
CN114638954B (zh) * 2022-02-22 2024-04-19 深圳元戎启行科技有限公司 点云分割模型的训练方法、点云数据分割方法及相关装置
CN114882495A (zh) * 2022-04-02 2022-08-09 华南理工大学 一种基于上下文感知特征聚集的3d目标检测方法
CN114882495B (zh) * 2022-04-02 2024-04-12 华南理工大学 一种基于上下文感知特征聚集的3d目标检测方法
CN114862952B (zh) * 2022-04-27 2024-03-19 江西理工大学 无人机检测与防御方法及系统
CN114862952A (zh) * 2022-04-27 2022-08-05 江西理工大学 无人机检测与防御方法及系统
CN114972763A (zh) * 2022-07-28 2022-08-30 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
CN114972763B (zh) * 2022-07-28 2022-11-04 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
CN115932721A (zh) * 2022-12-15 2023-04-07 中际医学科技(山东)有限公司 超宽带射频天线的近距离探测系统及其方法
CN116664874A (zh) * 2023-08-02 2023-08-29 安徽大学 一种单阶段细粒度轻量化点云3d目标检测系统及方法
CN116664874B (zh) * 2023-08-02 2023-10-20 安徽大学 一种单阶段细粒度轻量化点云3d目标检测系统及方法
CN116912238B (zh) * 2023-09-11 2023-11-28 湖北工业大学 基于多维识别网络级联融合的焊缝管道识别方法及系统
CN116912238A (zh) * 2023-09-11 2023-10-20 湖北工业大学 基于多维识别网络级联融合的焊缝管道识别方法及系统

Similar Documents

Publication Publication Date Title
CN113989797A (zh) 一种基于体素点云融合的三维动态目标检测方法及装置
Yang et al. Pixor: Real-time 3d object detection from point clouds
CN111798475B (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
CN111626217B (zh) 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN111242041B (zh) 基于伪图像技术的激光雷达三维目标快速检测方法
Zhu et al. Segmentation and classification of range image from an intelligent vehicle in urban environment
CN109492580B (zh) 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法
CN113807464B (zh) 基于改进yolo v5的无人机航拍图像目标检测方法
CN112347987A (zh) 一种多模数据融合的三维目标检测方法
CN113128348A (zh) 一种融合语义信息的激光雷达目标检测方法及系统
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN111046767B (zh) 一种基于单目图像的3d目标检测方法
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
Lu et al. A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection
CN117058646B (zh) 基于多模态融合鸟瞰图的复杂道路目标检测方法
CN113743417A (zh) 语义分割方法和语义分割装置
Liu et al. R2YOLOX: a lightweight refined anchor-free rotated detector for object detection in aerial images
CN111898534A (zh) 一种基于旋转区域卷积神经网络的星载目标融合检测方法
CN114358133B (zh) 一种基于语义辅助双目视觉slam检测回环帧的方法
Liu et al. A new multi-channel deep convolutional neural network for semantic segmentation of remote sensing image
CN117197676A (zh) 一种基于特征融合的目标检测识别方法
Luo et al. Dynamic multitarget detection algorithm of voxel point cloud fusion based on pointrcnn
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination