CN116152622A - 基于多尺度特征融合的点云目标检测方法、装置和设备 - Google Patents

基于多尺度特征融合的点云目标检测方法、装置和设备 Download PDF

Info

Publication number
CN116152622A
CN116152622A CN202310213950.1A CN202310213950A CN116152622A CN 116152622 A CN116152622 A CN 116152622A CN 202310213950 A CN202310213950 A CN 202310213950A CN 116152622 A CN116152622 A CN 116152622A
Authority
CN
China
Prior art keywords
feature
fusion
feature map
point cloud
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310213950.1A
Other languages
English (en)
Inventor
石志广
张勇
张焱
沈奇
张宇
凌峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310213950.1A priority Critical patent/CN116152622A/zh
Publication of CN116152622A publication Critical patent/CN116152622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于多尺度特征融合的点云目标检测方法、装置和设备,包括:将原始点云数据对应的伪图像输入主干网络,并对最后一个选定特征提取层输出的特征图进行反卷积得到多组反卷积特征图;将选定特征提取层输出的特征图与对应的反卷积特征图进行级联融合得到多组初始融合特征图并进行划分,得到不包括第一个选定特征提取层对应的初始融合特征图的第一特征图集合以及不包括除去最后一个选定特征提取层对应的初始融合特征图的第二特征图集合,分别将第一和第二特征图集合中的初始融合特征图进行级联融合得到第一和第二融合特征图,将第一和第二融合特征图进行级联融合得到目标特征图进行检测。采用本方法能够提高点云目标检测的准确性。

Description

基于多尺度特征融合的点云目标检测方法、装置和设备
技术领域
本申请涉及点云目标检测领域,特别是涉及一种基于多尺度特征融合的点云目标检测方法、装置和设备。
背景技术
随着激光雷达扫描技术和人工智能技术的不断发展,点云目标检测近年来成为机器人和自动驾驶领域的研究热点,是机器人和自动驾驶环境下障碍物检测的关键技术之一。与图像数据相比,点云数据受光照和天气情况影响小,在三维空间中含有准确的深度信息,可以更好的表征目标的三维空间几何信息。因此,对基于点云数据的目标检测的研究具有重要意义。
点云目标检测是点云数据处理中最基本的任务之一。当前点云目标检测方法可以分为四大类:基于原始点的云目标检测方法、基于体素的点云目标检测方法、基于数据降维的点云目标检测方法、基于点云和体素混合的点云目标检测方法。基于原始点的点云目标检测方法通过在原始点云数据上进行数据处理、分析,从而判断目标类别并回归目标边界框。该类方法的主要优势在于充分利用了点云数据的所有信息,使得提取的点特征能够有效表征目标的三维空间结构,检测效果好,但内存占用高、计算量大。基于体素的点云目标检测方法通过将不规则的点云在三维空间上划分为大小一样的、规则的体素,通过对体素进行处理、提取体素特征进行目标检测。该类方法的三维空间特征表征能力有限,相对于基于原始点的方法来说计算成本小,但使用的三维卷积和稀疏卷积仍需耗费大量算力。基于数据降维的点云目标检测方法通过将点云转换为二维图像,然后利用现有成熟的图像目标检测算法进行检测。该类方法相对于上述三类方法计算成本小、推理速度快、易于部署,但由于数据降维过程中信息丢失导致检测效果相对较差。基于混合原始点云与体素的点云目标检测方法在一个网络中同时利用点云与体素进行目标检测,保留了点特征和体素特征,综合了基于原始点云和基于体素两种方法的优点。该类方法在充分保留三维空间结构的前提上减少计算成本,但其计算成本仍高于基于数据降维的方法。
近年来,随着高性能计算设备和深度学习技术的发展,基于深度学习的点云目标检测技术得到广泛研究。PointPillar是一种经典的基于数据降维的点云目标检测算法,由于其良好的实时性和可部署性在学术界和工业界被广泛研究和应用。但是,PointPillar存在三个局限性:第一,检测性能受柱体尺寸影响大,柱体尺寸越大,生成的伪图像分辨率越小,网络运行速度高,但检测效果差;柱体尺寸小,生成的伪图像分辨率越高,网络运行速度低,但检测效果好。第二,伪图像通过特征编码网络生成,生成的伪图像质量直接影响检测结果。第三,主干网络输出的三层特征图均为高层特征,高层特征直接馈入检测头,包含了大量的冗余信息和噪声。因此,PointPillar对于行人和骑行者等小目标的检测效果差。
发明内容
基于此,有必要针对上述技术问题,提供基于多尺度特征融合的点云目标检测方法、装置和设备,以便提高点云目标检测的准确性。
一种基于多尺度特征融合的点云目标检测方法,包括:
根据原始点云数据生成伪图像;
将伪图像输入主干网络后,对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图;
对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图;
根据目标特征图进行点云目标检测。
一种基于多尺度特征融合的点云目标检测装置,包括:
伪图像生成模块,用于根据原始点云数据生成伪图像;
反卷积模块,用于将伪图像输入主干网络后,对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
第一融合模块,用于将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图;
特征图划分模块,用于对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
第二融合模块,用于将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
第三融合模块,用于将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图;
目标检测模块,用于根据目标特征图进行点云目标检测。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据原始点云数据生成伪图像;
将伪图像输入主干网络后,对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图;
对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图;
根据目标特征图进行点云目标检测。
上述基于多尺度特征融合的点云目标检测方法、装置和设备,首先将原始点云数据对应的伪图像输入主干网络,并对最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图,其中反卷积的次数与选定特征提取层的层数相同;接着将各个选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图,可以知道,按照前述对应关系进行级联融合,相当于增强了特征图中的目标信息,使得得到的初始融合特征图中的目标特征更加明显;然后对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合,将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图,将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图。这样划分后再进行融合使得第一融合特征图包含丰富空间信息,第二融合特征图包含丰富语义信息,目标特征图既含有丰富的空间信息又含有丰富的语义信息;最后根据目标特征图进行点云目标检测。综上,采用本方法能够提高点云目标检测的准确性。
附图说明
图1为一个实施例中基于多尺度特征融合的点云目标检测方法的流程示意图;
图2为一个实施例中卷积注意力模块的结构;
图3为一个实施例中卷积残差块的结构;
图4为一个实施例中主干网络的结构;
图5为一个实施例中基于多尺度特征融合的点云目标检测方法的网络结构和工作示意图;
图6为一个实施例中基于多尺度特征融合的点云目标检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于多尺度特征融合的点云目标检测方法,包括以下步骤:
步骤102,根据原始点云数据生成伪图像。
其中,伪图像是通过将原始点云数据柱状化后进行特征编码而得到的,将三维点云数据通过编码方式转换为二维伪图像,可以大大减少后续需要处理的数据量。
步骤104,将伪图像输入主干网络后,对主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图。
其中反卷积的次数与选定特征提取层的层数相同。
考虑到最后一个特征提取层输出的特征图中包含最为丰富的高层语义信息,将其进行与选定特征提取层数相同次数的反卷积,对应得到多组反卷积特征图。
步骤106,将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图。
前述选定特征提取层的确定需满足一个原则:选定特征提取层输出的特征图尺寸与对应的反卷积特征图尺寸保持一致,以便进行后续的级联融合。
其中,特征图与反卷积特征图的对应关系为:特征图对应的选定特征提取层编号顺序与反卷积特征图对应的反卷积次序相反,即满足前述原则。例如,假设存在4个选定特征提取层,依次对应Rout1、Rout2、Rout3和Rout4这4组特征图,4次反卷积后依次得到T1、T2、T3、T4,于是将Rout1与T4进行级联融合得到S1,Rout2与T3进行级联融合得到S2,Rout3与T2进行级联融合得到S3,Rout4与T1进行级联融合得到S4,得到对应的4组初始融合特征图。
按照前述对应关系将各组反卷积特征图与对应的特征图进行级联融合,相当于增强了特征图中的目标信息,使得目标特征更加明显。
步骤108,对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合。
步骤110,将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图。
以步骤106中4个选定特征提取层的情况为例说明步骤108中的特征图划分方式对级联融合的有益效果:S2和S3作为四组初始融合特征图中的公共部分,S1为低层特征,包含丰富的空间信息,S4为高层特征,包含丰富的语义信息;低层特征对小目标检测有利,高层特征对大目标检测有利。将S1、S2和S3进行融合得到的特征图包含更多的空间信息,对小目标检测更加有利;将S2、S3和S4进行融合得到的特征图包含更多的语义信息,对大目标检测更加有利。
步骤112,将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图。
将包含丰富空间信息的第一融合特征图与包含丰富语义信息的第二融合特征图进行级联融合,使得目标特征图中既含有丰富的空间信息又含有丰富的语义信息。
步骤114,根据目标特征图进行点云目标检测。
所述多尺度特征融合的点云目标检测方法中,首先将原始点云数据对应的伪图像输入主干网络,并对最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图,其中反卷积的次数与选定特征提取层的层数相同;接着将各个选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图,可以知道,按照前述对应关系进行级联融合,相当于增强了特征图中的目标信息,使得得到的初始融合特征图中的目标特征更加明显;然后对多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合,将第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图,将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图。这样划分后再进行融合使得第一融合特征图包含丰富空间信息,第二融合特征图包含丰富语义信息,目标特征图既含有丰富的空间信息又含有丰富的语义信息;最后根据目标特征图进行点云目标检测。综上,采用本方法能够提高点云目标检测的准确性。
在一个实施例中,根据原始点云数据生成伪图像,包括:
获取原始点云数据,设置点云数据检测范围,将原始点云数据在点云数据检测范围内在X-Y平面上进行柱状化,得到柱状化点云,将柱状化点云输入预先构建的特征编码网络,得到伪图像。
在一个实施例中,将主干网络中的选定特征提取层输出的特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图,包括:
将主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块,得到对应的多组注意力特征图,将各组注意力特征图分别与对应的反卷积特征图进行级联融合,得到多组初始融合特征图。
在一个实施例中,将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块,得到对应的多组注意力特征图,包括:
将主干网络中的选定特征提取层输出的特征图F∈RC×H×W进行通道拆分,得到对应的第一通道特征图F1∈R(C/2)×H×W和第二通道特征图F2∈R(C/2)×H×W
将第一通道特征图F1∈R(C/2)×H×W馈入平均池化层得到平均池化特征图F1'∈R(C /2)×1×1,将平均池化特征图F1'∈R(C/2)×1×1进行1×1卷积后输入sigmoid函数,输出平均池化特征图的第一权重值β,将第一通道特征图F1∈R(C/2)×H×W与第一权重值β相乘得到第一通道初始注意力图F1″,将第一通道初始注意力图F1″与第一通道特征图F1∈R(C/2)×H×W相加得到第一通道注意力图F1 out
F1 out=S(Conv(Avgpool(F1)))×F1+F1
将第二通道特征图F2∈R(C/2)×H×W馈入最大池化层得到最大池化特征图F2'∈R(C /2)×1×1;将最大池化特征图F2'∈R(C/2)×1×1进行1×1卷积后输入sigmoid函数,输出最大池化特征图的第二权重值α,将第二通道特征图F2∈R(C/2)×H×W与第二权重值α相乘得到第二通道初始注意力图F2″,将第二通道初始注意力图F2″与第二通道特征图F2∈R(C/2)×H×W相加得到第二通道注意力图F2 out
F2 out=S(Conv(Maxpool(F2)))×F2+F2
将第一通道注意力图F1 out和第二通道注意力图F2 out相加后进行1×1卷积,得到对应的多组注意力特征图:
Figure BDA0004114255530000081
其中,S(·)表示sigmoid函数,Conv(·)表示1×1卷积,Avgpool(·)表示平均池化,Maxpool(·)表示最大池化。
卷积神经网络每层都会生成一批含有丰富细节信息的多维特征图,但每个特征图中所表征的信息不一样,其重要性也不一样,某些特征对于目标的检测识别更重要。因此,为了能充分的利用网络中重要特征,抑制网络中对任务无关的冗余特征,设计了前述卷积注意力模块,其结构如图2所示。
在一个实施例中,主干网络中的特征提取网络为卷积残差块;通过各个卷积残差块进行特征提取的步骤包括:
获取当前卷积残差块输入的特征图,将特征图依次进行1个1×1卷积、1个步长为t的3×3卷积和1个1个1×1卷积得到第一分支特征图;将特征图经过1个3×3卷积得到第二分支特征图;将第一分支特征图和第二分支特征图进行级联融合后进行1个1×1卷积,得到当前卷积残差块输出的特征图。
本实施例将伪图像馈入由卷积残差块构建而成的主干网络,来提取特征图中的低层空间信息和高层语义信息。卷积残差块的结构如图3所示,包含两个3×3卷积和三个1×1卷积,每个卷积后包含一个BN层和一个ReLU层。对于一个残差块,假设输入特征图为F∈RC ×H×W,输出特征图为Fout。第一个分支由1个3×3卷积和2个1×1卷积构成,F首先经过1个1×1卷积将数据降维为F1'∈R(C/2)×H×W,F1'经过1个步长为t的3×3卷积输出特征F1″∈R(C /2)×(H/t)×(W/t),F1″经过1个1×1卷积将数据增维为F1″′∈RC×(H/t)×(W/t);第二个分支由1个3×3卷积构成,,输出特征F2'∈RC×(H/t)×(W/t);将第一个分支的输出F1″′和第二个分支的输出F2'级联得到F3∈R2C×(H/t)×(W/t),再将F3经过一个1×1卷积输出Fout∈RC×(H/t)×(W/t)。因此,本实施例的卷积残差块可以表示为:
Figure BDA0004114255530000091
F1″=f1(f3(f1(F)));
F2'=f3(F);
其中,f1(·)、f3(·)分别表示1×1卷积和3×3卷积。
在一个实施例中,主干网络包含17个卷积残差块,其结构如图4所示。以KITTI数据集为例,,选定特征提取层的层数为4,输入主干网络的特征图M∈R496×432×64,M经过2个步长为1的卷积残差块,生成特征图Rout1∈R496×432×64;Rout1经过1个步长2的卷积残差块和2个步长为1的卷积残差块,生成特征图Rout2∈R248×216×64;Rout2经过1个步长2的卷积残差块和5个步长为1的卷积残差块,生成特征图Rout3∈R124×108×128;Rout3经过1个步长2的卷积残差块和5个步长为1的卷积残差块,生成特征图Rout4∈R62×54×256。Rout1、Rout2、Rout3和Rout4是主干网络输出的4个不同尺寸的特征图。
在一个实施例中,将第一融合特征图和第二融合特征图进行级联融合,得到目标特征图,包括:
将第一融合特征图输入第一卷积注意力模块,得到第一融合注意力特征图,将第二融合特征图输入第二卷积注意力模块,得到第二融合注意力特征图;对第一融合注意力特征图和第二融合注意力特征图进行上采样后再进行级联融合得到初始目标特征图;将初始目标特征图输入第三卷积注意力模块,得到目标特征图。
在一个实施例中,在根据目标特征图进行点云目标检测之前,包括:
获取预先构建的目标检测模型;
将训练点云数据集输入目标检测模型,计算并优化损失函数得到训练好的目标检测模型;模型损失函数包括边界框回归损失函数和分类损失函数。
边界框回归损失函数为:
Figure BDA0004114255530000101
Lθ=SmoothL1(sin(Δθ-θ'));
Figure BDA0004114255530000102
Figure BDA0004114255530000103
Figure BDA0004114255530000104
Δθ=θgt-θ;
Figure BDA0004114255530000105
其中,Lloc为边界框回归损失函数,SmoothL1为SmoothL1损失函数,(x,y,z,w,l,h,θ)为点云目标的三维先验框,x、y、z为点云目标的三维先验中心坐标,w、l、h分别为三维先验框的宽、长、高,θ为点云目标的先验偏转角,(xgt,ygt,zgt,wgt,lgt,hgtgt)为点云目标的真实边界框,xgt、ygt、zgt为点云目标的真实中心坐标,wgt、lgt、hgt分别为三维先验框的宽、长、高,θgt为点云目标的真实偏转角,(x',y',z',w',l',h',θ')为点云目标的预测边界框,x'、y'、z'为点云目标的预测中心坐标,w'、l'、h'分别为预测边界框的宽、长、高,θ'为目标的预测偏转角;
分类损失函数为:
Lcls=-αa(1-pa)γlogpa
其中,Lcls为分类损失函数,αa为分类损失函数的权重因子,用于控制样本间类别不平衡问题,pa为锚框的类别概率,γ为可调节因子,用于区分困难样本;
模型损失函数为:
Figure BDA0004114255530000111
其中,L为模型损失函数,Npos为正锚框的数量,βloc为边界框回归损失函数的权重,βcls为分类损失函数的权重,βdir为偏转角损失函数的权重,Ldir为偏转角损失函数。
以主干网络包括4个特征提取层为例,提供基于多尺度特征融合的点云目标检测方法的网络结构和工作示意图如图5所示。检测头的输入为主干网络输出的4组不同尺寸的特征图Rout1、Rout2、Rout3和Rout4,输出为检测框位置、尺寸、偏转角和目标类别。首先,Rout4经过4个反卷积生成四组特征图,其尺寸分别为62×54×256、124×108×128、248×216×64、496×432×64,将Rout1、Rout2、Rout3和Rout4经过卷积注意力后分别与其进行级联融合生成四组特征图S1、S2、S3和S4,将S1、S2、S3进行级联融合生成特征图I1,将S2、S3、S4进行级联融合生成特征图I2。然后将I1、I2分别经过卷积注意力模块后进行级联融合生成最终的特征图I,将I馈入两个1×1卷积分别进行目标分类和边界框回归。
接下来以实验数据对本方案的效果进行证明:
实验设置:为了方便后续各个模块进行数据处理,首先需要对原始点云数据进行预处理。首先,对于KITTI数据集,设置点云数据检测范围为x∈[0,69.12m]、y∈[-39.68m,39.68m]、z∈[-3m,1m];对于DAIR-V2X-I数据集,设置点云数据检测范围为x∈[0,99.84m]、y∈[-39.68m,39.68m]、z∈[-3m,1m]。本发明将原始点云数据P在设置的数据范围内在X-Y平面上进行规则的柱状化,得到柱状化点云P',每个柱状体的尺寸设置为[0.16m,0.16m,4m],整个三维空间包含的最大柱体数量为12000,每个柱体中的最多包含的点数为100。
评价指标:对于汽车类,本文设置当IoU≥0.7时检测正确;对于行人类和骑行者类,本文设置当IoU≥0.5时检测正确。同时,按照KITTI官方的标准,根据目标的大小、遮挡和截断情况将三类待检测目标的检测难度分为三种:简单、中等和困难。本申请在这三种不同检测难度下评估算法性能。
1、定量分析
对比PointPillar和Pillar-FFNet(本方案),在三维目标检测上采用三种不同检测难度的AP、AOS和中等难度下的mAP、mAOS进行定量分析。表1为KITTI验证集上的三维检测AP值,表2为KITTI验证集上的三维检测AOS值,表3为在DAIR-V2X-I验证集上的三维检测AP值,表4为在DAIR-V2X-I验证集上的三维检测AOS值。
表1KITTI验证集上三维检测的mAP
Figure BDA0004114255530000121
表2KITTI验证集上三维检测的mAOS
Figure BDA0004114255530000122
表3DAIR-V2X-I验证集上三维检测mAP
Figure BDA0004114255530000123
表4DAIR-V2X-I验证集上三维检测mAOS
Figure BDA0004114255530000124
根据表1—表4中的实验结果可知:在本文的实验数据集上,Pillar-FFNet对于汽车、行人和骑行者的检测性能在三个不同检测难度下均高于PointPillar。在KITTI验证集上,汽车、行人和骑行者的检测平均精度在简单检测难度下分别提高了0.84%、1.81%、4.02%,在中等检测难度下分别提高了0.62%、2.13%、2.39%,在困难检测难度下分别提高了0.8%、1.16%、1.58%;在DAIR-V2X-I验证集上,汽车、行人和骑行者的检测平均精度在简单检测难度下分别提高了0.33%、2.09%、4.71%,在中等检测难度下分别提高了0.17%、0.17%、1.84%,在困难检测难度下分别提高了0.17%、0.17%、1.82%。
在点云数据中,行人类目标小,可以用来表征行人的点少,因此检测困难。与PointPillar相比,本申请提出的Pillar-FFNet可以在不影响汽车类别检测性能的前提下有效提高行人和骑行者这类小目标检测性能,主要原因有三点:首先,本申请设计的卷积注意力模块可以有效抑制网络中的冗余信息,增强网络中的有效信息;其次,高层特征有利于大目标检测,低层特征有利小目标检测,本申请设计的基于多尺度特征融合策略的检测头充分融合了各个不同尺度特征的语义信息和空间信息。最后,基于残差的主干网络可以有效提取高层细粒特征。综合以上三点,Pillar-FFNet可以在不影响汽车检测性能的前提下有效提升行人和骑行者的检测性能。
2、消融实验
本小节利用不同的卷积注意力以及不同的特征融合策略在KITTI数据集上进行实验验证。
首先进行五组消融实验来测试检测头的不同融合方式对检测性能的影响:实验一将原始PointPillar中的SSD结构的检测头替代Pillar-FFNet中的检测头;实验二将本文设计的检测头中的S1和S2融合、S3和S4融合;实验三将本文设计的检测头中的S1、S2、S3、S4直接融合;实验四将本文设计的检测头中的S1、S3、S4融合,S2、S3、S4融合;实验五将本文设计的检测头中替换为FPN结构。在KITTI验证集上进行实验验证,实验结果如表5和表6所示。
表5 Pillar-FFNet不同检测头在KITTI验证集上的mAP
方法 汽车 行人 骑行者 mAP
本方法 78.17 51.44 65.55 65.05
实验一 77.30 52.83 61.69 63.94
实验二 78.21 52.76 62.98 64.65
实验三 78.07 48.08 61.23 62.46
实验四 74.13 46.86 52.34 57.78
实验五 77.31 49.19 62.83 63.24
表6 Pillar-FFNet不同检测头在KITTI验证集上的mAOS
方法 汽车 行人 骑行者 mAOS
本方法 89.87 55.07 71.89 72.28
实验一 89.48 57.29 69.44 72.07
实验二 89.79 56.91 70.95 72.55
实验三 89.72 53.43 72.22 71.79
实验四 86.38 52.85 59.85 66.36
实验五 89.44 53.43 72.30 71.48
其次进行五组实验来测试注意力模块对检测性能的影响:实验六将本文设计的卷积注意力模块用SE模块代替;实验七将本文设计的卷积注意力模块用CBAM模块代替;实验八将本文设计的卷积注意力模块用ECA模块代替;实验九将本文设计的卷积注意力模块用3×3卷积代替。在KITTI验证集上进行实验验证,实验结果如表7和表8所示。
表7 Pillar-FFNet不同注意力模块在KITTI验证集上的mAP
方法 汽车 行人 骑行者 mAP
实验六 77.98 49.86 60.59 62.81
实验七 77.73 51.35 63.63 64.23
实验八 77.75 47.04 63.21 62.67
实验九 77.53 51.41 63.86 64.27
表8 Pillar-FFNet不同注意力模块在KITTI验证集上的mAOS
方法 汽车 行人 骑行者 mAOS
实验六 89.77 51.49 71.79 71.02
实验七 89.64 50.67 73.87 71.39
实验八 89.69 52.88 70.06 70.88
实验九 89.66 49.29 70.31 69.75
综合表5~表8可知,对于检测头中不同的融合策略和不同的卷积注意力机制,本申请设计的最为有效。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于多尺度特征融合的点云目标检测装置,包括:
伪图像生成模块,用于根据原始点云数据生成伪图像;
反卷积模块,用于将所述伪图像输入主干网络后,对所述主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
第一融合模块,用于将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合,得到多组初始融合特征图;
特征图划分模块,用于对所述多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
第二融合模块,用于将所述第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将所述第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
第三融合模块,用于将所述第一融合特征图和所述第二融合特征图进行级联融合,得到目标特征图;
目标检测模块,用于根据所述目标特征图进行点云目标检测。
关于基于多尺度特征融合的点云目标检测装置的具体限定可以参见上文中对于基于多尺度特征融合的点云目标检测方法的限定,在此不再赘述。上述基于多尺度特征融合的点云目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储点云等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多尺度特征融合的点云目标检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synch link)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于多尺度特征融合的点云目标检测方法,其特征在于,所述方法包括:
根据原始点云数据生成伪图像;
将所述伪图像输入主干网络后,对所述主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合,得到多组初始融合特征图;
对所述多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
将所述第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将所述第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
将所述第一融合特征图和所述第二融合特征图进行级联融合,得到目标特征图;
根据所述目标特征图进行点云目标检测。
2.根据权利要求1所述的方法,其特征在于,将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合,得到多组初始融合特征图,包括:
将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块,得到对应的多组注意力特征图;
将各组注意力特征图分别与对应的所述反卷积特征图进行级联融合,得到多组初始融合特征图。
3.根据权利要求2所述的方法,其特征在于,将所述主干网络中的选定特征提取层输出的特征图分别输入对应的卷积注意力模块,得到对应的多组注意力特征图,包括:
将所述主干网络中的选定特征提取层输出的特征图进行通道拆分,得到对应的第一通道特征图和第二通道特征图;
将所述第一通道特征图馈入平均池化层得到平均池化特征图,将所述平均池化特征图进行1×1卷积后输入sigmoid函数,输出所述平均池化特征图的第一权重值,将第一通道特征图与第一权重值相乘得到第一通道初始注意力图,将所述第一通道初始注意力图与第一通道特征图相加得到第一通道注意力图;
将所述第二通道特征图馈入最大池化层得到最大池化特征图,将所述最大池化特征图进行1×1卷积后输入sigmoid函数,输出所述最大池化特征图的第二权重值,将第二通道特征图与第二权重值α相乘得到第二通道初始注意力图,将所述第二通道初始注意力图与第二通道特征图相加得到第二通道注意力图;
将所述第一通道注意力图和第二通道注意力图相加后进行1×1卷积,得到对应的多组注意力特征图。
4.根据权利要求1所述的方法,其特征在于,将所述第一融合特征图和所述第二融合特征图进行级联融合,得到目标特征图,包括:
将所述第一融合特征图输入第一卷积注意力模块,得到第一融合注意力特征图,将所述第二融合特征图输入第二卷积注意力模块,得到第二融合注意力特征图;
对所述第一融合注意力特征图和所述第二融合注意力特征图进行上采样后再进行级联融合得到初始目标特征图;
将所述初始目标特征图输入第三卷积注意力模块,得到目标特征图。
5.根据权利要求1所述的方法,其特征在于,所述主干网络中的特征提取网络为卷积残差块;
通过各个所述卷积残差块进行特征提取的步骤包括:
获取当前卷积残差块输入的特征图;
将所述特征图依次进行1个1×1卷积、1个步长为t的3×3卷积和1个1×1卷积得到第一分支特征图;
将所述特征图经过1个3×3卷积得到第二分支特征图;
将所述第一分支特征图和所述第二分支特征图进行级联融合后进行1个1×1卷积,得到当前卷积残差块输出的特征图。
6.根据权利要求5所述的方法,其特征在于,所述选定特征提取层的层数为4;
所述主干网络中的选定特征提取层输出特征图的步骤包括:
所述伪图像经过2个步长为1的卷积残差块,生成第一选定特征图;
所述第一选定特征图依次经过1个步长2的卷积残差块和2个步长为1的卷积残差块,生成第二选定特征图;
所述第二选定特征图依次经过1个步长2的卷积残差块和5个步长为1的卷积残差块,生成第三选定特征图;
所述第三选定特征图依次经过1个步长2的卷积残差块和5个步长为1的卷积残差块,生成第四选定特征图。
7.根据权利要求1至6任一项所述的方法,其特征在于,根据原始点云数据生成伪图像,包括:
获取原始点云数据,设置点云数据检测范围;
将所述原始点云数据在所述点云数据检测范围内在X-Y平面上进行柱状化,得到柱状化点云;
将所述柱状化点云输入预先构建的特征编码网络,得到伪图像。
8.根据权利要求7所述的方法,其特征在于,在根据所述目标特征图进行点云目标检测之前,包括:
获取预先构建的目标检测模型;
将训练点云数据集输入所述目标检测模型,计算并优化损失函数得到训练好的目标检测模型;所述模型损失函数包括边界框回归损失函数和分类损失函数。
所述边界框回归损失函数为:
Figure FDA0004114255520000031
Lθ=SmoothL1(sin(Δθ-θ'));
Figure FDA0004114255520000041
Figure FDA0004114255520000042
/>
Figure FDA0004114255520000043
Δθ=θgt-θ;
Figure FDA0004114255520000044
其中,Lloc为边界框回归损失函数,SmoothL1为SmoothL1损失函数,(x,y,z,w,l,h,θ)为点云目标的三维先验框,x、y、z为点云目标的三维先验中心坐标,w、l、h分别为三维先验框的宽、长、高,θ为点云目标的先验偏转角,(xgt,ygt,zgt,wgt,lgt,hgtgt)为点云目标的真实边界框,xgt、ygt、zgt为点云目标的真实中心坐标,wgt、lgt、hgt分别为三维先验框的宽、长、高,θgt为点云目标的真实偏转角,(x',y',z',w',l',h',θ')为点云目标的预测边界框,x'、y'、z'为点云目标的预测中心坐标,w'、l'、h'分别为预测边界框的宽、长、高,θ'为目标的预测偏转角;
所述分类损失函数为:
Lcls=-αa(1-pa)γlog pa
其中,Lcls为分类损失函数,αa为分类损失函数的权重因子,pa为锚框的类别概率,γ为可调节因子;
所述模型损失函数为:
Figure FDA0004114255520000045
其中,L为模型损失函数,Npos为正锚框的数量,βloc为边界框回归损失函数的权重,βcls为分类损失函数的权重,βdir为偏转角损失函数的权重,Ldir为偏转角损失函数。
9.一种基于多尺度特征融合的点云目标检测装置,其特征在于,所述装置包括:
伪图像生成模块,用于根据原始点云数据生成伪图像;
反卷积模块,用于将所述伪图像输入主干网络后,对所述主干网络中最后一个选定特征提取层输出的特征图进行多次反卷积,得到对应的多组反卷积特征图;其中反卷积的次数与选定特征提取层的层数相同;
第一融合模块,用于将所述主干网络中的选定特征提取层输出的特征图分别与对应的所述反卷积特征图进行级联融合,得到多组初始融合特征图;
特征图划分模块,用于对所述多组初始融合特征图进行划分,得到包括除去第一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第一特征图集合,以及包括除去最后一个选定特征提取层对应的初始融合特征图的其他多组初始融合特征图的第二特征图集合;
第二融合模块,用于将所述第一特征图集合中的初始融合特征图进行级联融合得到第一融合特征图,将所述第二特征图集合中的初始融合特征图进行级联融合得到第二融合特征图;
第三融合模块,用于将所述第一融合特征图和所述第二融合特征图进行级联融合,得到目标特征图;
目标检测模块,用于根据所述目标特征图进行点云目标检测。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
CN202310213950.1A 2023-03-07 2023-03-07 基于多尺度特征融合的点云目标检测方法、装置和设备 Pending CN116152622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310213950.1A CN116152622A (zh) 2023-03-07 2023-03-07 基于多尺度特征融合的点云目标检测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310213950.1A CN116152622A (zh) 2023-03-07 2023-03-07 基于多尺度特征融合的点云目标检测方法、装置和设备

Publications (1)

Publication Number Publication Date
CN116152622A true CN116152622A (zh) 2023-05-23

Family

ID=86358244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310213950.1A Pending CN116152622A (zh) 2023-03-07 2023-03-07 基于多尺度特征融合的点云目标检测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116152622A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117706058A (zh) * 2024-02-04 2024-03-15 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117706058A (zh) * 2024-02-04 2024-03-15 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质
CN117706058B (zh) * 2024-02-04 2024-05-10 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111860495B (zh) 一种层级化网络结构搜索方法、设备及可读存储介质
CN111353512B (zh) 障碍物分类方法、装置、存储介质和计算机设备
US10438082B1 (en) Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN111275044A (zh) 基于样本选择和自适应难例挖掘的弱监督目标检测方法
US20220156483A1 (en) Efficient three-dimensional object detection from point clouds
CN113412505A (zh) 用于对通过探测和测距传感器获得的点云进行有序表示和特征提取的系统和方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN116152622A (zh) 基于多尺度特征融合的点云目标检测方法、装置和设备
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
Chen et al. Why discard if you can recycle?: A recycling max pooling module for 3d point cloud analysis
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN114241388A (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN111325766A (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN116824543A (zh) 一种基于od-yolo的自动驾驶目标检测方法
CN116152792A (zh) 基于跨上下文和特征响应注意力机制的车辆重识别方法
CN113763412A (zh) 图像处理方法、装置及电子设备、计算机可读存储介质
Koo et al. PG-RCNN: Semantic surface point generation for 3D object detection
CN116310368A (zh) 一种激光雷达3d目标检测方法
WO2022017129A1 (zh) 目标对象检测方法、装置、电子设备及存储介质
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN115346063A (zh) 一种类注意力机制构建方法及目标检测方法
CN110852290B (zh) 一种大规模车辆特征向量相似度比较方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination