CN116912804A - 一种高效的无锚框3-d目标检测及跟踪方法及模型 - Google Patents

一种高效的无锚框3-d目标检测及跟踪方法及模型 Download PDF

Info

Publication number
CN116912804A
CN116912804A CN202310957145.XA CN202310957145A CN116912804A CN 116912804 A CN116912804 A CN 116912804A CN 202310957145 A CN202310957145 A CN 202310957145A CN 116912804 A CN116912804 A CN 116912804A
Authority
CN
China
Prior art keywords
target
point cloud
detection
convolution
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310957145.XA
Other languages
English (en)
Inventor
王海
张桂荣
彭一明
蔡英凤
陈龙
李祎承
刘擎超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202310957145.XA priority Critical patent/CN116912804A/zh
Publication of CN116912804A publication Critical patent/CN116912804A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种高效的无锚框3‑D目标检测及跟踪方法及模型,为减少空间几何特征丢失以及更好的融合多尺度特征,本发明设计了更加有效的颈部网络,命名为空间语义融合颈部网络,使得颈部网络输出的特征更适合最终的目标边界框回归和目标分类。为了有效地捕捉object‑object联系和object‑context联系,本发明使用transformer的decoder结构构建了更加强大的检测头,设计了更加有效的query初始化方法,显著提升了目标检测性能。在3‑D检测算法的基础上构建了更加稳定的多目标跟踪算法。通过优化关联指标和轨迹管理策略,多目标跟踪过程更加具备鲁棒性,大大减少了轨迹ID切换的次数。

Description

一种高效的无锚框3-D目标检测及跟踪方法及模型
技术领域
本发明属于智能自动驾驶汽车环境感知技术领域,特别设计了一种高效的无锚框3-D目标检测级跟踪方法及模型。
背景技术
环境感知是智能汽车安全行驶的前提条件。由于激光雷达能够提供准确的深度信息,因而常被认为是自动驾驶汽车不可或缺的传感器之一。随着深度学习技术对于点云表征学习上的成功应用,LiDAR-based的3-D目标检测最近取得了重大突破。
Lidar-based的3D目标检测算法致力于从给定点云中预测目标的3D候选框。大致可以分为两大类:point-based和grid-based方法。受到具有开创性的点云处理算法PointNet的启发,point-based方法直接处理不规则点云并且预测3D边界框。PointRCNN提出一种point-based的直接从原始点云中生成候选框的范式,然后通过设计一个ROIpooling操作去修正每一个候选框。STD将每个候选框内的点特征转换为紧密的voxel表示,为了进行ROI特征提取。3DSSD在set abstraction操作里面,在现有的D-FPS基础上引入F-FPS,同时促进了最终的回归和分类。这些point-based方法自然的保存了准确的点位置,并且由于采用radius-based的局部特征聚集而具有灵活的感受野。这些方法耗费了90%的推理时间在组织不规则点云数据,而不是进行特征提取,因此不适合于处理大尺度点云。目前大部分现有的方法将稀疏和不规则的点云数据离散为规则的网格,包括3D voxels和2Dpillar。然后使用2D/3D CNN进行3D目标检测。具有开创性的VoxelNet将点云划分为3D体素,使用3D卷积进行特征提取。为了处理大户外场景下的空体素,SECOND引入了3D稀疏卷积来加速VoxelNet,并且提升了检测精度。直到现在,基于Voxel的方法仍统治了大多数的3D检测benchmarks。PointPillars在平面上进行2D体素化,并且采用PointNet作为pillar特征提取器。它能够使用2D卷积并且以有限的成本部署在嵌入式系统上。MVF在将原始点云投影为2-D伪图像之前,采用multi-view特征来增强point-wise信息。HVNet在point-wise层级上融合不同尺度的pillar特征,实现了良好的检测精度和推理速度。HVPR巧妙地保持了pillar-based检测的效率,而采用voxel-based的特征提取机制,实现了更好的检测效果。PillarNet采用2-D稀疏卷积构建了更加强大的pillar特征提取器,实现了与voxel-based方法相当的检测效果。
对于一些较简单的交通场景和常见的交通参与者,LiDAR-based的3-D目标检测算法往往能够取得优异的检测效果。然而,高级别自动驾驶对于LiDAR-based的3-D检测算法提出了更高的要求,即聚焦复杂交通场景的corner case以及提升长尾目标的检测精度等。这就要求LiDAR-based的3-D检测算法能够更加的高效,能够在large-scale数据集上有稳定的检测性能表现。
然而,目前在large-scale数据集(如nuScenes,Waymo)上展现top-performing的点云3-D检测器,通常都会设计一个相当复杂的二阶段去进行候选框的修正,这无疑会耗费大量算力和内存。因此,3-D检测算法的网络设计应该尽可能的去平衡检测速度和检测精度。此外,目前现有的LiDAR-based的3-D目标检测算法主要使用grid-based的表征方式,大体上可以分为两大类,即3-D voxel-based和2-D pillar-based方法。Voxel-based方法的主要特点是将输入点云划分为规则的3-D体素网格,然后使用3-D稀疏卷积搭建的特征提取器进行点云特征提取。由3-D稀疏卷积构成的主干可以有效地进行特征提取。但是3-D稀疏卷积引入了过多的计算量,并且3-D主干提取的特征难以被Neck在BEV空间下进行利用。而对于pillar-based的方法,采用轻量化的pillar特征编码使其在工业界得到了广泛的应用,但这也使得其检测性能与Voxel-based方法存在较大的差距。
由于LiDAR自身特性,点云数据存在不可避免的稀疏性。这就要求3-D检测网络的设计应该尽量避免在特征提取和特征融合过程中的特征丢失,否则对于小目标或者远距离目标的漏检非常严重。在图像领域,transformer这种encoder-decoder结构已经成为2-D检测和分割任务中非常具有竞争力的方法。Transformer结构能够捕捉不同特征域之间的远距离上下文信息。自然地,引入transfomer结构到LiDAR-based的3-D检测算法中成为提升点云感知的一个突破口。然而,transfomer结构带来的计算量会随着输入量的增加而显著提升,因而如何在不引入过多计算量的前提下发挥transformer对点云的感知性能就尤为关键。
在多目标跟踪算法中,很多3D MOT方法由手工设计的基于规则的模块组成。AB3DMOT是一个常见的baseline,采用IOU进行数据关联和卡尔曼滤波作为运动模型。很多后来的研究主要集中于改进数据关联部分:Chi et al.和CenterPoint分别采用马氏距离和L2距离替代IOU,在nuScenes数据集上表现的更好。SimpleTrack为了弥补IoU-based和distance-based两类关联指标各自存在的不足,于是引入GIOU作为关联指标,取得了不错的关联效果。一些其他的研究集中于轨迹管理策略:CBMOT提出一种“confidence-based”的方法来取代“count-based”机制,而Poschmann et al.等人将3D MOT看作factor graphs的优化问题。ImmortalTracker认为轨迹永不消亡,提出了一种非常有效的轨迹管理方法。然而,目前的很多3-D多目标跟踪算法存在跟踪过程不够稳定,存在频繁的轨迹ID切换问题。
发明内容
基于上述问题,本发明设计了一种高效的Pillar-based无锚框3-D目标检测及跟踪算法,又称Pillar3D-Former。PillarNet由pillar特征编码器、pillar特征提取器、颈部网络以及center-based检测头组成。由于pillar特征编码不够强大导致以pillar为基础的网络PillarNet的检测性能不够理想。对此,PillarNet引入2-D稀疏卷积构建了更加强大的pillar特征提取器,并且相较于3-D稀疏编码器计算量更少且对部署更加友好。为了使得PillarNet更能适应复杂交通场景以及进一步提升PillarNet性能,本发明做出了相关的改进。以往的pillar-based方法多采用hard pillar编码方式,这种编码方式对点和pillar进行随机失活,不仅会影响训练过程的稳定性还会带来较多的特征丢失,对此,本发明采用dynamic pillar特征编码方式,消除了点和pillar的随机失活,这种编码方式能够有效的减少点云特征丢失,减少小目标和远距离目标的漏检。对于pillar特征提取器,本发明使用2-D稀疏卷积去构建类似于ResNet-18的架构,同时为了扩大对大目标的感受野,本发明采用2D CNN构建了额外的阶段进行特征提取。颈部网络作为3-D检测算法中进行多尺度特征融合的一个重要的模块,将会直接影响最后的边界框回归和目标分类。对此,本发明构建了更加有效的颈部网络,命名为SSFN。PillarNet原始的颈部网络采用普通卷积进行特征提取,普通卷积的缺点在于感受野受限,扩大感受野就必须增加卷积的层数,然而这又会使得所提取的空间特征丢失较严重。对此引入感受野更大的自校正卷积进行特征提取,通过自校正卷积自身的注意力机制,特征提取更能够关注有意义的区域。对于点云检测来说,空间特征对于目标边界框的定位精度非常关键,针对原始颈部网络存在较多空间几何特征丢失的问题,本发明引入空间注意力机制ECANet,ECANet采用自适应的卷积核尺寸,非常适合处理点云特征。得益于2-D稀疏卷积搭建的pillar特征提取器,本发明中的颈部网络能够方便的在BEV space下面融合pillar特征提取器的捕捉的中间层输出特征。最终,本发明继续使用自校正卷积对融合后的特征进一步提取,从而得到更适合回归和分类的特征。Transformer结构利用强大的multi-head attention和cross-attention能够有效地捕捉全局信息并且可以关注object-object联系和object-context联系。对此利用transformerdecoder构建了有效地3D目标检测头。而对于transformer结构来说,query的初始化非常关键。Query的初始化将直接影响后续的检测精度,并且query的数量直接影响模型的计算复杂度。受到CenterPoint的启发,本发明使用网络预测每个类别目标的热力图,将热力图局部峰值作为目标query,这样得到的目标query更加接近潜在的目标中心。同时,考虑在3D点云场景中,位于BEV平面中目标是绝对尺度的,并且同类型目标之间的尺度变化很小。为了更好的利用该特性用于多类别检测,本发明通过增加类别embedding,使得object queries变得category-aware。这种设计使得最终回归得到目标属性更加准确。对于transformer的解码器部分,本发明参照DETR的设计方式,最终的属性采用FFN网络进行预测。为了解决目标边界框定位置信度和类别不匹配的问题,本发明在FFN处增加了一个IoU预测分支,并且将IoU预测得分用于后处理。此外,为了进一步提升目标边界框的定位精度,本发明又在FFN处额外增加了辅助角点预测分支,使用真实标签在BEV空间下的四个角点进行监督,该分支仅用于训练阶段,而不会影响目标检测的实际推理速度。至此得到一个更加强大的3-D目标检测头。
在3-D目标检测算法的基础上,本发明以ABMOT3D为baseline构建了3-D多目标跟踪算法。跟以往的大多数工作一样,本发明采用tracking-by-detection的范式。3-D多目标跟踪算法整体大概可以分为运动模型、数据关联以及轨迹管理三个部分。以往的许多3-D多目标跟踪算法都取得了不错的关联效果,但仍然存在跟踪过程不稳定、轨迹ID频繁切换等问题。经过对以往研究的分析造成以上问题的原因在于关联指标的选取和轨迹管理策略。
跟踪算法的关联指标主要可以分为IoU-based的和distance-based的两种,而IoU-based的方法对于proposal和检测框之间距离较远的情况失效,而distance-based方法对于目标朝向信息不敏感。对此采用更具鲁棒性的关联指标GIOU,很好的弥补了IoU-based和distance-based两种关联指标存在的不足。此外,以往的轨迹管理方法多采用count-based的策略,导致轨迹生成和消亡的速度慢,并且没有充分利用检测结果中的置信度信息。对此,受CBMOT的启发,本发明采用基于置信度的轨迹管理方法。核心思想是持续关联上的目标一直保持较高的置信度,而持续关联不上的轨迹置信度迅速衰减并消亡。针对于关联指标选取和轨迹管理策略的设计得到了跟踪效果更加稳定的3-D多目标跟踪算法。
本发明的有益效果:
(1)为了减少空间几何特征丢失以及更好的融合多尺度特征,本发明设计了更加有效的颈部网络,命名为空间语义融合颈部网络,使得颈部网络输出的特征更适合最终的目标边界框回归和目标分类。
(2)为了有效地捕捉object-object联系和object-context联系,本发明使用transformer的decoder结构构建了更加强大的检测头,设计了更加有效的query初始化方法,显著提升了目标检测性能。
(3)在3-D检测算法的基础上构建了更加稳定的多目标跟踪算法。通过优化关联指标和轨迹管理策略,多目标跟踪过程更加具备鲁棒性,大大减少了轨迹ID切换的次数。
附图说明
图1为发明设计流程图
图2(a)为Pillar Feature Extractor,(b)为ResSparseBlock,(c)为BasicBlock
图3(a)为SSFN,(b)为自校正卷积,(c)ECANet
图4为基于Transformer的检测头
图5为跟踪算法流程图
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明的实施包含以下步骤:
Step 1点云数据预处理
首先准备好用于模型训练的带标注的数据集并建立真值样本数据库。在模型训练时,本发明使用不同的数据增强方法对点云数据进行处理。本发明采用的数据增强方法包括:(1)真值采样。从真值样本数据库中分别为每个类别目标选取若干个真值样本,然后无需其他转换,直接放入到准备用于训练的点云中去。(2)随机反转操作。将点云沿着激光雷达坐标系的X轴和Y轴进行随机翻转,反转角度范围设置为U(-π/4,π/4)。(3)随机全局缩放。将点云在U(0.95,1.05)范围内进行随机全局缩放。对于测试阶段,本发明不采取任何数据增强方法。
Step 2设计动态特征编码器
在特征编码环节,本发明采用dynamic pillar特征编码方式,消除了点和pillar的随机失活,这种编码方式能够有效的减少点云特征丢失,减少小目标和远距离目标的漏检。与voxel-based方法将点云划分为规则的三维体素网格不同,pillar-based方法将3D点云投影为BEV视角下的稀疏伪鸟瞰图,这将不可避免的造成点云特征丢失。同时,以往的pillar-based方法采用hard pillar编码方式,当pillar内的点数量或pillar数超过缓存容量时,将会随机失活多余的点。丢失的点云信息将直接影响最终的检测效果,同时随机丢弃点和pillar将导致训练过程的不稳定。另一方面,当点或pillar数低于缓存容量时,则缓存中未用到的区域将填充0。额外的padding操作会增加不必要的计算量,进而损害算法的实时性。
定义FPR(pi)作为分配点pi到点所在的空间柱状集(pillar prj)之间的映射,并且定义FP(prj)作为聚集一个pillar prj内点集的映射。最后,Hard pillar可以被总结为:
考虑到hard pillar编码存在的不足以及受动态体素方法(MVF)的启发,本发明探索了unique-scatter paradigm来实现动态pillar编码,允许2D伪鸟瞰图到每个点的梯度反向传播。因此,pillar的数量和单个pillar内点的数量都是动态的,这依赖于特定的映射函数。动态pillar编码消除了固定尺寸buffer的需要以及消除了点和pillar的随机失活。这种编码方法有效地减少了点云特征的丢失,并且显著地提升了算法训练的稳定性和检测速度。该point-pillar映射关系可以用公式表示为:
此外,本发明将稀疏的pillar特征转换为稀疏张量表示,以便后续的pillar特征提取器进行处理。
Step 3设计Pillar特征提取器
经过特征编码之后就是对点云特征进行提取。以往的pillar-based方法没有强大的pillar特征提取器,直接将2D伪图像特征送入2D CNN-based FPN进行多尺度特征融合,这是限制其检测性能主要原因。受3D稀疏主干和基于图像的2D主干的启发,PillarNet提出使用2D稀疏卷积构建更加强大的特征提取器,相较于原始的pillar-based方法,实现了更好的检测效果,甚至优于一些voxel-based方法。
基于上述分析,本发明使用2D稀疏卷积构建了一个有效的Pillar特征提取器。如图2-(a),Pillar特征提取器由稀疏主干和2D卷积主干构成,其中稀疏主干由四个stage组成,每个stage的特征通道数分别为32、64、128、256,除stage 1只由两个残差稀疏块组成,剩余的三个stage都首先使用稀疏卷积进行特征提取和下采样,再使用残差稀疏块进行特征提取,然后依次经过四个阶段提取到的特征进行密集处理,得到OUT1输出。其中残差稀疏块的结构如图2-(b),主要由子流形稀疏卷积、正则化BatchNorm、激活函数Relu以及残差结构组成。为了扩大对大目标的感受野,本发明增加了额外的一个由dense 2D CNN组成的stage,使用2D卷积进行下采样,紧接着由两个basicblock进行特征提取,得到OUT2输出。其中basicblock结构如图2-(c)。相较于3D稀疏主干,本发明构建的pillar特征提取器计算量更少,同时能够提取精细的Pillar特征,从而实现优异的检测效果。
Step 4空间语义融合颈部网络
经过pillar特征提取器,得到了高层且更加精细的点云特征。然而pillar特征提取器输出的特征并不利于最终的目标分类和边界框回归。空间语义融合颈部网络的作用就是对pillar特征提取器输出的特征进一步融合,得到更加满足最终目标分类和边界框回归的点云特征。如图3-(a)为本发明设计的空间融合颈部网络SSFN,该网络主要由自校正卷积模块和ECANet注意力机制组成,自校正卷积可以专注到感兴趣的前景特征,ECANet又可以捕捉更加fine-grained特征。相较于3D稀疏主干网络,2D稀疏主干网络中间层特征更容易被颈部网络使用,这对于提升最终的目标检测精度非常有效。因此在本发明中设计的颈部网络同时使用了pillar特征提取器的两个输出,即OUT1和OUT2。颈部网络的设计要充分考虑点云三维场景的特点。在点云三维场景中,待检测目标相较于背景来说是非常小的,因此待检测目标特征需要被强调才能与背景分隔开。于是,本发明采用自校正卷积来代替普通卷积来进行特征提取,如图3-(b)为自校正卷积结构,类似于分组卷积,它将特定层的卷积核分为多个部分,但不均匀地每个部分中的卷积核以异构方式被利用。具体而言,自校正卷积不是通过均匀地对原始空间中的输入执行所有卷积,而是首先通过下采样将输入转换为低维嵌入。采用由一个卷积核变换的低维嵌入来校准另一部分中卷积核的卷积变换。得益于这种异构卷积和卷积核间通信,可以有效地扩大每个空间位置的感受野。自校正卷积相较于普通卷积具有更大的感受野,能够减少目标的漏检,同时利用自校正卷积内包含的注意力机制,可以更加关注待检测目标的特征提取。为了减少空间特征的丢失,本发明引入ECANet注意力机制,如图3-(c)为ECANet网络结构。具体的实现过程是:(i)首先输入特征图,它的维度是H×W×C,其中H、W和C分别表示特征图的高度、宽度和通道数;(ii)对输入特征图进行空间特征压缩,在空间维度,使用全局平均池化GAP,得到1×1×C的特征图;(iii)将压缩后的特征图通过1×1卷积,学习不同通道之间的重要性,此时输出的维度还是1×1×C;(iv)最后是通道注意力结合,将通道注意力的特征图1×1×C、原始输入特征图H×W×C,进行逐通道乘,最终输出具有通道注意力的特征图。ECANet的kernel是通过自适应选取得到的,对于处理点云的稀疏性非常高效。对于OUT1和OUT2之间的特征融合,首先将OUT2提取后的特征和OUT1进行concat处理,然后继续使用自校正卷积进一步融合。相较于原始的颈部网络,本发明设计的空间语义融合颈部网络能够更加有效地处理点云特征融合。
Step 5设计基于Transformer的检测头
Transformer结构利用强大的multi-head attention和cross-attention能够有效地捕捉全局信息并且可以关注目标与目标之间联系和目标与上下文之间的联系。对此,本发明利用transformer解码器构建了有效地3D目标检测头,其结构如图4所示,该结构主要由Query initialization、Transformer解码器和FFN组成。
Query initialization对于发挥transformer结构的作用以及加快网络收敛都至关重要。在以往的工作中,query位置是通过随机生成或者学习得到的,这种queryembedding在网络训练时难以关注到有意义的目标。并且,要想实现较好的检测性能,模型需要增加额外的解码层。于是,本发明采用了一种input-dependent初始化策略,基于一个中心点热力图来得到较好的性能,并且只用一个解码层。具体来说,给定一个d维LiDAR BEV特征图FL∈RX×Y×d,首先预测一个类别特定的热力图其中X×Y为BEV特征图的尺寸,K为类别数。然后将X×Y×K个候选目标作为初始的目标权重键值(object queries)。为了避免太近的query,本发明选择局部峰值作为object queries,其值大于或者等于8个邻近值。否则queries的数量将会很庞大。被选取的候选者对应的位置和特征被用于初始化query位置和query features。这样,本发明中的初始object queries将位于或者靠近潜在的目标中心,消除使用更多层解码器层修正位置的需要。
考虑在3D点云场景中,位于BEV平面中目标是绝对尺度的,并且同类型目标之间的尺度变化很小。为了更好的利用该特性用于多类别检测,本发明通过增加类别embedding,使得object queries变得类别注意力(category-aware)。利用每个被挑选的候选者的类别,将query feature与category embedding进行element-wise相加,其中categoryembedding是one-hot类别矢量的线性投影。Category embedding可以促进网络学习目标与目标之间关系和目标与上下文之间关系,同时作为先验信息,帮助网络学习同类别目标之间的variance,有助于目标属性的预测。
解码器层遵循DETR的设计思路。Object queries和feature maps之间的crossattention能够聚集相关背景信息到目标候选中,而object queries中的自注意力机制能够推理不同目标候选之间的关系。Query的位置使用全连接层得到d维的位置编码,然后与query features进行element-wise相加。这使得网络能够推理上下文和位置。
包含丰富实例信息的N个object queries可以通过FFN独立解码得到回归框和类别标签。遵循CenterPoint的解耦预测方法,FFN由多个分支构成,每个分支独立的预测不同属性,在本发明中每个分支由独立的两层1×1卷积组成。本发明中的FFN(feed-forwardnetwork)从query位置预测center offset、边界框高z、边界框尺寸l,w,h、偏航角α。本发明也为K个语义类别预测per-class概率通过并行方式将object query解码为prediction,得到了一系列的预测/>作为输出,其中/>为由第i个query预测到的边界框。
为了缓解目标类别得分与目标定位置信度不匹配的问题,本发明在FFN处增加了一个IoU预测分支,使用预测边界框和真实标签的IoU来进行监督。并且将IoU分支的预测值用于后处理过程,有效地提高了目标检测的精度。同时,为了进一步提高目标的定位精度,采用了一个关键点预测分支进行辅助训练。该分支沿用CenterNet3D的设计思路,使用网络预测corner heatmap,所允许的最小高斯半径设置为2。并且,该分支仅用于训练阶段,不会影响实际的推理速度。
Step6模型训练及损失函数设置
本发明采用一种端到端的方式进行模型的训练。训练数据集使用nuScenes数据集。对于nuScenes数据集,本发明设置检测范围沿着X轴和Y轴均为[-54m,54m],Z轴范围为[-5m,3m]。设置pillar size为(0.075m,0.075m)。使用四张V100训练本发明的网络24轮,batch size为16。同时,本发明使用AdamW优化器,并使用one-cycle学习率策略,其中最大学习率为1e-3,权重衰减为0.01,momentum为0.85到0.95。
在损失函数设置方面,除了常规的分类损失函数和回归损失函数外,本发明增加了两个额外的损失函数来进一步提高模型的性能。首先,本发明为每个候选框预测一个IoU得分IoU,该IoU由候选框和所有真实标签之间的IoU最大值来监督,使用smooth L1损失函数。在推理时,本发明用预测的IoU值来修正目标类别置信度,使用α’=α*iouβ,其中,α’是修正后的目标类别置信度,α是目标类别置信度,β是一个控制修正程度的超参数。另外,与CenterNet3D和AFDetV2类似,本发明在corner heatmap头的基础上增加了一个cornerheatmap头作为辅助监督。对于每个候选框,生成四个边界框角点和目标中心点的cornerheatmap,使用生成center heatmap同样的方法,除了高斯半径减半。在训练时,本发明使用MSE损失函数来监督corner预测。
在模型中,最终的损失是下面四个部分的加权和:
L=whmLhm+wregLreg+wiouLiou+wcorLcor
其中,whm和Lhm分别是热力图权重和损失,wreg和Lreg分别是回归框权重和损失,wiou和Liou分别是iou的权重和损失,wcor和Lcor分别是corner heatmap的权重和损失。
本发明对heatmap classification和box regression分别使用focal loss和L1损失进行监督。其中,Heatmap classification损失,box regression损失,IOU修正损失,以及corner heatmap损失的权重分别为1,2,1,1。
Step 73D目标跟踪流程
本发明中的3D跟踪算法设计采用“tracking-by-detection”架构。如图5为跟踪算法流程。跟踪pipeline可以划分为四个部分。
第一部分是检测结果的前处理。该部分对来自检测器的边界框进行前处理并且挑选出用于跟踪的候选框。在本发明中,首先根据边界框得分去除得分低于某一设定阈值的边界框,然后对筛选后的边界框通过NMS进一步过滤。
第二部分是运动模型。运动模型用于描述tracklets的运动状态,主要被用于预测检测目标在下一帧中的候选状态,其作为后续数据关联模块的proposals。而且,像卡尔曼滤波器这种运动模型也可以潜在的修正目标的状态。鉴于KF模型在面临低质量检测时能提供更加平滑的结果,在本发明中使用KF作为运动模型。和AB3DMOT一样,将卡尔曼滤波器由2D扩展到3D。
第三部分是数据关联。数据关联部分的作用是将历史轨迹和当前检测结果关联起来,从而实现对一个目标从过去到现在的连续感知。数据关联模块主要可以分成数据关联指标和数据关联算法的选取。基于IoU和基于距离的关联指标是3D多目标跟踪中最主流的两种选择。IoU计算检测目标边界框之间的重叠率,所以如果IoU为零就无法将detections和motion predictions联系起来,这在轨迹起始或者目标运动突变时是非常常见的。具有代表性的基于距离的关联指标有马氏距离和L2距离两种,设置较大的距离阈值可以弥补基于IoU关联指标的缺点,但是基于距离的关联指标缺乏对朝向的判别。受SimpleTrack的启发,本发明采用GIOU作为数据关联指标,很好的克服了基于IoU和基于距离两种关联指标各自的缺点。
第四部分是轨迹管理。轨迹管理模块用于控制轨迹的生成与消亡。目前大部分MOT算法都采用count-based方法。收到CBMOT的启发,目标的置信度表明了检测目标的可靠程度,因此,本发明采用confidence-based的方法进行轨迹管理,根据置信度的高低区判断轨迹是否应该生成,轨迹置信度值由为被检测目标置信度值。同时,对于关联上的轨迹,则使用检测目标的置信度去更新轨迹的置信度,而对未关联上的轨迹进行置信度衰减。具体来说,假设历史轨迹置信度为当前帧被检测目标置信度为st,对于关联上被检测目标的轨迹,其置信度ct使用公式5进行更新,而对于未关联上的轨迹,则根据公式6进行置信度衰减,其中σscore为设定的衰减值:
通过对轨迹的置信度不断更新,持续关联上的轨迹将一直保持较高的置信度,而对于持续未关联上的轨迹置信度会迅速下降,然后进行轨迹消亡处理。
此外,本发明还提出一种网络模型,包括动态特征编码器、Pillar特征提取器、颈部网络以及检测头;
所述动态特征编码器的实现如上述Step 2的内容;
所述Pillar特征提取器的实现如上述Step 3的内容;
所述颈部网络的实现如上述Step 4的内容;
所述检测头的实现如上述Step 5的内容。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,包括:
Step 1点云数据预处理;
Step 2基于dynamic pilla设计动态特征编码器;
Step 3基于2D稀疏卷积设计Pillar特征提取器;
Step 4对pillar特征提取器输出的特征进行空间语义融合,设计颈部网络;
Step 5基于Transformer设计检测头;
Step6模型训练及设置损失函数;
Step 7 3D目标跟踪。
2.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S1具体包括如下:
首先准备好用于模型训练的带标注的数据集并建立真值样本数据库,在模型训练时,使用不同的数据增强方法对点云数据进行处理,所述数据增强方法包括:(1)真值采样:从真值样本数据库中分别为每个类别目标选取若干个真值样本,然后无需其他转换,直接放入到准备用于训练的点云中去;(2)随机反转操作:将点云沿着激光雷达坐标系的X轴和Y轴进行随机翻转,反转角度范围设置为U(-π/4,π/4);(3)随机全局缩放:将点云在U(0.95,1.05)范围内进行随机全局缩放。
3.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S2具体包括如下:
定义FPR(pi)作为点云的分配点pi到点所在的pillarprj之间的映射,并且定义FP(prj)作为聚集一个pillarprj内点集的映射,Hard pillar总结为:
采用unique-scatter paradigm实现动态pillar编码,允许2D伪鸟瞰图到每个点的梯度反向传播,pillar的数量和单个pillar内点的数量都是动态的,动态pillar编码消除了固定尺寸buffer的需要以及消除了点和pillar的随机dropout,该point-pillar映射关系可以用公式表示为:
此外,将稀疏的pillar点云特征转换为稀疏张量表示,以便后续的pillar点云特征提取器进行处理。
4.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S3具体包括如下:
使用2D稀疏卷积构建Pillar点云特征提取器,Pillar点云特征提取器包括稀疏主干和2D卷积主干,其中稀疏主干包括四个stage,每个stage的特征通道数分别为32、64、128、256,除stage 1只由两个残差稀疏块组成,剩余的三个stage都首先使用稀疏卷积进行点云特征提取和下采样,再使用残差稀疏块进行特征提取,然后依次经过四个stage提取到的点云特征进行dense处理,得到OUT1输出;其中残差稀疏块包括子流形稀疏卷积、BatchNorm、Relu以及残差结构,为了扩大对大目标的感受野,增加额外的一个由dense 2D CNN组成的stage,使用2D卷积进行点云特征下采样,紧接着由两个basicblock进行点云特征提取,得到OUT2输出。
5.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S4的颈部网络包括自校正卷积模块和ECANet注意力机制模块,自校正卷积专注到感兴趣的前景特征,ECANet可以捕捉更加fine-grained特征;
所述自校正卷积模块,将特定层的卷积核分为多个部分,不均匀地将每个部分中的卷积核以异构方式被利用,具体而言,自校正卷积首先通过下采样将输入点云特征转换为低维嵌入,采用由一个卷积核变换的低维嵌入来校准另一部分中卷积核的卷积变换,利用自校正卷积内包含的注意力机制,可以更加关注待检测目标的点云特征提取;
ECANet注意力机制模块,具体的过程是:(i)首先输入点云特征图,它的维度是H×W×C;(ii)对输入特征图进行空间特征压缩,在空间维度,使用全局平均池化GAP,得到1×1×C的特征图;(iii)将压缩后的特征图通过1×1卷积,学习不同通道之间的重要性,此时输出的维度还是1×1×C;(iv)最后是通道注意力结合,将通道注意力的特征图1×1×C、原始输入特征图H×W×C,进行逐通道乘,最终输出具有通道注意力的点云特征图;ECANet的kernel是通过自适应选取得到,对于处理点云的稀疏性非常高效,对于OUT1和OUT2之间的点云特征融合,首先将OUT2提取后的点云特征和OUT1进行concat处理,然后继续使用自校正卷积进一步融合。
6.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S5的检测头的结构包括Query initialization部分、Transformer解码器部分和FFN部分;
所述Query initialization部分,给定一个d维LiDAR BEV点云特征图FL∈RX×Y×d,首先预测一个类别特定的热力图其中X×Y为BEV特征图的尺寸,K为类别数,然后将X×Y×K个候选目标作为初始的object queries;为了避免太近的query,选择局部峰值作为object queries,其值大于或者等于8个邻近值,被选取的候选者对应的位置和特征被用于初始化query位置和query features,初始object queries将位于或者靠近潜在的目标中心,消除使用更多层解码器层修正位置的需要;
考虑在3D点云场景中,位于BEV平面中目标是绝对尺度的,并且同类型目标之间的尺度变化很小,为了更好的利用该特性用于多类别检测,通过增加类别embedding,使得objectqueries变得category-aware,利用每个被挑选的候选者的类别,将query feature与category embedding进行element-wise相加,其中category embedding是one-hot类别矢量的线性投影,Category embedding能促进网络学习目标与目标之间关系和目标与上下文之间关系,同时作为先验信息,帮助网络学习同类别目标之间的variance,有助于目标属性的预测;
Transformer解码器部分采用DETR的设计思路,Object queries和feature maps之间的cross attention能够聚集相关背景信息到目标候选中,而object queries中的自注意力机制能够推理不同目标候选之间的关系,Query的位置使用全连接层得到d维的位置编码,然后与query features进行element-wise相加,使得网络能够推理上下文和位置;
包含丰富实例信息的N个object queries通过FFN部分独立解码得到回归框和类别标签,遵循CenterPoint的解耦预测方法,FFN由多个分支构成,每个分支独立的预测不同属性,每个分支由独立的两层1×1卷积组成,本发明中的FFN从query位置预测centeroffset、边界框高z、边界框尺寸l,w,h、偏航角α,为K个语义类别预测per-class概率通过并行方式将object query解码为prediction,得到了一系列的预测作为输出,其中/>为由第i个query预测到的边界框;
为了缓解目标类别得分与目标定位置信度不匹配的问题,在FFN处增加了一个IoU预测分支,使用预测边界框和真实标签的IoU来进行监督,并且将IoU分支的预测值用于后处理过程,提高目标检测的精度;同时,为提高目标的定位精度,采用一个关键点预测分支进行辅助训练,该分支采用CenterNet3D的设计思路,使用网络预测corner heatmap,所允许的最小高斯半径设置为2。
7.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S6模型训练的具体过程如下:
采用端到端的方式进行模型的训练,训练数据集使用nuScenes数据集,对于nuScenes数据集,设置检测范围沿着X轴和Y轴均为[-54m,54m],Z轴范围为[-5m,3m],设置pillarsize为(0.075m,0.075m),使用四张V100训练网络24轮,batch size为16,同时,使用AdamW优化器,并使用one-cycle学习率策略,其中最大学习率为1e-3,权重衰减为0.01,momentum为0.85到0.95。
8.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S6损失函数的具体设计如下:
为每个候选框预测一个IoU得分IoU,该IoU由候选框和所有真实标签之间的IoU最大值来监督,使用smooth L1损失函数,在推理时,用预测的IoU值来修正目标类别置信度,使用α’=α*iouβ,其中α是目标类别置信度,β是一个控制修正程度的超参数;在corner heatmap头的基础上增加一个corner heatmap头作为辅助监督,对于每个候选框,生成四个边界框角点和目标中心点的corner heatmap,在训练时,使用MSE损失函数来监督corner预测;
最终的损失是下面四个部分的加权和:
L=whmLhm+wregLreg+wiouLiou+wcorLcor
对heatmap classification和box regression分别使用focal loss和L1损失进行监督,其中,Heatmap classification损失,box regression损失,IOU修正损失,以及cornerheatmap损失的权重分别为1,2,1,1。
9.根据权利要求1所述的一种高效的无锚框3-D目标检测及跟踪方法,其特征在于,所述S7的具体实现包括:
采用“tracking-by-detection”架构,划分为四个部分:
第一部分是检测结果的前处理;该部分对来自检测器的边界框进行前处理并且挑选出用于跟踪的候选框,首先根据边界框得分去除得分低于某一设定阈值的边界框,然后对筛选后的边界框通过NMS进一步过滤;
第二部分是运动模型;运动模型用于描述tracklets的运动状态,用于预测检测目标在下一帧中的候选状态,其作为后续数据关联模块的proposals。
第三部分是数据关联;数据关联部分的作用是将历史轨迹和当前检测结果关联起来,从而实现对一个目标从过去到现在的连续感知,基于IoU和基于距离的关联指标是3D多目标跟踪中最主流的两种选择,IoU计算检测目标边界框之间的重叠率,具有代表性的基于距离的关联指标有马氏距离和L2距离两种,设置较大的距离阈值可以弥补基于IoU关联指标的缺点;
第四部分是轨迹管理;轨迹管理用于控制轨迹的生成与消亡,采用confidence-based的方法进行轨迹管理,根据置信度的高低区判断轨迹是否应该生成,轨迹置信度值为被检测目标置信度值,同时,对于关联上的轨迹,则使用检测目标的置信度去更新轨迹的置信度,而对未关联上的轨迹进行置信度衰减,具体来说,假设历史轨迹置信度为ct,当前帧被检测目标置信度为st,对于关联上被检测目标的轨迹,其置信度ct使用公式5进行更新,而对于未关联上的轨迹,则根据公式6进行置信度衰减,其中σscore为设定的衰减值:
通过对轨迹的置信度不断更新,持续关联上的轨迹将一直保持较高的置信度,而对于持续未关联上的轨迹置信度会迅速下降,然后进行轨迹消亡处理。
10.一种用于高效的无锚框3-D目标检测及跟踪的模型,其特征在于,包括动态特征编码器、Pillar特征提取器、颈部网络以及检测头;
所述动态特征编码器的实现如权利要求1-9任一项所述的Step 2的内容;
所述Pillar特征提取器的实现如权利要求1-9任一项所述的Step 3的内容;
所述颈部网络的实现如权利要求1-9任一项所述的Step 4的内容;
所述检测头的实现如权利要求1-9任一项所述的Step 5的内容。
CN202310957145.XA 2023-07-31 2023-07-31 一种高效的无锚框3-d目标检测及跟踪方法及模型 Pending CN116912804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310957145.XA CN116912804A (zh) 2023-07-31 2023-07-31 一种高效的无锚框3-d目标检测及跟踪方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310957145.XA CN116912804A (zh) 2023-07-31 2023-07-31 一种高效的无锚框3-d目标检测及跟踪方法及模型

Publications (1)

Publication Number Publication Date
CN116912804A true CN116912804A (zh) 2023-10-20

Family

ID=88353109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310957145.XA Pending CN116912804A (zh) 2023-07-31 2023-07-31 一种高效的无锚框3-d目标检测及跟踪方法及模型

Country Status (1)

Country Link
CN (1) CN116912804A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670938A (zh) * 2024-01-30 2024-03-08 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法
CN118155202A (zh) * 2024-05-09 2024-06-07 杭州像素元科技有限公司 基于LiDAR点云数据的3D目标检测模型的构建方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117670938A (zh) * 2024-01-30 2024-03-08 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法
CN117670938B (zh) * 2024-01-30 2024-05-10 江西方兴科技股份有限公司 一种基于治超机器人的多目标时空跟踪方法
CN118155202A (zh) * 2024-05-09 2024-06-07 杭州像素元科技有限公司 基于LiDAR点云数据的3D目标检测模型的构建方法及装置

Similar Documents

Publication Publication Date Title
He et al. Svga-net: Sparse voxel-graph attention network for 3d object detection from point clouds
Ainetter et al. End-to-end trainable deep neural network for robotic grasp detection and semantic segmentation from rgb
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
CN113807187A (zh) 基于注意力特征融合的无人机视频多目标跟踪方法
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN112560865A (zh) 一种室外大场景下点云的语义分割方法
CN117058456A (zh) 一种基于多相注意力机制的视觉目标跟踪方法
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
Liu et al. Learning optical flow and scene flow with bidirectional camera-lidar fusion
Fan et al. Hcpvf: Hierarchical cascaded point-voxel fusion for 3D object detection
CN110111358B (zh) 一种基于多层时序滤波的目标跟踪方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
Wang et al. Summary of object detection based on convolutional neural network
CN116563343A (zh) 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法
CN115578574A (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
Liu et al. Playing to Vision Foundation Model's Strengths in Stereo Matching
Deng et al. Memory network for tracking with deep regression
Jiang et al. DeepGCNs-Att: Point cloud semantic segmentation with contextual point representations
Feng et al. Multi-Correlation Siamese Transformer Network with Dense Connection for 3D Single Object Tracking
Li et al. RLGrid: reinforcement learning controlled grid deformation for coarse-to-fine point could completion
Zhang et al. VSA-CGAN: An Intelligent Generation Model for Deep Learning Sample Database Construction
Cheng et al. Dual attention-guided self-adaptive aware cascade network for multi-view stereo and stereo matching
Cao et al. DIGCN: A Dynamic Interaction Graph Convolutional Network Based on Learnable Proposals for Object Detection
Lai et al. Deep Learning Neural Networks for 3D Point Clouds Shape Classification: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination