CN116246096A - 一种基于前景强化知识蒸馏的点云3d目标检测方法 - Google Patents
一种基于前景强化知识蒸馏的点云3d目标检测方法 Download PDFInfo
- Publication number
- CN116246096A CN116246096A CN202211648986.4A CN202211648986A CN116246096A CN 116246096 A CN116246096 A CN 116246096A CN 202211648986 A CN202211648986 A CN 202211648986A CN 116246096 A CN116246096 A CN 116246096A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- frame
- distillation
- detection network
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 218
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 15
- 230000002787 reinforcement Effects 0.000 title claims abstract description 9
- 238000004821 distillation Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 10
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 8
- 230000001373 regressive effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 19
- 244000269722 Thea sinensis Species 0.000 description 9
- 230000004927 fusion Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000010025 steaming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于前景强化知识蒸馏的点云3D目标检测方法。首先,构建已知数据集中各帧点云对应的网络输入点云;接着构建PAD‑Net,PAD‑Net由教师检测网络和学生检测网络之间通过特征蒸馏模块相连组成,将网络输入点云输入到PAD‑Net的教师检测网络和学生检测网络中对PAD‑Net进行训练,将训练好的学生检测网络作为最终前景点云检测网络;最后激光雷达实时采集点云并叠加保存的历史时刻点云,获得实时输入点云序列,将实时输入点云序列输入最终前景点云检测网络中,预测获得当前时刻所有目标的类别和定位信息。本发明能够有效克服单帧点云固有的稀疏性缺陷,提升对遮挡严重、距离较远的困难目标的检测效果。
Description
技术领域
本发明涉及目标检测技术领域的一种点云3D目标检测方法,特别是涉及了一种基于前景强化知识蒸馏的点云3D目标检测方法。
背景技术
自动驾驶场景的目标检测是无人车辆感知环境的重要任务。随着深度学习技术的发展,目标检测的方法有了较大的改进。从之前的人工提取特征转变成卷积神经网络自动提取信息,通过端到端的方式极大的提升了检测的质量。激光雷达因其能够提供精确的三维信息,成为3D目标检测中广泛使用的传感器。
基于单帧点云的3D目标检测方案按照对点云编码方式的不同可分成三个类别:基于空间体素的检测、基于原始点云的检测、点云-体素融合的检测。空间体素的方案包括使用3D卷积的VoxelNet,使用稀疏3D卷积的SECOND,高度上不进行区分的体素柱编码方案PointPillars;基于空间体素的检测方案包括融合点云分割的二阶段检测网络PointRCNN,融合欧氏空间距离和特征空间距离采样策略的3DSSD,融合类别感知采样和质心感知采样两种面向任务采样策略的IA-SSD;点云-体素融合的检测方案包括基于体素编码获得高质量3D候选框,再利用原始点云获得更加精细的局部特征的PV-RCNN,添加前景分割、目标中心点估计两个辅助任务使主干网络具有较好的结构感知能力的SA-SSD,引入图神经网络建模局部邻域图中目标边界关联性的BADet。
激光雷达点云具有稀疏性,对距离较远、遮挡严重目标扫到的点云数量较少,检测器对这类困难目标的漏检较为严重。基于此问题,目前主要有两种解决方案:一是融合多传感器的多模态检测器,如MV3D、PointPainting、DeepFusion和TransFusion等。提取图像特征运算量较大导致实时性较差,多模态特征的融合又对传感器标定质量有较高的要求;二是基于时序点云输入的多帧方案,这类算法能够一定程度弥补激光雷达点云稀疏的问题,同时不依赖于其他传感器。通过合理的设计网络,多帧检测器的实时性也能得到保证,在自动驾驶场景落地前景较大。此外,多帧输入包含场景中的运动信息,合理的提取运动特征可以实现对未来时刻的预测,实现多个任务的相互促进。
YOLO4D在YOLO3D的基础上使用LSTM结构提取多帧特征,FAF将历史帧的点云通过坐标变换对齐到当前帧,之后将时序点云分别体素化并沿着时间的维度拼接,变成4D的张量;PointFlowNet将前后两帧的特征级联输入到后续的卷积层中,3D-MAN使用注意力机制融合时序帧的候选框,SDP-Net使用场景流估计任务输出的像素级偏移量指导特征搬移对齐。以上方法需要使用时序结构或搬移对齐操作,网络结构较复杂,实时性弱。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于提供了一种基于前景强化知识蒸馏的点云3D目标检测方法,适用于实时检测系统。本发明使用单帧检测网络框架,使用前景对齐点云提取的丰富特征指导未对齐点云提取特征,能够有效克服单帧点云固有的稀疏性缺陷,对遮挡严重、距离较远的困难目标的检测效果较好,整体检测性能优于对应的单帧检测器。网络参数量少,实时性强。
本发明采用的技术方案如下:
1)构建已知数据集中各帧点云对应的网络输入点云;
2)构建前景点云对齐蒸馏网络PAD-Net,前景点云对齐蒸馏网络PAD-Net由教师检测网络、学生检测网络和特征蒸馏模块组成,教师检测网络和学生检测网络之间通过特征蒸馏模块相连,将已知数据集中各帧点云对应的网络输入点云输入到前景点云对齐蒸馏网络PAD-Net的教师检测网络和学生检测网络中对前景点云对齐蒸馏网络PAD-Net进行训练,获得训练好的前景点云对齐蒸馏网络,将训练好的前景点云对齐蒸馏网络中的学生检测网络作为最终前景点云检测网络;
3)激光雷达实时采集点云并叠加保存的历史时刻点云,获得实时输入点云序列,将实时输入点云序列输入最终前景点云检测网络中,预测获得当前时刻所有目标的类别和定位信息。
所述1)中,对于已知数据集的每帧点云,对每帧点云与对应的历史帧点云进行标注关联,计算获得当前帧点云中目标的水平平移和水平旋转,根据目标的水平平移和水平旋转将历史帧点云中目标点云经过刚体变换对齐后添加到当前帧点云中,以及将历史帧点云中背景点云直接添加到当前帧点云后,获得当前帧点云对应的教师检测网络输入点云序列;
将历史帧点云直接添加至当前帧点云中后,获得当前帧点云对应的学生检测网络输入点云序列。
所述教师检测网络和学生检测网络的结构相同,学生检测网络包括体素化模块、特征提取模块和检测模块,学生检测网络的输入作为体素化模块的输入,体素化模块经特征提取模块后与检测模块相连,特征提取模块的输出输入到特征蒸馏模块中,检测模块的输出作为学生检测网络的输出。
所述特征蒸馏模块中,首先,将学生检测网络的特征提取模块的输出经卷积层后,获得蒸馏最终特征图,再根据学生检测网络的输出中的回归值,生成学生检测网络的输出中置信度大于预设锚框置信度阈值thanchor_keep的锚框对应的3D包围框,当前3D包围框与当前帧点云检测真值框级联后获得特征蒸馏框,接着将特征蒸馏框投影到鸟瞰视角,获得鸟瞰蒸馏框,鸟瞰蒸馏框所在区域作为重点区域,将蒸馏最终特征图上位于鸟瞰蒸馏框内的像素点的特征蒸馏损失权重置为1,否则置为0,由所有为1的特征蒸馏损失权重组成重点区域权重,利用重点区域权重对蒸馏最终特征图进行特征蒸馏。
所述学生检测网络的总损失函数由目标分类损失函数、参数定位回归损失函数和特征蒸馏损失函数组成,公式如下:
其中,L表示学生检测网络总损失,M为分类为正负样本的锚框的数量,Lcls,m为第m个锚框的分类损失,N为分类为正样本的锚框的数量,Lloc,n为第n个锚框的回归损失,P为重点区域像素点的数量,Lfeat_dist,p为第p个像素点的特征距离损失,λ0为当前帧目标分类损失可调权重,λ1为当前帧目标回归损失可调权重,λ2为特征蒸馏损失可调权重。
所述第m个锚框的分类损失的计算公式如下:
其中,α和γ为第一、第二可调参数;cobj为锚框分类置信度,gtanchor为置信度对应的监督信号;若锚框为正样本,gtanchor=1,否则gtanchor=0。
所述第n个锚框的回归损失包括质心三维坐标回归损失、三维尺寸回归损失与航向角回归损失,计算公式如下:
Lloc,n=α1Lsize+α2Lpos+α3Lrot
其中,α1为目标三维尺寸回归损失的可调权重,α2为目标质心三维位置回归损失的可调权重,α3为目标航向角回归损失的可调权重,Lsize表示三维尺寸回归损失,Lpos表示质心三维坐标回归损失,Lrot表示航向角回归损失;
三维尺寸回归损失Lsize的计算公式如下:
其中,la表示正样本锚框回归的x方向尺寸,lgt为正样本锚框回归的x方向尺寸la对应的真值,wa为正样本锚框回归的y方向尺寸,wgt为正样本锚框回归的y方向尺寸wa对应的真值,ha表示正样本锚框回归的z方向尺寸,hgt为正样本锚框回归的z方向尺寸ha对应的真值,log为对数函数,Lreg()表示Smooth L1损失函数;
质心三维坐标回归损失Lpos的计算公式:
其中,xa为正样本锚框回归的x方向坐标,xgt为正样本锚框回归的x方向坐标xa对应的真值,ya为正样本锚框回归的y方向坐标,ygt为正样本锚框回归的y方向坐标ya对应的真值,za为正样本锚框回归的z方向坐标,zgt为正样本锚框回归的z方向坐标za对应的真值;da为锚框鸟瞰图投影的对角线长度,wa表示正样本锚框回归的y方向尺寸,la表示正样本锚框回归的x方向尺寸;
航向角回归损失Lrot的计算公式:
Lrot=Lreg(sinθa-sinθgt)+Lreg(cosθa-cosθgt)
+Lreg(1-cos2θa-sin2θa)
其中,sinθa为正样本锚框预测的航向角正弦值,sinθgt为正样本锚框预测的航向角正弦值sinθa对应的真值,cosθa为正样本锚框预测的航向角正弦值,cosθgt为正样本锚框预测的航向角正弦值cosθa对应的真值。
所述第p个像素点的特征蒸馏损失的计算公式如下:
其中,weightfeat为重点区域权重,C为特征图通道数,feats,c为学生检测网络输出的检测最终特征图中第c个通道的特征值,featt,c为教师检测网络中特征提取模块输出的多尺度特征对应位置特征值,Lreg()表示Smooth L1损失函数。
本发明构建基于前景强化知识蒸馏的点云3D目标检测网络PAD-Net;多帧点云通过标注真值进行前景对齐,输入教师检测网络完成目标检测任务,获得前景强化的多尺度特征图;多帧点云直接堆积输入学生检测网络,通过对应的教师检测网络前景强化的多尺度特征对学生检测网络多尺度特征进行监督的方式,提升学生检测网络多尺度特征的质量。
与现有技术相比,本发明的有益效果在于:
1)本发明能够高效融合多帧时序点云,一定程度上缓解激光雷达点云固有的稀疏性缺陷,提升检测性能,尤其是对点云稀疏目标的检测;
2)本发明不依赖相机和GPS数据,不需要对多传感器数据进行融合,有效提升算法效率;
3)本发明网络结构精简,运算效率略低于对应的单帧检测器,远高于其他多帧检测器,实时性较高;
4)本发明可移植性强,可用于大多数单帧检测器,保持网络结构不变的情况下学习融合多帧点云,显著提升检测质量。
总的来说,本发明是单阶段目标检测器,网络结构精简,检测精度高,实时性强,可移植性强,对于点云稀疏的困难目标有较好的检测效果。
附图说明
图1是本发明的网络框架图。
图2以KITTI RAW数据集某一帧点云对应的输入点云。
图3是PAD-Net测试时学生检测网络结构示意图。
图4是KITTI RAW数据集下以车辆检测为例的目标检测结果示意图,其中黑色框代表标注真值,白色框代表学生检测网络检测结果。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
本发明包括如下步骤:
1)构建已知数据集中各帧点云对应的网络输入点云;
1)中,对于已知数据集的每帧点云,使用真值标注的ID号对每帧点云与对应的历史帧点云进行标注关联,计算获得当前帧点云中目标的水平平移和水平旋转,根据目标的水平平移和水平旋转将历史帧点云中目标点云经过刚体变换对齐后添加到当前帧点云中,以及将历史帧点云中背景点云直接添加到当前帧点云后,获得当前帧点云对应的教师检测网络输入点云序列;即通过人工标注的真值框进行前景的多帧加强,获得稠密的、轮廓完整的目标点云,通过教师检测网络提取丰富的前景特征表达。
具体地:
对于前后帧点云,通过标注真值框的ID号进行目标的关联。对于某一关联目标对,t时刻的3D包围框表示为(xt,yt,zt,l,w,h,θt),t-i时刻的3D包围框表示为(xt-i,yt-i,zt-i,l,w,h,θt-i),其中,x,y,z分别为被标注目标中心的三个坐标值,l,w,h为被标注目标的长、宽和高,θ为被标注目标的朝向角。通过如下公式实现t-i时刻点云到当前时刻点云的对齐:
Δθ=θt-θt-i
其中,表示t-i帧中属于目标的每一个点的三维坐标(x,y,z),水平向前为x轴的正方向,竖直向上为z轴的正方向,水平向前的右方向为y轴的正方向,该帧点云的坐标原点O=[0,0,0]为激光雷达的发射点。表示将每一个点经过刚体变换对齐后到t帧的三维坐标,R表示点云的旋转矩阵,Δθ表示航向角变化量。标注框的航向角记录的是目标朝向跟雷达坐标系原点的角度,因此需要先将每一个点平移到坐标原点,旋转之后再平移到t帧对应的空间位置。
为对融合后的多帧点云进行区分,点云数据中的每一个点使用五维向量表示,即(x,y,z,r,t),其中(x,y,z)为点在雷达坐标系的三维坐标,r为反射强度,t为时间戳,表示点来自于哪一时刻。前景对齐,背景叠加多帧融合后的点云尺寸为N*5,N为多帧点云个数之和。
将历史帧点云直接添加至当前帧点云中后,获得当前帧点云对应的学生检测网络输入点云序列,即输入点云序列包含时序维度。
2)构建前景点云对齐蒸馏网络PAD-Net,如图1所示,前景点云对齐蒸馏网络PAD-Net由教师检测网络、学生检测网络和特征蒸馏模块组成,教师检测网络和学生检测网络之间通过特征蒸馏模块相连,将已知数据集中各帧点云对应的网络输入点云输入到前景点云对齐蒸馏网络PAD-Net的教师检测网络和学生检测网络中对前景点云对齐蒸馏网络PAD-Net进行训练,获得训练好的前景点云对齐蒸馏网络,将训练好的前景点云对齐蒸馏网络中的学生检测网络作为最终前景点云检测网络;
教师检测网络和学生检测网络的结构相同,学生检测网络包括体素化模块、特征提取模块和检测模块,学生检测网络的输入作为体素化模块的输入,体素化模块经特征提取模块后与检测模块相连,其中教师检测网络的体素化模块的输入为教师检测网络输入点云序列,学生检测网络的体素化模块的输入为学生检测网络输入点云序列,特征提取模块的输出(即多尺度特征图)输入到特征蒸馏模块中,检测模块的输出作为学生检测网络的输出(即检测最终特征图)。教师检测网络的多尺度特征图是教师检测网络前景强化后的特征,通过教师检测网络特征蒸馏的方式指导学生检测网络学习,对目标多帧点云进行隐式的对齐,使学生检测网络生成更丰富的目标特征,得到更好的检测结果。
特征蒸馏模块中,首先,将学生检测网络的特征提取模块的输出经卷积层后,获得蒸馏最终特征图,考虑到历史时刻点云对应的最终特征图上空间区域容易生成假阳性样本,对这类样本需要抑制。同时为避免学生检测网络出现漏检框,再根据学生检测网络的输出(即检测最终特征图)中的回归值,生成学生检测网络的输出中置信度大于预设锚框置信度阈值thanchor_keep的锚框对应的3D包围框,当前3D包围框与当前帧点云检测真值框级联后获得特征蒸馏框,接着将特征蒸馏框投影到鸟瞰视角,获得鸟瞰蒸馏框,鸟瞰蒸馏框所在区域作为重点区域,将蒸馏最终特征图上位于鸟瞰蒸馏框内的像素点的特征蒸馏损失权重置为1,否则置为0,由所有为1的特征蒸馏损失权重组成重点区域权重,考虑到目标检测任务中前背景比例的严重不平衡,采用教师检测网络和学生检测网络特征相似度作为蒸馏的手段,利用重点区域权重对蒸馏最终特征图进行特征蒸馏。
设置学生检测网络损失函数对蒸馏最终特征图与教师检测网络多尺度特征图特征距离、检测最终特征图获得的所有目标类别和定位信息进行监督,获得PAD-Net网络结构所有参数的参数值。学生检测网络的总损失函数由目标分类损失函数、参数定位回归损失函数和特征蒸馏损失函数组成,公式如下:
其中,L表示学生检测网络总损失,M为分类为正负样本的锚框的数量,Lcls,m为第m个锚框的分类损失,N为分类为正样本得锚框的数量,Lloc,n为第n个锚框的回归损失,P为重点区域像素点的数量,Lfeat_dist,p为第p个像素点的特征距离损失,λ0为当前帧目标分类损失可调权重,λ1为当前帧目标回归损失可调权重,λ2为特征蒸馏损失可调权重。
第m个锚框的分类损失的计算公式如下:
其中,Lcls表示目标分类损失,α和γ为第一、第二可调参数,分别用来平衡正负样本和不同难度样本;cobj为锚框分类置信度,gtαnchor为置信度对应的监督信号;若锚框为正样本,gtanchor=1,否则gtanchor=0。
第n个锚框的回归损失的回归损失函数包括质心三维坐标回归损失、三维尺寸回归损失与航向角回归损失,计算公式如下:
Lloc,n=α1Lsize+α2Lpos+α3Lrot
其中,α1为目标三维尺寸回归损失的可调权重,α2为目标质心三维位置回归损失的可调权重,α3为目标航向角回归损失的可调权重,Lsize表示三维尺寸回归损失,Lpos表示质心三维坐标回归损失,Lrot表示航向角回归损失;
三维尺寸回归损失Lsize的计算公式如下:
其中,la表示正样本锚框回归的x方向尺寸,lgt为正样本锚框回归的x方向尺寸la对应的真值,wa为正样本锚框回归的y方向尺寸,wgt为正样本锚框回归的y方向尺寸wa对应的真值,ha表示正样本锚框回归的z方向尺寸,hgt为正样本锚框回归的z方向尺寸ha对应的真值,log为对数函数,Lreg()表示Smooth L1损失函数;
质心三维坐标回归损失Lpos的计算公式:
其中,xa为正样本锚框回归的x方向坐标,xgt为正样本锚框回归的x方向坐标xa对应的真值,ya为正样本锚框回归的y方向坐标,ygt为正样本锚框回归的y方向坐标ya对应的真值,za为正样本锚框回归的z方向坐标,zgt为正样本锚框回归的z方向坐标za对应的真值;da为锚框鸟瞰图投影的对角线长度,wa表示正样本锚框回归的y方向尺寸,la表示正样本锚框回归的x方向尺寸;
航向角回归损失Lrot的计算公式:
Lrot=Lreg(sinθa-sinθgt)+Lreg(cosθa-cosθgt)
+Lreg(1-cos2θa-sin2θa)
其中,sinθa为正样本锚框预测的航向角正弦值,sinθgt为正样本锚框预测的航向角正弦值sinθa对应的真值,cosθa为正样本锚框预测的航向角正弦值,cosθgt为正样本锚框预测的航向角正弦值cosθa对应的真值。
第p个像素点的特征蒸馏损失的计算公式如下:
其中,weightfeat为重点区域权重,C为特征图通道数,feats,c为学生检测网络输出的检测最终特征图中第c个通道的特征值,featt,c为教师检测网络中特征提取模块输出的多尺度特征对应位置特征值,Lreg()表示Smooth L1损失函
以学生检测网络多尺度特征图重点区域和教师检测网络多尺度特征图对应区域的特征距离作为损失函数,监督学生检测网络学习前景的运动信息,提升学生检测网络的检测性能。
3)激光雷达实时采集点云并叠加保存的历史时刻点云,获得实时输入点云序列,将实时输入点云序列输入最终前景点云检测网络中,预测获得当前时刻所有目标的类别和定位信息。
本发明方法的实施例及其实施过程如下:
以KITTI RAW公开数据集作为已知数据集,以检测车辆目标为例,来表述基于前景强化知识蒸馏的点云3D目标检测方案的具体实施过程。
步骤一:将KITTI RAW公开数据集按照序列号随即拆分成训练集和测试集,其中训练集包含20个序列,测试集包含17个序列,对训练集中的每一帧点云,执行步骤二到步骤四。
步骤二:以当前帧序号为index,选取所属序列index-2,index-4帧点云,若index-2小于0则复制第index帧,index-4小于0则复制第index-2帧。对该两帧分别使用标注ID号和index帧进行标注关联,对于每一关联对根据真值计算目标的水平平移和水平旋转,将历史帧目标点云经过刚体变换对齐后添加到当前帧点云中,背景点云直接添加到当前帧点云。为区别不同帧点云,对每个点添加时间戳,即每个点由(x,y,z,r,t)五维向量表示,其中(x,y,z)为点在雷达坐标系的三维坐标,r为反射强度,t为时间戳,表示点来自于哪一时刻,第index帧t=0,第index-2帧t=-2,第index-4帧t=-4。设第index帧点云数量为N1,第index-2帧点云数量为N2,第index-4帧点云数量为N3,则前景对齐,背景叠加融合后的点云尺寸为(N1+N2+N3)*5。
取激光雷达X方向0-51.2m,Y方向-30.72m-30.72m,Z方向-3m-1m范围内的点云作为检测输入,前景对齐,背景叠加融合后的点云记为教师检测网络输入点云pointstea,作为教师检测网络的输入,前背景均叠加融合后的点云记为学生检测网络输入点云pointsstu,作为学生检测网络的输入。教师检测网络输入点云pointstea和学生检测网络输入点云pointsstu尺寸一致。图2的(a)教师检测网络输入点云pointstea,图2的(b)为学生检测网络输入点云pointsstu,局部放大图显示教师检测网络输入点云pointstea中同一目标不同帧的点云已经对齐,而学生检测网络输入点云pointsstu中同一目标不同帧的点云未对齐,显示为三个不同空间位置的目标点云集合。
步骤三:当前帧融合得到的教师检测网络输入点云pointstea输入PAD-Net教师检测网络,进行PAD-Net教师检测网络的训练。
PAD-Net教师检测网络具体结构如下表1所示:
表1PAD-Net教师检测网络结构
取体素柱大小为0.16*0.16m*4m,numgrid=32。通过体素化模块提取鸟瞰图特征,特征图大小为320*384*64。即H=320,W=384,C=64。教师检测网络输出的多尺度特征图尺寸为160*192*384。对于目标检测任务,类别数为2,包括车辆和背景,因此numcls=2,目标定位所需参数包括(x,y,z,l,w,h,sinθ,cosθ),其中,(x,y,z)为目标的质心坐标,(l,w,h)为目标的长、宽、高,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值,因此d=8。教师检测网络最终特征图的尺寸分别为160*192*2和160*192*8。
对pointstea使用如下数据增强:
(1)全局增强:包括[-1m,1m]范围内的水平方向随机平移,沿z轴[-45°,45°]
范围内的随机旋转,[0.8,1.2]范围内的随机比例缩放。
(2)局部增强:对每一个目标,对点云和真值分别做包括[-0.2m,0.2m]范围内的水平方向随机平移,沿z轴[-10°,10°]范围内的随机旋转,[0.9,1.1]范围内的随机比例缩放。
(3)随机插入样本:KITTI RAW数据集其他序列采样后点云加入到
pointstea中。
训练参数为:使用Adam优化器进行参数更新,初始学习率设置为0.001,权重衰减系数为0.01,使用周期学习率衰减进行学习率的更新,最大学习率为0.01,最小为1x10-7。使用NVIDIA GTX2080Ti和Inter i7 CPU进行数据处理和模型训练,80个轮次后模型收敛。
步骤四:当前帧融合得到的教师检测网络输入点云pointstea和学生检测网络输入点云pointsstu分别输入PAD-Net教师检测网络和PAD-Net学生检测网络,进行PAD-Net学生检测网络的训练。
具体为:加载步骤三训练得到的PAD-Net教师检测网络教师检测网络参数值并冻结参数。教师检测网络输入点云pointstea输入PAD-Net教师检测网络教师检测网络得到教师检测网络多尺度特征图,学生检测网络输入点云pointsst输入参数随机初始化的PAD-Net学生检测网络学生检测网络,得到学生检测网络特征提取模块的输出。PAD-Net学生检测网络学生检测网络结构跟表1所示PAD-Net教师检测网络教师检测网络结构一致。PAD-Net学生检测网络学生检测网络特征提取模块的输出分别输入卷积层得到蒸馏最终特征图和检测最终特征图,蒸馏最终特征图和PAD-Net教师检测网络教师检测网络特征提取模块的输出计算包含重点区域的特征损失。学生检测网络
检测最终特征图学生检测网络生成所有目标类别和定位信息,使用对应监督信号进行学生检测网络参数更新。学生检测网络输出的蒸馏特征图尺寸为160*192*384。对于目标检测任务,类别数为2,包括车辆和背景,目标定位所需参数包括(x,y,z,l,w,h,sinθ,cosθ),其中,(x,y,z)为目标的质心坐标,(l,w,h)为目标的长、宽、高,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值。检测最终特征图的尺寸分别为160*192*2和160*192*8;
对于PAD-Net学生检测网络学生检测网络损失函数,取:
λ0=1,λ1=2,λ2=5
训练参数为:使用Adam优化器进行参数更新,初始学习率设置为0.0003,权重衰减系数为0.01,使用周期学习率衰减进行学习率的更新,最大学习率为0.003,最小为3x10-7。使用NVIDIA GTX2080Ti和Inter i7 CPU进行数据处理和模型训练,80个轮次后模型收敛。
步骤五:对KITTI RAW测试集中的每一帧点云,加载其历史帧点云并融合得到学生检测网络输入点云pointsstu,输入最终前景点云检测网络中,预测获得当前时刻所有目标的类别和定位信息。具体为:去除步骤四得到的PAD-Net教师检测网络和特征蒸馏结构,仅保存PAD-Net学生检测网络,作为最终前景点云检测网络学生检测网络(最终前景点云检测网络学生检测网络结构示意图如图3所示)。将学生检测网络输入点云pointsstu输入最终前景点云检测网络中,得到检测最终特征图,检测最终特征图可分为分类最终特征图和回归最终特征图学生检测网络。取目标判别阈值thCobj=0.5,对分类最终特征图上每个像素点做如下操作:若像素点的车辆类别置信度大于thCobj,则认为该像素点生成的锚框为正样本。根据回归最终特征图输出当前帧目标定位信息。回归最终特征图包含参数(x,y,z,l,w,h,sinθ,cosθ),其中(x,y,z)表示目标的质心三维坐标、(l,w,h)表示目标的三维尺寸、目标航向角其中atan2为反正切函数。
目标检测典型结果如图4所示,其中黑色框代表标注真值,白色框代表学生检测网络检测结果。
利用KITTI RAW划分测试集评估本发明的效果。比较单帧点云使用PAD-Net学生检测网络教师检测网络作为检测器、三帧直接叠加点云使用PAD-Net学生检测网络教师检测网络作为检测器,以及三帧直接叠加点云使用本发明训练得到的最终前景点云检测网络对不同难度目标的平均检测精度。
表2测试集中不同算法的平均检测精度比较
由表2可以发现,直接叠加三帧点云,目标未对齐会引起特征混淆,导致检测效果变差。基于特征蒸馏的本方案使用对齐的目标点云输入到教师检测网络得到较为丰富的特征图,指导未对齐的目标点云的学习,相比于直接叠加的点云和单帧点云均有更高的检测精度,尤其是对于点云稀疏的困难目标。
实验设备包括一块NVIDIA GTX2080Ti GPU和一块Intel i7 CPU,用作模型训练和测试。采用三帧点云叠加的学生检测网络平均检测速度为43.68ms/帧,计算量小,实时性高。
可以看出,本发明能够有效克服单帧点云固有的稀疏性缺陷,对遮挡严重、距离较远的困难目标的检测效果较高,整体检测性能优于对应的单帧检测器。网络参数量少,实时性强。
Claims (8)
1.一种基于前景强化知识蒸馏的点云3D目标检测方法,其特征在于,包括如下步骤:
1)构建已知数据集中各帧点云对应的网络输入点云;
2)构建前景点云对齐蒸馏网络PAD-Net,前景点云对齐蒸馏网络PAD-Net由教师检测网络、学生检测网络和特征蒸馏模块组成,教师检测网络和学生检测网络之间通过特征蒸馏模块相连,将已知数据集中各帧点云对应的网络输入点云输入到前景点云对齐蒸馏网络PAD-Net的教师检测网络和学生检测网络中对前景点云对齐蒸馏网络PAD-Net进行训练,获得训练好的前景点云对齐蒸馏网络,将训练好的前景点云对齐蒸馏网络中的学生检测网络作为最终前景点云检测网络;
3)激光雷达实时采集点云并叠加保存的历史时刻点云,获得实时输入点云序列,将实时输入点云序列输入最终前景点云检测网络中,预测获得当前时刻所有目标的类别和定位信息。
2.根据权利要求1所述的一种基于前景强化知识蒸馏的点云3D目标检测方法,其特征在于,所述1)中,对于已知数据集的每帧点云,对每帧点云与对应的历史帧点云进行标注关联,计算获得当前帧点云中目标的水平平移和水平旋转,根据目标的水平平移和水平旋转将历史帧点云中目标点云经过刚体变换对齐后添加到当前帧点云中,以及将历史帧点云中背景点云直接添加到当前帧点云后,获得当前帧点云对应的教师检测网络输入点云序列;
将历史帧点云直接添加至当前帧点云中后,获得当前帧点云对应的学生检测网络输入点云序列。
3.根据权利要求1所述的一种基于前景强化知识蒸馏的点云3D目标检测方法,其特征在于,所述教师检测网络和学生检测网络的结构相同,学生检测网络包括体素化模块、特征提取模块和检测模块,学生检测网络的输入作为体素化模块的输入,体素化模块经特征提取模块后与检测模块相连,特征提取模块的输出输入到特征蒸馏模块中,检测模块的输出作为学生检测网络的输出。
4.根据权利要求1所述的一种基于前景强化知识蒸馏的点云3D目标检测方法,其特征在于,所述特征蒸馏模块中,首先,将学生检测网络的特征提取模块的输出经卷积层后,获得蒸馏最终特征图,再根据学生检测网络的输出中的回归值,生成学生检测网络的输出中置信度大于预设锚框置信度阈值thanchor_keep的锚框对应的3D包围框,当前3D包围框与当前帧点云检测真值框级联后获得特征蒸馏框,接着将特征蒸馏框投影到鸟瞰视角,获得鸟瞰蒸馏框,鸟瞰蒸馏框所在区域作为重点区域,将蒸馏最终特征图上位于鸟瞰蒸馏框内的像素点的特征蒸馏损失权重置为1,否则置为0,由所有为1的特征蒸馏损失权重组成重点区域权重,利用重点区域权重对蒸馏最终特征图进行特征蒸馏。
7.根据权利要求5所述的一种基于前景强化知识蒸馏的点云3D目标检测方法,其特征在于,所述第n个锚框的回归损失包括质心三维坐标回归损失、三维尺寸回归损失与航向角回归损失,计算公式如下:
Lloc,n=α1Lsize+α2Lpos+α3Lrot
其中,α1为目标三维尺寸回归损失的可调权重,α2为目标质心三维位置回归损失的可调权重,α3为目标航向角回归损失的可调权重,Lsize表示三维尺寸回归损失,Lpos表示质心三维坐标回归损失,Lrot表示航向角回归损失;
三维尺寸回归损失Lsize的计算公式如下:
其中,la表示正样本锚框回归的x方向尺寸,lgt为正样本锚框回归的x方向尺寸la对应的真值,wa为正样本锚框回归的y方向尺寸,wgt为正样本锚框回归的y方向尺寸wa对应的真值,ha表示正样本锚框回归的z方向尺寸,hgt为正样本锚框回归的z方向尺寸ha对应的真值,log为对数函数,Lreg()表示Smooth L1损失函数;
质心三维坐标回归损失Lpos的计算公式:
其中,xa为正样本锚框回归的x方向坐标,xgt为正样本锚框回归的x方向坐标xa对应的真值,ya为正样本锚框回归的y方向坐标,ygt为正样本锚框回归的y方向坐标ya对应的真值,za为正样本锚框回归的z方向坐标,zgt为正样本锚框回归的z方向坐标za对应的真值;da为锚框鸟瞰图投影的对角线长度,wa表示正样本锚框回归的y方向尺寸,la表示正样本锚框回归的x方向尺寸;
航向角回归损失Lrot的计算公式:
Lrot=Lreg(sinθa-sinθgt)+Lreg(COSθa-COSθgt)+Lreg(1-cos2θa-sin2θa)
其中,sinθa为正样本锚框预测的航向角正弦值,sinθgt为正样本锚框预测的航向角正弦值sinθa对应的真值,cosθa为正样本锚框预测的航向角正弦值,cosθgt为正样本锚框预测的航向角正弦值cosθa对应的真值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211648986.4A CN116246096A (zh) | 2022-12-20 | 2022-12-20 | 一种基于前景强化知识蒸馏的点云3d目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211648986.4A CN116246096A (zh) | 2022-12-20 | 2022-12-20 | 一种基于前景强化知识蒸馏的点云3d目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246096A true CN116246096A (zh) | 2023-06-09 |
Family
ID=86632144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211648986.4A Pending CN116246096A (zh) | 2022-12-20 | 2022-12-20 | 一种基于前景强化知识蒸馏的点云3d目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246096A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883960A (zh) * | 2023-09-07 | 2023-10-13 | 安徽蔚来智驾科技有限公司 | 目标检测方法、设备、驾驶设备和介质 |
CN118230312A (zh) * | 2024-02-29 | 2024-06-21 | 北京卓视智通科技有限责任公司 | 一种路端bev感知方法、系统、计算机设备和存储介质 |
-
2022
- 2022-12-20 CN CN202211648986.4A patent/CN116246096A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883960A (zh) * | 2023-09-07 | 2023-10-13 | 安徽蔚来智驾科技有限公司 | 目标检测方法、设备、驾驶设备和介质 |
CN116883960B (zh) * | 2023-09-07 | 2023-12-01 | 安徽蔚来智驾科技有限公司 | 目标检测方法、设备、驾驶设备和介质 |
CN118230312A (zh) * | 2024-02-29 | 2024-06-21 | 北京卓视智通科技有限责任公司 | 一种路端bev感知方法、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429514B (zh) | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 | |
Lu et al. | Gated and axis-concentrated localization network for remote sensing object detection | |
Yao et al. | Inspection of exterior substance on high-speed train bottom based on improved deep learning method | |
CN116246096A (zh) | 一种基于前景强化知识蒸馏的点云3d目标检测方法 | |
CN111985376A (zh) | 一种基于深度学习的遥感影像舰船轮廓提取方法 | |
Su et al. | Real-time dynamic SLAM algorithm based on deep learning | |
Mseddi et al. | YOLOv5 based visual localization for autonomous vehicles | |
Zhu et al. | Arbitrary-oriented ship detection based on retinanet for remote sensing images | |
Wang et al. | Ship target detection algorithm based on improved YOLOv3 | |
CN110826575A (zh) | 一种基于机器学习的水下目标识别方法 | |
Zhang et al. | PSNet: Perspective-sensitive convolutional network for object detection | |
Shi et al. | Obstacle type recognition in visual images via dilated convolutional neural network for unmanned surface vehicles | |
Xiang et al. | A real-time vehicle traffic light detection algorithm based on modified YOLOv3 | |
Song et al. | Fast detection of multi-direction remote sensing ship object based on scale space pyramid | |
CN117789160A (zh) | 一种基于聚类优化的多模态融合目标检测方法及系统 | |
Li et al. | Small target detection algorithm based on YOLOv4 | |
Liu | TS2Anet: Ship detection network based on transformer | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 | |
Yu et al. | Dual-Resolution and Deformable Multihead Network for Oriented Object Detection in Remote Sensing Images | |
Sun et al. | Learning Critical Features for Arbitrary-Oriented Object Detection in Remote Sensing Optical Images | |
Tu et al. | A Deformable Spatial Attention Mechanism-Based Method and a Benchmark for Dock Detection | |
Bo et al. | Improved YOLOv5 in Remote Sensing Slender and Rotating Target Detection | |
Yu et al. | An Improved Deformable Convolution Method for Aircraft Object Detection in Flight Based on Feature Separation in Remote Sensing Images | |
Qu et al. | Research on UAV Image Detection Method in Urban Low-altitude Complex Background | |
Xue et al. | Improved algorithm for small object detection in aerial image based on YOLOv7 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |