CN111429514B - 一种融合多帧时序点云的激光雷达3d实时目标检测方法 - Google Patents

一种融合多帧时序点云的激光雷达3d实时目标检测方法 Download PDF

Info

Publication number
CN111429514B
CN111429514B CN202010165899.8A CN202010165899A CN111429514B CN 111429514 B CN111429514 B CN 111429514B CN 202010165899 A CN202010165899 A CN 202010165899A CN 111429514 B CN111429514 B CN 111429514B
Authority
CN
China
Prior art keywords
frame
point cloud
target
feature
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010165899.8A
Other languages
English (en)
Other versions
CN111429514A (zh
Inventor
叶育文
张易
项志宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010165899.8A priority Critical patent/CN111429514B/zh
Publication of CN111429514A publication Critical patent/CN111429514A/zh
Application granted granted Critical
Publication of CN111429514B publication Critical patent/CN111429514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种融合多帧时序点云的激光雷达3D实时目标检测方法。对较大遮挡目标标注不全的含连续帧点云的已知数据集,利用投影标注补全法补全;构建MADet网络结构;对多帧时序点云配准和体素化生成多帧鸟瞰图;将多帧鸟瞰图输入特征提取模块生成多帧初始特征图;对多帧初始特征图生成对应的特征描述,计算特征权重图并加权融合获得融合特征图;使用特征金字塔对融合特征图多尺度特征融合,在最终特征图上回归目标的位置、尺寸和朝向。本发明能有效克服单帧点云的数据稀疏问题,在遮挡严重和远距离下的目标检测中获得高准确率,达到比单帧检测更高的精度,网络结构精简,计算代价小,实时性强。

Description

一种融合多帧时序点云的激光雷达3D实时目标检测方法
技术领域
本发明涉及目标检测技术领域的一种激光雷达目标检测方法,特别是涉及了一种融合多帧时序点云的激光雷达3D实时目标检测方法。
背景技术
目标检测是指在可感知环境中找到所有存在的物体并回归出其尺寸和位置信息,是无人驾驶、自主机器人等复杂系统能安全运行的至关重要的一环。卷积神经网络在基于图像的2D目标检测领域中取得了很大的进步。这些深度网络使用2D卷积,池化,全连接等操作,提取图片中更高层的语义信息,更好的理解图片内容,相对于传统方法效果显著,迅速成为目标检测领域的主流方法。但基于图像的2D目标检测缺乏深度信息,无法用于3D导航。为了给机器人提供精确的路径规划和运动控制,仅使用相机图像下的2D目标检测信息是不够的,因此3D场景中的带有空间信息的目标检测更为重要。激光雷达作为常见的距离传感器,采集的点云提供了精确的3D信息,为精确的3D目标检测提供了基础。
基于单帧点云的双阶段3D目标检测方法包括使用栅格和滑动窗口提取特征的Vote3Deep,使用图像检测结果为指导的点云3D检测F-PointNets,体素化后使用特征编码网络和3D卷积的VoxelNet与SECOND,融合多视角多传感器的检测方法MV3D和AVOD,这些双阶段方法计算量较大,在应用中难以保证实时性。基于单帧点云的单阶段3D目标检测方法包括Complex-YOLO、YOLO3D、PIXOR和PIXOR++,这些方法虽然具有较快的速度,但相比于双阶段方法,精度大大下降,其主要原因为网络结构简单,网络的拟合性能较弱,对强遮挡和远距离点云稀疏处的目标检测能力骤降。
点云具有较强的稀疏性,且不具有物体的纹理和颜色特征,因此较难进行对于点云稀疏或强遮挡的目标的精确检测。而引入连续多帧的点云,则可以增加时序上的约束,改善遮挡和稀疏状况,提高3D目标检测的精度和鲁棒性。YOLO4D在YOLO3D的基础上使用LSTM结构提取多帧特征,Complexer-YOLO在Complex-YOLO基础上使用语义分割结果辅助检测,FaF将多帧点云对齐后直接输入网络。以上方法需要使用分割方法或点云层对齐,引入大量额外计算需求,实时性弱且检测精度不高。本发明使用简单骨架、实时性强的网络结构,对配准后的多帧时序点云在初始特征图层面进一步自适应加权对齐融合,达到高速、高精度检测的效果。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于提供了一种融合多帧时序点云的激光雷达3D实时目标检测方法,适用于实时采集实时处理的高效检测系统。
本发明能有效克服单帧点云的数据稀疏问题,在遮挡严重和远距离下的目标检测中获得高准确率,达到比单帧点云检测更高的精度。使用的网络结构精简,计算代价小,实时性强。
本发明采用的技术方案的步骤如下:
1)使用投影标注补全法对具有激光雷达所采集的连续帧点云的已知数据集中漏标注的目标检测真值进行补全;
已知数据集是由多个不同场景的序列构成,每个序列是由连续帧点云和对应的目标检测真值构成,目标检测真值是指点云所包含目标的标注的集合。连续帧点云是指利用同一激光雷达连续采集的点云序列;
2)配准多帧时序点云,将多帧时序点云配准到当前帧点云的点云坐标系中;
时序点云是指随着时间推移而依次利用同一激光雷达采集的一系列不同帧的点云。
3)对配准后的多帧时序点云作体素化处理,生成多帧鸟瞰图,鸟瞰图是由体素化处理后获得的体素构成;具体是由步骤3)获得的多帧时序点云的每帧点云分别作体素化处理生成的多帧鸟瞰图。
4)建立MADet网络结构,MADet网络结构是以单帧点云目标检测的MODet-tiny网络结构为基础构建的,通过MADet网络结构实现融合多帧时序点云的目标检测,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向;
具体是将多帧鸟瞰图并行输入MADet网络结构中的特征提取模块,生成多帧初始特征图;将多帧初始特征图并行输入MADet网络结构中的特征描述模块,使用全卷积网络对各帧初始特征图生成对应的特征描述,并以该特征描述计算自适应权重获得特征权重图;通过加权模块对特征权重图和初始特征图加权,然后对加权后的各帧初始特征图进行多帧特征融合,生成融合特征图;将多帧特征融合生成的融合特征图输入MADet网络结构中目标检测模块,使用特征金字塔对融合特征图进行多尺度特征融合,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向。
5)将已知数据集输入MADet网络结构进行训练,同时设置总损失函数对已知数据集的全部帧点云中通过MADet网络结构回归出的所有目标的位置、尺寸和朝向进行优化监督,获得MADet网络结构中所有参数的参数值,获得训练后的MADet网络结构;
6)将训练完成的所有参数的参数值载入MADet网络结构中,针对激光雷达实时采集的待测点云输入到MADet网络结构中,输出获得最终特征图,从中提取出目标的位置、尺寸和朝向。
所述步骤1)中,是针对已知数据集中的每个序列,从每个序列最后一帧点云开始更新漏标注的目标,依次利用后一帧点云包含的每个目标的标注框向前一帧投影补全当前序列的目标检测真值,目标检测真值是指一帧点云所包含目标的标注的集合;具体为:
1.1)预处理点云和已知数据集的标注
针对每帧点云建立点云坐标系:每帧点云均由数个3D激光雷达点构成,每个3D激光雷达点p的坐标由三个坐标轴表示,记为p=[x,y,z],其中水平向前为y轴的正方向,竖直向上为z轴的正方向,水平向前的右方向为x轴的正方向,该帧点云的坐标原点O=[0,0,0]为激光雷达的发射点;
已知数据集里面对每个目标的标注为groundTruthbox=[obj,xcenter,ycenter,zcenter,L,W,H,θyaw],其中各个参数均是在该目标对应帧点云的点云坐标系下的标注参数,obj为被标注的目标的类别,以下简称其为标注类别,[xcenter,ycenter,zcenter]为被标注的目标的中心坐标,[L,W,H]为被标注的目标的长、宽和高,θyaw为被标注的目标的朝向角;
在获得第n帧点云坐标系下所有被标注的目标的情况下,以目标的3D包围框作为标注框,为长方体框,通过坐标变换,计算出第n帧点云坐标系下所有被标注的目标的标注框的8个角点的坐标Pn并作为角点坐标;
1.2)同一标注框在前后帧点云的点云坐标系下的角点坐标变换
通过下式计算第n帧点云的点云坐标系下的所有标注框的角点坐标Pn在第(n-1)帧点云的点云坐标系下的角点坐标Pn-1
Pn-1=Rn-1,nPn+tn-1,n
其中,Rn-1,n和tn-1,n分别表示第(n-1)帧点云的点云坐标系向第n帧点云的点云坐标系转换的旋转矩阵和平移矩阵;
1.3)标注框的补全与筛选
交并比(Intersection over Union,IoU)的计算方法是预测框和真值框的交集和并集的面积或体积的比值。
利用步骤1.2)的同一标注框在前后帧点云的点云坐标系下的角点坐标变换的计算方式,从已知数据集中每个序列的最后一帧点云开始,依次用后一帧点云中的所有标注框向前一帧点云投影:
如果后一帧点云中的一个标注框向前一帧点云投影后,标注框内的3D激光雷达点个数小于预设的阈值个数thresnum,或该标注框超出预设的横向检测范围(-thresXrange,thresXrange),thresXrange表示横向检测范围的范围参数,或该标注框超出预设的纵向检测范围(0,thresYrange),thresYrange表示纵向检测范围的范围参数,则忽略该标注框;
然后以未被忽略的投影后的标注框作为预测框,以已知数据集中前一帧点云本身具有的标注框作为真值框,通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标,如果交并比IoU大于预设的交并比阈值thresisObj,且预测框和真值框的标注类别相同,则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标,此时由于该目标已在前一帧点云的目标检测真值中,因此不利用该目标补全前一帧点云的目标检测真值;
若交并比IoU小于预设的交并比阈值thresisObj,则认为发现漏标注的目标,将预测框对应的目标的标注作为前一帧点云该新加入的目标的标注,并加入到前一帧点云的目标检测真值中,从而对目标检测真值进行补全。
本发明方法上述处理可以精确地对静态目标进行目标检测真值补全,但对于少量的移动较快且没有标注的目标会出现定位偏移,因此最后为保证补全的目标检测真值正确,对增加的目标检测真值进行人工确认和调整。
所述步骤2)中,具体为:
前后帧点云之间打到地面的3D激光雷达点容易误匹配,需要筛除所有帧点云中的打到地面的3D激光雷达点。对于前后帧点云,通过最小化如下误差函数来获得第k帧点云和第(k-1)帧点云之间的刚性位姿变换,包括第k帧点云相对于第(k-1)帧点云的预测旋转矩阵
Figure BDA0002407444150000041
和预测平移矩阵
Figure BDA0002407444150000042
从而实现配准的目的:
Figure BDA0002407444150000043
式中,N为前后帧点云之间的3D激光雷达点匹配对数,
Figure BDA0002407444150000044
Figure BDA0002407444150000045
分别代表前后帧点云中对应的最近邻匹配3D激光雷达点的坐标;
然后利用刚性位姿变换将前Q帧点云依次配准至当前帧点云的点云坐标系中,完成对于连续(Q+1)帧的多帧时序点云精确配准到当前帧点云的点云坐标系中。
所述步骤3)鸟瞰图的具体生成方法是:
针对多帧时序点云的每帧点云,将每帧点云所在空间分割成大小相等的体素,并对每个体素进行二进制表示,每个体素的尺寸为gridx×gridy×gridz其中gridx为体素的预设横向长度,gridy为体素的预设纵向长度,gridz为体素的预设高向长度,完成体素化处理;
然后将单帧点云包含的所有3D激光雷达点投影到构成鸟瞰图的各个体素中,对于坐标为p=[x,y,z]的3D激光雷达点投影到的体素的坐标为(row,col,high):
Figure BDA0002407444150000051
Figure BDA0002407444150000052
Figure BDA0002407444150000053
其中,row、col和high分别表示该3D激光雷达点投影到体素的坐标的行号、列号和高号,Xoffset、Yoffset和Zoffset分别表示预设的行、列和高偏移量;
在每帧点云的点云坐标系下建立左右预设范围[-thresXsearch,thresXsearch],thresxsearch表示左右预设范围的范围参数,前后预设范围[0,thresYsearch],thresYsearch表示前后预设范围的范围参数,上下预设范围[-thresZsearch1,thresZsearch2]的目标检测范围,-thresZsearch1,thresZsearch2分别表示上下预设范围的第一、第二范围参数,将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理,由所有体素化处理后的体素构成鸟瞰图,当体素内有3D激光雷达点存在时,体素的数值为1,体素内没有3D激光雷达点时,体素的数值为0。
所述步骤4)中,MODet-tiny网络结构是由一个五个连续的卷积池化模块、一个卷积模块、两个连续的反卷积模块和两个连续的卷积模块构成,每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成,每个卷积模块是由一层卷积层构成,每个反卷积模块是由一层反卷积层构成;
将由单帧点云作体素化处理生成的单帧鸟瞰图输入到MODet-tiny网络结构,依次通过特征提取模块获得8倍降采样的单帧初始特征图,然后通过目标检测模块,利用特征金字塔融合多尺度特征,输出最终特征图,其中特征提取模块是由三个连续的卷积池化结构依次连接构成,目标检测模块是由一个特征金字塔和一个卷积层依次连接构成,特征金字塔是由两个连续的卷积池化结构、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成。
具体的MODet-tiny网络结构如下表1所示:
表1 MODet-tiny网络结构
Figure BDA0002407444150000061
Figure BDA0002407444150000071
上表中,m为初始卷积核个数,row×col×high为输入的鸟瞰图的大小,d为待预测量的个数。
本发明自行建立的上述基础网络结构中,卷积层个数加反卷积层的个数仅10个。
所述步骤4)中,MADet网络结构包括特征提取模块、特征描述模块、目标检测模块和加权模块;特征提取模块和特征描述模块依次连接,特征提取模块和特征描述模块的输出经加权模块连接输入到目标检测模块;
特征提取模块是由三个连续的卷积池化模块构成,每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成;将步骤3)获得的多帧鸟瞰图的各帧并行输入特征提取模块获得8倍降采样的多帧初始特征图;
特征描述模块是使用由全卷积网络对特征提取模块输出的各帧初始特征图生成特征描述,并以特征描述计算自适应权重获得特征权重图;
加权模块是对特征权重图和初始特征图加权,然后对加权后的各帧初始特征图进行多帧特征融合生成融合特征图;
所述的目标检测模块是由一个特征金字塔和一个卷积层依次连接构成,特征金字塔是由两个连续的卷积池化模块、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成,每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成;通过目标检测模块对融合特征图利用特征金字塔融合多尺度特征生成最终特征图。
所述的特征描述模块和加权模块具体处理过程为:
S1、特征描述模块处理为:
S1.1、生成各帧初始特征图的特征描述
仅使用共享参数的三层卷积层作为全卷积网络,对特征提取模块输出的多帧初始特征图的每个像素提取16m维的特征向量作为特征描述;
共享参数是指每帧初始特征图通过的卷积层的卷积参数相同。
具体实施中,这3层卷积层使用的卷积核个数依次为4m,8m,16m,输入的各帧初始特征图大小为
Figure BDA0002407444150000072
输出的对应各帧特征图的各帧特征描述的大小为
Figure BDA0002407444150000073
S1.2、各帧初始特征图间的相似度计算
将多帧初始特征图各自的特征描述的余弦相似度对比,用于衡量其对应的初始特征图之间的相似度,采用如下公式获得相似度:
Figure BDA0002407444150000081
其中,
Figure BDA0002407444150000082
表示第t帧初始特征图的特征描述在像素坐标p上的特征向量,
Figure BDA0002407444150000083
表示第t-n帧初始特征图的特征描述在像素坐标p上的特征向量,且0≤n≤Q,n表示当前帧点云对应的前第n帧点云的序号,Q表示融合除当前帧外的总点云帧数,st-n(p)表示第t-n帧初始特征图和第t帧初始特征图在像素坐标p上的相似度;
S1.3、由各帧初始特征图间的相似度计算特征权重图
使用各帧初始特征图间的相似度st-n(p)和自然指数e,然后进行归一化处理,得到各帧初始特征图上每个像素的特征权重,计算公式为:
Figure BDA0002407444150000084
式中,0≤j≤Q,wt-n(p)表示第t-n帧初始特征图在像素坐标p下的特征权重;
最后将每帧初始特征图的所有特征权重按初始特征图的像素坐标连接构成特征权重图,即每帧初始特征图都生成大小为
Figure BDA0002407444150000085
的特征权重图。
S2、再通过加权模块使用下式对各帧初始特征图加权融合,实现了加权融合各帧初始特征图及其对应的特征权重图生成融合特征图:
Figure BDA0002407444150000086
式中,
Figure BDA0002407444150000087
为融合特征图,Ft-n为第t-n帧初始特征图。
MADet网络结构以MODet-tiny网络结构为基础,并融合了对输入的多帧鸟瞰图并行处理和多帧初始特征图融合的操作。
所述MADet网络结构的特征提取模块中的三个连续的卷积池化结构中的卷积层使用的卷积核个数依次为m,2m,2m,最终每帧输入的鸟瞰图都可得到8倍降采样的初始特征图。输入的每帧鸟瞰图大小为row×col×high,输出的每帧初始特征图大小为
Figure BDA0002407444150000088
所述的目标检测模块是使用特征金字塔对融合特征图进行多尺度特征融合,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向,采用以下方式进行处理:
对融合特征图通过两个卷积池化模块进行两次降采样和升采样,然后在
Figure BDA0002407444150000091
Figure BDA0002407444150000092
这三种分辨率上进行多尺度特征融合,在分辨率为
Figure BDA0002407444150000093
的最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向,其中最终特征图相对于当前帧点云的视角为鸟瞰视角。
对于目标检测,最终特征图上的每个像素预测目标的中心落在该像素内时的各个参数。参数个数为7,即最终特征图大小为
Figure BDA0002407444150000094
所述的目标检测模块输出的最终特征图中的每个像素具有参数向量,参数向量为(cobj,tx,ty,l,w,sinθ,cosθ),分别表示该像素对应的空间位置中存在目标的置信度cobj、目标的中心相对于该像素的横向和纵向偏移tx,ty、目标的长宽l,w、以及目标的朝向角θ,
Figure BDA0002407444150000095
其中atan2为反正切函数,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值。
本发明上述整个网络模型简单,参数较少,计算量少且运行速度快。
所述的步骤5)中,总损失函数包括分类损失函数和回归损失函数;
A)分类损失Lcls,计算为:
Figure BDA0002407444150000096
其中,平衡因子α和调节因子γ为第一、第二可调参数,cobj为像素对应的空间位置中存在目标的置信度,y为置信度对应的监督信号;若目标中心落在该像素时y=1,为正样本,否则y=0,为负样本;
通过以上分类损失函数实现有效的监督学习判断最终特征图上的每个像素对应的空间位置中是否存在目标。
B)回归损失
回归损失由角度回归损失函数、目标相对于当前正样本像素的横向和纵向偏移的回归损失函数和目标尺寸回归损失函数相加而成。
对于角度回归损失函数Lθ,通过添加惩罚项来限制回归量:
Figure BDA0002407444150000097
式中,sin
Figure BDA0002407444150000098
为当前正样本预测的航向角正弦值,sinθ为sin
Figure BDA0002407444150000099
对应的真值,cos
Figure BDA00024074441500000910
为当前正样本预测的航向角余弦值,cosθ为cos
Figure BDA00024074441500000911
对应的真值;
目标相对于当前正样本像素的横向和纵向偏移的回归损失函数Lt如下:
Figure BDA00024074441500000912
式中
Figure BDA00024074441500000913
为目标相对于当前正样本像素的预测横向偏移量,tx
Figure BDA00024074441500000914
对应的真值,
Figure BDA00024074441500000915
为目标相对于当前正样本像素的预测纵向偏移量,ty
Figure BDA00024074441500000916
对应的真值,Lt为相对像素偏移回归损失函数;
对于目标尺寸回归损失函数Lsize,有如下表达形式:
Figure BDA0002407444150000101
式中
Figure BDA0002407444150000102
为当前正样本对应的目标的长度预测值,l为
Figure BDA0002407444150000103
对应的真值,
Figure BDA0002407444150000104
为当前正样本对应的目标的宽度预测值,w为
Figure BDA0002407444150000105
对应的真值;
上述Lreg()表示回归损失函数,具体采用以下公式计算:
Figure BDA0002407444150000106
式中,a为被代入回归损失函数的自变量;
最终的回归损失Lreg计算为:
Lreg=λ1Lθ2Lt3Lsize
式中,λ1为角度回归损失函数的可调因子,λ2为相对像素偏移回归损失函数的可调因子,λ3为目标尺寸回归损失函数的可调因子;
通过以上回归损失函数实现了有效的监督对目标的尺寸、角度和定位参数的估计。
C)总损失
总损失L包含分类损失和回归损失,如下表达式:
Figure BDA0002407444150000107
式中,M为最终特征图中像素的个数,Lcls,m为第m个像素对应的分类损失,N为正样本的像素个数,Lreg,n为第n个正样本对应的回归损失,λ0为分类损失的可调因子,m为M的遍历序号,n为N的遍历序号。
所述步骤6)中,从最终特征图提取出目标的位置、尺寸和朝向是指:
对于最终特征图上的每个像素具有的参数向量(cobj,tx,ty,l,w,sinθ,cosθ),对最终特征图上的每个像素进行如下操作:
若像素的目标置信度cobj大于目标判别阈值thresCobj,则最终特征图的当前像素对应的空间位置存在目标,计算目标的中心位置[centerXobj,centerYobj]:
Figure BDA0002407444150000108
其中,centerXp和centerYp分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标,tx,ty分别表示目标的中心相对于该像素的横向和纵向偏移;l,w为目标的长宽,θ为目标的朝向角,
Figure BDA0002407444150000109
Figure BDA00024074441500001010
其中atan2为反正切函数,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值;
若像素的目标置信度cobj小于目标判别阈值thresCobj,则最终特征图的当前像素对应的空间位置不存在目标;提取所有目标置信度cobj大于目标判别阈值thresCobj的像素回归出的目标的位置、尺寸和朝向,最终提取当前帧点云所包含的目标的位置、尺寸和朝向。
本发明在图像及其对应的点云和标注的支持下,可以获得点云中目标的初始标注。将获得的初始标注利用投影标注补全法补全图像中看不到但点云中能够扫描到的目标的标注,最终获得补全的目标检测真值。这样能针对对较大遮挡目标标注不全的含连续帧点云的已知数据集,利用投影标注补全法补全目标检测真值。
本发明同时构建轻量级网络结构MADet;将多帧时序点云通过配准匹配到当前帧点云的点云坐标系中,对配准后的多帧时序点云做体素化处理生成多帧鸟瞰图;将多帧鸟瞰图输入网络结构MADet中的特征提取模块,对各帧鸟瞰图分别提取特征生成多帧初始特征图;将多帧初始特征图输入到网络结构MADet中的特征描述模块,对各帧初始特征图生成对应的特征描述,再对各帧特征描述分别生成对应的特征权重图;将多帧初始特征图和特征权重图输入网络结构MADet中的加权模块,利用特征权重图对多帧初始特征图加权并融合,获得融合特征图;将融合特征图输入到网络结构MADet中的目标检测模块,使用特征金字塔对融合特征图多尺度特征融合,在最终特征图上回归目标的位置、尺寸和朝向。针对网络结构中参数的参数学习,设置总损失函数对各个输出进行监督训练。
与背景技术相比,本发明具有的有益效果是:
1)本发明能有效融合多帧时序点云,达到致密化点云和减弱遮挡的效果,大大提升检测性能;
2)本发明能有效在多帧的初始特征层自适应对齐和加权,大大减小动态目标在帧间运动时产生的拖影所带来的影响,同时也可以减小配准误差的影响;
3)本发明通过补全不全的标注,改善了相机和激光雷达视野存在一定差异的问题,防止检测正确的正样本被错判,同时扩充了已知数据集中的训练样本,避免了人工在激光雷达上直接标注的繁琐工作;
4)本发明不依赖彩色相机、红外相机等二维传感器,因此检测结果不受光照条件的影响,同时也不需要多传感器数据融合,为单阶段任务;
5)本发明网络结构精简,相比其他深度学习算法运算量小,运行效率高,实时性强;
综合来说,本发明补全了标注,纠正了误判误检的问题,同时扩大了训练样本,是单阶段任务,网络结构精简,运算量小,运行效率高,实时性强,有效融合多帧时序点云,达到致密化点云和减弱遮挡的效果,有效在多帧的初始特征图自适应对齐和加权,大大减小动态目标在帧间运动时产生的拖影和配准误差所带来的影响,提高了3D目标实时检测的效率和精度。
附图说明
图1是本发明方法的流程图。
图2是针对KITTI RAW数据集,以车辆类别为例,使用投影标注补全法补全标注后,在鸟瞰视角下显示点云和补全的标注的结果示意图,其中白色框为补全标注前所有标注对应的标注框,黑色框为补全后新增的标注对应的标注框,标注框的序号为当前目标的追踪序号,英文为对应的类别;
图3是MADet网络结构示意图;
图4是对KITTI RAW数据集中连续5帧时序点云配准前后的示意图,左图为配准前的示意图,右图为配准后的示意图;
图5是对KITTI RAW数据集中连续5帧点云做体素化处理后生成5帧鸟瞰图的示意图;
图6是MADet网络结构中特征描述模块的示意图;
图7是在KITTI RAW数据集下以检测车辆为例的目标检测结果示意图,其中黑色框表示目标检测真值,白色框为使用训练好的MADet网络结构预测的目标检测结果。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图1的流程图所示,本发明方法的实施例及其实施过程如下:
以KITTI RAW公开数据集作为已知数据集和检测车辆目标为例,来表述融合多帧时序点云的激光雷达3D实时目标检测的思想与具体实施步骤。
实施例的点云及其未补全的标注均来自KITTI RAW公开数据集。
步骤一:对KITTI RAW公开数据集的所有序列实施发明之(1.1)~(1.3),针对车辆目标,车辆目标具体包括小轿车(Car)和大卡车(Van)这两类,对KITTI RAW公开数据集的每个序列做如下处理:由标注获得每帧点云内所有车辆的标注框的角点坐标,然后根据差分GPS真值获得当前序列所有前一帧点云的点云坐标系向后一帧点云的点云坐标系转换的旋转矩阵Rn-1,n和平移矩阵tn-1,n,从最后一帧点云开始,将后一帧点云包含的所有标注框依次利用旋转矩阵和平移矩阵从后一帧点云向前一帧点云投影。取预设的阈值个数thresnum=3,横向检测范围的范围参数thresXrange=30m,纵向检测范围的范围参数thresYrange=60m,如果后一帧点云中的一个标注框向前一帧点云投影后,标注框内的3D激光雷达点个数小于预设的阈值个数thresnum,或该标注框超出预设的横向检测范围(-thresXrange,thresXrange),或该标注框超出预设的纵向检测范围(0,thresYrange),则忽略该标注框。取预设的交并比阈值thresisObj=0.1,然后以未被忽略的标注框作为预测框,以前一帧点云本身具有的标注框作为真值框,通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标,如果交并比IoU大于预设的交并比阈值thresisObj,且预测框和真值框的标注类别相同,则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标,此时由于该目标已在前一帧点云的目标检测真值中,因此不利用该目标补全前一帧点云的目标检测真值;若交并比IoU小于预设的交并比阈值thresisObj,则认为发现了漏标注的目标,将预测框对应的目标的标注加入到前一帧点云的目标检测真值中,目标检测真值是指点云所包含目标的标注的集合,从而对目标检测真值进行补全。针对KITTI RAW数据集,以车辆类别为例,使用投影标注补全法补全标注后的结果如图2所示,其中白色框为补全标注前所有标注对应的标注框,黑色框为补全后新增的标注对应的标注框,标注框的序号为当前目标的追踪序号,英文为对应的类别;
步骤二:将KITTI RAW公开数据集人为划分成训练集和测试集。训练集包括24个序列,测试集包括13个序列,训练集和测试集之间没有交集。对训练集中的每帧点云,执行步骤三到步骤五。
步骤三:对当前帧点云实施发明之(2)。将当前帧点云和前4帧点云筛除打到地面的3D激光雷达点后,利用(2)中的最小化误差函数方法获得当前帧点云相对于前4帧点云中的每一帧点云的预测旋转矩阵
Figure BDA0002407444150000131
和预测平移矩阵
Figure BDA0002407444150000132
将前4帧点云中的所有3D激光雷达点通过相应的预测旋转矩阵和预测平移矩阵配准到当前帧点云的点云坐标系下,完成对于连续5帧点云配准到当前帧点云的点云坐标系中,配准前的结果如图4左图所示,配准后的结果如图4右图所示。
步骤四:对步骤三所述配准后的连续5帧点云分别实施发明之(3)。将当前帧点云和前4帧点云分别做体素化处理,共生成5帧鸟瞰图,取:
gridx=0.1m,gridy=0.1m,gridz=0.2m
Xoffset=-28.8m,Yoffset=0,Zoffset=-2m
thresXsearch=28.8m,thresYsearch=51.2m
thresZsearch1=2m,thresZsearch2=1m
由上述参数可计算出每帧点云经过体素化处理生成的鸟瞰图为512×576×15的二进制张量,连续5帧点云共生成512×576×(15×5)的5帧鸟瞰图,生成的鸟瞰图如图5所示。
步骤五:对步骤四所述的由连续5帧点云体素化生成的5帧鸟瞰图实施发明之(4)。将5帧鸟瞰图输入到MADet网络结构的特征提取模块,使用三个连续的卷积池化结构对每帧鸟瞰图分别提取特征,取m=64,对每帧鸟瞰图可得到8倍降采样的初始特征图。输入的每帧鸟瞰图大小为512×576×15,输出的每帧初始特征图的大小为64×72×128。然后将5帧初始特征图输入到MADet网络结构的特征描述模块,生成对应各帧初始特征图的特征描述,使用共享参数的3层卷积层对各帧初始特征图的每个像素提取1028维的特征描述向量。输入的各帧初始特征图大小为64×72×128,输出的各帧特征描述的大小为64×72×1028。利用各帧特征描述间的余弦相似度衡量其对应的初始特征图之间的相似度,并由该相似度计算特征权重图,每帧特征描述对应生成64×72×1的特征权重图,如图6所示。将5帧初始特征图及其对应的5帧特征权重图输入到MADet网络结构的加权模块,使用特征权重图对对应的初始特征图加权融合,生成融合特征图,融合特征图的大小为64×72×128。然后将融合特征图输入到MADet网络结构的目标检测模块。目标检测模块对融合特征图依次进行两次降采样和升采样,在64×72,32×36和16×18这3种分辨率上进行多尺度特征融合,在分辨率为64×72的最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向,其中最终特征图相对于当前帧点云的视角为鸟瞰视角。对于目标检测问题,最终特征图上的每个像素预测目标的中心落在该像素内时的各个参数,参数个数为7,即最终特征图的大小为64×72×7。目标检测模块输出的最终特征图中的每个像素具有参数向量,参数向量为(cobj,tx,ty,l,w,sinθ,cosθ),分别表示该像素对应的空间位置中存在目标的置信度cobj,目标的中心相对于该像素的横向和纵向偏移tx,ty,目标长宽l,w,以及目标的朝向角
Figure BDA0002407444150000141
其中atan2为反正切函数。
步骤六:利用训练集中的所有序列包含的所有点云及其对应的补全后的标注,实施发明之(5)。设置总损失函数,取:
α=0.25,γ=2,λ0=0.1,λ1=2,λ2=2,λ3=3
进行数据增强:先对随机选取的2帧点云进行[-5m,-5m]范围的随机水平偏移,[0.8,1.2]比例的随机尺度变换和[-45°,45°]的随机水平旋转,以及[-1°,1°]随机小角度的点云俯仰侧倾变换,然后混合两帧点云。利用总损失函数对每帧点云检测获得的最终特征图计算总损失,训练MADet网络结构中的各个参数以最小化该总损失达到监督学习的效果。训练过程具体为:用NVIDIA GTX1080Ti GPU和Intel i7 CPU进行训练。使用Adam优化器,动量为0.9,批大小设置为4。设定初始学习率为0.001,衰减步长为150k,衰减系数为0.5。共迭代训练40个轮次,此时在训练集上损失函数基本保持不变,已经收敛。
步骤七:利用测试集中的所有序列包含的所有点云、步骤六中已完成训练的所有参数和MADet网络结构,实施发明之(6)。将训练完成的所有参数的参数值载入MADet网络结构中,以测试集中的所有序列包含的每帧点云模拟激光雷达实时采集的待测点云,按时序依次输入到完成载入的MADet网络结构中,对于输入的每帧点云都会输出最终特征图。取目标判别阈值thresCobj=0.5,对最终特征图上的每个像素进行如下操作:若像素的目标置信度cobj大于目标判别阈值thresCobj,则认为最终特征图的当前像素对应的空间位置存在目标,目标的中心位置[centerXobj,centerYobj]计算方式是:
Figure BDA0002407444150000151
其中centerXp和centerYp分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标,tx,ty分别表示目标的中心相对于该像素的横向和纵向偏移;目标的长宽为l,w、以及目标的朝向角为θ,
Figure BDA0002407444150000152
其中atan2为反正切函数,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值。若像素的目标置信度cobj小于目标判别阈值thresCobj,则认为最终特征图的当前像素对应的空间位置不存在目标。提取所有目标置信度cobj大于目标判别阈值thresCobj的像素回归出的目标的位置、尺寸和朝向,即可提取当前帧点云所包含的目标的位置、尺寸和朝向。部分目标检测结果如图7所示,其中黑色框表示目标检测真值,白色框为使用训练好的MADet网络结构预测的目标检测结果。
利用KITTI RAW公开数据集中人为划分出的测试集来评估本方法的效果。比较单帧点云检测使用MODet-tiny网络结构方法、融合多帧时序点云但未使用特征描述模块和加权模块的方法和融合多帧时序点云且使用特征描述模块和加权模块的使用MADet网络结构方法(MADet网络结构示意图如图3所示)在不同难度下的平均精度。
表2 测试集中不同算法的平均精度比较
Figure BDA0002407444150000153
Figure BDA0002407444150000161
由上表2可以看出,使用融合了5帧时序点云的方法在不同难度下的平均精度都高于单帧点云检测的精度。其中使用特征描述模块和加权模块的方法可以很好地减轻运动目标特征不对齐的影响,相对于其他方法都具有较高的精度。
实验采用一块NVIDIA GTX1080Ti GPU和一块Intel i7 CPU进行训练和测试,采用MODet-tiny网络结构平均每帧点云检测仅耗时12ms,采用的融合多帧时序点云的MADet网络结构融合了5帧点云,每次检测仅耗时59ms,所以本发明方法的计算代价很小,且实时性高。
可以看出,采用本发明方法能有效地融合多帧时序点云、克服单帧点云的稀疏问题,相比单帧点云检测在各个难度上精度都有显著提升,减小目标遮挡严重和远距离检测问题的影响,具有检测结果不受光照条件影响、检测结果位置精度高的特点,同时,本发明方法计算代价小,可以实时运行。

Claims (7)

1.一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于,包括如下步骤:
1)使用投影标注补全法对具有激光雷达所采集的连续帧点云的已知数据集中漏标注的目标检测真值进行补全;
2)配准多帧时序点云,将多帧时序点云配准到当前帧点云的点云坐标系中;
3)对配准后的多帧时序点云作体素化处理,生成多帧鸟瞰图,鸟瞰图是由体素化处理后获得的体素构成;
4)建立MADet网络结构,通过MADet网络结构实现融合多帧时序点云的目标检测,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向;
5)将已知数据集输入MADet网络结构进行训练,同时设置总损失函数对已知数据集的全部帧点云中通过MADet网络结构回归出的所有目标的位置、尺寸和朝向进行优化监督,获得MADet网络结构中所有参数的参数值;
6)将训练完成的所有参数的参数值载入MADet网络结构中,针对激光雷达实时采集的待测点云输入到MADet网络结构中,输出获得最终特征图,从中提取出目标的位置、尺寸和朝向;
所述步骤4)中,MADet网络结构包括特征提取模块、特征描述模块、目标检测模块和加权模块;特征提取模块和特征描述模块依次连接,特征提取模块和特征描述模块的输出经加权模块连接输入到目标检测模块;特征提取模块是由三个连续的卷积池化模块构成,每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成;将步骤3)获得的多帧鸟瞰图的各帧并行输入特征提取模块获得8倍降采样的多帧初始特征图;
特征描述模块是使用由全卷积网络对特征提取模块输出的各帧初始特征图生成特征描述,并以特征描述计算自适应权重获得特征权重图;
加权模块是对特征权重图和初始特征图加权,然后对加权后的各帧初始特征图进行多帧特征融合生成融合特征图;
所述的目标检测模块是由一个特征金字塔和一个卷积层依次连接构成,特征金字塔是由两个连续的卷积池化模块、一个卷积层、两个连续的反卷积层和一个卷积层依次连接构成,每个卷积池化模块均是由一层卷积层和一层最大池化层依次连接构成;通过目标检测模块对融合特征图利用特征金字塔融合多尺度特征生成最终特征图;
所述的特征描述模块和加权模块具体处理过程为:
S1、特征描述模块处理为:
S1.1、生成各帧初始特征图的特征描述
仅使用共享参数的三层卷积层作为全卷积网络,对特征提取模块输出的多帧初始特征图的每个像素提取16m维的特征向量作为特征描述;m为初始卷积核个数;
S1.2、各帧初始特征图间的相似度计算
将多帧初始特征图各自的特征描述的余弦相似度对比,采用如下公式获得相似度:
Figure FDA0004119878920000021
其中,
Figure FDA0004119878920000022
表示第t帧初始特征图的特征描述在像素坐标p上的特征向量,
Figure FDA0004119878920000023
表示第t-n帧初始特征图的特征描述在像素坐标p上的特征向量,且0≤n≤Q,n表示当前帧点云对应的前第n帧点云的序号,Q表示融合除当前帧外的总点云帧数,st-n(p)表示第t-n帧初始特征图和第t帧初始特征图在像素坐标p上的相似度;
S1.3、由各帧初始特征图间的相似度计算特征权重图
使用各帧初始特征图间的相似度st-n(p)和自然指数e,然后进行归一化处理,得到各帧初始特征图上每个像素的特征权重,计算公式为:
Figure FDA0004119878920000024
式中,0≤j≤Q,wt-n(p)表示第t-n帧初始特征图在像素坐标p下的特征权重;
最后将每帧初始特征图的所有特征权重按初始特征图的像素坐标连接构成特征权重图;
S2、再通过加权模块使用下式对各帧初始特征图加权融合,实现了加权融合各帧初始特征图及其对应的特征权重图生成融合特征图:
Figure FDA0004119878920000025
式中,
Figure FDA0004119878920000026
为融合特征图,Ft-n为第t-n帧初始特征图。
2.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:所述步骤1)中,是针对已知数据集中的每个序列,从每个序列最后一帧点云开始更新漏标注的目标,依次利用后一帧点云包含的每个目标的标注框向前一帧投影补全当前序列的目标检测真值,目标检测真值是指一帧点云所包含目标的标注的集合;具体为:
1.1)预处理点云和已知数据集的标注
针对每帧点云建立点云坐标系:每帧点云均由3D激光雷达点构成,每个3D激光雷达点p的坐标由三个坐标轴表示,记为p=[x,y,z],其中水平向前为y轴的正方向,竖直向上为z轴的正方向,水平向前的右方向为x轴的正方向,该帧点云的坐标原点O=[0,0,0]为激光雷达的发射点;
已知数据集里面对每个目标的标注为groundTruthbox=[obj,xcenter,ycenter,Zcenter,L,W,H,θyaw],其中各个参数均是在该目标对应帧点云的点云坐标系下的标注参数,obj为被标注的目标的类别,以下简称其为标注类别,[xcenter,ycenter,Zcenter]为被标注的目标的中心坐标,[L,W,H]为被标注的目标的长、宽和高,θyaw为被标注的目标的朝向角;
在获得第n帧点云坐标系下所有被标注的目标的情况下,以目标的3D包围框作为标注框,通过坐标变换,计算出第n帧点云坐标系下所有被标注的目标的标注框的8个角点的坐标Pn并作为角点坐标;
1.2)同一标注框在前后帧点云的点云坐标系下的角点坐标变换
通过下式计算第n帧点云的点云坐标系下的所有标注框的角点坐标Pn在第(n-1)帧点云的点云坐标系下的角点坐标Pn-1
Pn-1=Rn-1,nPn+tn-1,n
其中,Rn-1,n和tn-1,n分别表示第(n-1)帧点云的点云坐标系向第n帧点云的点云坐标系转换的旋转矩阵和平移矩阵;
1.3)标注框的补全与筛选
利用步骤1.2)的同一标注框在前后帧点云的点云坐标系下的角点坐标变换的计算方式,从已知数据集中每个序列的最后一帧点云开始,依次用后一帧点云中的所有标注框向前一帧点云投影:
如果后一帧点云中的一个标注框向前一帧点云投影后,标注框内的3D激光雷达点个数小于预设的阈值个数thresnum,或该标注框超出预设的横向检测范围(-thresXrange,thresXrange),或该标注框超出预设的纵向检测范围(0,thresYrange),则忽略该标注框;
然后以未被忽略的投影后的标注框作为预测框,以已知数据集中前一帧点云本身具有的标注框作为真值框,通过计算每一个预测框和每一个真值框的交并比IoU和标注类别来判断是否是同一目标,如果交并比IoU大于预设的交并比阈值thresisobj,且预测框和真值框的标注类别相同,则由后一帧点云投影到前一帧点云的该预测框对应的目标和前一帧点云的该真值框对应的目标是同一目标;
若交并比IoU小于预设的交并比阈值thresisObj,则认为发现漏标注的目标,将所述漏标注的目标加入目标集,将预测框对应的目标的标注作为前一帧点云该新加入的目标的标注,并加入到前一帧点云的目标检测真值中,从而对目标检测真值进行补全。
3.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:所述步骤2)中,具体为:对于前后帧点云,通过最小化如下误差函数来获得第k帧点云和第(k-1)帧点云之间的刚性位姿变换,包括第k帧点云相对于第(k-1)帧点云的预测旋转矩阵
Figure FDA0004119878920000041
和预测平移矩阵:
Figure FDA0004119878920000042
式中,N为前后帧点云之间的3D激光雷达点匹配对数,
Figure FDA0004119878920000043
Figure FDA0004119878920000044
分别代表前后帧点云中对应的最近邻匹配3D激光雷达点的坐标;
然后利用刚性位姿变换将前Q帧点云依次配准至当前帧点云的点云坐标系中,完成对于连续(Q+1)帧的多帧时序点云精确配准到当前帧点云的点云坐标系中。
4.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:所述步骤3)鸟瞰图的具体生成方法是:
针对多帧时序点云的每帧点云,将每帧点云所在空间分割成大小相等的体素,并对每个体素进行二进制表示,每个体素的尺寸为gridx×gridy×gridz其中gridx为体素的预设横向长度,gridy为体素的预设纵向长度,gridz为体素的预设高向长度,完成体素化处理;
然后将单帧点云包含的所有3D激光雷达点投影到各个体素中,对于坐标为p=[x,y,z]的3D激光雷达点投影到的体素的坐标为(row,col,high):
Figure FDA0004119878920000045
Figure FDA0004119878920000046
Figure FDA0004119878920000047
其中,row、col和high分别表示该3D激光雷达点投影到体素的坐标的行号、列号和高号,Xoffset、Yoffset和Zoffset分别表示预设的行、列和高偏移量;
在每帧点云的点云坐标系下建立左右预设范围[-thresXsearch,thresXsearch],前后预设范围[0,thresYsearch],上下预设范围[-thresZsearch1,thresZsearch2]的目标检测范围,将位于目标检测范围内的该帧点云的3D激光雷达点进行体素化处理,由所有体素化处理后的体素构成鸟瞰图,当体素内有3D激光雷达点存在时,体素的数值为1,体素内没有3D激光雷达点时,体素的数值为0。
5.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:
所述的目标检测模块是使用特征金字塔对融合特征图进行多尺度特征融合,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向,采用以下方式进行处理:对融合特征图通过两个卷积池化模块进行两次降采样和升采样,然后在三种分辨率上进行多尺度特征融合,在最终特征图上回归当前帧点云中所有目标的位置、尺寸和朝向,其中最终特征图相对于当前帧点云的视角为鸟瞰视角;所述的目标检测模块输出的最终特征图中的每个像素具有参数向量,参数向量为(cobj,tx,ty,l,w,sinθ,cosθ),分别表示该像素对应的空间位置中存在目标的置信度cobj、目标的中心相对于该像素的横向和纵向偏移tx,ty、目标的长宽l,w、以及目标的朝向角θ,
Figure FDA0004119878920000051
其中aa2为反正切函数,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值。
6.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:
所述的步骤5)中,总损失函数包括分类损失函数和回归损失函数;
A)分类损失Lcs,计算为:
Figure FDA0004119878920000052
其中,平衡因子α和调节因子γ为第一、第二可调参数,cobj为像素对应的空间位置中存在目标的置信度,y为置信度对应的监督信号;若目标中心落在该像素时y=1,为正样本,否则y=0,为负样本;
B)回归损失
对于角度回归损失函数Lθ
Figure FDA0004119878920000053
式中,
Figure FDA0004119878920000058
为当前正样本预测的航向角正弦值,sinθ为
Figure FDA0004119878920000055
对应的真值,
Figure FDA0004119878920000056
为当前正样本预测的航向角余弦值,cosθ为
Figure FDA0004119878920000057
对应的真值;
目标相对于当前正样本像素的横向和纵向偏移的回归损失函数Lt如下:
Figure FDA0004119878920000061
式中
Figure FDA0004119878920000062
为目标相对于当前正样本像素的预测横向偏移量,tx
Figure FDA0004119878920000063
对应的真值,
Figure FDA0004119878920000064
为目标相对于当前正样本像素的预测纵向偏移量,ty
Figure FDA0004119878920000065
对应的真值,Lt为相对像素偏移回归损失函数;
对于目标尺寸回归损失函数Lsize,有如下表达形式:
Figure FDA0004119878920000066
式中
Figure FDA0004119878920000067
为当前正样本对应的目标的长度预测值,l为
Figure FDA00041198789200000611
对应的真值,w为当前正样本对应的目标的宽度预测值,w为w对应的真值;
上述Lreg()表示回归损失函数,具体采用以下公式计算:
Figure FDA0004119878920000068
式中,a为被代入回归损失函数的自变量;
最终的回归损失Lreg计算为:
Lreg=λ1Lθ2Lt3Lsize
式中,λ1为角度回归损失函数的可调因子,λ2为相对像素偏移回归损失函数的可调因子,λ3为目标尺寸回归损失函数的可调因子;
C)总损失
总损失L包含分类损失和回归损失,如下表达式:
Figure FDA0004119878920000069
式中,M为最终特征图中像素的个数,Lcs,m为第m个像素对应的分类损失,N为正样本的像素个数,Lreg,n为第n个正样本对应的回归损失,λ0为分类损失的可调因子,m为M的遍历序号,n为N的遍历序号。
7.根据权利要求1所述的一种融合多帧时序点云的激光雷达3D实时目标检测方法,其特征在于:所述步骤6)中,从最终特征图提取出目标的位置、尺寸和朝向是指:对于最终特征图上的每个像素具有的参数向量(cobj,tx,ty,l,w,sinθ,cosθ),对最终特征图上的每个像素进行如下操作:
若像素的目标置信度cobj大于目标判别阈值thresC bj,则最终特征图的当前像素对应的空间位置存在目标,计算目标的中心位置[centerXobj,centerYobj]:
Figure FDA00041198789200000610
其中,centerXp和centerYp分别表示当前像素的中心对应的空间位置在当前帧点云的点云坐标系下的x轴和y轴的坐标,tx,ty分别表示目标的中心相对于该像素的横向和纵向偏移;l,w为目标的长宽,θ为目标的朝向角,
Figure FDA0004119878920000071
Figure FDA0004119878920000072
其中aa2为反正切函数,sinθ为目标朝向角的正弦值,cosθ为目标朝向角的余弦值;
提取所有目标置信度cobj大于目标判别阈值thresC bj的像素回归出的目标的位置、尺寸和朝向,最终提取当前帧点云所包含的目标的位置、尺寸和朝向。
CN202010165899.8A 2020-03-11 2020-03-11 一种融合多帧时序点云的激光雷达3d实时目标检测方法 Active CN111429514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165899.8A CN111429514B (zh) 2020-03-11 2020-03-11 一种融合多帧时序点云的激光雷达3d实时目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165899.8A CN111429514B (zh) 2020-03-11 2020-03-11 一种融合多帧时序点云的激光雷达3d实时目标检测方法

Publications (2)

Publication Number Publication Date
CN111429514A CN111429514A (zh) 2020-07-17
CN111429514B true CN111429514B (zh) 2023-05-09

Family

ID=71547711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165899.8A Active CN111429514B (zh) 2020-03-11 2020-03-11 一种融合多帧时序点云的激光雷达3d实时目标检测方法

Country Status (1)

Country Link
CN (1) CN111429514B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860695A (zh) * 2020-08-03 2020-10-30 上海高德威智能交通系统有限公司 一种数据融合、目标检测方法、装置及设备
CN111967373B (zh) * 2020-08-14 2021-03-30 东南大学 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法
CN112101252B (zh) * 2020-09-18 2021-08-31 广州云从洪荒智能科技有限公司 一种基于深度学习的图像处理方法、系统、设备及介质
CN112372631B (zh) * 2020-10-05 2022-03-15 华中科技大学 一种大型复杂构件机器人加工的快速碰撞检测方法及设备
CN112288667A (zh) * 2020-11-02 2021-01-29 上海智驾汽车科技有限公司 一种基于激光雷达与摄像头融合的三维目标检测方法
CN113759338B (zh) * 2020-11-09 2024-04-16 北京京东乾石科技有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112418084B (zh) * 2020-11-23 2022-12-16 同济大学 一种基于点云时序信息融合的三维目标检测方法
CN112614226A (zh) * 2020-12-07 2021-04-06 深兰人工智能(深圳)有限公司 点云多视角特征融合方法及装置
CN113012063B (zh) * 2021-03-05 2024-02-27 北京未感科技有限公司 一种动态点云修复方法、装置及计算机设备
CN113052109A (zh) * 2021-04-01 2021-06-29 西安建筑科技大学 一种3d目标检测系统及其3d目标检测方法
CN113140005B (zh) * 2021-04-29 2024-04-16 上海商汤科技开发有限公司 目标对象定位方法、装置、设备及存储介质
CN113341419B (zh) * 2021-05-25 2022-11-01 成都信息工程大学 基于VAN-ConvLSTM的天气外推方法及系统
CN113706686B (zh) * 2021-07-09 2023-07-21 苏州浪潮智能科技有限公司 一种三维点云重建结果补全方法及相关组件
CN113706480B (zh) * 2021-08-13 2022-12-09 重庆邮电大学 一种基于关键点多尺度特征融合的点云3d目标检测方法
CN113673444B (zh) * 2021-08-19 2022-03-11 清华大学 一种基于角点池化的路口多视角目标检测方法及系统
CN113741438B (zh) * 2021-08-20 2024-03-26 上海高仙自动化科技发展有限公司 路径规划方法、装置、存储介质、芯片及机器人
CN113538523B (zh) * 2021-09-17 2021-12-31 魔视智能科技(上海)有限公司 车位检测跟踪方法、电子设备及车辆
CN113902897B (zh) * 2021-09-29 2022-08-23 北京百度网讯科技有限公司 目标检测模型的训练、目标检测方法、装置、设备和介质
CN114066937B (zh) * 2021-11-06 2022-09-02 中国电子科技集团公司第五十四研究所 一种大尺度遥感影像多目标跟踪方法
CN113870318B (zh) 2021-12-02 2022-03-25 之江实验室 一种基于多帧点云的运动目标检测系统和方法
CN114241384B (zh) * 2021-12-20 2024-01-19 北京安捷智合科技有限公司 连续帧图片标注方法、电子设备及存储介质
CN114692720B (zh) * 2022-02-25 2023-05-23 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114879153A (zh) * 2022-06-08 2022-08-09 中国第一汽车股份有限公司 雷达参数的标定方法、装置和车辆
CN115063739B (zh) * 2022-06-10 2023-06-16 嘉洋智慧安全科技(北京)股份有限公司 异常行为的检测方法、装置、设备及计算机存储介质
CN115082902B (zh) * 2022-07-22 2022-11-11 松立控股集团股份有限公司 一种基于激光雷达点云的车辆目标检测方法
CN115223023B (zh) * 2022-09-16 2022-12-20 杭州得闻天下数字文化科技有限公司 基于立体视觉和深度神经网络的人体轮廓估计方法及装置
CN116129106A (zh) * 2023-04-20 2023-05-16 深圳佑驾创新科技有限公司 一种3d真值获取方法及装置
CN116524442A (zh) * 2023-07-04 2023-08-01 深圳大学 基于视角贡献加权的人群检测方法及相关装置
CN116740669B (zh) * 2023-08-16 2023-11-14 之江实验室 多目图像检测方法、装置、计算机设备和存储介质
CN116740668B (zh) * 2023-08-16 2023-11-14 之江实验室 三维目标检测方法、装置、计算机设备和存储介质
CN116778262B (zh) * 2023-08-21 2023-11-10 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN116883960B (zh) * 2023-09-07 2023-12-01 安徽蔚来智驾科技有限公司 目标检测方法、设备、驾驶设备和介质
CN117252899A (zh) * 2023-09-26 2023-12-19 探维科技(苏州)有限公司 目标跟踪方法和装置
CN116984628B (zh) * 2023-09-28 2023-12-29 西安空天机电智能制造有限公司 一种基于激光特征融合成像的铺粉缺陷检测方法
CN117452392B (zh) * 2023-12-26 2024-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种用于车载辅助驾驶系统的雷达数据处理系统和方法
CN117726886A (zh) * 2024-02-08 2024-03-19 华侨大学 鲁棒的激光雷达点云地面点提取方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105946853A (zh) * 2016-04-28 2016-09-21 中山大学 基于多传感器融合的长距离自动泊车的系统及方法
CN110221603A (zh) * 2019-05-13 2019-09-10 浙江大学 一种基于激光雷达多帧点云融合的远距离障碍物检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11500099B2 (en) * 2018-03-14 2022-11-15 Uatc, Llc Three-dimensional object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105946853A (zh) * 2016-04-28 2016-09-21 中山大学 基于多传感器融合的长距离自动泊车的系统及方法
CN110221603A (zh) * 2019-05-13 2019-09-10 浙江大学 一种基于激光雷达多帧点云融合的远距离障碍物检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张易 ; 项志宇 ; 乔程昱 ; 陈舒雅 ; .基于3维点云鸟瞰图的高精度实时目标检测.机器人.2019,(02),全文. *
郑少武 ; 李巍华 ; 胡坚耀 ; .基于激光点云与图像信息融合的交通环境车辆检测.仪器仪表学报.2019,(12),全文. *

Also Published As

Publication number Publication date
CN111429514A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429514B (zh) 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111476822B (zh) 一种基于场景流的激光雷达目标检测与运动跟踪方法
CN111798475B (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
Mancini et al. Fast robust monocular depth estimation for obstacle detection with fully convolutional networks
Yu et al. Vehicle detection and localization on bird's eye view elevation images using convolutional neural network
CN112258618A (zh) 基于先验激光点云与深度图融合的语义建图与定位方法
CN111507222B (zh) 一种基于多源数据知识迁移的三维物体检测框架
Vaquero et al. Dual-branch CNNs for vehicle detection and tracking on LiDAR data
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
CN113267761B (zh) 激光雷达目标检测识别方法、系统及计算机可读存储介质
CN113743385A (zh) 一种无人船水面目标检测方法、装置及无人船
Zhang et al. PSNet: Perspective-sensitive convolutional network for object detection
US20240013505A1 (en) Method, system, medium, equipment and terminal for inland vessel identification and depth estimation for smart maritime
CN113744315A (zh) 一种基于双目视觉的半直接视觉里程计
Wen et al. Research on 3D point cloud de-distortion algorithm and its application on Euclidean clustering
CN114358133B (zh) 一种基于语义辅助双目视觉slam检测回环帧的方法
CN115100741A (zh) 一种点云行人距离风险检测方法、系统、设备和介质
CN113255779B (zh) 多源感知数据融合识别方法、系统及计算机可读存储介质
Shi et al. Obstacle type recognition in visual images via dilated convolutional neural network for unmanned surface vehicles
Li et al. 6DoF-3D: Efficient and accurate 3D object detection using six degrees-of-freedom for autonomous driving
CN116246096A (zh) 一种基于前景强化知识蒸馏的点云3d目标检测方法
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
Zhang et al. Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image
Yang et al. Analysis of Model Optimization Strategies for a Low-Resolution Camera-Lidar Fusion Based Road Detection Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant