CN115937520A - 基于语义信息引导的点云运动目标分割方法 - Google Patents

基于语义信息引导的点云运动目标分割方法 Download PDF

Info

Publication number
CN115937520A
CN115937520A CN202211608902.4A CN202211608902A CN115937520A CN 115937520 A CN115937520 A CN 115937520A CN 202211608902 A CN202211608902 A CN 202211608902A CN 115937520 A CN115937520 A CN 115937520A
Authority
CN
China
Prior art keywords
point cloud
image
segmentation
semantic
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211608902.4A
Other languages
English (en)
Inventor
顾硕
姚苏凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202211608902.4A priority Critical patent/CN115937520A/zh
Publication of CN115937520A publication Critical patent/CN115937520A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义信息引导的点云运动目标分割方法,包括步骤:1)对运动点云样本进行增强,设置随机数控制是否间隔一帧取连续两帧的样本;2)对于所取的两帧点云数据,通过球面投影分别得到对应的二维图像,计算距离图像、残差图像;3)将两帧二维图像,输入预训练语义分割网络,得到对应语义特征图,将前一帧语义特征图对齐到当前帧坐标系;4)以语义信息为引导,设计交叉融合模块,将距离图像、残差图像以及语义特征图相融,输入运动目标分割网络,得到当前帧图像的运动分割结果;5)将分割结果进行后处理,得到每帧点云的运动状态。本发明首次将语义信息引入点云运动目标分割任务,能够很好地兼顾分割效果和分割效率。

Description

基于语义信息引导的点云运动目标分割方法
技术领域
本发明属于三维点云与模式识别领域,具体涉及一种基于语义信息引导的点云运动目标分割方法。
背景技术
随着自动驾驶的不断发展,环境感知任务变得尤为重要。其中,区别周围环境中运动和静止的目标更是自动驾驶领域中一项重要任务。由于缺乏带有真值标注的激光雷达运动分割数据,以往的运动目标分割方法主要是基于相机图像。近年来,随着SemanticKITT运动目标分割数据集的发布,基于激光雷达的运动目标分割任务才逐渐受到越来越多的关注。
当下对于激光雷达点云的研究,更多是进行语义分割处理,依靠单帧点云中物体的轮廓来学习点对应的类别特征,从而得出点云中物体为可动或者不可动,但是无法估计物体当前的运动状态。考虑到运动目标分割的精度对于导航安全、位姿估计、地图构建和路径规划等任务的影响,探索一个能够同时保证可靠性和实时性的运动目标分割方法是一项必要并且具有挑战性的任务。此外,现有的基于激光雷达的运动目标分割方法大多只关注运动和静态目标的分离,忽视了整个自动驾驶系统的完整性以及语义分割和运动目标分割之间的相关性,单独从头执行运动目标分割任务,造成了计算资源的浪费,难以同时保障精确度和实时性。
对于大多数场景而言,相较于静态目标,动态目标往往占比很小,这种不平衡的分布也增大了基于深度学习的运动目标分割任务的难度,让分割的准确性受到了严重影响。
发明内容
本发明的目的在于提出一种基于语义信息引导的点云运动目标分割方法,该方法在提高准确率的情况下,同时满足了实时性需求。
实现本发明目的的技术解决方案为:第一方面,本发明提供一种基于语义信息引导的点云运动目标分割方法,包括以下步骤:
步骤1,对备好的激光雷达点云数据训练集随机进行数据增强;生成一个随机数,确定此组训练数据是否间隔一帧取;
步骤2,将激光雷达点云数据通过球面投影转化到二维图像,得到对应的距离图像和残差图像;
步骤3,以距离图像为输入,基于预训练语义分割网络,得到语义特征图,并将前一帧语义特征图对齐到当前帧坐标系;
步骤4,通过交叉融合模块,将距离图像、残差图像以及语义特征图相融,输入运动目标分割深度学习网络,得到当前帧运动状态预测结果,与标注真值计算损失,迭代训练,直至收敛;
步骤5,通过KNN后处理,将预测结果由二维图像投影回点云,得到点云中每个点的运动状态预测结果。
第二方面,本发明提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。
与现有技术相比,本发明提出的技术方案有如下优点:(1)首次在激光雷达点云运动目标分割任务中引入语义分割信息,建立运动目标分割任务与语义分割任务之间的相关性;利用预训练语义分割网络模型得到的点云语义信息,为分割运动目标提供基础空间几何信息,可以使用较其他方法更少的连续数据帧,即本发明只需要使用连续两帧,就能够在提升分割效果的同时满足实时性;(2)在图像卷积的过程中,传统方法只利用图像相邻像素的特征向量做对应的卷积操作,忽略了点云投影到二维图像前,点云中点与点之间的欧几里得距离,本发明在使用图像做卷积之前,引入了交叉融合模块,将周围3x3矩形范围内的像素所对应点与中心像素所对应点之间的欧几里得距离作为输入,通过多层感知机MLP学习到周围点由距离差异对于中心点贡献权重的变化,进而影响中心点的特征向量;(3)在动态样本与静态样本数据集不平衡的状态下,本发明提出了跨帧间隔取两帧的方式来引入不同速度的运动样本,增加了运动样本的多样性,使得训练出来的模型能够更好地适应不同的场景。
附图说明
图1是本发明一种基于语义信息引导的点云运动目标分割方法的流程示意图。
图2是本发明一种基于语义信息引导的点云运动目标分割方法的交叉融合模块示意图。
具体实施方式
本发明提出一种基于语义信息引导的点云运动目标分割方法,包括以下几个步骤:
步骤1,对备好的激光雷达点云数据训练集随机进行数据增强;生成一个随机数,确定此组训练数据是否间隔一帧取,以此增加训练数据的多样性,避免运动数据过于单一;
步骤2,取一组点云数据PointCloud0(当前帧点云数据)、PointCloud1(前一帧点云数据)通过球面投影转化到二维图像,得到对应的距离图像RangeImage0、RangeImage1和残差图像ResidualImage;取PointCloud0对应真值标签PointCloudLables0,投影到二维图像ImageLabelSet0;
步骤3,以距离图像RangeImage0、RangImage1为输入,基于预训练语义分割网络SalsaNext提取语义特征,得到特征图SemanticFeatures0、SemanticFeatures1,数据格式为[h,w,20],将前一帧语义特征图对齐到当前帧坐标系,生成新语义特征图SemanticFeatures1′;
步骤4,通过交叉融合模块,将距离图像、残差图像以及语义特征图相融,输入运动目标分割网络MOSNet,得到当前帧运动状态预测概率特征图PredictSet,设置最大迭代次数为30,迭代训练,直至收敛,保存模型,进行测试验证;
步骤5,根据上述训练模型设置网络参数,输入待测试数据,得到当前帧点云投影到二维图像时的运动状态概率特征图PredictSet,由此得到运动目标分割结果ImageResult,通过KNN(K-Nearest Neighbor)后处理,将ImageResult由二维图像投影回三维点云,得到当前帧点云中每个点的运动状态预测结果PointCloudResult。
进一步的,步骤1中,数据增强,以每两帧点云数据为一组,取一组点云数据有两种方式:一种方式为设置间隔一帧取两帧连续点云数据(如取同一序列中第一帧和第三帧数据作为一组),概率为0.5;另一种方式为不间隔,直接取连续两帧连续点云数据(如取同一序列中第一帧和第二帧数据作为一组),概率也为0.5,以生成随机数Random的方式来控制取一组点云数据的方式,以此增加运动点云的多样性。
进一步的,步骤2中,将前一帧点云PointCloud1对齐到当前帧坐标系,得到PointCloud1′,计算公式如下:
Figure BDA0003999737760000031
其中,(x1,y1,z1)表示前一帧点云数据PointCloud1原始坐标值,
Figure BDA0003999737760000034
表示前一帧点云与当前帧点云的相对位姿,(x′1,y′1,z1′)表示前一帧点云转换到当前帧坐标系所构成新点云PointCloud1′的坐标值。
进一步的,步骤2中,每帧点云数据格式为[n,4](n表示该帧点云中一共有n个点,4表示x,y,z,i四个特征通道,其中x,y,z分别表示点沿x,y,z三个坐标系下的坐标,i表示点的反射强度信息),通过球面投影转化到二维图像[h,w,5](h表示二维图像的高度,由激光雷达线数决定;w表示二维图像的宽度;5表示每个像素对应的r,x,y,z,i五个特征通道,其中r表示点到激光雷达中心的欧几里得距离,
Figure BDA0003999737760000032
球面投影公式如下:
Figure BDA0003999737760000033
其中,(u,v)表示点由三维空间坐标值(x,y,z)投影到距离图像上的坐标,θyaw和θpitch分别表示点的偏航角和俯仰角,H和W分别表示距离图像的高度和宽度,f=fup-fdown表示激光雷达垂直视场角。
进一步的,步骤2中,连续两帧点云PointCloud0、PointCloud1′转化到距离图像,分别对应RangeImage0与RangeImage1′,计算两帧图像之间的残差图像ResidualImage,每个像素点值为当前帧的深度值r0与前一帧的深度值r1′相对差值,数据格式为[h,w,1],计算公式如下:
Figure BDA0003999737760000041
其中,r0和r1′分别表示当前帧图像的r通道值和前一帧对齐到当前坐标系后的r通道值,t1和t2分别为设定的残差阈值,过滤噪声点。
进一步的,步骤3中,所述的预训练语义分割网络模型采用SalsaNext,将距离图像RangeImage0、RangeImage1分别输入语义分割网络,得到当前帧和前一帧图像的语义分割结果SemanticFeatures0、SemanticFeatures1;通过前一帧到当前帧的坐标映射信息,将前一帧图像的语义特征图对齐到当前帧坐标系,生成新语义特征图SemanticFeatures1′;前一帧语义特征图像对齐到当前帧坐标系公式如下:
Figure BDA0003999737760000042
其中,Tr用来保存从前一帧图像坐标系到当前帧坐标系的下标映射信息,将前一帧图像坐标(u1,v1)的语义特征向量映射到当前帧坐标系对应位置(u0,v0)作为其语义特征向量。
进一步的,步骤4中,设计了一个交叉融合模块,将距离图像、残差图像以及语义特征图相融合,得到数据格式为[h,w,46](距离图像[h,w,5];残差图像[h,w,1];当前帧语义特征图[h,w,20];前一帧语义特征图[h,w,20])作为运动目标分割网络的输入,其中运动目标分割网络中交叉融合模块先由距离图像RangeImage0作为输入,通过多层感知机MLP训练得到当前帧图像每个像素点周围3x3范围内相邻像素对其贡献,即根据周围3x3范围内相邻像素与中心像素点物理上的距离差值作为主要影响因素,得到对应的贡献权重,周围3x3范围内相邻像素权重与其对应的特征向量相乘,作为中心点的特征向量,以此得到当前帧图像每个像素点的初始特征向量,输入后续分割网络模块MOSNet,分割头设置为3,即最终类别个数为3(label=0表示未知;label=1表示静止状态;label=2表示运动状态),得到当前帧图像的运动目标分割概率特征图PredictSet,将其与真值标签ImageLabelSet0输入损失函数Cross-Entropy Loss、Lovász-Softmax Loss计算损失值,迭代训练,直至损失函数收敛(设置最大训练迭代次数为epoch=30,epoch对应数值尽可能大),保存训练模型,进而检验测试效果。
进一步的,步骤4中,运动目标分割网络MOSNet包含四个主要组成部分:上下文融合、降采样模块、上采样模块以及分割头;在上下文提取模块完成由初始特征图到高级特征图的抽象;在降采样模块完成特征图分辨率的压缩,在上采样模块通过与降采样模块对称的方式扩大分辨率,最终将图像恢复到原始分辨率;输入数据格式为[h,w,46]的特征图,输出为[h,w,3]格式的不同类别概率图像PredictSet,最终以概率值最大的类别作为所属分割类别,得到格式为[h,w,1]的标签图像ImageResult。
进一步的,步骤5中,基于已训练好的运动目标分割模型,实现了基于点云投影到二维图像上的运动目标分割方法,通过KNN(K-Nearest Neighbor)后处理方式,实现由二维图像分割结果ImageResult投影回三维点云结果PointCloudResult,输入图像数据格式为[h,w,1],输出点云目标分割结果格式为[n,1]。
下面结合附图1-2对本发明作进一步详细描述。以下实施例或者附图用于说明本发明,但不能用来限制本发明的范围。
实施例
如图1所示,本实施例提供一种基于语义信息引导的点云运动目标分割方法,包括以下几个步骤:
步骤1,对备好的训练集随机进行数据增强;生成一个随机数,确定此组训练数据是否间隔一帧取,以此增加训练数据的多样性,避免运动数据过于单一;
三维点云SemanticKITTI运动目标分割数据集包括00-21总共22个点云集合,将00-07和09-10序列作为训练集,08序列作为验证集,11-21序列作为测试集。模型训练过程中,每两帧点云数据为一组,取一组点云数据有两种方式:一种方式为设置间隔一帧取两帧连续点云数据(如取同一序列中第一帧和第三帧数据作为一组),概率为0.5;另一种方式为不间隔,直接取连续两帧连续点云数据(如取同一序列中第一帧和第二帧数据作为一组),概率也为0.5,以生成的随机数Random来控制取一组点云数据的方式。
步骤2,以训练点云集为输入,取一组点云数据PointCloud0(当前帧点云数据)、PointCloud1(前一帧点云数据)通过球面投影转化到二维图像,得到对应的距离图像RangeImage0、RangeImage1和残差图像ResidualImage;取PointCloud0对应真值标签PointCloudLables0,投影到二维图像ImageLabelSet0。
将前一帧点云PointCloud1对齐到当前帧坐标系,得到PointCloud1′,计算公式为:
Figure BDA0003999737760000051
其中,(x1,y1,z1)表示前一帧点云数据PointCloud1原始坐标值,
Figure BDA0003999737760000052
表示前一帧点云与当前帧点云的相对位姿,(x1′,y1′,z1′)表示前一帧点云转换到当前帧坐标系所构成新点云PointCloud1′的坐标值。
球面投影,将点云中每个点映射到二维图像上对应坐标,以点的特征向量表示二维图像对应像素点的初始信息,多个点同时映射到同一个像素点时,只取r值最小,即最近的点。
每帧点云数据格式为[n,4](n表示该帧点云中一共有n个点,4表示x,y,z,i四个特征通道,其中x,y,z分别表示点沿x,y,z三个坐标系下的坐标,i表示点的反射强度信息),通过球面投影转化到二维图像[64,2048,5](64表示二维图像的高度;2048表示二维图像的宽度;5表示每个像素对应的r,x,y,z,i五个特征通道,其中r表示点到激光雷达中心的欧几里得距离,
Figure BDA0003999737760000061
球面投影公式如下:
Figure BDA0003999737760000062
其中,(u,v)表示点由三维空间坐标值(x,y,z)投影到距离图像上的坐标,θyaw和θpitch分别表示点的偏航角和俯仰角,H和W分别表示二维图像的高度64和宽度2048,f=fup-fdown表示激光雷达垂直视场角,图像中每个像素点值由向量{r,x,y,z,i}表示。
连续两帧点云PointCloud0与PointCloud1′转化到距离图像,分别对应RangeImage0与RangeImage1′,由两帧距离图像计算残差图像ResidualImage,每个像素点值为当前帧的深度值r0与前一帧的深度值r1′相对差值,数据格式为[64,2048,1],计算公式如下:
Figure BDA0003999737760000063
其中,r0和r1′分别表示当前帧图像RangeImage0像素点的r通道值和坐标系对齐后前一帧图像RangView1′中相同像素坐标对应的r通道值,t1和t2分别为设定的残差阈值,过滤噪声点,t1=0、t2=0.8。
步骤3,以距离图像RangeImage0、RangeImage1为输入,基于预训练语义分割网络SalsaNext,得到语义特征图SemanticFeatures0、SemanticFeatures1,数据格式为[64,2048,20],将前一帧语义特征图SemanticFeatures1对齐到当前帧坐标系,生成新语义特征图SemanticFeatures1′,语义特征图对齐映射公式如下:
Figure BDA0003999737760000064
其中,Tr用来保存从前一帧图像坐标系到当前帧坐标系的下标映射信息,故将前一帧图像坐标(u1,v1)的语义特征向量映射到当前帧坐标系对应位置(u0,v0),作为该像素点的语义特征向量。
由于点云投影到二维图像存在多点投影到同一像素,但只保留其中最近一点的情况,故将PointCloud1投影到RangeImage1图像过程中,仅保留PointCloud1中部分点,记为PointCloud1″;PointCloud1″对齐到当前帧坐标系,记为PointCloud1″′,依照RangeImage1中从左至右、从上至下的顺序,读取每个像素(u1,v1)中对应点坐标(x1′,y1′,z1′),根据球面投影公式,重新计算其转化到当前帧图像所对应的像素点(u0,v0);构造前一帧实现坐标对齐后的语义特征图SemanticFeatures1′,其中,语义特征图SemanticFeatures1′中像素点(u0,v0)对应的特征向量为SemanticFeatures1中像素坐标(u1,v1)所对应的特征向量。
步骤4,通过交叉融合模块,将距离图像、残差图像以及语义特征图相融,输入运动目标分割网络MOSNet,得到当前帧运动状态预测结果PredictSet,设置最大迭代次数为30,迭代训练,直至收敛,保存模型,进行测试验证。
上述已备好数据包括:RangeImage0(数据格式为[64,2048,5])、ResidualImage(数据格式为[64,2048,1])、SemanticFeatures0(数据格式为[64,2048,20])、SemanticFeatures1′(数据格式为[64,2048,20]),将其沿特征维度拼接,得到特征图F作为输入数据,数据格式为[64,2048,46];
交叉融合模块如图2所示。
计算当前帧距离图像RangeImage0中每个点的初始特征向量。
计算任意一像素点初始特征向量时,首先以该点为中心,记为Pi,j,取相邻3x3范围内像素点计算对应权重向量,即{(ui+k1,vj+k2)|k1=-1,0,1;k2=-1,0,1}9个像素点。相邻像素点对应向量值为(rk,xk,yk,zk,ik),k=1,2,3···9,中心点(ui,vj)对应向量值为(r0,x0,y0,z0,i0),取对应差值(rk-r0,xk-x0,yk-y0,zk-z0,ik-i0),k=1,2,3···9作为交叉融合模块中MLP部分的输入,由点与点之间实际空间距离训练对应权重
Figure BDA0003999737760000072
将邻居点Concat,即最终每个中心点初始特征值由相邻3x3范围内所有点与其权重乘积构成,计算公式如下:
Figure BDA0003999737760000071
其中,Fi+k1,j+k2为特征图F中(i+k1,j+k2)像素坐标对应的向量特征值,F′为通过特征交叉融合后生成的新特征图,将F′通过一个1x1的卷积层,得到输出特征图F″。
将特征图F″输入运动目标分割深度学习网络MOSNet,其中运动目标分割深度学习网络MOSNet与语义分割网络SalsaNext模块一致,仅修改最终网络分割头设定的类别数,语义分割设置为20类,运动目标分割设置为3类,得到运动目标分割类别概率特征图PredictSet,数据格式为[64,2048,3],64为特征图的高度,2048为特征图的宽度,所以64x2048用来描述特征图的尺度,3是指的特征图中每个像素点是用一个3维来表示,64x2048尺度特征图PredictSet中每个像素点值为向量[proi0,proi1,proi2],分别对应该像素点为0(未确定)、1(静态点)、2(动态点)的概率,取概率最大的类别作为该像素点的分割结果,得到图像运动分割结果ImageResult,数据格式为[64,2048,1]。
将PredictSet与真值ImageLabelSet0带入损失函数Cross-Entropy Loss、Lovász-Softmax Loss,计算损失值,设置最大迭代次数epoch=30,迭代上述过程,直至损失函数收敛,保存模型,进行测试验证。
步骤5,根据上述模型所得训练数据设置网络参数,输入待测试数据,得到基于图像的运动目标分割结果ImageResult,通过KNN(K-Nearest Neighbor)后处理,将ImageResult由图像投影回点云,得到点云中每个点的运动状态预测结果PointCloudResult。
取距离图像RangeImage0中每个像素,定义一个大小为5x5的窗口,分别用图像上每个像素点作为窗口中心,取5x5窗口内邻点,作为集合N′,数据格式为[64*2048,5*5]。
对当前帧点云PointCloud0中每个点,可能多个点投影到同一个二维图像像素点,故实际的点云点数可能大于64*2048个;通过三维点云投影到二维像素点的对应关系,得到点云中每个点在二维图像上的邻居点,记作集合N″,数据格式为[n,5*5]。
点云中每个点的运动分割类别取决于三维空间中最接近的K个点(以点与点之间r的绝对差值计算)的共识投票,取K为5,通过KNN算法搜索距离目标点最近的5个点作为其邻点,作为集合N,数据格式为[n,5]。
设定点与点之间的r的绝对差值应小于阈值threshold=1.0,过滤距离大于阈值的邻居点,再进行共识投票。每个邻居点的运动分割类别可由ImageResult获得,以邻居点集中,最多的类别作为目标点的类别,得到整个点云运动目标分割结果PointCloudResult,数据格式为[n,1]。
利用本发明训练好的点云运动分割模型进行运动状态分割时,能够有效地获取点云中每个点的运动状态类别,相比以往方法,引入语义信息可以实现使用更少点云帧数同时达到准确分割,在SemanticKITTI运动目标分割数据集00-07、09-10序列上进行训练,11-21序列上进行测试,交并比达到69.8%。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语义信息引导的点云运动目标分割方法,其特征在于,包括以下步骤:
步骤1,对备好的激光雷达点云数据训练集随机进行数据增强;生成一个随机数,确定此组训练数据是否间隔一帧取;
步骤2,将激光雷达点云数据通过球面投影转化到二维图像,得到对应的距离图像和残差图像;
步骤3,以距离图像为输入,基于预训练语义分割网络,得到语义特征图,并将前一帧语义特征图对齐到当前帧坐标系;
步骤4,通过交叉融合模块,将距离图像、残差图像以及语义特征图相融,输入运动目标分割深度学习网络,得到当前帧运动状态预测结果,与标注真值计算损失,迭代训练,直至收敛;
步骤5,通过KNN后处理,将预测结果由二维图像投影回点云,得到点云中每个点的运动状态预测结果。
2.根据权利要求1所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤1中,产生随机数Random,随机数大于等于0.5时,间隔一帧点云取相邻两帧数据为一组,否则,不需要间隔,直接取连续两帧点云数据为一组。
3.根据权利要求1所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤2中,由点云格式[n,4]通过球面投影转化到二维图像[h,w,5],n表示点云中有n个点,4表示x,y,z,i四个特征通道,5表示每个像素对应的r,x,y,z,i五个特征通道,其中
Figure FDA0003999737750000011
球面投影公式如下:
Figure FDA0003999737750000012
其中,(u,v)表示点由三维空间坐标值(x,y,z)投影到距离图像上的坐标,θyaw和θpitch分别表示点的偏航角和俯仰角,H和W分别表示距离图像的高度和宽度,f=fup-fdown表示激光雷达垂直视场角。
4.根据权利要求3所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤2中,输入数据格式为两帧[n,3]的点云数据,投影到二维图像后格式均变为[h,w,5];前一帧数据通过相对位姿对齐到当前帧,根据邻近两帧二维图像数据的r通道差异,将两帧图像的r通道值相减,得到一帧残差图像[h,w,1],坐标对齐公式如下:
Figure FDA0003999737750000021
其中,(x1,y1,z1)、(x1′,y1′,z1′)分别表示前一帧点云数据坐标值和投影到当前帧坐标系之后的坐标值,
Figure FDA0003999737750000022
表示前一帧与当前帧数据之间的相对位姿;
残差图像计算公式如下:
Figure FDA0003999737750000023
其中,r0和r1′分别表示当前帧图像的r通道值和前一帧对齐到当前坐标系后的r通道值,t1和t2分别为设定的残差阈值,过滤噪声点。
5.根据权利要求1所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤3中,所述的预训练语义分割网络模型采用SalsaNext,同时得到当前帧和前一帧图像的语义分割结果;通过前一帧到当前帧的坐标对齐信息,将前一帧图像的语义特征图对齐到当前帧坐标系,前一帧语义特征图对齐到当前帧坐标系公式如下:
Figure FDA0003999737750000024
其中,Tr用来保存从前一帧图像坐标系到当前帧坐标系的下标映射信息,将前一帧图像坐标(u1,v1)的语义特征向量映射到当前帧坐标系对应位置(u0,v0)作为其语义特征向量。
6.根据权利要求1所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤4中,设计一个交叉融合模块,将距离图像、残差图像以及语义特征图相融合,得到数据格式为[h,w,46]作为运动目标分割网络的输入,其中距离图像[h,w,5];残差图像[h,w,1];当前帧语义特征图[h,w,20];前一帧语义特征图[h,w,20];运动目标分割网络中交叉融合模块先由距离图像作为输入,通过多层感知机训练得到当前帧图像每个像素点周围3x3范围内相邻像素对其贡献,即根据周围3x3范围内相邻像素与中心像素点物理上的距离差值作为影响因素,得到对应的贡献权重,周围3x3范围内相邻像素权重与其对应的特征向量相乘,作为中心点的特征向量,以此得到当前帧图像每个像素点的初始特征向量,输入后续点云运动目标分割网络MOSNet,分割头类别数设置为3,label=0表示未知;label=1表示静止状态,label=2表示运动状态,得到当前帧图像的运动目标分割结果,将其与原始标注真值输入损失函数Cross-Entropy Loss、Lovász-Softmax Loss计算损失值,迭代训练,直至网络收敛。
7.根据权利要求6所述的基于语义信息引导的点云运动目标分割方法,其特征在于,设置最大训练迭代次数为epoch=30。
8.根据权利要求6所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤4中,运动目标分割网络包含上下文提取模块、降采样模块、上采样模块以及分割头;在上下文提取模块完成由初始特征图到高级特征图的抽象;在降采样模块完成特征图分辨率的压缩,在上采样模块通过与降采样模块对称的方式扩大分辨率,最终将图像恢复到原始分辨率;输入数据格式为[h,w,46]的特征图,输出为[h,w,3]格式的不同类别概率图像,最终以概率值最大的类别作为所属分割类别,得到格式为[h,w,1]的标签图像。
9.根据权利要求1所述的基于语义信息引导的点云运动目标分割方法,其特征在于,步骤5中,基于已训练好的运动目标分割模型,实现基于点云投影到二维图像上的运动目标分割任务,通过KNN后处理方式,实现点云的运动目标分割;分别以每个点为中心点,在三维点云空间找到距离中心点最近的K个点,统计最近K个点所投影到的图像像素点的类别分割结果,以类别数最多的作为该中心点的分割类别,输入图像数据格式为[h,w,1],输出点云目标分割结果格式为[n,1]。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一所述的方法的步骤。
CN202211608902.4A 2022-12-14 2022-12-14 基于语义信息引导的点云运动目标分割方法 Pending CN115937520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211608902.4A CN115937520A (zh) 2022-12-14 2022-12-14 基于语义信息引导的点云运动目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211608902.4A CN115937520A (zh) 2022-12-14 2022-12-14 基于语义信息引导的点云运动目标分割方法

Publications (1)

Publication Number Publication Date
CN115937520A true CN115937520A (zh) 2023-04-07

Family

ID=86698759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211608902.4A Pending CN115937520A (zh) 2022-12-14 2022-12-14 基于语义信息引导的点云运动目标分割方法

Country Status (1)

Country Link
CN (1) CN115937520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152199A (zh) * 2023-08-30 2023-12-01 成都信息工程大学 一种动态目标运动矢量估计方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152199A (zh) * 2023-08-30 2023-12-01 成都信息工程大学 一种动态目标运动矢量估计方法、系统、设备及存储介质
CN117152199B (zh) * 2023-08-30 2024-05-31 成都信息工程大学 一种动态目标运动矢量估计方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109902677B (zh) 一种基于深度学习的车辆检测方法
CN111201451A (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
CN112362072B (zh) 一种复杂城区环境中的高精度点云地图创建系统及方法
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN114463736A (zh) 一种基于多模态信息融合的多目标检测方法及装置
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统
Shi et al. An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
Zhou et al. PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质
CN116824333A (zh) 一种基于深度学习模型的鼻咽癌检测系统
CN116664851A (zh) 一种基于人工智能的自动驾驶数据提取方法
CN115880659A (zh) 用于路侧系统的3d目标检测方法、装置及电子设备
CN114445371A (zh) 基于椭圆交并比的遥感图像目标检测方法及装置
CN114155524A (zh) 单阶段3d点云目标检测方法及装置、计算机设备、介质
CN112712062A (zh) 基于解耦截断物体的单目三维物体检测方法和装置
Shrivastava et al. CubifAE-3D: Monocular camera space cubification for auto-encoder based 3D object detection
CN117576665B (zh) 一种面向自动驾驶的单摄像头三维目标检测方法及系统
CN113362372B (zh) 一种单目标追踪方法及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination