CN117214860A - 基于孪生特征金字塔和地面分割的激光雷达里程计方法 - Google Patents
基于孪生特征金字塔和地面分割的激光雷达里程计方法 Download PDFInfo
- Publication number
- CN117214860A CN117214860A CN202311027060.8A CN202311027060A CN117214860A CN 117214860 A CN117214860 A CN 117214860A CN 202311027060 A CN202311027060 A CN 202311027060A CN 117214860 A CN117214860 A CN 117214860A
- Authority
- CN
- China
- Prior art keywords
- pose
- point cloud
- point
- feature
- twin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 39
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 23
- 238000013519 translation Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 13
- 230000008602 contraction Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于孪生特征金字塔和地面分割的激光雷达里程计方法,属于计算机视觉技术领域。所述方法包括:对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;构建基于孪生特征金字塔和分层优化的位姿估计网络,用于输出输入的每对相邻训练帧点云之间的位姿变换;根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络;利用训练好的位姿估计网络预测待估计的激光雷达点云序列中每一帧点云对应的激光雷达位姿。采用本发明,能够提高基于激光雷达进行位姿估计任务的精度。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是指一种基于孪生特征金字塔和地面分割的激光雷达里程计方法。
背景技术
同时定位与建图(SLAM)是移动机器人研究领域的关键技术之一。经典的SLAM系统通常包括传感器数据读取、前端里程计、后端优化、回环检测、建图等五个部分。里程计作为SLAM系统中的重要步骤之一,其任务是利用传感器采集到的数据估计机器人的运动轨迹。基于视觉和基于激光雷达的里程计方法较为常见。基于视觉的里程计方法容易受到光照、天气等因素的影响较大,导致位姿估计精度较低,而激光雷达能够直接获取机器人周身360°的环境深度信息,这使得基于激光雷达的里程计在许多应用场景中更具有鲁棒性。
发明内容
本发明实施例提供了基于孪生特征金字塔和地面分割的激光雷达里程计方法,能够提高基于激光雷达进行位姿估计任务的精度。所述技术方案如下:
一方面,提供了一种基于孪生特征金字塔和地面分割的激光雷达里程计方法,该方法应用于电子设备,该方法包括:
对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
构建基于孪生特征金字塔和分层优化的位姿估计网络,用于输出输入的每对相邻训练帧点云之间的位姿变换;
根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络;
利用训练好的位姿估计网络预测待估计的激光雷达点云序列中每一帧点云对应的激光雷达位姿。
进一步地,所述对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云包括:
使用地面分割算法对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
其中,所述地面分割算法由点云全景分割网络Cylinder3D实现,相邻的两帧点云PCt-1和PCt分别输入Cylinder3D,Cylinder3D输出逐点的分割标签,分为地面点与非地面点两类,并剔除点云中的非地面点,得到由非地面点组成的训练帧点云PC′t-1和PC′t,其中,PC′t-1和PC′t分别表示经过地面分割预处理后的第t-1帧和第t帧点云。
进一步地,所述位姿估计网络包括:孪生特征金字塔、场景流融合编码模块和位姿分层优化模块;
所述孪生特征金字塔,用于对经过地面分割预处理后的点云PC′t-1和PC′t进行编码,得到特征向量ft-1和ft;其中,ft-1和ft分别表示第t-1帧和第t帧的点云PC′t-1和PC′t经过孪生特征金字塔输出得到的特征向量;
所述场景流融合编码模块,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,并联合几何和语义特征,预测初始相对位姿估计;
所述位姿分层优化模块,用于增量式地优化初始相对位姿估计,通过关注不同尺度下点云特征信息的变化,进行位姿估计的更新。
进一步地,所述孪生特征金字塔包括:2个子特征金字塔,2个子特征金字塔的所有网络层共享权值;
每个子孪生特征金字塔由3个不同规模的MBConv3D模块堆叠而成;
每个MBConv3D模块包括:维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元;其中,维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元依次相连;
维度扩张单元为Shared MLP→BatchNorm→Swish,卷积单元为KPConv→BatchNorm→Swish,维度收缩单元为Shared MLP→BatchNorm;其中,Shared MLP表示共享多层感知器,BatchNorm表示批归一化层,Swish为激活函数,KPConv表示核点卷积层,→表示连接;
在所述维度扩张单元中,Shared MLP通过多层感知机对点云中局部邻域点的特征进行升维;其中,局部邻域点是使用最远点采样方法得到的;经过Shared MLP输出的特征fmlp表示为:
其中,xi是最远点采样得到的第i个采样点,表示在xi周围的第k个近邻点,fi和fi k分别代表xi和/>的特征,K表示xi周围存在的近邻点个数,/>表示向量的串联操作,sharedMLP()表示多层感知机;
所述KPConv,用于提取局部区域的点特征并将提取到的点特征进行融合,在点xi处,以g为卷积核的KPConv输出的特征fkp表示为:
其中,表示以点xi为中心、r为半径的卷积区域,/>表示在该卷积区域中的第n个点,fi n表示/>的特征,卷积核g在该卷积区域的不同位置具有不同的核函数权重;
所述SENet是针对通道的注意力机制模块,通过压缩和激发特征通道来增强特征;
在所述维度收缩单元中,Shared MLP通过多层感知机降低SENet输出的特征的维度。
进一步地,所述场景流融合编码模块包括FlowNet3D、Shared MLP和初始位姿估计子模块;
所述FlowNet3D,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,通过学习点云的软对应点关系生成场景流嵌入特征Flow0;
所述Shared MLP使用孪生特征金字塔生成的特征向量ft-1和ft和场景流嵌入特征Flow0作为输入,输出包含每个点的加权系数的掩码,以降低场景中动态物体点在位姿估计中的影响;
在所述初始位姿估计子模块中,Shared MLP输出的掩码经过Softmax归一化后与场景流嵌入特征Flow0加权求和,求和结果输入全连接层预测初始相对位姿估计,初始的相对位姿向量用平移向量t0和四元数q0表示。
进一步地,所述位姿分层优化模块包括:第一位姿优化子模块和第二位姿优化子模块,第一位姿优化子模块输出的优化后的相对位姿向量(t1,q1)和场景流嵌入特征Flow1为第二位姿优化子模块的输入,第二位姿优化子模块用于输出优化后的相对位姿向量(t2,q2)和场景流嵌入特征Flow2;每个位姿优化子模块包括:位姿变换单元、场景流更新与编码单元和位姿更新单元;
所述位姿变换单元,用于通过输入对应的平移向量tin和四元数qin刚性地调整源点云的位置和朝向;其中,位姿变换的过程表示为:
其中,xyzt-1∈N×3表示包含了N个点的源点云中所有点的空间坐标集合,xyz′t-1∈N×3表示变换后的源点云的点空间坐标,qin和tin为输入位姿;
所述场景流更新与编码单元,用于将经过位姿变换后的源点云与目标点云共同输入FlowNet3D生成场景流嵌入特征,场景流更新与编码单元输入的场景流嵌入特征Flowin经过上采样后,与该场景流嵌入特征共同输入SharedMLP进行更新,生成该尺度下的掩码,掩码经过Softmax归一化后与场景流嵌入特征Flowout加权求和,求和结果输入全连接层,全连接层将加权特征映射为位姿增量Δq和Δt;其中,掩码包含了该尺度下每个点的加权系数;
所述位姿更新单元,用于根据位姿增量对输入的相对位姿向量qin和tin进行更新,其中,位姿更新过程表示为:
[0,tout]=Δq[0,tin]Δq-1+[0,Δt]
qout=Δqqin
其中,Δt和Δq表示场景流更新与编码单元预测的平移向量和四元数的增量,tout和qout表示经过更新后的平移向量和四元数。
进一步地,所述根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络包括:
利用位姿估计网络在3个级别输出的相对位姿向量t0和q0、t1和q1以及t2和q2来监督位姿估计网络进行训练,对于第n级输出的相对位姿向量,计算帧间配准损失函数
其中,n=0,1,2,和/>分别表示由真实的位姿变换矩阵生成的平移向量和四元数,tn和qn表示网络在第n级的平移向量和四元数输出,||·||和||·||2分别表示/>范数和/>范数,sx和sq分别表示平移和旋转的尺度因子;
根据计算得到的帧间配准损失函数计算位姿回归误差损失函数/>
其中,λn表示第n级的位姿损失权重,表示第n级的位姿损失,/>表示激光雷达里程计的总位姿回归损失。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于孪生特征金字塔和地面分割的激光雷达里程计方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于孪生特征金字塔和地面分割的激光雷达里程计方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;构建基于孪生特征金字塔和分层优化的位姿估计网络,用于输出输入的每对相邻训练帧点云之间的位姿变换;根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络;利用训练好的位姿估计网络预测待估计的激光雷达点云序列中每一帧点云对应的激光雷达位姿。这样,能够提高基于激光雷达进行位姿估计任务的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于孪生特征金字塔和地面分割的激光雷达里程计方法的流程示意图;
图2为本发明实施例提供的基于孪生特征金字塔和地面分割的激光雷达里程计方法的整体框架示意图;
图3为本发明实施例提供的MBConv3D模块的结构示意图;
图4为本发明实施例提供的场景流融合编码模块的结构示意图;
图5为本发明实施例提供的位姿优化子模块的结构示意图;
图6(a)为本发明实施例提供的方法在KITTI里程计数据集中序列09上估计的轨迹示意图;
图6(b)为本发明实施例提供的方法在KITTI里程计数据集中序列10上估计的轨迹示意图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于孪生特征金字塔和地面分割的激光雷达里程计方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器,该方法包括:
S101,对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
本实施例中,如图2所示,使用地面分割算法对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
其中,所述地面分割算法由点云全景分割网络Cylinder3D实现,相邻的两帧点云PCt-1和PCt分别输入Cylinder3D,Cylinder3D输出逐点的分割标签,分为“地面点”与“非地面点”两类,并剔除点云中的非地面点,得到由非地面点组成的训练帧点云PC′t-1和PC′t,其中,PC′t-1和PC′t分别表示经过地面分割预处理后的第t-1帧和第t帧点云。
S102,构建基于孪生特征金字塔和分层优化的位姿估计网络,用于输出输入的每对相邻训练帧点云之间的位姿变换;
本实施例中,所述位姿估计网络包括:孪生特征金字塔、场景流融合编码模块和位姿分层优化模块,位姿估计网络的详细结构如表1所示;其中,
所述孪生特征金字塔,用于对经过地面分割预处理后的点云PC′t-1和PC′t进行编码,得到特征向量ft-1和ft;其中,ft-1和ft分别表示第t-1帧和第t帧的点云PC′t-1和PC′t经过孪生特征金字塔输出得到的特征向量;
所述场景流融合编码模块,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,并联合几何和语义特征,预测初始相对位姿估计;
所述位姿分层优化模块,用于增量式地优化初始相对位姿估计,通过关注不同尺度下点云特征信息的变化,进行位姿估计的更新。
表1位姿估计网络结构
表1中,FC表示全连接层。
本实施例中,所述孪生特征金字塔包括:2个子特征金字塔,2个子特征金字塔的所有网络层共享权值;
其中一个子孪生特征金字塔对经过预处理的点云PC′t进行编码,得到特征向量ft:
ft=Pyramid(PC′t)
其中,Pyramid()为子孪生特征金字塔;
另一个子孪生特征金字塔对经过预处理的点云PC′t-1进行编码,得到特征向量ft-1:
ft-1=Pyramid(PC′t-1)
本实施例中,每个子孪生特征金字塔由3个不同规模的MBConv3D模块堆叠而成;MBConv3D模块的输入为经过预处理的点云中各点的空间坐标与对应的特征向量;
每个MBConv3D模块包括:维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元;其中,维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元依次相连;
如图3所示,维度扩张单元为Shared MLP→BatchNorm→Swish,卷积单元为KPConv→BatchNorm→Swish,维度收缩单元为Shared MLP→BatchNorm;其中,Shared MLP表示共享多层感知器,BatchNorm表示批归一化层,Swish为激活函数,KPConv表示核点卷积层,→表示连接;
在所述维度扩张单元中,Shared MLP通过多层感知机对点云中局部邻域点的特征进行升维;其中,局部邻域点是使用最远点采样方法得到的;经过Shared MLP输出的特征fmlp表示为:
其中,xi是最远点采样得到的第i个采样点,表示在xi周围的第k个近邻点,fi和fi k分别代表xi和/>的特征,K表示xi周围存在的近邻点个数,/>表示向量的串联操作,sharedMLP()表示多层感知机;
所述KPConv,用于提取局部区域的点特征并将提取到的点特征进行融合,在点xi处,以g为卷积核的KPConv输出的特征fkp表示为:
其中,表示以点xi为中心、r为半径的卷积区域,/>表示在该卷积区域中的第n个点,fi n表示/>的特征,卷积核g在该卷积区域的不同位置具有不同的核函数权重;
所述SENet是针对通道的注意力机制模块,通过压缩和激发特征通道来增强特征;
在所述维度收缩单元中,Shared MLP通过多层感知机降低SENet输出的特征的维度。
由此可知,在孪生特征金字塔中,使用Shared MLP扩展特征向量的维度,KPConv提取局部区域的点特征并融合,接着SENet通过压缩和激发特征通道来增强特征,最后再使用一层Shared MLP降低特征的维度并输出。
如图4所示,场景流融合编码模块的输入为相邻两帧点云(即:源点云和目标点云)的空间坐标(xyzt-1和xyzt)与高维特征向量(ft-1和ft),输出为包含7个元素的初始相对位姿向量,前4个元素表示3自由度的旋转四元数q,后3个元素表示3自由度相对位移t,其中,xyzt-1和xyzt分别为第t-1帧和第t帧的点云PC′t-1和PC′t的空间坐标。
本实施例中,所述场景流融合编码模块包括场景流估计网络FlowNet3D、SharedMLP和初始位姿估计子模块;
所述FlowNet3D,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,通过学习点云的软对应点关系生成场景流嵌入特征Flow0;其中,FlowNet3D生成的场景流嵌入特征Flow0表示为:
Flow0=FlowNet3D(ft-1,ft)
其中,ft-1和ft分别表示第t-1帧和第t帧的点云经过特征金字塔输出得到的特征向量,fflow表示场景流嵌入特征,FlowNet3D()为所述FlowNet3D模块;
所述Shared MLP使用孪生特征金字塔生成的特征向量ft-1和ft和场景流嵌入特征Flow0作为输入,输出包含每个点(该点为点云中所有的点,包括:静态物体点和动态物体点)的加权系数的掩码。由于场景中可能同时存在可靠的静态物体和随机运动的动态物体,所以每个点对于全局位姿估计的参考价值并不一致,该Shared MLP为每个点分配一个加权系数,参考价值更高的静态物体点对应更大的权重,同时,动态物体点将会被分配较小的权重;
在所述初始位姿估计子模块中,Shared MLP输出的掩码经过Softmax归一化后与场景流嵌入特征Flow0加权求和,求和结果输入全连接层预测初始相对位姿估计,初始的相对位姿向量用平移向量t0和四元数q0表示。
如图2所示,所述位姿分层优化模块包括:第一位姿优化子模块和第二位姿优化子模块,第一位姿优化子模块输出的优化后的相对位姿向量(t1,q1)和场景流嵌入特征Flow1为第二位姿优化子模块的输入,第二位姿优化子模块用于输出优化后的相对位姿向量(t2,q2)和场景流嵌入特征Flow2;每个位姿优化子模块的输入包括需要优化的相对位姿向量和场景流嵌入特征、源点云的空间坐标xyzt-1、目标点云的空间坐标xyzt、源点云的特征向量ft-1和目标点云的特征向量ft,输出优化后的相对位姿向量和场景流嵌入特征;
每个位姿优化子模块包括:位姿变换单元、场景流更新与编码单元和位姿更新单元;
如图5所示,所述位姿变换单元,用于通过输入对应的平移向量tin和四元数qin刚性地调整源点云的位置和朝向;其中,位姿变换的过程表示为:
其中,xyzt-1∈N×3表示包含了N个点的源点云中所有点的空间坐标集合,xyz′t-1∈N×3表示变换后的源点云的点空间坐标,qin和tin为输入的相对位姿向量;
所述场景流更新与编码单元,用于将经过位姿变换后的源点云与目标点云共同输入FlowNet3D生成场景流嵌入特征,场景流更新与编码单元输入的场景流嵌入特征Flowin经过上采样(Set Upconv)后,与该场景流嵌入特征共同输入SharedMLP进行更新,得到场景流嵌入特征Flowout,更新后的场景流嵌入特征Flowout再通过SharedMLP生成掩码,并经过Softmax归一化后与场景流嵌入特征Flowout加权求和,求和结果输入全连接层,全连接层将加权特征映射为位姿增量Δq和Δt;其中,掩码包含了该尺度下每个点的加权系数,SetUpconv表示可学习的上采样层;
所述位姿更新单元,用于根据位姿增量对输入的相对位姿向量qin和tin进行更新,其中,位姿更新过程表示为:
[0,tout]=Δq[0,tin]Δq-1+[0,Δt]
qout=Δqqin
其中,Δt和Δq表示场景流更新与编码单元预测的平移向量和四元数的增量,tout和qout表示经过更新后的平移向量和四元数。
S103,根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络;
在本实施例中,位姿估计网络在3个级别输出的相对位姿向量t0和q0、t1和q1、t2和q2都用来监督网络进行训练,对于第n(n=0,1,2)级输出的相对位姿向量,计算帧间配准损失函数
其中,和/>分别表示由真实的位姿变换矩阵生成的平移向量和四元数,tn和qn表示网络在第n级的平移向量和四元数输出,||·||和||·||2分别表示/>范数和/>范数,sx和sq分别表示平移和旋转的尺度因子;
接着,计算最终的位姿回归误差损失函数
其中,λn表示第n级的位姿损失权重,表示第n级的位姿损失,/>表示激光雷达里程计的总位姿回归损失。
本实施例中,在训练时,将一个批次的激光雷达序列中的所有三维点云数据输入到点云全景分割网络Cylinder3D中执行数据预处理,得到去除地面点的训练帧点云再输入位姿估计网络中,对位姿估计网络进行训练;其中,根据位姿估计网络预测的每对相邻训练帧之间的相对位姿向量,计算位姿回归误差损失函数值,基于得到的位姿回归损失函数值,采取端到端的训练方式并通过反向传播来训练整个位姿估计网络。
S104,利用训练好的位姿估计网络预测待估计的激光雷达点云序列中每一帧点云对应的激光雷达位姿。
在本实施例中,为了验证本发明实施例提供的激光雷达里程计方法的有效性,使用KITTI里程计数据集评估测试其性能:
(1)相对位移均方误差(Rel.trans.):一个序列中全部长度为100、200、……、800米的子序列的平均位移RMSE(Root Mean Square Error),以%度量,即每100米偏差的米数,数值越小越好。
(2)相对旋转均方误差(Rel.rot.):一个序列中全部长度为100、200、……、800米的子序列的平均旋转RMSE,以deg/m度量,数值越小越好。
在本实施例中,应用了KITTI里程计数据集中00-08这9个序列作为训练集与验证集训练位姿估计网络,并用09-10这两个序列测试所述的基于孪生特征金字塔和分层优化的位姿估计网络的性能。
KITTI里程计数据集是目前国际上主流的自动驾驶数据集之一,包含市区、乡村、高速公路等道路场景,数据集包含双目图像、激光雷达点云以及实际轨迹。
在本实施例中,位姿回归误差损失函数的超参数λ0=0.8,λ1=0.4,λ2=0.2,sx和sq参数的初始值分别设置为0.0和-2.5,并在训练过程中不断更新。位姿估计网络的训练过程中,初始学习率为10-3,并随着训练的进行逐渐减小,每经过10轮迭代,学习率变为上一轮的0.5倍,采用Adam优化器进行90次迭代,每轮迭代的批次大小为16,每批次包含16对相邻帧点云。
为了验证本发明所述方法的性能,本实施例中,选择了基于传统方法和基于深度学习的激光雷达里程计方法进行了对比,实验结果如表2所示。本实施例在KITTI序列09、10中生成的轨迹分别如图6(a)和图6(b)所示,其中,虚线轨迹为真实的轨迹,实线轨迹为本实施例中估计出的轨迹。
表2 KITTI数据集中本实施例方法与其他方法对比
本实施例中,在表2所比较的方法中,ICP、GICP、LOAM是传统的非学习方法,在这些传统方法中,具有后端优化的LOAM取得了最好的结果;LO-Net、ENCODE、DMLO、PWCLO-Net等都是基于学习的方法。据我们所知,在基于深度学习的方法中,PWCLO-Net是此前所有基于深度学习的方法中精度最高的,本实施例的方法与之相比,特征金字塔和位姿优化的层数更浅,并且由于更好地利用了点云的几何、语义信息,本实施例所述的方法在基于深度学习的方法中取得了最好的性能。
为了验证本实施例所述的方法各部分的意义,本实施例中还进行了消融实验。实验结果如表3所示,其中,第二行中的“w/o Ground segmentation”表示去除数据的地面分割预处理,此时位姿估计网络的输入为完整的激光雷达点云帧。第三行的“with SharedMLP”表示将孪生特征金字塔中的MBConv3D模块全部替换为Shared MLP层。第四行的“w/oPose refinement”表示去除网络中的位姿分层优化网络,此时场景流融合编码网络输出的6自由度位姿向量直接作为最终的输出。第五行的“w/o Mask”表示去除网络中所有输出为掩码的模块。最后一行表示本文完整的方法的实验结果。
表3消融实验结果
综上,本发明实施例所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,至少具有以下优点:
1)本发明是一种基于孪生特征金字塔和分层优化的激光雷达里程计方法,通过深度神经网络仅使用激光雷达的点云信息,不使用任何其他信息来估计两帧间的位姿变换;
2)针对道路环境场景中地面点对里程计贡献度低、信息冗余的问题,本实施例提出了使用预处理筛除原始点云中的地面点,使得用于位姿估计的点云特征密度更高,提高了位姿估计网络的收敛速度和泛化能力;
3)本实施例设计了一个全新的逐点特征提取模块MBConv3D,旨在通过建立局部点的分布特征来捕获物体表面的变形、加强局部点邻域的特征聚合,并基于MBConv模块的结构优化计算效率;
4)本实施例在KITTI数据集上进行评估实验和消融实验验证本实施例所提出的方法。实验结果表明,本实施例的方法在大部分序列中与最优的激光雷达里程计效果相当,在测试序列中甚至比基于深度学习的所有方法精度更高,因此,本实施例提供的基于孪生特征金字塔和地面分割的激光雷达里程计方法,能够提高基于激光雷达进行位姿估计任务的精度。
图7是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条指令,所述至少一条指令由所述处理器601加载并执行以实现上述基于孪生特征金字塔和地面分割的激光雷达里程计方法。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于孪生特征金字塔和地面分割的激光雷达里程计方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,包括:
对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
构建基于孪生特征金字塔和分层优化的位姿估计网络,用于输出输入的每对相邻训练帧点云之间的位姿变换;
根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络;
利用训练好的位姿估计网络预测待估计的激光雷达点云序列中每一帧点云对应的激光雷达位姿。
2.根据权利要求1所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云包括:
使用地面分割算法对激光雷达原始三维点云数据进行预处理,去除地面点,得到由非地面点组成的训练帧点云;
其中,所述地面分割算法由点云全景分割网络Cylinder3D实现,相邻的两帧点云PCt-1和PCt分别输入Cylinder3D,Cylinder3D输出逐点的分割标签,分为地面点与非地面点两类,并剔除点云中的非地面点,得到由非地面点组成的训练帧点云PC′t-1和PC′t,其中,PC′t-1和PC′t分别表示经过地面分割预处理后的第t-1帧和第t帧点云。
3.根据权利要求2所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述位姿估计网络包括:孪生特征金字塔、场景流融合编码模块和位姿分层优化模块;
所述孪生特征金字塔,用于对经过地面分割预处理后的点云PC′t-1和PC′t进行编码,得到特征向量ft-1和ft;其中,ft-1和ft分别表示第t-1帧和第t帧的点云PC′t-1和PC′t经过孪生特征金字塔输出得到的特征向量;
所述场景流融合编码模块,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,并联合几何和语义特征,预测初始相对位姿估计;
所述位姿分层优化模块,用于增量式地优化初始相对位姿估计,通过关注不同尺度下点云特征信息的变化,进行位姿估计的更新。
4.根据权利要求3所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述孪生特征金字塔包括:2个子特征金字塔,2个子特征金字塔的所有网络层共享权值;
每个子孪生特征金字塔由3个不同规模的MBConv3D模块堆叠而成;
每个MBConv3D模块包括:维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元;其中,维度扩张单元、卷积单元、压缩激发网络SENet和维度收缩单元依次相连;
维度扩张单元为Shared MLP→BatchNorm→Swish,卷积单元为KPConv→BatchNorm→Swish,维度收缩单元为Shared MLP→BatchNorm;其中,Shared MLP表示共享多层感知器,BatchNorm表示批归一化层,Swish为激活函数,KPConv表示核点卷积层,→表示连接;
在所述维度扩张单元中,Shared MLP通过多层感知机对点云中局部邻域点的特征进行升维;其中,局部邻域点是使用最远点采样方法得到的;经过Shared MLP输出的特征fmlp表示为:
其中,xi是最远点采样得到的第i个采样点,表示在xi周围的第k个近邻点,fi和fi k分别代表xi和/>的特征,K表示xi周围存在的近邻点个数,/>表示向量的串联操作,sharedMLP()表示多层感知机;
所述KPConv,用于提取局部区域的点特征并将提取到的点特征进行融合,在点xi处,以g为卷积核的KPConv输出的特征fkp表示为:
其中,表示以点xi为中心、r为半径的卷积区域,/>表示在该卷积区域中的第n个点,fi n表示/>的特征,卷积核g在该卷积区域的不同位置具有不同的核函数权重;
所述SENet是针对通道的注意力机制模块,通过压缩和激发特征通道来增强特征;
在所述维度收缩单元中,Shared MLP通过多层感知机降低SENet输出的特征的维度。
5.根据权利要求3所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述场景流融合编码模块包括FlowNet3D、Shared MLP和初始位姿估计子模块;其中,FlowNet3D表示场景流估计网络;
所述FlowNet3D,用于关联孪生特征金字塔编码得到的特征向量ft-1和ft,通过学习点云的软对应点关系生成场景流嵌入特征Flow0;
所述Shared MLP使用孪生特征金字塔生成的特征向量ft-1和ft和场景流嵌入特征Flow0作为输入,输出包含每个点的加权系数的掩码,以降低场景中动态物体点在位姿估计中的影响;
在所述初始位姿估计子模块中,Shared MLP输出的掩码经过Softmax归一化后与场景流嵌入特征Flow0加权求和,求和结果输入全连接层预测初始相对位姿估计,初始的相对位姿向量用平移向量t0和四元数q0表示。
6.根据权利要求5所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述位姿分层优化模块包括:第一位姿优化子模块和第二位姿优化子模块,第一位姿优化子模块输出的优化后的相对位姿向量(t1,q1)和场景流嵌入特征Flow1为第二位姿优化子模块的输入,第二位姿优化子模块用于输出优化后的相对位姿向量(t2,q2)和场景流嵌入特征Flow2;每个位姿优化子模块包括:位姿变换单元、场景流更新与编码单元和位姿更新单元;
所述位姿变换单元,用于通过输入对应的平移向量tin和四元数qin刚性地调整源点云的位置和朝向;其中,位姿变换的过程表示为:
其中,zyzt-1∈N×3表示包含了N个点的源点云中所有点的空间坐标集合,xyz′t-1∈N×3表示变换后的源点云的点空间坐标,qin和tin为输入位姿;
所述场景流更新与编码单元,用于将经过位姿变换后的源点云与目标点云共同输入FlowNet3D生成场景流嵌入特征,场景流更新与编码单元输入的场景流嵌入特征Flowin经过上采样后,与该场景流嵌入特征共同输入SharedMLP进行更新,得到场景流嵌入特征Flowout,更新后的场景流嵌入特征Flowout再通过SharedMLP生成掩码,并经过Softmax归一化后与场景流嵌入特征Flowout加权求和,求和结果输入全连接层,全连接层将加权特征映射为位姿增量Δq和Δt;其中,掩码包含了该尺度下每个点的加权系数;
所述位姿更新单元,用于根据位姿增量对输入的相对位姿向量qin和tin进行更新,其中,位姿更新过程表示为:
[0,tout]=Δq[0,tin]Δq-1+[0,Δt]
qout=Δqqin
其中,Δt和Δq表示场景流更新与编码单元预测的平移向量和四元数的增量,tout和qout表示经过更新后的平移向量和四元数。
7.根据权利要求6所述的基于孪生特征金字塔和地面分割的激光雷达里程计方法,其特征在于,所述根据位姿估计网络输出的每对相邻训练帧点云之间的位姿变换,计算位姿回归误差损失函数值,基于得到的位姿回归误差损失函数值,训练所述位姿估计网络包括:
利用位姿估计网络在3个级别输出的相对位姿向量t0和q0、t1和q1以及t2和q2来监督位姿估计网络进行训练,对于第n级输出的相对位姿向量,计算帧间配准损失函数
其中,n=0,1,2,和/>分别表示由真实的位姿变换矩阵生成的平移向量和四元数,tn和qn表示网络在第n级的平移向量和四元数输出,‖·‖和‖·‖2分别表示/>范数和/>范数,sx和sq分别表示平移和旋转的尺度因子;
根据计算得到的帧间配准损失函数计算位姿回归误差损失函数/>
其中,λn表示第n级的位姿损失权重,表示第n级的位姿损失,/>表示激光雷达里程计的总位姿回归损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311027060.8A CN117214860B (zh) | 2023-08-14 | 2023-08-14 | 基于孪生特征金字塔和地面分割的激光雷达里程计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311027060.8A CN117214860B (zh) | 2023-08-14 | 2023-08-14 | 基于孪生特征金字塔和地面分割的激光雷达里程计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117214860A true CN117214860A (zh) | 2023-12-12 |
CN117214860B CN117214860B (zh) | 2024-04-19 |
Family
ID=89047042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311027060.8A Active CN117214860B (zh) | 2023-08-14 | 2023-08-14 | 基于孪生特征金字塔和地面分割的激光雷达里程计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117214860B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247075A (zh) * | 2013-05-13 | 2013-08-14 | 北京工业大学 | 基于变分机制的室内环境三维重建方法 |
CN111476822A (zh) * | 2020-04-08 | 2020-07-31 | 浙江大学 | 一种基于场景流的激光雷达目标检测与运动跟踪方法 |
US20210150228A1 (en) * | 2019-11-15 | 2021-05-20 | Argo AI, LLC | Methods and systems for joint pose and shape estimation of objects from sensor data |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
KR20220081261A (ko) * | 2020-12-08 | 2022-06-15 | 삼성전자주식회사 | 객체 포즈 추정 방법 및 장치 |
CN114663509A (zh) * | 2022-03-23 | 2022-06-24 | 北京科技大学 | 一种关键点热力图引导的自监督单目视觉里程计方法 |
CN114663496A (zh) * | 2022-03-23 | 2022-06-24 | 北京科技大学 | 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 |
CN114743105A (zh) * | 2022-04-14 | 2022-07-12 | 浙江大学 | 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 |
-
2023
- 2023-08-14 CN CN202311027060.8A patent/CN117214860B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103247075A (zh) * | 2013-05-13 | 2013-08-14 | 北京工业大学 | 基于变分机制的室内环境三维重建方法 |
US20210150228A1 (en) * | 2019-11-15 | 2021-05-20 | Argo AI, LLC | Methods and systems for joint pose and shape estimation of objects from sensor data |
CN111476822A (zh) * | 2020-04-08 | 2020-07-31 | 浙江大学 | 一种基于场景流的激光雷达目标检测与运动跟踪方法 |
KR20220081261A (ko) * | 2020-12-08 | 2022-06-15 | 삼성전자주식회사 | 객체 포즈 추정 방법 및 장치 |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN114663509A (zh) * | 2022-03-23 | 2022-06-24 | 北京科技大学 | 一种关键点热力图引导的自监督单目视觉里程计方法 |
CN114663496A (zh) * | 2022-03-23 | 2022-06-24 | 北京科技大学 | 一种基于卡尔曼位姿估计网络的单目视觉里程计方法 |
CN114743105A (zh) * | 2022-04-14 | 2022-07-12 | 浙江大学 | 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117214860B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7929730B2 (en) | Method and system for object detection and tracking | |
CN111325797A (zh) | 一种基于自监督学习的位姿估计方法 | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
CN111667535B (zh) | 一种针对遮挡场景下的六自由度位姿估计方法 | |
Furfaro et al. | Shape identification of space objects via light curve inversion using deep learning models | |
CN111401436A (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
WO2024060395A1 (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN116129390B (zh) | 一种增强曲线感知的车道线精准检测方法 | |
CN116310219A (zh) | 一种基于条件扩散模型的三维脚型生成方法 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN114332070A (zh) | 一种基于智能学习网络模型压缩的陨坑检测方法 | |
CN115830596A (zh) | 基于融合金字塔注意力的遥感图像语义分割方法 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 | |
CN113420590A (zh) | 弱纹理环境下的机器人定位方法、装置、设备及介质 | |
Meng et al. | A modified fully convolutional network for crack damage identification compared with conventional methods | |
CN117214860B (zh) | 基于孪生特征金字塔和地面分割的激光雷达里程计方法 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
Yu et al. | Visual Perception and Control of Underwater Robots | |
CN116079727A (zh) | 基于3d人体姿态估计的人形机器人动作模仿方法及装置 | |
CN115457081A (zh) | 一种基于图神经网络的分层融合式预测方法 | |
CN113793472B (zh) | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 | |
CN114049374A (zh) | 一种基于迁移学习-角点预测的图注意目标跟踪方法 | |
CN113609999A (zh) | 基于姿态识别的人体模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |