CN113284173B - 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 - Google Patents
一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 Download PDFInfo
- Publication number
- CN113284173B CN113284173B CN202110421794.9A CN202110421794A CN113284173B CN 113284173 B CN113284173 B CN 113284173B CN 202110421794 A CN202110421794 A CN 202110421794A CN 113284173 B CN113284173 B CN 113284173B
- Authority
- CN
- China
- Prior art keywords
- pose
- network
- scene flow
- point cloud
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 claims description 35
- 230000003068 static effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Optics & Photonics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于伪激光雷达的端到端的场景流、位姿联合学习方法,其过程为,首先利用深度网络获得连续两帧单目图像的深度图,并将深度图生成两帧图像对应的伪点云,再将伪点云和激光雷达点云分别生成L层金字塔,在对伪点云和激光雷达点云进行逐层融合之后输入场景流‑位姿网络,实现场景流和位姿的联合估计。本发明采用了深度学习方法,端到端地进行位姿及场景流学习,使用了伪点云和激光雷达点云分层特征提取再融合的方法,并利用分割掩膜实现动态场景流和位姿的联合学习。本发明对伪点云和激光雷达点云进行融合,提高了网络估计的准确性,有利于实际应用。
Description
技术领域
本发明涉及计算机视觉,具体地,涉及一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统。
背景技术
场景流是三维稠密运动场,表示实际场景中每个点的3D运动。场景流结合立体空间的深度信息和传统的光流信息,实现了较好的场景适应性,场景流估计可以广泛应用于自主驾驶、运动分割、动作识别等领域。
深度估计是预测一帧图像中每个像素点的深度,在诸如增强现实、3D重建、自动驾驶汽车、位置识别等广泛的领域中都有应用。从单目图像中恢复三维深度是计算机视觉中的一个基本问题,早期的方法使用特征向量和概率模型来提供单目线索。后来,随着深度网络的出现,提出了各种系统来以监督的方式从地面真实深度图中学习单目深度估计。
位姿估计是一个长期存在的视觉问题。传统方法利用手工制作的描述符计算后续的基本矩阵。最近,随着深度学习在计算机视觉领域的应用,深度神经网络在特征提取和相邻帧之间的密集对应估计方面取得了较好的效果。
发明内容
本发明的目的是提供一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统。
根据本发明提供的一种基于伪激光雷达的端到端的场景流、位姿联合学习方法,包括:
步骤M1:对于连续的两帧单目图像It、It+1,利用深度网络生成深度图Dt、Dt+1;
步骤M2:利用生成的两帧深度图Dt、Dt+1,分别生成两帧图像的空间伪点云PC1,PC2;
步骤M3:将空间伪点云PC1,PC2和t、t+1时刻的激光雷达点云Q1,Q2分别生成L层金字塔,对于每一层,使用最远点采样将点从上一层向下采样4倍;
步骤M4:将第L层的伪点云PC1和激光雷达点云Q1进行融合,伪点云PC2和激光雷达点云Q2进行融合;
所述步骤M4包括:
步骤M4.1:对于每个点pi∈PC1选择K个最近邻Ci={ci k={yi k,gi k}|k=1,....,K},其中Ci∈Q1,Q1中的K个点Ci用于对点的运动信息进行编码并将编码信息嵌入到pi中,并更新pi点的特征fi为ei,最终输出的融合点云为O={oi={xi,ei}|i=1,....,n1};
步骤4.2:对于每个点bi∈PC2选择K个最近邻Di={di k={wi k,zi k}|k=1,....,K},其中Di∈Q2,Q2中的K个点Di用于对点的运动信息进行编码并将编码信息嵌入到bi中,并更新bi点的特征hi为ai,最终输出的融合点云为S={si={vi,ai}|i=1,....,n3};
其中PC1={pi={xi,fi|i=1,....,n1}},Q2={qi={yi,gi|i=1,....,n2}},PC2={bi={vi,hi|i=1,....,n3}},Q2={di={wi,zi|i=1,....,n4}},xi,yi,vi,di∈R3表示三维坐标,fi,gi,hi,zi∈Rc表示点的特征。该层输出为O={oi={xi,ei}|i=1,....,n1}、S={si={vi,ai}|i=1,....,n3}。
步骤M5:将第L层融合之后的点云O,S输入场景流-位姿网络,场景流-位姿网络的编码器对融合点云静态特征和动态特征进行分割生成掩膜M以区分伪点云的动静态特征;
所述步骤M5包括:
步骤M5.1:通过关联两个融合点云O,S生成两个点云之间的嵌入特征R,嵌入特征包含两个点云之间的点相关信息。
步骤M5.2:嵌入特征R和融合点云的特征E被输入到共享MLP,沿着点维度进行Softmax操作以获得嵌入掩码,计算公式如下:
其中表示两个向量的连接。
步骤M6:场景流-位姿网络使用两个独立的解码器分别估计位姿和动态场景流并进行逐层细化;
所述步骤M6包括:
步骤M6.1:第一帧图像的融合点云O经过第L+1层的粗糙场景流变换后得到第二帧图像的融合点云Sω,融合点云Sω的计算公式如下:
sω,i=oi+sfo,i
其中第L+1层输出的粗糙场景流表示为变换后的点云表示为/>
步骤M6.2:重新计算和Ol之间的嵌入特征并表示为REl,利用嵌入特征R、重嵌入特征RE和第L层融合点云Ol的特征el进行第L层嵌入特征的细化,细化之后的嵌入特征表示为/>
步骤M6.3:利用细化嵌入特征Rl、粗嵌入掩膜M和第L层融合点云Ol的特征el对第L层嵌入掩膜进行细化,细化之后的掩膜表示为
步骤M6.4:将场景流-位姿网络编码器的输出用掩膜Ml∈(0,1)进行加权,该掩膜说明了点云符合静态特征情况,即掩膜Ml对点云中的动态点进行过滤,之后输入位姿解码器NT得到细化的相机自我运动的位姿;
其中表示点积;
步骤M6.5:为了获得每一层估计的场景流,对于场景流-位姿网络编码器的输出用掩膜(1-Ml)∈(0,1)进行反向加权,即掩膜(1-Ml)对点云中的静态点进行过滤,之后输入场景流解码器Nsf得到细化的动态场景流。
步骤M7:根据生成的场景流,位姿指导场景流-位姿网络的训练,生成的深度指导深度网络的训练;
所述步骤M7包括:
步骤M7.1:基于场景流一致性的深度网络、场景流-位姿网络监督学习;
步骤M7.2:基于点云重建损失的深度网络、场景流-位姿网络无监督学习;
步骤M7.3:基于图像重建损失的场景流-位姿网络无监督学习;
步骤M7.4:利用激光雷达提供的稀疏深度对深度网络进行无监督学习,其损失表示为Ldepth;
所述步骤M7.1包括:
步骤7.1.1:步骤7.1.1:结合场景流-位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的融合点云S在第一帧相机坐标系下的点云S1,则相机运动引起的静态场景流SFS的计算公式如下:
SFS=S-S1
步骤7.1.2:将生成的动、静态场景流相加得到两个点云间整体场景流;
SFO=SFd+SFS
步骤7.1.3利用整体场景流SFO和场景流真值SFgt之间的差异计算场景流一致性损失Esf;
步骤7.1.5:根据计算一致性损失Esf,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即一致性损失不在降低时,停止训练。
所述步骤M7.2包括:
步骤M7.2.1:利用整体场景流SF0,第一帧图像的融合点云O经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的点云S′,计算公式如下:
SFS=S-S1
SFO=SFd+SFS
S′=SFO+O
步骤M7.2.2:利用第二帧图像的融合点云S和重构的点云S′之间的差距计算点云重构损失Epc,并用可见度掩膜V来估计场景流SF0的遮挡情况;
步骤7.2.3:根据计算点云重构损失EPC,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即点云重构损失不在降低时,停止训练。
所述步骤M7.3包括:
步骤M7.3.1:利用生成的位姿,第一帧图像经It位姿变换后得到第二帧的重构图片It+1′;
步骤M7.3.2:利用第二帧图像It和重构的图像It+1′之间的差距计算图像重建损失L,计算公式如下:
步骤M7.3.3:根据计算图像重建损失Et,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即图像重建损失不在降低时,停止训练。
步骤M8:通过场景流,位姿的反向传播连接深度网络、场景流-位姿网络。
所述步骤M8包括:
步骤M8.1:通过反向传播连接深度网络、场景流-位姿网络,实现场景流-位姿网络和深度网络之间的联合学习,场景流与深度之间的反向传播公式如下:
其中θ1为深度网络的参数,θ2为场景流网络的参数,θ3为位姿网络的参数,表示场景流网络,/>表示深度网络,E=λ1Epc+λ2Esf,而λ1,λ2表示对场景流损失Epc和Esf的加权。
附图说明
图1为本发明的流程图;
图2为伪点云与激光雷达点云融合方法示意图;
图3为伪点云和激光雷达点云分层特征提取再融合方法示意图;
图4为全场景流模型及其与光流的关系。其中静态场景流SFs,动态场景流SFd和整体场景流SFo,虚线表示2D光流矢量,实线表示3D场景流矢量,3D点在2D平面上的投影被标记为u;
图5为基于点云重建损失的深度网络,场景流-位姿网络的联合无监督学习方法的流程图。
具体实施方法
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统,包括如下步骤:
步骤M1:对于连续的两帧单目图像It、It+1,利用深度网络生成深度图Dt、Dt+1;
步骤M2:利用生成的两帧深度图Dt、Dt+1,分别生成两帧图像的空间伪点云PC1,PC2;
步骤M3:将空间伪点云PC1,PC2和t、t+1时刻的激光雷达点云Q1,Q2分别生成L层金字塔,对于每一层,使用最远点采样将点从上一层向下采样4倍;
步骤M4:将第L层的伪点云PC1和激光雷达点云Q1进行融合,伪点云PC2和激光雷达点云Q2进行融合;
所述步骤M4包括:
步骤M4.1:对于每个点pi∈PC1选择K个最近邻Ci={ci k={yi k,gi k}|k=1,....,K},其中Ci∈Q1,Q1中的K个点Ci用于对点的运动信息进行编码并将编码信息嵌入到pi中,并更新pi点的特征fi为ei,最终输出的融合点云为O={oi={xi,ei}|i=1,....,n1};
步骤4.2:对于每个点bi∈PC2选择K个最近邻Di={di k={wi k,zi k}|k=1,....,K},其中Di∈Q2,Q2中的K个点Di用于对点的运动信息进行编码并将编码信息嵌入到bi中,并更新bi点的特征hi为ai,最终输出的融合点云为S={si={vi,ai}|i=1,....,n3};
其中PC1={pi={xi,fi|i=1,....,n1}},Q2={qi={yi,gi|i=1,....,n2}},PC2={bi={vi,hi|i=1,....,n3}},Q2={di={wi,zi|i=1,....,n4}},xi,yi,vi,di∈R3表示三维坐标,fi,gi,hi,zi∈Rc表示点的特征。该层输出为O={oi={xi,ei}|i=1,....,n1}、S={si={vi,ai}|i=1,....,n3}。
步骤M5:将第L层融合之后的点云O,S输入场景流-位姿网络,场景流-位姿网络的编码器对融合点云静态特征和动态特征进行分割生成掩膜M以区分伪点云的动静态特征;
所述步骤M5包括:
步骤M5.1:通过关联两个融合点云O,S生成两个点云之间的嵌入特征R,嵌入特征包含两个点云之间的点相关信息;
步骤M5.2:嵌入特征R和融合点云的特征E被输入到共享MLP,沿着点维度进行Softmax操作以获得嵌入掩码,计算公式如下:
其中表示两个向量的连接。
步骤M6:场景流-位姿网络使用两个独立的解码器分别估计位姿和动态场景流并进行逐层细化;
所述步骤M6包括:
步骤M6.1:第一帧图像的融合点云O经过第L+1层的粗糙场景流变换后得到第二帧图像的融合点云Sω,融合点云Sω的计算公式如下:
sω,i=oi+sfo,i
其中第L+1层输出的粗糙场景流表示为变换后的点云表示为/>
步骤M6.2:重新计算和Ol之间的嵌入特征并表示为REl,利用嵌入特征R、重嵌入特征RE和第L层融合点云Ol的特征el进行第L层嵌入特征的细化,细化之后的嵌入特征表示为/>
步骤M6.3:利用细化嵌入特征Rl、粗嵌入掩膜M和第L层融合点云Ol的特征el对第L层嵌入掩膜进行细化,细化之后的掩膜表示为
步骤M6.4:将场景流-位姿网络编码器的输出用掩膜Ml∈(0,1)进行加权,该掩膜说明了点云符合静态特征情况,即掩膜Ml对点云中的动态点进行过滤,之后输入位姿解码器NT得到细化的相机自我运动的位姿;
其中表示点积;
步骤M6.5:为了获得每一层估计的场景流,对于场景流-位姿网络编码器的输出用掩膜(1-Ml)∈(0,1)进行反向加权,即掩膜(1-Ml)对点云中的静态点进行过滤,之后输入场景流解码器Nsf得到细化的动态场景流。
步骤M7:根据生成的场景流,位姿指导场景流-位姿网络的训练,生成的深度指导深度网络的训练;
所述步骤M7包括:
步骤M7.1:基于场景流一致性的深度网络、场景流-位姿网络监督学习;
步骤M7.2:基于点云重建损失的深度网络、场景流-位姿网络无监督学习;
步骤M7.3:基于图像重建损失的场景流-位姿网络无监督学习;
步骤M7.4:利用激光雷达提供的稀疏深度对深度网络进行无监督学习,其损失表示为Ldepth;
所述步骤M7.1包括:
步骤7.1.1:步骤7.1.1:结合场景流-位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的融合点云S在第一帧相机坐标系下的点云S1,则相机运动引起的静态场景流SFS的计算公式如下:
SFS=S-S1
步骤7.1.2:将生成的动、静态场景流相加得到两个点云间整体场景流;
SFO=SFd+SFS
步骤7.1.3利用整体场景流SFO和场景流真值SFgt之间的差异计算场景流一致性损失Esf;
步骤7.1.5:根据计算一致性损失Esf,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即一致性损失不在降低时,停止训练。
所述步骤M7.2包括:
步骤M7.2.1:利用整体场景流SF0,第一帧图像的融合点云O经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的点云S′,计算公式如下:
SFS=S-S1
SFO=SFd+SFS
S′=SFO+O
步骤M7.2.2:利用第二帧图像的融合点云S和重构的点云S′之间的差距计算点云重构损失Epc,并用可见度掩膜V来估计场景流SF0的遮挡情况;
步骤7.2.3:根据计算点云重构损失EPC,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即点云重构损失不在降低时,停止训练。
所述步骤M7.3包括:
步骤M7.3.1:利用生成的位姿,第一帧图像经It位姿变换后得到第二帧的重构图片It+1′;
步骤M7.3.2:利用第二帧图像It和重构的图像It+1′之间的差距计算图像重建损失L,计算公式如下:
步骤M7.3.3:根据计算图像重建损失Et,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即图像重建损失不在降低时,停止训练。
步骤M8:根据生成的位姿指导深度网络,场景流-位姿网络的训练
所述步骤M8包括:
步骤M8.1:通过反向传播连接深度网络、场景流-位姿网络,实现场景流-位姿网络和深度网络之间的联合学习,场景流与深度之间的反向传播公式如下:
其中θ1为深度网络的参数,θ2为场景流网络的参数,θ3为位姿网络的参数,表示场景流网络,/>表示深度网络,E=λ1Epc+λ2Esf,而λ1,λ2表示对场景流损失Epc和Esf的加权。
Claims (8)
1.基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,包括:
步骤M1:对于连续的两帧单目图像It、It+1,利用深度网络生成深度图Dt、Dt+1;
步骤M2:利用生成的两帧深度图Dt、Dt+1,分别生成两帧图像的空间伪点云PC1,PC2;
步骤M3:将空间伪点云PC1,PC2和t、t+1时刻的激光雷达点云Q1,Q2分别生成L层金字塔,对于每一层,使用最远点采样将点从上一层向下采样4倍;
步骤M4:将第L层的伪点云PC1和激光雷达点云Q1进行融合,伪点云PC2和激光雷达点云Q2进行融合;
步骤M5:将第L层融合之后的点云O,S输入场景流-位姿网络,场景流-位姿网络的编码器对融合点云静态特征和动态特征进行分割生成掩膜M以区分伪点云的动静态特征;
步骤M6:之后场景流-位姿网络使用两个独立的解码器分别估计位姿和动态场景流并进行逐层细化;
步骤M7:根据生成的场景流,位姿指导场景流-位姿网络的训练,生成的深度指导深度网络的训练;
步骤M8:通过场景流,位姿的反向传播连接深度网络、场景流-位姿网络;
所述步骤M6包括:
步骤M6.1:第一帧图像的融合点云O经过第L+1层的粗糙场景流变换后得到第二帧图像的融合点云Sω,融合点云Sω的计算公式如下:
sω,i=oi+sfo,i
其中第L+1层输出的粗糙场景流表示为变换后的点云表示为
步骤M6.2:重新计算和Ol之间的嵌入特征并表示为REl,利用嵌入特征R、重嵌入特征REl和第L层融合点云Ol的特征el进行第L层嵌入特征的细化,细化之后的嵌入特征表示为
步骤M6.3:利用细化嵌入特征Rl、粗嵌入掩膜M和第L层融合点云Ol的特征el对第L层嵌入掩膜进行细化,细化之后的掩膜表示为
步骤M6.4:将场景流-位姿网络编码器的输出用掩膜Ml∈(0,1)进行加权,该掩膜说明了点云符合静态特征情况,即掩膜Ml对点云中的动态点进行过滤,之后输入位姿解码器NT得到细化的相机自我运动的位姿;
其中表示点积;
步骤M6.5:为了获得每一层估计的场景流,对于场景流-位姿网络编码器的输出用掩膜(1-Ml)∈(0,1)进行反向加权,即掩膜(1-Ml)对点云中的静态点进行过滤,之后输入场景流解码器Nsf得到细化的动态场景流
2.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M4包括:
步骤M4.1:对于每个点pi∈PC1选择K个最近邻Ci={ci k={yi k,gi k}|k=1,....,K},其中Ci∈Q1,Q1中的K个点Ci用于对点的运动信息进行编码并将编码信息嵌入到pi中,并更新pi点的特征fi为ei,最终输出的融合点云为O={oi={xi,ei}|i=1,....,n1};
步骤4.2:对于每个点bi∈PC2选择K个最近邻Di={di k={wi k,zi k}|k=1,....,K},其中Di∈Q2,Q2中的K个点Di用于对点的运动信息进行编码并将编码信息嵌入到bi中,并更新bi点的特征hi为ai,最终输出的融合点云为S={si={vi,ai}|i=1,....,n3};
其中PC1={pi={xi,fi|i=1,....,n1}},Q2={qi={yi,gi|i=1,....,n2}},PC2={bi={vi,hi|i=1,....,n3}},Q2={di={wi,zi|i=1,....,n4}},xi,yi,vi,di∈R3表示三维坐标,fi、gi、hi、zi∈Rc表示点的特征,该层输出为O={oi={xi,ei}|i=1,....,n1}、S={si={vi,ai}|i=1,....,n3}。
3.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M5包括:
步骤M5.1:通过关联两个融合点云O,S生成两个点云之间的嵌入特征R,嵌入特征包含两个点云之间的点相关信息;
步骤M5.2:嵌入特征R和融合点云O的特征E被输入到共享MLP,沿着点维度进行Softmax操作以获得嵌入掩膜,计算公式如下:
其中表示两个向量的连接。
4.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M7包括:
步骤M7.1:基于场景流一致性的场景流-位姿网络的监督学习;
步骤M7.2:基于点云重建损失的场景流-位姿网络无监督学习;
步骤M7.3:基于图像重建损失的场景流-位姿网络无监督学习;
步骤M7.4:利用激光雷达提供的稀疏深度对深度网络进行监督学习,其损失表示为Ldepth。
5.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M7.1包括:
步骤7.1.1:结合场景流-位姿网络得到的位姿变换,利用相机模型计算出第二帧图像的融合点云S在第一帧相机坐标系下的点云S1,则相机运动引起的静态场景流SFS的计算公式如下:
SFS=S-S1
步骤7.1.2:将生成的动、静态场景流相加得到两个点云间整体场景流;
SFO=SFd+SFS
步骤7.1.3:利用整体场景流SFO和场景流真值SFgt之间的差异计算场景流一致性损失Esf;
步骤7.1.4:根据计算一致性损失Esf,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即一致性损失不在降低时,停止训练。
6.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M7.2包括:
步骤M7.2.1:利用整体场景流SF0,第一帧图像的融合点云O经场景流变换后得到第二帧图像的融合点云S′,计算公式如下:
SFS=S-S1
SFO=SFd+SFS
S′=SFO+O
步骤M7.2.2:利用第二帧图像的融合点云S和重构的点云S′之间的差距计算点云重构损失Epc,并用可见度掩膜V来估计场景流SF0的遮挡情况;
步骤7.2.3:根据计算点云重构损失EPC,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即点云重构损失不在降低时,停止训练。
7.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M7.3包括:
步骤M7.3.1:利用生成的位姿,第一帧图像经It位姿变换后得到第二帧的重构图片It+1′;
步骤M7.3.2:利用第二帧图像It和重构的图像It+1′之间的差距计算图像重建损失L,计算公式如下:
步骤M7.3.3:根据计算图像重建损失Et,利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度,通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新,实现深度网络、场景流-位姿网络的训练,当深度网络、场景流-位姿网络收敛,即图像重建损失不在降低时,停止训练。
8.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法,其特征在于,所述步骤M8包括:
步骤M8.1:通过反向传播连接深度网络、场景流-位姿网络,实现场景流-位姿网络和深度网络之间的联合学习,场景流与深度之间的反向传播公式如下:
其中θ1为深度网络的参数,θ2为场景流网络的参数,θ3为位姿网络的参数,表示场景流网络,/>表示深度网络,E=λ1Epc+λ2Esf,而λ1,λ2表示对场景流损失Epc和Esf的加权,Ldepth为利用激光雷达提供的稀疏深度对深度网络进行监督学习的损失,L为利用第二帧图像It和重构的图像It+1′之间的差距计算图像重建损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421794.9A CN113284173B (zh) | 2021-04-20 | 2021-04-20 | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421794.9A CN113284173B (zh) | 2021-04-20 | 2021-04-20 | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284173A CN113284173A (zh) | 2021-08-20 |
CN113284173B true CN113284173B (zh) | 2023-12-19 |
Family
ID=77276864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110421794.9A Active CN113284173B (zh) | 2021-04-20 | 2021-04-20 | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284173B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494332B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种无监督的合成到真实LiDAR点云场景流估计方法 |
CN114627351B (zh) * | 2022-02-18 | 2023-05-16 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN117214860B (zh) * | 2023-08-14 | 2024-04-19 | 北京科技大学顺德创新学院 | 基于孪生特征金字塔和地面分割的激光雷达里程计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683125A (zh) * | 2017-01-11 | 2017-05-17 | 中国矿业大学 | 一种基于2d/3d模态切换的rgb‑d图像配准方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
CN110910437A (zh) * | 2019-11-07 | 2020-03-24 | 大连理工大学 | 一种复杂室内场景的深度预测方法 |
CN111161202A (zh) * | 2019-12-30 | 2020-05-15 | 上海眼控科技股份有限公司 | 车辆行为信息获取方法、装置、计算机设备和存储介质 |
CN111325843A (zh) * | 2020-03-09 | 2020-06-23 | 北京航空航天大学 | 一种基于语义逆深度滤波的实时语义地图构建方法 |
CN111814683A (zh) * | 2020-07-09 | 2020-10-23 | 北京航空航天大学 | 一种基于语义先验和深度学习特征的鲁棒视觉slam方法 |
CN112132897A (zh) * | 2020-09-17 | 2020-12-25 | 中国人民解放军陆军工程大学 | 一种基于深度学习之语义分割的视觉slam方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10986325B2 (en) * | 2018-09-12 | 2021-04-20 | Nvidia Corporation | Scene flow estimation using shared features |
-
2021
- 2021-04-20 CN CN202110421794.9A patent/CN113284173B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683125A (zh) * | 2017-01-11 | 2017-05-17 | 中国矿业大学 | 一种基于2d/3d模态切换的rgb‑d图像配准方法 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
CN110910437A (zh) * | 2019-11-07 | 2020-03-24 | 大连理工大学 | 一种复杂室内场景的深度预测方法 |
CN111161202A (zh) * | 2019-12-30 | 2020-05-15 | 上海眼控科技股份有限公司 | 车辆行为信息获取方法、装置、计算机设备和存储介质 |
CN111325843A (zh) * | 2020-03-09 | 2020-06-23 | 北京航空航天大学 | 一种基于语义逆深度滤波的实时语义地图构建方法 |
CN111814683A (zh) * | 2020-07-09 | 2020-10-23 | 北京航空航天大学 | 一种基于语义先验和深度学习特征的鲁棒视觉slam方法 |
CN112132897A (zh) * | 2020-09-17 | 2020-12-25 | 中国人民解放军陆军工程大学 | 一种基于深度学习之语义分割的视觉slam方法 |
Non-Patent Citations (4)
Title |
---|
Pseudo-LiDAR for Visual Odometry;Deng H等;《arXiv preprint》;第14卷(第8期);1-8 * |
Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving;Yan Wang等;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;8445-8453 * |
动态特征和静态特征自适应融合的目标跟踪算法;张立朝等;《西安电子科技大学学报(自然科学版)》(第6期);164-172 * |
基于三维点云分析的智能汽车目标检测方法研究;胡方超;《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》(第1期);C035-27 * |
Also Published As
Publication number | Publication date |
---|---|
CN113284173A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113284173B (zh) | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
US10991156B2 (en) | Multi-modal data fusion for enhanced 3D perception for platforms | |
CN108986136B (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
Tian et al. | Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint | |
CN111563415A (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN110782490A (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN113313732A (zh) | 一种基于自监督学习的前视场景深度估计方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN116228962A (zh) | 大场景神经视图合成 | |
CN113436254B (zh) | 一种级联解耦的位姿估计方法 | |
CN115049794A (zh) | 通过深度补全生成稠密的全局点云图方法及系统 | |
CN107767393B (zh) | 一种面向移动硬件的场景流估计方法 | |
CN116152442B (zh) | 一种三维点云模型生成方法及装置 | |
CN117132952A (zh) | 一种基于多摄像头的鸟瞰视角车辆感知系统 | |
Bhutani et al. | Unsupervised Depth and Confidence Prediction from Monocular Images using Bayesian Inference | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
Zhang et al. | A self-supervised monocular depth estimation approach based on uav aerial images | |
Khan et al. | A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data | |
CN117058474B (zh) | 一种基于多传感器融合的深度估计方法及系统 | |
CN117078851A (zh) | 一种单视图三维点云重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |