CN113284173B

CN113284173B - 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法

Info

Publication number: CN113284173B
Application number: CN202110421794.9A
Authority: CN
Inventors: 邓慧颖; 王光明; 缪燕子; 王贺升
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-12-19
Anticipated expiration: 2041-04-20
Also published as: CN113284173A

Abstract

本发明提供了一种基于伪激光雷达的端到端的场景流、位姿联合学习方法，其过程为，首先利用深度网络获得连续两帧单目图像的深度图，并将深度图生成两帧图像对应的伪点云，再将伪点云和激光雷达点云分别生成L层金字塔，在对伪点云和激光雷达点云进行逐层融合之后输入场景流‑位姿网络，实现场景流和位姿的联合估计。本发明采用了深度学习方法，端到端地进行位姿及场景流学习，使用了伪点云和激光雷达点云分层特征提取再融合的方法，并利用分割掩膜实现动态场景流和位姿的联合学习。本发明对伪点云和激光雷达点云进行融合，提高了网络估计的准确性，有利于实际应用。

Description

一种基于伪激光雷达的端到端的场景流、位姿联合学习方法

技术领域

本发明涉及计算机视觉，具体地，涉及一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统。

背景技术

场景流是三维稠密运动场，表示实际场景中每个点的3D运动。场景流结合立体空间的深度信息和传统的光流信息，实现了较好的场景适应性，场景流估计可以广泛应用于自主驾驶、运动分割、动作识别等领域。

深度估计是预测一帧图像中每个像素点的深度，在诸如增强现实、3D重建、自动驾驶汽车、位置识别等广泛的领域中都有应用。从单目图像中恢复三维深度是计算机视觉中的一个基本问题，早期的方法使用特征向量和概率模型来提供单目线索。后来，随着深度网络的出现，提出了各种系统来以监督的方式从地面真实深度图中学习单目深度估计。

位姿估计是一个长期存在的视觉问题。传统方法利用手工制作的描述符计算后续的基本矩阵。最近，随着深度学习在计算机视觉领域的应用，深度神经网络在特征提取和相邻帧之间的密集对应估计方面取得了较好的效果。

发明内容

本发明的目的是提供一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统。

根据本发明提供的一种基于伪激光雷达的端到端的场景流、位姿联合学习方法，包括：

步骤M1：对于连续的两帧单目图像I_t、I_t+1，利用深度网络生成深度图D_t、D_t+1；

步骤M2：利用生成的两帧深度图D_t、D_t+1，分别生成两帧图像的空间伪点云PC₁，PC₂；

步骤M3：将空间伪点云PC₁，PC₂和t、t+1时刻的激光雷达点云Q₁，Q₂分别生成L层金字塔，对于每一层，使用最远点采样将点从上一层向下采样4倍；

步骤M4：将第L层的伪点云PC₁和激光雷达点云Q₁进行融合，伪点云PC₂和激光雷达点云Q₂进行融合；

所述步骤M4包括：

步骤M4.1：对于每个点p_i∈PC₁选择K个最近邻C_i＝{c_i ^k＝{y_i ^k,g_i ^k}|k＝1,....,K}，其中C_i∈Q₁，Q₁中的K个点C_i用于对点的运动信息进行编码并将编码信息嵌入到p_i中，并更新p_i点的特征f_i为e_i，最终输出的融合点云为O＝{o_i＝{x_i,e_i}|i＝1,....,n₁}；

步骤4.2：对于每个点b_i∈PC₂选择K个最近邻D_i＝{d_i ^k＝{w_i ^k,z_i ^k}|k＝1,....,K}，其中D_i∈Q₂，Q₂中的K个点D_i用于对点的运动信息进行编码并将编码信息嵌入到b_i中，并更新b_i点的特征h_i为a_i，最终输出的融合点云为S＝{s_i＝{v_i,a_i}|i＝1,....,n₃}；

其中PC₁＝{p_i＝{x_i,f_i|i＝1,....,n₁}}，Q₂＝{q_i＝{y_i,g_i|i＝1,....,n₂}}，PC₂＝{b_i＝{v_i,h_i|i＝1,....,n₃}}，Q₂＝{d_i＝{w_i,z_i|i＝1,....,n₄}}，x_i,y_i,v_i,d_i∈R³表示三维坐标，f_i,g_i,h_i,z_i∈R^c表示点的特征。该层输出为O＝{o_i＝{x_i,e_i}|i＝1,....,n₁}、S＝{s_i＝{v_i,a_i}|i＝1,....,n₃}。

步骤M5：将第L层融合之后的点云O，S输入场景流-位姿网络，场景流-位姿网络的编码器对融合点云静态特征和动态特征进行分割生成掩膜M以区分伪点云的动静态特征；

所述步骤M5包括：

步骤M5.1：通过关联两个融合点云O，S生成两个点云之间的嵌入特征R，嵌入特征包含两个点云之间的点相关信息。

步骤M5.2：嵌入特征R和融合点云的特征E被输入到共享MLP，沿着点维度进行Softmax操作以获得嵌入掩码，计算公式如下：

其中表示两个向量的连接。

步骤M6：场景流-位姿网络使用两个独立的解码器分别估计位姿和动态场景流并进行逐层细化；

所述步骤M6包括：

步骤M6.1：第一帧图像的融合点云O经过第L+1层的粗糙场景流变换后得到第二帧图像的融合点云S_ω，融合点云S_ω的计算公式如下：

s_ω,i＝o_i+sf_o,i

其中第L+1层输出的粗糙场景流表示为变换后的点云表示为/>

步骤M6.2：重新计算和O^l之间的嵌入特征并表示为RE^l，利用嵌入特征R、重嵌入特征RE和第L层融合点云O^l的特征e^l进行第L层嵌入特征的细化，细化之后的嵌入特征表示为/>

步骤M6.3：利用细化嵌入特征R^l、粗嵌入掩膜M和第L层融合点云O^l的特征e^l对第L层嵌入掩膜进行细化，细化之后的掩膜表示为

步骤M6.4：将场景流-位姿网络编码器的输出用掩膜M^l∈(0,1)进行加权，该掩膜说明了点云符合静态特征情况，即掩膜M^l对点云中的动态点进行过滤，之后输入位姿解码器N_T得到细化的相机自我运动的位姿；

其中表示点积；

步骤M6.5：为了获得每一层估计的场景流，对于场景流-位姿网络编码器的输出用掩膜(1-M^l)∈(0,1)进行反向加权，即掩膜(1-M^l)对点云中的静态点进行过滤，之后输入场景流解码器N_sf得到细化的动态场景流。

步骤M7：根据生成的场景流，位姿指导场景流-位姿网络的训练，生成的深度指导深度网络的训练；

所述步骤M7包括：

步骤M7.1：基于场景流一致性的深度网络、场景流-位姿网络监督学习；

步骤M7.2：基于点云重建损失的深度网络、场景流-位姿网络无监督学习；

步骤M7.3：基于图像重建损失的场景流-位姿网络无监督学习；

步骤M7.4：利用激光雷达提供的稀疏深度对深度网络进行无监督学习，其损失表示为L_depth；

所述步骤M7.1包括：

步骤7.1.1：步骤7.1.1：结合场景流-位姿网络得到的位姿变换，利用相机模型计算出第二帧图像的融合点云S在第一帧相机坐标系下的点云S₁，则相机运动引起的静态场景流SF_S的计算公式如下：

SF_S＝S-S₁

步骤7.1.2：将生成的动、静态场景流相加得到两个点云间整体场景流；

SF_O＝SF_d+SF_S

步骤7.1.3利用整体场景流SF_O和场景流真值SF_gt之间的差异计算场景流一致性损失E_sf；

步骤7.1.5：根据计算一致性损失E_sf，利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度，通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新，实现深度网络、场景流-位姿网络的训练，当深度网络、场景流-位姿网络收敛，即一致性损失不在降低时，停止训练。

所述步骤M7.2包括：

步骤M7.2.1：利用整体场景流SF₀，第一帧图像的融合点云O经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的点云S′，计算公式如下：

SF_S＝S-S₁

SF_O＝SF_d+SF_S

S′＝SF_O+O

步骤M7.2.2：利用第二帧图像的融合点云S和重构的点云S′之间的差距计算点云重构损失E_pc，并用可见度掩膜V来估计场景流SF₀的遮挡情况；

步骤7.2.3：根据计算点云重构损失E_PC，利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度，通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新，实现深度网络、场景流-位姿网络的训练，当深度网络、场景流-位姿网络收敛，即点云重构损失不在降低时，停止训练。

所述步骤M7.3包括：

步骤M7.3.1：利用生成的位姿，第一帧图像经I_t位姿变换后得到第二帧的重构图片I_t+1′；

步骤M7.3.2：利用第二帧图像I_t和重构的图像I_t+1′之间的差距计算图像重建损失L，计算公式如下：

步骤M7.3.3：根据计算图像重建损失E_t，利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度，通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新，实现深度网络、场景流-位姿网络的训练，当深度网络、场景流-位姿网络收敛，即图像重建损失不在降低时，停止训练。

步骤M8：通过场景流，位姿的反向传播连接深度网络、场景流-位姿网络。

所述步骤M8包括：

步骤M8.1：通过反向传播连接深度网络、场景流-位姿网络，实现场景流-位姿网络和深度网络之间的联合学习，场景流与深度之间的反向传播公式如下：

其中θ₁为深度网络的参数，θ₂为场景流网络的参数，θ₃为位姿网络的参数，表示场景流网络，/>表示深度网络，E＝λ₁E_pc+λ₂E_sf，而λ₁，λ₂表示对场景流损失E_pc和E_sf的加权。

附图说明

图1为本发明的流程图；

图2为伪点云与激光雷达点云融合方法示意图；

图3为伪点云和激光雷达点云分层特征提取再融合方法示意图；

图4为全场景流模型及其与光流的关系。其中静态场景流SF_s，动态场景流SF_d和整体场景流SF_o，虚线表示2D光流矢量，实线表示3D场景流矢量，3D点在2D平面上的投影被标记为u；

图5为基于点云重建损失的深度网络，场景流-位姿网络的联合无监督学习方法的流程图。

具体实施方法

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种基于伪激光雷达的端到端的场景流、位姿联合学习方法及系统，包括如下步骤：

所述步骤M4包括：

所述步骤M5包括：

步骤M5.1：通过关联两个融合点云O，S生成两个点云之间的嵌入特征R，嵌入特征包含两个点云之间的点相关信息；

其中表示两个向量的连接。

所述步骤M6包括：

s_ω,i＝o_i+sf_o,i

其中第L+1层输出的粗糙场景流表示为变换后的点云表示为/>

其中表示点积；

所述步骤M7包括：

所述步骤M7.1包括：

SF_S＝S-S₁

SF_O＝SF_d+SF_S

所述步骤M7.2包括：

SF_S＝S-S₁

SF_O＝SF_d+SF_S

S′＝SF_O+O

所述步骤M7.3包括：

步骤M8：根据生成的位姿指导深度网络，场景流-位姿网络的训练

所述步骤M8包括：

Claims

1.基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，包括：

步骤M6：之后场景流-位姿网络使用两个独立的解码器分别估计位姿和动态场景流并进行逐层细化；

步骤M8：通过场景流，位姿的反向传播连接深度网络、场景流-位姿网络；

所述步骤M6包括：

s_ω,i＝o_i+sf_o,i

其中第L+1层输出的粗糙场景流表示为变换后的点云表示为

步骤M6.2：重新计算和O^l之间的嵌入特征并表示为RE^l，利用嵌入特征R、重嵌入特征RE^l和第L层融合点云O^l的特征e^l进行第L层嵌入特征的细化，细化之后的嵌入特征表示为

其中表示点积；

步骤M6.5：为了获得每一层估计的场景流，对于场景流-位姿网络编码器的输出用掩膜(1-M^l)∈(0,1)进行反向加权，即掩膜(1-M^l)对点云中的静态点进行过滤，之后输入场景流解码器N_sf得到细化的动态场景流

2.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M4包括：

其中PC₁＝{p_i＝{x_i,f_i|i＝1,....,n₁}}，Q₂＝{q_i＝{y_i,g_i|i＝1,....,n₂}}，PC₂＝{b_i＝{v_i,h_i|i＝1,....,n₃}}，Q₂＝{d_i＝{w_i,z_i|i＝1,....,n₄}}，x_i,y_i,v_i,d_i∈R³表示三维坐标，f_i、g_i、h_i、z_i∈R^c表示点的特征，该层输出为O＝{o_i＝{x_i,e_i}|i＝1,....,n₁}、S＝{s_i＝{v_i,a_i}|i＝1,....,n₃}。

3.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M5包括：

步骤M5.2：嵌入特征R和融合点云O的特征E被输入到共享MLP，沿着点维度进行Softmax操作以获得嵌入掩膜，计算公式如下：

其中表示两个向量的连接。

4.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M7包括：

步骤M7.1：基于场景流一致性的场景流-位姿网络的监督学习；

步骤M7.2：基于点云重建损失的场景流-位姿网络无监督学习；

步骤M7.4：利用激光雷达提供的稀疏深度对深度网络进行监督学习，其损失表示为L_depth。

5.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M7.1包括：

步骤7.1.1：结合场景流-位姿网络得到的位姿变换，利用相机模型计算出第二帧图像的融合点云S在第一帧相机坐标系下的点云S₁，则相机运动引起的静态场景流SF_S的计算公式如下：

SF_S＝S-S₁

SF_O＝SF_d+SF_S

步骤7.1.3：利用整体场景流SF_O和场景流真值SF_gt之间的差异计算场景流一致性损失E_sf；

步骤7.1.4：根据计算一致性损失E_sf，利用反向传播算法得到深度网络、场景流-位姿网络中每个参数的梯度，通过梯度下降算法实现深度网络、场景流-位姿网络的参数的更新，实现深度网络、场景流-位姿网络的训练，当深度网络、场景流-位姿网络收敛，即一致性损失不在降低时，停止训练。

6.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M7.2包括：

步骤M7.2.1：利用整体场景流SF₀，第一帧图像的融合点云O经场景流变换后得到第二帧图像的融合点云S′，计算公式如下：

SF_S＝S-S₁

SF_O＝SF_d+SF_S

S′＝SF_O+O

7.根据权利要求4所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M7.3包括：

8.根据权利要求1所述的基于伪激光雷达的端到端的场景流、位姿联合学习方法，其特征在于，所述步骤M8包括：

其中θ₁为深度网络的参数，θ₂为场景流网络的参数，θ₃为位姿网络的参数，表示场景流网络，/>表示深度网络，E＝λ₁E_pc+λ₂E_sf，而λ₁，λ₂表示对场景流损失E_pc和E_sf的加权,L_depth为利用激光雷达提供的稀疏深度对深度网络进行监督学习的损失，L为利用第二帧图像I_t和重构的图像I_t+1′之间的差距计算图像重建损失。