CN111311664A

CN111311664A - 一种深度、位姿与场景流的联合无监督估计方法及系统

Info

Publication number: CN111311664A
Application number: CN202010140536.9A
Authority: CN
Inventors: 王贺升; 王光明; 张弛; 田晓宇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-19
Anticipated expiration: 2040-03-03
Also published as: CN111311664B

Abstract

本发明提供了一种深度、位姿与场景流的联合无监督估计方法及系统，包括：步骤M1：对连续两帧图像，根据深度网络得到对应的两帧深度图；步骤M2：根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换；步骤M3：根据两帧间的位姿变换，结合相机模型得到在第一帧相机坐标系下，第一帧图像的空间点云

以及在第二帧相机坐标系下第二帧图像的空间点云

步骤M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

指导深度网络、位姿网络和场景流网络的训练，实现无监督学习；本发明解决了场景流网络、深度网络、位姿网络的训练过程中缺乏标注数据集的问题，降低了训练模型的成本，并实现了较高的准确性，有利于实际应用。

Description

一种深度、位姿与场景流的联合无监督估计方法及系统

技术领域

本发明涉及计算机视觉领域，具体地，涉及一种无监督学习方法及系统，更为具体地，涉及一种基于深度网络、位姿网络与场景流网络的联合无监督学习方法。

背景技术

深度估计是预测一帧图像中每个像素点的深度，通过深度估计可以通过图像获得环境的三维空间信息，因此深度估计在无人驾驶领域等有较为广泛的应用。早期的深度估计集中于立体图形，通过设计基于几何学的算法来估计深度，而随着近期深度学习在图像识别领域的应用，应用卷积神经网络提取图像的深度信息取得了较好的成果。

位姿估计在计算机视觉领域有深远的意义，但也是一项巨大的挑战：给定若干传感器检测到的图像信息，想要得到传感器的运动信息，需要排除尺度变换、遮挡、模糊与噪声、光照等等因素的干扰。

目前在运动图像分析的研究中，场景流法成为了一种新兴起的研究方法。场景流结合立体空间的深度信息与传统的光流信息，实现了较好的场景适应性，且无需先验知识，在运动目标检测任务中表现良好。此外，它可以补充和改进最先进的视觉测距和SLAM算法，在机器人技术中用于实现动态环境中的自主导航与操纵。

本发明提出一种深度网络、位姿网络与场景流网络的联合无监督学习方法：基于场景流变换一致性损失与点云重建损失，在训练过程中场景流网络与深度网络、位姿网络间相互监督，起到联合训练的效果。采用无监督学习方法，无需带有标注的数据集，可以降低学习的成本，最终实现了较高的准确性。

名词解释：

点云：对于某一帧图像的深度图，结合相机内参，可以将深度图中的每一个像素点投影到该帧相机坐标系下的三维空间中。点云即三维坐标系下所有投影点的集合，点云包含丰富的信息，如三维坐标、RGB颜色值等等，在测绘、自动驾驶、医疗等领域有较为广泛的应用。

场景流与场景流网络：场景流把对物体的运动估计由二维推广至三维，可以反应空间中物体运动形成的三维运动场，本文中场景流为点云在三维坐标系下发生的相对位移，包括由于相机运动引起的静态场景流，点云自运动引起的动态场景流，以及包含两者的整体场景流。场景流网络可通过输入两帧图像对应的空间点云，给出两点云间的场景流，实现场景流估计。

图像深度与深度网络：图像深度是2D图像中每个像素点的深度信息。单目深度估计是只通过单帧图像获得图像的深度，相当于从二维图像推测出三维空间，其难度非常大。目前较为流行的研究方法是利用卷积神经网络估计深度，向神经网络输入单帧图像，网络对深度进行估计并输出该帧图像对应深度图。深度估计在3D建模、场景识别等领域有较大应用。

位姿估计与位姿网络：位姿估计是指给定若干图像，估计拍摄图像的相机的运动问题。通过位姿变换，可以从当前相机的位置与拍摄角度推演得到下一时刻相机的位置与拍摄角度。位姿网络通过输入两帧的图像，输出相机从第一帧运动至第二帧过程中的位姿变换。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种深度、位姿与场景流的联合无监督估计方法及系统。

根据本发明提供的一种深度、位姿与场景流的联合无监督估计方法，包括：

步骤M1：对连续两帧图像，根据深度网络得到对应的两帧深度图；

步骤M2：根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换；

步骤M3：根据两帧间的位姿变换，结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云

以及在第二帧相机坐标系下第二帧图像的空间点云

步骤M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

指导深度网络、位姿网络和场景流网络的训练，实现无监督学习下的联合训练；

所述相机模型是根据小孔成像原理，利用线性方程组实现物体的空间坐标和相机坐标间的相互转换。

优选地，所述步骤M4包括：

步骤M4.1：基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习；

步骤M4.2：基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。

优选地，所述步骤M4.1包括：

步骤M4.1.1：结合位姿网络得到的位姿变换，利用相机模型计算出第二帧图像的空间点云

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

步骤M4.1.2：向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x，y；

步骤M4.1.3：向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

步骤M4.1.4：利用整体场景流sf_o与静态场景流sf_s和动态场景流sf_d之和的差异计算场景流变换一致性损失，通过计算得到的一致性损失；

所述场景流变换一致性损失计算公式如下：

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

其中，m_i表示变量m在i方向上的值，n_i表示变量n在i方向上的值，i∈{x，y，z}，表示空间坐标系下三个相互垂直的方向；ε，q表示参数；

步骤M4.1.5：通过计算得到的一致性损失，利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度，再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新，实现深度网络、位姿网络和场景流网络的训练，当深度网络、位姿网络和场景流网络收敛时，即损失不再降低时，停止训练。

优选地，所述步骤M4.2包括：

步骤M4.2.1：利用场景流网络，第一帧图像空间点云

经场景流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云

计算公式如下：

其中，

表示第二帧图像中的像素在第二帧相机坐标系下的空间点云；

步骤M4.2.2：利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_pc-a；

步骤M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

所述静态场景流sf_s为上述模块M4.1.1所得，动态场景流sf_d′为下述步骤M4.2.3.2算法所得。根据空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

步骤M4.2.4：由整体场景流点云重建损失E_pc-a和动静态场景流点云重建损失E_Pc-b，计算总点云重建损失E_pc，总点云重建损失E_pc计算公式如下：

E_pc＝E_pc-a+E_pc-b (8)

步骤M4.2.5：根据计算总点云重建损失E_pc，利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度，在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新，实现深度网络、位姿网络和场景流网络的训练，当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时，停止训练。

优选地，所述步骤M4.2.2包括：

步骤M4.2.2.1：对空间点云

中的每一个点

根据

的坐标

在

的点云中找到与坐标

距离最近的三个点P₁，P₂，P₃，并通过插值法实现由P₁，P₂，P₃三点重建

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

间的距离；R_i、G_i、B_i对应点P_i在颜色空间RGB上的对应值；由插值得到了

的重建点P*(R*，G*，B*)；

步骤M4.2.2.2：计算空间点云

中所有点的整体场景流点云重建损失E_pc-a：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_i∈{_R，G，B}(|m_i-n_i|+∈)^q (13)

其中i∈{R，G，B}，m_i表示变量m在颜色空间中i属性的值，n_i表示变量n在颜色空间中i属性的值；ε，q表示参数；

所述步骤M4.2.3包括：

步骤M4.2.3.1：由第一帧图像中的像素在第一帧相机坐标系下的空间点云

和相机运动引起的静态场景流sf_s，得到第一帧图像中的像素在第二帧相机坐标系下的空间点云

所述静态场景流sf_s为上述步骤M4.1.1步骤算法所得；

步骤M4.2.3.2：利用场景流网络，由第一帧图像中的像素在第二帧相机坐标系下的空间点云

经动态流变换后得到第二帧图像中的像素在第二帧相机坐标系下的空间点云

步骤M4.2.3.3：对第二帧图像中的像素在第二帧相机坐标系下的空间点云

中的每一个点

根据

的坐标

在第二帧图像的空间点云

的空间点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

间的距离；R_i、G_i、B_i对应点P_I在颜色空间RGB上的对应值，由插值得到了

的重建点P*(R*，G*，B*)；

步骤M4.2.3.4：计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云

中所有点的动静态场景流点云重建损失E_pc-b：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_i∈{_R，G，B}(|m_i-n_i|+∈)^q (21)

其中i∈{R，G，B}，m_i表示变量m在颜色空间中i属性的值，n_i表示变量n在颜色空间中i属性的值；ε，q表示参数。

根据本发明提供的一种深度、位姿与场景流的联合无监督估计系统，包括：

模块M1：对连续两帧图像，根据深度网络得到对应的两帧深度图；

模块M2：根据两帧深度图以及位姿网络得到的连续两帧间的位姿变换；

模块M3：根据两帧间的位姿变换，结合相机模型得到在第一帧相机坐标系下第一帧图像的空间点云

以及在第二帧相机坐标系下第二帧图像的空间点云

模块M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

优选地，所述模块M4包括：

模块M4.1：基于场景流变换一致性损失的深度网络、位姿网络和场景流网络进行联合无监督学习；

模块M4.2：基于点云重建损失的深度网络、位姿网络和场景流网络进行联合无监督学习。

优选地，所述模块M4.1包括：

模块M4.1.1：结合位姿网络得到的位姿变换，利用相机模型计算出第二帧图像的空间点云

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

模块M4.1.2：向场景流网络输入第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x，y；

模块M4.1.3：向场景流网络输入第一帧中的像素在第一帧相机坐标系下的空间点云

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

模块M4.1.4：利用整体场景流sf_o与静态场景流sf_s和动态场景流sf_d之和的差异计算场景流变换一致性损失，通过计算得到的一致性损失；

所述场景流变换一致性损失计算公式如下：

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

模块M4.1.5：通过计算得到的一致性损失，利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度，再通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新，实现深度网络、位姿网络和场景流网络的训练，当深度网络、位姿网络和场景流网络收敛时，即损失不再降低时，停止训练。

优选地，所述模块M4.2包括：

模块M4.2.1：利用场景流网络，第一帧图像空间点云

计算公式如下：

其中，

模块M4.2.2：利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_pc-a；

模块M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

模块M4.2.4：由整体场景流点云重建损失E_pc-a和动静态场景流点云重建损失E_pc-b，计算总点云重建损失E_pc，总点云重建损失E_pc计算公式如下：

E_pc＝E_pc-a+E_pc-b (8)

模块M4.2.5：根据计算总点云重建损失E_pc，利用反向传播算法得到场景流网络中每一个参数的梯度，在通过梯度下降算法实现场景流网络参数的更新，实现场景流网络的训练，当场景流网络收敛即总点云重建损失不再降低时，停止训练。

优选地，所述模块M4.2.2包括：

模块M4.2.2.1：对空间点云

中的每一个点

根据

的坐标

在

的点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P*(R*，G*，B*)；

模块M4.2.2.2：计算空间点云

中所有点的整体场景流点云重建损失E_pc-a：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_i∈{_R，G，B}(|m_i-n_i|+∈)^q (13)

所述模块M4.2.3包括：

模块M4.2.3.1：由第一帧图像中的像素在第一帧相机坐标系下的空间点云

所述静态场景流sf_s为上述模块M4.1.1模块算法所得；

模块M4.2.3.2：利用场景流网络，由第一帧图像中的像素在第二帧相机坐标系下的空间点云

模块M4.2.3.3：对第二帧图像中的像素在第二帧相机坐标系下的空间点云

中的每一个点

根据

的坐标

在第二帧图像的空间点云

的空间点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P*(R*，G*，B*)；

模块M4.2.3.4：计算对第二帧图像中的像素在第二帧相机坐标系下的空间点云

中所有点的动静态场景流点云重建损失E_pc-b：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (21)

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出了一种新的深度网络、位姿网络与场景流网络的联合无监督学习方法，能够解决在训练深度网络、位姿网络与场景流网络的任务中，缺乏标注数据集的难题；

2、本发明采用无监督学习方法训练深度网络、位姿网络与场景流网络，并提出了两种损失函数：场景流变换一致性损失和点云重建损失。用两种损失函数对联合训练的结果进行惩罚，有利于下一轮的训练；

3、本发明解决了网络训练中标注数据集不足的问题，节约了人工标注数据的成本，能实现较高的准确性，有利于实际应用。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一种深度网络、位姿网络与场景流网络的联合无监督学习方法的系统框架图；

图2为步骤(A)基于场景流变换一致性损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图；

图3为利用sf_o与(sf_s+sf_d)的差异计算场景流变换一致性损失的示意图；

图4为步骤(B)基于点云重建损失的深度网络、位姿网络和场景流网络的联合无监督学习方法的流程图；

图5为用距离点

最近的3个点重建点

的示意图；

图3中，sf_o是整体场景流，sf_s是静态场景流，sf_d是动态场景流，(n_x，n_y，n_z) 是整体场景流sf_o在坐标系下的三维坐标，(m_x，m_y，m_z)是动态场景流与静态场景流之和在坐标系下的三维坐标，该图表明实际状况下sf_o与(sf_s+sf_d)有差异性。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供了一种深度网络、位姿网络与场景流网络的联合无监督学习方法，其过程为，首先由深度网络与位姿网络获得连续两帧图像的深度图和两帧图像间的位姿变换，结合相机模型可以得到两帧图像对应的空间点云，由场景流网络可获得两帧点云间的场景流。定义场景流变换一致性损失与点云重建损失，对不满足一致性的场景流和重建点云进行惩罚。

以及在第二帧相机坐标系下第二帧图像的空间点云

步骤M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

具体地，如图1所示，所述步骤M4包括：

具体地，如图2所示，所述步骤M4.1包括：

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x，y；网络N_st会输出两帧点云间的场景流；

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

步骤M4.1.4：理想状态下应满足sf_o与(sf_s+sf_d)一致，如图3所示，利用整体场景流sf_o与静态场景流sf_s和动态场景流sf_d之和的差异计算场景流变换一致性损失，训练场景流网络；通过计算得到的一致性损失；

如图3所示，sf_o是整体场景流，sf_s是静态场景流，sf_d是动态场景流，(n_x，n_y，n_z) 是整体场景流sf_o在空间坐标系下的三维坐标，(m_x，m_y，m_z)是动态场景流与静态场景流之和在空间坐标系下的三维坐标。理想状态下sf_o与(sf_s+sf_d)应当一致，即应满足m_i＝ n_i,i∈{x，y，z}。而实际状况下，如图3所示，两者存在差异，因此，利用sf_o与(sf_s+sf_d) 定义损失函数：所述场景流变换一致性损失计算公式如下：

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

其中，m_i表示变量m在i方向上的值，n_i表示变量n在i方向上的值，i∈{x，y，z}，表示空间坐标系下三个相互垂直的方向；ε，q表示参数，参数∈＝0.01，q＝0.4；

具体地，如图4所示，所述步骤M4.2包括：

步骤M4.2.1：利用场景流网络，第一帧图像空间点云

计算公式如下：

其中，

步骤M4.2.2：理想状态下应满足

与

一致，利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_pc-a；

步骤M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

所述静态场景流sf_s为上述模块M4.1.1所得，动态场景流sf_d′为下述步骤M4.2.3.2算法所得；根据空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

E_pc＝E_pc-a+E_pc-b (8)

步骤M4.2.5：根据计算总点云重建损失E_pc，利用反向传播算法得到场景流网络中每一个参数的梯度，在通过梯度下降算法实现场景流网络参数的更新，实现场景流网络的训练，当场景流网络收敛即总点云重建损失不再降低时，停止训练。

具体地，所述步骤M4.2.2包括：

步骤M4.2.2.1：对空间点云

中的每一个点

根据

的坐标

在

的空间点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

间的距离；R_i、R_i、B_i对应点P_i在颜色空间RGB上的对应值；由插值得到了

的重建点P*(R*，G*，B*)；

步骤M4.2.2.2：计算空间点云

中所有点的整体场景流点云重建损失E_pc-a：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (13)

其中i∈{R，G，B}，m_i表示变量m在颜色空间中i属性的值，n_i表示变量n在颜色空间中i属性的值；ε，q表示参数，参数∈＝0.01，q＝0.4；

所述步骤M4.2.3包括：

所述静态场景流sf_s为上述步骤M4.1.1步骤算法所得；

中的每一个点

根据

的坐标

在第二帧图像的空间点云

的空间点云中找到与坐标

如图5示意图，对于

中的点

在

中找到与其距离最近的三个点P₁，P₂，P₃，并求出

点与三点的距离d₁，d₂，d₃，实现对

点在颜色空间RGB上的重建如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P*(R*，G*，B*)；

中所有点的动静态场景流点云重建损失E_pc-b：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (21)

其中i∈{R，G，B}，m_i表示变量m在颜色空间中i属性的值，n_i表示变量n在颜色空间中i属性的值；ε，q表示参数，参数∈＝0.01，q＝0.4。

以及在第二帧相机坐标系下第二帧图像的空间点云

模块M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

具体地，如图1所示，所述模块M4包括：

具体地，如图2所示，所述模块M4.1包括：

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x,y；网络N_sf会输出两帧点云间的场景流；

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

模块M4.1.4：理想状态下应满足sf_o与(sf_s+sf_d)一致，如图3所示，利用整体场景流sf_o与静态场景流sf_s和动态场景流sf_d之和的差异计算场景流变换一致性损失，训练场景流网络；通过计算得到的一致性损失；

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

具体地，如图4所示，所述模块M4.2包括：

模块M4.2.1：利用场景流网络，第一帧图像空间点云

计算公式如下：

其中，

模块M4.2.2：理想状态下应满足

与

一致，利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_pc-a；

模块M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

E_pc＝E_pc-a+E_pc-b (8)

具体地，所述模块M4.2.2包括：

模块M4.2.2.1：对空间点云

中的每一个点

根据

的坐标

在

的空间点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P*(R*，G*，B*)；

模块M4.2.2.2：计算空间点云

中所有点的整体场景流点云重建损失E_pc-a：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (13)

所述模块M4.2.3包括：

所述静态场景流sf_s为上述模块M4.1.1模块算法所得；

中的每一个点

根据

的坐标

在第二帧图像的空间点云

的空间点云中找到与坐标

如图5示意图，对于

中的点

在

中找到与其距离最近的三个点P₁，P₂，P₃，并求出

点与三点的距离d₁，d₂，d₃，实现对

点在颜色空间RGB上的重建如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P*(R*，G*，B*)；

中所有点的动静态场景流点云重建损失E_pc-b：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (21)

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种深度、位姿与场景流的联合无监督估计方法，其特征在于，包括：

以及在第二帧相机坐标系下第二帧图像的空间点云

步骤M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

2.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法，其特征在于，所述步骤M4包括：

3.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法，其特征在于，所述步骤M4.1包括：

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x，y；

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

所述场景流变换一致性损失计算公式如下：

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

4.根据权利要求1所述的深度、位姿与场景流的联合无监督估计方法，其特征在于，所述步骤M4.2包括：

步骤M4.2.1：利用场景流网络，第一帧图像空间点云

计算公式如下：

其中，

步骤M4.2.2：利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_pc-a；

步骤M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

根据空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

E_pc＝E_pc-a+E_pc-b (8)

5.根据权利要求4所述的深度、位姿与场景流的联合无监督估计方法，其特征在于，所述步骤M4.2.2包括：

步骤M4.2.2.1：对空间点云

中的每一个点

根据

的坐标

在

的点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P^*(R^*，G^*，B^*)；

步骤M4.2.2.2：计算空间点云

中所有点的整体场景流点云重建损失E_pc-a：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (13)

所述步骤M4.2.3包括：

所述静态场景流sf_s为上述步骤M4.1.1步骤算法所得；

中的每一个点

根据

的坐标

在第二帧图像的空间点云

的空间点云中找到与坐标

如下：

其中，i∈{1，2，3}，对应点P₁，P₂，P₃；d_i为点P_i与点

的重建点P^*(R^*，G^*，B^*)；

中所有点的动静态场景流点云重建损失E_pc-b：

其中，Ω为场景流中所有点的个数总和；

为鲁棒性损失函数，定义如下：

φ(m，n)＝∑_{i∈{R，G，B}}(|m_i-n_i|+∈)^q (21)

6.一种深度、位姿与场景流的联合无监督估计系统，其特征在于，包括：

以及在第二帧相机坐标系下第二帧图像的空间点云

模块M4：根据场景流差异、第一帧图像的空间点云

和第二帧图像的空间点云

7.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统，其特征在于，所述模块M4包括：

8.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统，其特征在于，所述模块M4.1包括：

在第一帧相机坐标系下的空间点云

根据第二帧图像中的空间点云

和第二帧图像的空间点云在第一帧相机坐标系下的空间点云

计算相机运动引起的静态场景流sf_s，计算公式如下：

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第一帧相机坐标系下的空间点云

得到两个点云间的动态场景流sf_d，计算公式如下：

其中，N_sf(x，y)表示场景流网络，输入两帧空间点云x，y；

和第二帧中的像素在第二帧相机坐标系下的空间点云

根据第一帧图像中的像素在第一帧相机坐标系下的空间点云

和第二帧图像中的像素在第二帧相机坐标系下的空间点云

得到两个点云间的整体场景流sf_o，计算公式如下：

所述场景流变换一致性损失计算公式如下：

其中，Ω为场景流中第一帧点云中所有点的个数总和；

为鲁棒性损失函数；

鲁棒性损失函数公式如下：

9.根据权利要求6所述的深度、位姿与场景流的联合无监督估计系统，其特征在于，所述模块M4.2包括：

模块M4.2.1：利用场景流网络，第一帧图像空间点云

计算公式如下：

其中，

模块M4.2.2：利用第二帧图像的空间点云

与第二帧图像中的像素在第二帧相机坐标系下的空间点云

的差异，计算整体场景流点云重建损失E_Pc-a；

模块M4.2.3：由第一帧图像的空间点云

经过静态场景流sf_s变换得到空间点云

再由空间点云

经过动态场景流sf_d′变换后得到空间点云

根据空间点云

与第二帧图像的空间点云

间差异，计算动静态场景流点云重建损失E_pc-b；

E_pc＝E_pc-a+E_pc-b (8)

模块M4.2.5：根据计算总点云重建损失E_pc，利用反向传播算法得到深度网络、位姿网络和场景流网络中每一个参数的梯度，在通过梯度下降算法实现深度网络、位姿网络和场景流网络参数的更新，实现深度网络、位姿网络和场景流网络的训练，当深度网络、位姿网络和场景流网络收敛即总点云重建损失不再降低时，停止训练。

10.根据权利要求9所述的深度、位姿与场景流的联合无监督估计系统，其特征在于，所述模块M4.2.2包括：

模块M4.2.2.1：对空间点云