CN111275751B

CN111275751B - 一种无监督绝对尺度计算方法及系统

Info

Publication number: CN111275751B
Application number: CN202010280959.0A
Authority: CN
Inventors: 蔡行; 李承远; 李宏
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Longxing Hangzhou Avionics Co ltd
Priority date: 2019-10-12
Filing date: 2020-04-10
Publication date: 2022-10-25
Anticipated expiration: 2040-04-10
Also published as: CN110738699A; CN111275751A

Abstract

本发明公开了一种无监督绝对尺度计算方法及系统，利用GAN(Generative Adversarial Networks，生成式对抗网络)对参考绝对尺度深度图和预测深度图进行判别，使深度图拥有绝对尺度，同时，由于重投影误差的约束，使预测深度图与位姿在同一尺度，所以位姿也拥有了绝对尺度。

Description

一种无监督绝对尺度计算方法及系统

技术领域

本发明属于计算机视觉领域的视觉里程计和深度估计方法领域，特别是一种无监督绝对尺度计算方法及系统。

背景技术

近年来,基于深度学习方法的单目稠密深度估计和视觉里程计VO(VisualOdometry)的算法发展迅速，它们也是SfM和SLAM系统的关键模块。已有研究表明，基于监督深度学习的VO和深度估计在许多具有挑战性的环境中都取得了良好的性能，并缓解了尺度漂移等性能下降问题。然而，在实际应用中要训练这些监督模型，获得足够的具有真实标记的数据是困难和昂贵的。相比之下，无监督的方法拥有只需要无标签的视频序列的巨大优势。

深度和姿态估计的深度无监督模型通常采用两个模块，其中一个模块预测深度图，另一个模块估计相机相对位姿。在使用估计的深度图和姿态将图像从源图像投影变换到目标图像后，利用光度误差损失作为优化目标，以端到端方式训练这些模型。然而，大多数无监督单目模型都面临以下具有挑战性的问题：尺度不确定性和尺度恢复问题。

尺度不确定性。单目VO的一个经典问题是，由于单目摄像机的特性，运动估计和深度图只能在一些未知的尺度下恢复。如果没有一个绝对尺度作为锚点，那么在整个训练过程中，位姿和深度图的尺度很容易发生漂移。

尺度恢复问题。由于单目VO和深度没有绝对尺度信息，估计的位姿和深度不能直接利用或者与真值进行性能评测。所以需要尺度恢复。现有的单目无监督深度学习框架采用如下方法与真值比较计算尺度。对于深度图，采用如下公式计算单张尺度，其中median指整张预测图像的中值，

对于位姿，计算方法如下,每5帧与真值计算一个尺度

这样的尺度恢复方法在实际中应用比较困难，因为在实际场景中没有办法得到每帧图像的真值。

发明内容

本发明的工作原理为：利用GAN(Generative Adversarial Networks，生成式对抗网络)对参考绝对尺度深度图和预测深度图进行判别，使深度图拥有绝对尺度，同时，由于重投影误差的约束，使预测深度图与位姿在同一尺度，所以位姿也拥有了绝对尺度。

为了解决上述问题，本发明提出一种无监督绝对尺度计算方法及系统。

本发明所采用的技术方案是：

一种无监督绝对尺度计算方法，包含位姿深度网络模型T、深度网络模型G1、深度网络模型G2、判别模型D1、判别模型D2和对抗损失函数，包括以下步骤：

S1，预备单目视频数据集和带有绝对尺度的参考深度图数据集并且两者的数据分布不相关；

S2，从步骤S1中的单目视频数据集中抽取至少2幅图像，图像中包含源图像和目标图像，并且源图像和目标图像之间存在重叠区域，源图像和目标图像通过模型T进行前向传播，计算出源图像和目标图像之间的相对位姿；目标图像经过前向传播，通过模型G1计算图像像素的深度值，计算出预测深度图；步骤S1中的参考深度图数据集经过前向传播，通过模型G2对彩色图像重构，计算出带有绝对尺度的伪造RGB图像；

S3，步骤S2中的相对位姿和预测深度图通过视觉重建，得到重投影源图像；步骤S2中的预测深度图前向传播，通过模型G2对彩色图像重构，计算出重构目标图像；步骤S2中伪造RGB图像前向传播，通过模型G1计算图像像素的深度值，计算出重构参考深度；步骤S2中的预测深度图，通过判别模型D1，以步骤S1中的的参考深度图为参照，输出预测深度图的真实性概率；步骤S2中的伪造RGB图像和目标图像通过模型D2，以步骤S2中的目标对象为参照，输出伪造RGB图像的真实性概率；利用对抗损失函数计算模型G1与D1之间的对抗误差以及模型G2与D2之间的对抗误差；

S4，计算源图像与步骤S3中重投影源图像之间的重投影误差，计算目标图像与步骤S3中重构目标图像之间的重建误差，计算参考深度图与步骤S3中重构参考深度之间的重建误差；

S5，通过对抗误差、重投影误差和重建误差求和得到损失函数，进行反向传播，进行迭代更新，直到损失函数收敛；

S6，将一对源图像与目标图像输入测试数据集，利用模型T与模型G1，分别前向传播，计算出带有绝对尺度的相机相对位姿和目标图像的预测深度图。

采用GAN来融合绝对尺度信息，对参考绝对尺度深度图和预测深度图进行判别，使深度图拥有绝对尺度，同时，由于重投影误差的约束，使预测深度图与位姿在同一尺度，所以位姿也拥有了绝对尺度，是一种新颖的用于单目视觉和深度估计的无监督框架，该框架所估计的深度和姿态是绝对尺度的，因此该模型可以直接应用于实际场景。

进一步的，所述步骤S3中G1与D1之间的对抗损失函数为：

L_adv1(G₁，D₁)＝E_χref[log(D₁(x_ref))]+E_χrgb[log(1-D₁(G₁(x_rgb)))]

其中，xrgb是输入RGB图像，xref是参考深度图。通过对抗损失的约束，G1和D1中的模型参数不断迭代优化，G1生成的预测深度图深度值和绝对尺度逐渐准确，D1无法给出明确的真实性决策，可认为优化过程收敛。

进一步的，所述步骤S3中G2与D2之间的对抗损失函数为：

L_adv2(G₂，D₂)＝E_χrgb[log(D₂(x_rgb))]+E_χ[log(1-D₂(G₂(x_ref)))]

其中，xrgb是输入RGB图像，xref是参考深度图。

进一步的，所述步骤S4中重建误差的计算方法为：

L_rec(G₁，G₂)＝E_χrgb||x_rgb-G₂(G₁(x_rgb))||₁+E_χref||x_ref-G₁(G₂(x_ref))||₁

其中，xrgb是输入RGB图像，xref是参考深度图。

进一步的，所述步骤S5中损失函数为：

L_total＝L_reprojection+α*L_smooth+β*L_cycle

其中Lsmooth是深度图的平滑损失函数，Lreprojection是S4中的重投影误差，Lcycle是对抗误差和重建误差之和，α和β是权重系数。

进一步的，所述步骤S5中Lcycle为：

L_cycle＝γ*L_rec+L_adv1+L_adv2

其中Lrec为S4中重建误差，Ladv1为S3中G1与D1之间的对抗误差，Ladv2为S3中G2与D2之间的对抗误差，γ为权重系数。

进一步的，所述步骤S5中损失函数利用Adam优化方法进行训练。

一种无监督绝对尺度计算的系统，其特征在于，包括位姿估计深度网络模块T、深度网络模块G1、深度网络模块G2、判别模块D1、判别模块D2和损失函数模块，所述模块T用于提取相对位姿，模块G1用于计算图像每个像素的深度值，模块G2用于对彩色图像重构，判别模块D1和D2用于输出真实性概率，模块G1与D1通过损失函数模块约束，模块G2与D2通过损失函数模块约束。

本发明同现有技术相比具有以下优点及效果：

1、提出了一种新颖的用于单目视觉和深度估计的无监督框架，该框架采用GAN来融合绝对尺度信息，对参考绝对尺度深度图和预测深度图进行判别，使深度图拥有绝对尺度，同时，由于重投影误差的约束，使预测深度图与位姿在同一尺度，所以位姿也拥有了绝对尺度。由于所估计的深度和姿态是绝对尺度的，因此该模型可以直接应用于实际场景。

2、引入循环约束模块Cycle-GAN，保证参考RGB图像与预测深度图的结构一致性。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明总体流程图；

图2为本发明尺度学习的基本框架图；

图3为本发明深度图结果与其他算法的对比图；

图4为本发明位姿结果与其他算法的轨迹对比图；

图5为本发明算法深度估计结果和其他算法的对比图；

图6为本发明算法位姿估计结果和其他算法的对比结果；

图7为本发明模型G1，G2解码器结构及参数；

图8为本发明模型T解码器结构及参数；

图9为本发明模型D1，D2解码器结构及参数。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：

如图1-9所示，一种无监督绝对尺度计算的方法和系统，其中主要采用以下模块：位姿估计深度网络模块T、深度估计深度网络模块G1、根据参考深度图恢复参考RGB图像的深度网络模块G2、判别模块D1、判别模块D2和误差损失函数模块。模块T包含编码器和预测器，模块G1、模块G2、模块D1和模块D2均包含编码器和解码器，模块T的编码器采用ResNet18网络结构，模块T的预测器采用图8所示结构，该预测器由4层卷积层组成的网络结构；模块G1的编码器采用ResNet18网络结构，模块G1的解码器采用图7所示结构，该解码器由5层反卷积层构成的网络结构；模块G2的编码器采用ResNet18网络结构，模块G2的解码器采用图7所示结构，该解码器由5层反卷积层构成的网络结构，但是输入层1通道，输出层是3通道；模块D1和D2的编码器采用ResNet18网络结构，模块D1和D2的解码器采用图9所示结构，D1模块是由6层卷积层构成的网络结构，D2与D1模块结构相同，但D2输入层是3通道。其中，layer是每一层名称，k是卷积核大小，s是步长，chns是通道数，res是下采样因子，input是输入，activation是激活函数。↑指的2x最近邻上采样。Conv_Norm_leakyReLU包含卷积层、归一化层和leakyReLU激活层。

步骤1，预先准备好视觉里程计单目视频数据集和参考深度图数据集，单目视频数据集例如KITTI，参考深度图数据集是单目视频数据集同场景下采集的稠密深度图，例如通过激光算法方法或者双目算法得到的深度图，拥有绝对尺度。并且参考深度图数据集和单目视频数据集的数据分布不相关。

步骤2，从视频序列中抽取连续时间图像，例如连续2帧或5帧或7帧的视频段，以其中任一帧作为目标图像，最好选用中间帧作为目标图像，其它帧为源图像，分别可构成1对、4对、6对图像对。或者抽取连续时间图像对，例如连续3对或5对或7对的视频段，每对图像由目标图像和源图像组成。或者从视频序列中随机抽取图像，例如抽取第2帧、第4帧、第5帧和第8帧，以其中任一帧作为目标图像，其它帧为源图像，但要保证目标图像与源图像之间存在重叠区域。或者从视频序列中随机抽取图像对，每对图像由目标图像和源图像组成。

上述视频段长度和图像对数量可选，将一对图像对输入到T模块中，经过神经网络前向传播计算出相对位姿。

目标图像输入到G1模块，用于计算图像每个像素的深度值，经过神经网络前向传播计算出预测深度图；带有绝对尺度的参考深度图输入到G2模块，用于对彩色图像的重构，经过神经网络前向传播计算出带有绝对尺度的伪造RGB图像；

步骤3，输入上述步骤2中得到的相对位姿和预测深度图，通过视觉重建模块，利用公式(1)进行图像投影，得到重投影源图像p_s；

其中p_t是像素坐标，K是相机内参，D是预测深度图，T是预测位姿。

预测深度图输入到G2模块前向传播计算出重构目标图像；

预测深度图和参考深度图分别输入到D1模块中，输出预测深度图和参考深度图各自的真假概率；

输入上述步骤2中得到的绝对尺度伪造RGB图像，经过G1模块前向传播计算出重构参考深度；

绝对尺度伪造RGB图像和目标图像分别输入到D2模块中，输出目标图像和伪造RGB图像各自的真假概率。

步骤4，利用公式(2)定义的对抗损失函数，计算G1模块与D1模块之间的对抗误差L_adv1；

L_adv1(G₁，D₁)＝E_χref[log(D₁(x_ref))]+E_χrgb[log(1-D₁(G₁(x_rgb)))] (2)

其中x_rgb是目标图像，x_ref是参考深度图。

利用对抗损失函数(3)，计算G2模块与D2模块之间的对抗误差L_adv2；

L_adv2(G₂，D₂)＝E_χrgb[log(D₂(x_rgb))]+E_χ[log(1-D₂(G₂(x_ref))))] (3)

上述步骤3中得到的重投影源图像I_s与源图像I_t进行逐像素对比，公式如(4)所示，得到光度误差L_photometric；同时用SSIM(Structural Similarity Index)来衡量重投影源图像和源图像的相似性，公式如(5)所示，得到L_ssim；将公式(4)与(5)相加得到重投影误差，如公式(6)所示，得到重投影误差L_reprojection；

L_reprojection＝α*L_photometric+(1-α)*L_ssim (6)

其中，α是权重系数，α取值范围是0.01-1。

计算目标图像与上述步骤3中得到的重构目标图像之间的重建误差，如公式(7)第一项所示；计算参考深度图与步骤3中得到的重构参考深度之间的重建误差，如公式(7)第二项所示；然后将两者相加。

L_rec(G₁，G₂)＝E_χrgb||x_rgb-G₂(G₁(x_rgb))||₁+E_χref||x_ref-G₁(G₂(x_ref))||₁ (7)

步骤5，对步骤4中得到的对抗误差、重投影误差和重建误差求和得到最终的损失函数(公式(8)所示)。利用Adam优化方法反向传播，对本框架中所有模块中的参数值进行迭代更新，直到损失函数收敛，本方法的训练阶段完成；

L_cycle＝γ*L_rec+L_adv1+L_adv2

L_total＝L_repojection+α*L_smooth+β*L_cycle (8)

其中L_cycle是循环一致性损失，L_smooth是预测深度图的平滑损失函数，α、β和γ为权重系数，α、β和γ取值范围是0.01-1。

步骤6，测试阶段，准备好测试数据集，输入一对源图像与目标图像，利用步骤1至步骤5训练好的T模块与G1模块中的参数，通过T模块的神经网络前向传播计算出带有绝对尺度的相机相对位姿，通过G1模块的神经网络前向传播计算出目标图像对应的预测深度图。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无监督绝对尺度计算方法，其特征在于，包含位姿深度网络模型T、深度网络模型G1、深度网络模型G2、判别模型D1、判别模型D2和对抗损失函数，包括以下步骤：

S3，步骤S2中的相对位姿和预测深度图通过视觉重建，得到重投影源图像；步骤S2中的预测深度图前向传播，通过模型G2对彩色图像重构，计算出重构目标图像；步骤S2中伪造RGB图像前向传播，通过模型G1计算图像像素的深度值，计算出重构参考深度；步骤S2中的预测深度图，通过判别模型D1，以步骤S1中的参考深度图为参照，输出预测深度图的真实性概率；步骤S2中的伪造RGB图像和目标图像通过模型D2，以步骤S2中的目标对象为参照，输出伪造RGB图像的真实性概率；利用对抗损失函数计算模型G1与D1之间的对抗误差以及模型G2与D2之间的对抗误差；

2.根据权利要求1所述的无监督绝对尺度计算方法，其特征在于，所述步骤S3中G1与D1之间的对抗损失函数为：

L_adv1(G₁，D₁)＝E_xref[log(D₁(x_ref))+E_χrgb[log(1-D₁(G₁(x_rgb)))]

其中，xrgb是输入RGB图像，xref是参考深度图。

3.根据权利要求1所述的无监督绝对尺度计算方法，其特征在于，所述步骤S3中G2与D2之间的对抗损失函数为：

L_adv2(G₂，D₂)＝E_χrgb[log(D₂(x_rgb))]+E_χ[log(1-D₂(G₂(x_ref)))]

其中，xrgb是输入RGB图像，xref是参考深度图。

4.根据权利要求1所述的无监督绝对尺度计算方法，其特征在于，所述步骤S4中重建误差的计算方法为：

其中，xrgb是输入RGB图像，xref是参考深度图。

5.根据权利要求1所述的无监督绝对尺度计算方法，其特征在于，所述步骤S5中损失函数为：

L_total＝L_reprojection+α*L_smooth+β*L_cycle

6.根据权利要求5所述的无监督绝对尺度计算方法，其特征在于，所述步骤S5中Lcycle为：

L_cycle＝γ*L_rec+L_adv1+L_adv2

7.根据权利要求1所述的无监督绝对尺度计算方法，其特征在于，所述步骤S5中损失函数利用Adam优化方法进行训练。

8.一种无监督绝对尺度计算的系统，用于实现权利要求1-7任一项所述的无监督绝对尺度计算方法，其特征在于，包括位姿估计深度网络模块T、深度网络模块G1、深度网络模块G2、判别模块D1、判别模块D2和损失函数模块，所述模块T用于提取相对位姿，模块G1用于计算图像每个像素的深度值，模块G2用于对彩色图像重构，判别模块D1和D2用于输出真实性概率，模块G1与D1通过损失函数模块约束，模块G2与D2通过损失函数模块约束。