CN115830090A

CN115830090A - 一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法

Info

Publication number: CN115830090A
Application number: CN202211532186.6A
Authority: CN
Inventors: 卢湖川; 何俊文; 王立君; 王一帆
Original assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology; Ningbo Research Institute of Dalian University of Technology
Current assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology; Ningbo Research Institute of Dalian University of Technology
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-21

Abstract

本发明属于机器学习、3D计算机视觉、单目深度预测、自监督学习领域，提供了一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法。本发明将自监督深度预测学习中抽象的相机运动预测过程转化为基于像素匹配的过程，并通过几何方式求解相机运动，增强其可解释性，同时提升其泛化性。本发明借助传统几何方法求解的相机运动更准确，使得自监督深度预测学习在室内环境或相机运动姿态变化大的场景下训练过程更稳定、效果更鲁棒。

Description

一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法

技术领域

本发明属于机器学习、3D计算机视觉、单目深度预测、自监督学习领域，涉及EPnP算法，具体涉及一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法。

背景技术

在3D计算机视觉领域中，单目深度预测在许多实际应用中起着重要的作用，例如自动驾驶、机器人导航和虚拟现实，其目的是从单张图像中预测像素级的稠密深度值。

伴随着神经网络的发展，深度预测算法取得了极大的进步。Eigen于2014年首次使用神经网络从单张图像中预测深度图，后续方法在此基础上通过改进网络结构、引入多任务训练、引入辅助几何线索等方式提升深度预测的精度。然而这些有监督方法都需要大量的深度真值标注来支持网络训练，而深度真值的获取过程通常是费时费力的，需要高精度的传感器及复杂的后处理过程。

近年来，许多自监督学习方法被提出以缓解这个问题。自监督学习方法通过输入两张连续图片，使用预测的深度图及相机运动姿态从一张图像重构出另一张图像，并通过最小化图像重构损失来监督网络训练。由于自监督方法需要预测额外的相机运动姿态，常见的方法，如Godard等人提出的Monodepth2(Digging Into Self-Supervised MonocularDepth Estimation)，使用多层卷积网络PoseNet从拼接的图像对直接预测6自由度的相机运动姿态，但这种方法存在以下缺陷：

1、相机运动姿态可以通过传统几何方法求解(如Structure-from-Motion)，而使用神经网络预测缺乏可解释性，且泛化性有限，从而影响自监督深度预测的学习。

2、通过神经网络预测相机运动的方法在低纹理区域或相机姿态变化大时无法预测准确的结果，因此只能在相机运动较为简单的室外行车数据集上取得较好的结果，而不能在室内数据集上取得理想的效果。

发明内容

本发明旨在提供一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法，解决PoseNet预测的相机运动姿态不准确从而导致自监督学习的深度预测精度、泛化性有限的问题。

本发明所述方法可在室内外数据集训练及测试，并在相机运动变化较大的情况下效果取得显著提升。

本发明的技术方案为：

一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法，通过几何3D-2D特征点对求解相机姿态帮助自监督学习单目深度，步骤如下：

步骤1：输入两帧连续图像(target帧和source帧)，通过光流预测网络获取密集的光流预测作为匹配结果；

光流预测网络基于PWC-Net，通过使用从两帧图像提取出的特征构建CostVolume(代价体积)，并通过其找到使代价体积最小的匹配信息。光流网络主要由特征提取网络和代价体积匹配网络组成；特征提取网络通过卷积模块和残差模块构建特征金字塔，获得2倍、4倍、8倍、16倍和32倍下采样特征。代价体积匹配网络在相同分辨率下使用两帧的图像特征通过计算相关性构建代价体积：

其中i代表特征的层数，x₁、x₂分别代表两帧的图像特征、N代表特征的数量，并通过一个五层的卷积模块从代价体积输出第i层的光流预测。具体步骤为：

(1.1)通过第i层的特征构建代价体积并输出第i层的光流预测

(1.2)将第i层的光流预测上采样2倍作为第i-1层的光流先验，并通过其warp(对齐)第i-1层的特征并构建代价体积，最后预测第i-1层的光流

(1.3)重复此步骤直到输出与图像分辨率相同的光流预测。

步骤2：通过一个自适应权重预测网络为每一对匹配点赋予一个可靠性权重。自适应权重预测网络的输入是匹配点对应位置的特征向量，进行拼接后通过五层1D卷积及Sigmoid层将输出限制在[0，1]之间，作为预测的权重值。

步骤3：输入目标帧的图像，通过单目深度预测网络获取深度图。

深度预测网络使用Encoder-Decoder(编码器-解码器)结构，通过编码器逐级提取特征，并通过解码器逐步提升特征分辨率并预测深度。

步骤4：通过预测的深度值及相机内参将target帧上的匹配点投影到3D空间：

P_t＝D_t(p_t)K^-1p_t

其中D_t代表预测的深度值，K代表相机内参，p_t、P_t分别代表对应的2D、3D坐标值。

步骤5：通过3D-2D匹配点及其对应权重，使用EPnP算法求解相应的相机运动，找到满足最小化能量函数的相机运动：

其中

分别代表target帧、source帧的3D、2D坐标值，w_i为对应可靠性权重，π代表针孔模型的3D-2D投影：

步骤6：在得到预测深度图、相机运动姿态后，借助相机内参使用source帧重构出target帧：

p_src＝K T D_tgt(p_tgt)K^-1p_tgt

其中p_src、p_tgt代表source帧、target帧对应位置的像素坐标值，T代表预测的相机运动，D_tgt代表预测的深度图，K代表相机内参。接着通过最小化原图像与重构图像的光度误差(photometric loss)约束网络训练。

本发明的有益效果：

(1)将自监督深度预测学习中抽象的相机运动预测过程转化为基于像素匹配的过程，并通过几何方式求解相机运动，增强其可解释性，同时提升其泛化性。

(2)借助传统几何方法求解的相机运动更准确，使得自监督深度预测学习在室内环境或相机运动姿态变化大的场景下训练过程更稳定、效果更鲁棒。

附图说明

图1为总体流程结构示意图。

图2为深度预测网络结构示意图。

图3为光流预测网络结构示意图。

图4为自适应权重预测网络结构示意图。

具体实施方式

下面结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为总体流程结构示意图；首先从两帧图像预测光流图找到2D-2D匹配点，并通过自适应权重预测网络为每对匹配点预测可靠性权重。深度预测网络从单帧图像预测深度图，并将图上匹配点通过相机内参投影到3D空间，获得带权重的3D-2D匹配点；通过EPnP算法求解3D-2D匹配点的相机运动姿态。使用预测的深度图与相机运动姿态从source帧图像重构出target帧图像，并通过最小化光度误差约束网络训练。

图2为深度预测网络结构示意图，网络由编码器-解码器结构组成；编码器部分使用ResNet结构提取不同下采样倍数的特征图，解码器部分逐步提升特征的分辨率并预测深度图。

图3为光流预测网络结构示意图，网络主要由特征提取网络和代价体积匹配网络组成。特征提取网络通过卷积模块和残差模块构建特征金字塔，获得2倍、4倍、8倍、16倍和32倍下采样特征；代价体积匹配网络在相同分辨率下使用两帧的图像特征通过计算相关性构建代价体积，并通过其预测光流。相同的步骤在不同分辨率下逐级进行，直到输出最高分辨率的光流预测。

图4为自适应权重预测网络结构示意图，网络由五层卷积模块组成，并通过一个Sigmoid层将可靠性权重输出限制在[0，1]之间。网络的输入为匹配点对对应位置的特征向量，进行拼接后送入网络。

网络的训练集由KITTI训练集、NYUv2数据集构成，数据集使用随机颜色抖动、随机水平翻转进行数据增广。优化方式选择Adam优化方式，初始学习率设置为0.0001，训练20个epoch，训练过程学习率逐渐衰减。训练及推理过程网络输入图片尺寸大小为192×640。

Claims

1.一种基于像素匹配预测相机姿态的自监督单目深度预测训练方法，通过几何3D-2D特征点对求解相机姿态帮助自监督学习单目深度，其特征在于，步骤如下：

步骤1：输入两帧连续图像，为target帧和source帧，通过光流预测网络获取密集的光流预测作为匹配结果；

光流预测网络基于PWC-Net，通过使用从两帧连续图像提取出的特征构建代价体积，并通过其找到使代价体积最小的匹配信息；光流预测网络主要由特征提取网络和代价体积匹配网络组成；特征提取网络通过卷积模块和残差模块构建特征金字塔，获得2倍、4倍、8倍、16倍和32倍下采样特征；代价体积匹配网络在相同分辨率下使用两帧连续图像特征通过计算相关性构建代价体积：

其中，i代表特征的层数，x₁、x₂分别代表两帧连续图像特征，N代表特征的数量；

通过一个五层的卷积模块从代价体积输出第i层的光流预测，步骤为：

(1.1)通过第i层的特征构建代价体积并输出第i层的光流预测；

(1.2)将第i层的光流预测上采样2倍作为第i-1层的光流先验，并通过其对齐第i-1层的特征并构建代价体积，最后预测第i-1层的光流；

(1.3)重复步骤(1.1)-(1.2)，直到输出与图像分辨率相同的光流预测；

步骤2：通过一个自适应权重预测网络为每一组匹配点赋予一个可靠性权重；自适应权重预测网络的输入是匹配点对应位置的特征向量，进行拼接后通过五层1D卷积及Sigmoid层将输出限制在[0，1]之间，作为预测的权重值；

步骤3：输入目标帧的图像，通过单目深度预测网络获取深度图；

单目深度预测网络使用编码器-解码器结构，通过编码器逐级提取特征，并通过解码器逐步提升特征分辨率并预测深度；

步骤4：通过预测的深度图及相机内参将target帧上的匹配点投影到3D空间：

P_t＝D_t(p_t)K^-1p_t

其中，D_t代表预测的深度值，K代表相机内参，p_t、P_t分别代表对应的2D、3D坐标值；

其中，

p_src＝KTD_tgt(p_tgt)K^-1p_tgt

其中，p_src、p_tgt代表source帧、target帧对应位置的像素坐标值，T代表预测的相机运动，D_tgt代表预测的深度图，K代表相机内参；接着通过最小化原图像与重构图像的光度误差来约束网络训练。