CN115063463A

CN115063463A - 一种基于无监督学习的鱼眼相机场景深度估计方法

Info

Publication number: CN115063463A
Application number: CN202210698689.4A
Authority: CN
Inventors: 徐启敏; 张鸷; 李旭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-16

Abstract

本发明公开了一种基于无监督学习的鱼眼相机场景深度估计方法，该方法首先建立生成对抗网络架构，对输入的鱼眼图像进行畸变校正处理；然后建立场景深度估计网络架构，对图像进行深度特征和位姿特征的提取；接着使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数；最终使用训练好的网络进行深度估计，得到图像的场景深度图。该方法使用鱼眼相机，具有观测范围广的特点；所采用的无监督学习方法，具有训练方便、感知结果准确的特点，能够满足场景深度估计的需求。

Description

一种基于无监督学习的鱼眼相机场景深度估计方法

技术领域

本发明涉及一种用于鱼眼相机的场景深度估计方法，尤其涉及一种基于无监督学习的鱼眼相机场景深度估计方法，属于场景感知领域。

背景技术

交通是我国国民经济的基础和命脉，交通发展的水平是一个国家整体实力和科技水平的重要标志。随着新一轮科技革命的到来，智能交通的发展已经成为交通发展的必然趋势。这对智能汽车的感知提出了新的需求。

目前，车辆的视觉感知主要还是依赖车载高清摄像机，车载摄像机观察范围小，且存在一定的盲区，所获得的路况内容少。而带有鱼眼镜头的鱼眼相机观察范围大，鱼眼镜头的视角等于或大于180度，所获得的景深范围远。但是焦距越短，视角越大，因光学原理产生的变形也就越强烈。因此鱼眼相机存在图像畸变的问题，若将鱼眼图像直接运用于车辆的视觉感知领域，会导致感知结果存在一定的误差。

此外，场景的深度估计是车辆的视觉感知领域中的一项重要任务，通过估计图像中每个像素到摄像机的距离，为场景的三维重建和距离感知等方面提供了深度信息。随着人工智能技术的快速发展，由于深度学习具有强大的自学习能力，为车辆的场景深度估计提供了新的思路。目前的深度学习方法多集中于基于传统摄像机的图像，使用标注好的场景深度图样本，完成深度估计的任务。针对上述鱼眼图像畸变的现象，以及目前鱼眼图像数据集含有的深度样本信息较少的问题，本发明公开了一种面向鱼眼图像的无监督场景深度估计方法。本发明公开的方法采用了端到端的神经网络结构，直接从由鱼眼相机获取的原始鱼眼图像中感知深度信息，即输入原始图像，最后输出场景深度图。该方法使用鱼眼相机，具有观测范围广的特点；所采用的无监督学习方法，具有易实现、成本低的特点，方便快捷的满足了对场景的深度估计需求。

发明内容

本发明提出一种基于无监督学习的鱼眼相机场景深度估计方法，该方法使用鱼眼相机，设计考虑图像畸变的网络架构，结合对图像的相机位姿估计信息，感知出场景深度图，具有成本低、感知范围广、感知结果准确的特点。

本发明采用的技术方案如下：一种基于无监督学习的鱼眼相机场景深度估计方法，其特征在于：首先建立生成对抗网络架构，对输入的鱼眼图像进行畸变校正处理；然后建立场景深度估计网络架构，对图像进行深度特征和位姿特征的提取；接着使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数；最终使用训练好的网络进行深度估计，得到图像的场景深度图，具体包括以下步骤：

步骤一：设计生成对抗网络

设计生成对抗网络对鱼眼图像进行畸变校正。生成对抗网络由两个生成器和两个判别器组成。首先，构建原始鱼眼图像X和无失真的图像数据集Y作为训练集。先将X通过生成器G转换为Y域的无失真图像，再通过生成器F重构回X域输入的原畸变图像。Y 域的图像先通过生成器F转换为X域的畸变鱼眼图像，再通过生成器G重构回Y域输入的原图像。生成器G和判别器D_Y相关联，D_Y将Y和生成数据G(X)区分，生成器F和判别器D_X相关联，D_X将X和生成数据F(Y)区分。生成器G和生成器F采用以下所述的生成网络结构，判别器D_X和判别器D_Y采用以下所述的判别网络结构。具体包括以下子步骤：

子步骤1.1：设计生成网络架构

生成网络由编码结构和解码结构组成，编码器采用下采样的方式对图像进行特征提取，解码器采用上采样方式重建图像。编码器网络由输入层、三个卷积层和一个全连接层组成，输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3，步长分别为2、2、4，特征映射图数目为64、128、256，全连接层的节点为256，输出一个标量；解码器网络由依次相连接的三个反卷积层和输出层组成，第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3，步长分别为4、2、2，特征映射图数目分别为128,64,3。先将一张256 ×256×3鱼眼图像作为输入张量，编码器对图像进行下采样，由卷积层对输入进行特征提取，激活函数使用Relu。解码器使用上采样的方法把特征映射为图像，使用激活函数 Leaky Relu对该上采样层进行激活输出，最后输出256×256×3的图像。生成网络中特别使用了实例标准化层，在加速模型收敛的同时，也保持每个图像实例间的独立性。

子步骤1.2：设计对抗网络架构

判别网络采用PatchGANs结构的思想，由四个卷积层组成，第一层和最后一层中不使用实例标准化层，其余层都使用。激活函数使用Leaky Relu，输出为30×30的矩阵，用矩阵的均值作为真假判断输出。

子步骤1.3：设计生成对抗网络的损失函数

该生成对抗网络的损失函数由三部分组成，分别是两个生成器-判别器对的损失，如式(1)和式(2)所示。以及周期循环一致损失，如式(3)所示。

L_GAN(G,D_Y)＝E_Y～data(Y)[log(D_Y(Y))]+E_X～data(X)[log(1-D_Y(G(X)))] (1)

L_GAN(F,D_X)＝E_X～data(X)[log(D_X(X))]+E_Y～data(Y)[log(1-D_X(F(Y)))] (2)

L_cycl_e(G,F)＝E_X～data(X)|F(G(X))-X|+E_Y～data(Y)|G(F(Y))-Y| (3)

其中，E_X～data(X)，E_Y～data(Y)均表示数学期望。

综上所述，所设计的生成对抗神经网络的完整损失如式(4)所示，其中λ_c为加权因子，控制循环一致损失的权重,λ_c设为10。

L_GAN(G,F,D_X,D_Y)＝L_GAN(G,D_Y)+L_GAN(F,D_X)+λ_cL_cycle(G,F) (4)

步骤二：设计场景深度估计网络

场景深度估计网络由深度感知模块和位姿感知模块组成。对经过畸变校正后的图像进行深度估计。具体包括以下子步骤：

子步骤2.1：设计深度感知模块

深度感知模块输入经过畸变校正后的目标图像I_t，输出该图像的场景深度图D_t，其结构由编码器和解码器组成。

(1)编码结构如下：

卷积层1_1：使用7×7的感受野与256×256×3的输入张量做卷积，步长为2，得到维度为128×128×64的特征图F1；

卷积层1_2：使用5×5的感受野与卷积层1_1输出的特征图做卷积，步长为2，得到维度为64×64×128的特征图F2；

卷积层1_3：使用5×5的感受野与卷积层1_2输出的特征图做卷积，步长为2，得到维度为32×32×256的特征图F3；

卷积层1_4：使用3×3的感受野与卷积层1_3输出的特征图做卷积，步长为2，得到维度为16×16×512的特征图F4；

(2)解码结构中，采用反卷积层，将特征图F4输入，进行上采样恢复至特征图F3尺寸的特征图F4’，然后将F3和F4’进行特征融合后生成特征图F43；再将F43作为输入，进行上采样恢复至特征图F2尺寸的特征图F3’，然后将F2和F3’进行特征融合后生成特征图F32；再将FM32作为输入，进行上采样恢复至特征图F1尺寸的特征图F2’，然后将 F1和F2’进行特征融合后生成特征图F21；最后输入一层卷积层，生成场景深度图。

子步骤2.2：设计位姿感知模块

位姿感知模块输入经过畸变校正后的目标图像I_t和相邻时刻的源图像I_s这两帧图像，输出源图像相对于目标图像的位姿T_t→s。其结构由七个3×3的卷积层和一个1×1的卷积层组成，前七个卷积层均使用激活函数Relu提取图像特征，然后用1×1卷积将特征图通道数置为6输出特征图，最后将特征图的维度变换生成一个六维向量，该向量即为相邻帧的相对摄相机位姿变化。

子步骤2.3：重构目标图像

根据上述步骤得到的场景深度图和位姿信息，可重构出目标图像I_t'。已知相机内参矩阵为K，做如式(5)所示的映射：

p_s～KT_t→sD_t(p_t)K^-1p_t (5)

其中，p_t是目标图像I_t中一个像素的齐次坐标，通过式(5)可得该像素在源图像I_s上的投影坐标p_s，重构图像中I_t'(p_t)＝I_s'(p_s)。此时得到的p_s是连续值，采用双线性采样的方法计算该点的像素值，即I_s(p_s)的值是通过在源图像I_s上采样p_s周围四个像素的双线性插值的结果。如式(6)所示。

I_t'(p_t)＝I_s(p_s)＝∑_{i∈{top,bottom},j∈{left,right}}ω^ijI_s(p_s ^ij) (6)

其中，ω^ij与p_s和其周围四个像素空间距离成线性比例且∑_i,jω^ij＝1。通过将目标图像I_t的所有像素点投影并采样填充，从而重构出目标图像I_t'。

子步骤2.4：设计场景深度估计网络的损失函数

该场景深度估计网络的损失函数由两部分组成，分别是重构目标图像损失L_rec如式(7) 所示，以及深度平滑损失L_smooth如式(8)所示。

其中

和

分别表示纵向和横向的梯度，深度平滑损失能够保证场景深度图中，物体轮廓等位置处深度变化较大，其余位置场景深度图像尽可能平滑，促进场景深度图的平滑性。

综上所述，所设计的场景深度估计网络的完整损失如式(9)所示，其中λ_s为加权因子，控制深度平滑损失的权重,λ_s设为0.1。

L_depth＝L_rec+λ_sL_smooth (9)

步骤三：设计模型的损失函数并训练模型

综上所述，本发明方法所设计的模型最终的损失函数如式(10)所示,λ控制场景深度估计网络的损失在全部损失中的权重，λ的大小为10。

L_final＝L_GAN(G,F,D_X,D_Y)+λL_depth (10)

使用WoodScape鱼眼图像数据集作为训练集，设置初始学习率为0.0002，训练过程中学习率自动下降，设置Adam迭代器的参数β₁、β₂大小分别为0.9和0.999，批量大小设置为8。使用上述损失函数进行反馈来训练模型，每个epoch之后计算训练损失和验证损失，比较每个epoch的验证损失，保存验证损失最小的模型参数。

步骤四：使用训练好的网络进行深度估计

将鱼眼相机获取的图像序列作为输入量送到训练好的模型中，得到图像的深度估计结果。

本发明的优点及显著效果：本发明方法使用鱼眼相机，感知范围广；所设计的无监督学习方法考虑图像畸变的修正，并结合相机位姿估计信息，实现场景深度的感知，具有训练成本低、感知结果准确的特点。

附图说明

图1是模型结构示意图；

图2是生成对抗网络架构图；

图3是生成网络结构图；

图4是判别网络结构图；

图5是深度感知模块结构图；

图6是位姿感知模块结构图。

具体实施方式

本发明采用的技术方案如下：一种基于无监督学习的鱼眼相机场景深度估计方法，其特征在于：首先建立生成对抗网络架构，对输入的鱼眼图像进行畸变校正处理；然后建立场景深度估计网络架构，对图像进行深度特征和位姿特征的提取；接着使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数；最终使用训练好的网络进行深度估计，得到图像的场景深度图。本发明的模型结构如图1所示，具体包括以下步骤：

步骤一：设计生成对抗网络

设计生成对抗网络对鱼眼图像进行畸变校正。生成对抗网络由两个生成器和两个判别器组成。首先，构建原始鱼眼图像X和无失真的图像数据集Y作为训练集。先将X通过生成器G转换为Y域的无失真图像，再通过生成器F重构回X域输入的原畸变图像。Y 域的图像先通过生成器F转换为X域的畸变鱼眼图像，再通过生成器G重构回Y域输入的原图像。生成器G和判别器D_Y相关联，D_Y将Y和生成数据G(X)区分，生成器F和判别器D_X相关联，D_X将X和生成数据F(Y)区分。生成器G和生成器F采用以下所述的生成网络结构，判别器D_X和判别器D_Y采用以下所述的判别网络结构。所设计的网络架构如图2所示，具体包括以下子步骤：

子步骤1.1：设计生成网络架构

生成网络的结构由图3所示，由编码结构和解码结构组成，编码器采用下采样的方式对图像进行特征提取，解码器采用上采样方式重建图像。编码器网络由输入层、三个卷积层和一个全连接层组成，输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3，步长分别为2、2、4，特征映射图数目为64、128、256，全连接层的节点为256，输出一个标量；解码器网络由依次相连接的三个反卷积层和输出层组成，第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3，步长分别为4、2、2，特征映射图数目分别为 128,64,3。先将一张256×256×3鱼眼图像作为输入张量，编码器对图像进行下采样，由卷积层对输入进行特征提取，激活函数使用Relu。解码器使用上采样的方法把特征映射为图像，使用激活函数LeakyRelu对该上采样层进行激活输出，最后输出256×256×3 的图像。生成网络中特别使用了实例标准化层，在加速模型收敛的同时，也保持每个图像实例间的独立性。

子步骤1.2：设计对抗网络架构

判别网络结构由图4所示，采用PatchGANs结构的思想，由四个卷积层组成，第一层和最后一层中不使用实例标准化层，其余层都使用。激活函数使用Leaky Relu，输出为 30×30的矩阵，用矩阵的均值作为真假判断输出。

子步骤1.3：设计生成对抗网络的损失函数

L_GAN(G,D_Y)＝E_Y～data(Y)[log(D_Y(Y))]+E_X～data(X)[log(1-D_Y(G(X)))] (1)

L_GAN(F,D_X)＝E_X～data(X)[log(D_X(X))]+E_Y～data(Y)[log(1-D_X(F(Y)))] (2)

L_cycle(G,F)＝E_X～data(X)|F(G(X))-X|+E_Y～data(Y)|G(F(Y))-Y| (3)

其中，E_X～data(X)，E_Y～data(Y)均表示数学期望。

L_GAN(G,F,D_X,D_Y)＝L_GAN(G,D_Y)+L_GAN(F,D_X)+λ_cL_cycle(G,F) (4)

步骤二：设计场景深度估计网络

场景深度估计网络的结构如图1所示，由深度感知模块和位姿感知模块组成。对经过畸变校正后的图像进行深度估计。具体包括以下子步骤：

子步骤2.1：设计深度感知模块

深度感知模块的结构如图5所示，输入经过畸变校正后的目标图像I_t，输出该图像的场景深度图D_t，其结构由编码器和解码器组成。

(1)编码结构如下：

子步骤2.2：设计位姿感知模块

位姿感知模块的结构如图6所示，输入经过畸变校正后的目标图像I_t和相邻时刻的源图像I_s这两帧图像，输出源图像相对于目标图像的位姿T_t→s。其结构由七个3×3的卷积层和一个1×1的卷积层组成，前七个卷积层均使用激活函数Relu提取图像特征，然后用 1×1卷积将特征图通道数置为6输出特征图，最后将特征图的维度变换生成一个六维向量，该向量即为相邻帧的相对摄相机位姿变化。

子步骤2.3：重构目标图像

p_s～KT_t→sD_t(p_t)K^-1p_t (5)

子步骤2.4：设计场景深度估计网络的损失函数

其中

和

L_depth＝L_rec+λ_sL_smooth (9)

步骤三：设计模型的损失函数并训练模型

L_final＝L_GAN(G,F,D_X,D_Y)+λL_depth (10)

步骤四：使用训练好的网络进行深度估计

本发明方法使用鱼眼相机，感知范围广；所设计的无监督学习方法考虑图像畸变的修正，并结合相机位姿估计信息，实现场景深度的感知，具有训练成本低、感知结果准确的特点。

Claims

1.一种基于无监督学习的鱼眼相机场景深度估计方法，其特征在于：首先建立生成对抗网络架构，对输入的鱼眼图像进行畸变校正处理；然后建立场景深度估计网络架构，对图像进行深度特征和位姿特征的提取；接着使用场景深度图信息和相机位姿信息重构图像，设计损失函数训练模型，优化网络参数；最终使用训练好的网络进行深度估计，得到图像的场景深度图，具体包括以下步骤：

步骤一：设计生成对抗网络

设计生成对抗网络对鱼眼图像进行畸变校正；生成对抗网络由两个生成器和两个判别器组成；首先，构建原始鱼眼图像X和无失真的图像数据集Y作为训练集；先将X通过生成器G转换为Y域的无失真图像，再通过生成器F重构回X域输入的原畸变图像；Y域的图像先通过生成器F转换为X域的畸变鱼眼图像，再通过生成器G重构回Y域输入的原图像；生成器G和判别器D_Y相关联，D_Y将Y和生成数据G(X)区分，生成器F和判别器D_X相关联，D_X将X和生成数据F(Y)区分；生成器G和生成器F采用以下所述的生成网络结构，判别器D_X和判别器D_Y采用以下所述的判别网络结构；具体包括以下子步骤：

子步骤1.1：设计生成网络架构

生成网络由编码器网络和解码器网络组成，编码器网络中的编码器采用下采样的方式对图像进行特征提取，解码器网络中的解码器采用上采样方式重建图像；编码器网络由输入层、三个卷积层和一个全连接层组成，输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3，步长分别为2、2、4，特征映射图数目为64、128、256，全连接层的节点为256，输出一个标量；解码器网络由依次相连接的三个反卷积层和输出层组成，第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3，步长分别为4、2、2，特征映射图数目分别为128,64,3；先将一张256×256×3鱼眼图像作为输入张量，编码器对图像进行下采样，由卷积层对输入进行特征提取，激活函数使用Relu；解码器使用上采样的方法把特征映射为图像，使用激活函数Leaky Relu对该上采样层进行激活输出，最后输出256×256×3的图像；生成网络中特别使用了实例标准化层，在加速模型收敛的同时，也保持每个图像实例间的独立性；

子步骤1.2：设计对抗网络架构

判别网络采用PatchGANs结构的思想，由四个卷积层组成，第一层和最后一层中不使用实例标准化层，其余层都使用；激活函数使用Leaky Relu，输出为30×30的矩阵，用矩阵的均值作为真假判断输出；

子步骤1.3：设计生成对抗网络的损失函数

生成对抗网络的损失函数由三部分组成，分别是两个生成器-判别器对的损失，如式(1)和式(2)所示；以及周期循环一致损失，如式(3)所示；

L_GAN(G,D_Y)＝E_Y～data(Y)[log(D_Y(Y))]+E_X～data(X)[log(1-D_Y(G(X)))] (1)

L_GAN(F,D_X)＝E_X～data(X)[log(D_X(X))]+E_Y～data(Y)[log(1-D_X(F(Y)))] (2)

L_cycle(G,F)＝E_X～data(X)|F(G(X))-X|+E_Y～data(Y)|G(F(Y))-Y| (3)

其中，E_X～data(X)，E_Y～data(Y)均表示数学期望；

综上所述，所设计的生成对抗神经网络的完整损失如式(4)所示，其中λ_c为加权因子，控制循环一致损失的权重,λ_c设为10；

L_GAN(G,F,D_X,D_Y)＝L_GAN(G,D_Y)+L_GAN(F,D_X)+λ_cL_cycle(G,F) (4)

步骤二：设计场景深度估计网络

场景深度估计网络由深度感知模块和位姿感知模块组成；对经过畸变校正后的图像进行深度估计；具体包括以下子步骤：

子步骤2.1：设计深度感知模块

深度感知模块输入经过畸变校正后的目标图像I_t，输出该图像的场景深度图D_t，其结构由编码器和解码器组成；

(1)编码器结构如下：

(2)解码器结构中，采用反卷积层，将特征图F4输入，进行上采样恢复至特征图F3尺寸的特征图F4’，然后将F3和F4’进行特征融合后生成特征图F43；再将F43作为输入，进行上采样恢复至特征图F2尺寸的特征图F3’，然后将F2和F3’进行特征融合后生成特征图F32；再将FM32作为输入，进行上采样恢复至特征图F1尺寸的特征图F2’，然后将F1和F2’进行特征融合后生成特征图F21；最后输入一层卷积层，生成场景深度图；

子步骤2.2：设计位姿感知模块

位姿感知模块输入经过畸变校正后的目标图像I_t和相邻时刻的源图像I_s这两帧图像，输出源图像相对于目标图像的位姿T_t→s；其结构由七个3×3的卷积层和一个1×1的卷积层组成，前七个卷积层均使用激活函数Relu提取图像特征，然后用1×1卷积将特征图通道数置为6输出特征图，最后将特征图的维度变换生成一个六维向量，该向量即为相邻帧的相对摄相机位姿变化；

子步骤2.3：重构目标图像

根据上述步骤得到的场景深度图和位姿信息，重构出目标图像I_t'；已知相机内参矩阵为K，做如式(5)所示的映射：

p_s～KT_t→sD_t(p_t)K^-1p_t (5)

其中，p_t是目标图像I_t中一个像素的齐次坐标，通过式(5)可得该像素在源图像I_s上的投影坐标p_s，重构图像中I_t'(p_t)＝I_s'(p_s)；此时得到的p_s是连续值，采用双线性采样的方法计算该点的像素值，即I_s(p_s)的值是通过在源图像I_s上采样p_s周围四个像素的双线性插值的结果；如式(6)所示；

I_t'(p_t)＝I_s(p_s)＝∑_{i∈{top,bottom},j∈{left,right}}ωijI_s(p_s ^ij) (6)

其中，ω^ij与p_s和其周围四个像素空间距离成线性比例且∑_i,jω^ij＝1；通过将目标图像I_t的所有像素点投影并采样填充，从而重构出目标图像I_t'；

子步骤2.4：设计场景深度估计网络的损失函数

该场景深度估计网络的损失函数由两部分组成，分别是重构目标图像损失L_rec如式(7)所示，以及深度平滑损失L_smooth如式(8)所示；

其中

和

分别表示纵向和横向的梯度，深度平滑损失能够保证场景深度图中，物体轮廓位置处深度变化较大，其余位置场景深度图像平滑，促进场景深度图的平滑性；

综上所述，所设计的场景深度估计网络的完整损失如式(9)所示，其中λ_s为加权因子，控制深度平滑损失的权重,λ_s设为0.1；

L_depth＝L_rec+λ_sL_smooth (9)

步骤三：设计模型的损失函数并训练模型

综上所述，本发明方法所设计的模型最终的损失函数如式(10)所示,λ控制场景深度估计网络的损失在全部损失中的权重，λ的大小为10；

L_final＝L_GAN(G,F,D_X,D_Y)+λL_depth (10)

使用WoodScape鱼眼图像数据集作为训练集，设置初始学习率为0.0002，训练过程中学习率自动下降，设置Adam迭代器的参数β₁、β₂大小分别为0.9和0.999，批量大小设置为8；使用上述损失函数进行反馈来训练模型，每个epoch之后计算训练损失和验证损失，比较每个epoch的验证损失，保存验证损失最小的模型参数；

步骤四：使用训练好的网络进行深度估计