CN115063463A - 一种基于无监督学习的鱼眼相机场景深度估计方法 - Google Patents

一种基于无监督学习的鱼眼相机场景深度估计方法 Download PDF

Info

Publication number
CN115063463A
CN115063463A CN202210698689.4A CN202210698689A CN115063463A CN 115063463 A CN115063463 A CN 115063463A CN 202210698689 A CN202210698689 A CN 202210698689A CN 115063463 A CN115063463 A CN 115063463A
Authority
CN
China
Prior art keywords
image
network
layer
loss
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210698689.4A
Other languages
English (en)
Inventor
徐启敏
张鸷
李旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210698689.4A priority Critical patent/CN115063463A/zh
Publication of CN115063463A publication Critical patent/CN115063463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于无监督学习的鱼眼相机场景深度估计方法,该方法首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有训练方便、感知结果准确的特点,能够满足场景深度估计的需求。

Description

一种基于无监督学习的鱼眼相机场景深度估计方法
技术领域
本发明涉及一种用于鱼眼相机的场景深度估计方法,尤其涉及一种基于无监督学习的鱼眼相机场景深度估计方法,属于场景感知领域。
背景技术
交通是我国国民经济的基础和命脉,交通发展的水平是一个国家整体实力和科技水平的重要标志。随着新一轮科技革命的到来,智能交通的发展已经成为交通发展的必然趋势。这对智能汽车的感知提出了新的需求。
目前,车辆的视觉感知主要还是依赖车载高清摄像机,车载摄像机观察范围小,且存在一定的盲区,所获得的路况内容少。而带有鱼眼镜头的鱼眼相机观察范围大,鱼眼镜头的视角等于或大于180度,所获得的景深范围远。但是焦距越短,视角越大,因光学原理产生的变形也就越强烈。因此鱼眼相机存在图像畸变的问题,若将鱼眼图像直接运用于车辆的视觉感知领域,会导致感知结果存在一定的误差。
此外,场景的深度估计是车辆的视觉感知领域中的一项重要任务,通过估计图像中每个像素到摄像机的距离,为场景的三维重建和距离感知等方面提供了深度信息。随着人工智能技术的快速发展,由于深度学习具有强大的自学习能力,为车辆的场景深度估计提供了新的思路。目前的深度学习方法多集中于基于传统摄像机的图像,使用标注好的场景深度图样本,完成深度估计的任务。针对上述鱼眼图像畸变的现象,以及目前鱼眼图像数据集含有的深度样本信息较少的问题,本发明公开了一种面向鱼眼图像的无监督场景深度估计方法。本发明公开的方法采用了端到端的神经网络结构,直接从由鱼眼相机获取的原始鱼眼图像中感知深度信息,即输入原始图像,最后输出场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有易实现、成本低的特点,方便快捷的满足了对场景的深度估计需求。
发明内容
本发明提出一种基于无监督学习的鱼眼相机场景深度估计方法,该方法使用鱼眼相机,设计考虑图像畸变的网络架构,结合对图像的相机位姿估计信息,感知出场景深度图,具有成本低、感知范围广、感知结果准确的特点。
本发明采用的技术方案如下:一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图,具体包括以下步骤:
步骤一:设计生成对抗网络
设计生成对抗网络对鱼眼图像进行畸变校正。生成对抗网络由两个生成器和两个判别器组成。首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集。先将X通过生成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像。Y 域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像。生成器G和判别器DY相关联,DY将Y和生成数据G(X)区分,生成器F和判别器DX相关联,DX将X和生成数据F(Y)区分。生成器G和生成器F采用以下所述的生成网络结构,判别器DX和判别器DY采用以下所述的判别网络结构。具体包括以下子步骤:
子步骤1.1:设计生成网络架构
生成网络由编码结构和解码结构组成,编码器采用下采样的方式对图像进行特征提取,解码器采用上采样方式重建图像。编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为128,64,3。先将一张256 ×256×3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu。解码器使用上采样的方法把特征映射为图像,使用激活函数 Leaky Relu对该上采样层进行激活输出,最后输出256×256×3的图像。生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性。
子步骤1.2:设计对抗网络架构
判别网络采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用。激活函数使用Leaky Relu,输出为30×30的矩阵,用矩阵的均值作为真假判断输出。
子步骤1.3:设计生成对抗网络的损失函数
该生成对抗网络的损失函数由三部分组成,分别是两个生成器-判别器对的损失,如式(1)和式(2)所示。以及周期循环一致损失,如式(3)所示。
LGAN(G,DY)=EY~data(Y)[log(DY(Y))]+EX~data(X)[log(1-DY(G(X)))] (1)
LGAN(F,DX)=EX~data(X)[log(DX(X))]+EY~data(Y)[log(1-DX(F(Y)))] (2)
Lcycle(G,F)=EX~data(X)|F(G(X))-X|+EY~data(Y)|G(F(Y))-Y| (3)
其中,EX~data(X),EY~data(Y)均表示数学期望。
综上所述,所设计的生成对抗神经网络的完整损失如式(4)所示,其中λc为加权因子,控制循环一致损失的权重,λc设为10。
LGAN(G,F,DX,DY)=LGAN(G,DY)+LGAN(F,DX)+λcLcycle(G,F) (4)
步骤二:设计场景深度估计网络
场景深度估计网络由深度感知模块和位姿感知模块组成。对经过畸变校正后的图像进行深度估计。具体包括以下子步骤:
子步骤2.1:设计深度感知模块
深度感知模块输入经过畸变校正后的目标图像It,输出该图像的场景深度图Dt,其结构由编码器和解码器组成。
(1)编码结构如下:
卷积层1_1:使用7×7的感受野与256×256×3的输入张量做卷积,步长为2,得到维度为128×128×64的特征图F1;
卷积层1_2:使用5×5的感受野与卷积层1_1输出的特征图做卷积,步长为2,得到维度为64×64×128的特征图F2;
卷积层1_3:使用5×5的感受野与卷积层1_2输出的特征图做卷积,步长为2,得到维度为32×32×256的特征图F3;
卷积层1_4:使用3×3的感受野与卷积层1_3输出的特征图做卷积,步长为2,得到维度为16×16×512的特征图F4;
(2)解码结构中,采用反卷积层,将特征图F4输入,进行上采样恢复至特征图F3尺寸的特征图F4’,然后将F3和F4’进行特征融合后生成特征图F43;再将F43作为输入,进行上采样恢复至特征图F2尺寸的特征图F3’,然后将F2和F3’进行特征融合后生成特征图F32;再将FM32作为输入,进行上采样恢复至特征图F1尺寸的特征图F2’,然后将 F1和F2’进行特征融合后生成特征图F21;最后输入一层卷积层,生成场景深度图。
子步骤2.2:设计位姿感知模块
位姿感知模块输入经过畸变校正后的目标图像It和相邻时刻的源图像Is这两帧图像,输出源图像相对于目标图像的位姿Tt→s。其结构由七个3×3的卷积层和一个1×1的卷积层组成,前七个卷积层均使用激活函数Relu提取图像特征,然后用1×1卷积将特征图通道数置为6输出特征图,最后将特征图的维度变换生成一个六维向量,该向量即为相邻帧的相对摄相机位姿变化。
子步骤2.3:重构目标图像
根据上述步骤得到的场景深度图和位姿信息,可重构出目标图像It'。已知相机内参矩阵为K,做如式(5)所示的映射:
ps~KTt→sDt(pt)K-1pt (5)
其中,pt是目标图像It中一个像素的齐次坐标,通过式(5)可得该像素在源图像Is上的投影坐标ps,重构图像中It'(pt)=Is'(ps)。此时得到的ps是连续值,采用双线性采样的方法计算该点的像素值,即Is(ps)的值是通过在源图像Is上采样ps周围四个像素的双线性插值的结果。如式(6)所示。
It'(pt)=Is(ps)=∑i∈{top,bottom},j∈{left,right}ωijIs(ps ij) (6)
其中,ωij与ps和其周围四个像素空间距离成线性比例且∑i,jωij=1。通过将目标图像It的所有像素点投影并采样填充,从而重构出目标图像It'。
子步骤2.4:设计场景深度估计网络的损失函数
该场景深度估计网络的损失函数由两部分组成,分别是重构目标图像损失Lrec如式(7) 所示,以及深度平滑损失Lsmooth如式(8)所示。
Figure BDA0003703701880000041
Figure BDA0003703701880000042
其中
Figure BDA0003703701880000043
Figure BDA0003703701880000044
分别表示纵向和横向的梯度,深度平滑损失能够保证场景深度图中,物体轮廓等位置处深度变化较大,其余位置场景深度图像尽可能平滑,促进场景深度图的平滑性。
综上所述,所设计的场景深度估计网络的完整损失如式(9)所示,其中λs为加权因子,控制深度平滑损失的权重,λs设为0.1。
Ldepth=LrecsLsmooth (9)
步骤三:设计模型的损失函数并训练模型
综上所述,本发明方法所设计的模型最终的损失函数如式(10)所示,λ控制场景深度估计网络的损失在全部损失中的权重,λ的大小为10。
Lfinal=LGAN(G,F,DX,DY)+λLdepth (10)
使用WoodScape鱼眼图像数据集作为训练集,设置初始学习率为0.0002,训练过程中学习率自动下降,设置Adam迭代器的参数β1、β2大小分别为0.9和0.999,批量大小设置为8。使用上述损失函数进行反馈来训练模型,每个epoch之后计算训练损失和验证损失,比较每个epoch的验证损失,保存验证损失最小的模型参数。
步骤四:使用训练好的网络进行深度估计
将鱼眼相机获取的图像序列作为输入量送到训练好的模型中,得到图像的深度估计结果。
本发明的优点及显著效果:本发明方法使用鱼眼相机,感知范围广;所设计的无监督学习方法考虑图像畸变的修正,并结合相机位姿估计信息,实现场景深度的感知,具有训练成本低、感知结果准确的特点。
附图说明
图1是模型结构示意图;
图2是生成对抗网络架构图;
图3是生成网络结构图;
图4是判别网络结构图;
图5是深度感知模块结构图;
图6是位姿感知模块结构图。
具体实施方式
交通是我国国民经济的基础和命脉,交通发展的水平是一个国家整体实力和科技水平的重要标志。随着新一轮科技革命的到来,智能交通的发展已经成为交通发展的必然趋势。这对智能汽车的感知提出了新的需求。
目前,车辆的视觉感知主要还是依赖车载高清摄像机,车载摄像机观察范围小,且存在一定的盲区,所获得的路况内容少。而带有鱼眼镜头的鱼眼相机观察范围大,鱼眼镜头的视角等于或大于180度,所获得的景深范围远。但是焦距越短,视角越大,因光学原理产生的变形也就越强烈。因此鱼眼相机存在图像畸变的问题,若将鱼眼图像直接运用于车辆的视觉感知领域,会导致感知结果存在一定的误差。
此外,场景的深度估计是车辆的视觉感知领域中的一项重要任务,通过估计图像中每个像素到摄像机的距离,为场景的三维重建和距离感知等方面提供了深度信息。随着人工智能技术的快速发展,由于深度学习具有强大的自学习能力,为车辆的场景深度估计提供了新的思路。目前的深度学习方法多集中于基于传统摄像机的图像,使用标注好的场景深度图样本,完成深度估计的任务。针对上述鱼眼图像畸变的现象,以及目前鱼眼图像数据集含有的深度样本信息较少的问题,本发明公开了一种面向鱼眼图像的无监督场景深度估计方法。本发明公开的方法采用了端到端的神经网络结构,直接从由鱼眼相机获取的原始鱼眼图像中感知深度信息,即输入原始图像,最后输出场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有易实现、成本低的特点,方便快捷的满足了对场景的深度估计需求。
本发明提出一种基于无监督学习的鱼眼相机场景深度估计方法,该方法使用鱼眼相机,设计考虑图像畸变的网络架构,结合对图像的相机位姿估计信息,感知出场景深度图,具有成本低、感知范围广、感知结果准确的特点。
本发明采用的技术方案如下:一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图。本发明的模型结构如图1所示,具体包括以下步骤:
步骤一:设计生成对抗网络
设计生成对抗网络对鱼眼图像进行畸变校正。生成对抗网络由两个生成器和两个判别器组成。首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集。先将X通过生成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像。Y 域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像。生成器G和判别器DY相关联,DY将Y和生成数据G(X)区分,生成器F和判别器DX相关联,DX将X和生成数据F(Y)区分。生成器G和生成器F采用以下所述的生成网络结构,判别器DX和判别器DY采用以下所述的判别网络结构。所设计的网络架构如图2所示,具体包括以下子步骤:
子步骤1.1:设计生成网络架构
生成网络的结构由图3所示,由编码结构和解码结构组成,编码器采用下采样的方式对图像进行特征提取,解码器采用上采样方式重建图像。编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为 128,64,3。先将一张256×256×3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu。解码器使用上采样的方法把特征映射为图像,使用激活函数LeakyRelu对该上采样层进行激活输出,最后输出256×256×3 的图像。生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性。
子步骤1.2:设计对抗网络架构
判别网络结构由图4所示,采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用。激活函数使用Leaky Relu,输出为 30×30的矩阵,用矩阵的均值作为真假判断输出。
子步骤1.3:设计生成对抗网络的损失函数
该生成对抗网络的损失函数由三部分组成,分别是两个生成器-判别器对的损失,如式(1)和式(2)所示。以及周期循环一致损失,如式(3)所示。
LGAN(G,DY)=EY~data(Y)[log(DY(Y))]+EX~data(X)[log(1-DY(G(X)))] (1)
LGAN(F,DX)=EX~data(X)[log(DX(X))]+EY~data(Y)[log(1-DX(F(Y)))] (2)
Lcycle(G,F)=EX~data(X)|F(G(X))-X|+EY~data(Y)|G(F(Y))-Y| (3)
其中,EX~data(X),EY~data(Y)均表示数学期望。
综上所述,所设计的生成对抗神经网络的完整损失如式(4)所示,其中λc为加权因子,控制循环一致损失的权重,λc设为10。
LGAN(G,F,DX,DY)=LGAN(G,DY)+LGAN(F,DX)+λcLcycle(G,F) (4)
步骤二:设计场景深度估计网络
场景深度估计网络的结构如图1所示,由深度感知模块和位姿感知模块组成。对经过畸变校正后的图像进行深度估计。具体包括以下子步骤:
子步骤2.1:设计深度感知模块
深度感知模块的结构如图5所示,输入经过畸变校正后的目标图像It,输出该图像的场景深度图Dt,其结构由编码器和解码器组成。
(1)编码结构如下:
卷积层1_1:使用7×7的感受野与256×256×3的输入张量做卷积,步长为2,得到维度为128×128×64的特征图F1;
卷积层1_2:使用5×5的感受野与卷积层1_1输出的特征图做卷积,步长为2,得到维度为64×64×128的特征图F2;
卷积层1_3:使用5×5的感受野与卷积层1_2输出的特征图做卷积,步长为2,得到维度为32×32×256的特征图F3;
卷积层1_4:使用3×3的感受野与卷积层1_3输出的特征图做卷积,步长为2,得到维度为16×16×512的特征图F4;
(2)解码结构中,采用反卷积层,将特征图F4输入,进行上采样恢复至特征图F3尺寸的特征图F4’,然后将F3和F4’进行特征融合后生成特征图F43;再将F43作为输入,进行上采样恢复至特征图F2尺寸的特征图F3’,然后将F2和F3’进行特征融合后生成特征图F32;再将FM32作为输入,进行上采样恢复至特征图F1尺寸的特征图F2’,然后将 F1和F2’进行特征融合后生成特征图F21;最后输入一层卷积层,生成场景深度图。
子步骤2.2:设计位姿感知模块
位姿感知模块的结构如图6所示,输入经过畸变校正后的目标图像It和相邻时刻的源图像Is这两帧图像,输出源图像相对于目标图像的位姿Tt→s。其结构由七个3×3的卷积层和一个1×1的卷积层组成,前七个卷积层均使用激活函数Relu提取图像特征,然后用 1×1卷积将特征图通道数置为6输出特征图,最后将特征图的维度变换生成一个六维向量,该向量即为相邻帧的相对摄相机位姿变化。
子步骤2.3:重构目标图像
根据上述步骤得到的场景深度图和位姿信息,可重构出目标图像It'。已知相机内参矩阵为K,做如式(5)所示的映射:
ps~KTt→sDt(pt)K-1pt (5)
其中,pt是目标图像It中一个像素的齐次坐标,通过式(5)可得该像素在源图像Is上的投影坐标ps,重构图像中It'(pt)=Is'(ps)。此时得到的ps是连续值,采用双线性采样的方法计算该点的像素值,即Is(ps)的值是通过在源图像Is上采样ps周围四个像素的双线性插值的结果。如式(6)所示。
It'(pt)=Is(ps)=∑i∈{top,bottom},j∈{left,right}ωijIs(ps ij) (6)
其中,ωij与ps和其周围四个像素空间距离成线性比例且∑i,jωij=1。通过将目标图像It的所有像素点投影并采样填充,从而重构出目标图像It'。
子步骤2.4:设计场景深度估计网络的损失函数
该场景深度估计网络的损失函数由两部分组成,分别是重构目标图像损失Lrec如式(7) 所示,以及深度平滑损失Lsmooth如式(8)所示。
Figure BDA0003703701880000091
Figure BDA0003703701880000092
其中
Figure BDA0003703701880000093
Figure BDA0003703701880000094
分别表示纵向和横向的梯度,深度平滑损失能够保证场景深度图中,物体轮廓等位置处深度变化较大,其余位置场景深度图像尽可能平滑,促进场景深度图的平滑性。
综上所述,所设计的场景深度估计网络的完整损失如式(9)所示,其中λs为加权因子,控制深度平滑损失的权重,λs设为0.1。
Ldepth=LrecsLsmooth (9)
步骤三:设计模型的损失函数并训练模型
综上所述,本发明方法所设计的模型最终的损失函数如式(10)所示,λ控制场景深度估计网络的损失在全部损失中的权重,λ的大小为10。
Lfinal=LGAN(G,F,DX,DY)+λLdepth (10)
使用WoodScape鱼眼图像数据集作为训练集,设置初始学习率为0.0002,训练过程中学习率自动下降,设置Adam迭代器的参数β1、β2大小分别为0.9和0.999,批量大小设置为8。使用上述损失函数进行反馈来训练模型,每个epoch之后计算训练损失和验证损失,比较每个epoch的验证损失,保存验证损失最小的模型参数。
步骤四:使用训练好的网络进行深度估计
将鱼眼相机获取的图像序列作为输入量送到训练好的模型中,得到图像的深度估计结果。
本发明方法使用鱼眼相机,感知范围广;所设计的无监督学习方法考虑图像畸变的修正,并结合相机位姿估计信息,实现场景深度的感知,具有训练成本低、感知结果准确的特点。

Claims (1)

1.一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图,具体包括以下步骤:
步骤一:设计生成对抗网络
设计生成对抗网络对鱼眼图像进行畸变校正;生成对抗网络由两个生成器和两个判别器组成;首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集;先将X通过生成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像;Y域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像;生成器G和判别器DY相关联,DY将Y和生成数据G(X)区分,生成器F和判别器DX相关联,DX将X和生成数据F(Y)区分;生成器G和生成器F采用以下所述的生成网络结构,判别器DX和判别器DY采用以下所述的判别网络结构;具体包括以下子步骤:
子步骤1.1:设计生成网络架构
生成网络由编码器网络和解码器网络组成,编码器网络中的编码器采用下采样的方式对图像进行特征提取,解码器网络中的解码器采用上采样方式重建图像;编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为128,64,3;先将一张256×256×3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu;解码器使用上采样的方法把特征映射为图像,使用激活函数Leaky Relu对该上采样层进行激活输出,最后输出256×256×3的图像;生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性;
子步骤1.2:设计对抗网络架构
判别网络采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用;激活函数使用Leaky Relu,输出为30×30的矩阵,用矩阵的均值作为真假判断输出;
子步骤1.3:设计生成对抗网络的损失函数
生成对抗网络的损失函数由三部分组成,分别是两个生成器-判别器对的损失,如式(1)和式(2)所示;以及周期循环一致损失,如式(3)所示;
LGAN(G,DY)=EY~data(Y)[log(DY(Y))]+EX~data(X)[log(1-DY(G(X)))] (1)
LGAN(F,DX)=EX~data(X)[log(DX(X))]+EY~data(Y)[log(1-DX(F(Y)))] (2)
Lcycle(G,F)=EX~data(X)|F(G(X))-X|+EY~data(Y)|G(F(Y))-Y| (3)
其中,EX~data(X),EY~data(Y)均表示数学期望;
综上所述,所设计的生成对抗神经网络的完整损失如式(4)所示,其中λc为加权因子,控制循环一致损失的权重,λc设为10;
LGAN(G,F,DX,DY)=LGAN(G,DY)+LGAN(F,DX)+λcLcycle(G,F) (4)
步骤二:设计场景深度估计网络
场景深度估计网络由深度感知模块和位姿感知模块组成;对经过畸变校正后的图像进行深度估计;具体包括以下子步骤:
子步骤2.1:设计深度感知模块
深度感知模块输入经过畸变校正后的目标图像It,输出该图像的场景深度图Dt,其结构由编码器和解码器组成;
(1)编码器结构如下:
卷积层1_1:使用7×7的感受野与256×256×3的输入张量做卷积,步长为2,得到维度为128×128×64的特征图F1;
卷积层1_2:使用5×5的感受野与卷积层1_1输出的特征图做卷积,步长为2,得到维度为64×64×128的特征图F2;
卷积层1_3:使用5×5的感受野与卷积层1_2输出的特征图做卷积,步长为2,得到维度为32×32×256的特征图F3;
卷积层1_4:使用3×3的感受野与卷积层1_3输出的特征图做卷积,步长为2,得到维度为16×16×512的特征图F4;
(2)解码器结构中,采用反卷积层,将特征图F4输入,进行上采样恢复至特征图F3尺寸的特征图F4’,然后将F3和F4’进行特征融合后生成特征图F43;再将F43作为输入,进行上采样恢复至特征图F2尺寸的特征图F3’,然后将F2和F3’进行特征融合后生成特征图F32;再将FM32作为输入,进行上采样恢复至特征图F1尺寸的特征图F2’,然后将F1和F2’进行特征融合后生成特征图F21;最后输入一层卷积层,生成场景深度图;
子步骤2.2:设计位姿感知模块
位姿感知模块输入经过畸变校正后的目标图像It和相邻时刻的源图像Is这两帧图像,输出源图像相对于目标图像的位姿Tt→s;其结构由七个3×3的卷积层和一个1×1的卷积层组成,前七个卷积层均使用激活函数Relu提取图像特征,然后用1×1卷积将特征图通道数置为6输出特征图,最后将特征图的维度变换生成一个六维向量,该向量即为相邻帧的相对摄相机位姿变化;
子步骤2.3:重构目标图像
根据上述步骤得到的场景深度图和位姿信息,重构出目标图像It';已知相机内参矩阵为K,做如式(5)所示的映射:
ps~KTt→sDt(pt)K-1pt (5)
其中,pt是目标图像It中一个像素的齐次坐标,通过式(5)可得该像素在源图像Is上的投影坐标ps,重构图像中It'(pt)=Is'(ps);此时得到的ps是连续值,采用双线性采样的方法计算该点的像素值,即Is(ps)的值是通过在源图像Is上采样ps周围四个像素的双线性插值的结果;如式(6)所示;
It'(pt)=Is(ps)=∑i∈{top,bottom},j∈{left,right}ωijIs(ps ij) (6)
其中,ωij与ps和其周围四个像素空间距离成线性比例且∑i,jωij=1;通过将目标图像It的所有像素点投影并采样填充,从而重构出目标图像It';
子步骤2.4:设计场景深度估计网络的损失函数
该场景深度估计网络的损失函数由两部分组成,分别是重构目标图像损失Lrec如式(7)所示,以及深度平滑损失Lsmooth如式(8)所示;
Figure FDA0003703701870000031
Figure FDA0003703701870000032
其中
Figure FDA0003703701870000033
Figure FDA0003703701870000034
分别表示纵向和横向的梯度,深度平滑损失能够保证场景深度图中,物体轮廓位置处深度变化较大,其余位置场景深度图像平滑,促进场景深度图的平滑性;
综上所述,所设计的场景深度估计网络的完整损失如式(9)所示,其中λs为加权因子,控制深度平滑损失的权重,λs设为0.1;
Ldepth=LrecsLsmooth (9)
步骤三:设计模型的损失函数并训练模型
综上所述,本发明方法所设计的模型最终的损失函数如式(10)所示,λ控制场景深度估计网络的损失在全部损失中的权重,λ的大小为10;
Lfinal=LGAN(G,F,DX,DY)+λLdepth (10)
使用WoodScape鱼眼图像数据集作为训练集,设置初始学习率为0.0002,训练过程中学习率自动下降,设置Adam迭代器的参数β1、β2大小分别为0.9和0.999,批量大小设置为8;使用上述损失函数进行反馈来训练模型,每个epoch之后计算训练损失和验证损失,比较每个epoch的验证损失,保存验证损失最小的模型参数;
步骤四:使用训练好的网络进行深度估计
将鱼眼相机获取的图像序列作为输入量送到训练好的模型中,得到图像的深度估计结果。
CN202210698689.4A 2022-06-20 2022-06-20 一种基于无监督学习的鱼眼相机场景深度估计方法 Pending CN115063463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210698689.4A CN115063463A (zh) 2022-06-20 2022-06-20 一种基于无监督学习的鱼眼相机场景深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210698689.4A CN115063463A (zh) 2022-06-20 2022-06-20 一种基于无监督学习的鱼眼相机场景深度估计方法

Publications (1)

Publication Number Publication Date
CN115063463A true CN115063463A (zh) 2022-09-16

Family

ID=83202989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210698689.4A Pending CN115063463A (zh) 2022-06-20 2022-06-20 一种基于无监督学习的鱼眼相机场景深度估计方法

Country Status (1)

Country Link
CN (1) CN115063463A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546273A (zh) * 2022-11-09 2022-12-30 中国传媒大学 一种面向室内鱼眼图像的场景结构深度估计方法
CN116129036A (zh) * 2022-12-02 2023-05-16 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN117953275A (zh) * 2024-01-04 2024-04-30 北京和气聚力教育科技有限公司 一种基于ai分析的自适应教学质量评估系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546273A (zh) * 2022-11-09 2022-12-30 中国传媒大学 一种面向室内鱼眼图像的场景结构深度估计方法
CN116129036A (zh) * 2022-12-02 2023-05-16 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN116129036B (zh) * 2022-12-02 2023-08-29 中国传媒大学 一种深度信息引导的全方向图像三维结构自动恢复方法
CN117953275A (zh) * 2024-01-04 2024-04-30 北京和气聚力教育科技有限公司 一种基于ai分析的自适应教学质量评估系统
CN117953275B (zh) * 2024-01-04 2024-09-13 北京和气聚力教育科技有限公司 一种基于ai分析的自适应教学质量评估系统

Similar Documents

Publication Publication Date Title
CN111652966B (zh) 一种基于无人机多视角的三维重建方法及装置
CN115063463A (zh) 一种基于无监督学习的鱼眼相机场景深度估计方法
CN110427968B (zh) 一种基于细节增强的双目立体匹配方法
CN111199522A (zh) 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
CN108416803B (zh) 一种基于深度神经网络的多信息融合的场景深度恢复方法
CN111539887A (zh) 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
US20220414838A1 (en) Image dehazing method and system based on cyclegan
CN115035240B (zh) 实时三维场景重建方法及装置
CN114926553A (zh) 基于神经辐射场的三维场景一致性风格化方法及系统
CN115984494A (zh) 一种基于深度学习的月面导航影像三维地形重建方法
CN111861935B (zh) 一种基于图像修复技术的去雨方法
CN113538569A (zh) 一种弱纹理物体位姿估计方法和系统
CN113592715A (zh) 一种面向小样本图像集的超分辨率图像重构方法
CN115393186A (zh) 一种人脸图像超分辨率重建方法、系统、设备及介质
CN115131245A (zh) 一种基于注意力机制的点云补全方法
CN113077545A (zh) 一种基于图卷积的从图像中重建着装人体模型的方法
CN117197624A (zh) 一种基于注意力机制的红外-可见光图像融合方法
Chen et al. Recovering fine details for neural implicit surface reconstruction
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
CN113870162A (zh) 一种融合光照和反射的低光图像增强方法
CN116934972B (zh) 一种基于双流网络的三维人体重建方法
CN116128768B (zh) 一种带有去噪模块的无监督图像低照度增强方法
CN112115864B (zh) 红外图像及深度图像双模态目标分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination