CN112184731A - 一种基于对抗性训练的多视图立体深度估计方法 - Google Patents

一种基于对抗性训练的多视图立体深度估计方法 Download PDF

Info

Publication number
CN112184731A
CN112184731A CN202011037998.4A CN202011037998A CN112184731A CN 112184731 A CN112184731 A CN 112184731A CN 202011037998 A CN202011037998 A CN 202011037998A CN 112184731 A CN112184731 A CN 112184731A
Authority
CN
China
Prior art keywords
depth map
module
network
depth
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011037998.4A
Other languages
English (en)
Other versions
CN112184731B (zh
Inventor
王亮
范德巧
李建书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011037998.4A priority Critical patent/CN112184731B/zh
Publication of CN112184731A publication Critical patent/CN112184731A/zh
Application granted granted Critical
Publication of CN112184731B publication Critical patent/CN112184731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于对抗性训练的多视图立体深度估计方法。在对抗性训练网络中,生成网络学习图像与其对应深度图之间的映射,判别网络将学习区分深度图是来自生成模块还是基准深度。训练时,结合生成损失函数和交叉熵对抗损失函数,训练整个网络。本发明通过对抗性训练来提高多视图立体深度估计的深度学习能力,通过生成对抗网络GAN在图像深度方向收集空间和时间上的上下文信息,从而允许网络结合更多的全局信息。本发明的对抗性训练网络利用生成模块和判别模块的对抗性训练,采用梯度惩罚作为一种软约束的对抗损失函数,改进了原始生成对抗网络训练过程,显著减少了网络训练和测试期间的内存占用和运行时间,提高了多视图立体深度预测精度。

Description

一种基于对抗性训练的多视图立体深度估计方法
技术领域
本发明涉及计算机视觉的物体检测、三维重建等领域,具体涉及基于对抗性训练的多视图立体深度估计方法。
背景技术
从立体图像中进行深度估计是许多立体视觉任务的核心问题,并且在很多领域上有应用,例如3D重建、无人驾驶、物体检测、机器人导航和虚拟现实、增强现实等。深度估计是一种计算机视觉任务,旨在从2D图像中估计深度。这个任务输入同一场景多个视角拍摄的RGB图像,经过处理后输出改场景的深度图。深度图包含了从视图看图像中的被摄物体距离的信息。
一种典型的深度估计算法包括4个步骤:特征提取、特征匹配、深度计算和深度细化。对于深度估计的整体性能而言,每个步骤都起到至关重要的作用。由于生成对抗网络在各种视觉任务中都表现出强大的特征表达能力,因此,生成对抗网络已经被应用到深度估计中去提高深度估计精度,并且显著地超过了传统的方法。生成对抗网络最早是由Goodfellow等人提出的,它同时训练了两个神经网络(生成器和判别器)。(I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,andY.Bengio.Generative adversarial nets.In Advances in Neural InformationProcessing Systems 27(NIPS 2014),pages 2672–2680,2014.)生成器输出的分布近似于真实数据的分布,判别器将区分分布是来自生成器还是真实数据,是一个相互博弈的对抗训练过程。Pu C.和Song R.等人利用类似于生成对抗网络的端到端体系结构来学习像素之间复杂的视差关系来提高深度融合精度。(Pu C,Song R,Tylecek R,et al.SDF-MAN:Semi-Supervised Disparity Fusion with Multi-Scale Adversarial Networks[J].RemoteSensing,2019,11(5):487.)他们认为,利用对抗性思想,可以使训练变得简单。遵循这一思想,出现了若干方法来提升计算效率或者深度精度。然而,这些方法仍然有一些限制。尤其是,现存的网络运行存在巨大的内存消耗并且需要强大的计算处理能力,对于高分辨率场景无法处理。
发明内容
本发明主要采用深度学习的方法对输入多视图立体图像进行处理,以获取连续精确的深度图。首先是利用2维卷积神经网络对输入立体图像进行特征提取,然后利用编码网络对提取出的特征向量进行编码。然后,利用生成模块进行上采样生成初始深度图。随后,将初始深度图和参考图像的基准深度图输入判别模块让其鉴别真伪。最后利用深度残差学习网络,进一步细化深度估计,以获得精确的深度估计。
为了实现上述目的,本发明提供了如下方案:
一种基于对抗性训练的多视图立体深度估计方法,所述方法包括:
步骤1:数据处理;
步骤2:构建深度估计网络;
步骤3:训练网络模型;
步骤4:利用训练完成的深度估计网络模型进行多视图立体深度估计。
所述的数据处理,具体包括如下步骤:
步骤1:数据集:对于数据集中每一组多视角下拍摄的立体图像组,在没有特殊说明的情况下,取其中一个数据集下侧图像作为参考图像,上侧图像作为对应的相邻图像。所有的立体图像都经过矫正,即只在水平方向有偏移,垂直方向无偏移。
步骤2:预处理:对数据集中每个输入立体图像进行随机裁剪,裁剪尺寸根据服务器的具体情况进行裁剪,然后对其进行归一化操作,使图像色彩值范围在[-1,1]之间。
所述的构建深度估计网络,具体包括如下模块:
模块1:初始特征提取模块
训练阶段,初始特征提取模块用于对输入的立体图像组进行特征提取,训练阶段采用立体图像组,是因为可以降低显卡GPU运行内存。测试阶段,用于提取待估计的输入立体图像的特征,具体的输入是N个待估计的输入立体图像,输出是N个一元特征。所述的2维卷积神经网络由8层卷积层构成,每层卷积层依次对输入的N个立体图像进行下采样;上述进行特征提取的8层卷积层,除最后一层,每个卷积层之后是由批量归一化(BN)层和修正线性单元(ReLU)组合的残差块结构,残差块结构的卷积核均为3×3,特征维度均为32,步长为1;经过上述卷积操作后,所述2维卷积神经网络的输出是N个尺寸为H/4×W/4×F的一元特征向量,其中H、W分别表示原始输入图像的高和宽,F表示特征维度;
模块2:编码模块
所述的编码模块是由5层卷积核为2×2的卷积最大池化层组成,训练阶段,输入是从特征提取模块得到的参考图像和相邻图像的N个一元特征特征向量,输出是N个一维的隐特征编码z;测试阶段,输入的是待估计的输入立体图像的特征向量,上述编码模块将一元特征向量投影到隐空间Z进行编码生成特征编码z;
模块3:生成模块
所述的生成模块是由7层卷积核为2×2的反卷积层组成,用于进行上采样产生初始深度图,其输入是N个特征编码z,输出是N张单通道灰度深度图;上述生成模块的7层反卷积层,除输出层外,在每层之后是批量归一化(BN)层和修正线性单元(ReLU);经过上述反卷积操作后,所述反卷积神经网络的输出是N张初始深度图,初始深度图的维度为H×W×1,其中H、W分别表示原始输入图像的高和宽;
模块4:判别模块
所述的判别模块由6层卷积层组成,卷积核为5×5、步长为2,用于判别初始深度图的真伪;输入是生成模块生成的初始深度图,和标注得到的参考图像的基准深度图,输出是对生成模块生成的初始深度图的判别结果;判别模块通过判断生成模块生成的初始深度图分布与参考图像的基准深度图分布之间的EM距离
Figure BDA0002705705220000041
来判别初始深度图的真伪;上述EM距离中Π(Pr,Pg)为基准深度图分布和初始深度图分布组合起来的所有可能的联合分布的集合,对于每一个可能的联合分布γ而言,可以从中采样(x,y)~γ得到一个真实样本x和一个生成样本y,并算出这对样本的距离||x-y||,计算出该联合分布下样本对距离的期望值E(x,y)~γ[||x-y||]。在所有可能的联合分布中能够对这个期望值E(x,y)~γ[||x-y||]取到的下界,就定义为EM距离。判别模块对生成模块G产生的初始深度图和参考图像的基准深度图进行判别,若满足EM距离条件,即联合分布下样本对距离的期望值E(x,y)~γ[||x-y||]能取到下界,则判断为真,反之则判断为假。上述判别模块的6层卷积层,除输入层,每层之后是批量归一化(BN)层和带泄露修正线性单元(Leaky ReLU);判别模块仅用于训练训练阶段。
模块5:深度图细化模块
所述的深度图细化模块利用深度残差学习网络,进一步细化深度估计,其输入是初始深度图,输出是最终深度图;所述深度细化操作过程如下:首先,初始深度图利用双线性插值进行上采样;然后通过一个卷积核为3x3,通道为32的卷积层,其输出结果再通过带有膨胀率为1,2,4,8,1,1的6个残差块;每个残差块结构为BN-conv-BN-ReLU-conv-BN,其中BN、conv和ReLU分别指批归一化、卷积层和修正线性单元。随后,残差块的输出送入一个维度为1,卷积核为3x3的卷积层,输出结果即为最终深度图;所述的深度细化模块输出的最终深度图维度为H×W×1,其中H、W分别表示原始输入图像的高和宽。
所述训练网络模型,具体包括如下步骤:
步骤1:将训练数据集多视图立体图像输入给深度估计网络的模型进行前向传播训练,该模型的学习参数包括权重和偏置,随机初始化参数从头开始训练网络模型。
步骤2:利用整体损失函数来训练整个深度估计网络模型,整体损失函数具体如下:
Figure BDA0002705705220000051
其中Lgeneration生成损失函数用来训练生成网络,
Figure BDA0002705705220000052
是交叉熵对抗损失函数用来训练判别网络,β1和β2是调节生成损失和交叉熵对抗损失的权重参数。
所述生成损失函数为:
Figure BDA0002705705220000053
其中M为特征提取时获取的参考图像和相邻图像的特征点的有效像素点的未遮挡掩模。生成损失函数用来训练生成网络。
上述生成损失函数包括图像与梯度之间的L1距离、结构相似度(SSIM)和深度平滑项,其中深度平滑项是为了提高初始生成深度图的平滑度,这三项定义如下:
Figure BDA0002705705220000054
其中,I′j→i为相邻图像Ij与相邻图像Ii之间的映射关系;λ12为调整梯度的百分比参数;
Figure BDA0002705705220000061
可以提高损失的稳定性,ε为稳定因子;
Figure BDA0002705705220000062
为梯度算子。
Figure BDA0002705705220000063
其中,S(·)表示结构相似度SSIM,λ3为调整结构相似度的百分比参数。
Figure BDA0002705705220000064
其中,N是为所有图像特征像素点的总数,di为图像Ii的深度,α1,α2为调整平滑度的百分比参数;
在原始生成对抗网络模型中,生成模块G和判别模块D的训练目标如下:
Figure BDA0002705705220000065
其中,Preal为基准深度图分布,Prefiner为生成模块G生成的初始深度图分布。在原始生成对抗网络在生成训练过程中,由于权重裁剪容易导致训练崩溃。本发明提出基于梯度惩罚作为一种软约束的损失函数,改进了训练过程。因此,交叉熵对抗损失函数为:
Figure BDA0002705705220000066
其中θ是惩罚系数,
Figure BDA0002705705220000067
表示
Figure BDA0002705705220000068
属于生成模块G生成的初始深度图分布Prefiner中的随机抽样;x~Preal表示x属于基准深度图分布Preal中的随机抽样;
Figure BDA0002705705220000069
表示
Figure BDA00027057052200000610
属于基准深度图分布与初始深度图的联合分布
Figure BDA00027057052200000611
中的随机抽样;Di(*)表示判别网络D的权重;
Figure BDA00027057052200000612
表示判别网络D的梯度惩罚;交叉熵对抗损失函数用来训练判别网络。
步骤3:重复步骤1和步骤2,不断迭代训练网络模型参数,以获得最优的深度估计网络模型。
步骤4:将步骤1、步骤2和步骤3最终对抗训练学习得到的初始深度图输入到深度细化网络中进行残差学习得到最终深度图。
利用训练完成的深度估计网络模型进行多视图立体深度估计。
有益效果:
本发明提供一种基于对抗性训练的多视图立体深度估计方法,共5个步骤,包括初始特征提取、特征编码、初始深度图计算、对抗训练和深度图细化,并详细的设计每个步骤,同时将5个步骤整合到一个网络中,可端对端的实现多视图立体深度估计。本发明的深度估计方法在对抗性训练网络中,利用生成模块和判别模块的对抗性训练,采用梯度惩罚作为一种软约束的对抗损失函数,改进了原始生成对抗网络训练过程,显著地减少了网络训练和测试期间的内存占用和运行时间,提高了多视图立体深度预测精度。
附图说明
图1是本发明提供的基于对抗性训练的多视图立体深度估计方法的网络流程图;
图2(a)为训练阶段网络工作流程图、图2(b)为生成网络工作流程图、图2(c)为判别模块结构图、2(d)深度图细化模块结构图、2(e)为测试阶段系统工作流程图。
图3是本发明实施例提供的Tanks&Temples数据集中待估计的参考图像及其相邻图像,3(a)为参考图像,3(b)和3(c)为相邻图像;
图4是采用发明方法得到的Tanks&Temples数据集中实施例立体图像的最终深度图;
具体实施方式
本发明的目的是提供一种基于对抗性训练的多视图立体深度估计方法,可端对端地实现多视图立体深度估计,无需任何后处理过程,同时可显著地减少训练/测试期间的内存占用和运行时间。
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
图1是本发明提供的基于对抗性训练的多视图立体深度估计方法的方法流程图。图2是本发明提供的基于对抗性训练的多视图立体深度估计方法的不同阶段的工作流程图以及各模块的结构示意图。本发明提供的基于对抗性训练的多视图立体深度估计方法具体包括:
步骤1:数据处理;对含有真实视差值的图像进行随机裁剪,裁剪尺寸为640×512,对裁剪后的图像进行归一化处理,使图像像素值的范围在[-1,1]之间。选取一张图像作为参考图像,其余图像为相邻图像,如图3所示,图3(a)为参考图像,图3(b)和3(c)为相邻图像,参考图像及其相邻图像构成一组多视图立体图像。所述训练样本立体图像为DTU数据集,测试图像为Tanks&Temples数据集。
步骤2:构建深度估计网络;首先,提取图像的初始特征表示。通常使用一个特征表示,而不是使用原始像素强度来计算。受到描述子的启发,对于光照表面的歧义性,特征表示更稳健,因此,输入图像立体图像首先通过8层卷积层提取深度特征表示。为了进行实现更好的特征匹配,将提取的特征向量输入编码模块中进行编码生,成特征编码。同时编码结构的提出,显著地减少了训练/测试期间的内存占用和运行时间。下一步,将特征编码输入生成模块进行上采样操作,生成初始深度图。然后,利用判别模块对生成模块产生的初始深度图和参考图像的基准深度图进行判别真伪。在深度细化阶段,利用深度残差学习网络,进一步细化深度估计,产生最终深度图。
步骤3:训练网络模型:首先将预处理后的训练数据集DTU多视图立体图像输入到深度估计网络的模型中进行前向传播训练,该模型的学习参数包括权重和偏置。然后,利用
Figure BDA0002705705220000091
生成损失函数训练生成网络,其中λ1,λ2,λ3设置为0.1~0.9之间,α1,α2设置为0.5~0.9之间;利用
Figure BDA0002705705220000092
交叉熵对抗损失函数作为梯度惩罚的一种软约束进行反向传播,其中惩罚系数θ设置为0.0001~0.0005之间。整体损失函数β1,β2设置为0.8~0.9之间。在网络框架中,利用判别网络来判断生成质量,生成网络和判别网络的参数交替训练直至收敛。最后,根据梯度多次更新迭代模型的学习参数以获得最优的深度估计网络模型。
步骤4:深度估计;
通过步骤3获得了深度估计网络模型,现在通过利用数据集Tanks&Temples多视图立体图像进行实际场景的测试。图3是本发明实施例提供的待估计的一组立体图像。其中图3(a)为参考图像,3(b)、(c)为相邻图像。本实施例中,所述待估计实施例的立体图像是从Tanks&Temples数据集中提取的。参考图1和图2,本发明基于对抗性训练的多视图立体深度估计方法,使用Tanks&Temples数据集中实施例的立体图像进行深度估计说明(所述3阶张量维度为H×W×F,4阶张量维度为H×W×D×F,H、W分别表示原始输入图像的高和宽,D表示最大的可能视差值,默认为192,F表示特征维度):
1)将Tanks&Temples数据集中实施例的立体图像进行随机裁剪到640×512大小的图像块,然后对其进行归一化处理,使图像像素值范围在[-1,1]之间,完成预处理阶段后,将立体图像输入到训练好的深度估计网络中。
2)如图2所示,对实施例的输入立体图像进行特征提取。首先,利用2维卷积神经网络对立体图像进行特征特取,经过两次下采样,此时输出特征图维度为160×128×32。
3)将提取的初始特征向量输入编码模块进行编码。初始特征向量经过一个包含5层卷积核为2×2的卷积最大池化层的编码过程,此时输出大小为100的特征编码。
4)初始深度图生成。将特征编码输入生成网络中,经过由7层卷积核为2×2的反卷积层的上采样操作,此时输出特征图维度为640×512×1的初始深度图。
5)深度细化。将初始深度图输入深度残差学习网络进行细化,得到最终深度图。
图4采用本发明方法得到的Tanks&Temples数据集中实施例立体图像的最终深度图。通过生成对抗网络在图像深度方向收集空间和时间上的上下文信息,从而允许网络结合更多的全局信息,提高了多视图立体深度估计精度。处理整张Tanks&Temples数据集图像(1920×1080)可达到5Hz,相比现存的深度估计网络,在测试期间的运行速度得到显著提升。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换和替代,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种基于对抗性训练的多视图立体深度估计方法,其特征在于包括以下步骤:
步骤1:构建数据集并进行预处理,所述数据集为同一场景多个视角拍摄的RGB图像,包括参考图像及其相邻图像,参考图像及其相邻图像作为一组输入图像。
步骤2:构建深度估计网络,所述的深度估计网络包括特征提取模块、编码模块、生成模块、判别模块、以及深度图细化模块,其中,特征提取模块用于提取输入立体图像对的特征,编码模块用于将一元特征向量投影到隐空间进行编码,生成特征编码z,使特征表示更稳健;生成模块用于根据输入的隐特征编码生成图像的初始深度图;特征提取模块、编码模块、生成模块共同构成生成网络;判别模块仅在训练时使用,利用参考图像的基准深度图判断初始深度图是否为真,所述基准深度图通过对参考图像进行标注得到;深度图细化模块用于生成最终的深度图;
步骤3:模型训练:首先将预处理后的训练数据集多视图立体图像输入到深度估计网络的生成网络中进行前向传播计算,得到相邻图像的初始深度图;然后,将输出的相邻图像的初始深度图和参考图像的基准深度图输入到判别网络中,利用批量梯度下降法进行反向传播;在生成网络和判别模块相互博弈对抗训练的过程中,根据梯度多次更新迭代模型的学习参数以获得最优的深度估计网络模型,该模型的学习参数包括权重和偏置;最后,将最终对抗训练学习得到的初始深度图输入到深度细化网络中进行残差学习得到最终深度图;训练时,以整体损失函数来训练整个网络模型;
步骤4:利用训练完成的深度估计网络模型对待估计的多视图立体图像进行深度估计,具体的,将待估计的多视图立体图像输入特征提取模块进行特征提取;然后经过编码模块生成隐特征编码;接下来经过生成模块生成初步深度图;最后通过深度图细化模块对初始深度图进行细化得到最终深度图,以此完成多视图深度估计。
2.根据权利要求1所述的多视图深度估计方法,其特征在于,步骤1中所述的预处理指:对数据集中每张输入立体图像进行随机裁剪,然后对其进行归一化操作,使图像色彩值范围在[-1,1]之间。
3.根据权利要求1所述的多视图深度估计方法,其特征在于,所述的特征提取模块是一个2维卷积神经网络;所述的2维卷积神经网络由8层卷积层成,卷积核为5×5、步长为2,每层卷积层依次对输入的N个立体图像进行下采样;上述特征提取的8层卷积层,除最后一层,每个卷积层之后依次是由批量归一化(BN)层和修正线性单元(ReLU)组合的残差块结构,残差块结构的卷积核均为3×3,特征维度均为32,步长为1;经过上述卷积操作后,所述2维卷积神经网络的输出是N个尺寸为H/4×W/4×F的一元特征向量,其中H、W分别表示原始输入图像的高和宽,F表示特征维度。
4.根据权利要求1所述的多视图深度估计方法,其特征在于,所述编码模块是由5层卷积核为2×2的卷积最大池化层组成,输入是N个一元特征向量,输出是N个一维的特征编码z;上述编码模块将一元特征向量投影到隐空间Z进行编码降维生成特征编码z。
5.根据权利要求1所述的多视图深度估计方法,其特征在于,所述生成模块是由7层卷积核为2×2的反卷积层组成,用于进行上采样产生初始深度图,其输入是N个隐特征编码z,输出是N张单通道灰度深度图;上述生成模块的7层反卷积层,除输出层外,在每层之后依次是批量归一化(BN)层和修正线性单元(ReLU);经过上述反卷积操作后,所述反卷积神经网络的输出是N张初始深度图,初始深度图的维度为H×W×1,其中H、W分别表示原始输入图像的高和宽。
6.根据权利要求1所述的多视图深度估计方法,其特征在于,所述判别模块由6层卷积层组成,卷积核为5×5、步长为2,用于判别深度图的真伪;输入是生成模块生成的初始深度图和参考图像的基准深度图,输出是对深度图的判别结果;上述判别模块的6层卷积层,除输入层,每层之后是批量归一化(BN)层和带泄露修正线性单元(Leaky ReLU);判别模块仅用于训练训练阶段。
7.根据权利要求6所述的多视图深度估计方法,其特征在于,所述判别模块通过判断生成模块生成的初始深度图分布与参考图像的基准深度图分布之间的EM距离
Figure FDA0002705705210000031
来判别初始深度图的真伪;上述EM距离中Π(Pr,Pg)为基准深度图分布和初始深度图分布组合起来的所有可能的联合分布的集合,对于每一个可能的联合分布γ而言,可以从中采样(x,y)~γ得到一个真实样本x和一个生成样本y,并算出这对样本的距离||x-y||,计算出该联合分布下样本对距离的期望值E(x,y)~γ[||x-y||];在所有可能的联合分布中能够对这个期望值E(x,y)~γ[||x-y||]取到的下界,就定义为EM距离;判别模块对生成模块G产生的初始深度图和参考图像的基准深度图进行判别,若满足EM距离条件,即联合分布下样本对距离的期望值E(x,y)~γ[||x-y||]能取到下界,则判断为真,并将此时得到的初始深度图输入深度图细化模块,反之则判断为假,生成模块G重新产生初始深度图。
8.根据权利要求1所述的多视图深度估计方法,其特征在于,所述深度图细化模块采用深度残差学习网络,用于进一步细化深度估计,输入是初始深度图,输出是最终深度图;首先,初始深度图利用双线性插值进行上采样;然后通过一个卷积核为3x3,通道为32的卷积层,其输出结果再通过带有膨胀率为1,2,4,8,1,1的6个残差块;每个残差块结构为BN-conv-BN-ReLU-conv-BN,其中BN、conv和ReLU分别指批归一化、卷积层和修正线性单元;随后,残差块的输出送入一个维度为1,卷积核为3x3的卷积层,输出结果即为最终深度图;所述的深度细化模块输出的最终深度图维度为H×W×1,其中H、W分别表示原始输入图像的高和宽。
9.根据权利要求1所述的一种对抗性训练的多视图提深度估计方法,其特征在于,步骤3中所述的整体损失函数具体如下:
Figure FDA0002705705210000041
其中
Figure FDA0002705705210000045
是生成损失函数,
Figure FDA0002705705210000046
是交叉熵对抗损失函数,β1和β2是调节生成损失函数和交叉熵对抗损失函数的百分比参数;
所述生成损失函数为:
Figure FDA0002705705210000042
其中M为特征提取时获取的参考图像和相邻图像的特征点的有效像素点的未遮挡掩模;
上述生成损失包括图像与梯度之间的L1距离、结构相似度(SSIM)和深度平滑项,其中深度平滑项是为了提高初始生成深度图的平滑度,这三项定义如下:
Figure FDA0002705705210000043
其中,I′j→i为相邻图像Ij与相邻图像Ii之间的映射关系;λ12为调整梯度的百分比参数;
Figure FDA0002705705210000047
可以提高损失的稳定性,ε为稳定因子;
Figure FDA0002705705210000048
为梯度算子。
Figure FDA0002705705210000044
其中,S(·)表示结构相似度SSIM,λ3为调整结构相似度的百分比参数;
Figure FDA0002705705210000051
其中,N是为所有图像特征像素点的总数,di为图像Ii的深度,α1、α2为调整平滑度的百分比参数;
所述交叉熵对抗损失函数为:
Figure FDA0002705705210000052
其中θ是惩罚系数,
Figure FDA0002705705210000053
表示
Figure FDA0002705705210000054
属于生成模块G生成的初始深度图分布Prefiner中的随机抽样;x~Preal表示x属于基准深度图分布Preal中的随机抽样;
Figure FDA0002705705210000055
表示
Figure FDA0002705705210000058
属于基准深度图分布与初始深度图的联合分布
Figure FDA0002705705210000057
中的随机抽样;Di(*)表示判别网络D的权重;
Figure FDA0002705705210000056
表示判别网络D的梯度惩罚;
原始生成对抗网络在生成训练过程中,由于权重裁剪容易导致训练崩溃。本发明提出基于梯度惩罚作为一种软约束的对抗损失函数,改进了训练过程。
CN202011037998.4A 2020-09-28 2020-09-28 一种基于对抗性训练的多视图立体深度估计方法 Active CN112184731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011037998.4A CN112184731B (zh) 2020-09-28 2020-09-28 一种基于对抗性训练的多视图立体深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011037998.4A CN112184731B (zh) 2020-09-28 2020-09-28 一种基于对抗性训练的多视图立体深度估计方法

Publications (2)

Publication Number Publication Date
CN112184731A true CN112184731A (zh) 2021-01-05
CN112184731B CN112184731B (zh) 2024-05-28

Family

ID=73944338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011037998.4A Active CN112184731B (zh) 2020-09-28 2020-09-28 一种基于对抗性训练的多视图立体深度估计方法

Country Status (1)

Country Link
CN (1) CN112184731B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998683A (zh) * 2022-06-01 2022-09-02 北京理工大学 一种基于注意力机制的ToF多径干扰去除方法
WO2022207438A1 (de) * 2021-03-29 2022-10-06 Conti Temic Microelectronic Gmbh Verfahren und system zur schätzung von tiefeninformationen
CN116757068A (zh) * 2023-06-06 2023-09-15 青岛理工大学 一种基于深度学习对cfrp自冲铆接成形过程的预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389171A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于联合估计模糊变量的光场去模糊和深度估计方法
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
US20190325597A1 (en) * 2018-04-24 2019-10-24 Ford Global Technologies, Llc Simultaneous Localization And Mapping Constraints In Generative Adversarial Networks For Monocular Depth Estimation
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法
CN110992217A (zh) * 2019-11-15 2020-04-10 广东工业大学 一种外观设计专利多视图特征表示、检索的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389171A (zh) * 2018-03-08 2018-08-10 深圳市唯特视科技有限公司 一种基于联合估计模糊变量的光场去模糊和深度估计方法
CN108564611A (zh) * 2018-03-09 2018-09-21 天津大学 一种基于条件生成对抗网络的单目图像深度估计方法
US20190325597A1 (en) * 2018-04-24 2019-10-24 Ford Global Technologies, Llc Simultaneous Localization And Mapping Constraints In Generative Adversarial Networks For Monocular Depth Estimation
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法
CN110992217A (zh) * 2019-11-15 2020-04-10 广东工业大学 一种外观设计专利多视图特征表示、检索的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶春凯;万旺根;: "基于特征金字塔网络的多视图深度估计", 电子测量技术, no. 11, 8 June 2020 (2020-06-08) *
李天成;何嘉;: "一种基于生成对抗网络的图像修复算法", 计算机应用与软件, no. 12, 12 December 2019 (2019-12-12) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022207438A1 (de) * 2021-03-29 2022-10-06 Conti Temic Microelectronic Gmbh Verfahren und system zur schätzung von tiefeninformationen
CN114998683A (zh) * 2022-06-01 2022-09-02 北京理工大学 一种基于注意力机制的ToF多径干扰去除方法
CN114998683B (zh) * 2022-06-01 2024-05-31 北京理工大学 一种基于注意力机制的ToF多径干扰去除方法
CN116757068A (zh) * 2023-06-06 2023-09-15 青岛理工大学 一种基于深度学习对cfrp自冲铆接成形过程的预测方法
CN116757068B (zh) * 2023-06-06 2024-01-09 青岛理工大学 一种基于深度学习对cfrp自冲铆接成形过程的预测方法

Also Published As

Publication number Publication date
CN112184731B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN110533712B (zh) 一种基于卷积神经网络的双目立体匹配方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN108537871B (zh) 信息处理设备和信息处理方法
CN112184731B (zh) 一种基于对抗性训练的多视图立体深度估计方法
CN111753698B (zh) 一种多模态三维点云分割系统和方法
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN114022729B (zh) 基于孪生网络和监督训练的异源图像匹配定位方法和系统
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN113034563A (zh) 基于特征共享的自监督式单目深度估计方法
CN112541865A (zh) 基于生成对抗网络的水下图像增强方法
CN116279592A (zh) 一种用于无人物流车的可行驶区域划分方法
CN112613460B (zh) 人脸生成模型的建立方法和人脸生成方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN114972882A (zh) 基于多注意力机制的磨损表面损伤深度估计方法及系统
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN117037142A (zh) 一种基于深度学习的3d目标检测方法
CN114693744A (zh) 一种基于改进循环生成对抗网络的光流无监督估计方法
CN114677349A (zh) 编解码端边缘信息增强和注意引导的图像分割方法及系统
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN117315153A (zh) 一种协同光场与占用场的人体重建与渲染方法及装置
CN116681976A (zh) 用于红外小目标检测的渐进式特征融合方法
CN106056599B (zh) 一种基于物体深度数据的物体识别算法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant