CN111445476B - 基于多模态无监督图像内容解耦的单目深度估计方法 - Google Patents

基于多模态无监督图像内容解耦的单目深度估计方法 Download PDF

Info

Publication number
CN111445476B
CN111445476B CN202010126070.7A CN202010126070A CN111445476B CN 111445476 B CN111445476 B CN 111445476B CN 202010126070 A CN202010126070 A CN 202010126070A CN 111445476 B CN111445476 B CN 111445476B
Authority
CN
China
Prior art keywords
image
content
style
domain
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010126070.7A
Other languages
English (en)
Other versions
CN111445476A (zh
Inventor
王贺升
胡寒江
赵忠臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010126070.7A priority Critical patent/CN111445476B/zh
Publication of CN111445476A publication Critical patent/CN111445476A/zh
Application granted granted Critical
Publication of CN111445476B publication Critical patent/CN111445476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于多模态无监督图像内容解耦的单目深度估计方法,包括:步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;步骤3:根据训练集构建深度估计网络模型并进行训练;步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。本发明不依赖大量的真实RGB图像对应的深度图,且具有对不同季节、光照环境鲁棒性强的特点。

Description

基于多模态无监督图像内容解耦的单目深度估计方法
技术领域
本发明涉及图像识别和人工智能技术领域,具体地,涉及一种基于多模态无监督图像内容解耦的单目深度估计方法。尤其地,涉及一种应用于季节、光照等环境变化下的单目深度估计方法。
背景技术
室外单目深度估计在无人驾驶、移动机器人等领域有着重要的作用。近几年,由于深层卷积网络的推动,基于单目图像的深度估计取得了重大的进展。然而室外场景的真实深度图往往因获取成本过高而难以获取或者质量较低,使得难以直接利用室外单目图像进行有监督的深度估计训练。
目前常用的算法有如下三类:
早期的马尔可夫随机场算法以及其它的概率图模型,十分依赖人工描述符,使得相较于基于学习的算法表现较差。
基于监督训练的深层卷积深度预测器。基于多尺度深度网络的单个图像深度图预测网络,算法首次使用端到端的深层卷积深度估计网络;基于深度卷积神经网络的单目深度估计算法,算法利用神经网络结合连续CRF像素的方法进行深度估计;用于单目深度估计的卷积神经网络可视化算法,使用CNN从像素相关性的角度估计深度图。但这些监督训练存在一个普遍的问题:室外图像真实的深度图往往因获取成本过高而数量较少,使得监督训练成本过高。
以无监督的方式训练深度预测器,并辅以相机自身运动姿态的立体几何信息进行训练。结合几何特征的无监督单目深度估计卷积网络算法,该算法用无监督图像重建方法进行深度估计;左右一致性的无监督单目深度估计算法使用双目图像的左右一致性约束估计深度图;自监督单目深度估计算法使用相机自身运动位姿约束进行深度估计。然而这些方法需要额外辅助立体视觉信息进行训练,同时没有显式解决在不同数据集、不同环境视角变化时的泛化问题。
针对以上单目深度估计存在的难点:室外图像深度图较为稀缺且质量不高、图像存在季节、光照变化等问题。因此除了对深度预测器进行无监督训练外,数量多且质量高的虚拟数据集的深度图能够用来解决真实世界深度图稀缺的问题。从虚拟图像到真实图像的图像迁移存在两个域之间的适应差距问题,当前从虚拟图像到真实图像的深度预测自适应方式是单一模态的,使得跨域图像迁移是确定性的。然而现实中的图像包括多样且连续变化的光照、天气和季节,通常是多模态。基于确定性的图像迁移方法在不同数据集或不同域泛化时会有问题,因为这类方法十分依赖迁移图像的单一特定外观。
为了解决上述难点,我们提出了一种新颖的基于多模态无监督图像迁移框架的内容潜变量解耦的多模态深度预测算法,该算法通过从虚拟图像到真实世界图像的内容编码解耦、图像跨域迁移进行单目深度估计。通过多模态无监督图像迁移,图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码。对于虚拟图像域和真实图像域,内容潜在特征具有域不变性,仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。由于风格潜在特征具有随机性且连续分布,因此内容特征具有多模态不变性且具有较强的泛化能力。
专利文献CN110120071A(申请号:201910401869.X)公开了一种面向光场图像的深度估计方法,包括如下步骤:解码光场图像得到4D光场数据、中心子孔径图像;由4D光场数据生成焦点堆栈图像序列;对中心子孔径图像上的每个像素,绘制聚焦曲线;检测聚焦曲线的局部对称中心,得视差图D1;由4D光场数据生成每个像素对应的水平方向、垂直方向的EPI图像;检测EPI图像上直线的斜率,得到视差图D2;基于中心子孔径图像和两个视差图,对每个像素绘制两种聚焦曲线片段;计算两种聚焦曲线片段与聚焦曲线的匹配度,由匹配度确定最终视差图D;执行基于能量最小化的深度优化。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于多模态无监督图像内容解耦的单目深度估计方法。
根据本发明提供的基于多模态无监督图像内容解耦的单目深度估计方法,包括:
步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;
步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;
步骤3:根据训练集构建深度估计网络模型并进行训练;
步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。
优选地,所述网络模型包括:图像内容编码器、图像风格编码器和解码器;
网络模型分别利用图像内容编码器和图像风格编码器将RGB图像解耦成图像内容编码和图像风格编码;
解码器将图像内容编码与图像风格编码重新组合得到新的RGB图像;
RGB图像经图像内容编码器编码后得到图像内容编码,图像风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证风格迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与现实RGB图像分布一致。
优选地,所述步骤2包括:
步骤2.1:单一域图像重建,训练集现实RGB图像域中图像xi分别经过图像内容编码器
Figure BDA0002394413830000031
和图像风格编码器/>
Figure BDA0002394413830000032
分解成图像内容部分ci和图像风格部分si,内容编码和风格编码经解码器Gi解码重建出RGB图像/>
Figure BDA0002394413830000033
同样对虚拟RGB图像域中图像xj编码得到内容cj和风格sj,并解码得到重建图像/>
Figure BDA0002394413830000034
步骤2.2:跨域图像迁移,训练集现实RGB图像域、虚拟RGB图像域中的两张图像xi、xj分别经图像内容编码器
Figure BDA0002394413830000035
的得到其内容编码信息ci、cj
步骤2.3:构建损失函数,包括双向重建损失、图像对抗损失、内容对抗损失、图像重建损失和内容风格重建损失,双向重建损失确保编码器和解码器互为逆,图像对抗损失使用图像判别器
Figure BDA0002394413830000036
确保迁移后图像与目标域分布一致,内容对抗损失使用内容判别器/>
Figure BDA0002394413830000037
确保迁移RGB图像内容编码与现实RGB图像内容编码分布一致。
优选地,所述步骤2.2包括:
按照高斯分布分别从现实RGB图像域和虚拟RGB图像域的风格编码中的随机获取风格信息si、sj,图像xi的内容ci与图像xj的风格sj经解码器获得迁移图像xi→j,即为图像xi风格迁移到虚拟RGB图像域的图像,包括原真实图像的内容信息和虚拟RGB图像域的风格信息,同样得到包括虚拟图像xj的内容信息和现实RGB图像域的风格信息的迁移图像xj→i
对迁移图xi→j进行内容编码和风格编码,得到重建的图像xi内容信息
Figure BDA0002394413830000038
和虚拟RGB图像域的风格信息/>
Figure BDA0002394413830000039
同样得到迁移图xj→i的重建内容信息/>
Figure BDA00023944138300000310
和重建风格信息/>
Figure BDA00023944138300000311
优选地,所述损失函数包括:
图像重建损失:在单一域中RGB图像与RGB图像经过内容、风格编码并解码后的重建图像之间的
Figure BDA0002394413830000041
损失,分别对现实RGB图像域和虚拟RGB图像域进行计算,以现实RGB图像域为例,计算公式为:
Figure BDA0002394413830000042
其中,
p(xi)表示:现实RGB图像域中图像的概率分布;
内容风格重建损失:跨域图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的
Figure BDA0002394413830000043
损失,计算公式为:
Figure BDA0002394413830000044
Figure BDA0002394413830000045
Figure BDA0002394413830000046
其中,
p(ci)表示:真实RGB图像经过内容解耦后的内容潜变量编码的概率分布;
p(cj)表示:虚拟RGB图像经过内容解耦后的内容潜变量编码的概率分布;
q(si)表示:按照高斯分布随机从真实RGB图像域中采样的风格潜变量概率分布;
q(sj)表示:按照高斯分布随机从虚拟RGB图像域中采样的风格潜变量概率分布;
Gi表示:用于将内容潜变量和真实RGB图像域中的风格潜变量解码得到真实RGB图像的解码器;
Gj表示:用于将内容潜变量和虚拟RGB图像域中的风格潜变量解码得到虚拟RGB图像的解码器;
图像对抗损失:跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式为:
Figure BDA0002394413830000047
内容对抗损失:现实图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式为:
Figure BDA0002394413830000048
图像迁移的损失函数为图像重建损失、内容风格重建损失、图像对抗损失和内容对抗损失的加权求和,计算公式为:
Figure BDA0002394413830000051
其中,
λGAN-C表示:内容对抗损失函数的权重超参数;
λx表示:图像重建损失函数的权重超参数;
λc表示:内容重建损失函数的权重超参数;
λs表示:风格重建损失函数的权重超参数。
优选地,图像风格损失函数各项参数λGAN-C=1,λx=10,λc=1,λs=1。
优选地,
所述步骤3包括:
步骤3.1:构建图像内容编码器
Figure BDA0002394413830000052
步骤3.2:构建深度预测器
Figure BDA0002394413830000053
采用成对的虚拟RGB图像和深度图,虚拟RGB图像SRGBi以及风格迁移之后得到的迁移图像经过内容编码器得到图像内容信息,再通过深度预测器/>
Figure BDA0002394413830000054
输出深度估计图;
步骤3.3:使用多分辨率损失,构建深度估计图序列di,包括U型全卷积残差网络最终输出深度估计图和U型全卷积残差网络不同分辨率每层上采样输出的特征图。
优选地,所述深度预测器为U型全卷积残差网络,所述U型全卷积残差网络包括降采样和上采样,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,进行网络图像内容编码器网络权值共享和进行多尺度特征图融合,U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。
优选地,所述步骤3.3包括:
Figure BDA0002394413830000055
其中,
Figure BDA0002394413830000056
表示残差网络倒数第j+1层上采样输出特征图;
构建真实深度图序列SDepthi,包括原RGB图对应的深度图和原深度图等比例缩放图,其中
Figure BDA0002394413830000057
表示第j个原深度图等比例缩放图,计算公式为:
Figure BDA0002394413830000058
深度估计的损失函数为深度估计图序列di与现实深度图序列SDepthi之间的
Figure BDA0002394413830000061
损失,计算公式为:
Figure BDA0002394413830000062
其中,k表示:参与多分辨率损失函数的解码器上采样输出特征图的层数。
优选地,最终的损失函数,计算公式为:
Figure BDA0002394413830000063
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过多模态无监督图像迁移,图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码,对于虚拟图像域和真实图像域,内容潜在特征具有域不变性,仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。
2、由于风格潜在特征具有随机性且连续分布,因此内容特征具有多模态不变性且具有较强的泛化能力。
3、本发明不依赖大量的真实RGB图像对应的深度图,且具有对不同季节、光照环境鲁棒性强的特点。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是单一域真实RGB重建图;
图2是跨域迁移图;
图3是内容编码器图;
图4是深度估计网络模型图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明公开了一种基于多模态无监督图像内容解耦的单目深度估计算法,特点是首先将图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码,虚拟图像域和真实图像域的内容潜在特征分布一致,仅使用成对的虚拟RGB和深度图像训练模型,之后对真实世界图像用解耦出的内容信息来预测其深度图,从而完成单目深度估计算法。和常用的单目深度估计算法相比,更加适用于变化的环境单目深度估计,如不同季节、光照等环境条件。
根据本发明提供的一种基于多模态无监督图像内容解耦的单目深度估计方法,包括如下步骤:
步骤A1:选取真实世界的RGB图像(R1、R2……)、虚拟数据集的RGB图像和与之对应的深度图(SRGB1-SDepth1、SRGB2-SDepth2……)构成训练集;
虚拟数据集RGB图像原始分辨率为1242*375,首先经过随机边框裁剪得到分辨率为1120*336的图像,之后经缩放得到分辨率为640*192的图像作为网络输入,虚拟数据集RGB图像对应的深度图先进行和RGB图完全相同的边框裁剪,之后同样经缩放得到分辨率为640*192的深度图真值;
真实世界RGB图像先经过随机化边框裁剪处理,分辨率从1242*375变为1120*336,之后作缩放处理得到分辨率为640*192的图像作为网络输入;
步骤A2:构建多模态无监督图像迁移网络模型,网络模型包括图像内容编码器
Figure BDA0002394413830000071
图像风格编码器/>
Figure BDA0002394413830000072
和解码器Gi,并利用生成对抗网络对其训练;
图像内容编码器网络
Figure BDA0002394413830000073
从图像中解耦出图像内容编码,包括降采样层和残差网络模块,所有卷积层后都经过实例归一化处理;
图像风格编码器网络
Figure BDA0002394413830000074
从图像中解耦出图像风格编码,包括降采样层、全局平均池化层和全卷积层,风格编码器并不使用实例归一化,因为实例归一化会改变图像特征中含有风格信息的原始均值和方差;
解码器Gi将某一图像内容与某一风格解码得到新的RGB图像,图像内容编码输入残差网络块,之后经上采样层重建图像,图像风格代码经多层感知机得到自适应实例归一化参数,之后一并输入残差网络,自适应实例归一化公式如下:
Figure BDA0002394413830000075
其中z是前一卷积层的激活项,μ和σ是通道的平均值和标准差,γ和β是多层感知机训练得到的参数;
生成对抗网络使用LSGAN网络,同时使用了多尺度判别器作为图像判别器
Figure BDA0002394413830000081
和内容判别器/>
Figure BDA0002394413830000082
分别用来促使生成器得到的图像和目标域图像分布一致、虚拟数据集RGB图像与真实世界图像内容编码分布一致;
网络模型分别利用内容编码器和风格编码器将RGB图像解耦成图像内容编码ci和图像风格编码si两部分,其中图像内容编码具有域不变性,而风格编码则保留了特定域的特征;解码器将某一图像内容编码与某一风格编码重新组合得到新的RGB图像。
RGB图像经内容编码器编码后得到其内容编码,其与任一风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与真实世界RGB图像分布一致;
步骤A3:构建深度估计网络模型,虚拟数据集的RGB图像以及将其风格迁移到真实世界域的迁移图像经内容编码器得到图像内容编码信息,经U型全卷积残差网络后得到深度估计图像;
虚拟数据集的RGB图像、虚拟图像风格迁移到真实世界域的迁移图像先经过内容编码器得到图像内容信息,之后经U型全卷积残差网络后得到虚拟图像的深度估计图和虚拟图像到真实世界域迁移图像的深度估计图,根据虚拟图像的深度估计图、虚拟图像到真实世界域迁移图像的深度估计图与原虚拟深度图之间的多分辨率损失对网络进行训练;
U型全卷积残差网络在深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,具有图像内容编码器网络权值共享和多尺度特征图融合的特点。
步骤A4:测试阶段,真实世界RGB图像经过图像内容编码器编码得到其内容信息,之后通过深度估计网络得到原图的深度估计图。
优选地,还包括构建多模态无监督图像迁移网络模型步骤
所述构建多模态无监督图像迁移网络模型步骤,包括如下步骤:
步骤B1:在单一域中图像重建,训练集真实世界RGB图像域中图像xi分别经过内容编码器
Figure BDA0002394413830000083
和风格编码器/>
Figure BDA0002394413830000084
分解成图像内容部分ci和图像风格部分si,如图1所示;
内容信息ci和风格信息si经解码器Gi解码重建出RGB图像
Figure BDA0002394413830000085
同样对训练集虚拟RGB图像域中图像xj编码得到内容cj和风格sj,并解码得到重建图像/>
Figure BDA0002394413830000086
重建RGB图像
Figure BDA0002394413830000087
应该分别与原真实世界RGB图像xi、虚拟数据集RGB图像xj分布一致,因此引入真实世界图像域和虚拟图像域的图像重建损失/>
Figure BDA0002394413830000091
用来训练图像内容编码器和图像风格编码器,单一域真实世界图像、虚拟图像经内容和风格编码并解码后的重建图像损失具体计算公式如下:
Figure BDA0002394413830000092
Figure BDA0002394413830000093
步骤B2:跨域图像迁移,训练集真实世界RGB图像域、虚拟数据集RGB图像域中的两张图像xi、xj分别经内容编码器
Figure BDA0002394413830000094
的得到其内容编码信息ci、cj
之后,由两个域图像风格的高斯分布分别随机选取真实世界RGB图像域风格si、虚拟数据RGB图像域风格sj,图像xi的内容ci与图像xj的风格sj经解码器Gj生成迁移图像xi→j,该图即为图像xi风格迁移到虚拟RGB图像域的图像,包括原图的内容信息和虚拟RGB图像域的风格特征,同样可以得到包括图像xj的内容信息cj和真实世界RGB图像域的风格特征si的迁移图xj→i,如图2所示;
为确保迁移图像与目标域分布一致,引入生成对抗网络加以约束,使用图像判别器
Figure BDA0002394413830000095
对迁移后图像判别,跨域真实世界图像、虚拟图像迁移后与原域中图像之间的图像对抗损失具体计算公式如下:
Figure BDA0002394413830000096
Figure BDA0002394413830000097
为确保真实世界图像内容与虚拟图像迁移后图像内容分布一致,在真实世界图像内容ci和虚拟图像内容cj之间引入生成对抗网络,并使用内容判别器
Figure BDA0002394413830000098
加以判别,跨域真实世界图像的迁移图与虚拟图像的迁移图之间的内容对抗损失具体计算公式如下:
Figure BDA0002394413830000099
Figure BDA00023944138300000910
最后,对迁移图xi→j进行内容编码和风格编码,得到重建的图像xi内容信息
Figure BDA00023944138300000911
和虚拟RGB图像域的风格/>
Figure BDA00023944138300000912
同样可以得到虚拟迁移图xj→i的重建内容/>
Figure BDA00023944138300000913
和重建风格/>
Figure BDA00023944138300000914
重建内容信息、重建风格信息应该与原内容风格信息一致,引入内容、风格重建损失加以约束,跨域真实世界图像、虚拟图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的重建损失具体计算公式如下:
Figure BDA0002394413830000101
/>
Figure BDA0002394413830000102
Figure BDA0002394413830000103
Figure BDA0002394413830000104
步骤B3:损失函数包括双向重建损失、图像对抗损失、内容对抗损失,双向重建损失确保编码器和解码器互为逆,包括图像重建损失和内容、风格重建损失,图像对抗损失使用图像判别器
Figure BDA0002394413830000105
确保迁移后图像与目标域分布一致,内容对抗损失使用内容判别器/>
Figure BDA0002394413830000106
确保迁移RGB图像内容编码与真实世界RGB图像内容编码分布一致,损失函数具体由四部分构成:
图像重建损失,在单一域中RGB图像与其经过内容、风格编码并解码后的重建图像之间的
Figure BDA0002394413830000107
损失,分别对现实RGB图像域和虚拟RGB图像域进行计算,以现实RGB图像域为例,计算公式如下:
Figure BDA0002394413830000108
内容、风格重建损失,跨域图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的
Figure BDA0002394413830000109
损失,计算公式如下:
Figure BDA00023944138300001010
Figure BDA00023944138300001011
图像对抗损失,跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式如下:
Figure BDA00023944138300001012
内容对抗损失,真实世界图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式如下:
Figure BDA00023944138300001013
图像迁移的损失函数是上述四部分的加权求和,计算公式如下:
Figure BDA00023944138300001014
优选地,还包括构建深度估计网络模型步骤;
所述构建深度估计网络模型步骤,包括如下步骤:
步骤C1:构建图像内容编码器
Figure BDA0002394413830000111
网络包括降采样层和残差网络模块,所有卷积层后都经过实例归一化处理,如图3所示;
内容编码器具体结构为降采层、两个残差块、降采样层、两个残差块,前后两层残差块同时跨链接到深度预测残差网络上采样后两层。
步骤C2:构建深度预测器
Figure BDA0002394413830000112
采用成对的虚拟数据集的RGB图和深度图,虚拟RGB图像SRGBi以及风格迁移之后得到的迁移图像经过内容编码器得到图像内容信息,再通过深度预测器/>
Figure BDA0002394413830000113
输出深度估计图;
深度预测器为U型全卷积残差网络,残差网络包括降采样和上采样两部分,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点,残差网络最后输出虚拟数据集RGB图的深度估计图;
图像内容编码器末端输出的图像内容和内容编码器网络降采样每层输出的图像构成图像内容序列ci
Figure BDA0002394413830000114
其中
Figure BDA0002394413830000115
表示内容编码器倒数第j+1层的输出图像,图像内容序列ci一一对应跨连接到深度预测器残差网络上采样层;跨链接使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点,残差网络最后输出虚拟数据集RGB图的深度估计图,如图4所示。
步骤C3:使用多分辨率损失,深度预测网络的损失函数既包括残差网络输出的深度估计图和训练集中原RGB图对应的深度图之间的损失,还包括残差网络上采样不同分辨率的每层输出特征图与原深度图等比例缩放图之间的损失;
构建深度估计图序列di,由残差网络最终输出深度估计图和残差网络不同分辨率每层上采样输出的特征图构成,其中
Figure BDA0002394413830000116
表示残差网络倒数第j+1层上采样输出特征图:
Figure BDA0002394413830000117
构建真实深度图序列SDepthi,由训练集中原RGB图对应的深度图和原深度图等比例缩放图构成,其中
Figure BDA0002394413830000118
表示第j个原深度图等比例缩放图,计算公式如下:
Figure BDA0002394413830000119
深度估计的损失函数为深度估计图序列di与真实深度图序列SDepthi之间的
Figure BDA0002394413830000121
损失,计算公式如下:
Figure BDA0002394413830000122
最终的损失函数,计算公式如下:
Figure BDA0002394413830000123
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (9)

1.一种基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,包括:
步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;
步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;
步骤3:根据训练集构建深度估计网络模型并进行训练;
步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图;
所述步骤2包括:
步骤2.1:单一域图像重建,训练集现实RGB图像域中图像xi分别经过图像内容编码器
Figure FDA0004151635600000011
和图像风格编码器/>
Figure FDA0004151635600000012
分解成图像内容部分ci和图像风格部分si,内容编码和风格编码经解码器Gi解码重建出RGB图像/>
Figure FDA0004151635600000013
同样对虚拟RGB图像域中图像xj编码得到内容cj和风格sj,并解码得到重建图像/>
Figure FDA0004151635600000014
步骤2.2:跨域图像迁移,训练集现实RGB图像域、虚拟RGB图像域中的两张图像xi、xj分别经图像内容编码器
Figure FDA0004151635600000015
的得到其内容编码信息ci、cj
步骤2.3:构建损失函数,包括双向重建损失、图像对抗损失、内容对抗损失、图像重建损失和内容风格重建损失,双向重建损失确保编码器和解码器互为逆,图像对抗损失使用图像判别器
Figure FDA0004151635600000016
确保迁移后图像与目标域分布一致,内容对抗损失使用内容判别器/>
Figure FDA0004151635600000017
确保迁移RGB图像内容编码与现实RGB图像内容编码分布一致。
2.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述多模态无监督图像迁移网络模型和深度估计网络模型均包括:图像内容编码器、图像风格编码器和解码器;
网络模型分别利用图像内容编码器和图像风格编码器将RGB图像解耦成图像内容编码和图像风格编码;
解码器将图像内容编码与图像风格编码重新组合得到新的RGB图像;
RGB图像经图像内容编码器编码后得到图像内容编码,图像风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证风格迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与现实RGB图像分布一致。
3.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述步骤2.2包括:
按照高斯分布分别从现实RGB图像域和虚拟RGB图像域的风格编码中的随机获取风格信息si、sj,图像xi的内容ci与图像xj的风格sj经解码器获得迁移图像xi→j,即为图像xi风格迁移到虚拟RGB图像域的图像,包括原真实图像的内容信息和虚拟RGB图像域的风格信息,同样得到包括虚拟图像xj的内容信息和现实RGB图像域的风格信息的迁移图像xj→i
对迁移图xi→j进行内容编码和风格编码,得到重建的图像xi内容信息
Figure FDA0004151635600000021
和虚拟RGB图像域的风格信息/>
Figure FDA0004151635600000022
同样得到迁移图xj→i的重建内容信息/>
Figure FDA0004151635600000023
和重建风格信息/>
Figure FDA0004151635600000024
4.根据权利要求3所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述损失函数包括:
图像重建损失:在单一域中RGB图像与RGB图像经过内容、风格编码并解码后的重建图像之间的
Figure FDA0004151635600000025
损失,分别对现实RGB图像域和虚拟RGB图像域进行计算,以现实RGB图像域为例,计算公式为:
Figure FDA0004151635600000026
其中,
p(xi)表示:现实RGB图像域中图像的概率分布;
内容风格重建损失:跨域图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的
Figure FDA0004151635600000027
损失,计算公式为:
Figure FDA0004151635600000028
Figure FDA0004151635600000029
Figure FDA00041516356000000210
其中,
p(ci)表示:真实RGB图像经过内容解耦后的内容潜变量编码的概率分布;
p(cj)表示:虚拟RGB图像经过内容解耦后的内容潜变量编码的概率分布;
q(si)表示:按照高斯分布随机从真实RGB图像域中采样的风格潜变量概率分布;
q(sj)表示:按照高斯分布随机从虚拟RGB图像域中采样的风格潜变量概率分布;
Gi表示:用于将内容潜变量和真实RGB图像域中的风格潜变量解码得到真实RGB图像的解码器;
Gj表示:用于将内容潜变量和虚拟RGB图像域中的风格潜变量解码得到虚拟RGB图像的解码器;
图像对抗损失:跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式为:
Figure FDA0004151635600000031
内容对抗损失:现实图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式为:
Figure FDA0004151635600000032
图像迁移的损失函数为图像重建损失、内容风格重建损失、图像对抗损失和内容对抗损失的加权求和,计算公式为:
Figure FDA0004151635600000033
其中,
λGAN-C表示:内容对抗损失函数的权重超参数;
λx表示:图像重建损失函数的权重超参数;
λc表示:内容重建损失函数的权重超参数;
λs表示:风格重建损失函数的权重超参数。
5.根据权利要求4所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,图像风格损失函数各项参数λGAN-C=1,λx=10,λc=1,λs=1。
6.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,
所述步骤3包括:
步骤3.1:构建图像内容编码器
Figure FDA0004151635600000034
步骤3.2:构建深度预测器
Figure FDA0004151635600000035
采用成对的虚拟RGB图像和深度图,虚拟RGB图像SRGBi以及风格迁移之后得到的迁移图像经过内容编码器得到图像内容信息,再通过深度预测器
Figure FDA0004151635600000048
输出深度估计图;
步骤3.3:使用多分辨率损失,构建深度估计图序列di,包括U型全卷积残差网络最终输出深度估计图和U型全卷积残差网络不同分辨率每层上采样输出的特征图。
7.根据权利要求6所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述深度预测器为U型全卷积残差网络,所述U型全卷积残差网络包括降采样和上采样,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,进行网络图像内容编码器网络权值共享和进行多尺度特征图融合,U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。
8.根据权利要求6所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述步骤3.3包括:
Figure FDA0004151635600000041
其中,
Figure FDA0004151635600000042
表示残差网络倒数第j+1层上采样输出特征图;
构建真实深度图序列SDepthi,包括原RGB图对应的深度图和原深度图等比例缩放图,其中
Figure FDA0004151635600000043
表示第j个原深度图等比例缩放图,计算公式为:
Figure FDA0004151635600000044
深度估计的损失函数为深度估计图序列di与现实深度图序列SDepthi之间的
Figure FDA0004151635600000045
损失,计算公式为:
Figure FDA0004151635600000046
其中,k表示:参与多分辨率损失函数的解码器上采样输出特征图的层数。
9.根据权利要求8所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,最终的损失函数,计算公式为:
Figure FDA0004151635600000047
/>
CN202010126070.7A 2020-02-27 2020-02-27 基于多模态无监督图像内容解耦的单目深度估计方法 Active CN111445476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010126070.7A CN111445476B (zh) 2020-02-27 2020-02-27 基于多模态无监督图像内容解耦的单目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010126070.7A CN111445476B (zh) 2020-02-27 2020-02-27 基于多模态无监督图像内容解耦的单目深度估计方法

Publications (2)

Publication Number Publication Date
CN111445476A CN111445476A (zh) 2020-07-24
CN111445476B true CN111445476B (zh) 2023-05-26

Family

ID=71627081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126070.7A Active CN111445476B (zh) 2020-02-27 2020-02-27 基于多模态无监督图像内容解耦的单目深度估计方法

Country Status (1)

Country Link
CN (1) CN111445476B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815509B (zh) * 2020-09-02 2021-01-01 北京邮电大学 一种图像风格转换及模型训练的方法及装置
CN112116646B (zh) * 2020-09-23 2023-11-24 南京工程学院 一种基于深度卷积神经网络的光场图像深度估计方法
CN112561979B (zh) * 2020-12-25 2022-06-28 天津大学 一种基于深度学习的自监督单目深度估计方法
CN113160042B (zh) * 2021-05-21 2023-02-17 北京邮电大学 一种图像风格迁移模型训练方法、装置及电子设备
CN113538218B (zh) * 2021-07-14 2023-04-07 浙江大学 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN113902785B (zh) * 2021-09-15 2022-04-15 珠海视熙科技有限公司 一种深度图像的处理方法、系统、装置及计算机存储介质
CN113781542A (zh) * 2021-09-23 2021-12-10 Oppo广东移动通信有限公司 模型生成方法、深度估计方法、装置以及电子设备
CN114429436A (zh) * 2022-01-25 2022-05-03 山东大学 一种缩小域差异的图像迁移方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360227A (zh) * 2018-10-25 2019-02-19 武汉拓睿传奇科技有限公司 一种基于深度学习的人工智能目标跟踪方法
CN109753992A (zh) * 2018-12-10 2019-05-14 南京师范大学 基于条件生成对抗网络的无监督域适应图像分类方法
CN110084863A (zh) * 2019-04-25 2019-08-02 中山大学 一种基于生成对抗网络的多域图像转换方法与系统
CN110443843A (zh) * 2019-07-29 2019-11-12 东北大学 一种基于生成对抗网络的无监督单目深度估计方法
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质
CN109360227A (zh) * 2018-10-25 2019-02-19 武汉拓睿传奇科技有限公司 一种基于深度学习的人工智能目标跟踪方法
CN109753992A (zh) * 2018-12-10 2019-05-14 南京师范大学 基于条件生成对抗网络的无监督域适应图像分类方法
CN110084863A (zh) * 2019-04-25 2019-08-02 中山大学 一种基于生成对抗网络的多域图像转换方法与系统
CN110443843A (zh) * 2019-07-29 2019-11-12 东北大学 一种基于生成对抗网络的无监督单目深度估计方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深层卷积神经网络的单目红外图像深度估计;许路 等;《光学学报》;第36卷(第07期);196-205 *
采用KPCA和BP神经网络的单目车载红外图像深度估计;孙韶媛 等;《红外与激光工程》;第42卷(第09期);2348-2352 *

Also Published As

Publication number Publication date
CN111445476A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111445476B (zh) 基于多模态无监督图像内容解耦的单目深度估计方法
Yang et al. Dense depth posterior (ddp) from single image and sparse range
Bloesch et al. Codeslam—learning a compact, optimisable representation for dense visual slam
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
AU2017324923B2 (en) Predicting depth from image data using a statistical model
Zhang et al. De-gan: Domain embedded gan for high quality face image inpainting
CN112215050A (zh) 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备
WO2019180414A1 (en) Localisation, mapping and network training
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
Chen et al. Depth completion using geometry-aware embedding
CN113077554A (zh) 一种基于任意视角图片的三维结构化模型重建的方法
CN113284173B (zh) 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法
Maslov et al. Online supervised attention-based recurrent depth estimation from monocular video
Song et al. Contextualized CNN for scene-aware depth estimation from single RGB image
US20220237879A1 (en) Direct clothing modeling for a drivable full-body avatar
Wang et al. Depth estimation of supervised monocular images based on semantic segmentation
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
Maxim et al. A survey on the current state of the art on deep learning 3D reconstruction
Song et al. Decomposition and replacement: Spatial knowledge distillation for monocular depth estimation
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
CN115359508A (zh) 通过专家的神经元优化以提高的效率执行复杂优化任务
Yao et al. A Forecast-Refinement Neural Network Based on DyConvGRU and U-Net for Radar Echo Extrapolation
Xing et al. Scale-consistent fusion: from heterogeneous local sampling to global immersive rendering
CN114494387A (zh) 一种生成数据集网络模型及雾图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant