CN111445476A - 基于多模态无监督图像内容解耦的单目深度估计方法 - Google Patents
基于多模态无监督图像内容解耦的单目深度估计方法 Download PDFInfo
- Publication number
- CN111445476A CN111445476A CN202010126070.7A CN202010126070A CN111445476A CN 111445476 A CN111445476 A CN 111445476A CN 202010126070 A CN202010126070 A CN 202010126070A CN 111445476 A CN111445476 A CN 111445476A
- Authority
- CN
- China
- Prior art keywords
- image
- content
- style
- domain
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013508 migration Methods 0.000 claims abstract description 56
- 230000005012 migration Effects 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000005070 sampling Methods 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000036039 immunity Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 17
- 238000010606 normalization Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于多模态无监督图像内容解耦的单目深度估计方法,包括:步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;步骤3:根据训练集构建深度估计网络模型并进行训练;步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。本发明不依赖大量的真实RGB图像对应的深度图,且具有对不同季节、光照环境鲁棒性强的特点。
Description
技术领域
本发明涉及图像识别和人工智能技术领域,具体地,涉及一种基于多模态无监督图像内容解耦的单目深度估计方法。尤其地,涉及一种应用于季节、光照等环境变化下的单目深度估计方法。
背景技术
室外单目深度估计在无人驾驶、移动机器人等领域有着重要的作用。近几年,由于深层卷积网络的推动,基于单目图像的深度估计取得了重大的进展。然而室外场景的真实深度图往往因获取成本过高而难以获取或者质量较低,使得难以直接利用室外单目图像进行有监督的深度估计训练。
目前常用的算法有如下三类:
早期的马尔可夫随机场算法以及其它的概率图模型,十分依赖人工描述符,使得相较于基于学习的算法表现较差。
基于监督训练的深层卷积深度预测器。基于多尺度深度网络的单个图像深度图预测网络,算法首次使用端到端的深层卷积深度估计网络;基于深度卷积神经网络的单目深度估计算法,算法利用神经网络结合连续CRF像素的方法进行深度估计;用于单目深度估计的卷积神经网络可视化算法,使用CNN从像素相关性的角度估计深度图。但这些监督训练存在一个普遍的问题:室外图像真实的深度图往往因获取成本过高而数量较少,使得监督训练成本过高。
以无监督的方式训练深度预测器,并辅以相机自身运动姿态的立体几何信息进行训练。结合几何特征的无监督单目深度估计卷积网络算法,该算法用无监督图像重建方法进行深度估计;左右一致性的无监督单目深度估计算法使用双目图像的左右一致性约束估计深度图;自监督单目深度估计算法使用相机自身运动位姿约束进行深度估计。然而这些方法需要额外辅助立体视觉信息进行训练,同时没有显式解决在不同数据集、不同环境视角变化时的泛化问题。
针对以上单目深度估计存在的难点:室外图像深度图较为稀缺且质量不高、图像存在季节、光照变化等问题。因此除了对深度预测器进行无监督训练外,数量多且质量高的虚拟数据集的深度图能够用来解决真实世界深度图稀缺的问题。从虚拟图像到真实图像的图像迁移存在两个域之间的适应差距问题,当前从虚拟图像到真实图像的深度预测自适应方式是单一模态的,使得跨域图像迁移是确定性的。然而现实中的图像包括多样且连续变化的光照、天气和季节,通常是多模态。基于确定性的图像迁移方法在不同数据集或不同域泛化时会有问题,因为这类方法十分依赖迁移图像的单一特定外观。
为了解决上述难点,我们提出了一种新颖的基于多模态无监督图像迁移框架的内容潜变量解耦的多模态深度预测算法,该算法通过从虚拟图像到真实世界图像的内容编码解耦、图像跨域迁移进行单目深度估计。通过多模态无监督图像迁移,图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码。对于虚拟图像域和真实图像域,内容潜在特征具有域不变性,仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。由于风格潜在特征具有随机性且连续分布,因此内容特征具有多模态不变性且具有较强的泛化能力。
专利文献CN110120071A(申请号:201910401869.X)公开了一种面向光场图像的深度估计方法,包括如下步骤:解码光场图像得到4D光场数据、中心子孔径图像;由4D光场数据生成焦点堆栈图像序列;对中心子孔径图像上的每个像素,绘制聚焦曲线;检测聚焦曲线的局部对称中心,得视差图D1;由4D光场数据生成每个像素对应的水平方向、垂直方向的EPI图像;检测EPI图像上直线的斜率,得到视差图D2;基于中心子孔径图像和两个视差图,对每个像素绘制两种聚焦曲线片段;计算两种聚焦曲线片段与聚焦曲线的匹配度,由匹配度确定最终视差图D;执行基于能量最小化的深度优化。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于多模态无监督图像内容解耦的单目深度估计方法。
根据本发明提供的基于多模态无监督图像内容解耦的单目深度估计方法,包括:
步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;
步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;
步骤3:根据训练集构建深度估计网络模型并进行训练;
步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。
优选地,所述网络模型包括:图像内容编码器、图像风格编码器和解码器;
网络模型分别利用图像内容编码器和图像风格编码器将RGB图像解耦成图像内容编码和图像风格编码;
解码器将图像内容编码与图像风格编码重新组合得到新的RGB图像;
RGB图像经图像内容编码器编码后得到图像内容编码,图像风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证风格迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与现实RGB图像分布一致。
优选地,所述步骤2包括:
步骤2.1:单一域图像重建,训练集现实RGB图像域中图像xi分别经过图像内容编码器和图像风格编码器分解成图像内容部分ci和图像风格部分si,内容编码和风格编码经解码器Gi解码重建出RGB图像同样对虚拟RGB图像域中图像xj编码得到内容cj和风格sj,并解码得到重建图像
步骤2.3:构建损失函数,包括双向重建损失、图像对抗损失、内容对抗损失、图像重建损失和内容风格重建损失,双向重建损失确保编码器和解码器互为逆,图像对抗损失使用图像判别器确保迁移后图像与目标域分布一致,内容对抗损失使用内容判别器确保迁移RGB图像内容编码与现实RGB图像内容编码分布一致。
优选地,所述步骤2.2包括:
按照高斯分布分别从现实RGB图像域和虚拟RGB图像域的风格编码中的随机获取风格信息si、sj,图像xi的内容ci与图像xj的风格sj经解码器获得迁移图像xi→j,即为图像xi风格迁移到虚拟RGB图像域的图像,包括原真实图像的内容信息和虚拟RGB图像域的风格信息,同样得到包括虚拟图像xj的内容信息和现实RGB图像域的风格信息的迁移图像xj→i;
优选地,所述损失函数包括:
其中,
p(xi)表示:现实RGB图像域中图像的概率分布;
其中,
p(ci)表示:真实RGB图像经过内容解耦后的内容潜变量编码的概率分布;
p(cj)表示:虚拟RGB图像经过内容解耦后的内容潜变量编码的概率分布;
q(si)表示:按照高斯分布随机从真实RGB图像域中采样的风格潜变量概率分布;
q(sj)表示:按照高斯分布随机从虚拟RGB图像域中采样的风格潜变量概率分布;
Gi表示:用于将内容潜变量和真实RGB图像域中的风格潜变量解码得到真实RGB图像的解码器;
Gj表示:用于将内容潜变量和虚拟RGB图像域中的风格潜变量解码得到虚拟RGB图像的解码器;
图像对抗损失:跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式为:
内容对抗损失:现实图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式为:
图像迁移的损失函数为图像重建损失、内容风格重建损失、图像对抗损失和内容对抗损失的加权求和,计算公式为:
其中,
λGAN-C表示:内容对抗损失函数的权重超参数;
λx表示:图像重建损失函数的权重超参数;
λc表示:内容重建损失函数的权重超参数;
λs表示:风格重建损失函数的权重超参数。
优选地,图像风格损失函数各项参数λGAN-C=1,λx=10,λc=1,λs=1。
优选地,
所述步骤3包括:
步骤3.3:使用多分辨率损失,构建深度估计图序列di,包括U型全卷积残差网络最终输出深度估计图和U型全卷积残差网络不同分辨率每层上采样输出的特征图。
优选地,所述深度预测器为U型全卷积残差网络,所述U型全卷积残差网络包括降采样和上采样,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,进行网络图像内容编码器网络权值共享和进行多尺度特征图融合,U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。
优选地,所述步骤3.3包括:
其中,k表示:参与多分辨率损失函数的解码器上采样输出特征图的层数。
优选地,最终的损失函数,计算公式为:
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过多模态无监督图像迁移,图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码,对于虚拟图像域和真实图像域,内容潜在特征具有域不变性,仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。
2、由于风格潜在特征具有随机性且连续分布,因此内容特征具有多模态不变性且具有较强的泛化能力。
3、本发明不依赖大量的真实RGB图像对应的深度图,且具有对不同季节、光照环境鲁棒性强的特点。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是单一域真实RGB重建图;
图2是跨域迁移图;
图3是内容编码器图;
图4是深度估计网络模型图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明公开了一种基于多模态无监督图像内容解耦的单目深度估计算法,特点是首先将图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码,虚拟图像域和真实图像域的内容潜在特征分布一致,仅使用成对的虚拟RGB和深度图像训练模型,之后对真实世界图像用解耦出的内容信息来预测其深度图,从而完成单目深度估计算法。和常用的单目深度估计算法相比,更加适用于变化的环境单目深度估计,如不同季节、光照等环境条件。
根据本发明提供的一种基于多模态无监督图像内容解耦的单目深度估计方法,包括如下步骤:
步骤A1:选取真实世界的RGB图像(R1、R2……)、虚拟数据集的RGB图像和与之对应的深度图(SRGB1-SDepth1、SRGB2-SDepth2……)构成训练集;
虚拟数据集RGB图像原始分辨率为1242*375,首先经过随机边框裁剪得到分辨率为1120*336的图像,之后经缩放得到分辨率为640*192的图像作为网络输入,虚拟数据集RGB图像对应的深度图先进行和RGB图完全相同的边框裁剪,之后同样经缩放得到分辨率为640*192的深度图真值;
真实世界RGB图像先经过随机化边框裁剪处理,分辨率从1242*375变为1120*336,之后作缩放处理得到分辨率为640*192的图像作为网络输入;
解码器Gi将某一图像内容与某一风格解码得到新的RGB图像,图像内容编码输入残差网络块,之后经上采样层重建图像,图像风格代码经多层感知机得到自适应实例归一化参数,之后一并输入残差网络,自适应实例归一化公式如下:
其中z是前一卷积层的激活项,μ和σ是通道的平均值和标准差,γ和β是多层感知机训练得到的参数;
网络模型分别利用内容编码器和风格编码器将RGB图像解耦成图像内容编码ci和图像风格编码si两部分,其中图像内容编码具有域不变性,而风格编码则保留了特定域的特征;解码器将某一图像内容编码与某一风格编码重新组合得到新的RGB图像。
RGB图像经内容编码器编码后得到其内容编码,其与任一风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与真实世界RGB图像分布一致;
步骤A3:构建深度估计网络模型,虚拟数据集的RGB图像以及将其风格迁移到真实世界域的迁移图像经内容编码器得到图像内容编码信息,经U型全卷积残差网络后得到深度估计图像;
虚拟数据集的RGB图像、虚拟图像风格迁移到真实世界域的迁移图像先经过内容编码器得到图像内容信息,之后经U型全卷积残差网络后得到虚拟图像的深度估计图和虚拟图像到真实世界域迁移图像的深度估计图,根据虚拟图像的深度估计图、虚拟图像到真实世界域迁移图像的深度估计图与原虚拟深度图之间的多分辨率损失对网络进行训练;
U型全卷积残差网络在深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,具有图像内容编码器网络权值共享和多尺度特征图融合的特点。
步骤A4:测试阶段,真实世界RGB图像经过图像内容编码器编码得到其内容信息,之后通过深度估计网络得到原图的深度估计图。
优选地,还包括构建多模态无监督图像迁移网络模型步骤
所述构建多模态无监督图像迁移网络模型步骤,包括如下步骤:
重建RGB图像应该分别与原真实世界RGB图像xi、虚拟数据集RGB图像xj分布一致,因此引入真实世界图像域和虚拟图像域的图像重建损失用来训练图像内容编码器和图像风格编码器,单一域真实世界图像、虚拟图像经内容和风格编码并解码后的重建图像损失具体计算公式如下:
之后,由两个域图像风格的高斯分布分别随机选取真实世界RGB图像域风格si、虚拟数据RGB图像域风格sj,图像xi的内容ci与图像xj的风格sj经解码器Gj生成迁移图像xi→j,该图即为图像xi风格迁移到虚拟RGB图像域的图像,包括原图的内容信息和虚拟RGB图像域的风格特征,同样可以得到包括图像xj的内容信息cj和真实世界RGB图像域的风格特征si的迁移图xj→i,如图2所示;
为确保真实世界图像内容与虚拟图像迁移后图像内容分布一致,在真实世界图像内容ci和虚拟图像内容cj之间引入生成对抗网络,并使用内容判别器加以判别,跨域真实世界图像的迁移图与虚拟图像的迁移图之间的内容对抗损失具体计算公式如下:
最后,对迁移图xi→j进行内容编码和风格编码,得到重建的图像xi内容信息和虚拟RGB图像域的风格同样可以得到虚拟迁移图xj→i的重建内容和重建风格重建内容信息、重建风格信息应该与原内容风格信息一致,引入内容、风格重建损失加以约束,跨域真实世界图像、虚拟图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的重建损失具体计算公式如下:
步骤B3:损失函数包括双向重建损失、图像对抗损失、内容对抗损失,双向重建损失确保编码器和解码器互为逆,包括图像重建损失和内容、风格重建损失,图像对抗损失使用图像判别器确保迁移后图像与目标域分布一致,内容对抗损失使用内容判别器确保迁移RGB图像内容编码与真实世界RGB图像内容编码分布一致,损失函数具体由四部分构成:
图像对抗损失,跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式如下:
内容对抗损失,真实世界图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式如下:
图像迁移的损失函数是上述四部分的加权求和,计算公式如下:
优选地,还包括构建深度估计网络模型步骤;
所述构建深度估计网络模型步骤,包括如下步骤:
内容编码器具体结构为降采层、两个残差块、降采样层、两个残差块,前后两层残差块同时跨链接到深度预测残差网络上采样后两层。
深度预测器为U型全卷积残差网络,残差网络包括降采样和上采样两部分,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点,残差网络最后输出虚拟数据集RGB图的深度估计图;
图像内容编码器末端输出的图像内容和内容编码器网络降采样每层输出的图像构成图像内容序列ci:
其中表示内容编码器倒数第j+1层的输出图像,图像内容序列ci一一对应跨连接到深度预测器残差网络上采样层;跨链接使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点,残差网络最后输出虚拟数据集RGB图的深度估计图,如图4所示。
步骤C3:使用多分辨率损失,深度预测网络的损失函数既包括残差网络输出的深度估计图和训练集中原RGB图对应的深度图之间的损失,还包括残差网络上采样不同分辨率的每层输出特征图与原深度图等比例缩放图之间的损失;
最终的损失函数,计算公式如下:
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,包括:
步骤1:选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集;
步骤2:根据训练集构建多模态无监督图像迁移网络模型,并利用生成对抗网络对网络模型进行训练;
步骤3:根据训练集构建深度估计网络模型并进行训练;
步骤4:对现实RGB图像进行编码,并根据深度估计网络模型得到深度估计图。
2.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述网络模型包括:图像内容编码器、图像风格编码器和解码器;
网络模型分别利用图像内容编码器和图像风格编码器将RGB图像解耦成图像内容编码和图像风格编码;
解码器将图像内容编码与图像风格编码重新组合得到新的RGB图像;
RGB图像经图像内容编码器编码后得到图像内容编码,图像风格编码通过解码器得到风格迁移图像,使用图像生成对抗网络来保证风格迁移图像与原图像分布一致,使用内容生成对抗网络确保虚拟RGB图像与现实RGB图像分布一致。
3.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述步骤2包括:
步骤2.1:单一域图像重建,训练集现实RGB图像域中图像xi分别经过图像内容编码器和图像风格编码器分解成图像内容部分ci和图像风格部分si,内容编码和风格编码经解码器Gi解码重建出RGB图像同样对虚拟RGB图像域中图像xj编码得到内容cj和风格sj,并解码得到重建图像
5.根据权利要求4所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述损失函数包括:
其中,
p(xi)表示:现实RGB图像域中图像的概率分布;
其中,
p(ci)表示:真实RGB图像经过内容解耦后的内容潜变量编码的概率分布;
p(cj)表示:虚拟RGB图像经过内容解耦后的内容潜变量编码的概率分布;
q(si)表示:按照高斯分布随机从真实RGB图像域中采样的风格潜变量概率分布;
q(sj)表示:按照高斯分布随机从虚拟RGB图像域中采样的风格潜变量概率分布;
Gi表示:用于将内容潜变量和真实RGB图像域中的风格潜变量解码得到真实RGB图像的解码器;
Gj表示:用于将内容潜变量和虚拟RGB图像域中的风格潜变量解码得到虚拟RGB图像的解码器;
图像对抗损失:跨域图像迁移后图像与原域中图像之间的对抗损失,计算公式为:
内容对抗损失:现实图像内容信息与虚拟图像内容信息之间的对抗损失,计算公式为:
图像迁移的损失函数为图像重建损失、内容风格重建损失、图像对抗损失和内容对抗损失的加权求和,计算公式为:
其中,
λGAN-C表示:内容对抗损失函数的权重超参数;
λx表示:图像重建损失函数的权重超参数;
λc表示:内容重建损失函数的权重超参数;
λs表示:风格重建损失函数的权重超参数。
6.根据权利要求5所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,图像风格损失函数各项参数λGAN-C=1,λx=10,λc=1,λs=1。
8.根据权利要求7所述的基于多模态无监督图像内容解耦的单目深度估计方法,其特征在于,所述深度预测器为U型全卷积残差网络,所述U型全卷积残差网络包括降采样和上采样,其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道,进行网络图像内容编码器网络权值共享和进行多尺度特征图融合,U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010126070.7A CN111445476B (zh) | 2020-02-27 | 2020-02-27 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010126070.7A CN111445476B (zh) | 2020-02-27 | 2020-02-27 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445476A true CN111445476A (zh) | 2020-07-24 |
CN111445476B CN111445476B (zh) | 2023-05-26 |
Family
ID=71627081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010126070.7A Active CN111445476B (zh) | 2020-02-27 | 2020-02-27 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445476B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815509A (zh) * | 2020-09-02 | 2020-10-23 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN112116646A (zh) * | 2020-09-23 | 2020-12-22 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
CN113160042A (zh) * | 2021-05-21 | 2021-07-23 | 北京邮电大学 | 一种图像风格迁移模型训练方法、装置及电子设备 |
CN113192149A (zh) * | 2021-05-20 | 2021-07-30 | 西安交通大学 | 图像深度信息单目估计方法、设备及可读存储介质 |
CN113538218A (zh) * | 2021-07-14 | 2021-10-22 | 浙江大学 | 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法 |
CN113781542A (zh) * | 2021-09-23 | 2021-12-10 | Oppo广东移动通信有限公司 | 模型生成方法、深度估计方法、装置以及电子设备 |
CN113902785A (zh) * | 2021-09-15 | 2022-01-07 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
CN114429436A (zh) * | 2022-01-25 | 2022-05-03 | 山东大学 | 一种缩小域差异的图像迁移方法及系统 |
CN114596474A (zh) * | 2022-02-16 | 2022-06-07 | 北京工业大学 | 一种融合多模态信息的单目深度估计方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360227A (zh) * | 2018-10-25 | 2019-02-19 | 武汉拓睿传奇科技有限公司 | 一种基于深度学习的人工智能目标跟踪方法 |
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN110084863A (zh) * | 2019-04-25 | 2019-08-02 | 中山大学 | 一种基于生成对抗网络的多域图像转换方法与系统 |
CN110443843A (zh) * | 2019-07-29 | 2019-11-12 | 东北大学 | 一种基于生成对抗网络的无监督单目深度估计方法 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
-
2020
- 2020-02-27 CN CN202010126070.7A patent/CN111445476B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN109360227A (zh) * | 2018-10-25 | 2019-02-19 | 武汉拓睿传奇科技有限公司 | 一种基于深度学习的人工智能目标跟踪方法 |
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN110084863A (zh) * | 2019-04-25 | 2019-08-02 | 中山大学 | 一种基于生成对抗网络的多域图像转换方法与系统 |
CN110443843A (zh) * | 2019-07-29 | 2019-11-12 | 东北大学 | 一种基于生成对抗网络的无监督单目深度估计方法 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
Non-Patent Citations (2)
Title |
---|
孙韶媛 等: "采用KPCA和BP神经网络的单目车载红外图像深度估计", 《红外与激光工程》 * |
许路 等: "基于深层卷积神经网络的单目红外图像深度估计", 《光学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815509B (zh) * | 2020-09-02 | 2021-01-01 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN111815509A (zh) * | 2020-09-02 | 2020-10-23 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN112116646A (zh) * | 2020-09-23 | 2020-12-22 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN112116646B (zh) * | 2020-09-23 | 2023-11-24 | 南京工程学院 | 一种基于深度卷积神经网络的光场图像深度估计方法 |
CN112561979A (zh) * | 2020-12-25 | 2021-03-26 | 天津大学 | 一种基于深度学习的自监督单目深度估计方法 |
CN113192149A (zh) * | 2021-05-20 | 2021-07-30 | 西安交通大学 | 图像深度信息单目估计方法、设备及可读存储介质 |
CN113192149B (zh) * | 2021-05-20 | 2024-05-10 | 西安交通大学 | 图像深度信息单目估计方法、设备及可读存储介质 |
CN113160042B (zh) * | 2021-05-21 | 2023-02-17 | 北京邮电大学 | 一种图像风格迁移模型训练方法、装置及电子设备 |
CN113160042A (zh) * | 2021-05-21 | 2021-07-23 | 北京邮电大学 | 一种图像风格迁移模型训练方法、装置及电子设备 |
CN113538218A (zh) * | 2021-07-14 | 2021-10-22 | 浙江大学 | 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法 |
CN113902785B (zh) * | 2021-09-15 | 2022-04-15 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
CN113902785A (zh) * | 2021-09-15 | 2022-01-07 | 珠海视熙科技有限公司 | 一种深度图像的处理方法、系统、装置及计算机存储介质 |
CN113781542A (zh) * | 2021-09-23 | 2021-12-10 | Oppo广东移动通信有限公司 | 模型生成方法、深度估计方法、装置以及电子设备 |
CN114429436A (zh) * | 2022-01-25 | 2022-05-03 | 山东大学 | 一种缩小域差异的图像迁移方法及系统 |
CN114596474A (zh) * | 2022-02-16 | 2022-06-07 | 北京工业大学 | 一种融合多模态信息的单目深度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111445476B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445476A (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
Bloesch et al. | Codeslam—learning a compact, optimisable representation for dense visual slam | |
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN111931787A (zh) | 一种基于特征聚合的rgbd显著性检测方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
Chen et al. | Depth completion using geometry-aware embedding | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN112598721A (zh) | 基于归一化回归函数单目深度估计系统训练方法和网络 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
US20220237879A1 (en) | Direct clothing modeling for a drivable full-body avatar | |
Zhou et al. | UTLNet: Uncertainty-aware transformer localization network for RGB-depth mirror segmentation | |
CN111627055A (zh) | 一种联合语义分割的场景深度补全方法 | |
Basak et al. | Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image | |
Yang et al. | Mixed-scale UNet based on dense atrous pyramid for monocular depth estimation | |
Giang et al. | Sequential depth completion with confidence estimation for 3d model reconstruction | |
CN114359293A (zh) | 一种基于深度学习的三维mri脑肿瘤分割方法 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN115035173A (zh) | 基于帧间相关性的单目深度估计方法及系统 | |
Xing et al. | Scale-consistent fusion: from heterogeneous local sampling to global immersive rendering | |
Zhuang et al. | Dimensional transformation mixer for ultra-high-definition industrial camera dehazing | |
Deepa et al. | A deep learning based stereo matching model for autonomous vehicle | |
Zhou et al. | Morphology-Guided Network via Knowledge Distillation for RGB-D Mirror Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |