CN111445476A

CN111445476A - 基于多模态无监督图像内容解耦的单目深度估计方法

Info

Publication number: CN111445476A
Application number: CN202010126070.7A
Authority: CN
Inventors: 王贺升; 胡寒江; 赵忠臣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-24
Anticipated expiration: 2040-02-27
Also published as: CN111445476B

Abstract

本发明提供了一种基于多模态无监督图像内容解耦的单目深度估计方法，包括：步骤1：选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集；步骤2：根据训练集构建多模态无监督图像迁移网络模型，并利用生成对抗网络对网络模型进行训练；步骤3：根据训练集构建深度估计网络模型并进行训练；步骤4：对现实RGB图像进行编码，并根据深度估计网络模型得到深度估计图。本发明不依赖大量的真实RGB图像对应的深度图，且具有对不同季节、光照环境鲁棒性强的特点。

Description

基于多模态无监督图像内容解耦的单目深度估计方法

技术领域

本发明涉及图像识别和人工智能技术领域，具体地，涉及一种基于多模态无监督图像内容解耦的单目深度估计方法。尤其地，涉及一种应用于季节、光照等环境变化下的单目深度估计方法。

背景技术

室外单目深度估计在无人驾驶、移动机器人等领域有着重要的作用。近几年，由于深层卷积网络的推动，基于单目图像的深度估计取得了重大的进展。然而室外场景的真实深度图往往因获取成本过高而难以获取或者质量较低，使得难以直接利用室外单目图像进行有监督的深度估计训练。

目前常用的算法有如下三类：

早期的马尔可夫随机场算法以及其它的概率图模型，十分依赖人工描述符，使得相较于基于学习的算法表现较差。

基于监督训练的深层卷积深度预测器。基于多尺度深度网络的单个图像深度图预测网络，算法首次使用端到端的深层卷积深度估计网络；基于深度卷积神经网络的单目深度估计算法，算法利用神经网络结合连续CRF像素的方法进行深度估计；用于单目深度估计的卷积神经网络可视化算法，使用CNN从像素相关性的角度估计深度图。但这些监督训练存在一个普遍的问题：室外图像真实的深度图往往因获取成本过高而数量较少，使得监督训练成本过高。

以无监督的方式训练深度预测器，并辅以相机自身运动姿态的立体几何信息进行训练。结合几何特征的无监督单目深度估计卷积网络算法，该算法用无监督图像重建方法进行深度估计；左右一致性的无监督单目深度估计算法使用双目图像的左右一致性约束估计深度图；自监督单目深度估计算法使用相机自身运动位姿约束进行深度估计。然而这些方法需要额外辅助立体视觉信息进行训练，同时没有显式解决在不同数据集、不同环境视角变化时的泛化问题。

针对以上单目深度估计存在的难点：室外图像深度图较为稀缺且质量不高、图像存在季节、光照变化等问题。因此除了对深度预测器进行无监督训练外，数量多且质量高的虚拟数据集的深度图能够用来解决真实世界深度图稀缺的问题。从虚拟图像到真实图像的图像迁移存在两个域之间的适应差距问题，当前从虚拟图像到真实图像的深度预测自适应方式是单一模态的，使得跨域图像迁移是确定性的。然而现实中的图像包括多样且连续变化的光照、天气和季节，通常是多模态。基于确定性的图像迁移方法在不同数据集或不同域泛化时会有问题，因为这类方法十分依赖迁移图像的单一特定外观。

为了解决上述难点,我们提出了一种新颖的基于多模态无监督图像迁移框架的内容潜变量解耦的多模态深度预测算法，该算法通过从虚拟图像到真实世界图像的内容编码解耦、图像跨域迁移进行单目深度估计。通过多模态无监督图像迁移，图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码。对于虚拟图像域和真实图像域，内容潜在特征具有域不变性，仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。由于风格潜在特征具有随机性且连续分布，因此内容特征具有多模态不变性且具有较强的泛化能力。

专利文献CN110120071A(申请号：201910401869.X)公开了一种面向光场图像的深度估计方法，包括如下步骤：解码光场图像得到4D光场数据、中心子孔径图像；由4D光场数据生成焦点堆栈图像序列；对中心子孔径图像上的每个像素，绘制聚焦曲线；检测聚焦曲线的局部对称中心，得视差图D1；由4D光场数据生成每个像素对应的水平方向、垂直方向的EPI图像；检测EPI图像上直线的斜率，得到视差图D2；基于中心子孔径图像和两个视差图，对每个像素绘制两种聚焦曲线片段；计算两种聚焦曲线片段与聚焦曲线的匹配度，由匹配度确定最终视差图D；执行基于能量最小化的深度优化。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于多模态无监督图像内容解耦的单目深度估计方法。

根据本发明提供的基于多模态无监督图像内容解耦的单目深度估计方法，包括：

步骤1：选取现实RGB图像、虚拟RGB图像和对应的深度图构成训练集；

步骤2：根据训练集构建多模态无监督图像迁移网络模型，并利用生成对抗网络对网络模型进行训练；

步骤3：根据训练集构建深度估计网络模型并进行训练；

步骤4：对现实RGB图像进行编码，并根据深度估计网络模型得到深度估计图。

优选地，所述网络模型包括：图像内容编码器、图像风格编码器和解码器；

网络模型分别利用图像内容编码器和图像风格编码器将RGB图像解耦成图像内容编码和图像风格编码；

解码器将图像内容编码与图像风格编码重新组合得到新的RGB图像；

RGB图像经图像内容编码器编码后得到图像内容编码，图像风格编码通过解码器得到风格迁移图像，使用图像生成对抗网络来保证风格迁移图像与原图像分布一致，使用内容生成对抗网络确保虚拟RGB图像与现实RGB图像分布一致。

优选地，所述步骤2包括：

步骤2.1：单一域图像重建，训练集现实RGB图像域中图像x_i分别经过图像内容编码器

和图像风格编码器

分解成图像内容部分c_i和图像风格部分s_i，内容编码和风格编码经解码器G_i解码重建出RGB图像

同样对虚拟RGB图像域中图像x_j编码得到内容c_j和风格s_j，并解码得到重建图像

步骤2.2：跨域图像迁移，训练集现实RGB图像域、虚拟RGB图像域中的两张图像x_i、x_j分别经图像内容编码器

的得到其内容编码信息c_i、c_j；

步骤2.3：构建损失函数，包括双向重建损失、图像对抗损失、内容对抗损失、图像重建损失和内容风格重建损失，双向重建损失确保编码器和解码器互为逆，图像对抗损失使用图像判别器

确保迁移后图像与目标域分布一致，内容对抗损失使用内容判别器

确保迁移RGB图像内容编码与现实RGB图像内容编码分布一致。

优选地，所述步骤2.2包括：

按照高斯分布分别从现实RGB图像域和虚拟RGB图像域的风格编码中的随机获取风格信息s_i、s_j，图像x_i的内容c_i与图像x_j的风格s_j经解码器获得迁移图像x_i→j，即为图像x_i风格迁移到虚拟RGB图像域的图像，包括原真实图像的内容信息和虚拟RGB图像域的风格信息,同样得到包括虚拟图像x_j的内容信息和现实RGB图像域的风格信息的迁移图像x_j→i；

对迁移图x_i→j进行内容编码和风格编码，得到重建的图像x_i内容信息

和虚拟RGB图像域的风格信息

同样得到迁移图x_j→i的重建内容信息

和重建风格信息

优选地，所述损失函数包括：

图像重建损失：在单一域中RGB图像与RGB图像经过内容、风格编码并解码后的重建图像之间的

损失，分别对现实RGB图像域和虚拟RGB图像域进行计算，以现实RGB图像域为例，计算公式为：

其中，

p(x_i)表示：现实RGB图像域中图像的概率分布；

内容风格重建损失：跨域图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的

损失，计算公式为：

其中，

p(c_i)表示：真实RGB图像经过内容解耦后的内容潜变量编码的概率分布；

p(c_j)表示：虚拟RGB图像经过内容解耦后的内容潜变量编码的概率分布；

q(s_i)表示：按照高斯分布随机从真实RGB图像域中采样的风格潜变量概率分布；

q(s_j)表示：按照高斯分布随机从虚拟RGB图像域中采样的风格潜变量概率分布；

G_i表示：用于将内容潜变量和真实RGB图像域中的风格潜变量解码得到真实RGB图像的解码器；

G_j表示：用于将内容潜变量和虚拟RGB图像域中的风格潜变量解码得到虚拟RGB图像的解码器；

图像对抗损失：跨域图像迁移后图像与原域中图像之间的对抗损失，计算公式为：

内容对抗损失：现实图像内容信息与虚拟图像内容信息之间的对抗损失，计算公式为：

图像迁移的损失函数为图像重建损失、内容风格重建损失、图像对抗损失和内容对抗损失的加权求和，计算公式为：

其中，

λ_GAN-C表示：内容对抗损失函数的权重超参数；

λ_x表示：图像重建损失函数的权重超参数；

λ_c表示：内容重建损失函数的权重超参数；

λ_s表示：风格重建损失函数的权重超参数。

优选地，图像风格损失函数各项参数λ_GAN-C＝1，λ_x＝10，λ_c＝1，λ_s＝1。

优选地，

所述步骤3包括：

步骤3.1：构建图像内容编码器

步骤3.2：构建深度预测器

采用成对的虚拟RGB图像和深度图，虚拟RGB图像S_RGBi以及风格迁移之后得到的迁移图像经过内容编码器得到图像内容信息，再通过深度预测器

输出深度估计图；

步骤3.3：使用多分辨率损失，构建深度估计图序列d_i，包括U型全卷积残差网络最终输出深度估计图和U型全卷积残差网络不同分辨率每层上采样输出的特征图。

优选地，所述深度预测器为U型全卷积残差网络，所述U型全卷积残差网络包括降采样和上采样，其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道，进行网络图像内容编码器网络权值共享和进行多尺度特征图融合，U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。

优选地，所述步骤3.3包括：

其中，

表示残差网络倒数第j+1层上采样输出特征图；

构建真实深度图序列S_Depthi，包括原RGB图对应的深度图和原深度图等比例缩放图，其中

表示第j个原深度图等比例缩放图，计算公式为：

深度估计的损失函数为深度估计图序列d_i与现实深度图序列S_Depthi之间的

损失，计算公式为：

其中，k表示：参与多分辨率损失函数的解码器上采样输出特征图的层数。

优选地，最终的损失函数，计算公式为：

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过多模态无监督图像迁移，图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码，对于虚拟图像域和真实图像域，内容潜在特征具有域不变性，仅使用虚拟RGB和对应的深度图像训练模型就可以预测的真实世界图像的深度图。

2、由于风格潜在特征具有随机性且连续分布，因此内容特征具有多模态不变性且具有较强的泛化能力。

3、本发明不依赖大量的真实RGB图像对应的深度图，且具有对不同季节、光照环境鲁棒性强的特点。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是单一域真实RGB重建图；

图2是跨域迁移图；

图3是内容编码器图；

图4是深度估计网络模型图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开了一种基于多模态无监督图像内容解耦的单目深度估计算法，特点是首先将图像的潜在特征跨域解耦成内容潜在特征编码和风格潜在特征编码，虚拟图像域和真实图像域的内容潜在特征分布一致，仅使用成对的虚拟RGB和深度图像训练模型，之后对真实世界图像用解耦出的内容信息来预测其深度图，从而完成单目深度估计算法。和常用的单目深度估计算法相比，更加适用于变化的环境单目深度估计，如不同季节、光照等环境条件。

根据本发明提供的一种基于多模态无监督图像内容解耦的单目深度估计方法，包括如下步骤：

步骤A1：选取真实世界的RGB图像(R₁、R₂……)、虚拟数据集的RGB图像和与之对应的深度图(S_RGB1-S_Depth1、S_RGB2-S_Depth2……)构成训练集；

虚拟数据集RGB图像原始分辨率为1242*375，首先经过随机边框裁剪得到分辨率为1120*336的图像，之后经缩放得到分辨率为640*192的图像作为网络输入，虚拟数据集RGB图像对应的深度图先进行和RGB图完全相同的边框裁剪，之后同样经缩放得到分辨率为640*192的深度图真值；

真实世界RGB图像先经过随机化边框裁剪处理，分辨率从1242*375变为1120*336，之后作缩放处理得到分辨率为640*192的图像作为网络输入；

步骤A2：构建多模态无监督图像迁移网络模型，网络模型包括图像内容编码器

图像风格编码器

和解码器G_i，并利用生成对抗网络对其训练；

图像内容编码器网络

从图像中解耦出图像内容编码，包括降采样层和残差网络模块，所有卷积层后都经过实例归一化处理；

图像风格编码器网络

从图像中解耦出图像风格编码，包括降采样层、全局平均池化层和全卷积层，风格编码器并不使用实例归一化，因为实例归一化会改变图像特征中含有风格信息的原始均值和方差；

解码器G_i将某一图像内容与某一风格解码得到新的RGB图像，图像内容编码输入残差网络块，之后经上采样层重建图像，图像风格代码经多层感知机得到自适应实例归一化参数，之后一并输入残差网络，自适应实例归一化公式如下：

其中z是前一卷积层的激活项，μ和σ是通道的平均值和标准差,γ和β是多层感知机训练得到的参数；

生成对抗网络使用LSGAN网络，同时使用了多尺度判别器作为图像判别器

和内容判别器

分别用来促使生成器得到的图像和目标域图像分布一致、虚拟数据集RGB图像与真实世界图像内容编码分布一致；

网络模型分别利用内容编码器和风格编码器将RGB图像解耦成图像内容编码c_i和图像风格编码s_i两部分，其中图像内容编码具有域不变性，而风格编码则保留了特定域的特征；解码器将某一图像内容编码与某一风格编码重新组合得到新的RGB图像。

RGB图像经内容编码器编码后得到其内容编码，其与任一风格编码通过解码器得到风格迁移图像，使用图像生成对抗网络来保证迁移图像与原图像分布一致，使用内容生成对抗网络确保虚拟RGB图像与真实世界RGB图像分布一致；

步骤A3：构建深度估计网络模型，虚拟数据集的RGB图像以及将其风格迁移到真实世界域的迁移图像经内容编码器得到图像内容编码信息，经U型全卷积残差网络后得到深度估计图像；

虚拟数据集的RGB图像、虚拟图像风格迁移到真实世界域的迁移图像先经过内容编码器得到图像内容信息，之后经U型全卷积残差网络后得到虚拟图像的深度估计图和虚拟图像到真实世界域迁移图像的深度估计图，根据虚拟图像的深度估计图、虚拟图像到真实世界域迁移图像的深度估计图与原虚拟深度图之间的多分辨率损失对网络进行训练；

U型全卷积残差网络在深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道，具有图像内容编码器网络权值共享和多尺度特征图融合的特点。

步骤A4：测试阶段，真实世界RGB图像经过图像内容编码器编码得到其内容信息，之后通过深度估计网络得到原图的深度估计图。

优选地，还包括构建多模态无监督图像迁移网络模型步骤

所述构建多模态无监督图像迁移网络模型步骤，包括如下步骤：

步骤B1：在单一域中图像重建，训练集真实世界RGB图像域中图像x_i分别经过内容编码器

和风格编码器

分解成图像内容部分c_i和图像风格部分s_i，如图1所示；

内容信息c_i和风格信息s_i经解码器G_i解码重建出RGB图像

同样对训练集虚拟RGB图像域中图像x_j编码得到内容c_j和风格s_j，并解码得到重建图像

重建RGB图像

应该分别与原真实世界RGB图像x_i、虚拟数据集RGB图像x_j分布一致，因此引入真实世界图像域和虚拟图像域的图像重建损失

用来训练图像内容编码器和图像风格编码器，单一域真实世界图像、虚拟图像经内容和风格编码并解码后的重建图像损失具体计算公式如下：

步骤B2：跨域图像迁移，训练集真实世界RGB图像域、虚拟数据集RGB图像域中的两张图像x_i、x_j分别经内容编码器

的得到其内容编码信息c_i、c_j；

之后，由两个域图像风格的高斯分布分别随机选取真实世界RGB图像域风格s_i、虚拟数据RGB图像域风格s_j，图像x_i的内容c_i与图像x_j的风格s_j经解码器G_j生成迁移图像x_i→j，该图即为图像x_i风格迁移到虚拟RGB图像域的图像，包括原图的内容信息和虚拟RGB图像域的风格特征,同样可以得到包括图像x_j的内容信息c_j和真实世界RGB图像域的风格特征s_i的迁移图x_j→i，如图2所示；

为确保迁移图像与目标域分布一致，引入生成对抗网络加以约束，使用图像判别器

对迁移后图像判别，跨域真实世界图像、虚拟图像迁移后与原域中图像之间的图像对抗损失具体计算公式如下：

为确保真实世界图像内容与虚拟图像迁移后图像内容分布一致，在真实世界图像内容c_i和虚拟图像内容c_j之间引入生成对抗网络，并使用内容判别器

加以判别，跨域真实世界图像的迁移图与虚拟图像的迁移图之间的内容对抗损失具体计算公式如下：

最后，对迁移图x_i→j进行内容编码和风格编码，得到重建的图像x_i内容信息

和虚拟RGB图像域的风格

同样可以得到虚拟迁移图x_j→i的重建内容

和重建风格

重建内容信息、重建风格信息应该与原内容风格信息一致，引入内容、风格重建损失加以约束，跨域真实世界图像、虚拟图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的重建损失具体计算公式如下：

步骤B3：损失函数包括双向重建损失、图像对抗损失、内容对抗损失，双向重建损失确保编码器和解码器互为逆，包括图像重建损失和内容、风格重建损失，图像对抗损失使用图像判别器

确保迁移RGB图像内容编码与真实世界RGB图像内容编码分布一致，损失函数具体由四部分构成：

图像重建损失，在单一域中RGB图像与其经过内容、风格编码并解码后的重建图像之间的

损失，分别对现实RGB图像域和虚拟RGB图像域进行计算，以现实RGB图像域为例，计算公式如下：

内容、风格重建损失，跨域图像迁移后的迁移图像的内容风格分别与原图的内容和原风格之间的

损失，计算公式如下：

图像对抗损失，跨域图像迁移后图像与原域中图像之间的对抗损失，计算公式如下：

内容对抗损失，真实世界图像内容信息与虚拟图像内容信息之间的对抗损失，计算公式如下：

图像迁移的损失函数是上述四部分的加权求和，计算公式如下：

优选地，还包括构建深度估计网络模型步骤；

所述构建深度估计网络模型步骤，包括如下步骤：

步骤C1：构建图像内容编码器

网络包括降采样层和残差网络模块，所有卷积层后都经过实例归一化处理，如图3所示；

内容编码器具体结构为降采层、两个残差块、降采样层、两个残差块，前后两层残差块同时跨链接到深度预测残差网络上采样后两层。

步骤C2：构建深度预测器

采用成对的虚拟数据集的RGB图和深度图，虚拟RGB图像S_RGBi以及风格迁移之后得到的迁移图像经过内容编码器得到图像内容信息，再通过深度预测器

输出深度估计图；

深度预测器为U型全卷积残差网络，残差网络包括降采样和上采样两部分，其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道，使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点，残差网络最后输出虚拟数据集RGB图的深度估计图；

图像内容编码器末端输出的图像内容和内容编码器网络降采样每层输出的图像构成图像内容序列c_i：

其中

表示内容编码器倒数第j+1层的输出图像，图像内容序列c_i一一对应跨连接到深度预测器残差网络上采样层；跨链接使得网络具有图像内容编码器网络权值共享和多尺度特征图融合的特点，残差网络最后输出虚拟数据集RGB图的深度估计图，如图4所示。

步骤C3：使用多分辨率损失，深度预测网络的损失函数既包括残差网络输出的深度估计图和训练集中原RGB图对应的深度图之间的损失，还包括残差网络上采样不同分辨率的每层输出特征图与原深度图等比例缩放图之间的损失；

构建深度估计图序列d_i，由残差网络最终输出深度估计图和残差网络不同分辨率每层上采样输出的特征图构成，其中

表示残差网络倒数第j+1层上采样输出特征图：

构建真实深度图序列S_Depthi，由训练集中原RGB图对应的深度图和原深度图等比例缩放图构成，其中

表示第j个原深度图等比例缩放图，计算公式如下：

深度估计的损失函数为深度估计图序列d_i与真实深度图序列S_Depthi之间的

损失，计算公式如下：

最终的损失函数，计算公式如下：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，包括：

步骤3：根据训练集构建深度估计网络模型并进行训练；

2.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述网络模型包括：图像内容编码器、图像风格编码器和解码器；

3.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述步骤2包括：

和图像风格编码器

的得到其内容编码信息c_i、c_j；

确保迁移RGB图像内容编码与现实RGB图像内容编码分布一致。

4.根据权利要求3所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述步骤2.2包括：

和虚拟RGB图像域的风格信息

同样得到迁移图x_j→i的重建内容信息

和重建风格信息

5.根据权利要求4所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述损失函数包括：

其中，

p(x_i)表示：现实RGB图像域中图像的概率分布；

损失，计算公式为：

其中，

其中，

λ_GAN-C表示：内容对抗损失函数的权重超参数；

λ_x表示：图像重建损失函数的权重超参数；

λ_c表示：内容重建损失函数的权重超参数；

λ_s表示：风格重建损失函数的权重超参数。

6.根据权利要求5所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，图像风格损失函数各项参数λ_GAN-C＝1，λ_x＝10，λ_c＝1，λ_s＝1。

7.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，

所述步骤3包括：

步骤3.1：构建图像内容编码器

步骤3.2：构建深度预测器

输出深度估计图；

8.根据权利要求7所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述深度预测器为U型全卷积残差网络，所述U型全卷积残差网络包括降采样和上采样，其中深层上采样和深层降采样之间、浅层上采样与图像内容编码器之间加入跨连接通道，进行网络图像内容编码器网络权值共享和进行多尺度特征图融合，U型全卷积残差网络最后输出虚拟RGB图像的深度估计图。

9.根据权利要求1所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，所述步骤3.3包括：

其中，

表示残差网络倒数第j+1层上采样输出特征图；

表示第j个原深度图等比例缩放图，计算公式为：

损失，计算公式为：

10.根据权利要求9所述的基于多模态无监督图像内容解耦的单目深度估计方法，其特征在于，最终的损失函数，计算公式为：