CN113436240B

CN113436240B - 一种基于域适应的复杂环境下的单目图像深度估计方法

Info

Publication number: CN113436240B
Application number: CN202110690033.3A
Authority: CN
Inventors: 陈启军; 沈梦娇; 刘成菊; 陆昱初; 张恒
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-09-20
Anticipated expiration: 2041-06-22
Also published as: CN113436240A

Abstract

本发明涉及一种基于域适应的复杂环境下的单目图像深度估计方法，包括：S1、构建用于白天图像深度估计的原始深度估计网络；S2、筛选出图像的刚性区域，去除图像闭塞区域和动态物体所在位置区域带来的干扰，对原始深度估计网络进行一次优化；S3、训练原始深度估计网络；S4、采用领域自适应技术对原始深度估计网络进行二次优化得到目标深度估计网络；S5、将复杂环境下的单目图像输入至目标深度估计网络，估计图像的深度信息。与现有技术相比，本发明有效解决了在复杂环境下的深度估计不精确的问题，具有鲁棒性强，准确度高等优点。

Description

一种基于域适应的复杂环境下的单目图像深度估计方法

技术领域

本发明涉及机器人视觉技术领域，尤其是涉及一种基于域适应的复杂环境下的单目图像深度估计方法。

背景技术

基于计算机视觉的单目图像深度估计技术能够构建场景信息，使机器人能够很好的进行自定位(机器人自身在场景中的位置)，是实现机器人无人系统的关键技术，对于推动无人驾驶汽车、无人搬运机器人、服务机器人的应用有着重要意义。此外，该技术还能应用于无人机、无人舰艇等领域，有着广泛的应用场景。

现有图像深度估计技术主要有以下几种：

一是基于几何的方法：该方法由Sfm(运动恢复结构：从一系列二维图像序列中估计三维结构的代表性方法)通过图像序列之间的特征对应和几何约束来计算。现有的此类方法存在以下问题：该方法很大程度上依赖于精确的特征匹配和高质量的图像序列，缺乏有效的几何解；为了获得高质量的特征点，耗时较长，会导致系统的实时性下降。

二是基于传感器的方法：该方法利用深度传感器，如RGBD相机和LIDAR，可以直接获得相应图像的深度信息；现有的此类方法主要存在以下问题：RGBD相机虽然能够直接获得RGB图像的像素级密集深度图，但测量范围有限，室外几乎不可用，而激光只能生成稀疏的三维地图；这些深度传感器的大尺寸和功耗影响了它们在小型机器人上的应用，比如无人机。

三是基于深度学习的方法：该方法可以从单个图像中以端到端的方式恢复像素级深度图。现有的此类方法主要存在以下问题：当图像中存在复杂场景时(其中复杂场景主要包括两个部分：环境变换和动态物体的干扰)，深度估计的精度会大幅度下降，比如在晚上、雾天等恶劣环境下，提取的有效特征比较少，网络的性能会下降，而动态物体处的位姿和静态物体估计的位姿不同，同样会影响到深度的估计，进而导致网络架构在这些场景下的泛化能力变差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于域适应的复杂环境下的单目图像深度估计方法。

本发明的目的可以通过以下技术方案来实现：

一种基于域适应的复杂环境下的单目图像深度估计方法，包括：

S1、构建用于白天图像深度估计的原始深度估计网络；

S2、筛选出图像的刚性区域，去除图像闭塞区域和动态物体所在位置区域带来的干扰，对原始深度估计网络进行一次优化；

S3、训练原始深度估计网络；

S4、采用领域自适应技术对原始深度估计网络进行二次优化得到目标深度估计网络，所述的目标深度估计网络能够估计复杂环境下的单目图像的深度，所述的复杂环境下的单目图像包括白天图像和黑夜图像；

S5、将复杂环境下的单目图像输入至目标深度估计网络，估计图像的深度信息。

优选地，所述的原始深度估计网络为编码器解码器结构的深度估计网络，所述的原始深度估计网络输出的深度图像和原始输入图像的大小相同，所述的原始深度估计网络包括日间编码器和日间解码器。

优选地，所述的原始深度估计网络包括四个下采样模块和四个上采样模块。

优选地，步骤S2具体方式为：通过位姿估计网络生成有效性掩膜过滤器，筛选出图像的刚性区域。

优选地，步骤S3所述的原始深度估计网络使用无监督端到端的方式进行训练。

优选地，步骤S3训练原始深度估计网络的具体方式为：

将白天图像分别输入至原始深度估计网络和位姿估计网络，原始深度估计网络估计深度图像，位姿估计网络估计位姿并经过有效性掩膜过滤器筛选图像的刚性区域，对估计的深度图像和位姿施加几何约束并与有效性掩膜过滤器输出的结果进行双线性插值得到合成图像，利用光度不变性原理作为合成图像质量好坏的判别依据并调整原始深度估计网络的参数。

优选地，所述的几何约束为针孔相机投影模型。

优选地，步骤S4采用领域自适应技术对原始深度估计网络进行二次优化的具体方式包括：

构建领域自适应网络，领域自适应网络中包括用于对白天图像特征编码的领域自适应日间编码器以及用于对黑夜图像特征编码的领域自适应夜间编码器；

将白天图像和黑夜图像输入至领域自适应网络，对领域自适应日间编码器和领域自适应夜间编码器进行训练使得领域自适应网络能够从黑夜图像中生成与白天图像中无法区分的特征；

将领域自适应夜间编码器替换训练好的原始深度估计网络中的日间编码器，完成原始深度估计网络的优化得到目标深度估计网络。

优选地，所述的领域自适应网络包括PatchGAN网络。

优选地，对领域自适应日间编码器和领域自适应夜间编码器进行训练时采用对抗生成学习方法进行训练。

与现有技术相比，本发明具有如下优点：

(1)本发明利用深度估计网络获取输入图像每个像素的深度得到深度图，然后对预测的深度和位姿估计施加几何约束以利用光度不变性原理重构出目标图像，这一过程合理地利用了有效性掩膜过滤器，使其深度不受动态物体的影响，能够有效提升深度估计的精度。

(2)本发明有效结合了领域自适应技术，使得网络提取的特征具有感知环境的能力，能够有效减少环境变换对深度估计的影响，提升了估计的鲁棒性。在预测深度的时候，整体网络架构采用端到端无监督训练，无需对数据进行标注，大大降低了深度估计在实际应用中的难度。

(3)本发明使用了端到端无监督的训练方式，不需要额外的监督信号，只需要单目视频序列即可，在训练过程中不断优化深度预测结果，得到最终的深度，具有较强的鲁棒性。

附图说明

图1是本发明方法的流程图；

图2是本发明原始深度估计网络的示意图；

图3是本发明几何约束的原理图；

图4是本发明领域自适应网络的示意图；

图5是利用目标深度估计网络对黑夜图像进行深度估计的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，本实施例提供了一种基于域适应的复杂环境下的单目图像深度估计方法，包括：

S1、构建用于白天图像深度估计的原始深度估计网络；

S3、训练原始深度估计网络；

S4、采用领域自适应技术对原始深度估计网络进行二次优化得到目标深度估计网络，目标深度估计网络能够估计复杂环境下的单目图像的深度，复杂环境下的单目图像包括白天图像和黑夜图像；

如图2所示，原始深度估计网络为编码器解码器结构的深度估计网络，原始深度估计网络输出的深度图像和原始输入图像的大小相同，原始深度估计网络包括日间编码器和日间解码器。原始深度估计网络包括四个下采样模块和四个上采样模块。

步骤S2具体方式为：通过位姿估计网络生成有效性掩膜过滤器，筛选出图像的刚性区域。通过有效性掩膜过滤器筛选出因相机运动导致的相邻两帧图像之间出现不同事物的区域，以及动态物体所在的区域，以此消除这2个因素对深度估计带来的影响。

步骤S3原始深度估计网络使用无监督端到端的方式进行训练，具体方式为：

将白天图像分别输入至原始深度估计网络和位姿估计网络，原始深度估计网络估计深度图像，位姿估计网络估计位姿并经过有效性掩膜过滤器筛选图像的刚性区域，对估计的深度图像和位姿施加几何约束并与有效性掩膜过滤器输出的结果进行双线性插值得到合成图像，利用光度不变性原理作为合成图像质量好坏的判别依据并调整原始深度估计网络的参数。其中，几何约束为针孔相机投影模型，如图3所示

步骤S4采用领域自适应技术对原始深度估计网络进行二次优化使其具有更好的泛化能力，能够很好的预测黑夜等恶劣场景下的深度。将天气适应性任务视为类似域之间的适应问题，解决训练集和测试集在不同天气条件下深度估计泛化能力差的问题。采用领域自适应技术对原始深度估计网络进行二次优化的具体方式包括：

构建领域自适应网络，领域自适应网络包括PatchGAN网络，如图4所示，领域自适应网络中包括用于对白天图像特征编码的领域自适应日间编码器以及用于对黑夜图像特征编码的领域自适应夜间编码器；

将白天图像和黑夜图像输入至领域自适应网络，采用对抗生成学习方法对领域自适应日间编码器和领域自适应夜间编码器进行训练使得领域自适应网络能够从黑夜图像中生成与白天图像中无法区分的特征；

将领域自适应夜间编码器替换训练好的原始深度估计网络中的日间编码器，完成原始深度估计网络的优化得到目标深度估计网络，如图5所示，目标深度估计网络可用于通过领域自适应夜间编码器对黑夜图像进行编码得到黑夜图像特征，同时利用原始深度估计网络中的日间解码器对黑夜图像特征进行解码得到黑夜图像的深度估计，需要说明的是，图5中仅示出了利用目标深度估计网络对黑夜图像进行深度估计的原理，采用图5的目标深度估计网络同样适用于对白天图像进行深度估计。

PatchGAN网络和其它GANs之间的差别主要在于判别器，一般的GAN判别器是将输入映射成一个实数，而PatchGAN将输入映射为N*N的矩阵(把原始图像划分成N*N个patch)，每一个patch只有true or false这两个选择，此矩阵其实就是卷积层输出的特征图，从这个特征图可以追溯到原图像中的某一个位置区域，更能关注到图像的细节。用于训练深度估计的网络通常采用光度损失，该损失不适用于夜间或雾天图像，因为缺乏统一形式的照明。为了解决这个问题，将其定位为一个域自适应问题，即利用白天图像训练出的网络，使其适用于夜间图像。具体做法是基于PatchGAN对抗生成学习方法，对编码器进行训练，使得GAN网络能够从夜间图像中生成与白天图像中无法区分的特征。从编码器网络中获得自适应特征映射的方法，能够让只经过白天图像训练的深度解码器可以直接根据这些自适应特征预测夜间图像的深度。这种方式允许将整个网络框架分解为三个子步骤，第一步用于从输入图像中提取特征；第二步用于将这些特征进行映射，生成与白天图像无法区分的新的特征；最后将新的特征进行解码，得到夜间图像的深度图。

本发明提供的基于域适应的复杂环境下的单目图像深度估计方法，与现有技术中的深度估计方法相比，最大的创新点有三点：一是利用深度估计网络获取输入图像每个像素的深度得到深度图，然后对预测的深度和位姿估计施加几何约束以利用光度不变性原理重构出目标图像，这一过程合理地利用了有效性掩膜过滤器，使其深度不受动态物体的影响，能够有效提升深度估计的精度；二是提出了一种有效结合域自适应技术的框架，使得最终的深度预测能够充分利用环境特征和几何特征；三是使用了端到端无监督的训练方式，不需要额外的监督信号，只需要单目视频序列即可，在训练过程中不断优化深度预测结果，得到最终的深度，具有较强的鲁棒性。这三个创新点使得深度估计能够消除因环境变化带来的不利影响，实现精确的在复杂环境下的深度估计。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，包括：

S1、构建用于白天图像深度估计的原始深度估计网络；

S3、训练原始深度估计网络；

S5、将复杂环境下的单目图像输入至目标深度估计网络，估计图像的深度信息；

所述的原始深度估计网络为编码器解码器结构的深度估计网络，所述的原始深度估计网络输出的深度图像和原始输入图像的大小相同，所述的原始深度估计网络包括日间编码器和日间解码器；

步骤S4采用领域自适应技术对原始深度估计网络进行二次优化的具体方式包括：

构建领域自适应网络，所述的领域自适应网络包括PatchGAN网络，领域自适应网络中包括用于对白天图像特征编码的领域自适应日间编码器以及用于对黑夜图像特征编码的领域自适应夜间编码器；

2.根据权利要求1所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，所述的原始深度估计网络包括四个下采样模块和四个上采样模块。

3.根据权利要求1所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，步骤S2具体方式为：通过位姿估计网络生成有效性掩膜过滤器，筛选出图像的刚性区域。

4.根据权利要求1所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，步骤S3所述的原始深度估计网络使用无监督端到端的方式进行训练。

5.根据权利要求4所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，步骤S3训练原始深度估计网络的具体方式为：

6.根据权利要求5所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，所述的几何约束为针孔相机投影模型。

7.根据权利要求1所述的一种基于域适应的复杂环境下的单目图像深度估计方法，其特征在于，对领域自适应日间编码器和领域自适应夜间编码器进行训练时采用对抗生成学习方法进行训练。