CN111354030B

CN111354030B - 嵌入SENet单元的无监督单目图像深度图生成方法

Info

Publication number: CN111354030B
Application number: CN202010132191.2A
Authority: CN
Inventors: 王祝萍; 戴新柯; 张皓; 黄超
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2023-08-04
Anticipated expiration: 2040-02-29
Also published as: CN111354030A

Abstract

本发明涉及一种嵌入SENet单元的无监督单目图像深度图生成方法，具体为：构建深度估计网络，将目标图像输入训练好的深度估计网络获得目标图像深度图；所述的训练过程采用相机位姿估计网络；所述的深度估计网络包括编码器和解码器，所述的编码器包括7层编码卷积模块，所述的解码器包括7层解码卷积模块和7层跳跃连接的跳跃卷积模块，第1层跳跃卷积模块包括依次连接的卷积层、ReLU激活层、卷积层和ReLU激活层，第2～7层跳跃卷积模块中每块跳跃卷积模块包括残差卷积单元和SENet单元。与现有技术相比，本发明具有精度高等优点。

Description

嵌入SENet单元的无监督单目图像深度图生成方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种嵌入SENet单元的无监督单目图像深度图生成方法。

背景技术

近年来，人工智能技术开始广泛地应用在人们日常生活的方方面面，其中，感知场景三维结构和解析场景几何关系更是有助于智能体理解现实环境。在同时定位与建图(SLAM)中，相比于单目SLAM，基于RGB-D的SLAM无论是跟踪还是构图都具有更稳健的鲁棒性。视觉里程计作为SLAM的关键，可以使用相机的相邻帧估计相机自运动，广泛应用于高级驾驶员辅助系统、自动驾驶、智能车辆、机器人等领域。

现有的深度传感器都有其自身的局限性且难以满足工程应用的需求。LiDAR，基于结构光的深度传感器和立体相机，成本高且仅提供远距离物体的稀疏测量；基于结构光的深度传感器(例如Kinect)对光照敏感且耗电，在强光下会产生很多噪音，有效测量距离短；立体相机需要较大的基线和仔细校准以实现精确的三角测量，这需要大量的计算并且通常会在无特征区域失败。由上述内容可知，市场上现有的三维结构传感器都有其各自的局限性，或因成本太高而无法推广应用，或因传感器的构造原理而无法获得理想的深度视觉信息，因为从单视点图像去预测其表达出来的三维场景结构是一个病态和模糊问题，与成像过程相反，给定一张某场景的单目彩色图像，其存在很多个三维场景结构能来描述彩色图像中表达出来的布局，因此前单视点图像的深度估计任务远落后于多视点图像，单目图像深度估计存在艰难挑战。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种嵌入SENet单元的无监督单目图像深度图生成方法，提高了深度图像估计精度。

本发明的目的可以通过以下技术方案来实现：

一种嵌入SENet单元的无监督单目图像深度图生成方法，具体为：构建深度估计网络，将目标图像输入训练好的深度估计网络获得目标图像深度图；

所述的训练过程具体为：

采集包括若干视频帧集的训练集，构建相机位姿估计网络，将每个视频帧集中的参考帧I_a及I_a的相邻帧I_b输入相机位姿估计网络获得相机六自由度位姿变换关系P_ab，将I_a和I_b输入深度估计网络对应获得参考帧深度图D_a和相邻帧深度图D_b，所述的I_a根据P_ab通过形变获得合成帧I′_α，所述的D_a根据P_ab通过形变获得合成深度图所述的D_a根据P_ab通过投影和双线性插值生成相邻帧深度图D′_b，根据I_a、I_b、I′_α、/>和D′_b构建损失函数，利用损失函数训练深度估计网络。

进一步地，所述的损失函数L包括光度损失L_p、平滑损失L_s和几何一致性损失L_gc，计算公式为：

L＝L_p+αL_s+βL_gc

其中α、β是L_s在L中所占有的权重；

所述的L_p的计算公式为：

其中，V为从I_a成功投影到I_b的点集，p属于集合V，|V|为V的数量，λ_s为图像重投影相似权重，λ_i为图像结构相似性权重，I_α(p)为参考帧I_α上的点，I′_α(p)为根据P_ab通过形变获得合成帧I′_α上的点，SSIM_αα'(p)为I_a和I′_α的图像相似性损失。

所述的L_s的计算公式为：

其中，为沿空间方向的一阶导数；

所述的L_gc的计算公式为：

其中，D_diff(p)为深度不一致值，计算公式为：

其中，为D_a根据P_ab通过形变获得合成深度图/>上的点，D′_b(p)为D_a根据P_ab通过投影和双线性插值生成相邻帧深度图D′_b上的点。

进一步地，所述的深度估计网络包括编码器和解码器，所述的编码器包括7层编码卷积模块，所述的解码器包括7层解码卷积模块和7层与编码卷积模块跳跃连接的跳跃卷积模块，所述的7层解码卷积模块的输入通道依次为32、64、128、256、512、512和512，第1层跳跃卷积模块包括依次连接的卷积层、ReLU激活层、卷积层和ReLU激活层，第2～7层跳跃卷积模块中每层跳跃卷积模块包括残差卷积单元和SENet单元，所述的残差卷积单元的输出作为SENet单元的输入，所述的残差卷积单元的输入和输出以及SENet单元的输出相加作为第2～7层跳跃卷积模块中每块跳跃卷积模块的输出；

进一步地，第6层编码卷积模块和第1层跳跃卷积模块跳跃连接构成；第2层解码卷积模块的通道输入由第5层编码卷积模块和第2层跳跃卷积模块跳跃连接构成；第3层解码卷积模块的通道输入由第4层编码卷积模块和第3层跳跃卷积模块跳跃连接构成；第4层解码卷积模块的通道输入由第3层编码卷积模块和第4层跳跃卷积模块跳跃连接构成；第5层解码卷积模块的通道输入由第2层编码卷积模块和第5层跳跃卷积模块跳跃连接再加上该层输出深度图构成；第6层解码卷积模块的通道输入由第1层编码卷积模块和第6层跳跃卷积模块跳跃连接构成再加上该层输出深度图构成；第7层解码卷积模块的通道输入由第7层跳跃卷积模块再加上该层输出深度图构成，每层跳跃卷积模块的输出再经过Sigmoid激活层后输出6中不同尺度的深度图。

所述的SENet单元包括依次连接的全局池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层，所述的残差卷积单元包括依次连接的卷积层、批标准化层、ReLU激活层、卷积层和批标准化层。

进一步地，所述的相机位姿估计网络包括7层卷积模块，该7层卷积模块的输入通道数依次为16、32、64、128、256、256和256，每层卷积模块包括1层卷积层和1层ReLU激活层。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明建立了相机位姿估计网络，对深度估计网络进行无监督训练，训练过程只需要单目图像视频流，不需要采用成本高、获取复杂的真实深度图做回归，成本低，同时在深度估计网络中嵌入跳跃连接，实现了不同层间的深度信息传递和特征融合，避免了特征信息的缺失，第2～7层跳跃卷积模块中每块跳跃卷积模块包括残差卷积单元和SENet单元，残差卷积单元的输出作为SENet单元的输入，残差卷积单元的输入和输出以及SENet单元的输出相加作为第2～7层跳跃卷积模块中每块跳跃卷积模块的输出，SENet单元的通道注意力方法对输入先进行了全局平均池化，再通过训练学习得到了不同的一维激励权重来激活每一个通道，不同通道的不同权重能够能够根据该任务重要程度提升对当前任务贡献更大的特征的权重并降低对当前任务用处不大的特征的权重，能够自动获取特征的重要程度，使得深度估计网络输出的深度图精度更高；

(2)本发明采用光度损失、平滑损失和几何一致性损失组成损失函数，光度损失考虑了图像相似性SSIM损失，提高了处理如图像遮挡和运动物体这些异常值的鲁棒性，平滑损失可以保证边缘像素不连贯区域变化过大区域趋于平滑，而几何一致性损失能够有效利用多帧图像之间的一致性信息，比单帧估计所能利用的信息更多，整体保证了深度估计网络输出的深度图的梯度平滑性边缘分界更清晰，精度更高；

(3)本发明在第6层编码卷积模块和第1层跳跃卷积模块、第5层编码卷积模块和第2层跳跃卷积模块、第4层编码卷积模块和第3层跳跃卷积模块、第3层编码卷积模块和第4层跳跃卷积模块、第2层编码卷积模块和第5层跳跃卷积模块以及第1层编码卷积模块和第6层跳跃卷积模块之间跳跃连接构成，每层跳跃卷积模块的输出再经过卷积层、Sigmoid激活层后输出6中不同尺度的深度图，提高了的深度估计网络的训练精度。

附图说明

图1为深度估计网络的结构示意图；

图2为训练过程示意图；

图3为残差卷积单元结构示意图；

图4为SENet单元结构示意图；

图5为本发明的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一种嵌入SENet单元的无监督单目图像深度图生成方法，如图5，具体为：

选取KITTI的原始数据集作为训练集，KITTI包括若干视频帧集，将所有图像缩放至832×256像素大小；

构建相机位姿估计网络和深度估计网络；

如图2，训练过程具体为：将每个视频帧集中与参考帧I_a及I_a的相邻帧I_b输入相机位姿估计网络获得相机六自由度位姿变换关系P_ab，将I_a和I_b输入深度估计网络对应获得参考帧深度图D_a和相邻帧深度图D_b，I_a根据P_ab通过形变获得合成帧I′_α，D_a根据P_ab通过形变获得合成深度图D_a根据P_ab通过投影和双线性插值生成相邻帧深度图D′_b，根据I_a、I_b、I′_α、和D′_b构建损失函数，利用损失函数进行约束以训练深度估计网络；

将目标图像输入训练好的深度估计网络获得目标图像深度图。

损失函数L包括光度损失L_p、平滑损失L_s和几何一致性损失L_gc，计算公式为：

L＝L_p+αL_s+βL_gc

其中α、β是L_s在L中所占有的权重；

出于对异常值处理的鲁棒性，选择L₁损失来逐像素进行比较差异然后取绝对值，加入图像相似性SSIM损失，构建L_p，计算公式为：

其中，V为从I_a成功投影到I_b的点，|V|为V的数量，λ_s为图像重投影相似权重)，取0.85，λ_i为图像结构相似性权重，取0.15，I_α(p)为参考帧I_α上的点，I′_α(p)为根据P_ab通过形变获得合成帧I′_α上的点，SSIM_αα'(p)为I_a和I′_α的图像相似性损失。

L_s的计算公式为：

其中，为沿空间方向的一阶导数；

L_gc的计算公式为：

其中，D_diff(p)为深度不一致值，计算公式为：

如图1、图3和图4，深度估计网络包括编码器和解码器，编码器包括7层编码卷积模块，解码器包括7层解码卷积模块和7层跳跃连接的跳跃卷积模块，7层解码卷积模块的输入通道依次为32、64、128、256、512、512和512，第1层跳跃卷积模块包括依次连接的卷积层、ReLU激活层、卷积层和ReLU激活层，第2～7层跳跃卷积模块中每块跳跃卷积模块包括残差卷积单元和SENet单元，残差卷积单元的输出作为SENet单元的输入，残差卷积单元的输入和输出以及SENet单元的输出相加作为第2～7层跳跃卷积模块中每块跳跃卷积模块的输出；

第6层编码卷积模块和第1层跳跃卷积模块跳跃连接构成；第2层解码卷积模块的通道输入由第5层编码卷积模块和第2层跳跃卷积模块跳跃连接构成；第3层解码卷积模块的通道输入由第4层编码卷积模块和第3层跳跃卷积模块跳跃连接构成；第4层解码卷积模块的通道输入由第3层编码卷积模块和第4层跳跃卷积模块跳跃连接构成；第5层解码卷积模块的通道输入由第2层编码卷积模块和第5层跳跃卷积模块跳跃连接再加上该层输出深度图构成；第6层解码卷积模块的通道输入由第1层编码卷积模块和第6层跳跃卷积模块跳跃连接再加上该层输出深度图构成；第7层解码卷积模块的通道输入由第7层跳跃卷积模块再加上该层输出深度图构成，每层跳跃卷积模块的输出再经过Sigmoid激活层后输出6种不同尺度的预测深度图。

SENet单元包括依次连接的全局池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层，残差卷积单元包括依次连接的卷积层、批标准化层、ReLU激活层、卷积层和批标准化层。

相机位姿估计网络包括7层卷积模块，该7层卷积模块的输入通道数依次为16、32、64、128、256、256和256，每层卷积模块包括1层卷积层和1层ReLU激活层，最后1层卷积模块经过1层卷积层后输出相机六自由度位姿，根据参考帧和相邻帧各自的相机六自由度位姿获得相机六自由度位姿变换关系。

设定一次迭代过程的大小为1000张图片，一次迭代所用的样本大小为8，选取学习率大小为0.0001，利用ADAM优化器，迭代200次，采用Eigen划分数据集的方式，对测试集中的图片进行预测，对于生成的深度数据结果的评估，使用绝对相关误差Abs_rel、平方相关误差Sq_rel、均方根误差rmse、rmse_log和深度阈值δ作为评价指标，表1为本实施例的评估结果：

表1评价结果

表1表明了本实施例获取的KITTI数据集交通场景图对应的深度图效果好。

本实施例提出了一种嵌入SENet单元的无监督单目图像深度图生成方法，能够自动获取特征的重要程度，根据该重要程度提升对当前任务贡献更大的特征的权重并降低对当前任务用处不大的特征的权重，精度更高。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种嵌入SENet单元的无监督单目图像深度图生成方法，具体为：构建深度估计网络，将目标图像输入训练好的深度估计网络获得目标图像深度图；

所述的训练过程采用相机位姿估计步骤；

其特征在于，所述的深度估计网络包括编码器和解码器，所述的编码器包括7层编码卷积模块，所述的解码器包括交叉设置的7层解码卷积模块和7层与编码卷积模块跳跃连接的跳跃卷积模块，第1层跳跃卷积模块包括依次连接的卷积层、ReLU激活层、卷积层和ReLU激活层，第2～7层跳跃卷积模块中每层跳跃卷积模块包括残差卷积单元和SENet单元，所述的残差卷积单元的输出作为SENet单元的输入，所述的残差卷积单元的输入和输出以及SENet单元的输出相加作为第2～7层跳跃卷积模块中每块跳跃卷积模块的输出；

所述的相机位姿估计步骤具体为：

采集包括若干视频帧集的训练集，构建相机位姿估计网络，将每个视频帧集中参考帧I_a及I_a的相邻帧I_b输入相机位姿估计网络获得相机六自由度位姿变换关系P_ab，将I_a和I_b输入深度估计网络对应获得参考帧深度图D_a和相邻帧深度图D_b，所述的I_a根据P_ab通过形变获得合成帧I'_α，所述的D_a根据P_ab通过形变获得合成深度图所述的D_a根据P_ab通过投影和双线性插值生成相邻帧深度图D'_b，根据I_a、I_b、I′_α、/>和D'_b构建损失函数，利用损失函数训练深度估计网络；

所述的损失函数L包括光度损失L_p、平滑损失L_s和几何一致性损失L_gc，计算公式为：

L＝L_p+αL_s+βL_gc

其中α、β是L_s在L中所占有的权重；

所述的L_p的计算公式为：

其中，V为从I_a成功投影到I_b的点集，p属于集合V，|V|为V的数量，λ_s为图像重投影相似权重，λ_i为图像结构相似性权重，I_α(p)为参考帧I_α上的点，I'_α(p)为根据P_ab通过形变获得合成帧I'_α上的点，SSIM_αα'(p)为I_a和I'_α的图像相似性损失；

所述的L_s的计算公式为：

其中，为沿空间方向的一阶导数；

所述的L_gc的计算公式为：

其中，D_diff(p)为深度不一致值，计算公式为：

其中，为D_a根据P_ab通过形变获得D_b ^a上的点，D'_b(p)为D_a根据P_ab通过投影和双线性插值生成D'_b上的点。

2.根据权利要求1所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，第6层编码卷积模块和第1层跳跃卷积模块跳跃连接构成；第2层解码卷积模块的通道输入由第5层编码卷积模块和第2层跳跃卷积模块跳跃连接构成；第3层解码卷积模块的通道输入由第4层编码卷积模块和第3层跳跃卷积模块跳跃连接构成；第4层解码卷积模块的通道输入由第3层编码卷积模块和第4层跳跃卷积模块跳跃连接构成；第5层解码卷积模块的通道输入由第2层编码卷积模块和第5层跳跃卷积模块跳跃连接再加上该层输出深度图构成；第6层解码卷积模块的通道输入由第1层编码卷积模块和第6层跳跃卷积模块跳跃连接再加上该层输出深度图构成；第7层解码卷积模块的通道输入由第7层跳跃卷积模块再加上该层输出深度图构成，第2～7层分别通过Sigmoid激活层输入6中不同尺度的深度图。

3.根据权利要求1所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，所述的SENet单元包括依次连接的全局池化层、全连接层、ReLU激活层、全连接层和Sigmoid激活层。

4.根据权利要求1所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，所述的7层解码卷积模块的输入通道依次为32、64、128、256、512、512和512。

5.根据权利要求1所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，所述的残差卷积单元包括依次连接的卷积层、批标准化层、ReLU激活层、卷积层和批标准化层。

6.根据权利要求1所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，所述的相机位姿估计网络包括7层卷积模块，该7层卷积模块的输入通道数依次为16、32、64、128、256、256和256。

7.根据权利要求6所述的一种嵌入SENet单元的无监督单目图像深度图生成方法，其特征在于，每层卷积模块包括1层卷积层和1层ReLU激活层。