CN110992414A

CN110992414A - 一种基于卷积神经网络的室内单目场景深度估计的方法

Info

Publication number: CN110992414A
Application number: CN201911073281.2A
Authority: CN
Inventors: 梁煜; 张金铭; 张为
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-04-10
Anticipated expiration: 2039-11-05
Also published as: CN110992414B

Abstract

本发明涉及一种基于卷积神经网络的室内场景深度估计的方法，包括下列步骤：第一步，构建带有标注和标签的图片数据库；第二步，训练一个深度卷积神经网络：利用所得的数据集，利用全卷积通道注意力网络(Full Convolutional Squeeze‑and‑Excitation Net)和全卷积残差网络的基本原理，设计一种网络结构，采用编码器解码器架构，将改进的注意力模块放入编码器中，将改进的上采样模块放入解码器中，从而得到最佳的精度；第三步，使用L1损失函数对网络模型进行优化；第四步，图像深度估计。

Description

一种基于卷积神经网络的室内单目场景深度估计的方法

技术领域

本发明属于深度估计领域，涉及一种利用深度卷积神经网络的室内单目场景深度估计的方法。

背景技术

在计算机视觉领域中，深度估计有着重要的研究意义。早期的工作重点是通过开发几何约束的算法，从立体图像中估计深度，这些算法依靠图像和三角测量之间的点的对应关系来估计深度。在单视图情况下，大多数方法依赖于运动或不同的拍摄条件(不同的拍摄角度等)。尽管缺乏几何约束这类信息会导致深度图产生一定的模糊度，但受人类单眼对深度感知的类比启发，对单个RGB图像的深度图预测也进行了研究。

在某些深度不可知的情况下深度估计十分必要。比如着火点距离的测量：如果当某一场地发生火灾时，监控人员没有发现火点或者消防人员不能及时赶到的时候，就十分需要能够得到着火点距离的信息，然后直接控制消防栓等其他灭火工具进行灭火。而且火灾是无法控制的，早期的小火苗十分容易熄灭，但如果无人发现，过了一段时间可能就会引发火灾，使人们的财产收到十分严重的损失。虽然比较成熟的测距技术，比如，红外测距、双目测距等等。这些方法的弊端由：红外测距仍需要人来进行测，在这样的情况下，着火点测距没有实际意义，而且红外测距仪价格十分昂贵；双目测距是利用双目摄像头，但现在大部分公共场所等架设的都是普通摄像头，而非双目摄像头，双目测距暂时不能普及到很多场所。另外同户外场景相比，室内场景通常缺少显著的局部或全局视觉特征，但是深度估计标签又具有信息密度大，细节繁杂等问题，因此，单目室内场景的深度估计具有十分重要的意义。

目前已有的一些单目图像深度估计方法往往采用大量的卷积和池化操作，在不断下采样的过程中丢失了大量的细节信息，深度估计后的效果难以达到使用标准，导致深度图像过于平滑且不清晰，估计精度不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度卷积网络的但墓室内场景深度估计的方法，以增强深度图像清晰度，提高图像深度估计的精确度。技术方案如下：

一种基于卷积神经网络的室内场景深度估计的方法，包括下列步骤：

第一步，构建带有标注和标签的图片数据库：挑选室内场景的图片，并对其进行标注，构建符合格式要求、匹配网络结构的数据集。

第二步，训练一个深度卷积神经网络：利用所得的数据集，利用全卷积通道注意力网络(Full Convolutional Squeeze-and-Excitation Net)和全卷积残差网络的基本原理，设计一种网络结构，采用编码器解码器架构，将改进的注意力模块放入编码器中，将改进的上采样模块放入解码器中，从而得到最佳的精度；方法如下：

(1)训练编码器时，编码器由卷积层和FCSE1，FCSE2，FCSE3和FCSE4四个块构成，结构设计为下采样卷积层1，由2个注意力模块叠加形成的FCSE1，下采样卷积层2，由3个注意力模块叠加形成的FCSE2，下采样卷积层3，由4个注意力模块叠加形成的FCSE3，下采样卷积层4，由1个注意力模块叠加形成的FCSE4。首先对注意力通道网络进行修改，修改后的四个FCSE块用来提取图像特征，用卷积层代替其中的全连接层，实现段对端的训练。卷积层中卷积核的尺寸是3×3、步长为1；

(2)训练解码器时，解码器主要由上采样模块构成，包含上采样模块1、上采样模块2、上采样模块3、上采样模块4，将编码器提取的特征信息映射成深度信息。上采样模块1有两个连续的卷积层用于残差计算，特征信道变为原来的一倍，上采样模块2以因数4进行上采样，有四个连续的卷积层用于残差计算，将特征图的长和宽增加4倍，特征信道变为原来的四分之一，上采样模块3、上采样模块4同理。

第三步，使用L₁损失函数对网络模型进行优化，采用L₁损失函数，训练网络的特征选择的能力而且网络更容易收敛，将编码器和解码器组合为一个端到端的卷积神经网络，从而构成一个深度估计模型；

第四步，图像深度估计。

本发明利用深度卷积神经网络的算法，设计一种基于室内场景单目图像的深度估计方法。该方法以室内场景为研究对象，使用由全卷积通道注意力网络(FullConvolutional Squeeze-and-Excitation Net)构成的注意力模块作为编码器；将全卷积残差网络构成的上采样模块作为解码器，利用编码器解码器的结构进行组合，构成最终的网络模型。与现有技术比，注意力模块利用的是卷积间的信道信息，不会丢失大量细节信息；上采样模块采用跳层链接的方式充分恢复了由编码器特区到的深度信息，使得的效果有较大的提升。

附图说明

图1单目室内场景深度估计网络结构图

图2注意力模块结构图

图3上采样模块结构图

图4估计得到的深度图像与真是深度图像的对比如图

图5使用图像增强后的识别结果

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述.。本发明按以下步骤具体实现：

(1)网络结构

本发明所提出的网络结构，采用端到端的学习方式，该框架学习从彩色图像到相应深度图像的直接映射，采用编码器-解码器结构的网络框架，编码器部分采用9个注意力模块和卷积层1以及下采样卷积层1、2、3、4，解码器部分采用4个上采样模块。卷积层1包含一个尺寸为7×7、步长为2的卷积核，一个3×3的最大池化，一个激活层。下采样卷积层1、2、3、4和卷积层2中的是3×3、步长为1的卷积核，同时卷积层2又包含一个激活层。首先将输入图像送入一个卷积层，和一个最大池化层，特征图尺寸变为76*57*64。将下采样模块的结构设计为下采样卷积层1，由2个注意力模块叠加形成的FCSE1，下采样卷积层2，由3个注意力模块叠加形成的FCSE2，下采样卷积层3，由4个注意力模块叠加形成的FCSE3，下采样卷积层4，由1个注意力模块叠加形成的FCSE4。本发明所提出的深度模型中，所有的卷积层之后均连接着批量正则化层，文中为了简化而忽略。

(2)构建编码器模块

所述构建的编码器模块包括：

当对注意力模块输入X时，先对X进行一个池化操作，再进行卷积操作F_tr，得到矩阵U，U＝F_tr(X)，其中X∈R^{H’×W’×C’}，U∈R^H×W×C，U的矩阵形式可表示为U＝[u₁,u₂,...,u_C]，则有u_C＝v_C*X，其中v_C指的是第C个卷积核的参数。通过获取全局信息来提高网络模型对信息特征的敏感性，以便以最有效的方式通过后续的矩阵转换。这个过程分为两步：压缩(Squeeze)和激励(Excitation)。为了解决信道依赖性，本发明应用压缩全局信息为一个信道描述符，通过全局平均池化即可实现。通过压缩操作F_sq压缩矩阵U的空间尺寸(H×W)，生成一个参量z∈R^C，故z的第C个元素可用以下公式计算：

采用第二个步骤激励操作F_ex，以便利用压缩后的信息，这一操作目的是获取全部的信道依赖关系。要想实现这一目标，本发明选用的函数必须具备两个特性：灵活性和学习非互斥的能力，因为必须确保多个信道均被强化。为了满足这些要求，本发明在此选用一个简单的门函数以实现激励过程：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂*δ(W₁*z))

其中，δ是激活函数，

W是权重。为了实现端到端的特征学习，在激活函数的上下两个步骤选用卷积网络，通过一个具有权重参数W₁和缩减率r的维度缩减层，再通过一个激活层和一个具有权重参数W₂，递增率为r的尺寸递增层。通过缩放函数计算得到最终输出Y。

(3)编码器模块

当卷积网络应用于深度估计时，特征图像一定会通过上采样操作，如果仅使用简单的上采样模块，如：双线性插值，又会丢失很多信息。为了改善这一情况，卷积神经网络的深度是至关重要的。而残差网络通过引入跳层连接，解决了这一问题。深度残差网络不是直接地学习一些堆积层的底层映射，而是学习残差映射，这样原始映射可以通过具有“跳层连接”的前馈神经网络实现。另外，为了实现数据端对端的传输，接收任意尺寸的特征图像，以及提高深度估计的精度，故将全卷积网络与残差网络的跳层有机结合，用卷积层代替全连接层，在加深网络的同时，减少网络模型运行的时间，实现端到端的学习方式。因此本发明使用全卷积残差网络构成上采样模块，恢复特征图的信息。

从上采样模块1开始，就是本发明网络的解码器部分。除了最后的卷积层2，尺寸为3×3，其他所有在解码器中的都是残差层。前四层上采样模块1,上采样模块2,上采样模块3,上采样模块4中，第一层上采样模块1对特征图以因数2进行上采样，将特征图的长和宽增加2倍。在解码器中，上采样模块1有两个连续的卷积层用于残差计算，特征信道变为原来的一倍。上采样模块2以因数4进行上采样，有四个连续的卷积层用于残差计算，将特征图的长和宽增加4倍，特征信道变为原来的四分之一，上采样模块3、上采样模块4同理。定义为：

Y₁＝F(X₁,{W_i})+W_s1X₁

X₁，Y₁分别是模块上采样模块1的输入和输出，由于X₁，Y₁信道数不同，所以采用W_s1X₁与Y₁信道数相同，函数F(X₁,{W_i})是学习网络的残差映射函数，线性投射W_s1用于匹配X₁和F的尺寸。上采样模块2、上采样模块3、上采样模块4有四个连续的卷积层用于残差计算，定义为：

Y₂＝G(X₂,{W_j})+W_s2X₂

X₂，Y₂分别是模块上采样模块2、上采样模块3、上采样模块4的输入和输出，由于X₂，Y₂信道数不同，所以采用W_s2X₂与Y₂信道数相同，函数G(X₂,{W_j})是学习网络的残差映射函数，线性投射W_s2用于匹配X₂和G的尺寸

(4)训练深度卷积神经网络

首先将采集到的室内图像级对应的深度图像进行图像增强处理，增加网络训练样本的数量。然后将采集的室内图像及对应的深度图像、增强处理后的室内外图像以及对应的深度图像转换为统一分辨率，作为训练样本输入到网络中，进行训练。

(5)图像深度估计

本发明基于深度卷积网络的但墓室内图像深度估计方法，通过构建注意力模块和上采样模块并置于编码器解码器中，FCSE块用于提取卷积特征的信道信息，比只采用下采样的方法提取到的特征信息更多；上采样模块采用跳层链接，室每层网络能感知更多像素信息。本发明充分利用了每一层的特征图，包含了高低不同等级的特征，从而实现训练出更精确的图像深度，且该方法得到的图像轮廓更加清晰，在一定程度上解决了现有单目深度估计方法生成的结果存在的过于平滑且不清晰的现象，获得了更为清晰的深度图像，从而提高图像深度估计的精确度。

Claims

1.一种基于卷积神经网络的室内场景深度估计的方法，包括下列步骤：

第二步，训练一个深度卷积神经网络：利用所得的数据集，利用全卷积通道注意力网络(Full Convolutional Squeeze-and-ExcitationNet)和全卷积残差网络的基本原理，设计一种网络结构，采用编码器解码器架构，将改进的注意力模块放入编码器中，将改进的上采样模块放入解码器中，从而得到最佳的精度；方法如下：

第四步，图像深度估计。