CN111739082B

CN111739082B - 一种基于卷积神经网络的立体视觉无监督深度估计方法

Info

Publication number: CN111739082B
Application number: CN202010541511.XA
Authority: CN
Inventors: 叶昕辰; 吕佳龙; 徐睿; 樊鑫
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2022-11-18
Anticipated expiration: 2040-06-15
Also published as: CN111739082A

Abstract

本发明公开了一种基于卷积神经网络的立体视觉无监督深度估计方法，属于图像处理和计算机视觉领域。本发明旨在克服现有技术的不足，提供了一种新的无监督深度估计方法，设计了一个基于卷积神经网络进行高质量深度估计的框架，该框架包括立体视觉编码器‑解码器主干网络和判别器网络，并引入双重注意力机制有效获取特征，构建深度感知损失函数训练框架，以获得高质量的深度信息。系统容易构建；程序框架易于实现，算法运行速度快。本方法利用无监督方法来估计深度信息，避免了有监督方法中真实数据难以获取的问题。

Description

一种基于卷积神经网络的立体视觉无监督深度估计方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种基于卷积神经网络的立体视觉无监督深度估计方法。

背景技术

深度估计在计算机视觉领域已经成为了一项重要课题，是大量实际应用中的基础问题，例如，增强现实，物体检测等应用。随着深度学习的快速发展，许多方法已经利用卷积神经网络来估计深度图。到目前为止，使用深度卷积神经网络进行深度估计的方法主要分为两类情况：有监督方法和无监督方法。尽管有监督学习方法在深度预测方面已经取得了不错的成果，但是这些方法往往需要大量的真实深度数据，这些数据难以被深度感知设备获取。与之相对，无监督方法不需要任何深度数据，并在训练中利用立体视觉数据及对极几何约束关系，将深度估计问题转化为图像重建问题来训练网络，指导网络参数更新。基于上述，本发明设计了一个基于卷积神经网络的无监督学习框架，以立体视觉(双视点)数据为训练数据，完成高质量场景深度图的预测。

发明内容

本发明旨在克服现有技术的不足，提供了一种新的无监督深度估计方法，设计了一个基于卷积神经网络进行高质量深度估计的框架，该框架包括立体视觉编码器-解码器主干网络和判别器网络，并于编码器-解码器主干网络中引入双重注意力机制有效获取特征。构建深度感知损失函数训练框架，以获得高质量的深度信息。本发明采用卷积神经网络对深度估计任务进行建模，在不需要任何真实深度数据作为监督的情况下，利用立体视觉图像作为输入，采用无监督的形式即可得到高质量深度图，

本发明的具体技术方案为，一种基于卷积神经网络的立体视觉无监督深度估计方法，包括如下步骤：

1)准备初始数据：初始数据包括用来训练的校正双视点图片对，以及用来测试的左视点图片；

2)编码器-解码器主干网络的搭建：

对编码器-解码器主干网络进行训练，对空间尺寸相同的编码器层和解码器层之间加入跳跃连接，加强特征表示；将双重注意力机制加入到编码器-解码器主干网络；此双重注意力机制包括空间注意力模块和通道注意力模块，其中空间注意力模块用于捕获深度图局部特征的非局部相关性，通道注意力模块用于考虑通道维度上的特征相关性，两个注意力模块合并称为双重注意力机制；按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端；编码器-解码器主干网络的输入为左视点图片，输出为左右双视点图片的深度图，利用扭转函数(Warping)通过深度图和原彩色图得到合成的左右双视点彩色图，构建深度感知损失函数；以改善由左右视点图像视差产生的边缘，遮挡和平滑区域难以产生高质量深度估计结果的问题。

3)判别器网络的搭建：

将步骤2)搭建的编码器-解码器主干网络视作生成器网络，则在生成器末端加入一个判别器网络，判别器网络具有5个3×3的卷积层，下采样率为2，每次卷积后都进行批标准化(batch normalization,BN)操作；判别器网络的输入为步骤2)中得到的合成左右双视点彩色图，利用对抗损失函数区分它们和真实的原彩色图，生成器网络学习合成图和真视图之间的特征映射；让合成图更像真实图，增强主干网络合成彩色图的能力从而间接提高深度估计的质量。

4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练，监督方式采用构建的损失函数逐步迭代优化网络参数；当训练完毕，利用训练好的模型在测试集上进行测试，得到相应输入图片的输出结果。

进一步地，上述双重注意力机制的构建，具体包括以下步骤：

2-1)编码器网络得到的特征图

作为双重注意力机制的输入，其中H、W、C分别代表高度、宽度、通道数，双重注意力机制将A变形为

其中N＝H×W，然后对B和B的转置矩阵做乘法运算，结果经过softmax激活函数得到通道注意力图

即S₁＝softmax(B^TB)；对S₁和B做矩阵乘法并变形为

最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出A_a；

将A_a作为空间注意力机制的输入，空间注意力机制除了softmax激活函数得到空间注意力图

即S₂＝softmax(BB^T)不同外，其他步骤与通道注意力机制相同，最终得到与原特征图高度、宽度、通道数相同的新特征图，将新特征图送入解码器结构，解码器输出深度图；经实验证明，此注意力机制加在编码器-解码器主干网络的编码器末端效果提升明显，若加入到其他位置很难提升效果且会显著增加网络参数量。

进一步地，步骤4)中构建深度感知损失函数和判别器的对抗损失函数用以训练网络，具体包括以下步骤：

3-1)修正光度损失函数L_p；首先将训练数据的左图I_l送入到带有双重注意力模块的编码器-译码器网络中，分别得到预测的左右视差图，在已知相机参数的情况下直接得到深度图d_l、d_r，利用真实的左右图I_l、I_r和预测的左右深度图d_l、d_r通过扭曲函数(Warping)得到合成的左右图

现有的光度损失函数无法解决遮挡区域带来的问题，因此在此基础上进行设计，解决遮挡问题。修正的光度损失函数为

其中，°表示逐像素相乘，N表示每次训练的图片数量，M_*＝1-M，M定义为：

其中

为指示函数，ξ的定义如下，η₁和η₂是参数；

3-2)空间平滑损失函数L_s；通常，深度图主要由平滑区域和跳跃部分(深度边缘)组成。自然场景下深度图的梯度往往服从重尾分布，因而可以使用总变差(totalvariation,TV)作为一个保边正则项来建模。然而，由于TV往往不能很好地诱导梯度的稀疏性，从而导致输出的图像在平滑区域有阶梯伪影。因此，本发明提出使用广义总变差(totalgeneralized variation,TGV)来更好地刻画深度图的分布特征，得到公式：

其中，

中的i表示图片序列中的第i张，

中的i同理。

和

分别为坐标系x和y方向的二阶梯度；

3-3)左右一致性损失函数L_d，以减小视点间由于遮挡带来的误差，确保图片的一致性，公式如下：

其中，

是左扭曲视差图，可通过在生成的左视差图上应用扭曲函数获得，上标i表示图片序列的第i张；

3-4)判别器在判别真实图片与合成图片时用到了对抗损失函数，将主干网络视为生成器，其最后生成的合成图片与真实的输入图片一同送进判别器中；对抗损失函数公式如下：

其中p(*)表示数据*的概率分布，

表示期望，

表示判别器，这种对抗性损失促使生成器学习从合成数据到真实数据的映射，从而使合成图像与真实图像相似；

3-5)整体网络结构的损失函数定义如下：

其中上标l代表左视点图片，上标r代表右视点图片，α₄是权重系数，L_D表示深度感知损失函数，公式如下：

α₁,α₂,α₃是权重系数。

本发明的有益效果是：

本发明基于卷积神经网络，在无监督方法的基础上，提出一种双重注意力机制，用于筛选有意义的图像特征，并根据场景的几何特征设计了一个深度感知损失函数，用来描述深度图的本质特征。最后加入判别损失函数用于得到更高质量的深度图。该发明具有以下特点：

1、系统容易构建；程序框架易于实现，算法运行速度快。

2、本方法利用无监督方法来估计深度信息，避免了有监督方法中真实数据难以获取的问题。

3、本方法提出了一种深度感知损失函数，用于识别亮度恒定假设时的遮挡区域，以适应深度图像特征。

4、本方法采用双重注意力机制模块来捕捉空间和通道维度中的特征相关性，以便更好地理解场景。

附图说明

图1是本发明提出的卷积神经网络结构图，其中Warping为扭转函数。

图2是双重注意力机制结构图，其中Softmax为激活函数。

图3是本发明的实验结果图。a)输入的彩色图像b)真实深度图c)-h)其他无监督方法产生的深度图i)本发明深度图(U-net)j)本发明深度图(Resnet)。

具体实施方式

本发明提出了一种基于卷积神经网络的立体视觉无监督深度估计方法，结合附图及实施例详细说明如下：

所述方法包括下列步骤；

1)准备初始数据：初始数据包括用来训练的已校正的左右双视点彩色图片对，以及用来测试的左视点彩色图片；

1-1)使用公开数据集，KITTI数据集(David Eigen,Christian Puhrsch,and RobFergus,“Depth map prediction from a single image using a multi-scale deepnetwork,”in NIPS,2014,pp.2366–2374.)训练、评估该发明。该数据集包含22600对训练双视点图片和697个测试图片。

2)编码器-解码器主干网络的搭建：

2-1)编码器-解码器主干网络可以使用任意主流的编码器-解码器网络结构，为获得更好的结果，本方法借鉴使用率较高的U-net结构(Hyeonwoo Noh,Seunghoon Hong,andBohyung Han,“Learning deconvolution network for semantic segmentation,”inIEEE CVPR,2015,pp.1520–1528.)或Resnet结构(He K,Zhang X,Ren S,et al.DeepResidual Learning for Image Recognition[C]//2016 IEEE Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2016.)，作为编码器-解码器主干网络进行训练，对空间尺寸相同的编码器层和解码器层之间加入跳跃连接，加强特征表示。将双重注意力机制加入到编码器-解码器主干网络。此双重注意力机制包括空间注意力模块和通道注意力模块，其中空间注意力模块用于捕获深度图局部特征的非局部相关性，通道注意力模块用来考虑通道维度上的特征相关性，按通道注意力机制，空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端。编码器-解码器主干网络的输入为左视点图片，输出为左右双视点图片的深度图，利用扭转函数(Warping)通过深度图和原彩色图得到合成的左右双视点彩色图，构建深度感知损失函数改善由左右视点图像视差产生的边缘，遮挡和平滑区域难以产生高质量深度估计结果的问题。网络结构如图1所示。

2-2)双重注意力机制如图2所示，编码器网络得到的特征图

作为双重注意力机制的输入，其中H,W,C分别代表高度，宽度，通道数，双重注意力机制将A变形为

其中N＝H×W，然后对B和B的转置矩阵做乘法运算，结果经过softmax激活函数可以得到或通道注意力图

即S₁＝softmax(B^TB)。接下来，对S₁和B做矩阵乘法并变形为

最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出A_a。同理将A_a作为空间注意力机制的输入，空间注意力机制除softmax激活函数得到空间注意力图

即S₂＝softmax(BB^T)不同外，其他步骤相同，最终得到与原特征图高度、宽度、通道数相同的新特征图，将新特征图送入解码器结构，解码器输出深度图。经实验证明，此注意力机制加在编码器-解码器主干网络的编码器末端效果提升明显，若加入到其他位置很难提升效果且会显著增加网络参数量。

3)判别器网络的搭建：

将步骤2)搭建的编码器-解码器主干网络视作生成器网络，则在生成器末端可以加入一个判别器网络，判别器网络具有5个3×3的卷积层，下采样率为2，每次卷积后都有批标准化(batch normalization,BN)操作。判别器网络的输入为步骤2)中得到的合成左右双视点彩色图，利用对抗损失函数区分它们和真实的原彩色图，使得生成器网络学习合成图和真视图之间的特征映射，让合成图更像真实图，增强主干网络合成彩色图的能力从而间接提高深度估计的质量。

4)基于步骤2)、步骤3)得到的卷积神经网络进行训练。

对于训练，批大小设置为8并使用β₁＝0.9，β₂＝0.999的Adam优化方法进行优化，初始学习率设为10^-6。权重因子α₁、α₂、α₃、α₄分别设置为0.85、0.1、1和0.1。η₁和η₂分别设为0.01和0.5。当训练完毕，即可以利用训练好的模型在测试集上进行测试，得到相应输入图片的输出结果。

5)深度感知损失函数公式和判别器的对抗损失函数公式：

本发明为解决普通无监督损失函数在边缘，遮挡和平滑区域难以产生高质量估计结果的问题，构建深度感知损失函数和判别器的对抗损失函数用以训练网络。本节5-1)、5-2)、5-3)的三个损失函数构成深度感知损失函数，5-4)说明对抗损失函数。所有损失函数以左图的损失函数构建作为示例，右图和左图为对称关系，损失函数构建方式与左图一样。

5-1)设计修正的光度损失函数L_p。由图1所示的网络结构流程可知，首先将训练数据的左图I_l送入到带有双重注意力模块的编码器-译码器网络中，分别得到预测的左右视差图，在已知相机参数的情况下可以直接得到深度图d_l、d_r，利用真实的左右图I_r、I_l和预测的左右深度图d_l、d_r通过扭曲函数(Warping)来得到合成的左右图

现有的光度损失函数无法解决遮挡区域带来的问题，因此我们在此基础上进行设计，解决遮挡问题。修正的光度损失函数为

其中

为指示函数，ξ的定义如下，η₁和η₂是参数。

5-2)设计空间平滑损失函数L_s。通常，深度图主要由平滑区域和跳跃部分(深度边缘)组成。自然场景下深度图的梯度往往服从重尾分布，因而可以使用总变差(totalvariation,TV)作为一个保边正则项来建模。然而，由于TV往往不能很好地诱导梯度的稀疏性，从而导致输出的图像在平滑区域有阶梯伪影。因此，本发明提出使用广义总变差(totalgeneralized variation,TGV)来更好地刻画深度图的分布特征，得到公式：

其中，

中的i表示图片序列中的第i张，

中的i同理。

和

分别为坐标系x和y方向的二阶梯度。

5-3)设计左右一致性损失函数L_d，以减小视点间由于遮挡带来的误差，确保图片的一致性，公式如下：

其中，

是左扭曲视差图，可通过在生成的左视差图上应用扭曲函数获得，上标i表示图片序列的第i张。

5-4)判别器在判别真实图片与合成图片时用到了对抗损失函数，我们将主干网络视为生成器，对抗损失函数公式如下：

其中p(*)表示数据*的概率分布，

表示期望，

表示判别器，这种对抗性损失促使生成器学习从合成数据到真实数据的映射，从而使合成图像与真实图像相似。

5-5)综上所示，整体网络结构的损失函数定义如下：

α₁,α₂,α₃是权重系数。

本实施的最终结果如图3所示，其中(a)为输入的彩色图像，(b)真实深度图，(c)-(h)为其他无监督方法产生的深度图，(i)为使用U-net的本方法产生的深度图，(j)为使用Resnet的本方法产生的深度图。通过深度图的对比，可以发现本方法在无监督方式下达到了最好的效果。

Claims

1.一种基于卷积神经网络的立体视觉无监督深度估计方法，其特征在于，所述方法包括下列步骤；

2)编码器-解码器主干网络的搭建：

对编码器-解码器主干网络进行训练，对空间尺寸相同的编码器层和解码器层之间加入跳跃连接，加强特征表示；将双重注意力机制加入到编码器-解码器主干网络；此双重注意力机制包括空间注意力模块和通道注意力模块，其中空间注意力模块用于捕获深度图局部特征的非局部相关性，通道注意力模块用于考虑通道维度上的特征相关性，两个注意力模块合并称为双重注意力机制；按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端；编码器-解码器主干网络的输入为左视点图片，输出为左右双视点图片的深度图，利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图，构建深度感知损失函数；

3)判别器网络的搭建：

将步骤2)搭建的编码器-解码器主干网络视作生成器网络，则在生成器末端加入一个判别器网络，判别器网络具有5个3×3的卷积层，下采样率为2，每次卷积后都进行批标准化操作；判别器网络的输入为步骤2)中得到的合成左右双视点彩色图，利用对抗损失函数区分它们和真实的原彩色图，生成器网络学习合成图和真视图之间的特征映射；

2.如权利要求1所述的基于卷积神经网络的立体视觉无监督深度估计方法，其特征在于，双重注意力机制的构建，具体包括以下步骤：

2-1)编码器网络得到的特征图