CN110246171A

CN110246171A - 一种实时单目视频深度估计方法

Info

Publication number: CN110246171A
Application number: CN201910498111.2A
Authority: CN
Inventors: 李映; 张号逵; 李静玉
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-09-17
Anticipated expiration: 2039-06-10
Also published as: CN110246171B

Abstract

本发明涉及一种实时单目视频深度估计方法，结合二维卷积神经网络2D‑CNN和卷积的长短时记忆网络，构建出能够同时利用空间及时序信息对单目视频数据进行实时深度估计的模型。同时利用生成对抗网络GAN来对估计得到的结果进行约束。评估精度上，与当前state‑of‑the‑art模型可比。使用开销上，模型运行速度更快，模型参数量更少，需要的计算资源更少。且本模型估计得到的结果具有很好的时间一致性，在对连续多帧进行深度估计时，得到的深度结果图变化情况与输入的RGB图变化情况一致，不会出现突变，抖动。

Description

一种实时单目视频深度估计方法

技术领域

本发明涉及一种实时地对单目视频里边每一帧的每一个像素进行深度估计的方法，属于视频处理及三维重建领域。

背景技术

深度估计，以RGB图像为输入数据，估计图像中每一个像素位置距离摄像位置的距离。根据处理的对象是多个相机对同一场景采集图像还是单目相机采集的图像可以分为，多目深度估计和单目深度估计。其中，单目深度估计更有挑战性，适用的范围也更加广泛。单目深度估计可以应用于三维建模、场景理解及深度感知等领域。

近年来，得益于深度学习技术的发展及可获取的深度估计的标注数据的增多，单目深度估计也取得了非常大的进展。但是，目前主流的单目深度估计方法都集中在单张图像的深度估计上，且通常采用的模型都是非常庞大的模型。例如当前state-of-the-art的模型，DORN，包含了150多层卷积层。使用该模型需要大量的计算资源，且速度较慢。这些问题都限制着深度估计在某些问题上的实用化。例如在自动驾驶方面，实时的进行深度估计非常重要，且驾驶过程中，提供给模型的输入数据时连续的视频数据。

因此，设计一种能够捕捉并利用时间信息，实时地对单目视频进行处理的算法是一项非常具有挑战性，但是又非常具有实用性的任务。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明结合深度学习技术，设计一种能够捕捉利用时序信息，并实时地对单目视频进行深度估计，且保持估计的深度图具有时间一致性的算法。

技术方案

一种实时单目视频深度估计方法，其特征在于步骤如下：

步骤1：数据预处理

数据预处理包括RGB视频标准化、深度图归一化和样本提取：1)以降采样的形式从RGB视频中提取多帧，统计该数据库的均值和方差，利用统计得到的均值方差对数据库中的RGB视频每一帧进行标准化操作；2)根据标注的深度视频数据的有效距离，对深度视频数据每一帧进行归一化；大于有效距离的部分舍弃掉，深度的最小值设为0；3)从标准化的RGB视频中，无重叠的提取连续多帧组成小的视频段，每一个视频段就是一个输入样本，该视频段对应的深度图构成的深度视频段就是样本对应的标签，一个输入样本和其对应的标签构成一个样本；

步骤2：划分训练集验证集

从经过预处理的样本集中，选取少量样本作为验证集，剩余的样本作为训练集；

步骤3：构建网络模型

构建两个模型，分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器：所述的生成器包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分；所述的判别器是一个三维卷积构成的3D-CNN；

所述的2D-CNN包括三部分：编码器、多尺寸特征融合、解码器，其中编码器包含一个宽度为64、卷积核为3*3的卷积层和四个block，这四个block的宽度依次为64、128、256、512；多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样，采样的比例依次为2倍、4倍、8倍和16倍；上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层，得到融合特征图；解码器包含卷积核为3*3的四个反卷积层，每一个反卷积层包含一个双线性插值的2倍上采样层和一个卷积层，四个反卷积层的宽度依次为512、256、128、64，解码器以编码器的输出特征图为输入；最终，将多尺度融合特征和解码器的输出按通道合并，得到该2D-CNN结构提取到的每一帧图像的空间特征；以{x₁,x₂,…,x_n}表示n帧连续的RGB输入图片，以{g₁,g₂,…,g_n}表示这n帧RGB图片对应的标注的深度图；通过2D-CNN提取空间特征后，会得到对应的n帧空间特征{f₁,f₂,…,f_n}；

所述的CLSTM以n帧空间特征{f₁,f₂,…,f_n}为输入，给出n帧深度估计结果{d₁,d₂,…,d_n}；具体计算过程如下：

式中，σ及tanh分别表示sigmoid函数和双曲正切函数，*表示卷积运算，×表示矩阵乘法运算；W_f,W_i,W_C,W_o和b_f,b_i,b_C,b_o表示对应卷积层的卷积核和偏执；D_t-1是一个由卷积层，将第t-1帧的空间特征的通道数从128维压缩到8维，R_t是一个小规模的refinenet，包含两层卷积层，这两层卷积层的输出宽度分别为64和1；CLSTM结构中，其余部分均是由一个输出宽度为8的卷积层构成，卷积核的尺寸为3；

将上述的2D-CNN和CLSTM结合，构成了生成器，用2D-CNN提取空间特征，然后利用CLSTM提取时序信息，最后给出连续帧的深度估计结果；

所述的判别器是一个3D-CNN，包括五部分：第一部分由卷积核尺寸为5，步长为2，宽度为32的三维卷积、batch normalization层、ReLU激励层及窗口尺寸为3，步长为2的最大值池化层构成；紧接着的三部分结构类似，不过卷积核的尺寸改为3，宽度依次修改为64、128和256，判别器最后一部分由一个三维全局池化层和一个全连接层构成；

判别器的输入是连续的，多帧的四通道输入；判别器的输入分为正样本和负样本，正样本是将输入的RGB连续帧与其对应的标注的深度图沿通道合并起来形成四通道的样本，负样本是将输入的RGB连续帧与其对应的由生成器生成的深度图沿通道合并起来形成四通道的样本；判别器的输出是一个判断输入样本是正样本还是负样本的二分类输出；

步骤4：对抗训练

训练过程以迭代的形式进行，首先，输入样本中的RGB视频段X给生成器，然后利用生成器生成对应的深度估计视频段D，将X和D按照通道合并得到四通道的负样本，将X和其对应的标注深度视频段G按照通道合并得到四通道的正样本；利用合并得到的正样本及负样本训练判别器；正样本的标签设为真，负样本的标签设为假，沿着交插熵最小的方向优化判别器的参数；然后以G为教师信号，计算G和D之间的误差L_spatial，将负样本的标签设为真，重新将负样本输入到判别器里边计算交插熵L_temporal；最后沿L_spatial+αL_temporal最小的方向优化生成器的参数，其中α为一权重；L_spatial的计算公式为：

L_spatial＝ln(‖G-D‖₁+1.0),(2)

式中，ln表示log函数，‖·‖₁表示一范数；

对抗训练过程中，生成器和判别器均采用Adam算法进行更新，在训练集上训练参数，在验证集上测试效果，训练到在验证集上精度达到饱和为止；

步骤5：实用

利用训练好的生成器对需要处理的视频进行处理，估计每一帧，每一个像素的深度。

步骤1中的多帧为3-8帧。

步骤2中的少量为5％-10％。

步骤4中α设为0.1。

步骤4中训练时初始学习率分别设为0.01，0.0001，动量项均设为0.9。

有益效果

本发明提出的一种实时单目视频深度估计方法，结合2D-CNN模型和CLSTM模型，发挥各个模型的优点，构建出了能够有效利用时序信息，实时地完成单目视频深度估计的模型。跟现有的方法相比本发明重的模型能够产生可比较的结果。评估精度上，与当前state-of-the-art模型可比。使用开销上，模型运行速度更快，模型参数量更少，需要的计算资源更少。且本模型估计得到的结果具有很好的时间一致性。这里的时间一致性指的是，在对连续多帧进行深度估计时，得到的深度结果图变化情况与输入的RGB图变化情况一致，不会出现突变，抖动。

本发明中所提出的模型在11GB显卡GTX1080Ti上实测能够达到每秒处理174帧304*228分辨率的RGB视频。极大的促进了视频深度估计实用化的发展。

附图说明

图1 2D-CNN

图2 CLSTM

图3生成器

图4判别器

图5算法流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明的技术方案是结合二维卷积神经网络(2dimensional convolutionalneural network，2D-CNN)和卷积的长短时记忆网络(convolutional long short-termmemory，CLSTM)，构建出能够同时利用空间及时序信息对单目视频数据进行实时深深度估计的模型。同时利用生成对抗网络(generative adversarial network,GAN)来对对估计得到的结果进行约束，使其满足时间一致性。

本技术方案的具体措施如下：

步骤1：数据预处理。数据预处理包括RGB视频标准化，深度图归一化和样本提取。

步骤2：划分训练集验证集。提取少量样本作为验证集，剩余的所有样本作为训练集。

步骤3：构建网络模型。本发明中需要构建两个模型，分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器。生成器主要包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分。判别器是一个三维卷积构成的3D-CNN。

步骤4：对抗训练。迭代的训练优化生成器和判别器，让两个模型互相竞争，直到生成器收敛彻底。

步骤5：实用。利用训练好的生成器对需要处理的视频进行处理，估计每一帧，每一个像素的深度。

具体如下：

步骤1：数据预处理。对标注数据进行预处理，这里的标注数据指的是多个视频段，视频段的每一帧都有对应的深度图。为便于区分，下文中，视频片段称为RGB视频数据，对应的深度图称为深度视频。数据预处理包含三部分内容：1)对RGB视频数据进行标准化，并从标准化之后的结果里边提取样本数据。标准化的具体操作是，以降采样的形式从RGB视频中提取多帧(1000帧以上，PC机内存足够大的话，可以统计整个视频数据库所有帧)，统计该数据库的均值和方差，之后利用统计得到的均值方差对数据库中的RGB视频每一帧进行标准化操作；2)根据标注的深度视频数据的有效距离，对深度视频数据每一帧进行归一化。大于有效距离的部分舍弃掉，深度的最小值设为0；3)样本提取。从标准化的RGB视频中，无重叠的提取连续多帧组成小的视频段(3-8帧)，每一个视频段就是一个输入样本，该视频段对应的深度图构成的深度视频段就是样本对应的标签。一个输入样本和其对应的标签构成一个样本；

步骤2：划分训练集验证集。从经过预处理的样本集中，选取5％-10％的样本作为验证集，剩余的样本作为训练集。

步骤3：构建网络模型。本发明中需要构建两个模型，分别是用来生成深度估计结果的生成器和判别估计结果准确性约束估计结果的时序一致性的判别器。生成器主要包含一个由2D-CNN构成的空间特征提取部分和一个由CLSTM构成的时序关系捕捉部分，具体结构参照图3。判别器是一个三维卷积构成的3D-CNN。

2D-CNN的结构参照图1.该图中，Conv表示卷积层，Dconv表示反卷积层。Conv和Dconv采用的卷积核均为3*3的卷积核。每一个Dconv包含一个双线性插值的2倍上采样层和一个卷积层。2D-CNN由三部分构成：编码器、多尺寸特征融合、解码器。编码器包含一个宽度为64的卷积层，四个block(表示bottleneck结构)，这四个block的宽度依次为64，128，256，512.具体结构请参照ResNet-18.多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样，采样的比例依次为2倍，4倍，8倍和16倍。上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层Conv2，得到融合特征图。解码器包含四个反卷积层，从Dconv1到Dconv4，宽度依次为512，256，128，64.解码器以编码器的输出特征图为输入。最终，将多尺度融合特征和解码器的输出按通道合并，得到该2D-CNN结构提取到的每一帧图像的空间特征。以{x₁,x₂,…,x_n}表示n帧连续的RGB输入图片，以{g₁,g₂,…,g_n}表示这n帧RGB图片对应的标注的深度图。通过2D-CNN提取空间特征后，会得到对应的n帧空间特征{f₁,f₂,…,f_n}。

CLSTM的结构参照图2.图中σ及tanh分别表示sigmoid函数和双曲正切函数。本发明中所设计的CLSTM结构运算流程主要是：将第t-1帧的空间特征沿通道压缩，之后与第t帧的空间特征沿通道合并，将合并后的信息输入给遗忘门，记忆门等结构。利用遗忘门，记忆门的输出去更新t-1时刻记忆模块的内容得到t时刻记忆模块的内容。最后，将t时刻记忆模块的内容与t-1帧及t帧的空间特征结合，通过一个小规模的refinenet得到第t帧的深度估计结果。CLSTM以n帧空间特征{f₁,f₂,…,f_n}为输入，给出n帧深度估计结果{d₁,d₂,…,d_n}。具体计算过程如下：

公式(1)中，*表示卷积运算，×表示矩阵乘法运算。W_f,W_i,W_C,W_o和b_f,b_i,b_C,b_o表示对应卷积层的卷积核和偏执。D_t-1是一个由卷积层，将第t-1帧的空间特征的通道数从128维压缩到8维。R_t是一个小规模的refinenet，包含两层卷积层，这两层卷积层的输出宽度分别为64和1。CLSTM结构中，其余部分均是由一个输出宽度为8的卷积层构成，卷积核的尺寸为3。

2D-CNN和CLSTM结合，构成了生成器。具体结构参照图3。用2D-CNN提取空间特征，然后利用CLSTM提取时序信息，最后给出连续帧的深度估计结果。

判别器是一个3D-CNN，具体结构参照图4。判别器的输入是连续的，多帧的四通道输入。判别器的输入可以分为正样本和负样本。正样本是将输入的RGB连续帧与其对应的标注的深度图沿通道合并起来形成四通道的样本。负样本是将输入的RGB连续帧与其对应的由生成器生成的深度图沿通道合并起来形成四通道的样本。判别器的输出是一个判断输入样本是正样本还是负样本的二分类输出。判别器主要包含五部分，第一部分由卷积核尺寸为5，步长为2，宽度为32的三维卷积，batch normalization层，ReLU激励层及窗口尺寸为3，步长为2的最大值池化层构成。紧接着的三部分结构类似，不过卷积核的尺寸改为3，宽度依次修改为64，128和256。判别器最后一部分由一个三维全局池化层和一个全连接层构成。

步骤4：对抗训练。迭代的训练优化生成器和判别器，让两个模型互相竞争，直到生成器彻底收敛。训练过程以迭代的形式进行，首先，输入样本中的RGB视频段X给生成器，然后利用生成器生成对应的深度估计视频段D。将X和D按照通道合并得到四通道的负样本，将X和其对应的标注深度视频段G按照通道合并得到四通道的正样本。利用合并得到的正样本及负样本训练判别器。正样本的标签设为真，负样本的标签设为假，沿着交插熵最小的方向优化判别器的参数。然后以G为教师信号，计算G和D之间的误差L_spatial。将负样本的标签设为真，重新将负样本输入到判别器里边计算交插熵L_temporal。最后沿L_spatial+αL_temporal最小的方向优化生成器的参数，其中α为一权重，在本发明中设为0.1。L_spatial的计算公式为：

L_spatial＝ln(‖G-D‖₁+1.0),(2)

公式(2)中，ln表示log函数，‖·‖₁表示一范数。对抗训练过程中，生成器和判别器均采用Adam算法进行更新，初始学习率分别设为0.01，0.0001，动量项均设为0.9。在训练集上训练参数，在验证集上测试效果，训练到在验证集上精度达到饱和为止。

Claims

1.一种实时单目视频深度估计方法，其特征在于步骤如下：

步骤1：数据预处理

步骤2：划分训练集验证集

步骤3：构建网络模型

所述的2D-CNN包括三部分：编码器、多尺寸特征融合、解码器，其中编码器包含一个宽度为64、卷积核为3*3的卷积层和四个block，这四个block的宽度依次为64、128、256、512；多尺寸特征融合部分对四个block的输出分别采用双线性插值进行上采样，采样的比例依次为2倍、4倍、8倍和16倍；上采样得到的特征图按通道合并后再经过输出宽度为64的卷积层，得到融合特征图；解码器包含卷积核为3*3的四个反卷积层，每一个反卷积层包含一个双线性插值的2倍上采样层和一个卷积层，四个反卷积层的宽度依次为512、256、128、64，解码器以编码器的输出特征图为输入；最终，将多尺度融合特征和解码器的输出按通道合并，得到该2D-CNN结构提取到的每一帧图像的空间特征；以{x₁，x₂，…，x_n}表示n帧连续的RGB输入图片，以{g₁，g₂，…，g_n}表示这n帧RGB图片对应的标注的深度图；通过2D-CNN提取空间特征后，会得到对应的n帧空间特征{f₁，f₂，…，f_n}；

所述的CLSTM以n帧空间特征{f₁，f₂，…，f_n}为输入，给出n帧深度估计结果{d₁，d₂，…，d_n}；具体计算过程如下：

式中，σ及tanh分别表示sigmoid函数和双曲正切函数，*表示卷积运算，×表示矩阵乘法运算；W_f，W_i，W_C，W_o和b_f，b_i，b_C，b_o表示对应卷积层的卷积核和偏执；D_t-1是一个由卷积层，将第t-1帧的空间特征的通道数从128维压缩到8维，R_t是一个小规模的refinenet，包含两层卷积层，这两层卷积层的输出宽度分别为64和1；CLSTM结构中，其余部分均是由一个输出宽度为8的卷积层构成，卷积核的尺寸为3；

步骤4：对抗训练

L_spatial＝ln(||G-D||₁+1.0)， (2)

式中，ln表示log函数，||·||₁表示一范数；

步骤5：实用

2.根据权利要求1所述的一种实时单目视频深度估计方法，其特征在于步骤1中的多帧为3-8帧。

3.根据权利要求1所述的一种实时单目视频深度估计方法，其特征在于步骤2中的少量为5％-10％。

4.根据权利要求1所述的一种实时单目视频深度估计方法，其特征在于步骤4中α设为0.1。

5.根据权利要求1所述的一种实时单目视频深度估计方法，其特征在于步骤4中训练时初始学习率分别设为0.01，0.0001，动量项均设为0.9。