CN111652921A

CN111652921A - 一种单目深度预测模型的生成方法及单目深度预测方法

Info

Publication number: CN111652921A
Application number: CN202010315967.4A
Authority: CN
Inventors: 刘军; 李庆; 曹瑞; 唐文名; 邱国平
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-11
Anticipated expiration: 2040-04-21
Also published as: CN111652921B

Abstract

本发明提供了一种单目深度预测模型的生成方法及单目深度预测方法，在进行单目深度预测模型的训练时，预设网络模型由深度预测模块和姿态预测模块组成。深度预测模块输出对应图像的深度图，姿态预测模块则输出相邻帧的相对姿态信息。通过获得的深度图像和姿态信息，将源图像映射到目标图像，得到预测的目标图像，最后将预测的目标图像与真实的目标图像相比较，对预测网络模型的参数进行校正。由于在整个训练过程中，并没有用到真实目标图像的深度值，因此本实施例所提供的方法不需要采集真实数据，降低了训练网络模型时对真实数据集的需求，同时降低了人工和时间成本。

Description

一种单目深度预测模型的生成方法及单目深度预测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种单目深度预测模型的生成方法及单目深度预测方法。

背景技术

对周围场景进行深度估计能够更好地帮助机器感知世界，例如机器人，无人机以及穿戴式设备。目前，激光雷达、结构光深度传感器和飞行时间传感器大量地被用于获取深度信息。然而，这些主动深度传感器通常都比较笨重、昂贵和耗电。同时，它们常伴有一些噪声和人为缺陷，因此不太适用于一些特殊的应用场景。不过，根据一张静态图像估计深度图像能够很好地解决这些问题，它不仅结构紧凑、便宜而且相对低功耗。在过去的十多年，由于深度学习在视觉上的成功，科研人员主要关注的是有监督的单目深度估计。它将单目深度估计看成一个像素级回归问题，并且取得了显著的效果。但是，这种方法依赖大量标注的RGB-D数据集，因此比较昂贵和耗力。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种单目深度预测模型的生成方法及单目深度预测方法，克服现有技术中基于深度学习的单目深度预测方法依赖大量标准的真实数据集，而大量真实数据集的获取需要深度相机采集，需要大量的人力成本和时间成本的缺陷。

本发明解决技术问题所采用的技术方案如下：

第一方面，本实施例提供了一种单目深度预测模型的生成方法，其中，包括：

预设网络模型根据训练集中的第一源图像、第二源图像和目标图像，生成与所述第一源图像和目标图像对应的第一相对姿态信息、与所述第二源图像和目标图像对应的第二相对姿态信息和与所述目标图像对应的深度信息；其中，所述训练集包括多组训练样本，每组训练样本包括第一源图像、第二源图像和目标图像；所述第一源图像、目标图像和第二源图像为单目视频流中依次相邻的三帧图像；

所述预设网络模型根据所述第一相对姿态信息、第二相对姿态信息和深度信息，对模型参数进行修正，并继续执行所述根据训练集中的第一源图像、第二源图像和目标图像，生成与所述第一源图像和目标图像对应的第一相对姿态信息、与所述第二源图像和目标图像对应的第二相对姿态信息和与所述目标图像对应的深度信息的步骤，直至所述预设网络模型的训练情况满足预设条件，以得到单目深度预测模型。

可选的，所述预设网络模型包括：结构相同、参数共享的第一姿态预测模块和第二姿态预测模块，以及深度预测模块；

所述预设网络模型根据训练集中的第一源图像、第二源图像和目标图像，生成与所述第一源图像和目标图像对应的第一相对姿态信息、与所述第二源图像和目标图像对应的第二相对姿态信息和与所述目标图像对应的深度信息的步骤包括：

将所述第一源图像和目标图像输入至所述第一姿态预测模块，得到与所述第一源图像和目标图像对应的第一相对姿态信息；

以及，将所述目标图像输入至所述深度预测模块，得到与所述目标图像对应的深度信息；

以及，将所述第二源图像和目标图像输入至所述第二姿态预测模块，得到与所述第二源图像和目标图像对应的第二相对姿态信息。

可选的，第一姿态预测模块包括：第一编码单元和第一解码单元；

将所述第一源图像和目标图像输入至所述第一姿态预测模块，得到与所述第一源图像和目标图像对应的第一相对姿态信息的步骤包括：

将所述第一源图像和目标图像输入至第一编码单元，得到与所述第一源图像和目标图像对应的第一特征图；

将所述第一特征图输入至所述第一解码单元，通过所述第一解码单元得到与所述第一源图像和目标图像对应的第一相对姿态信息。

可选的，第二姿态预测模块包括：第二编码单元和第二解码单元；

将所述第二源图像和目标图像输入至所述第二姿态预测模块，得到与所述第二源图像和目标图像对应的第二相对姿态信息的步骤包括：

将所述第二源图像和目标图像输入至第二编码单元，得到与所述第二源图像和目标图像对应的第二特征图；

将所述第二特征图输入至所述第二解码单元，通过所述第二解码单元得到与所述第二源图像和目标图像对应的第二相对姿态信息。

可选的，所述深度预测模块包括特征提取单元、复用单元和第三解码单元；

将所述目标图像输入至所述深度预测模块，得到与所述目标图像对应的深度信息的步骤包括：

将所述目标图像输入至所述特征提取单元，通过所述特征提取单元，获取第三特征图；

将所述第三特征图输入至复用单元，通过所述复用单元重复多次进行编码处理后，得到与所述第三特征图对应的多个不同尺寸的复用特征图；

将所述第三特征图和多个不同尺寸的复用特征图输入至所述第三解码单元，通过所述第三解码单元得到与所述目标图像对应的深度信息。

可选的，所述复用单元包括k个反向残差子单元，其中，各个反向残差子单元均含有第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层，其中k是正整数；

将所述第三特征图输入至复用单元，通过所述复用单元重复多次进行编码处理后，得到与所述第三特征图对应的多个不同尺寸的复用特征图的步骤包括：

将所述第三特征图第一次输入至复用单元的第一个反向残差子单元，通过第一个反向残差子单元的第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层对第三特征图进行卷积处理，将第二逐点卷积层输出的特征图与所述第三特征图逐像素相加得到第四特征图；

将所述第四特征图输入至复用单元的第二个反向残差子单元，通过第二个反向残差子单元的第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层对第四特征图进行卷积处理，将第二逐点卷积层输出的特征图与第四特征图逐像素相加得到第五特征图；

将所述第五特征图作为目标输入特征图，将所述下一个反向残差子单元作为下一个目标输入单元，继续执行将第二逐点卷积层的输出与第五特征图逐像素相加后输入至下一个目标输入单元的步骤，直至将目标输入特征图输入至第k个反向残差子单元，通过第k个反向残差子单元得到第一复用特征图；

将复用单元输出的所述第一复用特征图重复输入至所述复用单元，得到所述复用单元输出的第二复用特征图；

重复N次上述将复用单元输出的复用特征图再次输入所述复用单元的步骤，直至复用单元输出第N复用特征图，得到N个不同尺寸的复用特征图，其中N为正整数。

可选的，所述第三解码单元，包括：N+1个上采样单元；

所述将所述第三特征图和多个不同尺寸的复用特征图输入至所述第三解码单元，通过所述第三解码单元得到与所述目标图像对应的深度信息步骤包括：

将第N复用特征图和第N-1复用特征图输入至第一上采样单元，通过所述第一上采样单元得到第六特征图；

将第六特征图和第N-2复用特征图输入至第二上采样单元，得到所述第二上采样单元输出的第七特征图和第一视差图像；

重复上述将第J-1上采样单元输出的特征图和第N-J复用特征图输入至第J上采样单元,得到第J上采样单元输出第J+5特征图和第J-1视差图像；直至第N-1上采样单元输出第N+4特征图和第N-2视差图像；

将第N-1上采样单元输出的N+4特征图和所述第三特征图输入至第N上采样单元，得到所述第N上采样单元输出的第N+5特征图和第N-1视差图像；

将所述第N上采样单元的输出的第N+5特征图输入至第N+1上采样单元，得到所述第N+1上采样单元输出的第N视差图像；

根据各个上采样单元输出的N个视差图像得到与输入目标图像对应的不同尺寸的深度信息，其中，N和J均为大于2的正整数。

可选的，所述第三解码单元，包括：多个上采样单元，各个上采样单元包括：第一残差卷积子单元、最近上采样子单元、第二残差卷积子单元和第三残差卷积子单元。

可选的，所述预设网络模型根据所述第一相对姿态信息、第二相对姿态信息和深度信息，对模型参数进行修正的步骤包括：

根据所述第一相对姿态信息、第二相对姿态信息和深度信息将所述第一源图像和第二源图像映射目标图像上，得到映射出的目标图像的预测值；

将目标图像的预测值与真实值之间的误差得到光度损失函数对应的第一损失值和模型引导平滑损失函数对应的第二损失值；其中，所述光度损失函数对应的第一损失值包括：图像重建损失值和结构相似性损失值；

根据所述第一损失值和第二损失值对模型参数进行修正。

第二方面、本实施例还提供了一种单目深度预测方法，其中，应用如所述的单目深度预测模型的生成方法生成的单目深度预测模型，所述单目深度预测方法包括：

获取待预测图像；其中，待预测图像为彩色图像；

将待预测图像输入至所述单目深度预测模型，通过所述单目深度预测模型得到与所述预测图像对应的深度信息。

有益效果，本发明提供了一种单目深度预测模型的生成方法及单目深度预测方法，在进行单目深度预测模型的训练时，预设网络模型由深度预测模块和姿态预测模块组成。深度预测模块输出对应图像的深度图，姿态预测模块则输出相邻帧的相对姿态信息。通过获得的深度图像和姿态信息，将源图像映射到目标图像，得到预测的目标图像，最后将预测的目标图像与真实的目标图像相比较，对预测网络模型的参数进行校正。由于在整个训练过程中，并没有用到真实的深度值，因此本实施例所提供的方法不需要采集真实值，降低了网络对数据集的需求，以及人工和时间成本。

附图说明

图1是本发明所述单目深度预测模型的生成方法的步骤流程图；

图2是本发明所述单目深度预测模型的原理结构示意图；

图3是本发明所述深度预测模块的网络结构示意图；

图4是本发明所述单目深度预测模型中反向残差模块的结构示意图；

图5是本发明所述的单目深度预测模型中压缩与激活单元的结构示意图；

图6是本发明所述上采样单元的结构示意图；

图7是本发明所述残差卷积层的结构示意图；

图8是本发明实施例中单目预测方法的步骤流程图；

图9是本发明所述电子设备的原理结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

由于有监督的依赖大量标注的真实数据集，因此不仅使用仪器价格昂贵，而且采集数据需要花费大量时间，因此为了避开这一缺陷，最近无监督深度估计方法被提出，其中基于真实深度值的损失函数将被图像重建损失函数替换。对于双目视觉，立体图像对将用于训练神经网络，而单张输入图像将用于深度估计。左视图将会逆映射变换到右边从而生成图像重建损失函数，反之亦然。而对于单目视觉，连续的单目视频流将用于训练神经网络。与目标图像相邻的源图像将会逆映射变换到目标图像中，从而获得图像重建损失函数。由于单目视频流比双目图像更容易获取，因此本发明实施例中，利用单目视频流来进行无监督深度估计。

下面以本发明具体应用实施例为例对本发明所提供的方法做进一步更详细的说明。

本实施例提供了一种单目深度预测模型的生成方法，如图1所示，包括：

步骤S1：预设网络模型根据训练集中的第一源图像、第二源图像和目标图像，生成与所述第一源图像和目标图像对应的第一相对姿态信息、与所述第二源图像和目标图像对应的第二相对姿态信息和与所述目标图像对应的深度信息；其中，所述训练集包括多组训练样本，每组训练样本包括第一源图像、第二源图像和目标图像；所述第一源图像、目标图像和第二源图像为单目视频流中依次相邻的三帧图像。

本实施例中，首先获取用来训练预设网络模型的训练集。所述训练集中含有多组训练样本，每组训练样本包括第一源图像、第二源图像和目标图像。所述第一源图像、第二源图像和目标图像均为单目视频流中的图像，并且所述第一源图像、目标图像和第二源图像依次为相邻的三帧图像，也即是第一源图像为目标图像前一帧图像、所述第二源图像为目标图像后一帧图像。通过预设网络模块输出的第一相对姿态信息、第二相对姿态信息和深度信息，以及第一源图像、第二源图像与目标图像之间的对应关系，对预设网络模型进行训练，得到的已训练的单目深度预测模型。

所述第一源图像、目标图像和第二源图像均为彩色图像，并且为单个摄像装置拍摄出的单目视频中的图像。该单目视频可以为拍摄人物的视频也可以为拍摄景物的视频。该单目视频可以为根据需求使用单目摄像机拍摄的，也可以是从其他电子设备中获取的。

在一种实施方式中，为了能取得更佳的预设网络模型训练效果，本实施例中选用的第一源图像、目标图像和第二源图像为所含有的色彩分辨率差异较大的图像，以便于预设网络模型对图像中各个景物分块进行分类，以预测出其深度信息。

步骤S2：所述预设网络模型根据所述第一相对姿态信息、第二相对姿态信息和深度信息，对模型参数进行修正，并继续执行所述根据训练集中的第一源图像、第二源图像和目标图像，生成与所述第一源图像和目标图像对应的第一相对姿态信息、与所述第二源图像和目标图像对应的第二相对姿态信息和与所述目标图像对应的深度信息的步骤，直至所述预设网络模型的训练情况满足预设条件，以得到单目深度预测模型。

当上述步骤中预设网络模型输出第一相对姿态信息、第二相对姿态信息和深度信息之后，根据第一相对姿态信息、第二相对姿态信息和深度信息将第一源图像和第二源图像逆映射得到目标图像的预测图像。进一步的，根据第一相对姿态信息和深度信息对第一源图像进行逆映射得到目标图像的第一预测图像，根据第二相对姿态信息和深度信息对第二源图像进行逆映射得到目标图像的第二预测图像，根据第一预测图像与真实目标图像之间的差值，得到第一光度损失函数对应的损失值，根据第二预测图像与真实目标图像之间的差值，得到第二光度损失函数对应的损失值。为了取得较佳的对参数修正的效果，本实施例中，采用针对每个像素选择源图像中的最小值作为损失值得到目标图像的预测图像与真实目标图像之间的损失值。

具体的，本实施例中所述预设网络模型根据所述第一相对姿态信息、第二相对姿态信息和深度信息，对模型参数进行修正的步骤包括：

根据所述第一损失值和第二损失值对模型参数进行修正。

本实施例中预设网络模型的损失函数主要由光度损失函数和模型引导平滑损失函数组成，即：

l＝l_ph+λl_md (1)

其中，l_ph为光度损失函数、l_md为模型引导平滑损失函数，λ为常数。光度损失函数(l_ph)则包含了图像重建损失和结构相似性组成，即：

现有技术中的图像重建损失求解的各个源图像的平均值，在本实施例中针对每个像素选择源图像中的最小值作为损失值，即：

其中，所述

为目标图像的预测图像，I_t为目标图像的真实图像，ρ_l为目标图像的预测图像与真实图像之间的差值。

结构相似性损失则用于评价预测目标图像和真实图像的结构相似性。平滑损失函数用于规范化深度图像的平滑性，并且保持纹理和边界信息。本实施例中加入了模型引导的权重，用于更好地寻找解空间，即：

其中，N为目标图像的总像素数，c为经验取值的常数。当图像重建损失很大时，该权重比较小，因此主要适用光度损失函数来训练网络。当图像重建损失变小时，该权重就变得比较大，这样平滑损失函数能够更好地规范化解空间。

进一步的，所述预设网络模型包括：结构相同的第一姿态预测模块和第二姿态预测模块，以及深度预测模块；

结合图2所示，为本实施例所提供预设网络模型的结构示意图，预设网络模型包括深度预测模块和第一姿态预测模块和第二姿态预测模块，其中所述第一姿态预测模块和第二姿态预测模块结构相同，并且对称设置在深度预测模块的两侧。在进行第一源图像、第二源图像和目标图像的输入时，目标图像直接输入至深度预测模块，所述目标图像与所述第一源图像输入至第一姿态预测模块，所述目标图像与第二源图像输入至第二姿态预测模块。所述深度预测模块输出的是与输入的目标图像相对应的深度图像，而第一姿态预测模块输出的是第一源图像与目标图像之间的第一相对姿态信息、第二姿态预测模块输出的是第二源图像与目标图像之间的第二相对姿态信息。

具体的，第一姿态预测模块包括：第一编码单元和第一解码单元；

所述将所述第一源图像和目标图像输入至所述第一姿态预测模块，得到与所述第一源图像和目标图像对应的第一相对姿态信息的步骤包括：

将所述第一源图像和目标图像输入至第一编码单元，分别得到与所述第一源图像和目标图像对应的第一特征图；

第二姿态预测模块包括：第二编码单元和第二解码单元；

所述将所述第二源图像和目标图像输入至所述第二姿态预测模块，得到与所述第二源图像和目标图像对应的第二相对姿态信息的步骤包括：

将所述第二源图像和目标图像输入至第二编码单元，分别得到与所述第一源图像和目标图像对应的第二特征图；

第一姿态预测模块和第二姿态预测模块的结构相同参数共享，但其输入的图像不同，因此输出的信息也不同。

首先，第一姿态预测模块和第二姿态预测模块均设置有编码部分和解码部分，即第一姿态预测模块包括第一编码单元和第一解码单元。所述第二姿态预测模块包括第二编码单元和第二解码单元。

在一种实施方式中，第一编码单元和第二编码单元均可以设置为由残差神经网络ResNet-18组成，用于提取输入的两张图像的特征图像信息。第一解码单元和第二解码单元由若干个卷积层组成。姿态网络的编码部分用ImageNet进行初始化，解码部分则采用Xavier初始化的方法。由于姿态预测模块的输入为两帧图像，所以它的输入通道数为6。因为ImageNet预训练的残差神经网络输入通道数为3，为了确保输出值范围，在姿态预测模块初始化时，用预训练值的一半来初始化姿态网络的第一个卷积层。

具体的，所述深度预测模块包括特征提取单元、复用单元和第三解码单元；

所述将所述目标图像输入至所述深度预测模块，得到与所述目标图像对应的深度信息的步骤包括：

所述深度预测模块包括特征提取单元、复用单元和第三解码单元，其中特征提取单元、复用单元和第三解码单元依次连接。特征提取单元由一个卷积层组成，该卷积层的输入通道数为3，输出通道数为64，以及卷积层的步幅为2，因此特征图像的空间尺寸将减半。

结合图3所示，所述复用单元包括多个反向残差子单元，其中，各个反向残差子单元均含有第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层；

将所述第三特征图依次输入至复用单元，通过所述复用单元重复多次对第三特征图进行编码处理后，得到与所述第三特征图对应的多个不同尺寸的复用特征图的步骤包括：

将所述第三特征图输入至复用单元的第一个反向残差子单元，通过第一个反向残差子单元的第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层对第三特征图进行卷积处理，将第二逐点卷积层的输出特征图与所述第三特征图逐像素相加得到第四特征图；

将第五特征图作为目标输入特征图，将所述下一个反向残差子单元作为下一个目标输入单元，继续执行将第二逐点卷积层输出的特征图与第五特征图逐像素相加后输入至下一个目标输入单元的步骤，直至将目标输入特征图输入至复用单元的第k个反向残差子单元，通过第k个反向残差子单元得到所述第一复用特征图，其中k是正整数；

结合图4所示，将从特征提取单元输出的第三特征图第一次输入至复用单元，由复用单元的第一个反向残差子单元接收，并依次输入至第一个反向残差子单元的第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层，经过第二逐点卷积层输出特征图，将第二逐点卷积层输出的特征图与所述第三特征图逐像素相加得到编码处理后的第四特征图；

将第四特征图输入至复用单元的第二个反向残差子单元，经过第二个反向残差子单元处理后，得到的特征图输入复用单元的第三个反向残差子单元，直至复用单元的最后一个反向残差子单元输出第一复用特征图。

将第一复用特征图输入至复用单元的第一个反向残差子单元，依次经过第一反向残差子单元的编码处理后，将得到的特征图输入至复用单元的第二个反向残差子单元，依次经过复用单元的各个反向残差子单元进行编码处理后，复用单元输出第二复用特征图；

重复N次上述将复用单元输出的复用特征图再次输入所述复用单元的步骤，直至得到复用单元输出的第N复用特征图，N为正整数。

本实施例中是利用一个复用单元，重复多次对输入的第三特征图进行编码处理，可以想到的是，在具体实施时，还可以采用多个参数相同的复用单元，依次对输入的第三特征图进行编码处理，可以取得相同的技术效果。

在一种实施方式中，复用单元由5个反向残差组单元(inverted residual block)组成(也即k＝5)，中间的反向残差子单元的步幅为2，其余的则为1。因此，输入到复用单元中的特征图像每次通过复用单元处理后，它的空间尺寸将减半。若设置重复输入复用单元的次数4次，则特征提取单元输入的特征图像(即第三特征图)将四次重复通过复用单元(即，将第三特征图输入至复用单元，得到复用单元输出的第一复用特征图，将第一复用特征图输入至复用单元，得到复用单元输出的第二复用特征图，再次将第二复用特征图输入至复用单元，得到复用单元输出的第三复用特征图，最后再将第三复用特征图输入至复用单元，得到复用单元输出的第四特征图)。因此，目标图像经过深度预测模块的编码模块(所述编码模块包括特征提取单元和多个复用单元)后，空间尺寸将变为原来的32倍，这与姿态预测模块中的残差网络(ResNet)系列一致。

每个反向残差子单元有第一逐点(pointwise)卷积层，第一ReLU6线性整形单元、一个逐通道(depthwise)卷积层和第二ReLU6线性整形单元，一个压缩-激活模块，以及第二逐点卷积层组成,如图3所示。反向残差子单元的输入和输出通道数都为64。输入至反向残差子单元的特征图像经过第一个逐点卷积层后将变为原来的t倍，再通过第二个逐点卷积层变为64。在本发明的复用单元中，前三个反向残差子单元的t为2，而后两个反向残差子单元的t为4。对于步幅为1的反向残差子单元，其输入和输出将通过短接(shortcut)进行连接。

进一步的，所述压缩与激活层包括：全局池化层和第一全连接层和线性整形单元和第二全连接层。

结合图5所示，压缩与激活层包括：全局池化层、第一全连接层、线性整形单元、第二全连接层以及sigmoid函数、逐点乘法组成。特征图像经过全局池化层将变成长度为输入通道数的向量。经过第一全连接层，长度将变为原来的r份之一，然后通过非线性激活层，最后通过第二全连接变回输入通道数。压缩与激活层的输入和输出之间进行短接。该压缩与激活层主要用来增强编码器模块提取特征的能力，并且它所占的参数量可以忽略不计。

进一步的，结合图3所示，所述第三解码单元，包括：多个上采样单元，较佳的，所述上采样单元的个数为N+1。

将所述第N复用特征图输入至所述第三解码单元，通过所述第三解码单元得到与所述目标图像对应的深度信息的步骤包括：

将第N-1上采样单元输出的N4特征图和所述第三特征图输入至第N上采样单元，得到所述第N上采样单元输出的第N+5特征图和第N-1视差图像；

根据各个上采样单元输出的N个视差图像得到与输入目标图像对应的不同尺寸的深度信息，其中，K和J均为大于2的正整数。

结合图6所示，各个上采样单元包括三个残差卷积子单元和最近上采样子单元。该第三解码单元主要用于恢复特征图像的空间尺寸，并且耦合编码器的特征图像。具体的，各个上采样单元均包括：第一残差卷积子单元、最近上采样子单元、第二残差卷积子单元和第三残差卷积子单元；

则上述步骤将所述第N复用特征图输入至所述第三解码单元，通过所述第三解码单元得到与所述目标图像对应的深度信息的步骤包括：

将所述第N复用特征图输入至第一上采样单元的第一残差卷积子单元和最近上采样子单元，得到所述最近上采样子单元输出的第一上采样中间特征图；

将所述第一上采样中间特征图和第N-1复用特征图输入至第一上采样单元的第二残差卷积子单元，得到所述第二残差卷积子单元输出的第六特征图；

将第六特征图输入至第二上采样单元的第一残差卷积子单元和最近上采样子单元，得到所述最近上采样子单元输出的第二上采样中间特征图；

将所述第二上采样中间特征图和所述第N-2复用特征图依次输入至第二上采样单元的第二残差卷积子单元和第三残差卷积子单元，得到所述第二上采样单元的第二残差卷积子单元输出的第七特征图和所述第二上采样单元的第三残差卷积子单元输出的第一视差图像；

重复上述将第J-1上采样单元输出的特征图输入至第J上采样单元的第一残差卷积子单元，将第N-J复用特征图输入到第J上采样单元的第二残差卷积子单元，得到第J上采样单元的第二残差卷积子单元输出的第J+5特征图和第J上采样单元的第三残差卷积子单元输出的第J-1视差图像；直至第N-1上采样单元的第二残差卷积子单元输出的第N+4特征图和第N-1上采样单元的第三残差卷积子单元输出的第N-2视差图像；

将第N-1上采样单元输出的N+4特征图输入至第N上采样单元的第一残差卷积子单元和最近上采样子单元，以及将第N上采样单元的最近上采样子单元输出的第N上采样中间特征图与所述特征提取单元输出的第三特征图输到第N上采样单元的第二残差卷积子单元和第三残差卷积子单元，得到所述第N上采样单元的第二残差卷积子单元输出的第N+5特征图和所述第二上采样单元的第三残差卷积子单元输出的第N-1视差图像；

将所述第N上采样单元的第二残差卷积子单元输出的第N+5特征图依次输入至第N+1上采样单元的第一残差卷积子单元、最近上采样子单元、第二残差卷积子单元和第三残差卷积子单元，得到所述第N+1上采样单元输出的第N视差图像；

因此，经过各个上采样单元的上采样处理后，得到各个上采样单元输出的N个视差图像，基于N个视差图像得到与输入目标图像对应的不同尺寸的深度信息，其中，K和J均为正整数。

结合图3所示，在一种实施方式中，将N设置为5，则将第三特征图重复4次输入至复用单元，依次得到第一复用特征图、第二复用特征图、第三复用特征图和第四复用特征图，每次经过依次复用单元，输出的复用特征图的尺寸减少一半，因此从第一复用特征图至第四复用特征图，各个复用特征图的空间尺寸依次减少一半。

上采样单元的个数为5个，分别包括：第一上采样单元、第二上采样单元、第三上采样单元、第四上采样单元和第五上采样单元。

具体的，第五上采样单元输入为从第四上采样单元的第二残差卷积子单元输出特征图，输出第四视差图像和其自身第二残差卷积子单元输出的特征图；

第四上采样单元输入的是第三特征图和第三上采样单元的第二残差卷积子单元输出的特征图，输出的是第三视差图像和其自身第二残差卷积子单元输出的特征图；

第三上采样单元输入的是第二上采样单元的第二残差卷积子单元输出的特征图和第一复用特征图，输出的是第二视差图像和其自身第二残差卷积子单元输出的特征图；

第二上采样单元输入的是第一上采样单元的第二残差卷积子单元输出的特征图和第二复用特征图，输出的是第一视差图像和其自身第二残差卷积子单元输出的特征图；

第一上采样单元输入的第四复用特征图和第三复用特征图，输出的是其自身第二残差卷积子单元输出的特征图。

因此，依次经过第一至第五上采样单元的上采样处理，最终第三解码单元输出四个视差图像，并且四个视差图像之间的空间尺寸不同，从第一视差图像至第四视差图像空间尺寸依次增加一倍。

各个残差卷积子单元(第一残差卷积子单元、第二残差卷积子单元和第三残差卷积子单元)由一个逐通道卷积层和一个逐点卷积层组成，其中逐通道卷积层后面跟有ReLU6非线性激活，如图7所示，各个残差卷积子单元的输入和输出之间有短接操作。

进一步的，整个神经网络的损失函数由光度损失函数和模型引导平滑损失函数组成。

在一种实施方式中，设置光度损失函数由0.85倍的结构相似度损失(ssim)和0.15倍的图像重建误差两部分组成。其中，图像重建误差为合成的目标图像与实际图像之间的差值。

深度预测模块中有多尺度的视差图像输出，在此采用上采样的方法，统一视差图像的空间尺寸，并且计算各个尺度的图像重建误差。由于输入里面有两张源图像，所以可以获得两个图像重建误差。传统的方式是对这两个误差取平均来获得最终的图像重建误差。本实施例中是采用取各个像素的最小值来代替平均值。这样处理能够解决图像中的遮挡问题。

为了获得局部的平滑性并且保持不连续区域的尖锐边界，本实施例中还加入了平滑损失函数，并且加入模型引导的权重，从而更好地寻找深度信息解决域。其中，模型引导的权重由像素级的图像重建误差构成。当误差值越大时，权重越小，这样网络主要利用光度损失函数寻找求解区域。反之，权重越大，这样平滑损失函数能够更好规范化求解区域。

本发明所述单目深度预测模型的生成方法是基于单目视频流来训练预设网络模型，本实施例能够绕过对真实深度的需求，实现大大降低网络对数据集的需求，从而轻松地获得大数据量的数据集，而且不用使用昂贵的深度相机来采集，降低了人工和时间成本。该无监督深度预测网络模型由深度预测模块和姿态预测模块组成。深度预测模块输出对应图像的深度图像，姿态预测网络则输出相邻帧的相对姿态信息。通过获得的深度图像和姿态信息，将源图像(I_s)映射到目标(I_t)上，这样就获得了预测的目标图像(

)，最后将预测的目标图像与真实的目标图像相比较，就获得训练网络的损失函数。由于在整个训练过程中，并没有用到真实的深度值，所以该网络是一个无监督深度估计网络。

由于本实施例中采用了三帧图像作为一组输入到预测网络模型，并且姿态预测模块的输入为两帧图像输出只有两帧相机的位置关系，所以在姿态估计时我们采用了两个姿态预测模块，它们具有相同的结构，并且采用参数共享的方式。姿态预测模块的编码器采用的是残差网络(ResNet-18)结构，解码器则由多个卷积层组成，输出为1x6的向量。

深度预测模块则只用了一张图像作为输入即目标图像，为了满足单目深度估计的要求。它的输出则为对应输入时刻的深度图像。在此，在深度预测模块中主要采用多个复用单元大大减少网络参数，实现轻量级的无监督深度估计。本实施例中提供的深度预测模块，主要采用逐通道卷积和逐点卷积来代替标准卷积，这样能够极大减少网络参数和运算量，同时还能够保证较大的网络估计精度。不同于Mobil eNetV1中卷积结构，本实施例采用了Mobil eNetV2的反向残差子单元，该反向残差子单元能够采用短接的形式，并且有效解决了非线性激活操作所带来的信息缺失。另外本实施例中还在反向残差子单元中加入了压缩与激活层来提高编码器提取摘要信息的能力。类似于残差网络系列，特征图像的空间尺寸下降到原来的32倍。在此，本实施例中也采用了32倍的下降，由于特征提取单元已经对空间尺寸降了一半，而各个复用单元也只对空间尺寸进行一半的处理，因此特征提取单元输出的特征图像需要四次通过复用单元。解码器主要由最近上采样、逐通道卷积、逐点卷积、串联操作等构成，因此它同样能够极大地减少网络参数和运算量。

在提出了上述单目深度预测模块的生成方法的基础上，本实施例还提供了一种单目深度预测方法，如图8所示，应用如所述的单目深度预测模型的生成方法生成的单目深度预测模型，所述单目深度预测方法包括：

步骤H1：获取待预测图像；其中，待预测图像为彩色图像；

步骤H2：将待预测图像输入至所述单目深度预测模型，通过所述单目深度预测模型得到与所述预测图像对应的深度信息。

当基于本实施例所提供的单目深度预测模型的生成方法，训练出单目深度预测模块后，则可以将待深度预测的图像输入至所述单目深度预测模型，通过所述单目深度预测模型得到与输入图像对应的深度信息。

在具体使用训练完成的单目深度预测模型时，不需要对姿态预测模块输入图像，可以直接将待预测的图像输入至单目深度预测模型的深度预测模块，通过深度预测模块实现深度信息的输出。因此在使用已训练完成的单目深度预测模型时，可以调节该单目深度预测模块的输入和输出通道，控制仅仅将待预测图像输入至深度预测模块，以及控制仅仅深度预测模块输出深度信息。

本实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

具体的，如图9所示，所述电子设备包括至少一个处理器(processor)20以及存储器(memory)22，还可以包括显示屏21、通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，本实施例公开了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

为了实现更好的预设网络模型训练，本实施例还可以采用以下具体实施方式实现：

1)、本实施例的神经网络是在PyTorch深度学习框架上实施的，并且在NvidiaGeforce GTX 1080 Ti GPU上进行训练，它的内存空间为11GB，对应的CPU为Intel E5-1630。

2)、采用车载采集的KITTI数据进行训练，它由61个场景组成，其中32个场景进行训练，另外29个场景用于测试。图片的尺寸大约为为1226x 370。

3)、在训练数据中，选取了39810帧图像进行训练，另外4424帧图像进行验证。并且从测试的29场景中，选取了697帧对我们设计的深度估计网络进行测试。

4)、每次选取三帧图像输入神经网络进行训练。考虑到硬件的计算能力，对输入的图像进行了下采样。图像的尺寸由原来的1226x 370变为了640x 192。

5)、为了避免训练模型过拟合。在训练的过程中，在线对训练数据进行了增强，具体如下：对输入三帧图像同时进行了水平的反转，概率为50％；对输入三帧图像同时进行了亮度、对比度、饱和度以及色相抖动，同样概率为50％。其中，对于亮度、对比度和饱和度，具体的，可以在[0.8,1.2]范围采样。而对于色相抖动，则在[0.9,1.1]范围采样；最后，这三帧图像都除以255，并且采用平均值0.45和标准差0.225进行归一化。

6)、除了姿态预测模块中的ResNet-18采用在ImageNet预训练的ResNet-18进行初始化，其余的网络参数都采用Xavier的方式进行初始化。采用Adam的方式进行优化，其中beta1＝0.9和beta2＝0.999，这样能够提高训练的收敛性。

7)、总训练epoch为40。初始的学习率为0.0001，每隔30个epoch，学习率降为原来的0.5倍。在KITTI数据集上，总共需要花费43个小时进行训练。

8)、为了测试深度预测模块的准确性，首先通过KITTI给定的相机内参和外参，将Velodyne 3D点云映射到了左侧的彩色相机，获得了稀疏的真实深度数据，用于评价深度估计。

9)、在上述实施方式的基础上，还可以采用如下指标进行深度测评，即：

(1)平均绝对相对误差：

其中，

为预测的深度值，

为Ground-truth。

(2)均方相对误差：

(3)均方根误差：

(4)均对数误差：

(5)阈值范围内的精度：

的百分比，即：

其中，j＝1,2,3。

由于在网络设计中，深度预测模块和姿态预测模块是相辅相成的。为了测试深度预测模块，对姿态预测模块的影响。在具体实施例中可采用了KITTI odometry数据集来测试姿态预测模块的精度，该数据集包含11个序列，并具有真实的pose信息。其中00-08序列用于训练神经网络，09-10用于测试姿态预测模块的精度。比如：采用5帧图像的平均绝对的轨道误差(ATE)来评价姿态预测模块的准确性。

为了测试深度预测模块的泛化性，具体实施时，可将KITTI数据集上训练好的网络直接用到Make3D数据集上进行测试。Make3D数据由400张训练图像和134张测试图像组成。由于，主要目的是测试姿态预测模块的泛化能力，所以只使用Make3D的134张测试图像。这些测试数据的彩色图像分辨率和深度图像分辨率分别为1704x 2272和305x 55。在此，采用了2x 1的中间裁剪框，将1704x 2272的数据变为了1704x 852的数据，对应的深度图像分辨率则由原来的305x 55变为了305x 21。在此，只在真实深度值不超过70m的像素中测试深度估计的精度。

本发明所述提供的实施例可以在单卡GPU实现110fps的运行，而在单卡CPU上能够获得37fps，因此在GPU和CPU上都实现了实时运行，同时保证了很高的深度预测精度。另外，由于深度预测模块采用了逐通道和逐点卷积代替标准卷积以及网络复用的形式。本发明实施例提供的深度预测模块能够获得很小的网络参数(53Kb)，非常有利于卷积神经网络部署在手机或者嵌入式设备上。

本发明提供了一种单目深度预测模型的生成方法及单目深度预测方法，在进行单目深度预测模型的训练时，预设网络模型由深度预测模块和姿态预测模块组成。深度预测模块输出对应图像的深度图，姿态预测模块则输出相邻帧的相对姿态信息。通过获得的深度图像和姿态信息，将源图像映射到目标图像，得到预测的目标图像，最后将预测的目标图像与真实的目标图像相比较，对预测网络模型的参数进行校正。由于在整个训练过程中，并没有用到真实的深度值，因此本实施例所提供的方法不需要采集真实值，降低了网络对数据集的需求，降低了人工和时间成本。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种单目深度预测模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的单目深度预测模型的生成方法，其特征在于，所述预设网络模型包括：结构相同、参数共享的第一姿态预测模块和第二姿态预测模块，以及深度预测模块；

3.根据权利要求2所述的单目深度预测模型的生成方法，其特征在于，第一姿态预测模块包括：第一编码单元和第一解码单元；

4.根据权利要求2所述的单目深度预测模型的生成方法，其特征在于，第二姿态预测模块包括：第二编码单元和第二解码单元；

5.根据权利要求2所述的单目深度预测模型的生成方法，其特征在于，所述深度预测模块包括特征提取单元、复用单元和第三解码单元；

6.根据权利要求5所述的单目深度预测模型的生成方法，其特征在于，所述复用单元包括k个反向残差子单元，其中，各个反向残差子单元均含有第一逐点卷积层、第一线性整形层、逐通道卷积层、第二线性整形层、压缩与激活层和第二逐点卷积层，其中k是正整数；

将所述第三特征图输入至复用单元，通过所述复用单元重复多次编码处理后，得到与所述第三特征图对应的多个不同尺寸的复用特征图的步骤包括：

将所述第五特征图作为目标输入特征图，将所述下一个反向残差子单元作为下一个目标输入单元，继续执行将第二逐点卷积层的输出与第六特征图逐像素相加后输入至下一个目标输入单元的步骤，直至将目标输入特征图输入至第k个反向残差子单元，通过第k个反向残差子单元得到第一复用特征图；

7.根据权利要求6所述的单目深度预测模型的生成方法，其特征在于，所述第三解码单元，包括：N+1个上采样单元；

8.根据权利要求5所述的单目深度预测模型的生成方法，其特征在于，所述第三解码单元，包括：多个上采样单元，各个上采样单元包括：第一残差卷积子单元、最近上采样子单元、第二残差卷积子单元和第三残差卷积子单元。

9.根据权利要求1所述的单目深度预测模型的生成方法，其特征在于，所述预设网络模型根据所述第一相对姿态信息、第二相对姿态信息和深度信息，对模型参数进行修正的步骤包括：

根据所述第一损失值和第二损失值对模型参数进行修正。

10.一种单目深度预测方法，其特征在于，应用如权利要求1-9任一项所述的单目深度预测模型的生成方法生成的单目深度预测模型，所述单目深度预测方法包括：

获取待预测图像；其中，待预测图像为彩色图像；