CN114693759A

CN114693759A - 一种基于编解码网络的轻量级快速图像深度估计方法

Info

Publication number: CN114693759A
Application number: CN202210336050.1A
Authority: CN
Inventors: 董乐; 张宁; 张文彬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01
Anticipated expiration: 2042-03-31
Also published as: CN114693759B

Abstract

本发明公开了一种基于编解码网络的轻量级快速图像深度估计方法，涉及图像处理和计算机视觉技术领域，图像深度估计方法包括以下步骤：采集图像，同时获取这些图像对应的深度信息作为标签，将它们分成训练集和测试集；构建编码器的网络架构；构建解码器的网络架构；构建注意力模块的网络架构，并在编码器、解码器之间加入带注意力模块的跳跃连接，实现图像细节信息的保留和关注；将训练集中的图像输入到编码器中进行特征提取和编码输出，并结合融入了注意力模块的跳跃连接和解码器架构，对图像特征图层自下而上解码生成最终的深度图像；将训练好的模型通过测试集进行测试。整个网络架构清晰简洁，模型整体小而轻便。

Description

一种基于编解码网络的轻量级快速图像深度估计方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，具体为一种基于编解码网络的轻量级快速图像深度估计方法。

背景技术

在三维场景重建、路径规划导航、视觉测距等多个不同的领域中，图像的深度信息都是必不可少的一部分。目前，图像深度信息的获取主要有两种，一是借助于雷达来实现，比如通过毫米波雷达来测量物体到相机的距离从而获取深度信息；另一种方式是基于深度相机来实现，借助于测量深度的相机直接在拍摄图像时获取到深度图。但是，在这些方法中，都需要额外的一些设备，过程比较繁琐，而且如果在拍摄的时候没有进行深度的测量，那么事后就无法再次获取到深度信息，这对于某些情况下是不可接受的。

图像深度估计是一种单纯基于输入的图像来预测图像深度信息的技术，它可以仅仅依靠普通的摄像机拍摄得到的图像信息，预测得到其对应的深度图。这样就可以不用加入额外的设备，整个图像获取过程比较简单。而且，对于之前已经拍摄得到的图像，也可以借助这个图像深度估计技术来预测其对应的深度图，有效地摆脱了时间上的束缚，可以实现随时随地得到任何一张图像的深度信息，这对于三维场景重建、视觉测距等领域具有重要的现实意义和应用价值。

但是，现有的图像深度估计技术，主要分成两类，一类是采用监督学习的方式，通过搭建一个图像深度预测网络架构，然后输入一张图像，预测输出其对应的深度图像，使用预测得到的深度图像和真实的深度图像之间的差异作为损失函数，对整个网络进行不断地训练优化，最终得到一个具有较小损失值的网络模型，这个模型就可以被用来进行图像的深度预测。另一类则采用非监督学习的方式，通过使用立体相机图像输入信息或者其他信息，结合相机成像时的一些限制，比如重投影关系，构建出一个不依赖于深度标签信息的损失函数，并对网络进行训练优化。这两种方式都有比较出色的工作，但是也存在一些问题，前者依赖于标记好的深度图标签，这比较耗费人力物力；后者根据一些几何约束关系来构建损失函数，可能会引入一些偏差，导致结果不太准确。除此以外，在已有的工作中，通常依赖于比较庞大的深度神经网络来实现深度预测，网络模型较大，运算速度慢，大部分只能运行在服务器上，不能胜任在实际场景中的要求。

发明内容

本发明的目的在于：为了解决现有的图像深度估计只注意到了深度预测的精确度，却忽略了整个网络的运算效率，从而导致提出了非常庞大的网络模型，却无法在实际场景下进行应用的技术问题，本发明提供一种基于编解码网络的轻量级快速图像深度估计方法。

本发明为了实现上述目的具体采用以下技术方案：

一种基于编解码网络的轻量级快速图像深度估计方法，所述图像深度估计方法包括以下步骤：

S1：采集图像，同时获取这些图像对应的深度信息作为标签，将它们分成训练集和测试集；

S2：构建编码器的网络架构，对输入的图像进行特征提取和编码输出；

S3：构建解码器的网络架构，对编码器得到的图像特征图层进行解码处理；

S4：构建注意力模块的网络架构，并在编码器、解码器之间加入带注意力模块的跳跃连接，实现图像细节信息的保留和关注；

S5：将训练集中的图像输入到编码器中进行特征提取和编码输出，并结合融入了注意力模块的跳跃连接和解码器架构，对图像特征图层自下而上解码生成最终的深度图像；

S6：将训练好的模型通过测试集进行测试。

进一步地，构建所述编码器的网络架构包括以下步骤：

S21:在获取到输入的图像后，通过第一层卷积的步长为2、第二层的卷积的步长为1的两层深度可分离卷积处理，并配合padding操作保证图层尺寸的不变性，得到尺寸为原始输入图像1/2的图像特征图层；

S22:对尺寸为原始输入图像1/2的图像特征图层经过第一层卷积的步长为2、第二层的卷积的步长为1的两层深度可分离卷积处理，得到尺寸为原始输入图像1/4的图像特征图层；

S23:再次通过第一层卷积的步长为2、第二层的卷积的步长为1的两层深度可分离卷积处理，得到尺寸为原始输入图像1/8的图像特征图层；

S24:再次对尺寸为原始输入图像1/8的图像特征图层进行步长为2的深度可分离卷积处理，得到尺寸为原始输入图像1/16的图像特征图层，之后，一次性经过五层步长为1的深度可分离卷积处理，得到一个高度抽象的图像特征图层；

S25:最后再使用一个步长为2的深度可分离卷积，使得高度抽象的图像特征图层的尺寸变成原始输入图像的1/32的高度抽象的图像特征图层，送入解码器进行处理解码。

进一步地，构建所述解码器的网络架构包括以下步骤：

S31:对图像特征图层插入零值，将尺寸扩大两倍，然后基于双线性插值的方式，对这些零值进行填充，最终得到一个上采样的图像特征图层；

S32:对编码器得到的高度抽象的图像特征图层自下而上地进行上采样，一共进行五次上采样，从而得到和原始输入图像尺寸一致的图像特征图层；

S33:再将这个图像特征图层通过一个1X1的卷积进行处理，得到最终的深度图像。

进一步地，构建所述注意力模块的网络架构包括以下步骤：

S41:在进行第二、三、四次上采样时，通过跳跃连接将编码器和解码器中的空间尺寸相同的图像特征图层连接在一起，在跳跃连接过程中，加入注意力模块；

S42:g代表解码器中本来具有的图像特征图层，H×W×D代表形状大小，x^l代表编码器中对应的要进行跳跃连接的图像特征图层，在注意力模块中，首先将这两部分分别通过一个1×1的卷积层处理后进行对应相加，然后通过一个ReLU模块进行非线性处理，接着再通过一个1×1的卷积层处理后，在输出的这个图像特征图层上执行Sigmoid操作，生成一个图像掩膜α，最后将编码器中对应的图像特征图层x^l与图像掩膜α相乘，得到最终用来进行跳跃连接的图像特征图层

S43:将图像特征图层

和上采样得到的图像特征图层进行相加，实现了整个跳跃连接的操作，经过三个跳跃连接，并结合着解码器的相关操作生成输入图像所对应的深度图像。

本发明的有益效果如下：

1.本发明一种基于编解码网络的轻量级快速图像深度估计方法，基于输入的普通图像信息，根据编码解码器范式设计了整个图像深度估计网络架构，整个网络架构清晰简洁，模型整体小而轻便，方便在实际的各种不同场景下使用；通过编码器对输入图像进行处理，提出图像中的特征信息并编码处理，然后再对这些特征自下而上进行解码操作，在解码的同时，为了进一步保留和关注到图像中本来的一些细节信息，本发明在编码和解码两部分间加入了跳跃连接，并在跳跃连接上融入了注意力模块；通过整个网络端到端的处理，就可以得到图像对应的深度信息；此外，本发明对网络的内部结构也进行了优化调整，进一步降低了网络的参数量，提高了运算速度，可以快速实现图像的深度估计。

2.在网络内部的卷积、上采样等操作的具体实现上进行了优化，减少了网络模型整体的参数量，从而也提高了运算速度。

附图说明

图1是本发明的框架示意图；

图2是本发明的注意力模块的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明整体上提供了一个基于编码解码器的融入了注意力机制的轻量级快速图像深度估计算法，主要包括采用了深度可分离卷积的优化编码器、基于上采样和深度分离卷积处理的解码器、融入了注意力模块的跳跃连接。整个系统的输入为一个RGB三通道的彩色普通图像，通过整个系统的处理后，最终会预测生成该图像所对应的深度信息图像。

实施例1

如图1所示，本实施例提供一种基于编解码网络的轻量级快速图像深度估计方法，所述图像深度估计方法包括以下步骤：

S1：采集图像，同时获取这些图像对应的深度信息作为标签，将它们分成训练集和测试集；实施时，采集的图像为大样本视觉图像数据。

S2：构建编码器的网络架构，对输入的图像进行特征提取和编码输出；实施时，编码器采用基于深度可分离卷积的编码模块MobileNet。

具体地，构建所述编码器的网络架构包括以下步骤：

本实施例中，在整个编码器中每一层的深度可分离卷积操作之后，都会加入ReLU单元作为激活函数来增加非线性因素，以防止网络过拟合问题。

进一步地，构建所述解码器的网络架构包括以下步骤：

具体地，如图2所示，构建所述注意力模块的网络架构包括以下步骤：

S43:将图像特征图层

S6：将训练好的模型通过测试集进行测试。

综上所述，本发明基于输入的普通图像信息，根据编码解码器范式设计了整个图像深度估计网络架构，整个网络架构清晰简洁，模型整体小而轻便，方便在实际的各种不同场景下使用；通过编码器对输入图像进行处理，提出图像中的特征信息并编码处理，然后再对这些特征自下而上进行解码操作，在解码的同时，为了进一步保留和关注到图像中本来的一些细节信息，本发明在编码和解码两部分间加入了跳跃连接，并在跳跃连接上融入了注意力模块；通过整个网络端到端的处理，就可以得到图像对应的深度信息；此外，本发明对网络的内部结构也进行了优化调整，进一步降低了网络的参数量，提高了运算速度，可以快速实现图像的深度估计。在网络内部的卷积、上采样等操作的具体实现上进行了优化，减少了网络模型整体的参数量，从而也提高了运算速度。

Claims

1.一种基于编解码网络的轻量级快速图像深度估计方法，其特征在于，所述图像深度估计方法包括以下步骤：

S6：将训练好的模型通过测试集进行测试。

2.根据权利要求1所述的一种基于编解码网络的轻量级快速图像深度估计方法，其特征在于，构建所述编码器的网络架构包括以下步骤：

3.根据权利要求2所述的一种基于编解码网络的轻量级快速图像深度估计方法，其特征在于，构建所述解码器的网络架构包括以下步骤：

4.根据权利要求3所述的一种基于编解码网络的轻量级快速图像深度估计方法，其特征在于，构建所述注意力模块的网络架构包括以下步骤：

S43:将图像特征图层