CN116168070B

CN116168070B - 一种基于红外图像的单目深度估计方法及系统

Info

Publication number: CN116168070B
Application number: CN202310059546.3A
Authority: CN
Inventors: 丁萌; 李帅; 许娟; 刘浩; 宫淑丽
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-10-13
Anticipated expiration: 2043-01-16
Also published as: CN116168070A

Abstract

本发明公开了一种基于红外图像的单目深度估计方法及系统。该方法包括：获取红外图像数据集，并将所述红外图像数据集划分为训练集和测试集；构建深度估计网络和位姿估计网络；通过所述训练集对所述深度估计网络和所述位姿估计网络进行训练；训练过程为自监督学习过程；通过所述测试集对训练后的深度估计网络进行测试；通过测试后的深度估计网络估计红外图像的深度。本发明基于深度估计网络实现了对红外图像的单目深度估计，增强了对物体边缘信息或者小物体信息的提取能力，并且大大降低了参数量和计算量，减少了模型的复杂度，显著提升了模型性能。

Description

一种基于红外图像的单目深度估计方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于红外图像的单目深度估计方法及系统。

背景技术

当前，国内外在深度学习这一研究领域已经取得巨大的进展，基于深度学习的图像处理技术已经被广泛用于安防监控、车辆辅助驾驶等民用领域以及军事侦察、实时监控等军事领域。其中，如何对二维图像进行深度估计、获取图像中各场景目标的深度信息已经成为三维立体重建、障碍物检测、自动避障等众多上层任务的重要基础，深刻地影响着无人驾驶、视觉导航等智能技术的发展进程。但是由于光照条件的限制，基于可见光图像的深度学习往往存在着一定的局限性，在夜晚或阴天等照明条件不佳的状态下存在着较大误差。红外成像技术作为一项高新技术，有着巨大的发展前景。该技术通过使用红外热像仪接受检测目标发出的辐射，经过光电转换后将其转换成可见图像，避免了光照条件的限制，在一定程度上弥补了可见光图像的不足，但是由于红外图像本身具有对比度低、分辨率低、目标细节信息不足的问题，很难从中提取出关键信息，因此如何在红外图像的基础上准确地提取出图像深度信息成为了当前亟待解决的问题

发明内容

本发明的目的是提供一种基于红外图像的单目深度估计方法及系统，用以准确地提取出单张红外图像的深度信息。

为实现上述目的，本发明提供了如下方案：

一种基于红外图像的单目深度估计方法，包括：

获取红外图像数据集，并将所述红外图像数据集划分为训练集和测试集；

构建深度估计网络和位姿估计网络；所述深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，所述解码端特征融合模块包括与输出端相连的通道注意力模块；所述位姿估计网络采用全卷积网络；

通过所述训练集对所述深度估计网络和所述位姿估计网络进行训练；训练过程为自监督学习过程；

通过所述测试集对训练后的深度估计网络进行测试；

通过测试后的深度估计网络估计红外图像的深度。

可选地，通过所述训练集对深度估计网络和位姿估计网络进行训练，具体包括：

将所述训练集中的前一帧红外图像输入至所述深度估计网络中，得到所述前一帧红外图像中每个像素点对应的深度值；

将所述训练集中当前帧红外图像和所述前一帧红外图像输入至所述位姿估计网络中，得到所述当前帧红外图像和所述前一帧红外图像中对应像素点之间的位姿变换矩阵；

根据所述深度值以及所述位姿变换矩阵，采用重投影公式对所述当前帧红外图像进行重建；

计算重建后的图像与所述当前帧红外图像之间的误差；

根据所述误差反向优化所述深度估计网络和所述位姿估计网络的参数，使所述误差不断降低至阈值范围内，完成训练。

可选地，所述重投影公式如下：

其中，Z₂表示当前帧红外图像中每个像素点对应的深度值，Z₁表示前一帧红外图像中每个像素点对应的深度值，(R，T)表示位姿变换矩阵，K表示摄像机内参数矩阵，(u₁,v₁)表示前一帧红外图像中像素点的位置，(u₂,v₂)表示当前帧红外图像中像素点的位置。

可选地，所述编码端特征提取模块由Resnet18网络组成，用于对所述输入的红外图像进行卷积池化操作产生不同维度的特征图；

所述中间特征聚合模块用于聚合同层和下层维度的所述不同维度的特征图，以及前序同层和下层维度的中间特征节点特征，并传递给后序的中间节点或者解码端特征节点；

所述解码端特征融合模块，将下层维度的解码端特征向量、同层维度的中间聚合特征向量，以及同层维度的编码端特征向量进行通道维度堆叠；

所述通道注意力模块为ECANet。

可选地，所述通道注意力模块中的操作包括：全局平均值池化操作、卷积核为k的卷积操作、Sigmoid激活函数操作以及向量相乘操作。

可选地，所述位姿估计网络的解码部分包括依次连接的一个1×1卷积层、2个3×3卷积层以及一个1×1卷积层。

本发明还提供了一种基于红外图像的单目深度估计系统，包括：

数据集获取模块，用于获取红外图像数据集，并将所述红外图像数据集划分为训练集和测试集；

模型构建模块，用于构建深度估计网络和位姿估计网络；所述深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，所述解码端特征融合模块包括与输出端相连的通道注意力模块；所述位姿估计网络采用全卷积网络；

训练模块，用于通过所述训练集对所述深度估计网络和所述位姿估计网络进行训练；训练过程为自监督学习过程；

测试模块，用于通过所述测试集对训练后的深度估计网络进行测试；

深度估计模块，用于通过测试后的深度估计网络估计红外图像的深度。

可选地，所述训练模块具体包括：

第一输入单元，用于将所述训练集中的前一帧红外图像输入至所述深度估计网络中，得到所述前一帧红外图像中每个像素点对应的深度值；

第二输入单元，用于将所述训练集中当前帧红外图像和所述前一帧红外图像输入至所述位姿估计网络中，得到所述当前帧红外图像和所述前一帧红外图像中对应像素点之间的位姿变换矩阵；

重建单元，用于根据所述深度值以及所述位姿变换矩阵，采用重投影公式对所述当前帧红外图像进行重建；

误差计算单元，用于计算重建后的图像与所述当前帧红外图像之间的误差；

参数优化单元，用于根据所述误差反向优化所述深度估计网络和所述位姿估计网络的参数，使所述误差不断降低至阈值范围内，完成训练

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明将训练集中的红外图像分别输入深度估计网络与位姿估计网络中，前者生成深度像素级的深度信息，后者得到姿态变化；通过深度信息和姿态变化重投影新的图像，将该图像与输入原图像进行比较并计算损失，再反向优化学习参数，构建自监督学习监督信息；通过自监督学习得到训练后的红外图像单目深度估计网络模型。本发明基于深度估计网络实现了对红外图像的单目深度估计，增强了对物体边缘信息或者小物体信息的提取能力，并且大大降低了参数量和计算量，减少了模型的复杂度，显著提升了模型性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于红外图像的单目深度估计方法的流程图；

图2为训练过程的具体原理示意图；

图3为重投影(图像重建)的原理图；

图4为深度估计网络的结构图；

图5为ECANet的结构图；

图6为位姿估计网络的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本发明提供的基于红外图像的单目深度估计方法，包括以下步骤：

步骤101：获取红外图像数据集，并将红外图像数据集划分为训练集和测试集。

红外图像数据集来源于红外视频，将红外图像按照固定帧率制作成连续的红外图像序列，并按比例划分为测试集和验证集，因为是自监督学习，所以无需标定对应标签数据。

步骤102：构建深度估计网络和位姿估计网络；深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，解码端特征融合模块包括与输出端相连的通道注意力模块；位姿估计网络采用全卷积网络。

其中，深度估计网络的构建过程如下：

构建编码端特征提取模块；编码端特征提取模块由Resnet18网络组成，使输入红外图像通过卷积池化等操作而产生不同维度的特征图。

构建中间特征聚合模块；中间特征聚合模块用于聚合同层和下层维度的不同维度的编码端特征，以及前序同层和下层维度的中间特征节点特征，并处传递给后序的中间节点或者解码端特征节点，实现多尺度的特征聚合。

构建解码端特征融合模块；解码端特征融合模块，将下层维度的解码端特征向量、同层维度的中间聚合特征向量，以及同层维度的编码端特征向量进行通道维度堆叠，作为注意力模块的输入；同时在解码端特征融合模块中还需构建注意力模块(即注意力模块为解码端特征融合模块的一部分)：注意力模块为通道注意力模块，主要是根据特征通道的不同重要性而对不同通道进行权重分配，进而提高神经网络重要通道对输出结果的影响比重，同时降低不重要通道对输出结果的影响比重。

通道注意力模块为ECANet，相较于另一种通道注意力模块，ECANet摒弃了降维操作，能够有效地捕获通道间的交互关系，避免了降维给通道注意力预测带来的负面影响，并且参数量和计算量大大降低，减少了模型的复杂度，性能却得到了显著提升。

位姿估计网络采用全卷积网络，对图像降维而特征数升维，将提取的特征转为姿态变化。位姿估计网络由两部分组成，一是编码器部分对输入图像本身降维而特征数升维的过程；二是解码器部分将提取到的特征进一步转化为姿态变化。

步骤103：通过训练集对深度估计网络和位姿估计网络进行训练；训练过程为自监督学习过程。

训练阶段的本质为自监督学习阶段，通过使用训练数据集建立自监督信息不断优化深度估计网络与位姿估计网络，降低预测误差，在误差损失降低至一定阈值时，就能基于训练后的模型完成对单张红外图像的深度估计。

自监督信息的实质是根据相机成像和立体几何投影原理，同一视频序列的相邻两帧之间所存在的一种严格的约束关系，利用这种约束关系即可构建自监督信息。设世界坐标系为前一帧图像所在相机位置的机体坐标系，空间点P在第一位置的相机机体坐标系的位置为(X₁,Y₁,Z₁)，则后一帧图像所在相机位置的机体坐标系为(X₂,Y₂,Z₂)，根据两个相机坐标系之间的转换关系，可得：

其中姿态转移矩阵，/>为位置向量，根据小孔成像原理与摄像机内参数矩阵/>空间点P在前一帧和后一帧像素坐标下的位置分别为(u₁,v₁)，(u₂,v₂)，则(u₁,v₁)和(X₁,Y₁,Z₁)，(u₂,v₂)和(X₂,Y₂,Z₂)的关系可表示为：

根据上述两式，可得：

且根据第二个式子可得，

由第三个式子进一步可得，

因此，由上述两式可得，

上式即为重投影公式，从上式可知，(u₂,v₂)和Z₂可以表示为K、R、T和Z₁的函数。因此，在已知摄像机内参数矩阵K，t-1时刻到t时刻的位姿变换矩阵(R,T)和前一个时刻的像素点(u_t-1,v_t-1)及其深度值Z_t-1，就可以重建当前时刻的像素点(u_t,v_t)。利用t时刻实际的像素点作为监督信息，和根据前一时刻t-1重建的像素点进行比较，即可建立一种自监督学习框架。

训练过程的具体原理如2图所示：

本发明的输入为连续红外视频中的前后两帧，其中深度估计网络的输入为前一帧图像，位姿估计网络的输入为前后两帧图像；

深度估计网络对于输入图像进行像素级的深度估计，即提取得到前一帧图像每个像素点对应的深度值Z₁，位姿估计网络提取得到前后两帧图像中对应像素之间的位姿变换矩阵R、T，但此时的深度值与位姿变换矩阵仅为初始值，与实际误差非常大。

输出的深度值Z₁与位姿变换矩阵R、T在图像重建部分基于重投影公式对当前帧进行图像重建，并计算重建的当前帧与原图之间的误差；

重投影(图像重建)的原理如下：如3图所示，世界坐标系下的三维空间点P映射到两个不同拍摄角度的相机的图像坐标系中，再转换到像素坐标系下得到像素点p₁和p₂的坐标(p₁为空间点在左相机中的映射像素点，p₂为空间点在右相机中的映射像素点)；两个相机坐标系之间存在着一个固定的坐标转换关系，即上文中提到的位姿变换矩阵(R,T)，

基于重投影公式，利用左相机系中的二维坐标、空间点深度以及位姿变换矩阵(R,T)可以计算得到该点在右相机系中对应的二维坐标但是该坐标仅为通过计算得到的一个理论坐标，与实际坐标p₂存在着一定误差，即为重投影误差；

重投影误差指的真实三维空间点在图像平面上的投影(也就是图像上的真实像素点)和重投影(通过公式计算得到的虚拟的像素点)的差值，因为种种原因计算得到的值和实际情况不会完全相符，此时也就需要将这些差值的和最小化获取最优的相机位姿参数及三维空间点的坐标(深度)，基于此便能构建自监督学习信息；

本发明中的输入图像为前后两帧图像，但是原理与左右帧图像类似，在此不再赘述。

在本发明中，需要逐像素计算重投影损失构建自监督信息，反向优化深度估计网络与位姿估计网络中的相关学习参数，输出更准确的深度值与位姿变换矩阵至图像重建部分，并反复迭代此过程以降低重投影误差，最终不断优化深度估计网络与位姿估计网络模型，使深度估计的性能与鲁棒性更好。

以下将通过实例介绍深度估计网络的深度特征提取过程，以图4为例：

深度估计网络包含的操作如下：

Skip Connection：跳连接，即通道维度拼接，特性向量大小不变、通道数量直接相加；

Up-sampling：上采样，采用反卷积操作，特征向量大小增大一倍，通道数量等于卷积核数量；

A卷积：图4中Conv-A卷积操作，卷积核大小为7*7，s＝2，p＝1，该卷积使特征特征向量大小减小一半，通道数量等于卷积核数量；

B卷积：图4中Conv-B卷积操作，卷积核大小为3*3，s＝1，p＝1，该卷积不改变特征向量大小，通道数量等于卷积核数量；

C卷积：图4中Conv-C卷积操作，卷积核大小为3*3，s＝2，p＝1，该卷积使特征特征向量大小减小一半，通道数量等于卷积核数量；

D卷积：图4中Conv-D卷积操作，卷积核大小为1*1，s＝2，p＝0，该卷积使特征特征向量大小减小一半，通道数量等于卷积核数量；

E卷积：图4中Conv-E卷积操作，卷积核大小为1*1，s＝1，p＝1，该卷积不改变特征向量大小，通道数量等于卷积核数量；

Max Pooling：最大值池化操作，池化核为2*2，使特征向量大小减小一半，通道数量不变；

Element-wide Addition：向量逐元素相加操作，不改变向量大小和通道维度；

ECANet：通道注意力机制，具体操作下文将展开介绍；

在编码端特征提取模块中，代表第编码器端第i层特征提取节点的输入特征向量，/>代表第编码器端第i层特征提取节点的输出特征向量。

假设输入的单目红外图像尺寸为640*320*1，则编码端第一层节点的输入向量维度为640*320*1，经过一次A卷积后，该节点的输出向量/>大小为320*160*64，经过池化核为2的最大值池化操作后，降低特征向量大小，成为了编码端第二层节点的输入向量/>维度为160*80*64。

第二层编码端特征提取节点中，输入向量经历两次B卷积，接着和特征向量进行逐元素相加操作，得到一个新的向量，维度为160*80*64，该向量经过上述相同操作，即两次B卷积后和该向量逐元素相加，得到编码器第二层节点输出向量/>维度为160*80*64。

第三层编码端特征提取节点中，第二层节点的输出向量即为编码端第三层节点的输入向量/>向量大小为160*80*64，/>输入到两条支路中，在支路1中/>依次经过C卷积和B卷积，使/>大小减小一倍，通道数量增大一倍，在支路2中/>经过D卷积，使其大小减小一倍，通道数量增大一倍，将两个支路的输出向量进行逐元素相加操作，得到维度为80*40*128的向量，该向量经过两次B卷积操作后再和其本身进行逐像素相加，最终得到编码器第三层节点的输出向量/>维度为80*40*128。

第四层编码端特征提取节点中，第三层节点的输出向量即为编码端第四层节点的输入向量/>向量维度为80*40*128，/>输入到两条支路中，在支路1中/>依次经过C卷积和B卷积，使/>大小减小一倍，通道数量增大一倍，在支路2中/>经过D卷积，使其大小减小一倍，通道数量增大一倍，将两个支路的输出向量进行逐元素相加操作，得到维度为40*20*256的向量，该向量经过两次B卷积操作后再和其本身进行逐像素相加，最终得到编码器第三层节点的输出向量/>维度为40*20*256。

第五层编码端特征提取节点中，第四层节点的输出向量即为编码端第四层节点的输入向量/>向量维度为40*20*256，/>输入到两条支路中，在支路1中/>依次经过C卷积和B卷积，使/>大小减小一倍，通道数量增大一倍，在支路2中/>经过D卷积，使其大小减小一倍，通道数量增大一倍，将两个支路的输出向量进行逐元素相加操作，得到维度为20*10*512的向量，该向量经过两次B卷积操作后再和其本身进行逐像素相加，最终得到编码器第三层节点的输出向量/>维度为20*10*512。

在中间特征聚合模块中，代表第i层第j个中间特征聚合节点的输入特征向量，/>代表着第i层第j个中间特征聚合节点的输出特征向量。

为第一层第一个中间节点的输入向量，其来源为上文特征向量/>(320*160*64)和/>(160*80*64)，其中/>通过上采样操作后向量大小扩大一倍，通道数不变，维度变为320*160*64，并直接和/>进行通道维度拼接，因此/>向量维度为320*160*128，在经过B卷积操作后，向量大小不变，但是通道数量减小一半，得到该中间节点的输出特征向量/>其维度为320*160*128。

为第二层第一个中间节点的输入向量，其来源为上文特征向量/>(160*80*64)和/>(80*40*128)，其中/>通过上采样操作后向量大小扩大一倍，通道数减小一半，维度变为160*80*64，并直接和/>进行通道维度拼接，因此/>向量维度为160*80*128，在经过B卷积操作后，向量大小不变，但是通道数量减小一半，得到该中间节点的输出特征向量/>其维度为160*80*64。

为第三层第一个中间节点的输入向量，其来源为上文特征向量/>(80*40*128)和/>(40*20*256)，其中/>通过上采样操作后向量大小扩大一倍，通道数减小一半，维度变为80*40*128，并直接和/>进行通道维度拼接，因此/>向量维度为80*40*256，在经过B卷积操作后，向量大小不变，但是通道数量减小一半，得到该中间节点的输出特征向量/>其维度为80*40*128。

为第一层第二个中间节点的输入向量，其来源为上文特征向量/>(320*160*64)、/>(320*160*64)以及中间特征聚合模块第二层第一个节点的输出向量/>(160*80*64)，其中/>通过上采样操作后向量大小扩大一倍，通道数不变，维度变为320*160*64，并直接和/>进行通道维度拼接，因此/>向量维度为320*160*192，在经过B卷积操作后，向量大小不变，但是通道数量变为64，得到该中间节点的输出特征向量其维度为320*160*64。

为第二层第二个中间节点的输入向量，其来源为上文特征向量/>(160*80*64)、/>(160*80*64)以及中间特征聚合模块第三层第一个节点的输出向量/>(80*40*128)，其中/>通过上采样操作后向量大小扩大一倍，通道数变为64，维度变为160*80*64，并直接和/>进行通道维度拼接，因此/>向量维度为160*80*192，在经过B卷积操作后，向量大小不变，但是通道数量变为64，得到该中间节点的输出特征向量/>其维度为160*80*64。

为第一层第三个中间节点的输入向量，其来源为上文特征向量/>(320*160*64)、/>(320*160*64)、/>(320*160*64)以及中间特征聚合模块第二层第二个节点的输出向量/>(160*80*64)，其中/>通过上采样操作后向量大小扩大一倍，通道数不变，维度变为320*160*64，并直接和/>进行通道维度拼接，因此向量维度为320*160*256，在经过B卷积操作后，向量大小不变，但是通道数量变为64，得到该中间节点的输出特征向量/>其维度为320*160*64。

在解码端特征融合模块中，代表解码器端第i层特征融合节点的输入特征向量，/>代表第解码器端第i层特征融合节点的输出特征向量，其中ECANet为加入的通道注意力模块，能够提高特征向量中重要通道对输出结果的影响比重，降低不重要通道对输出结果的影响比重，有助于特征提取能力，下面将介绍ECANet的结构及整个解码器端的工作过程，图5为ECANet的结构图。

如5图所示，ECANet结构包含的操作有全局平均值池化(GAP)、卷积核为k的卷积、Sigmoid激活函数以及向量相乘等操作；

假设ECANet部分的输入向量为U＝[u₁,u₂,…u_S]∈R^S×h×w，独立地对输入每个特征通道进行全局平均池化(GAP)：

其中u_n∈R^h×w为第n个通道维度的特征图，F_sq(·)为全局平均池化操作(GAP)，z_n为经过全局平均池化操作后的各通道特征值，其中Z＝[z₁,z₂,…,z_C]∈R^S×1。

为了捕获局部的跨通道交互，即只考虑每个通道与其k近邻之间的相互作用，各通道对应的通道注意力权重可以计算为：

Z'＝σ(C1D_k(Z))

其中，该操作为一维卷积，Z'＝[z₁',z₂',…,z_S']∈R^S×1为各通道对应的通道注意力权重，k为卷积核大小，代表着有多少个相近邻通道参与一个通道的注意力预测，即局部跨信道交互的覆盖率，它的数量直接关系到了ECANet模块的计算效率和复杂度。

在经过Sigmoid函数操作后，将权重向量与原始特征图相乘，最终得到新的特征图，用于后续深度估计：

u_n'＝z_n'u_n

针对k数量的设定，提出了一种自适应计算的方法：根据特征向量的通道数量S来生成。通道数k和S有着以下关系：

S＝φ(k)＝2^γ×k-b

由此关系式可以推出自适应k的计算公式：

其中，|·|_odd表示取离括号内参数最近的奇数，通常γ＝2，b＝1。

此部分的k关系到上述公式中卷积，只有确定了k的大小才能实现卷积核数量为k的一维卷积。

在编码器端节点中，即为上述ECANet的输入向量U，ECANet的输出向量U’经过E卷积操作后，得到该节点的输出向量/>并传递给后续节点。

在第五层编码端特征提取节点中，输入向量直接来源于编码器端第五层特征提取节点的输出向量/>(20*10*512)，因此/>维度为20*10*512，并且为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为20*10*512，并在后续将特征信息传递给解码器第四层节点。

在第四层编码端特征提取节点中，输入向量来源于编码器端第四层特征提取节点的输出向量/>(40*20*256)和第五层编码端特征融合节点的输出向量/>(20*10*512)，其中/>经过上采样操作后大小增加一倍，通道数量减小一半变为256，维度为40*20*256，然后和/>进行通道维度拼接，得到该节点的输入向量/>维度为40*20*512，,并且为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为40*20*256，并在后续将特征信息传递给解码器第三层节点。

在第三层编码端特征提取节点中，输入向量来源于编码器端第三层特征提取节点的输出向量/>(80*40*128)、第三层第一个中间节点的输出向量/>(80*40*128)和第四层编码端特征融合节点的输出向量/>(40*20*256)，其中/>经过上采样操作后大小增加一倍，通道数量减小一半变为128，维度为80*40*128，然后和/>进行通道维度拼接，得到该节点的输入向量/>维度为80*40*384，并且为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为80*40*128，并在后续将特征信息传递给解码器第二层节点。

在第二层编码端特征提取节点中，输入向量来源于编码器端第二层特征提取节点的输出向量/>(160*80*64)、第二层第一个中间节点的输出向量/>(160*80*64)、第二层第二个中间节点的输出向量/>(160*80*64)和第三层编码端特征融合节点的输出向量/>(80*40*128)，其中/>经过上采样操作后大小增加一倍，通道数量减小一半变为64，维度为160*80*64，然后和/>进行通道维度拼接，得到该节点的输入向量/>维度为160*80*256，并且为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为160*80*64，并在后续将特征信息传递给解码器第一层节点。

在第一层编码端特征提取节点中，输入向量来源于编码器端第一层特征提取节点的输出向量/>(320*160*64)、第一层第一个中间节点的输出向量/>(320*160*64)、第一层第二个中间节点的输出向量/>(320*160*64)、第一层第三个中间节点的输出向量/>(320*160*64)和第二层编码端特征融合节点的输出向量/>(160*80*64)，其中/>经过上采样操作后大小增加一倍，通道数量不变仍为64，维度为320*160*64，然后和进行通道维度拼接，得到该节点的输入向量/>维度为320*160*320，并且为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为320*160*32，并在后续将特征信息传递给解码器第0层节点。

在第0层编码端特征提取节点中，输入向量直接来源于第一层编码端特征融合节点的输出向量/>(320*160*32)，其中/>经过上采样操作后大小增加一倍，通道数量减小一半变为16，维度为640*320*16，然后作为ECANet的输入向量U，而U’为ECANet的输出向量，具体操作如上文，U’经过E卷积操作后得到了该节点的输出特征向量/>维度为640*320*16。

在最后阶段，上述(640*320*16)经过两次B卷积操作和Sigmoid激活函数后，深度特征向量维度变为640*320*1，对应元素即为像素级的深度值。

位姿估计网络结构及工作过程如图6所示。上文已经说明，位姿估计网络的输入图像为前后两帧单目红外图像，因此转为输入向量后其维度变为640*320*2(单张红外图像的输入维度为640*320*1)，由图可以看出，位姿估计网络所包含的操作如下：

A操作：(Conv3*3,BN,Relu)，卷积核为3*3的卷积操作、批标准化、Relu激活函数；

B操作：(Maxpooling2*2)，池化核为2*2的最大值池化操作；

C操作：(Conv1*1)，卷积核为1*1的卷积操作；

如图6所示，位姿估计网络从输入特征向量开始，每经过2次Conv3*3，BN,Relu操作后便进行一次最大值池化操作，其中卷积操作改变特征向量的通道数，最大值池化使特征向量大小减小一半，以下将以640*320*2的输入特征向量为例介绍位姿变换矩阵的提取过程：

输入特征向量(640*320*64)经过一次A操作后，大小不变，通道数量变为64，维度变为640*320*64，再经过一次A操作特征向量维度不变，然后经过B操作使特征向量大小减小一半，维度变为320*160*64。

上述特征向量(320*160*64)经过一次A操作后，大小不变，通道数量变为128，维度变为320*160*128，再经过一次A操作特征向量维度不变，然后经过B操作使特征向量大小减小一半，维度变为160*80*128。

上述特征向量(160*80*128)经过一次A操作后，大小不变，通道数量变为256，维度变为160*80*256，再经过一次A操作特征向量维度不变，然后经过B操作使特征向量大小减小一半，维度变为80*40*256。

上述特征向量(80*40*256)经过一次A操作后，大小不变，通道数量变为512，维度变为80*40*512，再经过一次A操作特征向量维度不变，然后经过B操作使特征向量大小减小一半，维度变为40*20*512。

上述特征向量(40*20*512)经过一次A操作后，大小不变，通道数量变为1024，维度变为40*20*1024，再经过一次A操作特征向量维度不变，然后经过C操作不改变特征向量大小，但是将通道数量降为256，特征向量维度变为40*20*256，再经过两次A操作后，进一步提取高级语义特征，不改变特征向量维度，仍为40*20*256，最后一步经过C操作后，使特征向量维度变为1*6*1，即为网络所需要的六自由度信息，进而构成后续重投影操作所需要的位姿变换矩阵(RT矩阵)。

步骤104：通过测试集对训练后的深度估计网络进行测试。

测试阶段仅包含深度估计网络(即上文中训练完成后的网络)，该网络经过了对大量训练数据集的学习，因此仅需输入单张图像就能准确提取出图像的深度信息，并基于各像素点的深度值生成深度图；位姿估计网络作用仅为辅助深度估计网络的自监督学习，因此在测试阶段已无需再发挥作用。

步骤105：通过测试后的深度估计网络估计红外图像的深度。

本发明通过对深度估计网络模型的结构进行了改进，使红外图像单目深度估计效果获得了提高，具体改进为：1、改进了深度估计网络模型结构，修改了跳连接方式，将原始的网络结构编解码器之间的对应的长连接修改成综合长连接和短连接的连接方式，在网络中加入许多中间特征聚合节点，最终可以实现不同层次特征的抓取，并且将这些特征通过叠加的方式整合，使其被不断地再利用，能够增强对物体边缘信息或者小物体信息的提取能力；2、在深度估计网络解码器端加入了通道注意力模块ECANet，由于原始通道注意力模块SENet会使模型变得十分复杂，从而导致计算负担巨大，计算成本也显著上升，并且在SENet中采取了降维操作，对通道注意力的预测会产生负面影响，并且效率低下，而ECANet摒弃了降维操作，能够有效地捕获通道间的交互关系，避免了降维给通道注意力预测带来的负面影响，并且参数量和计算量大大降低，减少了模型的复杂度，性能却得到了显著提升。

本发明基于深度卷积网络实现了对红外图像的单目深度估计，增强对物体边缘信息或者小物体信息的提取能力，并且大大降低了参数量和计算量，减少了模型的复杂度，显著提升了模型性能。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供了一种基于红外图像的单目深度估计系统。

该系统包括：

数据集获取模块，用于获取红外图像数据集，并将红外图像数据集划分为训练集和测试集；

模型构建模块，用于构建深度估计网络和位姿估计网络；深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，解码端特征融合模块包括与输出端相连的通道注意力模块；位姿估计网络采用全卷积网络；

训练模块，用于通过训练集对深度估计网络和位姿估计网络进行训练；训练过程为自监督学习过程；

测试模块，用于通过测试集对训练后的深度估计网络进行测试；

其中，训练模块具体包括：

第一输入单元，用于将训练集中的前一帧红外图像输入至深度估计网络中，得到前一帧红外图像中每个像素点对应的深度值；

第二输入单元，用于将训练集中当前帧红外图像和前一帧红外图像输入至位姿估计网络中，得到当前帧红外图像和前一帧红外图像中对应像素点之间的位姿变换矩阵；

重建单元，用于根据深度值以及位姿变换矩阵，采用重投影公式对当前帧红外图像进行重建；

误差计算单元，用于计算重建后的图像与当前帧红外图像之间的误差；

参数优化单元，用于根据误差反向优化深度估计网络和位姿估计网络的参数，使误差不断降低至阈值范围内，完成训练。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于红外图像的单目深度估计方法，其特征在于，包括：

构建深度估计网络和位姿估计网络；所述深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，所述解码端特征融合模块包括与输出端相连的通道注意力模块；所述位姿估计网络采用全卷积网络；所述编码端特征提取模块由Resnet18网络组成，用于对输入的红外图像进行卷积池化操作产生不同维度的特征图；所述中间特征聚合模块用于聚合同层和下层维度的所述不同维度的特征图，以及前序同层和下层维度的中间特征节点特征，并传递给后序的中间节点或者解码端特征节点；所述解码端特征融合模块，将下层维度的解码端特征向量、同层维度的中间聚合特征向量，以及同层维度的编码端特征向量进行通道维度堆叠；所述通道注意力模块为ECANet；

通过所述测试集对训练后的深度估计网络进行测试；

通过测试后的深度估计网络估计红外图像的深度。

2.根据权利要求1所述的基于红外图像的单目深度估计方法，其特征在于，通过所述训练集对深度估计网络和位姿估计网络进行训练，具体包括：

计算重建后的图像与所述当前帧红外图像之间的误差；

3.根据权利要求2所述的基于红外图像的单目深度估计方法，其特征在于，所述重投影公式如下：

其中，Z₂表示当前帧红外图像中每个像素点对应的深度值，Z₁表示前一帧红外图像中每个像素点对应的深度值，(R，T)表示位姿变换矩阵，K表示摄像机内参数矩阵，(u₁，v₁)表示前一帧红外图像中像素点的位置，(u₂，v₂)表示当前帧红外图像中像素点的位置。

4.根据权利要求1所述的基于红外图像的单目深度估计方法，其特征在于，所述通道注意力模块中的操作包括：全局平均值池化操作、卷积核为k的卷积操作、Sigmoid激活函数操作以及向量相乘操作。

5.根据权利要求1所述的基于红外图像的单目深度估计方法，其特征在于，所述位姿估计网络的解码部分包括依次连接的一个1×1卷积层、2个3×3卷积层以及一个1×1卷积层。

6.一种基于红外图像的单目深度估计系统，其特征在于，包括：

模型构建模块，用于构建深度估计网络和位姿估计网络；所述深度估计网络包括编码端特征提取模块、中间特征聚合模块以及解码端特征融合模块，所述解码端特征融合模块包括与输出端相连的通道注意力模块；所述位姿估计网络采用全卷积网络；所述编码端特征提取模块由Resnet18网络组成，用于对输入的红外图像进行卷积池化操作产生不同维度的特征图；所述中间特征聚合模块用于聚合同层和下层维度的所述不同维度的特征图，以及前序同层和下层维度的中间特征节点特征，并传递给后序的中间节点或者解码端特征节点；所述解码端特征融合模块，将下层维度的解码端特征向量、同层维度的中间聚合特征向量，以及同层维度的编码端特征向量进行通道维度堆叠；所述通道注意力模块为ECANet；

7.根据权利要求6所述的基于红外图像的单目深度估计系统，其特征在于，所述训练模块具体包括：

参数优化单元，用于根据所述误差反向优化所述深度估计网络和所述位姿估计网络的参数，使所述误差不断降低至阈值范围内，完成训练。