CN115100090A

CN115100090A - 一种基于时空注意的单目图像深度估计系统

Info

Publication number: CN115100090A
Application number: CN202210646212.1A
Authority: CN
Inventors: 明悦; 范春晓; 孟旭阳; 韦秋吉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-23

Abstract

本发明提供了一种基于时空注意的单目图像深度估计系统。包括：时空学习模块接收输入的单目图像序列，学习单目图像序列中的时空特征；时空增强模块对时空特征序列进行池化操作获得融合特征，对融合特征执行自注意力操作，得到空间增强后的时空特征；采用卷积操作分别对相邻视图的时空特征进行压缩，采用迭代选择的方式在不同特征图之间执行互注意力操作，得到时序关联特征。时空解码模块对空间增强后的时空特征和时序关联特征进行上采样，输出与图像深度大小相同的深度图。本发明系统不仅对单目视频中空间结构信息和时序关联信息的关注与学习，而且增强了网络对时空特征的映射和表达能力，重建了与输入图像序列的时空特征保持一致的单目深度图。

Description

一种基于时空注意的单目图像深度估计系统

技术领域

本发明涉及单目图像深度估计技术领域，尤其涉及一种基于时空注意的单目图像深度估计系统。

背景技术

深度图像中的每个像素点的灰度值，即深度，可用于表征场景中的点距离传感器的远近。单目图像深度估计指的是从单目相机拍摄的单张或多张彩色图像中估计场景深度图的过程。单目图像深度估计只需要一个普通相机，具有成本低、操作方便的优点，且现实生活中提供的数据信息多为单视觉信息；此外，单目图像呈现的场景信息较少，且单目图像深度估计自身存在不适定性，给单目图像深度估计任务带来了更大的挑战。因此，单目图像深度估计成为深度估计领域的研究热点和研究难点。

单目图像深度估计不仅具有重要的研究价值，在实际场景中也有着巨大的应用价值：在智能驾驶领域，精确的深度估计能够规范无人车的运动轨迹，并对其所在场景进行高精度的建模；在智能医疗领域，深度信息有助于定位损伤区域，减少因器官变形或移位导致的判断失误；在智能机器人领域，目标的深度信息对智能机器人躲避障碍物、安全规划行进轨迹、路径智能导航、抓取目标物体和目的地指引等行为都起到至关重要的作用。在虚拟现实领域，深度估计作为场景三维建模的基础技术，有利于三维模拟环境的准确构建。除此之外，单目图像深度估计还广泛应用在三维视频制作、视频监控、活体检测、人机交互等领域。

单目深度图中的场景空间结构信息不仅与当前视图中的深度信息有关，相邻视图之间的时序关联信息也会影响场景空间结构的恢复。因此，为了重建高精度的单目深度图，除了要关注当前视图中物体表面特征的空间信息之外，还需要关注相邻视图之间场景特征的时序关联关系。忽略单目视频中相邻视图的时序信息，容易导致对应点特征的错误匹配，使得该点映射到三维空间中的深度值存在偏移，恢复的深度图中物体空间结构不准确，出现漂移等问题，在实际应用中会影响机器人、自动驾驶汽车等设备对障碍物尺寸的判断。

目前，现有技术中的单目图像深度估计方法主要依靠深度线索估计图像深度值，如从聚焦/散焦中恢复深度、从阴影中恢复深度、从运动中恢复深度等，依赖深度线索的方法对图像要求较高，要求图像中必须存在聚焦/散焦、遮挡、阴影、运动等特定情况，算法复杂度较高，而且实用性较差，也不能满足实时性的需求。之后，研究人员通过设计手工特征来计算图像深度值，但基于手工特征的方法对场景纹理依赖较强，无法在弱/无纹理区域进行深度估计。随着深度神经网络的发展，基于深度学习的方法成为单目深度领域的常用方法。根据网络训练时是否需要地面真实图像，基于深度学习的单目图像深度估计方法可以分为监督学习方法、无监督学习方法和半监督学习方法。

监督学习方法：监督学习方法是指在单目图像深度估计过程中，需要向网络中输入地面真值深度图，深度神经网络通过学习真值图像来估计场景深度的方法，此时的地面真值图像作为监督信号来监督深度神经网络的学习过程。监督学习方法包括有监督的回归方法和有监督的分类方法，分别表示采用有监督的连续回归方法和有监督的有序回归方式来预测单目深度图。

监督学习方法需要大量的地面真实深度图作为监督信号，估计的深度图的精度较高，可以有效地映射场景的三维结构。然而，这类方法对地面真实深度图的依赖性很强，而且地面真实深度图的获取难度较大，目前高质量的、带有地面真实标签的公开数据集也有限。

无监督学习方法：无监督学习方法无需输入地面真实深度图作为监督信号，深度神经网络通过学习彩色图像中的几何关系来进行单目图像深度估计。基于无监督学习的单目图像深度估计方法通常使用左右立体图像序列或者单目视频进行训练，受场景几何的约束，并在单目图像或序列上进行测试，估计场景深度图。

无监督学习方法只关心输入的彩色图像之间的几何关系，无需地面真实深度图，减少了构建深度标签的成本；但由于缺少地面真值深度的监督，基于无监督学习方法的深度估计精度要稍逊于基于监督学习的单目图像深度估计方法。

半监督学习方法：半监督型学习方法是指利用地面真值深度图像之外的信息，如合成数据、稀疏深度、表面法线等信息，来辅助深度估计的学习。这类方法不需要深度标签，也不是单纯的只利用单目图像特征，其学习过程中存在辅助信息的帮助，网络的输入包括彩色图像和辅助信息。通常采用的辅助信息有基于计算机合成的虚拟图像、基于激光和雷达的稀疏深度图。

半监督学习方法除了从彩色图像中学习深度特征之外，还结合辅助信息进行单目图像深度估计，这使得深度图的准确度更高。尽管辅助信息比地面真值深度图更容易获得，但仍然增加了网络模型的输入数据量，而且深度估计的准确率对辅助信息的依赖较强。若辅助信息与真实图像之间的差异较大，深度估计的错误率将会大大提高，增大了场景感知的难度。

现有技术中的一种基于卷积神经网络的单目图像深度估计方法采用卷积神经网络(Convolutional Neural Network，CNN)构建网络模型。CNN在深度估计任务中有着出色的表现，能够更好地学习和映射场景的空间结构特征。

采用CNN网络构建深度估计模型，并通过两个子网络对学习到的空间特征解码，分别获得场景图像的初始深度和最终深度，由粗到细地重建单目深度图。使用基于CNN的残差结构捕获场景空间特征，并提出了基于快速上采样的解码网络，但该网络的卷积核较小，网络感受野受限，而且特征解码时只采用了简单的双线性插值来提高深度图的分辨率，导致网络丢失较多的深度特征。为了减少特征的丢失，在解码网络层与对应的编码网络层间添加了跳跃连接，将解码网络中粗糙的深度图与编码网络中精细的空间特征图融合，增强了解码过程中深度特征的映射和表达，提高了深度估计的准确率。除了采用跳跃连接来增强特征解码外，还采用全局结合局部的策略，构建了两个基于全卷积的子网络，分别学习输入图像的局部空间特征和全局空间特征，并利用10个卷积层来映射输入图像的深度梯度变化，利用解卷积层来解码场景全局结构。此外，为了加快深度解码速度，还提出了基于CNN的快速深度解码器，其由五个级联的上采样层和单个逐点层组成，每个上采样层后执行最近邻插值，使得中间特征图的空间分辨率加倍，并使用深度分解来进一步降低所有卷积层的复杂度。

上述现有技术中的基于卷积神经网络的单目图像深度估计方法的缺点包括：卷积神经网络的输入和输出是一一对应的，不同的输入之间互不影响。基于CNN的单目图像深度估计方法考虑了当前输入图像的空间特征，却忽略了单目图像序列中相邻视图之间的时序关联关系，降低了相邻视图中对应点特征的相关性，容易造成深度特征的错误匹配，导致图像中的二维像素点映射到三维空间中时出现漂移等问题。

发明内容

本发明的实施例提供了一种基于时空注意的单目图像深度估计系统，以实现有效地重建与输入图像序列的时空特征保持一致的单目深度图。

为了实现上述目的，本发明采取了如下技术方案。

一种基于时空注意的单目图像深度估计系统，包括：时空学习模块、时空增强模块和时空解码模块；

所述时空学习模块，用于接收输入的单目图像序列，学习所述单目图像序列中的时空特征，将所述时空特征序列传输给时空增强模块；

所述时空增强模块，用于对时空特征序列进行池化操作获得融合特征，对融合特征执行自注意力操作，得到空间增强后的时空特征；采用卷积操作分别对相邻视图的时空特征进行压缩，采用迭代选择的方式在不同特征图之间执行互注意力操作，得到时序关联特征；将空间增强后的时空特征和时序关联特征传输给时空解码模块；

所述时空解码模块，用于通过解卷积模块对空间增强后的时空特征和时序关联特征进行上采样，输出与图像深度大小相同的深度图。

优选地，所述时空学习模块，具体由7个ConvLSTM单元组成，ConvLSTM单元的时空特征学习模块通过卷积运算提取输入的单目图像序列的二维时空特征图，ConvLSTM单元的学习过程表示为：

其中，“*”和

分别表示卷积运算和Hadamard乘积；

和

分别表示输入、单元输出和隐藏状态；“i_t”、“f_t”和“o_t”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图，该特征图为三维张量，且最后两维表示空间维度；“W_x·”和“b·”分别表示对应卷积计算中卷积核和偏移项；

ConvLSTM单元的时空特征学习模块通过特征存储、融合和更新操作来传递相邻帧的二维时空特征图。

优选地，所述时空增强模块包括并行执行的空间注意力子模块和时间注意力子模块；

所述空间注意力子模块，用于增强网络对时空特征的关注与学习，对时空特征分别进行最大池化和平均池化操作获得两个池化特征，融合不同的池化特征，对融合特征执行自注意力操作，得到空间增强后的时空特征，并传输给时空解码模块；

所述时间注意力子模块，用于采用卷积操作分别对相邻视图的时空特征进行压缩，得到两个特征图，采用迭代选择的方式在两个特征图之间执行互注意力操作，计算出经过对应特征互注意力机制增强后的时序关联特征，并传输给时空解码模块。

优选地，所述空间注意力子模块，具体用于采用基于融合特征的自注意力机制，用H×W表示特征分辨率大小，用C和C1分别表示特征通道数和降维后的通道数，用MaxPooling和AvgPooling分别表示最大池化和平均池化操作，对于时空特征

采用两个不同的池化操作：最大池化和平均池化，对时空特征进行特征压缩，分别获得两个维度均为H×W×C1的特征图Φ₁和Φ₂，按照对应通道相加的方式融合特征图

和

获得维度为H×W×C1的特征图Φ₃；对融合特征

执行自注意力操作，将变形后的融合特征分别作为键特征和查询特征，并采用softmax函数对键特征和查询特征进行归一化操作，获得当前时空特征的空间注意力权重图

该自注意力权重图

的大小为HW×HW，

中的每一个元素

表示为：

其中，

表示第i个像素点对第j个像素点的影响；φ_3i和Φ_3j表示融合特征Φ₃的元素；N＝H×W，表示输入图像中的像素点数总和；

将融合特征

再次变形后作为自注意力的值特征Value，并将值特征与空间注意力权重图

进行加权计算，突出选择后的空间特征，将选择后的空间特征与时空特征

进行对应点相加操作，获得经过空间注意力子模块增强后的空间增强特征Φ^S，Φ^S中的每个元素

表示为：

其中，Φ^S的大小为H×W×C，φ_j表示时空特征Φ的元素，

表示特征图Φ₃的元素，α表示尺度系数，输出特征Φ^S是原始特征Φ与每个位置增强后的特征

的加权和。

优选地，所述时间注意力子模块，具体用于用Conv(1×1)表示卷积核为1×1的卷积操作，采用互注意力机制来选择和增强相邻视图之间的时序关联信息；

采用卷积核为1×1的卷积操作分别对相邻视图的时空特征

和

的通道数进行压缩，得到两个维度均为H×W×C2的特征图Φ′_t-1和Φ′_t，采用迭代选择的方式在特征图Φ′_t-1与Φ′t之间执行互注意力操作，将Φ′_t-1和Φ′_t分为两组键特征和查询特征，Φ′_t-1为键特征，Φ′_t为查询特征；Φ′_t为键特征，Φ′_t-1为查询特征，采用Softmax函数对每组迭代选择后的特征进行归一化，分别获得相邻两帧图像的时间注意力权重图

和

其中，

表示t时刻特征对t-1时刻特征的时间注意力权重，

表示t-1时刻特征对t时刻特征的时间注意力权重，两个时间注意力权重图的大小均为HW×HW，其中HW表示特征图分辨率的大小，

中的元素

表示为：

中的元素

表示为：

其中，

表示当前视图Φ′_t对前一视图Φ′_t-1的影响，

表示前一视图Φ′_t-1对当前视图Φ′_t的影响；

和

表示特征图Φ′_t-1的元素，

和

表示特征图Φ′_t的元素；N＝H×W，表示输入图像的像素点数总和；

将同一时刻的时序特征与时间注意力权重进行加权计算，再将加权计算后的时序特征与该时刻的时空特征进行对应点相加，获得经过时间注意力子模块增强后的时序增强特征，t-1时刻的时序增强特征Φ″_t→t-1中的元素

表示为：

t时刻时序增强特征Φ″_t-1→t中的元素

表示为：

其中，时序增强特征Φ″_t→t-1和Φ″_t-1→t的大小均为H×W×C；γ表示尺度系数，

和

表示时空特征Φ_t-1的元素，

和

表示时空特征Φ_t的元素。

由上述本发明的实施例提供的技术方案可以看出，本发明提出的基于时空注意的单目图像深度估计算法，不仅增强单目图像深度估计网络对单目视频中空间结构信息和时序关联信息的关注与学习，而且增强了网络对时空特征的映射和表达能力，重建了与输入图像序列的时空特征保持一致的单目深度图。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于时空注意的单目图像深度估计网络(ST-Depth)结构图；

图2为本发明实施例提供的一种空间注意力子模块的结构图；

图3为本发明实施例提供的一种时间注意力子模块结构图；

图4为本发明实施例提供的一种时间注意力子模块中相邻帧之间的迭代选择方式图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

单目图像深度估计是指输入单幅RGB(红色)，绿色，蓝色)图像，并通过神经网络计算出图像每个像素点的对应物点到相机的距离，输出包含深度信息的深度图的过程。

时空特征缺失导致的场景空间结构漂移问题。基于单目视频恢复的深度图中，场景的空间结构信息不仅与当前视图中的深度信息有关，相邻视图之间的时序关联信息也会影响场景空间结构的恢复。因此，为了重建高精度的单目深度图，除了要关注当前视图中物体表面特征的空间信息之外，还需要关注相邻视图之间场景特征的时序关联关系。

为了充分学习单目视频中的空间结构信息和时序关联信息，并增强时空特征的映射和表达，解决场景空间结构漂移问题，本发明采用双注意力机制策略，提出了基于时空注意的单目图像深度计算方法ST-Depth，同时关注和增强单目视频中的时空特征，减少时空特征的错误映射与漂移。

图1为本发明实施例提供的一种基于时空注意的单目图像深度估计网络(ST-Depth)结构图。其中，“ConvLSTM”表示卷积长短时记忆单元，“Concate”表示特征融合，“Deconvolution”表示解卷积层。ST-Depth网络采用监督学习方式预测单目深度图，该网络主要包括三个模块：时空学习模块、时空增强模块和时空解码模块。

首先，ST-Depth采用基于全ConvLSTM的时空学习模块来同时关注并学习单目图像序列中的时空特征。然后，对于时空学习模块学习到的时空特征，采用基于融合特征自注意力的空间注意力子模块来选择和增强当前视图中空间结构信息的映射和表达，增强局部特征的全局一致性；同时，采用基于对应特征互注意力的时间注意力子模块来选择和增强相邻视图间时序关联信息的映射和表达，增强对应特征的长期关联性。最后，通过时空解码模块融合并进一步解码增强后的时空特征，利用时序关联信息来补偿和优化空间结构信息，降低对应特征点的错误映射和漂移，重建空间结构准确的单目深度图。

时空学习模块由7个ConvLSTM单元组成，用于接收输入的单目图像序列，学习所述单目图像序列中的时空特征序列，将所述时空特征序列传输给时空增强模块；与原始LSTM单元相比，时空学习模块中的ConvLSTM将LSTM单元中的与权重相乘的Hadamard乘积改为卷积运算，用于提取输入图像的二维时空特征图，有利于当前视图空间特征的保存和传输，充分考虑了单目图像序列中的时序关联性。ConvLSTM单元的学习过程可以表示为：

其中，“*”和

分别表示卷积运算和Hadamard乘积；

和

分别表示输入、单元输出和隐藏状态；“i_t”、“f_t”和“o_t”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图，该特征图为三维张量，且最后两维表示空间维度；“W_x·”和“b·”分别表示对应卷积计算中卷积核和偏移项。

因此，基于ConvLSTM单元的时空特征学习模块可以通过特征存储、融合和更新操作来传递相邻帧的特征图，充分考虑了当前视图的空间信息和相邻视图的时序信息，有利于增强单目深度估计网络对单目视频中时空特征的学习和传输。

时空增强模块，用于对时空特征序列进行池化操作获得融合特征，对融合特征执行自注意力操作，得到空间增强后的时空特征；采用卷积操作分别对相邻视图的时空特征进行压缩，采用迭代选择的方式在不同特征图之间执行互注意力操作，得到时序关联特征；将空间增强后的时空特征和时序关联特征传输给时空解码模块。

时空增强模块包括空间注意力子模块和时间注意力子模块，空间注意力子模块和时间注意力子模块是并行执行的。

上述空间注意力子模块，用于增强网络对时空特征的关注与学习，对时空特征分别进行最大池化和平均池化操作获得两个池化特征，融合不同的池化特征，对融合特征执行自注意力操作，得到空间增强后的时空特征，并传输给时空解码模块。

上述时间注意力子模块，用于采用卷积操作分别对相邻视图的时空特征进行压缩，得到两个特征图。然后，采用迭代选择的方式在两个特征图之间执行互注意力操作，计算出经过对应特征互注意力机制增强后的时序关联特征，并传输给时空解码模块。

时空解码模块由7个解卷积块组成，用于解码时空特征并提高深度图的分辨率，使其与输入图像的分辨率保持一致。

时空解码模块的输入信息为增强后的时空特征，通过解卷积模块对增强后的时空特征进行上采样，从而提高特征图的分辨率，最终输出与图像深度大小相同的深度图。每个时空特征对应一张深度图，解码的作用就是提高深度图的分辨率。

接下来，本发明将详细介绍时空增强模块中的空间注意力子模块和时间注意力子模块。

图2为本发明实施例提供的一种空间注意力子模块的结构图，其中，“H×W”表示特征分辨率大小，“C”和“C1”分别表示特征通道数和降维后的通道数；“MaxPooling”、和“AvgPooling”分别表示最大池化和平均池化操作。为了加强深度估计模型对图像空间特征的关注，增强空间结构信息的映射和表达，本发明采用基于融合特征的自注意力机制，设计并构建了空间注意力子模块，如图2所示，自适应地选择和增强空间特征，以恢复丰富的空间结构信息。

对于时空特征

本发明首先采用两个不同的池化操作：最大池化和平均池化，对时空特征进行特征压缩，分别获得两个维度均为H×W×C1的特征图Φ₁和Φ₂；这是因为不同的池化操作关注不同的空间关键特征，其中，最大池化操作更关注空间局部特征，平均池化操作更关注空间全局特征。然后，按照对应通道相加的方式融合特征图

和

获得维度为H×W×C1的特征图Φ₃；融合不同的池化特征，有利于提取更丰富的空间结构特征，并减少冗余特征的干扰。最后，对融合特征

执行自注意力操作，将变形(Shape)后的融合特征分别作为键特征(Key)和查询特征(Query)，并采用softmax函数对其进行归一化操作，获得当前时空特征的空间注意力权重图

该自注意力权重图

的大小为HW×HW。

中的每一个元素

可以表示为：

其中，

定示第i个像素点对第j个像素点的影响；φ_3i和Φ_3j表示融合特征Φ₃的元素；N＝H×W，表示输入图像中的像素点数总和。

为了计算经过自注意力机制增强后的空间结构特征，本发明将融合特征

再次变形后作为自注意力的值特征(Value)，并将其与空间注意力权重图

进行加权计算，突出选择后的空间特征。将选择后的空间特征与时空特征

可以表示为：

其中，Φ^S的大小为H×W×C，φj表示时空特征Φ的元素，

表示特征图Φ₃的元素，α表示尺度系数(初始化为0)。从公式(2-2)可以看出，输出特征Φ^S是原始特征Φ与每个位置增强后的特征

的加权和。

因此，空间注意力子模块选择性地聚合了全局特征，增强了局部相似特征的相关性，有利于时空特征Φ中空间结构信息的映射和表达。

图3为本发明实施例提供的一种时间注意力子模块结构图。其中，“H×W”表示特征分辨率大小，“C”和“C2”分别表示特征通道数和降维后的通道数；“Conv(1×1)”表示卷积核为1×1的卷积操作。

对于当前视图的时空特征，除了采用空间注意力子模块增强其空间结构信息的映射和表达之外，本发明还设计并提出了基于对应特征互注意力的时间注意力子模块，如图3所示。时间注意力子模块采用互注意力机制来选择和增强相邻视图之间的时序关联信息，提高深度估计网络对图像序列中时序关联特征的学习和映射能力。

为了增强相邻视图间的时序关联信息的表达，本发明在相邻视图间引入互注意力机制，通过聚焦相邻视图中对应特征的相关性，来提高深度特征匹配和映射的准确率。首先，采用卷积核为1×1的卷积操作分别对相邻视图的时空特征

和

的通道数进行压缩，得到两个维度均为H×W×C2的特征图Φ′_t-1和Φ′_t。

图4为本发明实施例提供的一种时间注意力子模块中相邻帧之间的迭代选择方式图。然后，采用迭代选择的方式在特征图Φ′_t-1与Φ′_t之间执行互注意力操作，如图4所示，将Φ′_t-1和Φ′_t分为两组键特征(Key)和查询特征(Query)：Φ′_t-1为键特征，Φ′_t为查询特征；Φ′_t为键特征，Φ′_t-1为查询特征。相邻视图中对应位置的特征越相似，两组特征之间的相关性就越高；因此，互为键特征和查询特征的迭代方式，有利于相邻视图中对应特征的互相关注和补偿，并提高对应特征的相关性。接着，采用Softmax函数对每组迭代选择后的特征进行归一化，分别获得相邻两帧图像的时间注意力权重图

和

其中，

表示t时刻特征对t-1时刻特征的时间注意力权重，

表示t-1时刻特征对t时刻特征的时间注意力权重。两个时间注意力权重图的大小均为HW×HW，其中HW表示特征图分辨率的大小。

中的元素

可以表示为

中的元素

可以表示为：

其中，

表示当前视图Φ′_t对前一视图Φ′_t-1的影响，

表示前一视图Φ′_t-1对当前视图Φ′_t的影响；

和

表示特征图Φ′_t-1的元素，

和

表示特征图Φ′_t的元素；N＝H×W，表示输入图像的像素点数总和。

最后，为了计算经过对应特征互注意力机制增强后的时序关联特征，本发明将同一时刻的时序特征与时间注意力权重进行加权计算，突出相邻视图中时序相关性较高的特征，再将其与该时刻的时空特征进行对应点相加，获得经过时间注意力子模块增强后的时序增强特征。其中，t-1时刻的时序增强特征Φ″_t→t-1中的元素

可以表示为：

t时刻时序增强特征Φ″_t-1→t中的元素

可以表示为

其中，时序增强特征Φ″_t→t-1和Φ″_t-1→t的大小均为H×W×C；γ表示尺度系数(初始化为0)；

和

表示时空特征Φ_t-1的元素，

和

表示时空特征Φ_t的元素。

最终的时序增强特征是原来的时空特征与相邻视图时序相关特征的加权和，能够表示相邻视图中对应特征的关联关系，有利于提高单目视频中相邻视图之间的时序相关性，增强时序关联关系的表达。

综上所述，本发明实施例提出的基于时空注意的单目图像深度估计算法，不仅增强单目图像深度估计网络对单目视频中空间结构信息和时序关联信息的关注与学习，而且增强了网络对时空特征的映射和表达能力，解决了时空特征错误匹配和错误映射导致的场景空间结构漂移问题，重建了与输入图像序列的时空特征保持一致的单目深度图。

本发明实施例采用基于融合特征自注意力的空间注意力子模块，选择和增强当前视图中空间结构信息的学习和表达，增强深度特征的空间一致性；采用基于对应特征互注意的时间注意力子模块，选择和增强相邻视图中时序关联关系的学习和表达，增强对应特征的长期依赖性。本发明实施例为了重建高精度的单目深度图，除了关注当前视图中物体表面特征的空间信息之外，还关注相邻视图之间场景特征的时序关联关系。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于时空注意的单目图像深度估计系统，其特征在于，包括：时空学习模块、时空增强模块和时空解码模块；

2.根据权利要求1所述的方法，其特征在于，所述时空学习模块，具体由7个ConvLSTM单元组成，ConvLSTM单元的时空特征学习模块通过卷积运算提取输入的单目图像序列的二维时空特征图，ConvLSTM单元的学习过程表示为：

其中，“*”和

分别表示卷积运算和Hadamard乘积；

和

分别表示输入、单元输出和隐藏状态；“i_t”、“f_t”和“o_t”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图，该特征图为三维张量，且最后两维表示空间维度；“W_x.”和“b.”分别表示对应卷积计算中卷积核和偏移项；

3.根据权利要求2所述的方法，其特征在于，所述时空增强模块包括并行执行的空间注意力子模块和时间注意力子模块；

4.根据权利要求3所述的方法，其特征在于，所述空间注意力子模块，具体用于采用基于融合特征的自注意力机制，用H×W表示特征分辨率大小，用C和C1分别表示特征通道数和降维后的通道数，用MaxPooling和AvgPooling分别表示最大池化和平均池化操作，对于时空特征

和

获得维度为H×W×C1的特征图Φ₃；对融合特征

该自注意力权重图

的大小为HW×HW，

中的每一个元素

表示为：

其中，

将融合特征

表示为：

其中，Φ^S的大小为H×W×C，φ_j表示时空特征Φ的元素，

的加权和。

5.根据权利要求4所述的方法，其特征在于，所述时间注意力子模块，具体用于用Conv(1×1)表示卷积核为1×1的卷积操作，采用互注意力机制来选择和增强相邻视图之间的时序关联信息；

采用卷积核为1×1的卷积操作分别对相邻视图的时空特征

和

的通道数进行压缩，得到两个维度均为H×W×C2的特征图Φ′_t-1和Φ′_t，采用迭代选择的方式在特征图Φ′_t-1与Φ′_t之间执行互注意力操作，将Φ′_t-1和Φ′_t分为两组键特征和查询特征，Φ′_t-1为键特征，Φ′_t为查询特征；Φ′_t为键特征，Φ′_t-1为查询特征，采用Softmax函数对每组迭代选择后的特征进行归一化，分别获得相邻两帧图像的时间注意力权重图