CN115100090A - 一种基于时空注意的单目图像深度估计系统 - Google Patents

一种基于时空注意的单目图像深度估计系统 Download PDF

Info

Publication number
CN115100090A
CN115100090A CN202210646212.1A CN202210646212A CN115100090A CN 115100090 A CN115100090 A CN 115100090A CN 202210646212 A CN202210646212 A CN 202210646212A CN 115100090 A CN115100090 A CN 115100090A
Authority
CN
China
Prior art keywords
time
space
feature
attention
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210646212.1A
Other languages
English (en)
Inventor
明悦
范春晓
孟旭阳
韦秋吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210646212.1A priority Critical patent/CN115100090A/zh
Publication of CN115100090A publication Critical patent/CN115100090A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于时空注意的单目图像深度估计系统。包括:时空学习模块接收输入的单目图像序列,学习单目图像序列中的时空特征;时空增强模块对时空特征序列进行池化操作获得融合特征,对融合特征执行自注意力操作,得到空间增强后的时空特征;采用卷积操作分别对相邻视图的时空特征进行压缩,采用迭代选择的方式在不同特征图之间执行互注意力操作,得到时序关联特征。时空解码模块对空间增强后的时空特征和时序关联特征进行上采样,输出与图像深度大小相同的深度图。本发明系统不仅对单目视频中空间结构信息和时序关联信息的关注与学习,而且增强了网络对时空特征的映射和表达能力,重建了与输入图像序列的时空特征保持一致的单目深度图。

Description

一种基于时空注意的单目图像深度估计系统
技术领域
本发明涉及单目图像深度估计技术领域,尤其涉及一种基于时空注意的单目图像深度估计系统。
背景技术
深度图像中的每个像素点的灰度值,即深度,可用于表征场景中的点距离传感器的远近。单目图像深度估计指的是从单目相机拍摄的单张或多张彩色图像中估计场景深度图的过程。单目图像深度估计只需要一个普通相机,具有成本低、操作方便的优点,且现实生活中提供的数据信息多为单视觉信息;此外,单目图像呈现的场景信息较少,且单目图像深度估计自身存在不适定性,给单目图像深度估计任务带来了更大的挑战。因此,单目图像深度估计成为深度估计领域的研究热点和研究难点。
单目图像深度估计不仅具有重要的研究价值,在实际场景中也有着巨大的应用价值:在智能驾驶领域,精确的深度估计能够规范无人车的运动轨迹,并对其所在场景进行高精度的建模;在智能医疗领域,深度信息有助于定位损伤区域,减少因器官变形或移位导致的判断失误;在智能机器人领域,目标的深度信息对智能机器人躲避障碍物、安全规划行进轨迹、路径智能导航、抓取目标物体和目的地指引等行为都起到至关重要的作用。在虚拟现实领域,深度估计作为场景三维建模的基础技术,有利于三维模拟环境的准确构建。除此之外,单目图像深度估计还广泛应用在三维视频制作、视频监控、活体检测、人机交互等领域。
单目深度图中的场景空间结构信息不仅与当前视图中的深度信息有关,相邻视图之间的时序关联信息也会影响场景空间结构的恢复。因此,为了重建高精度的单目深度图,除了要关注当前视图中物体表面特征的空间信息之外,还需要关注相邻视图之间场景特征的时序关联关系。忽略单目视频中相邻视图的时序信息,容易导致对应点特征的错误匹配,使得该点映射到三维空间中的深度值存在偏移,恢复的深度图中物体空间结构不准确,出现漂移等问题,在实际应用中会影响机器人、自动驾驶汽车等设备对障碍物尺寸的判断。
目前,现有技术中的单目图像深度估计方法主要依靠深度线索估计图像深度值,如从聚焦/散焦中恢复深度、从阴影中恢复深度、从运动中恢复深度等,依赖深度线索的方法对图像要求较高,要求图像中必须存在聚焦/散焦、遮挡、阴影、运动等特定情况,算法复杂度较高,而且实用性较差,也不能满足实时性的需求。之后,研究人员通过设计手工特征来计算图像深度值,但基于手工特征的方法对场景纹理依赖较强,无法在弱/无纹理区域进行深度估计。随着深度神经网络的发展,基于深度学习的方法成为单目深度领域的常用方法。根据网络训练时是否需要地面真实图像,基于深度学习的单目图像深度估计方法可以分为监督学习方法、无监督学习方法和半监督学习方法。
监督学习方法:监督学习方法是指在单目图像深度估计过程中,需要向网络中输入地面真值深度图,深度神经网络通过学习真值图像来估计场景深度的方法,此时的地面真值图像作为监督信号来监督深度神经网络的学习过程。监督学习方法包括有监督的回归方法和有监督的分类方法,分别表示采用有监督的连续回归方法和有监督的有序回归方式来预测单目深度图。
监督学习方法需要大量的地面真实深度图作为监督信号,估计的深度图的精度较高,可以有效地映射场景的三维结构。然而,这类方法对地面真实深度图的依赖性很强,而且地面真实深度图的获取难度较大,目前高质量的、带有地面真实标签的公开数据集也有限。
无监督学习方法:无监督学习方法无需输入地面真实深度图作为监督信号,深度神经网络通过学习彩色图像中的几何关系来进行单目图像深度估计。基于无监督学习的单目图像深度估计方法通常使用左右立体图像序列或者单目视频进行训练,受场景几何的约束,并在单目图像或序列上进行测试,估计场景深度图。
无监督学习方法只关心输入的彩色图像之间的几何关系,无需地面真实深度图,减少了构建深度标签的成本;但由于缺少地面真值深度的监督,基于无监督学习方法的深度估计精度要稍逊于基于监督学习的单目图像深度估计方法。
半监督学习方法:半监督型学习方法是指利用地面真值深度图像之外的信息,如合成数据、稀疏深度、表面法线等信息,来辅助深度估计的学习。这类方法不需要深度标签,也不是单纯的只利用单目图像特征,其学习过程中存在辅助信息的帮助,网络的输入包括彩色图像和辅助信息。通常采用的辅助信息有基于计算机合成的虚拟图像、基于激光和雷达的稀疏深度图。
半监督学习方法除了从彩色图像中学习深度特征之外,还结合辅助信息进行单目图像深度估计,这使得深度图的准确度更高。尽管辅助信息比地面真值深度图更容易获得,但仍然增加了网络模型的输入数据量,而且深度估计的准确率对辅助信息的依赖较强。若辅助信息与真实图像之间的差异较大,深度估计的错误率将会大大提高,增大了场景感知的难度。
现有技术中的一种基于卷积神经网络的单目图像深度估计方法采用卷积神经网络(Convolutional Neural Network,CNN)构建网络模型。CNN在深度估计任务中有着出色的表现,能够更好地学习和映射场景的空间结构特征。
采用CNN网络构建深度估计模型,并通过两个子网络对学习到的空间特征解码,分别获得场景图像的初始深度和最终深度,由粗到细地重建单目深度图。使用基于CNN的残差结构捕获场景空间特征,并提出了基于快速上采样的解码网络,但该网络的卷积核较小,网络感受野受限,而且特征解码时只采用了简单的双线性插值来提高深度图的分辨率,导致网络丢失较多的深度特征。为了减少特征的丢失,在解码网络层与对应的编码网络层间添加了跳跃连接,将解码网络中粗糙的深度图与编码网络中精细的空间特征图融合,增强了解码过程中深度特征的映射和表达,提高了深度估计的准确率。除了采用跳跃连接来增强特征解码外,还采用全局结合局部的策略,构建了两个基于全卷积的子网络,分别学习输入图像的局部空间特征和全局空间特征,并利用10个卷积层来映射输入图像的深度梯度变化,利用解卷积层来解码场景全局结构。此外,为了加快深度解码速度,还提出了基于CNN的快速深度解码器,其由五个级联的上采样层和单个逐点层组成,每个上采样层后执行最近邻插值,使得中间特征图的空间分辨率加倍,并使用深度分解来进一步降低所有卷积层的复杂度。
上述现有技术中的基于卷积神经网络的单目图像深度估计方法的缺点包括:卷积神经网络的输入和输出是一一对应的,不同的输入之间互不影响。基于CNN的单目图像深度估计方法考虑了当前输入图像的空间特征,却忽略了单目图像序列中相邻视图之间的时序关联关系,降低了相邻视图中对应点特征的相关性,容易造成深度特征的错误匹配,导致图像中的二维像素点映射到三维空间中时出现漂移等问题。
发明内容
本发明的实施例提供了一种基于时空注意的单目图像深度估计系统,以实现有效地重建与输入图像序列的时空特征保持一致的单目深度图。
为了实现上述目的,本发明采取了如下技术方案。
一种基于时空注意的单目图像深度估计系统,包括:时空学习模块、时空增强模块和时空解码模块;
所述时空学习模块,用于接收输入的单目图像序列,学习所述单目图像序列中的时空特征,将所述时空特征序列传输给时空增强模块;
所述时空增强模块,用于对时空特征序列进行池化操作获得融合特征,对融合特征执行自注意力操作,得到空间增强后的时空特征;采用卷积操作分别对相邻视图的时空特征进行压缩,采用迭代选择的方式在不同特征图之间执行互注意力操作,得到时序关联特征;将空间增强后的时空特征和时序关联特征传输给时空解码模块;
所述时空解码模块,用于通过解卷积模块对空间增强后的时空特征和时序关联特征进行上采样,输出与图像深度大小相同的深度图。
优选地,所述时空学习模块,具体由7个ConvLSTM单元组成,ConvLSTM单元的时空特征学习模块通过卷积运算提取输入的单目图像序列的二维时空特征图,ConvLSTM单元的学习过程表示为:
Figure BDA0003686005890000051
Figure BDA0003686005890000052
Figure BDA0003686005890000053
Figure BDA0003686005890000054
Figure BDA0003686005890000055
其中,“*”和
Figure BDA0003686005890000056
分别表示卷积运算和Hadamard乘积;
Figure BDA0003686005890000057
Figure BDA0003686005890000058
Figure BDA0003686005890000059
分别表示输入、单元输出和隐藏状态;“it”、“ft”和“ot”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图,该特征图为三维张量,且最后两维表示空间维度;“W”和“b·”分别表示对应卷积计算中卷积核和偏移项;
ConvLSTM单元的时空特征学习模块通过特征存储、融合和更新操作来传递相邻帧的二维时空特征图。
优选地,所述时空增强模块包括并行执行的空间注意力子模块和时间注意力子模块;
所述空间注意力子模块,用于增强网络对时空特征的关注与学习,对时空特征分别进行最大池化和平均池化操作获得两个池化特征,融合不同的池化特征,对融合特征执行自注意力操作,得到空间增强后的时空特征,并传输给时空解码模块;
所述时间注意力子模块,用于采用卷积操作分别对相邻视图的时空特征进行压缩,得到两个特征图,采用迭代选择的方式在两个特征图之间执行互注意力操作,计算出经过对应特征互注意力机制增强后的时序关联特征,并传输给时空解码模块。
优选地,所述空间注意力子模块,具体用于采用基于融合特征的自注意力机制,用H×W表示特征分辨率大小,用C和C1分别表示特征通道数和降维后的通道数,用MaxPooling和AvgPooling分别表示最大池化和平均池化操作,对于时空特征
Figure BDA0003686005890000061
采用两个不同的池化操作:最大池化和平均池化,对时空特征进行特征压缩,分别获得两个维度均为H×W×C1的特征图Φ1和Φ2,按照对应通道相加的方式融合特征图
Figure BDA0003686005890000062
Figure BDA0003686005890000063
获得维度为H×W×C1的特征图Φ3;对融合特征
Figure BDA0003686005890000064
执行自注意力操作,将变形后的融合特征分别作为键特征和查询特征,并采用softmax函数对键特征和查询特征进行归一化操作,获得当前时空特征的空间注意力权重图
Figure BDA0003686005890000065
该自注意力权重图
Figure BDA0003686005890000066
的大小为HW×HW,
Figure BDA0003686005890000067
中的每一个元素
Figure BDA0003686005890000068
表示为:
Figure BDA0003686005890000069
其中,
Figure BDA00036860058900000610
表示第i个像素点对第j个像素点的影响;φ3i和Φ3j表示融合特征Φ3的元素;N=H×W,表示输入图像中的像素点数总和;
将融合特征
Figure BDA0003686005890000071
再次变形后作为自注意力的值特征Value,并将值特征与空间注意力权重图
Figure BDA0003686005890000072
进行加权计算,突出选择后的空间特征,将选择后的空间特征与时空特征
Figure BDA0003686005890000073
进行对应点相加操作,获得经过空间注意力子模块增强后的空间增强特征ΦS,ΦS中的每个元素
Figure BDA0003686005890000074
表示为:
Figure BDA0003686005890000075
其中,ΦS的大小为H×W×C,φj表示时空特征Φ的元素,
Figure BDA0003686005890000076
表示特征图Φ3的元素,α表示尺度系数,输出特征ΦS是原始特征Φ与每个位置增强后的特征
Figure BDA0003686005890000077
的加权和。
优选地,所述时间注意力子模块,具体用于用Conv(1×1)表示卷积核为1×1的卷积操作,采用互注意力机制来选择和增强相邻视图之间的时序关联信息;
采用卷积核为1×1的卷积操作分别对相邻视图的时空特征
Figure BDA0003686005890000078
Figure BDA0003686005890000079
的通道数进行压缩,得到两个维度均为H×W×C2的特征图Φ′t-1和Φ′t,采用迭代选择的方式在特征图Φ′t-1与Φ′t之间执行互注意力操作,将Φ′t-1和Φ′t分为两组键特征和查询特征,Φ′t-1为键特征,Φ′t为查询特征;Φ′t为键特征,Φ′t-1为查询特征,采用Softmax函数对每组迭代选择后的特征进行归一化,分别获得相邻两帧图像的时间注意力权重图
Figure BDA00036860058900000710
Figure BDA00036860058900000711
其中,
Figure BDA00036860058900000712
表示t时刻特征对t-1时刻特征的时间注意力权重,
Figure BDA00036860058900000713
表示t-1时刻特征对t时刻特征的时间注意力权重,两个时间注意力权重图的大小均为HW×HW,其中HW表示特征图分辨率的大小,
Figure BDA00036860058900000714
中的元素
Figure BDA00036860058900000715
表示为:
Figure BDA00036860058900000716
Figure BDA00036860058900000717
中的元素
Figure BDA00036860058900000718
表示为:
Figure BDA0003686005890000081
其中,
Figure BDA0003686005890000082
表示当前视图Φ′t对前一视图Φ′t-1的影响,
Figure BDA0003686005890000083
表示前一视图Φ′t-1对当前视图Φ′t的影响;
Figure BDA00036860058900000813
Figure BDA00036860058900000814
表示特征图Φ′t-1的元素,
Figure BDA0003686005890000084
Figure BDA0003686005890000085
表示特征图Φ′t的元素;N=H×W,表示输入图像的像素点数总和;
将同一时刻的时序特征与时间注意力权重进行加权计算,再将加权计算后的时序特征与该时刻的时空特征进行对应点相加,获得经过时间注意力子模块增强后的时序增强特征,t-1时刻的时序增强特征Φ″t→t-1中的元素
Figure BDA00036860058900000815
表示为:
Figure BDA0003686005890000086
t时刻时序增强特征Φ″t-1→t中的元素
Figure BDA0003686005890000087
表示为:
Figure BDA0003686005890000088
其中,时序增强特征Φ″t→t-1和Φ″t-1→t的大小均为H×W×C;γ表示尺度系数,
Figure BDA0003686005890000089
Figure BDA00036860058900000810
表示时空特征Φt-1的元素,
Figure BDA00036860058900000811
Figure BDA00036860058900000812
表示时空特征Φt的元素。
由上述本发明的实施例提供的技术方案可以看出,本发明提出的基于时空注意的单目图像深度估计算法,不仅增强单目图像深度估计网络对单目视频中空间结构信息和时序关联信息的关注与学习,而且增强了网络对时空特征的映射和表达能力,重建了与输入图像序列的时空特征保持一致的单目深度图。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于时空注意的单目图像深度估计网络(ST-Depth)结构图;
图2为本发明实施例提供的一种空间注意力子模块的结构图;
图3为本发明实施例提供的一种时间注意力子模块结构图;
图4为本发明实施例提供的一种时间注意力子模块中相邻帧之间的迭代选择方式图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
单目图像深度估计是指输入单幅RGB(红色),绿色,蓝色)图像,并通过神经网络计算出图像每个像素点的对应物点到相机的距离,输出包含深度信息的深度图的过程。
时空特征缺失导致的场景空间结构漂移问题。基于单目视频恢复的深度图中,场景的空间结构信息不仅与当前视图中的深度信息有关,相邻视图之间的时序关联信息也会影响场景空间结构的恢复。因此,为了重建高精度的单目深度图,除了要关注当前视图中物体表面特征的空间信息之外,还需要关注相邻视图之间场景特征的时序关联关系。
为了充分学习单目视频中的空间结构信息和时序关联信息,并增强时空特征的映射和表达,解决场景空间结构漂移问题,本发明采用双注意力机制策略,提出了基于时空注意的单目图像深度计算方法ST-Depth,同时关注和增强单目视频中的时空特征,减少时空特征的错误映射与漂移。
图1为本发明实施例提供的一种基于时空注意的单目图像深度估计网络(ST-Depth)结构图。其中,“ConvLSTM”表示卷积长短时记忆单元,“Concate”表示特征融合,“Deconvolution”表示解卷积层。ST-Depth网络采用监督学习方式预测单目深度图,该网络主要包括三个模块:时空学习模块、时空增强模块和时空解码模块。
首先,ST-Depth采用基于全ConvLSTM的时空学习模块来同时关注并学习单目图像序列中的时空特征。然后,对于时空学习模块学习到的时空特征,采用基于融合特征自注意力的空间注意力子模块来选择和增强当前视图中空间结构信息的映射和表达,增强局部特征的全局一致性;同时,采用基于对应特征互注意力的时间注意力子模块来选择和增强相邻视图间时序关联信息的映射和表达,增强对应特征的长期关联性。最后,通过时空解码模块融合并进一步解码增强后的时空特征,利用时序关联信息来补偿和优化空间结构信息,降低对应特征点的错误映射和漂移,重建空间结构准确的单目深度图。
时空学习模块由7个ConvLSTM单元组成,用于接收输入的单目图像序列,学习所述单目图像序列中的时空特征序列,将所述时空特征序列传输给时空增强模块;与原始LSTM单元相比,时空学习模块中的ConvLSTM将LSTM单元中的与权重相乘的Hadamard乘积改为卷积运算,用于提取输入图像的二维时空特征图,有利于当前视图空间特征的保存和传输,充分考虑了单目图像序列中的时序关联性。ConvLSTM单元的学习过程可以表示为:
Figure BDA0003686005890000111
Figure BDA0003686005890000112
Figure BDA0003686005890000113
Figure BDA0003686005890000114
Figure BDA0003686005890000115
其中,“*”和
Figure BDA0003686005890000116
分别表示卷积运算和Hadamard乘积;
Figure BDA0003686005890000117
Figure BDA0003686005890000118
Figure BDA0003686005890000119
分别表示输入、单元输出和隐藏状态;“it”、“ft”和“ot”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图,该特征图为三维张量,且最后两维表示空间维度;“W”和“b·”分别表示对应卷积计算中卷积核和偏移项。
因此,基于ConvLSTM单元的时空特征学习模块可以通过特征存储、融合和更新操作来传递相邻帧的特征图,充分考虑了当前视图的空间信息和相邻视图的时序信息,有利于增强单目深度估计网络对单目视频中时空特征的学习和传输。
时空增强模块,用于对时空特征序列进行池化操作获得融合特征,对融合特征执行自注意力操作,得到空间增强后的时空特征;采用卷积操作分别对相邻视图的时空特征进行压缩,采用迭代选择的方式在不同特征图之间执行互注意力操作,得到时序关联特征;将空间增强后的时空特征和时序关联特征传输给时空解码模块。
时空增强模块包括空间注意力子模块和时间注意力子模块,空间注意力子模块和时间注意力子模块是并行执行的。
上述空间注意力子模块,用于增强网络对时空特征的关注与学习,对时空特征分别进行最大池化和平均池化操作获得两个池化特征,融合不同的池化特征,对融合特征执行自注意力操作,得到空间增强后的时空特征,并传输给时空解码模块。
上述时间注意力子模块,用于采用卷积操作分别对相邻视图的时空特征进行压缩,得到两个特征图。然后,采用迭代选择的方式在两个特征图之间执行互注意力操作,计算出经过对应特征互注意力机制增强后的时序关联特征,并传输给时空解码模块。
时空解码模块由7个解卷积块组成,用于解码时空特征并提高深度图的分辨率,使其与输入图像的分辨率保持一致。
时空解码模块的输入信息为增强后的时空特征,通过解卷积模块对增强后的时空特征进行上采样,从而提高特征图的分辨率,最终输出与图像深度大小相同的深度图。每个时空特征对应一张深度图,解码的作用就是提高深度图的分辨率。
接下来,本发明将详细介绍时空增强模块中的空间注意力子模块和时间注意力子模块。
图2为本发明实施例提供的一种空间注意力子模块的结构图,其中,“H×W”表示特征分辨率大小,“C”和“C1”分别表示特征通道数和降维后的通道数;“MaxPooling”、和“AvgPooling”分别表示最大池化和平均池化操作。为了加强深度估计模型对图像空间特征的关注,增强空间结构信息的映射和表达,本发明采用基于融合特征的自注意力机制,设计并构建了空间注意力子模块,如图2所示,自适应地选择和增强空间特征,以恢复丰富的空间结构信息。
对于时空特征
Figure BDA0003686005890000131
本发明首先采用两个不同的池化操作:最大池化和平均池化,对时空特征进行特征压缩,分别获得两个维度均为H×W×C1的特征图Φ1和Φ2;这是因为不同的池化操作关注不同的空间关键特征,其中,最大池化操作更关注空间局部特征,平均池化操作更关注空间全局特征。然后,按照对应通道相加的方式融合特征图
Figure BDA0003686005890000132
Figure BDA0003686005890000133
获得维度为H×W×C1的特征图Φ3;融合不同的池化特征,有利于提取更丰富的空间结构特征,并减少冗余特征的干扰。最后,对融合特征
Figure BDA0003686005890000134
执行自注意力操作,将变形(Shape)后的融合特征分别作为键特征(Key)和查询特征(Query),并采用softmax函数对其进行归一化操作,获得当前时空特征的空间注意力权重图
Figure BDA0003686005890000135
该自注意力权重图
Figure BDA0003686005890000136
的大小为HW×HW。
Figure BDA0003686005890000137
中的每一个元素
Figure BDA0003686005890000138
可以表示为:
Figure BDA0003686005890000139
其中,
Figure BDA00036860058900001310
定示第i个像素点对第j个像素点的影响;φ3i和Φ3j表示融合特征Φ3的元素;N=H×W,表示输入图像中的像素点数总和。
为了计算经过自注意力机制增强后的空间结构特征,本发明将融合特征
Figure BDA00036860058900001311
再次变形后作为自注意力的值特征(Value),并将其与空间注意力权重图
Figure BDA0003686005890000141
进行加权计算,突出选择后的空间特征。将选择后的空间特征与时空特征
Figure BDA0003686005890000142
进行对应点相加操作,获得经过空间注意力子模块增强后的空间增强特征ΦS,ΦS中的每个元素
Figure BDA0003686005890000143
可以表示为:
Figure BDA0003686005890000144
其中,ΦS的大小为H×W×C,φj表示时空特征Φ的元素,
Figure BDA0003686005890000145
表示特征图Φ3的元素,α表示尺度系数(初始化为0)。从公式(2-2)可以看出,输出特征ΦS是原始特征Φ与每个位置增强后的特征
Figure BDA0003686005890000146
的加权和。
因此,空间注意力子模块选择性地聚合了全局特征,增强了局部相似特征的相关性,有利于时空特征Φ中空间结构信息的映射和表达。
图3为本发明实施例提供的一种时间注意力子模块结构图。其中,“H×W”表示特征分辨率大小,“C”和“C2”分别表示特征通道数和降维后的通道数;“Conv(1×1)”表示卷积核为1×1的卷积操作。
对于当前视图的时空特征,除了采用空间注意力子模块增强其空间结构信息的映射和表达之外,本发明还设计并提出了基于对应特征互注意力的时间注意力子模块,如图3所示。时间注意力子模块采用互注意力机制来选择和增强相邻视图之间的时序关联信息,提高深度估计网络对图像序列中时序关联特征的学习和映射能力。
为了增强相邻视图间的时序关联信息的表达,本发明在相邻视图间引入互注意力机制,通过聚焦相邻视图中对应特征的相关性,来提高深度特征匹配和映射的准确率。首先,采用卷积核为1×1的卷积操作分别对相邻视图的时空特征
Figure BDA0003686005890000147
Figure BDA0003686005890000148
的通道数进行压缩,得到两个维度均为H×W×C2的特征图Φ′t-1和Φ′t
图4为本发明实施例提供的一种时间注意力子模块中相邻帧之间的迭代选择方式图。然后,采用迭代选择的方式在特征图Φ′t-1与Φ′t之间执行互注意力操作,如图4所示,将Φ′t-1和Φ′t分为两组键特征(Key)和查询特征(Query):Φ′t-1为键特征,Φ′t为查询特征;Φ′t为键特征,Φ′t-1为查询特征。相邻视图中对应位置的特征越相似,两组特征之间的相关性就越高;因此,互为键特征和查询特征的迭代方式,有利于相邻视图中对应特征的互相关注和补偿,并提高对应特征的相关性。接着,采用Softmax函数对每组迭代选择后的特征进行归一化,分别获得相邻两帧图像的时间注意力权重图
Figure BDA0003686005890000151
Figure BDA0003686005890000152
其中,
Figure BDA0003686005890000153
表示t时刻特征对t-1时刻特征的时间注意力权重,
Figure BDA0003686005890000154
表示t-1时刻特征对t时刻特征的时间注意力权重。两个时间注意力权重图的大小均为HW×HW,其中HW表示特征图分辨率的大小。
Figure BDA0003686005890000155
中的元素
Figure BDA0003686005890000156
可以表示为
Figure BDA0003686005890000157
Figure BDA0003686005890000158
中的元素
Figure BDA0003686005890000159
可以表示为:
Figure BDA00036860058900001510
其中,
Figure BDA00036860058900001511
表示当前视图Φ′t对前一视图Φ′t-1的影响,
Figure BDA00036860058900001512
表示前一视图Φ′t-1对当前视图Φ′t的影响;
Figure BDA00036860058900001513
Figure BDA00036860058900001514
表示特征图Φ′t-1的元素,
Figure BDA00036860058900001515
Figure BDA00036860058900001516
表示特征图Φ′t的元素;N=H×W,表示输入图像的像素点数总和。
最后,为了计算经过对应特征互注意力机制增强后的时序关联特征,本发明将同一时刻的时序特征与时间注意力权重进行加权计算,突出相邻视图中时序相关性较高的特征,再将其与该时刻的时空特征进行对应点相加,获得经过时间注意力子模块增强后的时序增强特征。其中,t-1时刻的时序增强特征Φ″t→t-1中的元素
Figure BDA00036860058900001518
可以表示为:
Figure BDA00036860058900001517
t时刻时序增强特征Φ″t-1→t中的元素
Figure BDA0003686005890000161
可以表示为
Figure BDA0003686005890000162
其中,时序增强特征Φ″t→t-1和Φ″t-1→t的大小均为H×W×C;γ表示尺度系数(初始化为0);
Figure BDA0003686005890000163
Figure BDA0003686005890000164
表示时空特征Φt-1的元素,
Figure BDA0003686005890000165
Figure BDA0003686005890000166
表示时空特征Φt的元素。
最终的时序增强特征是原来的时空特征与相邻视图时序相关特征的加权和,能够表示相邻视图中对应特征的关联关系,有利于提高单目视频中相邻视图之间的时序相关性,增强时序关联关系的表达。
综上所述,本发明实施例提出的基于时空注意的单目图像深度估计算法,不仅增强单目图像深度估计网络对单目视频中空间结构信息和时序关联信息的关注与学习,而且增强了网络对时空特征的映射和表达能力,解决了时空特征错误匹配和错误映射导致的场景空间结构漂移问题,重建了与输入图像序列的时空特征保持一致的单目深度图。
本发明实施例采用基于融合特征自注意力的空间注意力子模块,选择和增强当前视图中空间结构信息的学习和表达,增强深度特征的空间一致性;采用基于对应特征互注意的时间注意力子模块,选择和增强相邻视图中时序关联关系的学习和表达,增强对应特征的长期依赖性。本发明实施例为了重建高精度的单目深度图,除了关注当前视图中物体表面特征的空间信息之外,还关注相邻视图之间场景特征的时序关联关系。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于时空注意的单目图像深度估计系统,其特征在于,包括:时空学习模块、时空增强模块和时空解码模块;
所述时空学习模块,用于接收输入的单目图像序列,学习所述单目图像序列中的时空特征,将所述时空特征序列传输给时空增强模块;
所述时空增强模块,用于对时空特征序列进行池化操作获得融合特征,对融合特征执行自注意力操作,得到空间增强后的时空特征;采用卷积操作分别对相邻视图的时空特征进行压缩,采用迭代选择的方式在不同特征图之间执行互注意力操作,得到时序关联特征;将空间增强后的时空特征和时序关联特征传输给时空解码模块;
所述时空解码模块,用于通过解卷积模块对空间增强后的时空特征和时序关联特征进行上采样,输出与图像深度大小相同的深度图。
2.根据权利要求1所述的方法,其特征在于,所述时空学习模块,具体由7个ConvLSTM单元组成,ConvLSTM单元的时空特征学习模块通过卷积运算提取输入的单目图像序列的二维时空特征图,ConvLSTM单元的学习过程表示为:
Figure FDA0003686005880000011
Figure FDA0003686005880000012
Figure FDA0003686005880000013
Figure FDA0003686005880000014
Figure FDA0003686005880000015
其中,“*”和
Figure FDA0003686005880000019
分别表示卷积运算和Hadamard乘积;
Figure FDA0003686005880000016
Figure FDA0003686005880000017
Figure FDA0003686005880000018
分别表示输入、单元输出和隐藏状态;“it”、“ft”和“ot”分别表示ConvLSTM的输入门、遗忘门和输出门的特征图,该特征图为三维张量,且最后两维表示空间维度;“Wx.”和“b.”分别表示对应卷积计算中卷积核和偏移项;
ConvLSTM单元的时空特征学习模块通过特征存储、融合和更新操作来传递相邻帧的二维时空特征图。
3.根据权利要求2所述的方法,其特征在于,所述时空增强模块包括并行执行的空间注意力子模块和时间注意力子模块;
所述空间注意力子模块,用于增强网络对时空特征的关注与学习,对时空特征分别进行最大池化和平均池化操作获得两个池化特征,融合不同的池化特征,对融合特征执行自注意力操作,得到空间增强后的时空特征,并传输给时空解码模块;
所述时间注意力子模块,用于采用卷积操作分别对相邻视图的时空特征进行压缩,得到两个特征图,采用迭代选择的方式在两个特征图之间执行互注意力操作,计算出经过对应特征互注意力机制增强后的时序关联特征,并传输给时空解码模块。
4.根据权利要求3所述的方法,其特征在于,所述空间注意力子模块,具体用于采用基于融合特征的自注意力机制,用H×W表示特征分辨率大小,用C和C1分别表示特征通道数和降维后的通道数,用MaxPooling和AvgPooling分别表示最大池化和平均池化操作,对于时空特征
Figure FDA0003686005880000021
采用两个不同的池化操作:最大池化和平均池化,对时空特征进行特征压缩,分别获得两个维度均为H×W×C1的特征图Φ1和Φ2,按照对应通道相加的方式融合特征图
Figure FDA0003686005880000022
Figure FDA0003686005880000023
获得维度为H×W×C1的特征图Φ3;对融合特征
Figure FDA0003686005880000024
执行自注意力操作,将变形后的融合特征分别作为键特征和查询特征,并采用softmax函数对键特征和查询特征进行归一化操作,获得当前时空特征的空间注意力权重图
Figure FDA0003686005880000025
该自注意力权重图
Figure FDA0003686005880000026
的大小为HW×HW,
Figure FDA0003686005880000027
中的每一个元素
Figure FDA0003686005880000028
表示为:
Figure FDA0003686005880000031
其中,
Figure FDA0003686005880000032
表示第i个像素点对第j个像素点的影响;φ3i和φ3j表示融合特征Φ3的元素;N=H×W,表示输入图像中的像素点数总和;
将融合特征
Figure FDA0003686005880000033
再次变形后作为自注意力的值特征Value,并将值特征与空间注意力权重图
Figure FDA0003686005880000034
进行加权计算,突出选择后的空间特征,将选择后的空间特征与时空特征
Figure FDA0003686005880000035
进行对应点相加操作,获得经过空间注意力子模块增强后的空间增强特征ΦS,ΦS中的每个元素
Figure FDA0003686005880000036
表示为:
Figure FDA0003686005880000037
其中,ΦS的大小为H×W×C,φj表示时空特征Φ的元素,
Figure FDA0003686005880000038
表示特征图Φ3的元素,α表示尺度系数,输出特征ΦS是原始特征Φ与每个位置增强后的特征
Figure FDA0003686005880000039
的加权和。
5.根据权利要求4所述的方法,其特征在于,所述时间注意力子模块,具体用于用Conv(1×1)表示卷积核为1×1的卷积操作,采用互注意力机制来选择和增强相邻视图之间的时序关联信息;
采用卷积核为1×1的卷积操作分别对相邻视图的时空特征
Figure FDA00036860058800000310
Figure FDA00036860058800000311
的通道数进行压缩,得到两个维度均为H×W×C2的特征图Φ′t-1和Φ′t,采用迭代选择的方式在特征图Φ′t-1与Φ′t之间执行互注意力操作,将Φ′t-1和Φ′t分为两组键特征和查询特征,Φ′t-1为键特征,Φ′t为查询特征;Φ′t为键特征,Φ′t-1为查询特征,采用Softmax函数对每组迭代选择后的特征进行归一化,分别获得相邻两帧图像的时间注意力权重图
Figure FDA00036860058800000312
Figure FDA00036860058800000313
其中,
Figure FDA00036860058800000314
表示t时刻特征对t-1时刻特征的时间注意力权重,
Figure FDA00036860058800000315
表示t-1时刻特征对t时刻特征的时间注意力权重,两个时间注意力权重图的大小均为HW×HW,其中HW表示特征图分辨率的大小,
Figure FDA00036860058800000316
中的元素
Figure FDA00036860058800000317
表示为:
Figure FDA0003686005880000041
Figure FDA0003686005880000042
中的元素
Figure FDA0003686005880000043
表示为:
Figure FDA0003686005880000044
其中,
Figure FDA0003686005880000045
表示当前视图Φ′t对前一视图Φ′t-1的影响,
Figure FDA0003686005880000046
表示前一视图Φ′t-1对当前视图Φ′t的影响;
Figure FDA00036860058800000417
Figure FDA00036860058800000418
表示特征图Φ′t-1的元素,
Figure FDA0003686005880000047
Figure FDA0003686005880000048
表示特征图Φ′t的元素;N=H×W,表示输入图像的像素点数总和;
将同一时刻的时序特征与时间注意力权重进行加权计算,再将加权计算后的时序特征与该时刻的时空特征进行对应点相加,获得经过时间注意力子模块增强后的时序增强特征,t-1时刻的时序增强特征Φ″t→t-1中的元素
Figure FDA0003686005880000049
表示为:
Figure FDA00036860058800000410
t时刻时序增强特征Φ″t-1→t中的元素
Figure FDA00036860058800000411
表示为:
Figure FDA00036860058800000412
其中,时序增强特征Φ″t→t-1和Φ″t-1→t的大小均为H×W×C;γ表示尺度系数,
Figure FDA00036860058800000413
Figure FDA00036860058800000414
表示时空特征Φt-1的元素,
Figure FDA00036860058800000415
Figure FDA00036860058800000416
表示时空特征Φt的元素。
CN202210646212.1A 2022-06-09 2022-06-09 一种基于时空注意的单目图像深度估计系统 Pending CN115100090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646212.1A CN115100090A (zh) 2022-06-09 2022-06-09 一种基于时空注意的单目图像深度估计系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646212.1A CN115100090A (zh) 2022-06-09 2022-06-09 一种基于时空注意的单目图像深度估计系统

Publications (1)

Publication Number Publication Date
CN115100090A true CN115100090A (zh) 2022-09-23

Family

ID=83288257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646212.1A Pending CN115100090A (zh) 2022-06-09 2022-06-09 一种基于时空注意的单目图像深度估计系统

Country Status (1)

Country Link
CN (1) CN115100090A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN117952966A (zh) * 2024-03-26 2024-04-30 华南理工大学 基于Sinkhorn算法的多模态融合生存预测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN116596779B (zh) * 2023-04-24 2023-12-01 天津大学 基于Transformer的Raw视频去噪方法
CN116246213A (zh) * 2023-05-08 2023-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN116246213B (zh) * 2023-05-08 2023-07-28 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN117952966A (zh) * 2024-03-26 2024-04-30 华南理工大学 基于Sinkhorn算法的多模态融合生存预测方法

Similar Documents

Publication Publication Date Title
CN110490928B (zh) 一种基于深度神经网络的相机姿态估计方法
CN115100090A (zh) 一种基于时空注意的单目图像深度估计系统
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN111582483B (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN109377530A (zh) 一种基于深度神经网络的双目深度估计方法
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN111696035A (zh) 一种基于光流运动估计算法的多帧图像超分辨率重建方法
CN113139585B (zh) 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN114091598A (zh) 一种基于语义级信息融合的多车协同环境感知方法
Ke et al. Mdanet: Multi-modal deep aggregation network for depth completion
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN114638842A (zh) 一种基于mlp的医学图像分割方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN116863241A (zh) 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备
CN112348033A (zh) 一种协同显著性目标检测方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN115830094A (zh) 一种基于无监督的立体匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination