CN113240722A - 一种基于多帧注意力的自监督深度估计方法 - Google Patents
一种基于多帧注意力的自监督深度估计方法 Download PDFInfo
- Publication number
- CN113240722A CN113240722A CN202110462631.5A CN202110462631A CN113240722A CN 113240722 A CN113240722 A CN 113240722A CN 202110462631 A CN202110462631 A CN 202110462631A CN 113240722 A CN113240722 A CN 113240722A
- Authority
- CN
- China
- Prior art keywords
- frame
- attention
- depth estimation
- module
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
Abstract
本发明实例提供了一种基于多帧注意力的自监督深度估计方法。其中分为深度估计网络和相机姿态估计网络两路网络分别估计目标帧的深度以及预测相机运动。在相机姿态估计网络通过自注意力模块进行特征增强,预测相机运动;在深度估计网络通过多帧注意力模块给目标帧特征补充相邻帧信息,然后利用融合模块融合目标帧特征以及相机姿态估计网络中的相机姿态特征,进行目标帧的深度估计;最后利用深度估计网络预测的目标帧的深度和相机姿态估计网络预测的相机运动,用相邻帧来重建目标帧,并使用光度重建损失来约束重建帧和目标帧之间的一致性。本发明不仅可以大幅提高深度估计的各项精度,还能提高算法对于深度估计的时域一致性。
Description
技术领域
本发明涉及一种基于深度学习的图像深度估计方法,特别涉及一种基于多帧注意力的自监督深度估计方法。
背景技术
近年来,深度学习的快速发展也大幅度地加快了深度估计算法的革新,为了避免耗费昂贵成本来获得深度真值数据,自监督深度估计算法成为了人们的一个研究方向。文献Godar d C,Mac Aodha O,Firman M,et al.Digging into self-supervised monoculardepth estimation[C].Proc eedings of the IEEE international conference oncomputer vision.2019:3828-3838.”提出了一种自监督的单目深度估计方法,利用估计深度和相机运动从前后帧重建当前帧,形成多视图之间的监督。并利用帧间的损失最小值来处理场景中的遮挡问题以及提出二值掩膜来减弱相对静止场景的影响。该方法有效地提升了自监督深度估计的各项指标,成为了自监督深度估计的一个优秀的设计架构。
然而,在实际应用中,人眼对于绝对深度的敏感度远小于相对深度,当连续图像的深度预测出现相反趋势的变化时,人眼会非常敏感地捕捉到这些抖动,这对于实际场景的应用影响很大。所以,在绝对深度的精度之外,还需要考虑到算法的时域一致性,也可以称为时域稳定性,即在单调变化的场景保持单调的深度估计。文献中的提出的自监督的单目深度估计,在相机姿态网络中引入了多帧,以获得相机的运动信息,但是在深度估计网络中只输入单帧图像,该部分的深度估计显然不存在视频图像中时域上的相关信息,因而对于整体算法的时域一致性没有保证。
鉴于深度估计算法的时域一致性对于实际应用的重要性,本发明设计了一种基于多帧注意力的自监督深度估计方法,在深度估计网络中输入连续帧图像信息,通过设计多帧之间的注意力模块给目标帧特征补充时域信息,且通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优,提高深度估计中的时域一致性。
发明内容
针对深度估计算法中的时域一致性问题,本发明提供一种基于多帧注意力的自监督深度估计方法,采用多帧之间的注意力帮助深度估计网络做出时域稳定的预测,通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优,采用本方法获取的场景深度信息在权威数据集上达到了优越的效果。
为解决上述问题,本发明采用的技术方案包括以下步骤:一种基于多帧注意力的自监督深度估计方法,包括以下步骤:
(1)获取训练数据:在视频序列中截取连续的多帧图像作为一个训练样本,获取数据集中相邻的多帧图像组成训练数据;
(2)相机姿态估计网络进行相机运动估计:在相机姿态估计网络中,训练数据通过编码器提取特征,然后送入自注意力模块增强特征,最后将增强后的特征送入解码器预测相机运动。
(3)深度估计网络进行深度估计:在深度估计网络中,训练数据通过编码器提取特征,送入多帧注意力模块,多帧注意力模块增强目标帧的特征,通过多帧注意力模块从相邻帧的特征里获取有效的信息补充给目标帧特征。将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块进行融合,最后将融合后的最终特征送入解码器部分进行深度估计,得到深度估计图。
(4)网络训练:利用步骤(3)得到的深度估计图和预测的相机运动,从相邻帧重建当前帧图像,使用光度重建损失约束重建帧和目标帧的一致性。联合光度重建损失和边缘平滑损失作为最终的训练损失。
(5)测试阶段:以视频序列中的连续多帧为一个测试样本,中间帧为深度估计目标,将步骤(1)获取的训练数据分别送入相机姿态估计网络和深度估计网络,最终深度估计网络的输出为目标帧的深度估计图。
进一步地,所述步骤(2)中,相机姿态估计网络中的自注意力模块对于输入特征Fo,根据自注意力机制的关联方式可以得到补充特征Fa。自注意力模块采用残差形式,经过该模块后输出特征Fp=Fo+Fa。其中自注意力关联的方式如下:
其中Q,K,V表示输入映射到不同空间的特征,dk表示K的维度大小。
进一步地,所述步骤(3)中,深度估计网络中的多帧注意力模块以输入多帧帧图像经编码器提取的特征作为输入,在该模块中由目标帧和其余多帧计算相似度图Si,再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下:
最终注意力图A由两张注意力图相乘获得,以此注意力图作为多帧之间的特征关联的指导,获得增强的目标帧特征Fd。计算公式如下:
A=At⊙As
进一步地,所述步骤(3)中,深度估计网络中的特征融合模块将深度估计网络多帧注意力模块的输出特征Fd和相机姿态网络自注意力模块的输出特征Fp进行信息融合获得最终特征Ffinal,该模块的操作如下:
=本发明的有益效果是:面对深度估计应用的时域一致性要求,当前的基于自监督的单目深度估计缺少相关的时域信息,虽然在单帧的深度估计上有不错的效果,但是在视频的深度估计中无法保证输出时域一致的深度图。本发明提供了用于多帧之间信息交互和融合的注意力模块,在用于深度估计的特征中融入了补充的时域信息,使得深度估计网络的视野扩展到多帧的范围,可以有效地感知连续帧之间的变化,同时通过相机姿态网络的特征与深度估计网络特征的融合促进两部分网络的联合调优,从而促进网络做出时域一致的深度预测。同时,多帧信息的引入融合也在很大程度上帮助缓解了遮挡、运动目标等问题,使得深度估计的精度也有大幅的提升。从现实应用场景来说,本发明迎合人眼的视觉感受,有益于用户的应用体验。
附图说明
图1是基于多帧注意力的自监督深度估计的网络整体结构示意图;
图2是自注意力模块的结构示意图;
图3是多帧注意力模块的结构示意图;
图4是基于多帧注意力的自监督深度估计的深度估计效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例的实现过程如下:一种基于多帧注意力的自监督深度估计方法,包括以下步骤:
步骤1:获取训练数据:在视频序列中截取连续的三帧图像作为一个训练样本,按照此法获取数据集中相邻的多帧图像组成训练数据。
步骤2:相机姿态估计网络进行相机运动估计,该部分网络结构如图1所示。
在相机姿态估计网络中,训练数据通过编码器部分提取特征,然后送入自注意力模块增强特征,最后将增强后的特征送入解码器部分预测相机运动。
自注意力模块的结构如图2所示,对于输入特征F0,根据自注意力机制的关联方式可以得到补充特征Fa。自注意力模块采用残差形式,经过该模块后输出特征为Fp=F0+Fa。其中自注意力关联的方式如下:
其中Q,K,V表示输入映射到不同空间的特征,dk表示K的维度大小。
步骤3:深度估计网络进行深度估计,该部分网络结构如图1所示。
在深度估计网络中,训练数据通过编码器部分提取特征,送入多帧注意力模块。多帧注意力模块的结构如图3所示,由目标帧和其余帧计算相似度图Si,再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下:
表示总共输入的帧数。最终注意力图A由两张注意力图相乘获得,以此注意力图作为多帧之间的特征关联的指导,获得增强的目标帧特征Fd。计算公式如下:
A=At⊙As
之后,将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块。特征融合模块将深度估计网络多帧注意力模块的输出特征Fd和相机姿态网络自注意力模块的输出特征Fp进行信息融合,该模块的操作如下:
最后将融合后的最终特征送入解码器部分进行深度估计,得到深度估计图。
步骤4:网络训练。
利用深度估计图和预测的相机运动,从相邻帧重建当前帧图像,使用光度重建损失约束重建帧和目标帧的一致性。联合光度重建损失和边缘平滑损失作为最终的训练损失。
步骤5:测试阶段。
以视频序列中连续三帧为一个测试样本,中间帧为深度估计目标,将步骤(1)获取的训练数据分别送入相机姿态估计网络和深度估计网络,最终深度估计网络的输出为目标帧的深度估计图,测试效果如图4所示。深度估计图中目标边缘平滑,深度预测精确反映了场景深度信息,与人眼视觉一致。
Claims (4)
1.一种基于多帧注意力的自监督深度估计方法,其特征在于,包括以下步骤:
(1)获取训练数据:在视频序列中截取连续的多帧图像作为一个训练样本,获取数据集中相邻的多帧图像组成训练数据;
(2)相机姿态估计网络进行相机运动估计:在相机姿态估计网络中,训练数据通过编码器提取特征,然后送入自注意力模块增强特征,最后将增强后的特征送入解码器预测相机运动。
(3)深度估计网络进行深度估计:在深度估计网络中,训练数据通过编码器提取特征,送入多帧注意力模块,多帧注意力模块增强目标帧的特征,通过多帧注意力模块从相邻帧的特征里获取有效的信息补充给目标帧特征。将多帧注意力模块的输出特征与相机姿态估计网络中自注意力模块得到的特征一起输入特征融合模块进行融合,最后将融合后的最终特征送入解码器进行深度估计,得到深度估计图。
(4)网络训练:利用步骤(3)得到的深度估计图和预测的相机运动,从相邻帧重建当前帧图像,使用光度重建损失约束重建帧和目标帧的一致性。联合光度重建损失和边缘平滑损失作为最终的训练损失。
(5)测试阶段:以视频序列中的连续多帧为一个测试样本,中间帧为深度估计目标,将步骤(1)获取的训练数据分别送入相机姿态估计网络和深度估计网络,最终深度估计网络的输出为目标帧的深度估计图。
3.根据权利要求1所述的基于多帧注意力的自监督深度估计方法,其特征在于,所述步骤(3)中,深度估计网络中的多帧注意力模块以输入多帧帧图像经编码器提取的特征作为输入,在该模块中由目标帧和其余多帧计算相似度图Si,再分别进行多帧特征之间的空间域关联和时域关联。空间域关联的注意力图和时域关联的注意力图计算如下:
最终注意力图A由两张注意力图相乘获得,以此注意力图作为多帧之间的特征关联的指导,获得增强的目标帧特征Fd。计算公式如下:
A=At⊙As
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462631.5A CN113240722B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多帧注意力的自监督深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110462631.5A CN113240722B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多帧注意力的自监督深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240722A true CN113240722A (zh) | 2021-08-10 |
CN113240722B CN113240722B (zh) | 2022-07-15 |
Family
ID=77129515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462631.5A Active CN113240722B (zh) | 2021-04-28 | 2021-04-28 | 一种基于多帧注意力的自监督深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240722B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612510A (zh) * | 2022-03-01 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115131404A (zh) * | 2022-07-01 | 2022-09-30 | 上海人工智能创新中心 | 基于运动估计深度的单目3d检测方法 |
CN116310408A (zh) * | 2022-11-29 | 2023-06-23 | 北京大学 | 一种建立事件相机与帧相机数据关联的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190387209A1 (en) * | 2018-06-16 | 2019-12-19 | Artisense Corporation | Deep Virtual Stereo Odometry |
CN111028282A (zh) * | 2019-11-29 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种无监督位姿与深度计算方法及系统 |
CN112200752A (zh) * | 2020-10-28 | 2021-01-08 | 西华大学 | 一种基于er网络多帧图像去模糊系统及其方法 |
-
2021
- 2021-04-28 CN CN202110462631.5A patent/CN113240722B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190387209A1 (en) * | 2018-06-16 | 2019-12-19 | Artisense Corporation | Deep Virtual Stereo Odometry |
CN111028282A (zh) * | 2019-11-29 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种无监督位姿与深度计算方法及系统 |
CN112200752A (zh) * | 2020-10-28 | 2021-01-08 | 西华大学 | 一种基于er网络多帧图像去模糊系统及其方法 |
Non-Patent Citations (1)
Title |
---|
岑仕杰等: "结合注意力与无监督深度学习的单目深度估计", 《广东工业大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612510A (zh) * | 2022-03-01 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
CN114612510B (zh) * | 2022-03-01 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN114998411B (zh) * | 2022-04-29 | 2024-01-09 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN115131404A (zh) * | 2022-07-01 | 2022-09-30 | 上海人工智能创新中心 | 基于运动估计深度的单目3d检测方法 |
CN116310408A (zh) * | 2022-11-29 | 2023-06-23 | 北京大学 | 一种建立事件相机与帧相机数据关联的方法及装置 |
CN116310408B (zh) * | 2022-11-29 | 2023-10-13 | 北京大学 | 一种建立事件相机与帧相机数据关联的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113240722B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240722B (zh) | 一种基于多帧注意力的自监督深度估计方法 | |
CN112767468B (zh) | 基于协同分割与数据增强的自监督三维重建方法及系统 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN109993712A (zh) | 图像处理模型的训练方法、图像处理方法及相关设备 | |
CN116152591B (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN111787187A (zh) | 利用深度卷积神经网络进行视频修复的方法、系统、终端 | |
CN111798370A (zh) | 基于流形约束的事件相机图像重建方法及系统 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111028166A (zh) | 一种基于迭代神经网络的视频去模糊方法 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
Wang et al. | Neural video depth stabilizer | |
CN112184555B (zh) | 一种基于深度交互学习的立体图像超分辨率重建方法 | |
CN117058043A (zh) | 一种基于lstm的事件-图像去模糊方法 | |
CN116824140A (zh) | 面向测试场景无掩码监督的小样本分割方法 | |
CN116912727A (zh) | 一种基于时空特征增强网络的视频人体行为识别方法 | |
CN116188930A (zh) | 一种基于融合事件相机的场景识别方法及系统 | |
CN114120202A (zh) | 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 | |
CN107093169A (zh) | 基于无参数低秩矩阵恢复的高动态范围成像去鬼影的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |