CN116468769A - 一种基于图像的深度信息估计方法 - Google Patents
一种基于图像的深度信息估计方法 Download PDFInfo
- Publication number
- CN116468769A CN116468769A CN202310217308.0A CN202310217308A CN116468769A CN 116468769 A CN116468769 A CN 116468769A CN 202310217308 A CN202310217308 A CN 202310217308A CN 116468769 A CN116468769 A CN 116468769A
- Authority
- CN
- China
- Prior art keywords
- image
- depth information
- features
- estimation method
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于图像的深度信息估计方法,包括:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征;依次利用通道注意力机制和空间注意力机制对图像特征进行自适应特征优化;利用双线性差值进行上采样恢复图像分辨率;对恢复后的特征图像作为目标图像进行深度信息预测,根据预测的深度信息和相邻帧重建目标图像;计算目标图像与重建图像在多尺度下的光度误差和平滑误差,获得损失函数;进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型对输入的场景图像进行深度信息预测。本发明可以充分利用输入图像的局部相关性和远程关系依赖提升低纹理区域的预测效果。
Description
技术领域
本发明属于智能深度估计技术领域,涉及一种根据图像预测对应深度信息的方法。
背景技术
普通的摄像机在拍摄图片时,只能记录下场景的颜色信息,在三维空间投射到二维图片时丢失了场景到摄像机的距离即深度信息。场景的深度信息获取是计算机视觉的重要分支,也是三维重建、自动驾驶和机器人定位等应用中的重要环节。更具体地说,对于给定的RGB图像中的每个像素,我们需要估计一个度量的深度值。传统的深度信息获取方法是通过硬件设备进行。最为常见的设备是激光雷达,激光雷达通过测量激光在物体表面反射时间来预估深度信息,但是激光雷达设备价格较为昂贵,并且需要较高的人力成本去获取去高精度稠密的深度信息。难以在生活场景中进行大量的应用。另一种常见的硬件设备是深度相机,深度相机基于TOF(time offlight)技术获得场景的深度信息,通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测这些发射和接收光脉冲的飞行(往返)时间来得到目标物距离。传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来,但是由于其测距传感器量程较短,且对场景环境要求较高,限制了其在室外环境的使用范围。
相较于传统硬件度量方法,基于图像的深度估计方法只需要拍摄图像,对硬件的要求不高,因此在实际场景中有着更高的应用价值。基于图像的深度估计方法可以分为单目深度估计和多目深度估计,多目深度估计通常需要两个摄像头拍摄的同一个场景的两张图像,通过一致的相机参数-基线和焦距,基于立体视觉技术对两幅图像进行匹配从而获取深度信息,但是当场景中的纹理较少或没有时,很难在图像中捕捉到足够的特征来进行匹配,所以局限性较大。而单目深度估计只使用一个摄像机来获得图像或视频序列,这不需要额外的复杂设备和专业技术。在大多数情况下只需一台摄像机就能实现深度估计,因此具由广泛的应用价值和重要研究意义。
因此,如何提供一种基于单目拍摄图像的深度信息估计方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提出了一种基于图像的深度信息估计方法,解决现有技术中的技术问题。
为了实现上述目的,本发明采用如下技术方案:
本发明公开了一种基于图像的深度信息估计方法,包括构建模型步骤和预测深度信息步骤:
所述构建模型步骤包括:
S1:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征,包括局部特征和全局特征。
S2:依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化。
S3:将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率。
S4:对S3恢复后的特征图像作为目标图像进行深度信息预测,计算当前特征图像的相对位姿变化;利用所述深度信息和所述相对位姿变化重建目标图像,即重建图像。
S5:计算目标图像与重建图像在多尺度下的光度误差和平滑误差,进一步获得损失函数;
S6:重复S2-S6进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;
所述预测深度信息步骤包括:
S7:利用训练后的模型对输入的场景图像进行深度信息预测。
优选的,所述S1包括:
S11:将同一场景的无标注图像序列输入到深度网络,将图像划分成相同大小的patch;
S12:利用CNN提取局部特征,利用Transformer提取全局特征;
S13:将所述局部特征和所述全局特征通过级联拼接在一起,再通过卷积进行输出。
优选的,所述S2包括:
S21:对所述图像特征利用通道注意力机制计算不同通道之间的依赖关系并得到对应的注意力权值,输出通道注意力图;
S22:利用空间注意力机制增强对将所述通道注意力图关键区域的关注度并提取关键信息,得到优化后的图像特征。
优选的,所述S2具体执行步骤包括:
将所述图像特征通过最大池化层和平均池化层进行空间压缩得到两个张量一;
将所述张量一分别送入多层感知机输出中间特征;
将所述中间特征进行相加并通过sigmoid得到通道注意力图;
将所述通道注意力图依次经过最大池化层和平均池化层得到一个张量二;
将所述张量二通过卷积层和sigmoid计算空间注意力,得到优化后的图像特征。
优选的,所述S3包括:
将所述优化后的图像特征在x方向和y方向依次进行线性插值,通过上采样进行尺度恢复。
优选的,所述S4包括:
S41:深度网络接受目标视图It作为输入,并预测出对应n个尺度的深度图d,n≥4;
S42:姿态网络将目标视图It和相邻帧源视图It-1,It+1作为输入,并输出相对位姿变化Tt→t't'∈{t-1,t+1};
S43:基于拍摄场景是静止的并且视图的变化只由移动相机引起的假设,则可以利用相邻帧源视图、深度图与位姿变化重建目标图像。
优选的,所述S41的具体执行步骤包括:
利用深度网络对预测深度图,深度网络包括编码器和解码器;
编码器用于对输入图像进行特征提取,包括多个编码器块,每经历一个编码器块,图像的大小降为输入的一半;
解码器用于对提取的特征进行尺度恢复并输出不同尺寸的深度图,构建多尺度特征;解码器块使用上采样恢复尺寸,每个解码器块的输出为输入的两倍,解码器的输入包括两部分,第一部分来自于上一阶段的解码器的输出,第二部分来对应编码器块的输出。
优选的,所述S43的具体执行步骤包括:
It'→t=It'[proj(reproj(It,d,Tt→t'),K)]
Tt→t'=Θpose(It,It'),t∈{t-1,t+1}
其中,It'→t为重建图像,K是已知的相机内在参数,[]是采样算子,reproj返回相机t'的3D点云,proj输出将点云投影到It'的2D坐标,Tt→t'为相对位姿变化,Θpose为姿势网络。
优选的,所述S5包括:
使用结构相似度SSIM来计算重建图像和目标图像之间的相似度;
将所述的相似度叠加L1范数得到光度误差lp(It,It'→t);
通过图像梯度对深度信息进行加权得到平滑误差lsmooth(d);
在n个尺度分别重复操作获得光度误差和平滑误差并计算其加权和,获得损失函数,n≥4:
其中,u为掩码,为最小光度损失,β是光度损失和平滑损失lsmooth之间的加权系数;
u=[min(lp(It,It'→t))<min(lp(It,It'))]t'∈{t-1,t+1}
优选的,通过自动掩码方法忽略掉图像序列中相邻帧不发生改变的像素,将掩码设置为二进制。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果包括:
本发明可以在网络训练完成的前提下预测出更精确的深度信息,对比已有深度学习技术,可以充分利用输入图像的局部相关性和远程关系依赖提升低纹理区域的预测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图;
图1为本发明一种实施例提供的基于图像的深度信息估计方法的流程图;
图2为本发明一种实施例提供的训练图像序列数据示意图;
图3为本发明一种实施例提供的提取特征图像序列示意图;
图4为本发明一种实施例提供的深度信息预测对比示意图;
图5为本发明一种实施例提供的基于图像的深度信息估计方法的网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于图像的深度信息估计方法,包括构建模型步骤和预测深度信息步骤:
构建模型步骤包括:
S1:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征,包括局部特征和全局特征。
本步骤在具体实施时,使用图像序列的原因是建立数据集,训练数据集体现同一相机拍摄的多幅图像,用于模型的无监督训练,输入图像为同一场景的三幅相邻帧,具体示例参见附图2所示,为训练图像序列数据示意图,其中,It、It-1、It+1是S1输入的图像序列。
在一个实施例中,图像特征提取步骤如下:
将图像输入到深度网络模型,将图像划分成相同大小的patch;
利用CNN和Transformer对输入图像进行编码,得到提取的局部相关性和远程关系依赖;
将上述视觉特征通过级联拼接在一起,通过卷积输出特征。
在具体执行时:对于图像特征,使用在ImageNet上预训练的MpViT模型,将图像划分成若干个patch,利用CNN的局部特征提取能力与Transformer的全局特征提取能力实现有效的特征提取;
其中,使用CNN模块提取局部特征L∈RH×W×C,使用Transformer模块提取全局特征G∈RH×W×C。
最后,将局部特征L和全局特征G通过级联拼接在一起,再通过卷积进行输出。如下所示:
X=Concat([L,G])
X′=H(X)
其中,X表示经过局部特征和全局特征级联拼接后的特征,H(·)代表学习函数,将拼接后的特征X映射成最终的特征X′。H(·)函数通过使用1×1的卷积实现。
如图3所示,为根据输入图像序列进行特征提取后的特征图像。衡量深度估计模型的优劣除了定性的评估度量和可视化的深度图像以外,中间特征图也是一个直观的展示模型提取信息能力的指标。本实施例将中间特征图与输入图像进行叠加以便观察。如图4所示,从下到下依次为输入图像,本实施例特征图,其他方法特征图,本实施例预测深度图,其他方法预测深度图。可以看出,本发明方法在能够提取到更多的物体细节,从而得到更清晰的深度图。
S2:依次利用通道注意力机制和空间注意力机制对图像特征进行自适应特征优化。
在一个实施例中,通道注意力模块的目的是计算不同颜色通道之间的依赖关系并得到对应的注意力权值,输入的特征通过最大池化层(MaxPool)和平均池化层(AvgPool)进行空间压缩得到两个张量,记为张量一;然后将其送入多层感知机(MLP,Multi layerPerceptron),最后将通道注意力图依次经过最大池化层和平均池化层得到一个张量,记为张量二;将张量二进行相加并通过sigmoid得到通道注意力图AttC,空间注意力模块的目的是增强对重要区域的关注度从而提取关键信息,输入的特征依次经过最大池化层和平均池化层,最后通过卷积层和sigmoid获得空间注意力图AttS。最终的特征可以描述为Y=AttS(AttC(X)),X与Y分别代表输入特征和输出特征。
S3:将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率。
在一个实施例中,将输入特征图通过双线性差值进行上采样恢复分辨率,可以使用torch.nn.functional.grid_sample函数实现。
S4:对S3恢复后的特征图像作为目标图像进行深度信息预测,计算当前特征图像的相对位姿变化;利用深度信息和相对位姿变化重建目标图像,即重建图像,以无监督的方式训练网络。
在一个实施例中,首先利用深度网络对目标图像进行深度信息预测,基于自编码器架构设计深度网络Θdepth,深度网络分为编码器和解码器两部分,编码器对输入图像进行特征提取,由五个编码器模块组成,解码器负责对提取的特征进行尺度恢复并输出不同尺寸的深度图,构建多尺度特征。每经历一个编码器模块,特征图的大小降为输入的一半。编码器含有5个编码器块,每个编码器块的输出尺寸分别为(H/2,W/2)、(H/4,W/4)、(H/8,W/8)、(H/16,W/16)、(H/32,W/32)。解码器块使用上采样恢复尺寸,每个解码器块的输出为输入的两倍,解码器的输入由两部分组成,第一部分来自于上一阶段的解码器的输出之外,第二部分来对应编码器的输出,通过不同尺度特征图的融合来增强解码器输出特征图的细节。
解码器预测出对应深度图d,同时姿势网络Θpose将目标视图It和附近源视图I't,t'∈{t-1,t+1}为输入,并输出相对位姿变化Tt→t'=Θpose(It,It'),t∈{t-1,t+1}。基于拍摄场景是静止的并且视图的变化只由移动相机引起的假设,则可以使用源视图It',t'∈{t-1,t+1}的像素来重建目标视图It,将目标视图It和相邻帧源视图I't,t'∈{t-1,t+1}为输入。此处构建可概述为以下公式:
It'→t=It'[proj(reproj(It,d,Tt→t'),K)]
其中,d为预测深度信息,Tt→t'代表位姿变化,K是已知的相机内在参数,[]是采样算子,reproj返回相机t'的3D点云,proj输出将点云投影到It'的2D坐标,最后得到重建图像It'→t。
S5:计算目标图像与重建图像在多尺度下的光度误差和平滑误差,进一步获得损失函数。
在一个实施例中,给定输入目标图像It和重建图像It'→t,使用结构相似度SSIM(structural similarity index measure)来计算重建图像和目标图像之间的相似度,然后叠加L1范数,得到光度误差: 其中,α为权重参数,实验时设置为0.85。
由于深度不连续经常发生在图像梯度处,通过对视差梯度的L1惩罚来鼓励视差局部平滑,得到平滑误差:
其中,和/>分别代表x方向与y方向的深度梯度;/>dt是与It对应的深度值。
为了防止在训练过程中陷入局部最小值,将光度误差和平滑误差以多尺度误差形式计算其加权和。
在一个实施例中,通过自动掩码技术忽略掉序列中相邻帧不发生改变的像素。将掩码u设置为二进制:
u=[min(lp(It,It'→t))<min(lp(It,It'))]t'∈{t-1,t+1}
并与光度损失相乘得到最终误差。
本实施例采用的损失为多尺度损失,由两部分组成,光度误差和平滑误差,为了最小化损失函数可以达到预测高精度深度信息的目的,设计损失函数如下:
其中u为掩码,为最小光度损失,
β是光度损失和平滑损失lsmooth之间的加权系数。
本实施例中,网络模型在训练时将会产生4个尺度的输出,输出的尺寸依次为输入突出尺寸的1/8,1/4,1/2,1,因此我们最终的损失为4个尺度的损失平均和。
S6:重复S2-S5进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型。
本实施例采用的方法为无监督学习,在训练时无需真实深度值作为监督信号,每次输入的图像为3张相邻帧。每次重复执行到S2和S5时,根据训练机器GPU现存的大小处理一部分数据,每次循环根据损失函数反向传播来更新模型参数,将全部数据送入网络一次后记为迭代一次,直到达到指定迭代轮次后停止训练。本实施例将每次训练处理的图像数设置为16,训练一共持续22轮。并且采用动态学习率防止学习不稳定,学习率初始化为1×10-4,并且在随后的18个epoch衰减成原来的一半,平滑损失的权重β设置为0.001。每轮训练训练结束后都会在一个验证集上进行验证,最后悬链完成后选择验证集上表现最好的模型作为最后的训练结果。
预测深度信息步骤包括:
S7:利用训练后的模型对输入的场景图像进行深度信息预测。
在一个实施例中,对模型进行测试即是模拟模型在实际使用中的表现。选择在训练集以外的图像作为模型输入,模型的输出为:对应图像的每一个像素的深度信息。
为了证明本发明预测效果的优异性,下面结合具体图像预测结果进行说明:
图4上图为输入图像序列,下图为根据输入图像预测的深度信息,经过彩色可视化后展现为深度图,图中颜色越偏向黑色表示距离越远,颜色越偏向黄色表示距离越近。可以看出本发明在物体的细节和边缘特征处表现更加优秀,比如路灯的灯杆和树冠,都能够清晰的预测出轮廓。
以上对本发明所提供的基于图像的深度信息估计方法进行了详细介绍,本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本实施例中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本实施例所示的这些实施例,而是要符合与本实施例所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于图像的深度信息估计方法,其特征在于,包括构建模型步骤和预测深度信息步骤:
所述构建模型步骤包括:
S1:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征,包括局部特征和全局特征;
S2:依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化;
S3:将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率;
S4:对S3恢复后的特征图像作为目标图像进行深度信息预测,计算当前特征图像的相对位姿变化;利用所述深度信息和所述相对位姿变化重建目标图像,即重建图像;
S5:计算目标图像与重建图像在多尺度下的光度误差和平滑误差,进一步获得损失函数;
S6:重复S2-S6进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;
所述预测深度信息步骤包括:
S7:利用训练后的模型对输入的场景图像进行深度信息预测。
2.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S1包括:
S11:将同一场景的无标注图像序列输入到深度网络,将图像划分成相同大小的patch;
S12:利用CNN提取局部特征,利用Transformer提取全局特征;
S13:将所述局部特征和所述全局特征通过级联拼接在一起,再通过卷积进行输出。
3.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S2包括:
S21:对所述图像特征利用通道注意力机制计算不同通道之间的依赖关系并得到对应的注意力权值,输出通道注意力图;
S22:利用空间注意力机制增强对将所述通道注意力图关键区域的关注度并提取关键信息,得到优化后的图像特征。
4.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S2具体执行步骤包括:
将所述图像特征通过最大池化层和平均池化层进行空间压缩得到两个张量一;
将所述张量一分别送入多层感知机输出中间特征;
将所述中间特征进行相加并通过sigmoid得到通道注意力图;
将所述通道注意力图依次经过最大池化层和平均池化层得到一个张量二;
将所述张量二通过卷积层和sigmoid计算空间注意力,得到优化后的图像特征。
5.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S3包括:
将所述优化后的图像特征在x方向和y方向依次进行线性插值,通过上采样进行尺度恢复。
6.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S4包括:
S41:深度网络接受目标视图It作为输入,并预测出对应n个尺度的深度图d,n≥4;
S42:姿态网络将目标视图It和相邻帧源视图It-1,It+1作为输入,并输出相对位姿变化Tt→t't'∈{t-1,t+1};
S43:利用相邻帧源视图、深度图与位姿变化重建目标图像。
7.根据权利要求6所述的一种基于图像的深度信息估计方法,其特征在于,所述S41的具体执行步骤包括:
利用深度网络对预测深度图,深度网络包括编码器和解码器;
编码器用于对输入图像进行特征提取,包括多个编码器块,每经历一个编码器块,图像的大小降为输入的一半;
解码器用于对提取的特征进行尺度恢复并输出不同尺寸的深度图,构建多尺度特征;解码器块使用上采样恢复尺寸,每个解码器块的输出为输入的两倍,解码器的输入包括两部分,第一部分来自于上一阶段的解码器的输出,第二部分来对应编码器块的输出。
8.根据权利要求6所述的一种基于图像的深度信息估计方法,其特征在于,所述S43的具体执行步骤包括:
It'→t=It'[proj(reproj(It,d,Tt→t'),K)]
Tt→t'=Θpose(It,It'),t∈{t-1,t+1}
其中,It'→t为重建图像,K是已知的相机内在参数,[]是采样算子,reproj返回相机t'的3D点云,proj输出将点云投影到It'的2D坐标,Tt→t'为相对位姿变化,Θpose为姿势网络。
9.根据权利要求6所述的一种基于图像的深度信息估计方法,其特征在于,所述S5包括:
使用结构相似度SSIM来计算重建图像和目标图像之间的相似度;
将所述的相似度叠加L1范数得到光度误差lp(It,It'→t);
通过图像梯度对深度信息进行加权得到平滑误差lsmooth(d);
在n个尺度分别重复操作获得光度误差和平滑误差并计算其加权和,获得损失函数:
其中,u为掩码,为最小光度损失,β是光度损失和平滑损失lsmooth之间的加权系数;
u=[min(lp(It,It'→t))<min(lp(It,It'))]t'∈{t-1,t+1}
10.根据权利要求9所述的一种基于图像的深度信息估计方法,其特征在于,通过自动掩码方法忽略掉图像序列中相邻帧不发生改变的像素,将掩码设置为二进制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310217308.0A CN116468769A (zh) | 2023-03-08 | 2023-03-08 | 一种基于图像的深度信息估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310217308.0A CN116468769A (zh) | 2023-03-08 | 2023-03-08 | 一种基于图像的深度信息估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468769A true CN116468769A (zh) | 2023-07-21 |
Family
ID=87176074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310217308.0A Pending CN116468769A (zh) | 2023-03-08 | 2023-03-08 | 一种基于图像的深度信息估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468769A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474956A (zh) * | 2023-12-25 | 2024-01-30 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
CN117495938A (zh) * | 2024-01-02 | 2024-02-02 | 山东力乐新材料研究院有限公司 | 一种基于图像处理的可折叠中空板生产数据提取方法 |
-
2023
- 2023-03-08 CN CN202310217308.0A patent/CN116468769A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474956A (zh) * | 2023-12-25 | 2024-01-30 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
CN117474956B (zh) * | 2023-12-25 | 2024-03-26 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
CN117495938A (zh) * | 2024-01-02 | 2024-02-02 | 山东力乐新材料研究院有限公司 | 一种基于图像处理的可折叠中空板生产数据提取方法 |
CN117495938B (zh) * | 2024-01-02 | 2024-04-16 | 山东力乐新材料研究院有限公司 | 一种基于图像处理的可折叠中空板生产数据提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
US20210150747A1 (en) | Depth image generation method and device | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN113936139B (zh) | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 | |
CN109791697A (zh) | 使用统计模型从图像数据预测深度 | |
CN116468769A (zh) | 一种基于图像的深度信息估计方法 | |
Won et al. | End-to-end learning for omnidirectional stereo matching with uncertainty prior | |
CN113850900B (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN113256699B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113284251A (zh) | 一种自适应视角的级联网络三维重建方法及系统 | |
CN111105451B (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
CN108830890B (zh) | 一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法 | |
CN110889868A (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN113160210A (zh) | 基于深度相机的排水管道缺陷检测方法及装置 | |
CN112561979A (zh) | 一种基于深度学习的自监督单目深度估计方法 | |
US20230177771A1 (en) | Method for performing volumetric reconstruction | |
CN113920270B (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
CN114663599A (zh) | 一种基于多视图的人体表面重建方法及系统 | |
CN113554102A (zh) | 代价计算动态规划的航空影像dsm匹配法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |