CN115294282A - 三维场景重建中增强特征融合的单目深度估计系统及其方法 - Google Patents

三维场景重建中增强特征融合的单目深度估计系统及其方法 Download PDF

Info

Publication number
CN115294282A
CN115294282A CN202211003081.1A CN202211003081A CN115294282A CN 115294282 A CN115294282 A CN 115294282A CN 202211003081 A CN202211003081 A CN 202211003081A CN 115294282 A CN115294282 A CN 115294282A
Authority
CN
China
Prior art keywords
depth
feature
depth estimation
decoder
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211003081.1A
Other languages
English (en)
Inventor
陈俊辉
程德强
寇旗旗
徐飞翔
王晓艺
韩成功
张皓翔
吕晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211003081.1A priority Critical patent/CN115294282A/zh
Publication of CN115294282A publication Critical patent/CN115294282A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Abstract

本发明公开了一种三维场景重建中增强特征融合的单目深度估计系统,该系统包括单目深度估计网络,单目深度估计网络采用自监督方式优化训练;单目深度估计网络包括深度估计网络和位姿预测网络,深度估计网络用于帮助目标图像恢复深度;位姿预测网络用于输出邻帧间运动量;深度估计网络包括深度编码器和深度解码器;深度编码器接用于提取输入图像的深度信息特征;深度解码器生成各尺度的深度预测图;深度编码器与深度解码器采用全尺度跳跃连接,获得全尺度的编、解码器特征信息,并将其融合。本发明通过深度编码器和深度解码器采用全尺度跳跃连接,优化学习分配各层特征信息的参数权重,得到精确的深度边界与预测精度。

Description

三维场景重建中增强特征融合的单目深度估计系统及其方法
技术领域
本发明属于图像处理技术领域,具体涉及三维场景重建中增强特征融合的单目深度估计系统及其方法。
背景技术
随着深度学习技术的兴起,计算机视觉领域取得了巨大的进步和丰硕的成果。对于当下的三维场景重建领域而言,深度估计(Depth Estimation)任务对从二维图像到三维空间的映射起着重要作用,它帮助计算机理解和感知现实中的三维场景。实际上,该任务在自动驾驶以及增强现实等领域都有着丰富的应用。一般真实的深度通常可以利用激光测距仪等各种昂贵的设备去获取物体表面上一定数量点的深度,然而这样的方式并不适用于普遍场景。而通过摄像头获取二维图像,然后应用深度学习技术,从二维图像估计深度的方式则使用设备简单,成本廉价。因此,从二维图像上进行深度的估计,是目前研究热点。
深度学习中的单目深度估计以监督方式划分可分为:监督学习,半监督学习以及自监督学习。监督学习使用真实深度信息进行训练;半监督学习引入了其他信息与真实深度信息结合,减少了对真实深度信息的依赖;自监督学习则不需要深度标注信息,由于自然界都是大量的无标签数据,自监督更适用现实情况。近年来,自监督的方式受到了广泛关注,并且在基准数据集上都取得了不错的结果。
目前的单目深度估计自监督方法中仍存在以下缺陷:第一、编、解码器在下采样与上采样的操作中是不可逆的,特征信息不可避免地会出现丢失的现象。为解决各尺度解码器特征信息的缺失,当前主流方法只是简单地连接了编、解码器对应层的特征信息,没有解决深度网中特征信息丢失的问题;第二、在深度估计网络结构中,中间多层特征图的特征信息在解码器进行深度预测时没有得到利用,导致预测的深度图在物体边界、无纹理与弱纹理的区域出现深度模糊的现象,深度估计网络的性能受到限制。
发明内容
本发明针对上述的不足之处提供一种根据不同层的特征信息对于恢复深度图的重要程度,可以自己去优化学习分配各层特征信息的参数权重,得到更精确的深度边界与预测精度的三维场景重建中增强特征融合的单目深度估计系统及其方法。
本发明目的是这样实现的:三维场景重建中增强特征融合的单目深度估计系统,其特征在于:所述该系统包括单目深度估计网络,单目深度估计网络采用自监督方式优化训练;
所述单目深度估计网络基于MonoDepth2的网络框架;
所述单目深度估计网络包括深度估计网络和位姿预测网络,深度估计网络用于帮助目标图像恢复深度;
所述位姿预测网络用于输出邻帧间运动量。
优选的,所述深度估计网络包括深度编码器和深度解码器;
所述深度编码器接用于提取输入图像的深度信息特征;
所述深度解码器生成各尺度的深度预测图;
所述深度编码器与深度解码器采用全尺度跳跃连接,获得全尺度的编、解码器特征信息,并将其融合。
优选的,所述自监督方式优化网络包括损失函数,损失函数包括最小重投影损失函数与边缘平滑度损失函数;
所述最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值;
所述边缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。
三维场景重建中增强特征融合的单目深度估计方法,其特征在于:所述该方法包括以下步骤:
步骤1:构建KITTI数据集;
步骤2:构建单目深度估计网络的深度估计网络,通过深度编码器提取输入图像的深度信息特征,深度解码器生成各尺度的深度预测图;
步骤3:构建单目深度估计网络的位姿预测网络,通过相机邻帧间运动位姿的估计重投影到目标图像的光度损失作为主要深度监督信号;
步骤4:构建自监督方式优化网络,通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络。
优选的,所述构建KITTI数据集采用对应应用场景图片,将数据集内九层图片作为训练集,剩下一层图片作为验证集,统一将训练照片缩放到分辨率的大小,以单目视频序列作为训练方式,对数据集手工挑选去掉静态帧后,以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。
优选的,所述深度编码器与深度解码器采用全尺度跳跃连接,采用尺度跳跃连接后,深度估计网络的具体步骤为:
步骤2-1:将图片尺寸为640*192、3通道的图像输入到深度编码器中,经过第一层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000021
通道数变为64的特征图;经过第二层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000022
通道数为64的特征图;经过第三层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000031
通道数为128的特征图;经过第四层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000032
通道数为256的特征图;经过第五层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000033
通道数为512的特征图;第四层解码器首先接收第五层输出特征图,将其上采样至原尺寸的
Figure BDA0003805962090000034
后,通过一个卷积层将其通道数变为32;
步骤2-2:将另四层深度编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的
Figure BDA0003805962090000035
后、通道数变为32的四个特征图;
步骤2-3:沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure BDA0003805962090000036
通道数为160的特征图;通过两次不改变尺寸和通道的卷积后,作为第四层解码器的输出;
步骤2-4:第三层解码器首先将尺寸缩减为原尺寸的
Figure BDA0003805962090000037
通道数为64、64、128的深度编码器输出经过上述类似的操作,转化成尺寸为原尺寸的
Figure BDA0003805962090000038
通道数为32的三个特征图;
步骤2-5:将上两层解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的
Figure BDA0003805962090000039
通道数为32的两个特征图,沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure BDA00038059620900000310
通道数为160的特征图,通过两次不改变尺寸和通道的卷积后,作为第三层解码器的输出。
优选的,所述深度解码器输出的多尺度特征图转化为多尺度视差图的过程中,添加个轻量级的卷积注意力模块,基于全尺度跳跃连接深度编码器、解码器的特征图进行自适应的特征细化选择,强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息;
首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块,然后将两个特征块经过一个共享权重的MLP运算聚集通道信息,最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块;将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′;通道注意力块的计算如下式1所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
其中F是输入特征图,σ(.)是Sigmoid(.)计算;
其次,以中间特征图F′为输入,首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为1,尺寸为80x24的特征块;沿通道数连接上述生成的两个特征块,并将其送入一个标准卷积层,通过Sigmoid(.)激活函数生成空间注意力特征块;将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F″;空间注意力块的计算如下式2所示,其中F′是输入的通道注意力特征图,f7×7(.)是经过一个卷积核为7的卷积运算:
Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)])) (2)
运用注意力机制的整体运算如下式3、4所示:
Figure BDA0003805962090000041
Figure BDA0003805962090000042
其中
Figure BDA0003805962090000043
是按元素广播相乘运算;
将上述的解码器输出特征图F、通道注意力特征块F′、空间注意力特征图F″沿通道维度堆叠成输出的细化特征图;
最后将细化特征图通过一次卷积以及Sigmoid(.)激活函数运算后得到该尺度对应的视差图。
优选的,所述步骤4中通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络的操作如下:
最小重投影损失函数Lp的计算由光度误差函数pe(.)在源图像t'时刻投影到目标图像t时刻的最小值组成,即计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值,如下式5所示:
Lp=mint′pe(It,It′→t) (5)
光度误差函数pe(.)由计算源图像与目标图像间的SSIM(.)结构相似一致性与L1范数相加组成,如下式6所示:
Figure BDA0003805962090000044
其中α=0.85,是光度误差中的超参数权重;SSIM(.)是衡量两幅图像相似度的指标,具体计算如下式7所示:
SSIM(Ia,Ib)=[l(Ia,Ib)]α[c(Ia,Ib)]β[s(Ia,Ib)]γ (7)
其中l(Ia,Ib)是亮度对比、c(Ia,Ib)是对比度对比、s(Ia,Ib)是结构比较;
边缘平滑度损失函数Ls由目标图像沿两个坐标轴方向的梯度
Figure BDA0003805962090000045
与所预测的视差平均归一化值
Figure BDA0003805962090000046
组成,如下式8所示:
Figure BDA0003805962090000047
深度估计方法在计算最小重投影损失时需乘以一个掩模矩阵,自动掩模μ的计算如下式9所示:
μ=[mint′pe(It,It′→t)<mint′pe(It,It′)] (9)
其中[.]运算为满足式中条件时,取1;否则取0;
总损失函数如下式10所示:
L=μLp+λLs (10)
其中λ=0.001,是总损失中的超参数权重。
与现有技术相比,本发明的有益效果:1、通过将深度编码器和深度解码器采用全尺度跳跃连接,增强融合无监督单目深度估计中深度编码器、深度解码器的特征信息,提高网络深度预测的精度;在单目深度估计网络添加全尺度跳跃连接后,对整体的深度估计网络结构进行了重新构建,利用融合全尺度特征图后的解码器输出的特征,可以更好地优化网络参数。
2、通过在生成视差图时添加了一个轻量级的卷积注意力模块,使基于全尺度跳跃连接深度编码器、深度解码器的特征图可以进行自适应的特征细化,强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征,使网络恢复的深度信息更丰富。
3、通过使用自监督方式优化训练单目深度估计网络,提出的无监督约束作为监督信号,深度解码器输出特征后联合位姿预测网络输出的帧间运动量,以全尺度的最小重投影损失以及边缘平滑度损失作为监督信号训练优化网络。
附图说明
图1为本发明的方法流程图。
图2为改进的深度网络图。
图3为深度解码器特征融合网络图。
图4为注意力细化特征网络图。
具体实施方式
以下结合附图对本发明做进一步概述。
本发明基于MonoDepth2的网络框架上,提出的利用全尺度特征增强融合的单目深度估计网络结构,使得深度网中每一层解码器都能获得各尺度下的深度编码器和其他层深度解码器的特征信息;各尺度深度的预测都充分利用了全尺度特征图的信息,增强了深度估计网络对边界、语义与空间特征的融合,最终提高深度估计网络的预测精度。
如图1所示,三维场景重建中增强特征融合的单目深度估计系统,系统包括单目深度估计网络,单目深度估计网络采用自监督方式优化训练;
单目深度估计网络包括深度估计网络和位姿预测网络,深度估计网络用于帮助目标图像恢复到深度度;深度估计网络包括深度编码器和深度解码器;深度编码器与深度解码器采用全尺度跳跃连接,获得全尺度的编、解码器特征信息,并将其融合。
自监督方式优化网络,通过最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值;缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。
三维场景重建中增强特征融合的单目深度估计方法,方法包括以下步骤:
步骤1:构建KITTI数据集;
构建KITTI数据集采用对应应用场景图片,在获取KITTI原始数据集的44234张图片后,将其中九成图片39810张分为训练集,余下一成4424张图片作为验证集。统一将训练照片缩放到分辨率的大小,以单目视频序列作为训练方式,对数据集手工挑选去掉静态帧后,以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。
如图2所示,步骤2:构建单目深度估计网络的深度估计网络,通过深度编码器提取输入图像的深度信息特征,深度解码器生成各尺度的深度预测图
采用全尺度的跳跃连接深度编码器与深度解码器,添加全尺度跳跃连接后,深度估计网络流程,具体步骤为:
将图片尺寸为640*192、3通道的图像输入到深度编码器中,经过第一层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000061
通道数变为64的特征图;经过第二层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000062
通道数为64的特征图;经过第三层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000063
通道数为128的特征图;经过第四层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000064
通道数为256的特征图;经过第五层的卷积层,输出尺寸缩减为原尺寸的
Figure BDA0003805962090000065
通道数为512的特征图;第四层深度解码器首先接收第五层输出特征图,将其上采样至原尺寸的
Figure BDA0003805962090000066
后,通过一个卷积层将其通道数变为32;
将另四层深度编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的
Figure BDA0003805962090000067
后、通道数变为32的四个特征图。
沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure BDA0003805962090000068
通道数为160的特征图;通过两次不改变尺寸和通道的卷积后,作为第四层深度解码器的输出;
第三层深度解码器首先将尺寸缩减为原尺寸的
Figure BDA0003805962090000069
通道数为64、64、128的深度编码器输出经过上述类似的操作,转化成尺寸为原尺寸的
Figure BDA0003805962090000071
通道数为32的三个特征图;
将上两层深度解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的
Figure BDA0003805962090000072
通道数为32的两个特征图,沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure BDA0003805962090000073
通道数为160的特征图,通过两次不改变尺寸和通道的卷积后,作为第三层深度解码器的输出;同理,其他上层解码器经过上述相同处理,输出对应各层尺寸、通道数为160的特征图作为输出。
如图3所示,其他层深度解码器的特征图也做类似的处理,深度解码器每一层的特征图都接收、融合了全尺度层间编、深度解码器的所有特征图,提高了网络对各层特征的利用率。网络在推理阶段时,在最后一层深度解码器在上采样至尺寸为640*192、通道数为160后,通过注意力细化特征层和卷积层将其恢复为网络最后所估计的视差图,深度图即为视差图的倒数。在训练阶段时,网络可选择使用多个尺度的深度解码器输出,通过注意力细化特征层与卷积层恢复相应尺度的视差图,参与到网络的损失计算中。
在深度估计网络深度解码器输出的多尺度特征图转化为多尺度视差图的过程中,添加了一个轻量级的卷积注意力模块,使基于全尺度跳跃连接编、深度解码器的特征图可以进行自适应的特征细化选择,强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息,使恢复的深度信息更丰富。
以第三层深度解码器输出的尺寸为80*24、通道数为160的特征图F作为输入举例。第一步首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块,然后将两个特征块经过一个共享权重的MLP运算聚集通道信息,最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块。将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′。通道注意力块的计算如下式1所示,其中F是输入特征图,σ(.)是Sigmoid(.)计算。
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
第二步以中间特征图F′为输入,首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为1,尺寸为80*24的特征块。然后沿通道数连接上述生成的两个特征块,并将其送入一个标准卷积层,通过Sigmoid(.)激活函数生成空间注意力特征块。将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F″。空间注意力块的计算如下式2所示,其中F′是输入的通道注意力特征图,f7×7(.)是经过一个卷积核为7的卷积运算。
Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)])) (2)
运用注意力机制的整体运算如下式3、4所示:
Figure BDA0003805962090000081
Figure BDA0003805962090000082
其中
Figure BDA0003805962090000083
是按元素广播相乘运算。
第三步将上述的深度解码器输出特征图F、通道注意力特征块F′、空间注意力特征图F″沿通道维度堆叠成输出的细化特征图。
最后将细化特征图通过一次卷积以及Sigmoid(.)激活函数运算后得到该尺度对应的视差图。其他尺度的深度解码器输出按上述操作亦可生成对应尺度的视差图。此方法生成的视差图可以自适应地从细化特征中关注学习重要特征,抑制不必要的特征信息,使网络恢复的深度信息更丰富。
步骤3:构建单目深度估计网络的位姿预测网络,通过相机邻帧间运动位姿的估计重投影到目标图像的光度损失作为主要深度监督信号;
步骤4:构建自监督方式优化网络,通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络。
深度估计方法中的无监督约束可选择地利用多个尺度的视差图,将其上采样至原图尺寸再计算损失,减少视觉伪影。损失函数主要包含两个部分,最小重投影损失函数与边缘平滑度损失函数。
最小重投影损失函数Lp的计算由光度误差函数pe(.)在源图像t'时刻投影到目标图像t时刻的最小值组成,即计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值,如下式5所示:
Lp=mint′pe(It,It′→t) (5)
光度误差函数pe(.)由计算源图像与目标图像间的SSIM(.)结构相似一致性与L1范数相加组成,如下式6所示:
Figure BDA0003805962090000084
其中α=0.85,是光度误差中的超参数权重;SSIM(.)是衡量两幅图像相似度的指标,具体计算如下式7所示:
SSIM(Ia,Ib)=[l(Ia,Ib)]α[c(Ia,Ib)]β[s(Ia,Ib)]γ (7)
其中l(Ia,Ib)是亮度对比、c(Ia,Ib)是对比度对比、s(Ia,Ib)是结构比较。
边缘平滑度损失函数Ls由目标图像沿两个坐标轴方向的梯度
Figure BDA0003805962090000091
与所预测的视差平均归一化值
Figure BDA0003805962090000092
组成,如下式8所示:
Figure BDA0003805962090000093
为解决在相机坐标系中静态物体具有无穷大深度的问题,深度估计方法在计算最小重投影损失时需乘以一个掩模矩阵,自动掩模μ的计算如下式9所示:
μ=[mint′pe(It,It′→t)<mint′pe(It,It′)] (9)
其中[.]运算为满足式中条件时,取1;否则取0。
总损失函数如下式10所示:
L=μLp+λLs (10)
其中λ=0.001,是总损失中的超参数权重。
工作原理:如图1所示,本发明的整体网络以MonoDepth2单目深度估计的架构为基础,首先以MonoDepth2网络架构为基础,构建位姿预测网络以及深度估计网络。当一组数据输入到网络中时,其中目标帧图像输入深度估计网络恢复深度图,而目标帧图像与其上下帧图像分别输入位姿预测网络输出两帧间运动量。后续网络将结合两者输出优化网络权重参数。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (8)

1.三维场景重建中增强特征融合的单目深度估计系统,其特征在于:所述该系统包括单目深度估计网络,单目深度估计网络采用自监督方式优化训练;
所述单目深度估计网络基于MonoDepth2的网络框架;
所述单目深度估计网络包括深度估计网络和位姿预测网络,深度估计网络用于帮助目标图像恢复深度;
所述位姿预测网络用于输出邻帧间运动量。
2.根据权利要求1所述的单目深度估计系统,其特征在于:所述深度估计网络包括深度编码器和深度解码器;
所述深度编码器接用于提取输入图像的深度信息特征;
所述深度解码器生成各尺度的深度预测图;
所述深度编码器与深度解码器采用全尺度跳跃连接,获得全尺度的编、解码器特征信息,并将其融合。
3.根据权利要求1所述的单目深度估计方法,其特征在于:所述自监督方式优化网络包括损失函数,损失函数包括最小重投影损失函数与边缘平滑度损失函数;
所述最小重投影损失函数计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值;
所述边缘平滑度损失函数用于解决在相机坐标系中静态物体具有无穷大深度的问题。
4.利用权利要求1-3任意一项所述的单目深度估计系统形成的单目深度估计方法,其特征在于:所述该方法包括以下步骤:
步骤1:构建KITTI数据集;
步骤2:构建单目深度估计网络的深度估计网络,通过深度编码器提取输入图像的深度信息特征,深度解码器生成各尺度的深度预测图;
步骤3:构建单目深度估计网络的位姿预测网络,通过相机邻帧间运动位姿的估计重投影到目标图像的光度损失作为主要深度监督信号;
步骤4:构建自监督方式优化网络,通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络。
5.根据权利要求4所述的单目深度估计方法,其特征在于:所述构建KITTI数据集采用对应应用场景图片,将数据集内九层图片作为训练集,剩下一层图片作为验证集,统一将训练照片缩放到分辨率的大小,以单目视频序列作为训练方式,对数据集手工挑选去掉静态帧后,以目标帧及其上下帧作为一组的形式输入给单目深度估计网络。
6.根据权利要求4所述的单目深度估计方法,其特征在于:所述深度编码器与深度解码器采用全尺度跳跃连接,采用尺度跳跃连接后,深度估计网络的具体步骤为:
步骤2-1:将图片尺寸为640*192、3通道的图像输入到编码器中,经过第一层的卷积层,输出尺寸缩减为原尺寸的
Figure FDA0003805962080000021
通道数变为64的特征图;经过第二层的卷积层,输出尺寸缩减为原尺寸的
Figure FDA0003805962080000022
通道数为64的特征图;经过第三层的卷积层,输出尺寸缩减为原尺寸的
Figure FDA0003805962080000023
通道数为128的特征图;经过第四层的卷积层,输出尺寸缩减为原尺寸的
Figure FDA0003805962080000024
通道数为256的特征图;经过第五层的卷积层,输出尺寸缩减为原尺寸的
Figure FDA0003805962080000025
通道数为512的特征图;第四层解码器首先接收第五层输出特征图,将其上采样至原尺寸的
Figure FDA0003805962080000026
后,通过一个卷积层将其通道数变为32;
步骤2-2:将另四层编码器输出的特征图选择性地利用最大池化层和卷积的操作转化成尺寸为原尺寸的
Figure FDA0003805962080000027
后、通道数变为32的四个特征图;
步骤2-3:沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure FDA0003805962080000028
通道数为160的特征图;通过两次不改变尺寸和通道的卷积后,作为第四层解码器的输出;
步骤2-4:第三层解码器首先将尺寸缩减为原尺寸的
Figure FDA0003805962080000029
通道数为64、64、128的编码器输出经过上述类似的操作,转化成尺寸为原尺寸的
Figure FDA00038059620800000210
通道数为32的三个特征图;
步骤2-5:将上两层解码器输出经过双线性上采样和卷积的操作同样转化成尺寸为原尺寸的
Figure FDA00038059620800000211
通道数为32的两个特征图,沿着通道数的维度拼接融合这五个通道数为32的特征图,得到大小为原尺寸的
Figure FDA00038059620800000212
通道数为160的特征图,通过两次不改变尺寸和通道的卷积后,作为第三层解码器的输出。
7.根据权利要求5所述的单目深度估计方法,其特征在于:所述深度解码器输出的多尺度特征图转化为多尺度视差图的过程中,添加个轻量级的卷积注意力模块,基于全尺度跳跃连接深度编码器、解码器的特征图进行自适应的特征细化选择,强调特征图在生成视差图的过程中的重要特征并抑制不必要的特征信息;
首先输入特征图并行通过全局最大池化以及全局平均池化操作获得两个沿通道维度的1x1特征块,然后将两个特征块经过一个共享权重的MLP运算聚集通道信息,最后将两个特征块相加后通过Sigmoid(.)激活函数生成通道注意力特征块;将通道注意力块与输入特征图按元素广播相乘得到通道注意力特征图F′;通道注意力块的计算如下式1所示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
其中F是输入特征图,σ(.)是Sigmoid(.)计算;
其次,以中间特征图F′为输入,首先沿通道维度应用最大池化以及平均池化操作获得两个通道维度为1,尺寸为80x24的特征块;沿通道数连接上述生成的两个特征块,并将其送入一个标准卷积层,通过Sigmoid(.)激活函数生成空间注意力特征块;将空间注意力块与通道注意力特征图按元素广播相乘得到空间注意力特征图F″;空间注意力块的计算如下式2所示,其中F′是输入的通道注意力特征图,f7×7(.)是经过一个卷积核为7的卷积运算:
Ms(F′)=σ(f7×7([AvgPool(F′);MaxPool(F′)])) (2)
运用注意力机制的整体运算如下式3、4所示:
Figure FDA0003805962080000031
Figure FDA0003805962080000032
其中
Figure FDA0003805962080000033
是按元素广播相乘运算;
将上述的解码器输出特征图F、通道注意力特征块F′、空间注意力特征图F″沿通道维度堆叠成输出的细化特征图;
最后将细化特征图通过一次卷积以及Sigmoid(.)激活函数运算后得到该尺度对应的视差图。
8.根据权利要求4所述的单目深度估计方法,其特征在于:所述步骤4中通过使用全尺度的最小重投影损失函数与边缘平滑度损失函数结合训练单目深度估计网络的操作如下:
最小重投影损失函数Lp的计算由光度误差函数pe(.)在源图像t'时刻投影到目标图像t时刻的最小值组成,即计算当前帧的邻帧图像投影到当前帧图像的最小光度误差值,如下式5所示:
Lp=mint′pe(It,It′→t) (5)
光度误差函数pe(.)由计算源图像与目标图像间的SSIM(.)结构相似一致性与L1范数相加组成,如下式6所示:
Figure FDA0003805962080000034
其中α=0.85,是光度误差中的超参数权重;SSIM(.)是衡量两幅图像相似度的指标,具体计算如下式7所示:
SSIM(Ia,Ib)=[l(Ia,Ib)]α[c(Ia,Ib)]β[s(Ia,Ib)]γ (7)
其中l(Ia,Ib)是亮度对比、c(Ia,Ib)是对比度对比、s(Ia,Ib)是结构比较;
边缘平滑度损失函数Ls由目标图像沿两个坐标轴方向的梯度
Figure FDA0003805962080000041
与所预测的视差平均归一化值
Figure FDA0003805962080000042
组成,如下式8所示:
Figure FDA0003805962080000043
深度估计方法在计算最小重投影损失时需乘以一个掩模矩阵,自动掩模μ的计算如下式9所示:
μ=[mint′pe(It,It′→t)<mint′pe(It,It′)] (9)
其中[.]运算为满足式中条件时,取1;否则取0;
总损失函数如下式10所示:
L=μLp+λLs (10)
其中λ=0.001,是总损失中的超参数权重。
CN202211003081.1A 2022-08-19 2022-08-19 三维场景重建中增强特征融合的单目深度估计系统及其方法 Pending CN115294282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003081.1A CN115294282A (zh) 2022-08-19 2022-08-19 三维场景重建中增强特征融合的单目深度估计系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003081.1A CN115294282A (zh) 2022-08-19 2022-08-19 三维场景重建中增强特征融合的单目深度估计系统及其方法

Publications (1)

Publication Number Publication Date
CN115294282A true CN115294282A (zh) 2022-11-04

Family

ID=83830947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003081.1A Pending CN115294282A (zh) 2022-08-19 2022-08-19 三维场景重建中增强特征融合的单目深度估计系统及其方法

Country Status (1)

Country Link
CN (1) CN115294282A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168070A (zh) * 2023-01-16 2023-05-26 南京航空航天大学 一种基于红外图像的单目深度估计方法及系统
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116563458A (zh) * 2023-04-07 2023-08-08 郑州大学 一种基于图像深度估计的排水管道内部病害三维重构方法
CN117726666A (zh) * 2024-02-08 2024-03-19 北京邮电大学 跨相机单目图片度量深度估计方法、装置、设备及介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580704A (zh) * 2019-07-24 2019-12-17 中国科学院计算技术研究所 基于卷积神经网络的et细胞图像自动分割方法及系统
CN111402310A (zh) * 2020-02-29 2020-07-10 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111651504A (zh) * 2020-06-03 2020-09-11 湖南大学 基于深度学习的多元时间序列多层时空依赖建模方法
CN113052180A (zh) * 2021-03-23 2021-06-29 中国人民解放军战略支援部队信息工程大学 融合语义流场的编解码网络港口影像分割方法
CN113420871A (zh) * 2021-07-28 2021-09-21 浙江大华技术股份有限公司 图像质量的评估方法、装置、存储介质及电子装置
CN114155474A (zh) * 2021-12-12 2022-03-08 菅政 基于视频语义分割算法的损伤识别技术
CN114187491A (zh) * 2022-02-17 2022-03-15 中国科学院微电子研究所 一种遮挡物体检测方法和装置
CN114723687A (zh) * 2022-03-23 2022-07-08 安徽理工大学 基于改进DeeplabV3+的白细胞语义分割算法
CN114821087A (zh) * 2022-04-15 2022-07-29 苏州立创致恒电子科技有限公司 一种深度图像关键点的检测与描述模型及方法
CN114820732A (zh) * 2022-04-15 2022-07-29 苏州立创致恒电子科技有限公司 一种高铁列车图像的关键点检测与描述的系统及方法
CN114913160A (zh) * 2022-05-24 2022-08-16 北京航空航天大学 一种基于人工神经网络的腰椎ct图像空间定位方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580704A (zh) * 2019-07-24 2019-12-17 中国科学院计算技术研究所 基于卷积神经网络的et细胞图像自动分割方法及系统
CN111402310A (zh) * 2020-02-29 2020-07-10 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111651504A (zh) * 2020-06-03 2020-09-11 湖南大学 基于深度学习的多元时间序列多层时空依赖建模方法
CN113052180A (zh) * 2021-03-23 2021-06-29 中国人民解放军战略支援部队信息工程大学 融合语义流场的编解码网络港口影像分割方法
CN113420871A (zh) * 2021-07-28 2021-09-21 浙江大华技术股份有限公司 图像质量的评估方法、装置、存储介质及电子装置
CN114155474A (zh) * 2021-12-12 2022-03-08 菅政 基于视频语义分割算法的损伤识别技术
CN114187491A (zh) * 2022-02-17 2022-03-15 中国科学院微电子研究所 一种遮挡物体检测方法和装置
CN114723687A (zh) * 2022-03-23 2022-07-08 安徽理工大学 基于改进DeeplabV3+的白细胞语义分割算法
CN114821087A (zh) * 2022-04-15 2022-07-29 苏州立创致恒电子科技有限公司 一种深度图像关键点的检测与描述模型及方法
CN114820732A (zh) * 2022-04-15 2022-07-29 苏州立创致恒电子科技有限公司 一种高铁列车图像的关键点检测与描述的系统及方法
CN114913160A (zh) * 2022-05-24 2022-08-16 北京航空航天大学 一种基于人工神经网络的腰椎ct图像空间定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CL´EMENT GODARD ET AL.: "Digging Into Self-Supervised Monocular Depth Estimation" *
HUIMIN HUANG ET AL.: "UNET 3+: A FULL-SCALE CONNECTED UNET FOR MEDICAL IMAGE SEGMENTATION" *
ZHOU WANG ET AL.: "Image Quality Assessment: From Error Visibility to Structural Similarity" *
黄继辉 等: "一种优化的深度学习立体匹配算法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168070A (zh) * 2023-01-16 2023-05-26 南京航空航天大学 一种基于红外图像的单目深度估计方法及系统
CN116168070B (zh) * 2023-01-16 2023-10-13 南京航空航天大学 一种基于红外图像的单目深度估计方法及系统
CN116245927A (zh) * 2023-02-09 2023-06-09 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及系统
CN116563458A (zh) * 2023-04-07 2023-08-08 郑州大学 一种基于图像深度估计的排水管道内部病害三维重构方法
CN117726666A (zh) * 2024-02-08 2024-03-19 北京邮电大学 跨相机单目图片度量深度估计方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN111062951B (zh) 一种基于语义分割类内特征差异性的知识蒸馏方法
CN115294282A (zh) 三维场景重建中增强特征融合的单目深度估计系统及其方法
Xie et al. Deep3d: Fully automatic 2d-to-3d video conversion with deep convolutional neural networks
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN112308200A (zh) 神经网络的搜索方法及装置
CN115187638B (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN110942484B (zh) 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN115861635B (zh) 抗透射畸变的无人机倾斜影像语义信息提取方法及设备
CN112422870B (zh) 一种基于知识蒸馏的深度学习视频插帧方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN115205150A (zh) 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN115272437A (zh) 一种基于全局与局部特征的图像深度估计方法及装置
CN116563459A (zh) 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法
CN110225342B (zh) 基于语义失真度量的视频编码的比特分配系统及方法
Yuan et al. A novel deep pixel restoration video prediction algorithm integrating attention mechanism
CN113837941A (zh) 图像超分模型的训练方法、装置及计算机可读存储介质
CN111726621B (zh) 一种视频转换方法及装置
CN116342675B (zh) 一种实时单目深度估计方法、系统、电子设备及存储介质
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination