CN115272437A - 一种基于全局与局部特征的图像深度估计方法及装置 - Google Patents

一种基于全局与局部特征的图像深度估计方法及装置 Download PDF

Info

Publication number
CN115272437A
CN115272437A CN202210959545.XA CN202210959545A CN115272437A CN 115272437 A CN115272437 A CN 115272437A CN 202210959545 A CN202210959545 A CN 202210959545A CN 115272437 A CN115272437 A CN 115272437A
Authority
CN
China
Prior art keywords
depth
global
inputrgb
image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210959545.XA
Other languages
English (en)
Inventor
胡高杰
刘光灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210959545.XA priority Critical patent/CN115272437A/zh
Publication of CN115272437A publication Critical patent/CN115272437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于全局与局部特征的图像深度估计方法及装置,包括:1)数据预处理;2)提取输入图像中的全局特征与局部特征;3)融合全局特征与局部特征;4)解码预测。本发明方法引入了一种新的仅用于深度估计任务的数据增强方法,能够使得模型在编码阶段既可以提取彩色图像的全局特征,也可以提取局部特征,以及在解码阶段利用我们设计的融合模块结合不同特征的同时预估稠密的、高质量的深度图,并且在额外的数据集上表现出了更强的泛化性能。

Description

一种基于全局与局部特征的图像深度估计方法及装置
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于全局与局部特征的图像深度估计方法及装置。
背景技术:
单目深度估计任务旨在:将一张RGB图像映射成稠密的深度图。这是计算机视觉中的一个经典任务,对于许多的实际应用来说是至关重要的,例如:自动驾驶领域、机器人跟踪与定位、3D视觉场景重建等。但一直以来,该项任务存在一个病态问题,即单幅彩色图像中的目标可能来自于多个不同3D场景。因此,如何在以获取到的有限数据下使得模型学习的更好是众多该项任务学者的研究对象。
依据单幅彩色图像预测深度图的方法目前大致分为以下三种:第一种是基于机器学习的传统方法,具体指构建概率模型马尔科夫随机场(MRF)与或条件随机场(CRF)描述一个像素或区域的深度与其相邻像素或区域深度间的关系,从而为每一个像素匹配到最符合实际场景的深度值。此种方法存在以下缺点:除了模型在搭建与理解上过于复杂且不易复现外,由于该模型的随机性导致无法准确地寻找到可能来不同场景中的深度,影响最终的预测效果。第二种方法是基于有监督的深度学习,此种方法又分为以下几种:1)仅利用卷积提取图像中的编码信息预估深度,此种方法不足的是没有利用图像中的全局信息;2)仅利用自注意力机制提取图像中的编码信息预估深度,此种方法不足的是缺少局部信息;3)将卷积与自注意力机制分别用于搭建模型的编码与解码阶段,此种方法不足的是将两种信息分开对待,没有充分地结合两者的特点。第三种方法是基于无监督的深度学习方法,一般都是利用视差原理计算目标深度,但这种方法不足的地方在于:需要预先获取左图、右图以及相机参数,无法应用到不同设备下的场景中,十分不便于实际的工程中。
发明内容
目的:为了解决现有方法没有充分利用全局信息与局部信息的不足,本发明提供一种基于全局与局部特征的图像深度估计方法及装置。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种基于全局与局部特征的图像深度估计方法,包括:
获取待估计的彩色图像;
对所述彩色图像进行数据预处理,得到输入图像InputRGB;
提取输入图像InputRGB中的全局特征与局部特征:利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征;
将提取得到的全局特征与局部特征进行融合,得到融合特征向量;
将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,作为图像深度估计结果。
在一些实施例中,所述数据预处理包括:利用CutDepth-Mask数据增强方法作数据预处理;还包括:随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度。
在一些实施例中,利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,包括:
将输入图像InputRGB作为SwinTransformer-T模块的输入,利用一个卷积层将四维输入变量B x 3 x H x W展平成一个三维变量B x P x C,卷积核个数:C x 3,大小:7,步长:4,填充:2,过程按如下公式所示:
Figure BDA0003792240340000031
式中,
Figure BDA0003792240340000032
输入图像I经过第i个卷积层生成的特征向量;
Figure BDA0003792240340000033
第i个卷积核的权重参数;
Figure BDA0003792240340000034
第i个卷积核的偏置参数;*:卷积运算;i的最大值为C;
将三维变量Iemb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进行编码,自注意力层由多个线性层和不同的激活函数组成,下采样层则由一个大小为3,步长为2的卷积层组成;自注意力层的过程按如下公式所示:
Q=(Iemb·Wq+bq)
K=(Iemb·Wk+bk)
V=(Iemb·Wv+bv)
Figure BDA0003792240340000035
Figure BDA0003792240340000036
式中Q、K、V为3个线性函数;Wq、Wk、Wv分别表示q、k、v三个线性层的权重参数;bq、bk、bv分别表示q、k、v三个线性层的偏置参数;softmax表示logistic回归函数,公式如下所示:
Figure BDA0003792240340000037
d:特征向量K的维度;Gi:第i个自注意力层输出的全局特征向量;
Figure BDA0003792240340000041
第i个自注意力层第1个线性层的权重参数;
Figure BDA0003792240340000042
第i个自注意力层第1个线性层的偏置参数;
Figure BDA0003792240340000043
第i个自注意力层第2个线性层的权重参数;
Figure BDA0003792240340000044
第i个自注意力层第2个线性层的偏置参数;·表示矩阵乘法,T表示转置矩阵;
SwinTransformer-T模块输出4个不同分尺度的全局特征向量G1、G2、G3、G4,分别为输入图像InputRGB尺寸的
Figure BDA0003792240340000045
在一些实施例中,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征,包括:
将输入图像InputRGB作为ConvNeXt-S模块的输入,通过四层卷积块与四个下采样层组成的模块对InputRGB进行编码,其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小的卷积核串联构成,分别输出4个不同尺度的局部特征向量L1、L2、L3、L4,分别为输入图像InputRGB尺寸的
Figure BDA0003792240340000046
在一些实施例中,将提取得到的全局特征与局部特征进行融合,包括:
将局部特征L1、L2、L3、L4与全局特征G1、G2、G3、G4输入融合模块进行融合,获得融合特征向量M1、M2、M3、M4
Figure BDA0003792240340000047
Figure BDA0003792240340000048
Figure BDA0003792240340000049
式中:concat:拼接;dim:拼接的维度;Maxpool:最大池化,大小为3,步长为1,填充为1;Avgpool:均值池化,大小为3,步长为1,填充为1;Conv:卷积,大小为3,步长为1,填充为1;i:第i个特征向量,
Figure BDA00037922403400000410
为中间参数。
在一些实施例中,将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,包括:
对融合特征向量M1、M2、M3、M4进行合并,得到合并后的融合特征向量Y1、Y2、Y3:使用两个连续的卷积连接邻近的融合特征Mi、Mi+1
Y1=Conv(Conv(concat(bilinear(M1),M2,dim=1)))
Y2=Conv(Conv(concat(bilinear(Y1),M3,dim=1)))
Y3=Conv(Conv(concat(bilinear(Y2),M4,dim=1)))
式中,bilinear:双线性插值,缩放比例2;dim:拼接的维度;concat:拼接;Conv:卷积,Yi:每一次缩放合并后的特征图;
将Y3缩放为输入图像InputRGB一半的分辨率,缩放函数:Bilinear;利用卷积网络增强网络的拟合能力,最后再利用Sigmoid归一化,得到归一化后的Depth_pre_norm;过程如下公式所示:
Depth_pre_norm=Sigmoid(Conv(bilinear(Y3)))
将归一化后的Depth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值算法恢复到输入图像InputRGB尺寸,得到绝对深度图Depth_pre。
所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R;输入图像InputRGB经过整个网络模型后输出绝对深度图的左图Depth_pre_L和右图Depth_pre_R,用一个总的模型公式可以表示为:
Depth_pre_L=Net(InputRGB)
Depth_pre_R=Net(ship(InputRGB))
式中,Net:整个网络模型;ship:水平翻转。
在一些实施例中,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,包括:所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R;
Figure BDA0003792240340000061
式中,ship:水平翻转。
在本实施例中,对彩色图像中全局特征与局部特征的提取,该过程可按如下公式所示:
L=ConNeXt(InputRGB)
G=Swin(InputRGB)
其中,ConNeXt:局部编码器;Swin:全局编码器;
此外,为了可以很好的体现我们模型的优异性能,我们还设计了一种新的指标函数:Dhrel(Double hook function)。双钩函数公式如下所示:
Figure BDA0003792240340000062
式中,pi:预测深度图Depth_pre的有效深度;gi:真实深度图Depth_gt的有效深度。
第二方面,本发明提供了一种基于全局与局部特征的图像深度估计装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
本发明的优点在于:本发明提供的方法,使得模型在编码阶段不仅可以提取图像的局部信息,也能够获取到全局信息,输入仅为单幅彩色图像,解码阶段充分结合了提取的两种信息,从而更加准确地估计深度。
附图说明
图1为本发明实施例中方法的流程图。
图2为本发明实施例中数据增强方法的示意图。
图3为本发明实施例中编码阶段的结构图。
图4为本发明实施例中融合模块的结构图。
图5为本发明实施例方法在室外数据集KITTI上的可视化效果图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式进一步阐述本发明。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种基于全局与局部特征的图像深度估计方法,包括:
获取待估计的彩色图像;
对所述彩色图像进行数据预处理,得到输入图像InputRGB;
提取输入图像InputRGB中的全局特征与局部特征:利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征;
将提取得到的全局特征与局部特征进行融合,得到融合特征向量;
将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,作为图像深度估计结果。
在一些实施例中,所述数据预处理包括:利用CutDepth-Mask数据增强方法作数据预处理;
还包括:随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度。
进一步地,数据预处理:对给定的彩色图像RGB与真实深度图Depth_gt应用一些预处理方法,将预处理后的图像作为模型的输入用于后续的深度图预测是深度学习中常用的技术。常用的预处理方法有如下几个:随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度,我们加入了带有mask的CutDepth。对于CutDepth数据增强方法,原CutDepth方法指:将彩色图像中随机裁剪的区域使用同样区域的深度进行替换,将预处理后的InputRGB作为模型的输入。但由于获取到的真实深度标签不完整,即标签深度图中存在大量缺失的深度值。缺失值为0,然而我们知道在深度学习中0对于网络的学习没有任何的贡献,因而我们认为原CutDepth方法在实际的操作中是存在问题的。带有mask的CutDepth指:为了消除缺失值,我们对原有的CutDepth方法添加了mask,即保留原区域中深度值存在缺失的像素,相比于原CutDepth方法不仅可以降低计算复杂度,还可以提高模型输入的丰富性。
在一些实施例中,利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,包括:
将输入图像InputRGB作为SwinTransformer-T模块的输入,利用一个卷积层将四维输入变量B x 3 x H x W展平成一个三维变量B x P x C,卷积核个数:C x 3,大小:7,步长:4,填充:2,过程按如下公式所示:
Figure BDA0003792240340000091
式中,
Figure BDA0003792240340000092
输入图像I经过第i个卷积层生成的特征向量;
Figure BDA0003792240340000093
第i个卷积核的权重参数;
Figure BDA0003792240340000094
第i个卷积核的偏置参数;*:卷积运算;i的最大值为C;
将三维变量Iemb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进行编码,自注意力层由多个线性层和不同的激活函数组成,下采样层则由一个大小为3,步长为2的卷积层组成;自注意力层的过程按如下公式所示:
Q=(Iemb·Wq+bq)
K=(Iemb·Wk+bk)
V=(Iemb·Wv+bv)
Figure BDA0003792240340000095
Figure BDA0003792240340000101
式中Q、K、V为3个线性函数;Wq、Wk、Wv分别表示q、k、v三个线性层的权重参数;bq、bk、bv分别表示q、k、v三个线性层的偏置参数;softmax表示logistic回归函数,公式如下所示:
Figure BDA0003792240340000102
d:特征向量K的维度;Gi:第i个自注意力层输出的全局特征向量;
Figure BDA0003792240340000103
第i个自注意力层第1个线性层的权重参数;
Figure BDA0003792240340000104
第i个自注意力层第1个线性层的偏置参数;
Figure BDA0003792240340000105
第i个自注意力层第2个线性层的权重参数;
Figure BDA0003792240340000106
第i个自注意力层第2个线性层的偏置参数;·表示矩阵乘法,T表示转置矩阵;
SwinTransformer-T模块输出4个不同分尺度的全局特征向量G1、G2、G3、G4,分别为输入图像InputRGB尺寸的
Figure BDA0003792240340000107
在一些实施例中,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征,包括:
将输入图像InputRGB作为ConvNeXt-S模块的输入,通过四层卷积块与四个下采样层组成的模块对InputRGB进行编码,其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小的卷积核串联构成,分别输出4个不同尺度的局部特征向量L1、L2、L3、L4,分别为输入图像InputRGB尺寸的
Figure BDA0003792240340000108
在一些实施例中,将提取得到的全局特征与局部特征进行融合,包括:
将局部特征L1、L2、L3、L4与全局特征G1、G2、G3、G4输入融合模块进行融合,获得融合特征向量M1、M2、M3、M4
Figure BDA0003792240340000109
Figure BDA00037922403400001010
Figure BDA0003792240340000111
式中:concat:拼接;dim:拼接的维度;Maxpool:最大池化,大小为3,步长为1,填充为1;Avgpool:均值池化,大小为3,步长为1,填充为1;Conv:卷积,大小为3,步长为1,填充为1;i:第i个特征向量,
Figure BDA0003792240340000112
为中间参数。
在一些实施例中,将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,包括:
对融合特征向量M1、M2、M3、M4进行合并,得到合并后的融合特征向量Y1、Y2、Y3:使用两个连续的卷积连接邻近的融合特征Mi、Mi+1
Y1=Conv(Conv(concat(bilinear(M1),M2,dim=1)))
Y2=Conv(Conv(concat(bilinear(Y1),M3,dim=1)))
Y3=Conv(Conv(concat(bilinear(Y2),M4,dim=1)))
式中,bilinear:双线性插值,缩放比例2;dim:拼接的维度;concat:拼接;Conv:卷积,Yi:每一次缩放合并后的特征图;
将Y3缩放为输入图像InputRGB一半的分辨率,缩放函数:Bilinear;利用卷积网络增强网络的拟合能力,最后再利用Sigmoid归一化,得到归一化后的Depth_pre_norm;过程如下公式所示:
Depth_pre_norm=Sigmoid(Conv(bilinear(Y3)))
将归一化后的Depth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值算法恢复到输入图像InputRGB尺寸,得到绝对深度图Depth_pre。
所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R;输入图像InputRGB经过整个网络模型后输出绝对深度图的左图Depth_pre_L和右图Depth_pre_R,用一个总的模型公式可以表示为:
Depth_pre_L=Net(InputRGB)
Depth_pre_R=Net(ship(InputRGB))
式中,Net:整个网络模型;ship:水平翻转。
在一些实施例中,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,包括:所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R;
Figure BDA0003792240340000121
式中,ship:水平翻转。
在一些实施例中,对彩色图像中全局特征与局部特征的提取,该过程可按如下公式所示:
L=ConNeXt(InputRGB)
G=Swin(InputRGB)
其中,ConNeXt:局部编码器;Swin:全局编码器。
此外,为了可以很好的体现我们模型的优异性能,我们还设计了一种新的指标函数:Dhrel(Double hook function)。双钩函数公式如下所示:
Figure BDA0003792240340000122
式中,pi:预测深度图Depth_pre的有效深度;gi:真实深度图Depth_gt的有效深度。
在一些实施例中,如图1所示,本实施例的基于全局与局部特征的图像深度估计方法,包括如下具体步骤:
1)首先对一张彩色图像利用CutDepth-Mask数据增强方法作数据预处理,得到新的输入图像InputRGB。
2)将InputRGB送入到模型的编码阶段提取全局特征G1、G2、G3、G4与局部特征L1、L2、L3、L4,该过程具体如下:
2.1)先将IuputRGB作为全局特征编码器SwinTransformer-T的输入,SwinTransformer-T总共分为4层,每一层均由滑动窗口自注意力机制组成,分别输出多尺度的特征图,其模块名称及输出特征图尺寸分别为g1:88x176、g2:44x88、g3:22x44、g4:11x22。
2.2)依旧将IuputRGB作为局部特征编码器ConvNeXt-S的输入,ConvNeXt-S总共也有四层,每一层均由卷积函数组成,同样分别输出多尺度的特征图,其模块名称及输出尺寸分别为l1:88x176、l2:44x88、l3:22x44、l4:11x22。与全局特征编码器分支并行,二者在编码阶段互不干扰。
3)将2)得到的全局特征G1、G2、G3、G4与局部特征L1、L2、L3、L4送入到融合模块,获得融合特征向量M1、M2、M3、M4
式中:concat:拼接;dim:拼接的维度;Maxpool:最大池化,大小为3,步长为1,填充为1;Avgpool:均值池化,大小为3,步长为1,填充为1;Conv:卷积,大小为3,步长为1,填充为1;i:第i个特征向量。
特征M1、M2、M3、M4的尺寸分别为88x176、44x88、22x44、11x22。
4)随后再将3)得到的融合特征向量M1、M2、M3、M4利用卷积与双线性插值方法合并,最终输出352x704大小的深度图。具体步骤如下:
4.1)先将融合特征进行合并,得到Y1、Y2、Y3,大小分别为22x44,44x88,88x176。
4.2)将Y3上采样到IuputRGB一半的分辨率176x352,缩放函数Bilinear。紧接着利用卷积网络增强网络的拟合能力,最后使用Sigmoid归一化。
4.3)为了得到绝对深度图Depth_pre,需要按照我们预先设置的所要预测的最大深度值max_depth,选择将步骤4.2)得到的归一化后的Depth_pre_norm与max_depth相乘。为了不增加多余的算力,我们将一半分率176x352的绝对深度图使用双线性插值恢复到原输入IuputRGB的大小。
4.4)对Depth_pre我们采用镜像预测,得到最终的Depth_final。
应用实施例一:
本应用实例采用实施例一中的基于全局与局部特征的图像深度估计方法,在单目深度估计任务中常用的室外数据集KITTI与室内数据集NYU_v2验证其有效性,此外,还将NYU_v2的训练模型放到SUNRGBD上验证其泛化性能。实验结果如表1,表2,表3所示,KITTI上的可视化结果如图5所示。
如下表1所示,综合评价指标δi、Abs_rel的含义可知,本方法在KITTI上效果显著,尤其是阈值指标δ1、δ2、δ3比起现有的技术分别从0.702、0.898、0.967提升到了0.968、0.996、0.999,相对绝对值误差Abs_rel从0.203降到了0.055。相比于拥有同等计算量的Adabins方法,本发明在Dh_rel上提升了11%的性能,充分验证了本发明的方法能够从彩色图像中提取到更加丰富的全局信息与局部信息,有助于生成更加精确的深度图。
表1本发明在KITTI数据集上的结果表
Figure BDA0003792240340000151
如下表2所示,结合评价指标δi、Abs_rel的含义可知,本方法不仅在明亮的KITTI上效果显著,而且在比较暗淡的NYU_v2上也有很大的性能提升。与最近的方法相比,δ1、δ2、δ3比起现有的技术分别从0.769、0.950、0.988提升到了0.912、0.987、0.997,Abs_rel从0.158降到了0.098。比起Adabins方法,本发明在Dh_rel上提升了14%的性能,充分验证了本发明方法的有效性。
表2本发明在NYU_v2数据集上的结果表
Figure BDA0003792240340000152
如下表3所示,结合评价指标δi、Abs_rel的含义可知,为了验证本方法的有效性且体现本方法的泛化性能,我们将在NYU_v2上的训练模型在SUNRGBD进行测试,测试集的图像数量为5050张。与最近的方法相比,δ1、δ2、δ3比起现有的技术分别从0.757、0.943、0.984提升到了0.808、0.963、0.990,Abs_rel从0.166降到了0.146。比起Adabins方法,本发明在Dh_rel上提升了4%的性能,充分验证了本发明方法的有效性。
Figure BDA0003792240340000161
实施例2
第二方面,本实施例提供了一种基于全局与局部特征的图像深度估计装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (9)

1.一种基于全局与局部特征的图像深度估计方法,其特征在于,所述方法包括:
获取待估计的彩色图像;
对所述彩色图像进行数据预处理,得到输入图像InputRGB;
提取输入图像InputRGB中的全局特征与局部特征:利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征;
将提取得到的全局特征与局部特征进行融合,得到融合特征向量;
将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,作为图像深度估计结果。
2.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,所述数据预处理包括:利用CutDepth-Mask数据增强方法作数据预处理;
还包括:随机水平翻转、随机裁剪、随机明亮度对比、随机gama正则分布、随机饱和度。
3.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,利用SwinTransformer-T模块提取输入图像InputRGB的全局特征,包括:
将输入图像InputRGB作为SwinTransformer-T模块的输入,利用一个卷积层将四维输入变量B x 3 x H x W展平成一个三维变量B x P x C,卷积核个数:C x 3,大小:7,步长:4,填充:2,过程按如下公式所示:
Figure FDA0003792240330000028
式中,
Figure FDA0003792240330000029
输入图像I经过第i个卷积层生成的特征向量;
Figure FDA00037922403300000211
第i个卷积核的权重参数;
Figure FDA00037922403300000210
第i个卷积核的偏置参数;*:卷积运算;i的最大值为C;
将三维变量Iemb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进行编码,自注意力层由多个线性层和不同的激活函数组成,下采样层则由一个大小为3,步长为2的卷积层组成;自注意力层的过程按如下公式所示:
Q=(Iemb·Wq+bq)
K=(Iemb·Wk+bk)
V=(Iemb·Wv+bv)
Figure FDA0003792240330000021
Figure FDA0003792240330000022
式中Q、K、V为3个线性函数;Wq、Wk、Wv分别表示q、k、v三个线性层的权重参数;bq、bk、bv分别表示q、k、v三个线性层的偏置参数;softmax表示logistic回归函数,公式如下所示:
Figure FDA0003792240330000023
d:特征向量K的维度;Gi:第i个自注意力层输出的全局特征向量;
Figure FDA0003792240330000024
第i个自注意力层第1个线性层的权重参数;
Figure FDA0003792240330000025
第i个自注意力层第1个线性层的偏置参数;
Figure FDA0003792240330000026
第i个自注意力层第2个线性层的权重参数;
Figure FDA0003792240330000027
第i个自注意力层第2个线性层的偏置参数;·表示矩阵乘法,T表示转置矩阵;
SwinTransformer-T模块输出4个不同分尺度的全局特征向量G1、G2、G3、G4,分别为输入图像InputRGB尺寸的
Figure FDA0003792240330000031
4.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,利用ConvNeXt-S模块提取输入图像InputRGB的局部特征,包括:
将输入图像InputRGB作为ConvNeXt-S模块的输入,通过四层卷积块与四个下采样层组成的模块对InputRGB进行编码,其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小的卷积核串联构成,分别输出4个不同尺度的局部特征向量L1、L2、L3、L4,分别为输入图像InputRGB尺寸的
Figure FDA0003792240330000032
5.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,将提取得到的全局特征与局部特征进行融合,包括:
将局部特征L1、L2、L3、L4与全局特征G1、G2、G3、G4输入融合模块进行融合,获得融合特征向量M1、M2、M3、M4
Figure FDA0003792240330000033
Figure FDA0003792240330000034
Figure FDA0003792240330000035
式中:concat:拼接;dim:拼接的维度;Maxpool:最大池化,大小为3,步长为1,填充为1;Avgpool:均值池化,大小为3,步长为1,填充为1;Conv:卷积,大小为3,步长为1,填充为1;i:第i个特征向量,
Figure FDA0003792240330000036
为中间参数。
6.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre,包括:
对融合特征向量M1、M2、M3、M4进行合并,得到合并后的融合特征向量Y1、Y2、Y3:使用两个连续的卷积连接邻近的融合特征Mi、Mi+1
Y1=Conv(Conv(concat(bilinear(M1),M2,dim=1)))
Y2=Conv(Conv(concat(bilinear(Y1),M3,dim=1)))
Y3=Conv(Conv(concat(bilinear(Y2),M4,dim=1)))
式中,bilinear:双线性插值,缩放比例2;dim:拼接的维度;concat:拼接;Conv:卷积,Yi:每一次缩放合并后的特征图;
将Y3缩放为输入图像InputRGB一半的分辨率,缩放函数:Bilinear;利用卷积网络增强网络的拟合能力,最后再利用Sigmoid归一化,得到归一化后的Depth_pre_norm;过程如下公式所示:
Depth_pre_norm=Sigmoid(Conv(bilinear(Y3)))
将归一化后的Depth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值算法恢复到输入图像InputRGB尺寸,得到绝对深度图Depth_pre。
7.根据权利要求1所述的基于全局与局部特征的图像深度估计方法,其特征在于,对绝对深度图Depth_pre采用镜像预测得到预测深度图Depth_final,包括:所述绝对深度图Depth_pre包括绝对深度图的左图Depth_pre_L和右图Depth_pre_R;
Figure FDA0003792240330000041
式中,ship:水平翻转。
8.一种基于全局与局部特征的图像深度估计装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202210959545.XA 2022-08-11 2022-08-11 一种基于全局与局部特征的图像深度估计方法及装置 Pending CN115272437A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210959545.XA CN115272437A (zh) 2022-08-11 2022-08-11 一种基于全局与局部特征的图像深度估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210959545.XA CN115272437A (zh) 2022-08-11 2022-08-11 一种基于全局与局部特征的图像深度估计方法及装置

Publications (1)

Publication Number Publication Date
CN115272437A true CN115272437A (zh) 2022-11-01

Family

ID=83751240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210959545.XA Pending CN115272437A (zh) 2022-08-11 2022-08-11 一种基于全局与局部特征的图像深度估计方法及装置

Country Status (1)

Country Link
CN (1) CN115272437A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908617A (zh) * 2023-01-09 2023-04-04 长春理工大学 一种红外图像彩色化方法及系统
CN116310851A (zh) * 2023-05-26 2023-06-23 中国科学院空天信息创新研究院 遥感图像变化检测方法
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备
CN115908617B (zh) * 2023-01-09 2024-06-07 长春理工大学 一种红外图像彩色化方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908617A (zh) * 2023-01-09 2023-04-04 长春理工大学 一种红外图像彩色化方法及系统
CN115908617B (zh) * 2023-01-09 2024-06-07 长春理工大学 一种红外图像彩色化方法及系统
CN116310851A (zh) * 2023-05-26 2023-06-23 中国科学院空天信息创新研究院 遥感图像变化检测方法
CN116310851B (zh) * 2023-05-26 2023-08-15 中国科学院空天信息创新研究院 遥感图像变化检测方法
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备
CN117268345B (zh) * 2023-11-20 2024-03-29 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN110163246B (zh) 基于卷积神经网络的单目光场图像无监督深度估计方法
CN115272437A (zh) 一种基于全局与局部特征的图像深度估计方法及装置
US20230281763A1 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
Panetta et al. Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset
Cheng et al. Zero-shot image super-resolution with depth guided internal degradation learning
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN111899176B (zh) 一种视频图像增强方法
CA3137297C (en) Adaptive convolutions in neural networks
CN114638836B (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
US20230274400A1 (en) Automatically removing moving objects from video streams
CN114881871A (zh) 一种融合注意力单幅图像去雨方法
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
Rodriguez-Pardo et al. Seamlessgan: Self-supervised synthesis of tileable texture maps
CN115294282A (zh) 三维场景重建中增强特征融合的单目深度估计系统及其方法
Salmona et al. Deoldify: A review and implementation of an automatic colorization method
CN115731365A (zh) 基于二维图像的网格模型重建方法、系统、装置及介质
CN116797768A (zh) 全景图像减少现实的方法和装置
Li et al. Hierarchical opacity propagation for image matting
CN113781324A (zh) 一种老照片修复方法
CN112734655B (zh) 一种基于卷积神经网络图像对crm增强的低光图像增强方法
Tran et al. Encoder–decoder network with guided transmission map: Robustness and applicability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination