CN115511708A - 基于不确定性感知特征传输的深度图超分辨率方法及系统 - Google Patents

基于不确定性感知特征传输的深度图超分辨率方法及系统 Download PDF

Info

Publication number
CN115511708A
CN115511708A CN202211135383.4A CN202211135383A CN115511708A CN 115511708 A CN115511708 A CN 115511708A CN 202211135383 A CN202211135383 A CN 202211135383A CN 115511708 A CN115511708 A CN 115511708A
Authority
CN
China
Prior art keywords
resolution
depth
uncertainty
rgb
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211135383.4A
Other languages
English (en)
Inventor
叶茫
施武轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202211135383.4A priority Critical patent/CN115511708A/zh
Publication of CN115511708A publication Critical patent/CN115511708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于不确定性感知特征传输的深度图超分辨率方法及系统,通过在特征传输时构建迭代式上下采样的流水线替代现有方法中的前置插值上采样,从而在消除深度图与RGB引导图像之间分辨率差距的同时避免了噪声放大等副作用。本发明提出了一种对称不确定性方案,能够在特征传输过程中对深度特征的不确定性建模。然后利用生成的不确定性图对RGB特征加权从而去除与深度图像纹理不匹配的RGB特征,缓解由于两种图像之间的跨模态差距导致的纹理复制现象。本发明在每次迭代中只向前传播一次就可以对得到不确定性图,减少了计算资源的冗余消耗。同时本发明易于集成到现有的颜色引导的深度图像超分辨率模型,并进一步有效地提升模型的性能。

Description

基于不确定性感知特征传输的深度图超分辨率方法及系统
技术领域
本发明属于图像重建技术领域,涉及一种深度图超分辨率方法及系统,具体涉及一种基于不确定性感知特征传输的深度图超分辨率方法及系统。
背景技术
深度图像是对RGB模态的重要补充,可以为人类或计算机视觉系统更好地理解场景提供深度信息。更好的场景理解对计算机视觉中许多领域的研究都是有益的,例如场景识别、自主导航、3D重建等,这些任务通常都依赖于高质量的深度信息。但是,现有商业深度传感器获得的深度图通常分辨率较低,难以用于各种计算机视觉任务。因此,深度图超分辨率是一种实用且有价值的技术,它将深度图从低分辨率空间提升到高分辨率空间。
现有的一些深度图超分辨率方法通常利用同一场景下配准的高分辨率RGB图像来指导深度图的重建(文献1、2)。这类方法被称为颜色引导的深度图超分辨率。目前颜色引导的深度图超分辨率方法主要面临两大难题:
1.分辨率差距:深度图和RGB引导图像的分辨率大小不一致导致无法直接融合两种模态的特征;
2.跨模态差距:深度图和RGB引导图像的纹理不完全匹配。这会在重建的高分辨率深度图中引发纹理复制伪影和深度出血现象。
常规的颜色引导的深度图超分辨率方法的基本训练和测试步骤如下:
1.准备RGB-深度图像对数据集,将数据集分为训练集和测试集;
2.将训练集中的数据输入到神经网络中进行训练,其中包括基础网络的构建,RGB图像和深度图的特征提取,特征融合,损失优化等步骤;
3.保存训练过程中的最优模型,最终用该模型对测试集的数据进行测试得到模型表现结果。
对于深度图和RGB引导图像之间的分辨率差距,现阶段的方法通常使用前置插值上采样将深度图的分辨率提升到与RGB引导图像一致。但是这样做会带来一些副作用,例如噪声放大和模糊现象。此外,现有方法通常有两个分支或子网络,其中一个用于提取低分辨率深度图的特征,另一个用于提取对应的高分辨率RGB图像的特征。它们将从RGB图像提取的高频特征传递给深度图分支或子网络,以更好地恢复深度图中的边缘细节。但是这样的做法忽略了两种图像的跨模态差距。RGB图像中的高频信息并不全都是深度图重建所需要的。
综上所述,如何使深度特征和RGB特征在空间大小上保持一致的同时避免上述副作用以及在特征传输过程中准确地估计并去除与深度图像纹理不匹配的RGB特征,从而使得模型能够准确地重建高分辨率深度图是一个亟待解决的问题。
[文献1]He,Linzhi,et al."Towards Fast and Accurate Real-World DepthSuper-Resolution:Benchmark Dataset and Baseline."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021.
[文献2]Tang,Qi,et al."BridgeNet:A Joint Learning Network of Depth MapSuper-Resolution and Monocular Depth Estimation."Proceedings of the 29th ACMInternational Conference on Multimedia.2021.
发明内容
针对现有技术存在的问题,本发明提供了一种基于不确定性感知的特征传输(SymmetricUncertainty-aware Feature Transmission,SUFT)技术,以减小深度图和RGB引导图像之间的分辨率差距和跨模态差距,提升深度超分辨率方法的性能。
本发明的方法所采用的技术方案是:一种基于不确定性感知特征传输的深度图超分辨率方法,包括以下步骤:
步骤1:针对输入图,通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征;
将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中,所述SUFT模块首先复制并在空间维度中水平翻转输入的深度特征,然后再将这两个水平镜像的深度特征投影到高分辨率域:
Figure BDA0003851315010000021
Figure BDA0003851315010000022
其中
Figure BDA0003851315010000023
是从低分辨率深度图中提取的特征,
Figure BDA0003851315010000024
是通过上采样得到的高分辨率深度特征,
Figure BDA0003851315010000025
是经过翻转的高分辨率深度特征,HFlip(·)和(·)↑s分别代表水平翻转操作和缩放因子为s的上投影操作;
所述基于不确定性感知特征传输网络,整体由RGB分支,Depth分支和SUFT模块构成;
所述RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成,输入高分辨率RGB图像,经过RGB分支,提取高分辨率RGB图像的特征以传入相应的SUFT模块;
所述Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成,输入低分辨率深度图,经过Depth分支,提取低分辨率深度图的特征以传入相应的SUFT模块,最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加,输出重建的高分辨率深度图;
所述第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成;所述第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成;所述第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成;所述上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;所述双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图;
步骤2:利用步骤1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布,获得不确定性图
Figure BDA0003851315010000031
步骤3:将步骤2中获得的不确定性图
Figure BDA0003851315010000032
与步骤1中提取的高分辨率RGB引导图像特征相乘,再与上采样的高分辨率深度特征
Figure BDA0003851315010000033
沿通道轴拼接:
Figure BDA0003851315010000034
其中
Figure BDA0003851315010000035
是从高分辨率RGB引导图像中提取的特征,
Figure BDA0003851315010000036
是融合后的特征,[·;·]表示沿通道轴拼接操作;
步骤4:将融合后的特征
Figure BDA0003851315010000037
通过下投影单元映射回低分辨率空间域:
Figure BDA0003851315010000038
其中(·)↓s表示比例因子为s的下投影操作。
本发明的系统所采用的技术方案是:一种基于不确定性感知特征传输的深度图超分辨率系统,包括以下模块:
模块1:针对输入图,通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征;
将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中,所述SUFT模块首先复制并在空间维度中水平翻转输入的深度特征,然后再将这两个水平镜像的深度特征投影到高分辨率域:
Figure BDA0003851315010000039
Figure BDA00038513150100000310
其中
Figure BDA00038513150100000311
是从低分辨率深度图中提取的特征,
Figure BDA00038513150100000312
是通过上采样得到的高分辨率深度特征,
Figure BDA00038513150100000313
是经过翻转的高分辨率深度特征,HFlip(·)和(·)↑s分别代表水平翻转操作和缩放因子为s的上投影操作;
所述基于不确定性感知特征传输网络,整体由RGB分支,Depth分支和SUFT模块构成;
所述RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成,输入高分辨率RGB图像,经过RGB分支,提取高分辨率RGB图像的特征以传入相应的SUFT模块;
所述Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成,输入低分辨率深度图,经过Depth分支,提取低分辨率深度图的特征以传入相应的SUFT模块,最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加,输出重建的高分辨率深度图;
所述第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成;所述第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成;所述第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成;所述上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;所述双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图;
模块2:利用模块1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布,获得不确定性图
Figure BDA0003851315010000041
模块3:将模块2中获得的不确定性图
Figure BDA0003851315010000042
与模块1中提取的高分辨率RGB引导图像特征相乘,再与上采样的高分辨率深度特征
Figure BDA0003851315010000043
沿通道轴拼接:
Figure BDA0003851315010000044
其中
Figure BDA0003851315010000045
是从高分辨率RGB引导图像中提取的特征,
Figure BDA0003851315010000046
是融合后的特征,[·;·]表示沿通道轴拼接操作;
模块4:将融合后的特征
Figure BDA0003851315010000047
通过下投影单元映射回低分辨率空间域:
Figure BDA0003851315010000048
其中(·)↓s表示比例因子为s的下投影操作。
本发明具有以下的优点:
(1)本发明在特征传输中构建迭代式上下采样流水线替代常用的前置插值上采样,可以在消除分辨率差异同时为每个特征融合阶段的投影误差提供误差反馈机制,以减轻噪声放大和模糊。
(2)本发明提出的对称不确定性方案可以在特征传输过程中精确地选择RGB引导图像中的有效信息,减少重建结果中产生的虚假纹理。并且基于该方案,网络在每次迭代中只向前传播一次就可以对得到不确定性图,减少了计算资源的冗余消耗。
(3)本发明提出的方法可以作为一个独立模块添加到现有的颜色引导的深度图超分辨率方法的架构中,具有易于集成的特点。
附图说明
图1为本发明实施例的基于不确定性感知特征传输网络结构图;
图2为本发明实施例的SUFT模块结构图;
图3为本发明实施例的对称不确定性的计算流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于不确定性感知特征传输的深度图超分辨率方法,包括以下步骤:
步骤1:针对输入图,通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征;
将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中,本实施例的SUFT模块首先复制并在空间维度中水平翻转输入的深度特征,然后再将这两个水平镜像的深度特征投影到高分辨率域:
Figure BDA0003851315010000051
Figure BDA0003851315010000052
其中
Figure BDA0003851315010000053
是从低分辨率深度图中提取的特征,
Figure BDA0003851315010000054
是通过上采样得到的高分辨率深度特征,
Figure BDA0003851315010000055
是经过翻转的高分辨率深度特征,HFlip(·)和(·)↑s分别代表水平翻转操作和缩放因子为s的上投影操作;
请见图1,本实施例的基于不确定性感知特征传输网络,整体由RGB分支,Depth分支和SUFT模块构成;
本实施例的RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成,输入高分辨率RGB图像,经过RGB分支,提取高分辨率RGB图像的特征以传入相应的SUFT模块;
本实施例的Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成,输入低分辨率深度图,经过Depth分支,提取低分辨率深度图的特征以传入相应的SUFT模块,最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加,输出重建的高分辨率深度图;
本实施例的第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成;本实施例的第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成;本实施例的第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成;本实施例的上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;本实施例的双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图;
请见图2,本实施例的SUFT模块,由第一上投影单元,第二上投影单元,一个不确定性模块,一个下投影单元构成,输入从高分辨率RGB图像和低分辨率深度图中提取的特征,去除RGB图像特征中的纹理不匹配信息,输出高分辨率RGB图像和低分辨率深度图的融合特征进入Depth分支;
本实施例的不确定性模块由一个卷积层和一个归一化层构成,输入镜像的深度图特征,经过逐元素相减和绝对值操作,得到的差异图沿通道轴分别执行最大值和均值操作后沿通道轴拼接,然后经过卷积层和归一化层,输出对称不确定性图;
本实施例的第一上投影单元,第二上投影单元和下投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;
步骤2:利用步骤1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布,获得不确定性图
Figure BDA0003851315010000061
请见图3,本实施例中步骤2的具体实现包括以下子步骤:
步骤2.1:再次水平翻转
Figure BDA0003851315010000062
使其与
Figure BDA0003851315010000063
在空间上对齐;然后通过逐元素相减操作后取绝对值以初步计算不确定性图:
Figure BDA0003851315010000064
其中
Figure BDA0003851315010000065
表示两个深度特征之间的绝对差异;
步骤2.2:对
Figure BDA0003851315010000066
沿通道轴进行平均池化和最大池化操作,以汇总其通道信息并生成两个二维的信息图;然后将这两个二维的信息图沿通道轴串联起来,再由标准卷积层对其进行卷积,生成二维的对称不确定度图;对称不确定度图的值最后被归一化到[0,1]的范围:
Figure BDA0003851315010000067
其中
Figure BDA0003851315010000071
表示归一化的对称不确定图,AvgPool(·)代表平均池化操作,MaxPool(·)代表最大池化操作,Conv(·)代表卷积操作,归一化Norm(·)的具体操作表示为:
Figure BDA0003851315010000072
其中∈是一个小值,以避免计算过程中被零除,默认为1e-12,Xnorm是归一化的结果,max和min分别代表输入数据X的最大值和最小值。
步骤3:将步骤2中获得的不确定性图
Figure BDA0003851315010000073
与步骤1中提取的高分辨率RGB引导图像特征相乘,使深度图中不确定性较大的区域所对应的RGB特征获得较高的权重,反之亦然;再与上采样的高分辨率深度特征
Figure BDA0003851315010000074
沿通道轴拼接:
Figure BDA0003851315010000075
其中
Figure BDA0003851315010000076
是从高分辨率RGB引导图像中提取的特征,
Figure BDA0003851315010000077
是融合后的特征,[·;·]表示沿通道轴拼接操作;
步骤4:将融合后的特征
Figure BDA0003851315010000078
通过下投影单元映射回低分辨率空间域:
Figure BDA0003851315010000079
其中(·)↓s表示比例因子为s的下投影操作,其确保SUFT模块的输出与输入具有相同的空间大小,从而可以执行多级特征融合。通过将SUFT模块嵌入到多阶段融合网络中可以在消除分辨率差异同时为每个特征融合阶段的投影误差提供误差反馈机制,以减轻噪声放大和模糊。
以下通过实验对本实施例的方案做进一步的阐述。
本实施例采用的深度学习框架为Pytorch,版本为1.9.0,CUDA版本为11.3。实验的硬件环境是NVIDIA GeForce RTX 3090显卡,处理器为Intel(R)Xeon(R)Gold 6240C。基于不确定性感知特征传输的深度图超分辨率方法的具体实施流程如下:
本实施例的基于不确定性感知特征传输网络,可作为一个独立模块添加到现有的颜色引导的深度图超分辨率网络架构中,只需要移除前置插值上采样,并将不确定性感知特征传输模块的输入设置为经过CNN提取的RGB特征和深度特征后,接入现有的深度神经网络架构即可。实验中将不确定性感知特征传输模块嵌入到一个简单的多阶段融合模型中实施。
本实施例的基于不确定性感知特征传输网络为训练好的网络。其训练过程包括以下步骤:
(1)数据的准备:准备低分辨率深度图和对应的RGB引导图像以及高分率深度图作为训练和测试数据。
本发明使用NYU v2,Middlebury和RGB-D-D数据集。NYUv2数据集包含1449个RGB-深度图像对,其中1000对作为训练数据,449对作为测试数据。Middlebury数据集总共包括30个RGB-深度图像对分别来自Middlebury 2001、2005、2006数据集。RGB-D-D数据集中有2215个RGB-深度图像对用于训练和405个RGB-深度图像对用于测试。其中NYUv2数据集和RGB-D-D数据集深度图的值代表以毫米为单位的16位绝对深度,Middlebury的深度图的值代表8位相对深度。此外,本发明还在RGB-D-D数据集上的real-world manner设定下对提出的方法进行了评估。该设定下包括2215对用于训练和405对用于测试的RGB-深度图像对,其中低分辨率深度图通过手机ToF摄像头拍摄,大小为192×144;高分辨率深度图通过工业ToF摄像头拍摄,大小为512×384。该设定下低分辨率深度图的退化更复杂所以对于深度图超分辨率方法而言更具有挑战性。
上述三个数据集都有三种缩放倍率:×4,×8和×16。低分辨率深度图像由高分辨率深度图像通过双三次线性插值获得(real-world manner除外)。在训练期间,将原始高分辨率深度图和高分辨率RGB图像裁剪成256×256的固定大小的块,这可以在不削弱网络性能的情况下加快训练速度。当选取的比例因子为×4,×8和×16时,对应的低分辨率深度图分别被分割成大小64×64、32×32和16×16的块。本发明在NYUv2数据集上训练,在NYUv2的测试集,Middlebury数据集以及RGB-D-D的测试集上测试,以验证本发明的性能和泛化能力。此外,本发明在RGB-D-D数据集的real-world manner设定下使用NYUv2数据集上×4缩放倍率条件下训练的模型进行测试,以分析本发明在真实场景中的有效性。对于NYUv2数据集和RGB-D-D数据集,RMSE以厘米为单位测量;对于Middlebury数据集,RMSE是以所提供的差异的原始标度测量。
在训练期间,批大小设置为1,并且使用Adam优化器对模型进行优化,其中β1=0.9、β2=0.999和∈=1e-8。网络的初始学习率设置为1e-4,每100个轮次学习率减少为0.1倍。
(2)把训练图像对送入基于不确定性感知特征传输网络进行训练。
(3)网络优化及参数更新。
更新包括前向传播和反向传播两部分。前向传播通过网络计算输出与损失函数。为了和现有方法进行公平的比较,本发明在训练网络时采用了与现有方法相同的损失函数,即L1损失函数,该函数已近被证明在深度图超分辨率任务上比L2损失有更好的表现和收敛性。给定训练集
Figure BDA0003851315010000081
它包含N张低分辨率深度图和相应的高分辨率RGB引导图像作为输入,目标深度图作为真实值:
Figure BDA0003851315010000082
其中,
Figure BDA0003851315010000083
代表数据集中的第i张低分辨率深度图,
Figure BDA0003851315010000084
代表数据集中的第i张高分辨率RGB引导图像,
Figure BDA0003851315010000085
代表数据集中的第i张高分辨率目标深度图,
Figure BDA0003851315010000086
代表颜色引导的深度图像超分辨率模型,θ表示
Figure BDA0003851315010000091
所学习的参数集。然后再反向传播过程中反传损失的梯度,通过随机梯度下降的优化策略对网络进行更新。
训练阶段按批输入RGB-深度图像对,前向传播计算各项损失,反向传播更新网络参数,经过多次迭代得到最终的网络模型。
(4)网络测试。
在测试阶段,不进行网络的训练以及参数更新,使用训练好的模型处理测试RGB-深度图像对,重建高分辨率深度图。通过计算网络重建的高分辨率深度图与真实的高分辨率深度图之间的均方根误差(Root Mean Square Error,RMSE)来衡量重建结果的质量。RMSE值越低,代表重建结果的质量越好。其计算方法如下:
Figure BDA0003851315010000092
其中,i、j分别代表像素点的横、纵坐标,Dij代表真实的高分辨率图像中位置(i,j)处的像素值,D′ij代表通过网络重建的高分辨率图像中位置(i,j)处的像素值,H和W分别代表D的高度和宽度。
为了验证本发明的有效性,将本发明与现有的深度图超分辨率方法进行对比,现有的深度图超分辨率方法主要有:
(1)DJF:Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-HsuanYang.2016.Deep joint image filtering.In ECCV.154–169.
(2)SVLRM:Jinshan Pan,Jiangxin Dong,Jimmy S Ren,Liang Lin,Jinhui Tang,and MingHsuan Yang.2019.Spatially variant linear representation models forjoint filtering.In CVPR.1702–1711.
(3)DJFR:Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-HsuanYang.2019.Jointimage filtering with deep convolutional networks.IEEE TPAMI(2019),1909–1923.
(4)FDKN,DKN:Beomjun Kim,Jean Ponce,and Bumsub Ham.2019.Deformablekernel networksfor guided depth map upsampling.IJCV.579–600.
(5)FDSR:Lingzhi He,Hongguang Zhu,Feng Li,Huihui Bai,Runmin Cong,Chunjie Zhang,Chunyu Lin,Meiqin Liu,and Yao Zhao.2021.Towards fast andaccurate real-world depth super-resolution:Benchmark dataset and baseline.InCVPR.9229–9238.
(6)JIIF:Jiaxiang Tang,Xiaokang Chen,and Gang Zeng.2021.Joint implicitimage functionfor guided depth super-resolution.In ACM MM.4390–4399.
(7)CTKT:Baoli Sun,Xinchen Ye,Baopu Li,Haojie Li,Zhihui Wang,and RuiXu.2021.Learning scene structure guidance via cross-task knowledge transferfor singledepth super-resolution.In CVPR.7792–7801.
(8)BridgeNet:Qi Tang,Runmin Cong,Ronghui Sheng,Lingzhi He,Dan Zhang,Yao Zhao,and Sam Kwong.2021.BridgeNet:A Joint Learning Network of DepthMapSuper-Resolution and Monocular Depth Estimation.In ACM MM.2148–2157.
在NYU v2数据集上进行测试,结果见表1:
表1
Figure BDA0003851315010000101
在Middlebury数据集和RGB-D-D数据集上进行测试,结果见表2:
表2
Figure BDA0003851315010000102
从表1和表2可以看出:与近些年的深度图超分辨率模型相比,本发明取得的RMSE结果比现有方法都高,图像重建质量明显提高。从表2的real-world设定下的结果可以看出:本发明比现有方法在面对真实世界中更复杂的退化时,重建的效果更好,证明了本发明的健壮性及其在现实世界场景中处理实际深度图超分辨率任务的潜力。这主要有两点原因:1.本发明使用的迭代式上下采样比现有方法常用的前置插值上采样造成的噪声放大和模糊更小。2.本发明提出的对称不确定性方案能有效缩小两种模态图像之间的跨模态差距,从而减少重建结果中的纹理复制伪影。
本发明在特征传输中构建迭代式上下采样流水线,以取代现有方法中常用的前置插值上采样,在消除分辨率差距的同时减小噪声放大和模糊等副作用。具体地说,本发明在每次特征融合之前对深度特征进行上采样,使其与RGB特征在空间大小上一致,并在每次融合后将高分辨率特征投影回低分辨率空间域以便后续操作。本发明还提出了一种对称不确定性方案以缩小两种模态图像之间的跨模态差距。它通过一种简单而有效的翻转操作来计算特征的不确定性以估计RGB特征中与深度纹理不匹配的区域,并对这些不匹配的部分赋予低权重以避免对深度图恢复产生错误的引导。本发明采用的技术方案可以作为一个独立模块添加到现有的颜色引导的深度图像超分辨方法的架构中。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于不确定性感知特征传输的深度图超分辨率方法,其特征在于,包括以下步骤:
步骤1:针对输入图,通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像的特征;
将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中,所述SUFT模块首先复制并在空间维度中水平翻转输入的深度特征,然后再将这两个水平镜像的深度特征投影到高分辨率域:
Figure FDA0003851314000000011
Figure FDA0003851314000000012
其中
Figure FDA0003851314000000013
是从低分辨率深度图中提取的特征,
Figure FDA0003851314000000014
是通过上采样得到的高分辨率深度特征,
Figure FDA0003851314000000015
是经过翻转的高分辨率深度特征,HFlip(·)和(·)↑s分别代表水平翻转操作和缩放因子为s的上投影操作;
所述基于不确定性感知特征传输网络,整体由RGB分支,Depth分支和SUFT模块构成;
所述RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成,输入高分辨率RGB图像,经过RGB分支,提取高分辨率RGB图像的特征以传入相应的SUFT模块;
所述Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成,输入低分辨率深度图,经过Depth分支,提取低分辨率深度图的特征以传入相应的SUFT模块,最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加,输出重建的高分辨率深度图;
所述第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成;所述第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成;所述第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成;所述上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;所述双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图;
步骤2:利用步骤1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布,获得不确定性图
Figure FDA0003851314000000016
步骤3:将步骤2中获得的不确定性图
Figure FDA0003851314000000017
与步骤1中提取的高分辨率RGB引导图像特征相乘,再与上采样的高分辨率深度特征
Figure FDA0003851314000000021
沿通道轴拼接:
Figure FDA0003851314000000022
其中
Figure FDA0003851314000000023
是从高分辨率RGB引导图像中提取的特征,
Figure FDA0003851314000000024
是融合后的特征,[·;·]表示沿通道轴拼接操作;
步骤4:将融合后的特征
Figure FDA0003851314000000025
通过下投影单元映射回低分辨率空间域:
Figure FDA0003851314000000026
其中(·)↓s表示比例因子为s的下投影操作。
2.根据权利要求1所述的基于不确定性感知特征传输的深度图超分辨率方法,其特征在于:步骤1中,所述SUFT模块,由第一上投影单元,第二上投影单元,一个不确定性模块,一个下投影单元构成,输入从高分辨率RGB图像和低分辨率深度图中提取的特征,去除RGB图像特征中的纹理不匹配信息,输出高分辨率RGB图像和低分辨率深度图的融合特征进入Depth分支;
所述不确定性模块由一个卷积层和一个归一化层构成,输入镜像的深度图特征,经过逐元素相减和绝对值操作,得到的差异图沿通道轴分别执行最大值和均值操作后沿通道轴拼接,然后经过卷积层和归一化层,输出对称不确定性图;
所述第一上投影单元,第二上投影单元和下投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成。
3.根据权利要求1所述的基于不确定性感知特征传输的深度图超分辨率方法,其特征在于:步骤2的具体实现包括以下子步骤:
步骤2.1:再次水平翻转
Figure FDA0003851314000000027
使其与
Figure FDA0003851314000000028
在空间上对齐;然后通过逐元素相减操作后取绝对值以初步计算不确定性图:
Figure FDA0003851314000000029
其中
Figure FDA00038513140000000210
表示两个深度特征之间的绝对差异;
步骤2.2:对
Figure FDA00038513140000000211
沿通道轴进行平均池化和最大池化操作,以汇总其通道信息并生成两个二维的信息图;然后将这两个二维的信息图沿通道轴串联起来,再由标准卷积层对其进行卷积,生成二维的对称不确定度图;对称不确定度图的值最后被归一化到[0,1]的范围:
Figure FDA00038513140000000212
其中
Figure FDA00038513140000000213
表示归一化的对称不确定图,AvgPool(·)代表平均池化操作,MaxPool(·)代表最大池化操作,Conv(·)代表卷积操作,归一化Norm(·)的具体操作表示为:
Figure FDA0003851314000000031
其中∈是一个小值,以避免计算过程中被零除,Xnorm是归一化的结果,和min分别代表输入数据X的最大值和最小值。
4.根据权利要求1-3任意一项所述的基于不确定性感知特征传输的深度图超分辨率方法,其特征在于:所述基于不确定性感知特征传输网络,为训练好的基于不确定性感知特征传输网络;
在训练过程中,更新包括前向传播和反向传播两部分;前向传播通过网络计算输出与L1损失函数,给定训练集
Figure FDA0003851314000000032
它包含N张低分辨率深度图和相应的高分辨率RGB引导图像作为输入,目标深度图作为真实值:
Figure FDA0003851314000000033
其中,
Figure FDA0003851314000000034
代表数据集中的第i张低分辨率深度图,
Figure FDA0003851314000000035
代表数据集中的第i张高分辨率RGB引导图像,
Figure FDA0003851314000000036
代表数据集中的第i张高分辨率目标深度图,
Figure FDA0003851314000000037
代表颜色引导的深度图像超分辨率模型,θ表示
Figure FDA0003851314000000038
所学习的参数集;然后再反向传播过程中反传损失的梯度,通过随机梯度下降的优化策略对网络进行更新;
通过计算网络重建的高分辨率深度图与真实的高分辨率深度图之间的均方根误差RMSE来衡量重建结果的质量;RMSE值越低,代表重建结果的质量越好;
Figure FDA0003851314000000039
其中,i、j分别代表像素点的横、纵坐标,Dij代表真实的高分辨率图像中位置(i,j)处的像素值,D′ij代表通过网络重建的高分辨率图像中位置(i,j)处的像素值,H和W分别代表D的高度和宽度。
5.一种基于不确定性感知特征传输的深度图超分辨率系统,其特征在于,包括以下模块:
模块1:针对输入图,通过基于不确定性感知特征传输网络的RGB分支和Depth分支提取低分辨率深度图像和高分辨率RGB引导图像;
将低分辨率深度图像和高分辨率RGB引导图像的特征都输入到基于不确定性感知特征传输网络的SUFT模块中,所述SUFT模块首先复制并在空间维度中水平翻转输入的深度特征,然后再将这两个水平镜像的深度特征投影到高分辨率域:
Figure FDA00038513140000000310
Figure FDA0003851314000000041
其中
Figure FDA0003851314000000042
是从低分辨率深度图中提取的特征,
Figure FDA0003851314000000043
是通过上采样得到的高分辨率深度特征,
Figure FDA0003851314000000044
是经过翻转的高分辨率深度特征,HFlip(·)和(·)↑s分别代表水平翻转操作和缩放因子为s的上投影操作;
所述基于不确定性感知特征传输网络,整体由RGB分支,Depth分支和SUFT模块构成;
所述RGB分支由第一3×3卷积层、第一残差块、第二残差块、第三残差块顺序连接构成,输入高分辨率RGB图像,经过RGB分支,提取高分辨率RGB图像的特征以传入相应的SUFT模块;
所述Depth分支由第二3×3卷积层、第一残差组、第二残差组、第三残差组、第四残差组、上投影单元、第五残差组、第六残差组、第三3×3卷积层组成和双三次线性插值模块组成,输入低分辨率深度图,经过Depth分支,提取低分辨率深度图的特征以传入相应的SUFT模块,最终将网络提取的高分辨率深度图高频成分和经过双三次线性插值模块得到的高分辨率深度图的低频成分逐元素相加,输出重建的高分辨率深度图;
所述第一残差块、第二残差块、第三残差块由两个3×3卷积层和一个修正线性单元层构成;所述第一残差组、第二残差组、第三残差组、第四残差组由八个卷积层、四个修正线性单元层和四个通道注意力模块构成;所述第五残差组、第六残差组由十六个卷积层、八个修正线性单元层和八个通道注意力模块构成;所述上投影单元由两个核大小自适应的卷积层、两个核大小自适应的反卷积层和四个修正线性单元层构成;所述双三次线性插值模块将输入低分辨率深度图上采样得到一个模糊的高分辨率深度图;
模块2:利用模块1中获得的两个水平镜像的高分辨率深度特征计算对称不确定性的空间分布,获得不确定性图
Figure FDA0003851314000000045
模块3:将模块2中获得的不确定性图
Figure FDA0003851314000000046
与模块1中提取的高分辨率RGB引导图像特征相乘,再与上采样的高分辨率深度特征
Figure FDA0003851314000000047
沿通道轴拼接:
Figure FDA0003851314000000048
其中
Figure FDA0003851314000000049
是从高分辨率RGB引导图像中提取的特征,
Figure FDA00038513140000000410
是融合后的特征,[·;·]表示沿通道轴拼接操作;
模块4:将融合后的特征
Figure FDA00038513140000000411
通过下投影单元映射回低分辨率空间域:
Figure FDA00038513140000000412
其中(·)↓s表示比例因子为s的下投影操作。
CN202211135383.4A 2022-09-19 2022-09-19 基于不确定性感知特征传输的深度图超分辨率方法及系统 Pending CN115511708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211135383.4A CN115511708A (zh) 2022-09-19 2022-09-19 基于不确定性感知特征传输的深度图超分辨率方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211135383.4A CN115511708A (zh) 2022-09-19 2022-09-19 基于不确定性感知特征传输的深度图超分辨率方法及系统

Publications (1)

Publication Number Publication Date
CN115511708A true CN115511708A (zh) 2022-12-23

Family

ID=84503568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211135383.4A Pending CN115511708A (zh) 2022-09-19 2022-09-19 基于不确定性感知特征传输的深度图超分辨率方法及系统

Country Status (1)

Country Link
CN (1) CN115511708A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115760582A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下深度图超分辨率方法
CN116402692A (zh) * 2023-06-07 2023-07-07 江西财经大学 基于非对称交叉注意力的深度图超分辨率重建方法与系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115760582A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下深度图超分辨率方法
CN116402692A (zh) * 2023-06-07 2023-07-07 江西财经大学 基于非对称交叉注意力的深度图超分辨率重建方法与系统
CN116402692B (zh) * 2023-06-07 2023-08-18 江西财经大学 基于非对称交叉注意力的深度图超分辨率重建方法与系统

Similar Documents

Publication Publication Date Title
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及系统
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及系统
CN111626927B (zh) 采用视差约束的双目图像超分辨率方法、系统及装置
CN112215755B (zh) 一种基于反投影注意力网络的图像超分辨率重建方法
Tang et al. Single image dehazing via lightweight multi-scale networks
CN112435191B (zh) 一种基于多个神经网络结构融合的低照度图像增强方法
CN108764250B (zh) 一种运用卷积神经网络提取本质图像的方法
CN112419191B (zh) 基于卷积神经网络的图像运动模糊去除方法
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN114820408A (zh) 基于自注意力和卷积神经网络的红外可见光图像融合方法
CN111582437B (zh) 一种视差回归深度神经网络的构造方法
CN114004754A (zh) 一种基于深度学习的场景深度补全系统及方法
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
Zhong et al. Deep attentional guided image filtering
Shen et al. Deeper super-resolution generative adversarial network with gradient penalty for sonar image enhancement
CN111553856B (zh) 基于深度估计辅助的图像去雾方法
Zhang et al. Mffe: Multi-scale feature fusion enhanced net for image dehazing
CN111325700B (zh) 基于彩色图像的多维度融合方法和系统
Shi et al. Symmetric uncertainty-aware feature transmission for depth super-resolution
CN108921785B (zh) 基于小波包的超分辨率重建方法
CN116452431A (zh) 基于多分支渐进式深度网络的弱光图像增强方法
CN115631223A (zh) 基于自适应学习和聚合的多视图立体重建方法
CN117315735A (zh) 基于先验信息与注意力机制的人脸超分辨率重建方法
CN115100382A (zh) 一种基于混合表征的神经表面重建系统及方法
Zhao et al. Single image super-resolution via blind blurring estimation and anchored space mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination