CN114519731A - 深度图像补全的方法和装置 - Google Patents

深度图像补全的方法和装置 Download PDF

Info

Publication number
CN114519731A
CN114519731A CN202210112535.2A CN202210112535A CN114519731A CN 114519731 A CN114519731 A CN 114519731A CN 202210112535 A CN202210112535 A CN 202210112535A CN 114519731 A CN114519731 A CN 114519731A
Authority
CN
China
Prior art keywords
image
depth
network
depth image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210112535.2A
Other languages
English (en)
Inventor
樊明明
吕朝晖
张晓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung China Semiconductor Co Ltd, Samsung Electronics Co Ltd filed Critical Samsung China Semiconductor Co Ltd
Priority to CN202210112535.2A priority Critical patent/CN114519731A/zh
Publication of CN114519731A publication Critical patent/CN114519731A/zh
Priority to KR1020220178638A priority patent/KR20230117034A/ko
Priority to US18/103,281 priority patent/US20230245282A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/337Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

提供一种深度图像补全的方法和装置,所述方法包括:获取原始彩色图像和对应的原始深度图像;基于原始彩色图像,利用第一深度神经网络,获得第一深度图像;基于原始深度图像,利用第二深度神经网络,获得第二深度图像;将第一深度图像和第二深度图像融合,获得最终深度图像;其中,第一深度神经网络包括由级联的N层残差块构成的第一编码器网络和第一解码器网络,第二深度神经网络包括由级联的N层残差块构成的第二编码器网络和第二解码器网络;在解码阶段,对第一解码器网络和第二解码器网络中的各层残差块输出的特征图像进行特征对齐,减轻融合过程中由于特征形变或偏移导致的关键点信息不匹配问题,从而增强了网络的多模态融合能力。

Description

深度图像补全的方法和装置
技术领域
本公开涉及图像处理领域,更具体地说,涉及一种深度图像补全的方法和装置。
背景技术
深度图像补全又称深度恢复,旨在修复由物理传感器生成的低质量的深度图像。深度补全是自主机器人、自动驾驶、三维重建以及增强现实等领域中至关重要的一项技术。同时深度图像的质量也是很大程度的影响着目前基于3D的人脸识别技术。然而目前消费级的深度相机都存在图像质量差、深度图像稀疏或存在空洞等深度值缺失的问题。对于这一现存的问题,目前的深度图补全算法主要分为两类,一类是基于滤波的传统类方法,另一类是通过构建回归模型进行深度值填充的深度学习类方法。
传统类方法主要基于滤波以及马尔科夫随机场模型等对深度图像进行膨胀与填充并借助边缘等纹理信息进行约束,得到完整的深度图像,这类方法需要手工设计大量特征,这限制了传统方法的发展。
深度学习类方法主要通过构建回归模型,通过模型建立从原始深度图像到完整深度图像的映射。这类方法存在输出的图像模糊、边缘不清晰、对边缘部分及大范围深度缺失部分的效果不能令人满意。
发明内容
本公开的示例性实施例可至少解决上述问题,也可不解决上述问题。
根据本公开的一方面,提供一种深度图像补全的方法,其中,所述方法基于深度图像补全模型执行,所述深度图像补全模型包括第一深度神经网络和第二深度神经网络,所述方法包括:获取原始彩色图像和对应的原始深度图像;基于所述原始彩色图像,利用第一深度神经网络,获得第一深度图像;基于所述原始深度图像,利用第二深度神经网络,获得第二深度图像;将第一深度图像和第二深度图像融合,获得最终深度图像;其中,第一深度神经网络包括由级联的N层残差块构成的第一编码器网络和第一解码器网络,第二深度神经网络包括由级联的N层残差块构成的第二编码器网络和第二解码器网络,其中,N为大于1的整数;其中,所述获得第二深度图像,包括:基于第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。
如上所述,可在特征域和图像域分别对彩色信息与深度信息进行充分的融合,将RGB信息与深度信息进行充分融合,提高了深度图像补全的质量。具体地说,在空间维度上,将彩色特征与深度特征进行对齐,以深度特征为基准来生成对应的彩色特征的偏置,将生成的偏置用于可形变卷积中对彩色特征进行校准,减轻融合过程中由于特征形变或偏移导致的关键点信息不匹配问题,从而增强了网络的多模态融合能力。
可选地,所述获得第一深度图像和所述获得第二深度图像,可包括:对第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像进行通道混合,将经过通道混合后的第一编码特征图像和经过通道混合后的第二编码特征图像分别作为第一编码器网络和第二编码器网络中对应层的后一模块的输入。
如上所述,在通道维度上,通过通道混合方法将彩色特征和深度特征的通道进行打乱重组,使两种特征进行了充分地交换,有效促进了多模态信息的融合效果。
可选地,第一解码器网络和第二解码器网络分别还可包括在所述N层残差块之前的空洞卷积模块;其中,所述获得第一深度图像和所述获得第二深度图像,还可包括:将第一编码器网络最后一个残差块输出的第一编码特征图像输入到第一解码器网络的空洞卷积模块,且将第一解码器网络的空洞卷积模块输出的第一空洞特征图像输入到第一解码器网络中的第一个残差块;将第二编码器网络最后一个残差块输出的第二编码特征图像输入到第二解码器网络的空洞卷积模块,且将第二解码器网络的空洞卷积模块输出的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
如上所述,在空间维度上,可通过空洞卷积扩大网络的感受野来使网络能捕获到更远距离的信息,从而增强网络的判断能力。
可选地,所述在第二解码器网络的空洞卷积模块输出的第二空洞特征图像输入到第二解码器网络中的第一个残差块之前,所述方法还可包括:基于第一空洞特征图像和第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,将特征对齐处理后的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
如上所述,在空间维度上,将彩色特征与深度特征进行对齐,以深度特征为基准来生成对应的彩色特征的偏置,将生成的偏置用于可形变卷积中对彩色特征进行校准,减轻融合过程中由于特征形变或偏移导致的关键点信息不匹配问题,从而增强了网络的多模态融合能力。
可选地,第二深度神经网络还可包括压缩激活SE块;其中,所述将融合后的第二解码特征图像作为第二解码器网络中对应层的后一模块的输入,可包括:通过SE块,将所述特征对齐处理后的第二解码特征图像与第二编码器网络中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二解码器网络中对应层的后一模块的输入。
如上所述,在通道维度上,可利用SE块在图像通道上借助注意力机制进行通道融合,使得网络能自适应的学习两种模态特征的权重,从而更好地融合两种特征。
可选地,第一深度神经网络还可包括第一预处理模块和第一深度预测模块,第二深度神经网络还可包括第二预处理模块和第二深度预测模块;其中,所述获得第一深度图像和所述获得第二深度图像,还可包括:将所述原始彩色图像输入第一预处理模块,得到彩色特征图像;将所述原始深度图像输入第二预处理模块,得到深度特征图像;对所述彩色特征图像和所述深度特征图像进行通道混合,将经过通道混合后的彩色特征图像和经过通道混合后的深度特征图像分别作为第一编码器网络和第二编码器网络的输入;其中,所述获得第一深度图像和所述获得第二深度图像,还可包括:将第一解码器网络输出的第一解码特征图像输入第一深度预测模块,得到第一深度图像;将第二解码器网络输出的第二解码特征图像输入第二深度预测模块,得到第二深度图像。
可选地,所述通道混合,可包括:分别将第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像的预定通道数量的通道特征图像进行交换;分别将所述彩色特征图像和所述深度特征图像的预定通道数量的通道特征图像进行交换。
可选地,所述对第一解码特征图像和第二解码特征图像进行特征对齐,可包括:将第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像进行拼接,获得第一拼接特征图像;基于第一拼接特征图像,获得第一解码特征图像的像素位置偏置;基于所述第一解码特征图像的像素位置偏置对第一解码特征图像中的像素位置进行矫正,得到矫正后的第一解码特征图像;将第二解码特征图像与所述矫正后的第一解码特征图像进行拼接,获得第二拼接特征图像;对第二拼接特征图像进行卷积处理,获得特征对齐处理后的第二解码特征图像。
可选地,所述对第一空洞特征图像和第二空洞特征图像进行特征对齐,可包括:将第一空洞特征图像和第二空洞特征图像进行拼接,获得第三拼接特征图像;基于第三拼接空洞特征图像,获得第一空洞特征图像的像素位置偏置;基于所述第一空洞特征图像的像素位置偏置对第一空洞特征图像中的像素位置进行矫正,得到所述矫正后的第一空洞特征图像;将第二空洞特征图像与所述矫正后的第一空洞特征图像进行拼接,获得第四拼接特征图像;对第四拼接特征图像进行卷积处理,获得特征对齐处理后的第二空洞特征图像。
可选地,所述深度图像补全模型还可包括注意力网络;其中,所述通过将第一深度图像和第二深度图像融合,获得最终深度图像,可包括:利用所述注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图;基于第一像素权重地图和第二像素权重地图,将第一深度图像和第二深度图像加权求和,获得所述最终深度图像。
如上所述,图像域的融合可利用注意力机制将彩色分支网络和深度分支网络输出的两个深度图像进行融合,增强了深度图像的融合效果,提高模型性能。
可选地,第二编码器网络和第二解码器网络中的残差块可使用门卷积实现。
如上所述,为了使网络能够区分图像中的有效像素与无效像素,使生成的深度图像很好地保留原始的深度信息,深度分支网络中使用门卷积的方式来传递掩码信息,其中,门卷积中的门操作能够有效标识有效像素与无效像素的位置,有效像素的权重会高于无效像素的权重。
可选地所述深度图像补全模型是利用损失函数对所述深度图像补全模型进行训练获得;其中,所述损失函数可基于第一深度图像与真实深度图像的第一均方误差损失、第二深度图像与真实深度图像的第二均方误差损失、最终深度图像与真实深度图像的第三均方误差损失而得到;或所述损失函数可基于第一均方误差损失、第二均方误差损失、第三均方误差损失以及最终深度图像与真实深度图像的结构损失而得到,其中,所述结构损失=1-结构相似性指数。
如上所述,为了使最终生成的深度图像细节信息丰富,边缘质量高,训练本公开的深度图像补全模型可辅以结构相似性SSIM相关的结构损失监督。
可选地,所述获取原始彩色图像和对应的原始深度图像,可包括:当不存在所述对应的原始深度图像时,获取具有零像素值的深度图像作为对应的原始深度图像。
根据本公开的另一方面,提供一种深度图像补全的装置,其中,所述装置包括图像获取模块和深度图像补全模型,所述深度图像补全模型包括第一深度神经网络,第二深度神经网络和图像融合模块:图像获取模块,被配置为:获取原始彩色图像和对应的原始深度图像;第一深度神经网络,被配置为:基于所述原始彩色图像,利用第一深度神经网络,获得第一深度图像;第二深度神经网络,被配置为:基于所述原始深度图像,利用第二深度神经网络,获得第二深度图像;图像融合模块,被配置为:将第一深度图像和第二深度图像融合,获得最终深度图像;其中,第一深度神经网络包括由级联的N层残差块构成的第一编码器网络和第一解码器网络,第二深度神经网络包括由级联的N层残差块构成的第二编码器网络和第二解码器网络,其中,N为大于1的整数;其中,第二深度神经网络被配置为:基于第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。
可选地,第一深度神经网络和第二深度神经网络可被配置为:对第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像进行通道混合,将经过通道混合后的第一编码特征图像和经过通道混合后的第二编码特征图像分别作为第一编码器网络和第二编码器网络中对应层的后一模块的输入。
可选地,第一解码器网络和第二解码器网络分别还可包括在所述N层残差块之前的空洞卷积模块;其中,第一深度神经网络还可被配置为:将第一编码器网络最后一个残差块输出的第一编码特征图像输入到第一解码器网络的空洞卷积模块,且将第一解码器网络的空洞卷积模块输出的第一空洞特征图像输入到第一解码器网络中的第一个残差块;第二深度神经网络还可被配置为:将第二编码器网络最后一个残差块输出的第二编码特征图像输入到第二解码器网络的空洞卷积模块,且将第二解码器网络的空洞卷积模块输出的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
可选地,第二深度神经网络还可被配置为:基于第一空洞特征图像和第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,并将特征对齐处理后的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
可选地,第二深度神经网络还可包括压缩激活SE块;其中,第二深度神经网络还可被配置为:通过SE块,将所述特征对齐处理后的第二解码特征图像与第二编码器网络中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二解码器网络中对应层的后一模块的输入。
可选地,第一深度神经网络还可包括第一预处理模块和第一深度预测模块,第二深度神经网络还可包括第二预处理模块和第二深度预测模块;其中,第一预处理模块可被配置为对所述原始彩色图像进行处理得到彩色特征图像;第二预处理模块可被配置为对所述原始深度图像进行处理得到深度特征图像;所述深度图像补全模型还包括通道混选模块,可被配置为对所述彩色特征图像和所述深度特征图像进行通道混合,将经过通道混合后的彩色特征图像和经过通道混合后的深度特征图像分别作为第一编码器网络和第二编码器网络的输入;其中,第一深度预测模块还可被配置为对第一解码器网络输出的第一解码特征图像进行处理,得到第一深度图像;第二深度预测模块还可被配置为对第二解码器网络输出的第二解码特征图像进行处理,得到第二深度图像。
可选地,通道混选模块可被配置为:分别将第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像的预定通道数量的通道特征图像进行交换;分别将所述彩色特征图像和所述深度特征图像的预定通道数量的通道特征图像进行交换。
可选地,第二解码器网络可被配置为:将第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像进行拼接,获得第一拼接特征图像;基于第一拼接特征图像,获得第一解码特征图像的像素位置偏置;基于所述第一解码特征图像的像素位置偏置对第一解码特征图像中的像素位置进行矫正,得到所述矫正后的第一解码特征图像;将第二解码特征图像与所述矫正后的第一解码特征图像进行拼接,获得第二拼接特征图像;对第二拼接特征图像进行卷积处理,获得特征对齐处理后的第二解码特征图像。
可选地,第二解码器网络还可被配置为:将第一空洞特征图像和第二空洞特征图像进行拼接,获得第三拼接特征图像;基于第三拼接空洞特征图像,获得第一空洞特征图像的像素位置偏置;基于所述第一空洞特征图像的像素位置偏置对第一空洞特征图像中的像素位置进行矫正,得到矫正后的第一空洞特征图像;将第二空洞特征图像与所述矫正后的第一空洞特征图像进行拼接,获得第四拼接特征图像;对第四拼接空洞特征图像进行卷积处理,获得特征对齐处理后的第二空洞特征图像。
可选地,图像融合模块还被配置为:利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图;基于第一像素权重地图和第二像素权重地图,将第一深度图像和第二深度图像加权求和,获得所述最终深度图像。
可选地,第二编码器网络和第二解码器网络中的残差块可使用门卷积实现。
可选地,所述深度图像补全模型是利用损失函数对所述深度图像补全模型进行训练得到;其中,所述损失函数可基于第一深度图像与真实深度图像的第一均方误差损失、第二深度图像与真实深度图像的第二均方误差损失、最终深度图像与真实深度图像的第三均方误差损失而得到;或所述损失函数可基于第一均方误差损失、第二均方误差损失、第三均方误差损失以及最终深度图像与真实深度图像的结构损失而得到,其中,所述结构损失=1-结构相似性指数。
可选地,图像获取模块可被配置为:当不存在所述对应的原始深度图像时,获取具有零像素值的深度图像作为对应的原始深度图像。
根据本公开的另一方面,提供一种计算装置,包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现本公开的深度图像补全的方法。
根据本公开的另一方面,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行本公开的深度图像补全的方法。
附图说明
通过结合附图,从实施例的下面描述中,本公开这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:
图1是示出根据本公开的示例性实施例的深度图像补全模型的示意图。
图2是示出根据本公开的示例性实施例的通道混合的示意图。
图3是示出根据本公开的示例性实施例的特征对齐的示意图。
图4是示出根据本公开的示例性实施例的SE块融合方法的示意图。
图5是示出根据本公开的示例性实施例的基于注意力机制的融合方法的示意图。
图6是示出根据本公开的示例性实施例的损失函数的示意图。
图7是示出根据本公开的示例性实施例的深度图像补全的方法的流程图。
图8是示出根据本公开的示例性实施例的深度图像补全的装置的框图。
具体实施方式
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
受到硬件和成像原理的限制,现有深度传感器获取的场景深度图通常存在图像质量差、稀疏或包含连续大面积深度值缺失空洞的问题,为解决实际场景中所获取的深度图像质量差的问题所提出的方法大致可以分为两类,一类是基于滤波的传统图像处理方法,另一类是通过构建回归模型进行深度值填充的深度学习类方法。
传统方法主要基于图像滤波和马尔科夫随机场等,对深度图像进行膨胀和填充,并借助边缘纹理等信息进行约束,得到没有缺失的完整深度图像。此类方法结果通常存在深度纹理结构混乱,边缘不清晰的问题,同时由于需要大量手工设计的特征,这一类方法通常很难迁移到新的任务和新的数据集中,这也是传统方法的限制所在。
基于深度学习的深度图像补全方法通过构建回归模型来建立从原始深度图像到完整深度图像的映射。根据是否借助RGB图像的信息,这些方法可以分为两类:使用RGB图像进行指导的深度补全与直接从深度图像回归的深度补全。直接从深度图像回归的方法通常使用编解码器(Encoder-Decoder Network)、生成式对抗网络(Generative AdversarialNetwork,GAN)等方法建立相应的回归模型,这类建立单一回归模型的方法在彩色图像修复领域已经取得了明显的成果,但是由于深度恢复要求精确的深度信息,此类方法往往存在由于简单插值或者复制临近像素导致输出的深度图像模糊,边缘不清晰的问题。使用RGB指导的深度补全方法通过特征提取、特征融合,通过挖掘RGB图像中的信息,并用于指导深度补全的过程,相比于直接从单一的深度图像回归的方法,RGB指导的方法取得了一定的精度提升。但现有方法的对彩色图像信息的提取和两种图像信息融合过于简单,导致生成的深度图像原本的深度结构或纹理信息被破坏,并且对于大面积缺失的深度图像难以处理。
现有的基于深度学习的方法存在的问题主要体现在以下几个方面:
1、为了能够得到较好的补全效果,许多方法采用手工提取图像特征,增加深度信息中间表示。例如,提出表面法线(Surface Normal),遮挡边缘(Occlusion Boundary)等作为彩色图到深度图的中间表示,来降低双阶段网络结构中每个阶段网络预测的难度,最终通过全局优化的策略对得到补全的深度图像;又例如,设计一个独立的分支网络来学习深度图中间特征的表示,再将中间特征与RGB图像及原始深度图像拼接起来进行深度预测。这类方法弊端在于,深度补全的效果很大程度上依赖于手工提取的特征或中间表示生成的质量以及这些特征的融合策略。导致深度补全结果参差不齐,难以达到理想的效果。
2、为了融合深度图像特征与彩色图像特征,现有方法大多采取按元素相加或者按通道拼接的方式进行两种特征的融合。然而在网络处理过程中,两种模态的特征由于原始图像存在缺失,经过卷积、下采样等操作会发生不同程度的形变与位移,这种变化使得彩色特征与深度特征的关键点位置不能完全匹配,因此采用简单的相加或者拼接会导致彩色特征与深度特征之间的信息混乱,导致网络无法有效的学习到两种特征的对应关系。例如,将深度特征与彩色特征进行拼接,然后使用简单的编解码器进行稀疏深度稠密化,补全的深度图模糊,边缘损失较大;又例如,使用金字塔网络分别提取深度图与RGB图的多级特征,在解码器的输入部分进行融合,得到的深度图像存在纹理还原度不高,结构不完整的问题。
3、基于动态滤波、指导滤波的方法实现复杂度较高,计算量大,因此在实施过程中会导致较高的延迟。此类方法现在仍然处于研究阶段,难以应用到实际的场景中。
为了解决上述现在技术存在的问题,提高深度图像补全的效果,本公开提供一种基于双域融合的渐进式场景深度补全方法。具体地说,该方法使用的深度图像补全模型可包括两个分支网络,即,彩色图像分支网络和深度图像分支网络,彩色分支网络和深度分支网络分别通过使用原始彩色图像和原始深度图像进行深度估计,分别得到两幅深度图像,再将两幅深度图像融合,得到最终补全后的深度图像。在此过程中,本公开在特征域和图像域分别对彩色信息与深度信息进行充分的融合,将RGB信息与深度信息进行充分融合,提高了深度图像补全的质量。具体地说,特征域的融合可分为通道和空间两个维度。首先,可在空间维度上,特征对齐(Feature Alignment)模块将彩色特征与深度特征进行对齐,以深度特征为基准来生成对应的彩色特征的偏置(offset),将生成的偏置用于可形变卷积中对彩色特征进行校准,减轻融合过程中由于特征形变或偏移导致的关键点信息不匹配问题,从而增强了网络的多模态融合能力。此外,还可在通道维度上,首先通过通道混合(ChannelShuffle)方法将彩色特征与深度特征的通道进行打乱重组,使两种特征进行了充分地交换,有效促进了多模态信息的融合效果。此外,图像域的融合还可利用注意力机制将彩色分支网络和深度分支网络输出的两个深度图像进行融合,增强了深度图像的融合效果,提高模型性能。
此外,在空间维度上,本公开还可通过空洞卷积(Dilated Convolution)扩大网络的感受野(Receptive Field)来使网络能捕获到更远距离的信息,从而增强网络的判断能力。此外,在通道维度上,本公开还利用压缩激活块(Squeeze-Excitation Block,SEBlock)在图像通道上借助注意力机制(Attention)进行通道融合,使得网络能自适应的学习两种模态特征的权重,从而更好地融合两种特征。
此外,为了使网络能够区分图像中的有效像素与无效像素,使生成的深度图像很好地保留原始的深度信息,深度分支网络中使用门卷积(Gated-Convolution)的方式来传递掩码信息,其中,门卷积中的门操作能够有效标识有效像素与无效像素的位置,有效像素的权重会高于无效像素的权重。
此外,为了使最终生成的深度图像细节信息丰富,边缘质量高,训练本公开的深度图像补全模型可辅以结构相似性SSIM(Structural Similarity Index Measure)相关的结构损失监督。
此外,本公开的深度图像补全模型可端到端地进行训练,避免了使用中间特征的方式,有效的规避了中间特征的质量差的风险。此外,本公开的深度图像补全模型可避免了使用动态调整卷积核和滤波核的策略,运行速度明显快于采用动态指导滤波类的方法。此外,本公开提出的深度图像补全方法能够有效提升激光雷达(LiDAR)和ToF(Time ofFlight)等3D传感器的成像质量,从而使得搭载了此类3D传感器的设备能更好的进行3D建模与探测,如自动驾驶汽车,手机等。此方法在深度空洞填充与稀疏深度稠密化两种任务上都取得了较好的效果。
下面,将参照图1至图8详细地描述根据本公开的示例性实施例的深度图像补全的方法和装置。
图1是示出根据本公开的示例性实施例的深度图像补全模型的示意图。
参照图1,根据本公开的示例性实施例的深度图像补全模型100可包括第一深度神经网络(即,彩色分支网络)110、第二深度神经网络(即,深度分支网络)120和融合模块130。
具体地说,第一深度神经网络110用于基于原始彩色图像(例如,RGB图像等)执行深度估计以获得深度图像,因此,第一深度神经网络110的输入可为原始彩色图像,输出可为深度图像。第二深度神经网络120用于基于原始深度图像执行深度估计以获得深度图像,因此,第二深度神经网络120的输入可为原始深度图像,输出可为深度图像。在第一深度神经网络110和第二深度神经网络120中,需要执行通道级的特征融合(例如,通道混合等)、空间级的特征融合(例如,特征对齐等)的交互操作,使得彩色信息和深度信息进行充分融合。融合模块130可用于将第一深度神经网络110输出的深度图像与第二深度神经网络120输出的深度图像融合以产生最终的补全后的深度图像。这里,原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄,然后将所得的两种图像进行配准而得到,或者根据需要从本地存储器或本地数据库被获取,或者通过输入装置或传输媒介而从外部数据源(例如,互联网、服务器、数据库等)被接收,等等。原始彩色图像和原始深度图像是相互对应的图像,例如,可通过图像配准,将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中,使得两种图像像素一一对应。
根据本公开的示例性实施例,第一深度神经网络110的主要结构可由残差块堆叠而成的编解码器网络(Encoder-Decoder Network)构成。残差结构可有效保证网络低层特征向高层传递的效果,使得网络能够保留低层特征中的纹理信息与结构信息。例如,第一深度神经网络110可包括级联的N层(例如,4层)残差块构成的第一编码器网络112和第一解码器网络113,其中,N为大于1的整数。此外,第一深度神经网络110还可包括在编解码器网络(例如,第一编码器网络112和第一解码器网络113)之前的第一预处理模块111、以及在编解码器网络(例如,第一编码器网络112和第一解码器网络113)之后的第一深度预测模块114。此外,第一解码器网络113还可包括在N层残差块之前的第一空洞卷积模块115。
第二深度神经网络120的结构与第一深度神经网络110的结构基本一致,其主要结构也可由残差块堆叠而成的编解码器网络构成。例如,第二深度神经网络可包括级联的N层残差块构成的第二编码器网络122和第二解码器网络123。此外,第二深度神经网络120还可包括在编解码器网络(例如,第二编码器网络122和第二解码器网络123)之前的第二预处理模块121、以及在编解码器网络(例如,第二编码器网络122和第二解码器网络123)之后的第二深度预测模块124。此外,第二解码器网络123还可包括在N层残差块之前的第二空洞卷积模块125。第二预处理模块121、第二编码器网络122、第二解码器网络123和第二深度预测模块124中的每个网络执行第一深度神经网络110中对应网络相同的功能。
第二深度神经网络120与第一深度神经网络110的区别主要在于:(1)在第二深度神经网络120中,在空洞卷积模块125和第二解码器网络123中的每个残差块之后,还可包括特征对齐模块,用于以深度分支特征为基准来生成对应的彩色分支特征的偏置,基于生成的偏置采用可形变卷积对彩色分支特征进行校准,并将经过对齐的彩色分支特征与深度分支特征融合。此外,在特征对齐模块之后,还可包括SE块(Squeeze-and-ExcitationBlock),用于将融合后的特征与深度分支编码网络对应层的特征进行自适应融合;(2)第二编码器网络122和第二解码器网络123中的每个残差块都采用门卷积,即,在每个卷积层后增加门控(Gate)操作。
下面,具体描述第一深度神经网络110和第二深度神经网络120中编码阶段的操作。编码阶段可包括预处理操作和编码操作。
第一预处理模块111可用于将输入的原始彩色图像变换为适于深度神经网络处理的彩色特征图像。例如,第一预处理模块111可由至少一层卷积层构成。第一预处理模块111可仅对原始彩色图像进行卷积处理,而不改变尺寸。同样,第二预处理模块121可用于将输入的原始深度图像变换为适于深度神经网络处理的深度特征图像。例如,第二预处理模块121可由至少一层卷积层构成。第二预处理模块121可仅对原始深度图像进行卷积处理,而不改变尺寸。
第一编码器网络112可经由级联的N层残差块(这里,残差块为具有残差结构的编码单元)对彩色特征图像进行特征编码,其中,N为大于1的整数。第一编码器网络112中的每一层编码单元可包括级联的若干个残差块(Residual Block),每个残差块对输入的特征图像进行至少一次卷积处理,最后一个残差块对输入的特征图像进行至少一次卷积处理和一次下采样处理。这里,本公开对N的值以及残差块的数量,残差块执行的卷积次数不作限制。示例性的如图1所示,第一编码器网络112可包括四个编码单元,每个编码单元可包括两个残差块,每个残差块可包括两个卷积层,最后一个残差块可包括两个卷积层和一个下采样层(例如,下采样系数为1/2),因此,第一编码器网络112输出的特征图像的分辨率可变为输入的特征图像的1/16。因此,输入的原始彩色图像的分辨率可为16的整倍数,例如,304×224。此外,每个残差块还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对输入的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化。
第二编码器网络122可经由级联的N层具有残差结构的编码单元基于原始深度图像进行特征编码,其中,N为大于1的整数。第二编码器网络122中的每一层编码单元可包括级联的若干个残差块,每个残差块对输入的特征图像进行至少一次卷积处理,最后一个残差块对输入的特征图像进行至少一次卷积处理和一次下采样处理。这里,本公开对N的值以及残差块的数量,残差块执行的卷积次数不作限制。此外,每个残差块在执行每次卷积处理之后,执行一次门控处理,这将在下面具体描述。例如,第二编码器网络122可包括四个编码单元,每个编码单元可包括两个残差块,每个残差块可包括两个卷积层,最后一个残差块可包括两个卷积层和一个下采样层(例如,下采样系数为1/2),因此,第二编码器网络122输出的特征图像的分辨率可变为输入的特征图像的1/16。因此,输入的原始深度图像的分辨率可为16的整倍数,例如,304×224。此外,第二编码器网络122中的每个残差块还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对输入的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化。
根据本公开的示例性实施例,为了充分融合与交换彩色图像与深度图像的特征,编码网络中的彩色分支网络的各层特征都与对应的深度分支网络的特征通过通道混合(Channel Shuffle)来充分融合两种模态的信息。
图2是示出根据本公开的示例性实施例的通道混合的示意图。
参照图2,Fc,Fd分别表示彩色分支特征(例如,第一预处理模块111输出的特征图像和第一编码器网络112中的各层残差块输出的特征图像)和深度分支特征(例如,第二预处理模块121输出的特征图像和第一编码器网络122中的各层残差块输出的特征图像)。通道混合操作以特征的通道维度对特征进行拆分,并分别将深度分支和彩色分支的预定特征通道数量(例如,一半特征通道数量)的特征进行交换,生成新的特征F′c,F′d。经过通道混合操作后,两种图像域的特征的信息进行了充分地交换与融合,有效促进了多模态信息的融合效果。虽然图2中示出了将Fc和Fd的前一半通道的特征混合得到F′d,并将Fc和Fd的后一半通道的特征混合得到F′c,但本公开的通道混合不限于此,可对Fc和Fd随机地抽取一半通道数量的通道特征图像进行交换来生成F′c和F′d
返回参照图1,下面,具体描述第一深度神经网络110和第二深度神经网络120中解码阶段的操作。解码阶段可包括空洞卷积操作、解码操作和深度预测操作。
第一空洞卷积模块115可由预定层数(例如,1层)的空洞卷积层构成,并且可将第一编码器网络112最后一个残差块输出的编码特征图像输入到第一空洞卷积模块115,并将第一空洞卷积模块115输出的第一空洞特征图像输入到第一解码器网络113中的第一个残差块。
同样,第二空洞卷积模块125可由预定层数(例如,1层)的空洞卷积层构成,并且可将第二编码器网络122最后一个残差块输出的编码特征图像输入到第二空洞卷积模块125,并将第二空洞卷积模块125输出的第二空洞特征图像输入到第二解码器网络123中的第一个残差块。此外,在第二空洞卷积模块125之后,可包括一个特征对齐模块126,该特征对齐模块126可基于第一空洞卷积模块115输出的第一空洞特征图像和第二空洞卷积模块125输出的第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,并将特征对齐处理后的第二空洞特征图像输入到第二解码器网络中的第一个残差块。具体地说,特征对齐模块126可基于第一空洞卷积模块115输出的第一空洞特征图像和第二空洞卷积模块125输出的第二空洞特征图像,对第一空洞特征图像进行特征对齐,将第二空洞特征图像和经过特征对齐后的第一空洞特征图像融合,并将融合后的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
图3是示出根据本公开的示例性实施例的特征对齐的示意图。
参照图3,首先将彩色分支特征Fc(例如,第一空洞特征图像)与深度分支特征Fd(例如,第二空洞特征图像)进行拼接301,经过偏置生成器302产生一组偏置θ。例如,以3×3卷积核为例,偏置由可由八组坐标组成,分别表示了八个友邻像素坐标在二维空间的位置偏移。将该偏置输入可形变卷积303中用于对彩色分支特征Fc进行空间上的矫正以消除彩色分支特征Fc相对于深度分支特征Fd的空间位置差异。将矫正过的彩色分支特征与深度分支特征Fd进行拼接304,然后通过卷积进行融合305,生成融合后的特征Ff
返回参照图1,第一解码器网络113可由级联的N层残差块(这里,残差块为具有残差结构的解码单元)对第一编码器网络112输出的特征图像进行特征解码。也就是说,第一解码器网络113可采样同样的残差结构,通过对应次数的反卷积操作(通过上采样和卷积实现)来将图像的分辨率恢复至原始分辨率。
具体地说,第一解码器网络113的每一层解码单元包括级联的若干个残差块,每个残差块对输入的特征图像进行至少一次卷积处理,第一个残差块对输入的特征图像进行一次上采样处理和至少一次卷积处理。这里,本公开对N的值以及残差块的数量,残差块执行的卷积次数不作限制。例如,第一解码器网络113可包括对应的四个解码单元,每个解码单元可包括两个残差块,每个残差块可包括两个卷积层,第一个残差块可包括一个上采样层(例如,上采样系数为2)和两个卷积层,因此,第一解码器网络113输出的特征图像的分辨率可恢复成原始分辨率。此外,每个残差块还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对输入的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化。
类似地,第二解码器网络123的每一层解码单元包括级联的若干个残差块,每个残差块对输入的特征图像进行至少一次卷积处理,第一个残差块对输入的特征图像进行一次上采样处理和至少一次卷积处理。这里,本公开对N的值以及残差块的数量,残差块执行的卷积次数不作限制。此外,每个残差块在执行每次卷积处理之后,执行一次门控处理,这将在下面具体描述。例如,第一解码器网络113可包括对应的四个解码单元,每个解码单元可包括两个残差块,每个残差块可包括两个卷积层,第一个残差块可包括一个上采样层(例如,上采样系数为2)和两个卷积层,因此,第一解码器网络113输出的特征图像的分辨率可恢复成原始分辨率。此外,每个残差块还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对输入的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化。
此外,在第二解码器网络123的每个残差块之后,还可包括一个特征对齐模块126。各层残差块之后的特征对齐模块126可基于第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。具体地说,特征对齐模块126可基于各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像进行特征对齐,将第二解码特征图像与经过特征对齐后的第一解码特征图像融合,并将融合后的第二解码特征图像作为第二解码器网络中对应层的后一模块的输入。特征对齐模块126的示例性结构可如图3所示。
此外,在第二解码器网络123的每个残差块之后的特征对齐模块126之后,还可包括一个SE块127,用于将特征对齐模块126输出的特征对齐处理后的第二解码特征图像与第二编码器网络122中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二编码器网络中对应层的后一模块的输入。如图1所示,例如,第二解码器网络123的第一个残差块后的SE块127可对第一个残差块后的特征对齐模块126输出的特征对齐处理后的第二解码特征图像与输入到第二编码器网络122中的输入到最后一个残差块的第二编码特征图像进行融合,其中,第二解码特征图像和第二编码特征图像的尺寸一致。又例如,第二解码器网络123的第二个残差块后的SE块127可对第二个残差块后的特征对齐模块126输出的特征对齐处理后的第二解码特征图像与输入到第二编码器网络122中的输入到第三个残差块的第二编码特征图像进行融合,其中,第二解码特征图像和第二编码特征图像的尺寸一致。以此类推。
图4是示出根据本公开的示例性实施例的SE块融合方法的示意图。
SE块的核心思想在于当需要将例如C2个通道特征压缩为C1个通道特征(C2可为C1的整倍数)时,通过网络自动学习每个通道的特征权重,使有效特征的权重放大,无效或者低效特征的权重减小,从而使网络能有选择的使用不同的特征。在第二深度神经网络120中,SE块用于学习不同特征的权重并以学习到的权重进行特征融合。
如图4所示,例如,针对第二解码器网络123中的各层残差块,可首先将残差块之后的特征对齐模块126输出的C个通道的特征图像(解码特征)和第二编码器网络122中的输入到对应层残差块的C个通道的特征图像(编码特征)进行拼接得到一个2C通道的特征向量(拼接特征);随后,将2C通道的特征向量通过SE块生成一个数量为2C的权重图;随后,将所得的权重图按照原来的顺序拆分成两个通道为C的权重向量(解码特征权重、编码特征权重),每个权重范围为0-1;随后,按照通道相乘的方式对原来的两个C通道的特征图像进行加权,产生加权后的两个C通道的特征图像(加权解码特征、加权编码特征);最后,按照通道相加的方式生成最终的单个C通道的特征图像(融合特征图像),作为第二解码器网络123中对应层的后一模块的输入。
返回参照图1,第一深度预测模块114可将第一解码器网络113输出的特征图像合成为单个深度图像(例如,可称为第一深度图像)。由于原始彩色图像经过第一预处理模块111、第一编码器网络112、第一空洞卷积模块115、第一解码器网络113的卷积处理之后,可转换成C个通道的特征图像。例如,C可以为32、64、128等。因此,第一深度预测模块114需要将这C个通道的特征图像合成为单个通道的深度图像。例如,第一深度预测模块114可包括两个卷积层以将C个通道的特征图像合成为单个通道的深度图像,第一个卷积层可将特征通道下降为原来的一半,即,C/2,第二个卷积层可将C/2个通道的特征图像压缩为单个通道的深度图像。此外,在第一个卷积层和第二个卷积层之间还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对第一个卷积层输出的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化,并输出到第二个卷积层。
类似地,第二深度预测模块124可将第二解码器网络123输出的特征图像合成为单个深度图像(例如,可称为第二深度图像)。由于原始深度图像经过第二预处理模块121、第二编码器网络122、第二空洞卷积模块125、第二解码器网络123之后,可转换成C个通道的特征图像。例如,C可以为32、64、128等。因此,第二深度预测模块124需要将这C个通道的特征图像合成为单个通道的深度图像。例如,第一深度预测模块114可包括两个卷积层以将C个通道的特征图像合成为单个通道的深度图像,第一个卷积层可将特征通道下降为原来的一半,即,C/2,第二个卷积层可将C/2个通道的特征图像压缩为单个通道的深度图像。此外,在第一个卷积层和第二个卷积层之间还可包括一个归一化层(例如,批归一化层)和激活层(例如,PReLU层),归一化层可对第一个卷积层输出的特征图像进行归一化操作,使输出的特征具有相同的尺度,激活层可对经过归一化的特征图像进行非线性化,并输出到第二个卷积层。
融合模块130可通过将第一深度神经网络110输出的第一深度图像和第二深度神经网络120输出的第二深度图像融合,获得最终的补全后的深度图像(即,最终深度图像)。
根据本公开的示例性实施例,融合模块130可通过注意力模块来实现。当然,融合模块130还可以通过任何可行的方式实现,本公开对融合模块130的实现方式不作限制。下面,具体描述通过注意力模块来实现融合模块130的方法。
注意力模块可通过一个可学习的网络模块针对输入的两个深度图像生成两张权重图,将权重图加权乘回到原来的深度图像,并将加权后的深度图像相加,获得一个最终的深度图像。注意力模块在空间位置上进行监督,即,对深度图像中的每个像素都输出相应的权重,即,输出的权重图与深度图像具有完全相同的分辨率,例如,深度图像的尺寸为H×W,权重图的尺寸也为H×W。
图5是示出根据本公开的示例性实施例的基于注意力机制的融合方法的示意图。
如图5所示,首先,输入第一深度图像和第二深度图像(例如,D1和D2),随后将第一深度图像和第二深度图像拼接,将拼接后的深度图像输入到注意力模块,产生拼接后的深度图像中的每个像素的权重以产生对应的权重图,将所得的权重图按照原来的顺序拆分成两个分别与第一深度图像和第二深度图像对应的权重图(例如,W1和W2),并按像素将这两个权重图分别与第一深度图像和第二深度图像相乘,以获得加权后的第一深度图像和加权后的第二深度图像,再按像素将加权后的第一深度图像和加权后的第二深度图像相加获得最终的深度图像(例如,D)。此过程可以表示:
D=D1⊙W1+D2⊙W2
其中,D1表示第一深度神经网络110输出的第一深度图像,D2表示第二深度神经网络120输出的第二深度图像,W1与W2分别表示深度图对应的权重,⊙表示按对应像素相乘。
返回参照图1,上述深度图像补全模型100包括以下优势:(1)提出了一个新颖的基于双域信息融的合深度图像增强框架,该框架是一种基于指导的深度图像增强的通用框架,不止是彩色图像指导,同样可以扩展到IR图像指导的深度图像增强任务。(2)提出了一种新的多维特征融合方法,通道-空间特征融合,结合了彩色图像和原始深度图像的特点,在通道和空间两个维度上充分的融合和利用了来自不同图像域的特征,增强了彩色图像在深度图像补全算法上的指导作用。(3)第三,提出的方法在室内室外多个场景的不同数据及上都取得了非常具有竞争力的结果。
下面,详细介绍根据本公开的示例性实施例的对深度图像补全模型100进行训练的方法。
首先,需要准备训练样本。训练样本涉及原始彩色图像和原始深度图像,这里,原始彩色图像和原始深度图像是相互对应的图像,可通过图像配准,将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中,使得两种图像像素一一对应。可通过各种数据集获取训练样本。
根据本公开的示例性实施例,如果训练样本匮乏,可通过一些数据增广操作来进行数据扩充,如随机水平翻转(Random Horizontal Flip)、随机垂直翻转(RandomVertical Flip)、色彩抖动(Color Jitter)等。这样操作使得网络能够学习到更多的场景以及不同环境下的对应关系,模型鲁棒性得到很好地增强。
根据本公开的示例性实施例,针对空洞补全任务,训练样本可包括多个原始彩色图像和原始深度图像对。这里的原始深度图像可为带有空洞缺失的深度图像。针对稀疏深度稠密化任务,训练样本可包括多个原始彩色图像和稀疏深度图像对。这里的稀疏深度图像可通过包括稀疏深度图像的数据库获得,或者可通过对深度图像地面真值或密集的深度图像执行稀疏采样而获得。例如,当原始深度图像为带有空洞缺失的深度图像时,可通过对原始深度图像进行填充以获得深度图像地面真值,再对深度图像地面真值执行稀疏采样来获得稀疏深度图像。此外,通过既包括多个原始彩色图像和原始深度图像对又包括多个原始彩色图像和稀疏深度图像对的训练样本来对深度图像补全模型100进行训练,以达到同时满足空洞补全任务和稀疏深度稠密化任务的目的也是有可能的。
其次,需要构建损失函数。模型训练就是在损失函数的监督下,使用Adam优化器,通过反向传播不断更新网络中的参数,使网络能更好地拟合输入的数据,以此来减小预测的深度图像与真实深度图像之间的差异。
根据本公开的示例性实施例,除了采用预测深度像素与真实深度图像的像素值的均方误差(Mean Square Error,MSE)作为损失函数之外,还引入基于预测深度像素与真实深度图像的结构相似性指数(Structural Similarity Index Measure,SSIM)而获得的结构损失作为损失函数,以提高获得的最终深度图像的质量并消除网络中的噪声与棋盘效应,使得获得的最终深度图像细节信息丰富,边缘质量高。
图6是示出根据本公开的示例性实施例的损失函数的示意图。
如图6所示,为了使彩色分支能学习到彩色图像与深度图像之间的映射关系,在彩色分支的深度预测部分使用MSE损失(MSE1)做监督;同样的,为了学习原始深度图像与补全的深度图像间的关系,在深度分支的深度预测部分也使用了MSE损失函数(MSE2);针对最终的深度融合部分,使用MSE与SSIM作为损失函数(MSE3和SSIM)来监督最终的深度图像。
MSE损失函数如下所示:
Figure BDA0003495244410000211
其中,N为图像中的有效像素点的个数,D为预测的深度值,D*为真实的深度值。
SSIM损失函数如下所示:
LSSIM=1-SSIM(x,y)
其中,SSIM为结构相似性指数,x和y分别表示预测深度图像和直实深度图像。SSIM可表示为:
Figure BDA0003495244410000212
其中,μx是x图像的像素值的均值,μy是y图像的像素值的均值,
Figure BDA0003495244410000213
是x图像的像素值的方差,
Figure BDA0003495244410000214
是y图像的像素值的方差,σxy是x图像和y图像的像素值的协方差,c1和c2为常数。结构相似性的范围为0~1。
根据本公开的示例性实施例的损失函数可表示如下:
Figure BDA0003495244410000215
其中,
Figure BDA0003495244410000216
为损失权重系数向量,代表了不同的损失函数在实际中的惩罚作用大小,例如,但不限于,
Figure BDA0003495244410000221
Figure BDA0003495244410000222
为四种损失(例如,MSE3、SSIM、MSE2、MSE1)组成的损失向量。lout表示最终深度图像的均方误差损失,lssim表示最终深度图的结构损失,lD与lc分别表示深度预测分支与深度估计分支的均方误差损失。
根据本公开的示例性实施例,可根据训练采用的数据集的差异不同地构建损失函数。例如,对于包括稀疏图像的数据集来说,考虑结构相似性指数无意义,因此,损失函数可被构建为:
Figure BDA0003495244410000223
其中,
Figure BDA0003495244410000224
可例如,但不限于,
Figure BDA0003495244410000225
Figure BDA0003495244410000226
为三种损失(例如,MSE3、MSE2、MSE1)组成的损失向量。
图7是示出根据本公开的示例性实施例的深度图像补全的方法的流程图。
参照图7,在步骤701,获取原始彩色图像和对应的原始深度图像。这里,原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄,然后将所得的两种图像进行配准而得到,或者根据需要从本地存储器或本地数据库被获取,或者通过输入装置或传输媒介而从外部数据源(例如,互联网、服务器、数据库等)被接收,等等。原始彩色图像和原始深度图像是相互对应的图像,例如,可通过图像配准,将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中,使得两种图像像素一一对应。
根据本公开的示例性实施例,当不存在所述对应的原始深度图像时,可获取具有零像素值的深度图像作为对应的原始深度图像。
在步骤702,基于所述原始彩色图像,利用第一深度神经网络,获得第一深度图像。这里,可通过上述的深度图像补全模型100中的第一深度神经网络110来实现第一深度神经网络。
在步骤703,基于所述原始深度图像,利用第二深度神经网络,获得第二深度图像。这里,可通过上述的深度图像补全模型100中的第二深度神经网络120来实现第二深度神经网络。在步骤703中,可基于第一解码器网络113中的各层残差块输出的第一解码特征图像和第二解码器网络123中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。例如,可将第一解码器网络113中的各层残差块输出的第一解码特征图像和第二解码器网络123中的对应层残差块输出的第二解码特征图像进行拼接,获得第一拼接特征图像;基于第一拼接特征图像,获得第一解码特征图像的像素位置偏置;基于所述第一解码特征图像的像素位置偏置对第一解码特征图像中的像素位置进行矫正,得到矫正后的第一解码特征图像;将第二解码特征图像与所述矫正后的第一解码特征图像进行拼接,获得第二拼接特征图像;对第二拼接特征图像进行卷积处理,获得特征对齐处理后的第二解码特征图像。
根据本公开的示例性实施例,在步骤702和703中,可对第一编码器网络112中的各层残差块输出的第一编码特征图像和第二编码器网络122中的对应层残差块输出的第二编码特征图像进行通道混合,将经过通道混合后的第一编码特征图像和经过通道混合后的第二编码特征图像分别作为第一编码器网络112和第二编码器网络122中对应层的级联的后一模块的输入。例如,可分别将第一编码器网络112中的各层残差块输出的第一编码特征图像和第二编码器网络122中的对应层残差块输出的第二编码特征图像的预定通道数量(例如,一半通道数量)的通道特征图像进行交换。
根据本公开的示例性实施例,第一解码器网络112和第二解码器网络123分别还包括在所述N层残差块之前的第一空洞卷积模块115和第二空洞卷积模块125。
在步骤702和703中,可将第一编码器网络112最后一个残差块输出的第一编码特征图像输入到第一解码器网络113的第一空洞卷积模块115,且将第一解码器网络113的第一空洞卷积模块115输出的第一空洞特征图像输入到第一解码器网络113中的第一个残差块。将第二编码器网络122最后一个残差块输出的第二编码特征图像输入到第二解码器网络123的第二空洞卷积模块125,且将第二解码器网络123的第二空洞卷积模块125输出的第二空洞特征图像输入到第二解码器网络123中的第一个残差块。
根据本公开的示例性实施例,在步骤703中,可基于第一空洞特征图像和第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,并将特征对齐处理后的第二空洞特征图像输入到第二解码器网络123中的第一个残差块。例如,可将第一空洞特征图像和第二空洞特征图像进行拼接,获得第三拼接特征图像;基于第三拼接特征图像,获得第一空洞特征图像的像素位置偏置;基于所述第一空洞特征图像的像素位置偏置对第一空洞特征图像中的像素位置进行矫正,得到所述矫正后的第一空洞特征图像;将第二空洞特征图像与所述矫正后的第一空洞特征图像进行拼接,获得第四拼接特征图像;对第四拼接特征图像进行卷积处理,获得特征对齐处理后的第二空洞特征图像。
根据本公开的示例性实施例,第二深度神经网络还可包括SE块。在步骤703中,可通过SE块,将所述特征对齐处理后的第二解码特征图像与第二编码器网络中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二解码器网络123中对应层的后一模块的输入。
根据本公开的示例性实施例,第一深度神经网络110还包括第一预处理模块111和第一深度预测模块114,第二深度神经网络120还包括第二预处理模块121和第二深度预测模块124。
在步骤702和703中,可将所述原始彩色图像输入第一预处理模块111,得到彩色特征图像;将所述原始深度图像输入第二预处理模块121,得到深度特征图像;对所述彩色特征图像和所述深度特征图像进行通道混合,将经过通道混合后的彩色特征图像和经过通道混合后的深度特征图像分别作为第一编码器网络112和第二编码器网络113的输入。例如,可分别将所述彩色特征图像和所述深度特征图像的预定通道数量(例如,一半通道数量)的通道特征图像进行交换。
在步骤702和703中,可将第一解码器网络113输出的第一解码特征图像输入第一深度预测模块114,得到第一深度图像;将第二解码器网络123输出的第二解码特征图像输入第二深度预测模块124,得到第二深度图像。
在步骤704,可通过将第一深度图像和第二深度图像融合,获得最终深度图像。这里,可通过上述的深度图像补全模型100中的融合模块130来执行此步骤。
根据本公开的示例性实施例,可通过注意力网络来实现融合模块130。在这种情况下,可利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图;基于第一像素权重地图和第二像素权重地图,将第一深度图像和第二深度图像加权求和,获得所述最终深度图像。
根据本公开的示例性实施例,第二编码器网络122和第二解码器网络123中的残差块可使用门卷积实现。
根据本公开的示例性实施例,所述深度图像补全模型是利用损失函数对所述深度图像补全模型进行训练获得。其中,所述损失函数是基于第一深度图像与真实深度图像的第一均方误差损失(MSE1)、第二深度图像与真实深度图像的第二均方误差损失(MSE2)、最终深度图像与真实深度图像的第三均方误差损失(MSE3)而得到的。例如,可将第一均方误差损失、第二均方误差损失和第三均方误差损失来获得所述损失函数。
根据本公开的示例性实施例,损失函数可通过考虑第一均方误差损失(MSE1)、第二均方误差损失(MSE2)、第三均方误差损失(MSE3)、以及最终深度图像与真实深度图像的结构损失(SSIM)而产生的,其中,所述结构损失=1-结构相似性指数。例如,可将第一均方误差损失、第二均方误差损失、第三均方误差损失和结构损失加权求和来获得所述损失函数。
图8是示出根据本公开的示例性实施例的深度图像补全的装置的框图。
参照图8,根据本公开的示例性实施例的深度图像补全的装置800可包括图像获取模块801和深度图像补全模型100,其中,深度图像补全模型100可包括第一深度神经网络802、第二深度神经网络803和图像融合模块804。
图像获取模块801可获取原始彩色图像和对应的原始深度图像。这里,原始彩色图像与原始深度图像可通过配对并校准的彩色相机与深度相机在同一位置同时对同一场景进行拍摄,然后将所得的两种图像进行配准而得到,或者根据需要从本地存储器或本地数据库被获取,或者通过输入装置或传输媒介而从外部数据源(例如,互联网、服务器、数据库等)被接收,等等。原始彩色图像和原始深度图像是相互对应的图像,例如,可通过图像配准,将传感器采集到的原始彩色图像与原始深度图像投影到相同的坐标系中,使得两种图像像素一一对应。
根据本公开的示例性实施例,当不存在所述对应的原始深度图像时,图像获取模块801可获取具有零像素值的深度图像作为对应的原始深度图像。
第一深度神经网络802可基于所述原始彩色图像,利用第一深度神经网络,获得第一深度图像。第二深度神经网络803可基于所述原始深度图像,利用第二深度神经网络,获得第二深度图像。第二深度神经网络803可基于第一解码器网络113中的各层残差块输出的第一解码特征图像和第二解码器网络123中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为第二解码器网络123中对应层的级联的后一模块的输入。例如,第二解码器网络123可被配置为:将第一解码器网络113中的各层残差块输出的第一解码特征图像和第二解码器网络123中的对应层残差块输出的第二解码特征图像进行拼接,获得第一拼接特征图像;基于第一拼接特征图像,获得第一解码特征图像的像素位置偏置;基于所述第一解码特征图像的像素位置偏置对第一解码特征图像中的像素位置进行矫正,得到矫正后的第一解码特征图像;将第二解码特征图像与所述矫正后的第一解码特征图像进行拼接,获得第二拼接特征图像;对第二拼接特征图像进行卷积处理,获得特征对齐处理后的第二解码特征图像。
根据本公开的示例性实施例,第一深度神经网络802和第二深度神经网络803可对第一编码器网络112中的各层残差块输出的第一编码特征图像和第二编码器网络122中的对应层残差块输出的第二编码特征图像进行通道混合,将经过通道混合后的第一编码特征图像和经过通道混合后的第二编码特征图像分别作为第一编码器网络112和第二编码器网络122中对应层的后一模块的输入。例如,第一深度神经网络802和第二深度神经网络803可分别将第一编码器网络112中的各层残差块输出的第一编码特征图像和第二编码器网络122中的对应层残差块输出的第二编码特征图像的预定通道数量(例如,一半通道数量)的通道特征图像进行交换。
根据本公开的示例性实施例,第一解码器网络112和第二解码器网络123分别还包括在所述N层残差块之前的第一空洞卷积模块115和第二空洞卷积模块125。
第一深度神经网络802可将第一编码器网络112最后一个残差块输出的第一编码特征图像输入到第一解码器网络113的第一空洞卷积模块115,且将第一解码器网络113的第一空洞卷积模块115输出的第一空洞特征图像输入到第一解码器网络113中的第一个残差块。第二深度神经网络803将第二编码器网络122最后一个残差块输出的第二编码特征图像输入到第二解码器网络123的第二空洞卷积模块125,且将第二解码器网络123的第二空洞卷积模块125输出的第二空洞特征图像输入到第二解码器网络123中的第一个残差块。
根据本公开的示例性实施例,第二深度神经网络803可基于第一空洞特征图像和第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,将第二空洞特征图像和经过特征对齐后的第一空洞特征图像融合,并将特征对齐处理后的第二空洞特征图像输入到第二解码器网络123中的第一个残差块。例如,第二解码器网络123还可被配置为:将第一空洞特征图像和第二空洞特征图像进行拼接,获得第三拼接特征图像;基于第三拼接特征图像,获得第一空洞特征图像的像素位置偏置;基于所述第一空洞特征图像的像素位置偏置对第一空洞特征图像中的像素位置进行矫正,得到矫正后的第一空洞特征图像;将第二空洞特征图像与所述矫正后的第一空洞特征图像进行拼接,获得第四拼接特征图像;对第四拼接特征图像进行卷积处理,获得特征对齐处理后的第二空洞特征图像。
根据本公开的示例性实施例,第二深度神经网络还可包括SE块。第二深度神经网络803可通过SE块,将所述特征对齐处理后的第二解码特征图像与第二编码器网络中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二解码器网络123中对应层的后一模块的输入。
根据本公开的示例性实施例,第一深度神经网络110还包括第一预处理模块111和第一深度预测模块114,第二深度神经网络120还包括第二预处理模块121和第二深度预测模块124。
第一预处理模块111可被配置为对所述原始彩色图像进行处理得到彩色特征图像;第二预处理模块121可被配置为对所述原始深度图像进行处理得到深度特征图像。深度图像补全模型100还可包括通道混选模块(未示出),被配置为对所述彩色特征图像和所述深度特征图像进行通道混合,将经过通道混合后的彩色特征图像和经过通道混合后的深度特征图像分别作为第一编码器网络和第二编码器网络的输入。第一深度预测模块114还可被配置为对第一解码器网络输出的第一解码特征图像进行处理得到第一深度图像;第二深度预测模块124还可被配置为对第二解码器网络输出的第二解码特征图像进行处理得到第二深度图像。图像融合模块804可通过将第一深度图像和第二深度图像融合,获得最终深度图像。这里,可通过上述的深度图像补全模型100中的融合模块130来执行此步骤。
根据本公开的示例性实施例,可通过注意力网络来实现融合模块130。在这种情况下,图像融合模块804可利用注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图;基于第一像素权重地图和第二像素权重地图,将第一深度图像和第二深度图像加权求和,获得所述最终深度图像。
根据本公开的示例性实施例,第二编码器网络122和第二解码器网络123中的残差块可使用门卷积实现。
根据本公开的示例性实施例,深度图像补全模型是利用损失函数对深度图像补全模型进行训练得到其中,损失函数是基于第一深度图像与真实深度图像的第一均方误差损失(MSE1)、第二深度图像与真实深度图像的第二均方误差损失(MSE2)、最终深度图像与真实深度图像的第三均方误差损失(MSE3)而得到的。例如,可将第一均方误差损失、第二均方误差损失和第三均方误差损失来获得所述损失函数。
根据本公开的示例性实施例,损失函数可通过考虑第一均方误差损失(MSE1)、第二均方误差损失(MSE2)、第三均方误差损失(MSE3)、以及最终深度图像与真实深度图像的结构损失(SSIM)而产生的,其中,所述结构损失=1-结构相似性指数。例如,可将第一均方误差损失、第二均方误差损失、第三均方误差损失和结构损失加权求和来获得所述损失函数。
根据本公开的示例性实施例,提供了一种计算装置,包括处理器和存储器。其中,存储器存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本公开的示例性实施例的深度图像补全的方法。
根据本公开的示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行根据本公开的示例性实施例的深度图像补全的方法。
根据本公开的深度图像补全的方法和装置,通过彩色分支网络和深度分支网络分别对原始彩色图像和原始深度图像进行深度估计,再将两个分支的深度估计结果进行融合,在此过程中,在特征域和图像域分别对彩色信息与深度信息进行充分的融合,将RGB信息与深度信息进行充分融合,提高了深度图像补全的质量。具体地说,特征域的融合可分为通道和空间两个维度。首先,可在空间维度上,特征对齐(Feature Alignment)模块将彩色特征与深度特征进行对齐,以深度特征为基准来生成对应的彩色特征的偏置(offset),将生成的偏置用于可形变卷积中对彩色特征进行校准,减轻融合过程中由于特征形变或偏移导致的关键点信息不匹配问题,从而增强了网络的多模态融合能力。此外,还可在通道维度上,首先通过通道混合(Channel Shuffle)方法将彩色特征与深度特征的通道进行打乱重组,使两种特征进行了充分地交换,有效促进了多模态信息的融合效果。此外,图像域的融合还可利用注意力机制将彩色分支网络和深度分支网络输出的两个深度图像进行融合,增强了深度图像的融合效果,提高模型性能。
此外,根据本公开的深度图像补全的方法和装置,在空间维度上,本公开还可通过空洞卷积扩大网络的感受野来使网络能捕获到更远距离的信息,从而增强网络的判断能力。
此外,根据本公开的深度图像补全的方法和装置,在通道维度上,本公开还利用SE块在图像通道上借助注意力机制进行通道融合,使得网络能自适应的学习两种模态特征的权重,从而更好地融合两种特征。
此外,根据本公开的深度图像补全的方法和装置,为了使网络能够区分图像中的有效像素与无效像素,使生成的深度图像很好地保留原始的深度信息,深度分支网络中使用门卷积(Gated-Convolution)的方式来传递掩码信息,其中,门卷积中的门操作能够有效标识有效像素与无效像素的位置,有效像素的权重会高于无效像素的权重。
此外,根据本公开的深度图像补全的方法和装置,为了使最终生成的深度图像细节信息丰富,边缘质量高,训练本公开的深度图像补全模型可辅以结构相似性SSIM相关的结构损失监督。
此外,本公开的深度图像补全模型可端到端地进行训练,避免了使用中间特征的方式,有效的规避了中间特征的质量差的风险。此外,本公开的深度图像补全模型可避免了使用动态调整卷积核和滤波核的策略,运行速度明显快于采用动态指导滤波类的方法。此外,本公开提出的深度图像补全方法能够有效提升激光雷达(LiDAR)和ToF(Time ofFlight)等3D传感器的成像质量,从而使得搭载了此类3D传感器的设备能更好的进行3D建模与探测,如自动驾驶汽车,手机等。此方法在深度空洞填充与稀疏深度稠密化两种任务上都取得了较好的效果。
以上已参照图1至图8描述了根据本公开示例性实施例的本公开的深度图像补全的方法和装置。
图8所示出的本公开的深度图像补全的装置中的各个模块可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,各个模块可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,各个模块所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,参照图7所描述的本公开的深度图像补全的方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如,根据本公开的示例性实施例,可提供存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行根据本公开的本公开的深度图像补全的方法。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图7进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的深度图像补全的装置中的各个模块可完全依赖计算机程序的运行来实现相应的功能,即,各个模块在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图8所示的各个模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开的示例性实施例的深度图像补全的方法。
具体说来,计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的深度图像补全的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本公开示例性实施例的深度图像补全的方法可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
因此,参照图7所描述的深度图像补全的方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。
根据本公开的示例性实施例,至少一个计算装置是根据本公开示例性实施例的用于执行深度图像补全的方法的计算装置,存储装置中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个计算装置执行时,执行参照图7所描述的深度图像补全的方法。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。

Claims (16)

1.一种深度图像补全的方法,其中,所述方法基于深度图像补全模型执行,所述深度图像补全模型包括第一深度神经网络和第二深度神经网络,所述方法包括:
获取原始彩色图像和对应的原始深度图像;
基于所述原始彩色图像,利用第一深度神经网络,获得第一深度图像;
基于所述原始深度图像,利用第二深度神经网络,获得第二深度图像;
将第一深度图像和第二深度图像融合,获得最终深度图像;
其中,第一深度神经网络包括由级联的N层残差块构成的第一编码器网络和第一解码器网络,第二深度神经网络包括由级联的N层残差块构成的第二编码器网络和第二解码器网络,其中,N为大于1的整数;
其中,所述获得第二深度图像,包括:
基于第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。
2.如权利要求1所述的方法,其中,所述获得第一深度图像和所述获得第二深度图像,包括:
对第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像进行通道混合,将经过通道混合后的第一编码特征图像和经过通道混合后的第二编码特征图像分别作为第一编码器网络和第二编码器网络中对应层的后一模块的输入。
3.如权利要求1所述的方法,其中,第一解码器网络和第二解码器网络分别还包括在所述N层残差块之前的空洞卷积模块;
其中,所述获得第一深度图像和所述获得第二深度图像,还包括:
将第一编码器网络最后一个残差块输出的第一编码特征图像输入到第一解码器网络的空洞卷积模块,且将第一解码器网络的空洞卷积模块输出的第一空洞特征图像输入到第一解码器网络中的第一个残差块;
将第二编码器网络最后一个残差块输出的第二编码特征图像输入到第二解码器网络的空洞卷积模块,且将第二解码器网络的空洞卷积模块输出的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
4.如权利要求3所述的方法,其中,所述在第二解码器网络的空洞卷积模块输出的第二空洞特征图像输入到第二解码器网络中的第一个残差块之前,还包括:
基于第一空洞特征图像和第二空洞特征图像,对第一空洞特征图像和第二空洞特征图像进行特征对齐,并将特征对齐处理后的第二空洞特征图像输入到第二解码器网络中的第一个残差块。
5.如权利要求1所述的方法,其中,第二深度神经网络还包括压缩激活SE块;
其中,所述将特征对齐处理后的第二解码特征图像作为后一模块的输入之前,还包括:
通过SE块,将所述特征对齐处理后的第二解码特征图像与第二编码器网络中的输入到对应层残差块的第二编码特征图像进行融合,得到融合后的特征图像,并将所述融合后的特征图像作为第二解码器网络中对应层的后一模块的输入。
6.如权利要求1所述的方法,其中,第一深度神经网络还包括第一预处理模块和第一深度预测模块,第二深度神经网络还包括第二预处理模块和第二深度预测模块;
其中,所述获得第一深度图像和所述获得第二深度图像,还包括:
将所述原始彩色图像输入第一预处理模块,得到彩色特征图像;
将所述原始深度图像输入第二预处理模块,得到深度特征图像;
对所述彩色特征图像和所述深度特征图像进行通道混合,将经过通道混合后的彩色特征图像和经过通道混合后的深度特征图像分别作为第一编码器网络和第二编码器网络的输入;
其中,所述获得第一深度图像和所述获得第二深度图像,还包括:
将第一解码器网络输出的第一解码特征图像输入第一深度预测模块,得到第一深度图像;
将第二解码器网络输出的第二解码特征图像输入第二深度预测模块,得到第二深度图像。
7.如权利要求2或6所述的方法,其中,所述通道混合,包括:
分别将第一编码器网络中的各层残差块输出的第一编码特征图像和第二编码器网络中的对应层残差块输出的第二编码特征图像的预定通道数量的通道特征图像进行交换;
分别将所述彩色特征图像和所述深度特征图像的预定通道数量的通道特征图像进行交换。
8.如权利要求1所述的方法,其中,对第一解码特征图像和第二解码特征图像进行特征对齐,包括:
将第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像进行拼接,获得第一拼接特征图像;
基于第一拼接特征图像,获得第一解码特征图像的像素位置偏置;
基于所述第一解码特征图像的像素位置偏置对第一解码特征图像中的像素位置进行矫正,得到矫正后的第一解码特征图像;
将第二解码特征图像与所述矫正后的第一解码特征图像进行拼接,获得第二拼接特征图像;
对第二拼接特征图像进行卷积处理,获得特征对齐处理后的第二解码特征图像。
9.如权利要求4所述的方法,其中,所述对第一空洞特征图像和第二空洞特征图像进行特征对齐,包括:
将第一空洞特征图像和第二空洞特征图像进行拼接,获得第三拼接特征图像;
基于第三拼接特征图像,获得第一空洞特征图像的像素位置偏置;
基于所述第一空洞特征图像的像素位置偏置对第一空洞特征图像中的像素位置进行矫正,得到所述矫正后的第一空洞特征图像;
将第二空洞特征图像与所述矫正后的第一空洞特征图像进行拼接,获得第四拼接特征图像;
对第四拼接特征图像进行卷积处理,获得特征对齐处理后的第二空洞特征图像。
10.如权利要求1所述的方法,其中,所述深度图像补全模型还包括注意力网络;
其中,所述通过将第一深度图像和第二深度图像融合,获得最终深度图像,包括:
利用所述注意力网络获得第一深度图像的第一像素权重地图和第二深度图像的第二像素权重地图;
基于第一像素权重地图和第二像素权重地图,将第一深度图像和第二深度图像加权求和,获得所述最终深度图像。
11.如权利要求1所述的方法,其中,第二编码器网络和第二解码器网络中的残差块使用门卷积实现。
12.如权利要求1至11中任意一项权利要求所述的方法,其中,
所述深度图像补全模型是利用损失函数对所述深度图像补全模型进行训练获得;
其中,所述损失函数是基于第一深度图像与真实深度图像的第一均方误差损失、第二深度图像与真实深度图像的第二均方误差损失、最终深度图像与真实深度图像的第三均方误差损失而得到的;或
所述损失函数是基于第一均方误差损失、第二均方误差损失、第三均方误差损失以及最终深度图像与真实深度图像的结构损失而得到的,其中,所述结构损失=1-结构相似性指数。
13.如权利要求1所述的方法,其中,所述获取原始彩色图像和对应的原始深度图像,包括:
当不存在所述对应的原始深度图像时,获取具有零像素值的深度图像作为对应的原始深度图像。
14.一种深度图像补全的装置,其中,所述装置包括图像获取模块和深度图像补全模型,所述深度图像补全模型包括第一深度神经网络,第二深度神经网络和图像融合模块:
图像获取模块,被配置为:获取原始彩色图像和对应的原始深度图像;
第一深度神经网络,被配置为:基于所述原始彩色图像,获得第一深度图像;
第一深度神经网络,被配置为:基于所述原始深度图像,获得第二深度图像;
图像融合模块,被配置为:将第一深度图像和第二深度图像融合,获得最终深度图像;
其中,第一深度神经网络包括由级联的N层残差块构成的第一编码器网络和第一解码器网络,第二深度神经网络包括由级联的N层残差块构成的第二编码器网络和第二解码器网络,其中,N为大于1的整数;
其中,第二深度神经网络被配置为:基于第一解码器网络中的各层残差块输出的第一解码特征图像和第二解码器网络中的对应层残差块输出的第二解码特征图像,对第一解码特征图像和第二解码特征图像进行特征对齐,并将特征对齐处理后的第二解码特征图像作为后一模块的输入。
15.一种计算装置,包括:
处理器;
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-13中的任意一项所述的深度图像补全的方法。
16.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至13中的任一权利要求所述的深度图像补全的方法。
CN202210112535.2A 2022-01-29 2022-01-29 深度图像补全的方法和装置 Pending CN114519731A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210112535.2A CN114519731A (zh) 2022-01-29 2022-01-29 深度图像补全的方法和装置
KR1020220178638A KR20230117034A (ko) 2022-01-29 2022-12-19 깊이 이미지 완성 방법 및 장치
US18/103,281 US20230245282A1 (en) 2022-01-29 2023-01-30 Method and device for depth image completion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210112535.2A CN114519731A (zh) 2022-01-29 2022-01-29 深度图像补全的方法和装置

Publications (1)

Publication Number Publication Date
CN114519731A true CN114519731A (zh) 2022-05-20

Family

ID=81597723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210112535.2A Pending CN114519731A (zh) 2022-01-29 2022-01-29 深度图像补全的方法和装置

Country Status (2)

Country Link
KR (1) KR20230117034A (zh)
CN (1) CN114519731A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819639B (zh) * 2022-06-02 2023-10-21 鴻海精密工業股份有限公司 深度估計模型之訓練方法、裝置、電子設備及存儲介質

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819639B (zh) * 2022-06-02 2023-10-21 鴻海精密工業股份有限公司 深度估計模型之訓練方法、裝置、電子設備及存儲介質

Also Published As

Publication number Publication date
KR20230117034A (ko) 2023-08-07

Similar Documents

Publication Publication Date Title
CN112001914B (zh) 深度图像补全的方法和装置
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110443842B (zh) 基于视角融合的深度图预测方法
US11232286B2 (en) Method and apparatus for generating face rotation image
WO2021018163A1 (zh) 神经网络的搜索方法及装置
EP3816929B1 (en) Method and apparatus for restoring image
US20220067950A1 (en) Method and apparatus to complement depth image
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN116051740A (zh) 一种基于神经辐射场的室外无界场景三维重建方法及系统
US9697584B1 (en) Multi-stage image super-resolution with reference merging using personalized dictionaries
Ding et al. Real-time stereo vision system using adaptive weight cost aggregation approach
CN113962858A (zh) 一种多视角深度获取方法
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
WO2024061269A1 (zh) 一种三维重建方法及相关装置
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN113066018A (zh) 一种图像增强方法及相关装置
CN116630514A (zh) 图像处理方法、装置、计算机可读存储介质及电子设备
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN114519731A (zh) 深度图像补全的方法和装置
US20230245277A1 (en) Image restoration method and device
WO2023185693A1 (zh) 图像处理方法、相关装置和系统
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
Wang et al. Data-driven tight frame for multi-channel images and its application to joint color-depth image reconstruction
Ma et al. Learning across views for stereo image completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication