CN113362241B

CN113362241B - 一种结合高低频分解和两级融合策略的深度图去噪方法

Info

Publication number: CN113362241B
Application number: CN202110619656.1A
Authority: CN
Inventors: 赵利军; 王可; 张晋京; 任康; 王昊; 史炳贤; 王安红
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-04-05
Anticipated expiration: 2041-06-03
Also published as: CN113362241A

Abstract

本发明一种结合高低频分解和两级融合策略的深度图去噪方法，属于图像质量增强领域，解决了带有噪声的深度图增强问题，经过增强后的深度图有助于提升计算机视觉任务的性能；首先将含噪声的深度图分解成低频和高频分量两部分，接下来，将深度图的低频和高频分量分别输入到低频特征提取自编码器网络和高频特征提取自编码器网络，并且这两个网络之间使用互补的特征加权融合机制进行多级特征融合和反馈，最后对高低频特征提取自编码器网络输出的高低频增强特征，使用高低频合并重建模块进行残差预测，再将其与输入图相融合得到高质量的深度图，实验结果表明，在PSNR、RMSE、SSIM和网络参数总量方面，经过本发明方法去噪的深度图的精度高于ARCNN、FastARCNN和DnCNN方法。

Description

一种结合高低频分解和两级融合策略的深度图去噪方法

技术领域

本发明属于图像质量增强领域，具体涉及的是一种结合高低频分解和两级融合策略的深度图去噪方法。

背景技术

近年来，在计算机视觉任务的各种实际应用中，场景的深度信息发挥着极其重要的作用。很多研究工作已经表明深度信息能够显著地提升各种任务的性能，如汽车车牌号的识别和检测、面向自动驾驶的障碍物识别、自然场景的三维重建等。现如今，消费级别的深度相机如ToF、Kinect等能够很容易地获得深度图。但是，这些深度图的分辨率远远小于对应彩色图的分辨率，往往包含了很多的噪声像素点和无效的深度值，从而导致拍摄到的深度图质量不能满足实际应用需求。为了解决该问题，目前有很多的学者致力于研究深度图去噪方法。

图像的去噪方法大致可以分为两类：传统的图像去噪方法和基于深度学习的图像去噪方法。早期的图像去噪方法往往只利用图像的局部空间相关性来实现图像的加权求和滤波。这些方法往往无法很好地恢复图像的细节信息。例如，钟等人提出了一种改进的非局部均值滤波方法。在图像噪声去除噪声和纹理细节保持方面，该方法都取得了比较好的结果。虽然双边滤波方法能够一定程度保留图像边缘信息同时过滤掉低频分量的噪声，但是对于不同的噪声图像很难选择滤波窗口的大小以及权重参数。此外，相较于其他滤波方法而言，双边滤波方法往往花费很长的时间来处理图像很难满足我们的需求。相比于双边滤波方法，三边滤波方法不仅使用了深度图本身的信息而且使用了对应彩色图的像素值之间的相关性，该方法解决了双边滤波器易产生边缘伪影的问题。

不同于这些滤波方法，变换域去噪是往往采用小波变换或稀疏表示等进行预处理，然后利用变换域的特性或表示的冗余性来做进一步处理。例如，Hu等人提出了一种联合局部平滑性和非局部自相似性的图像去噪方法。具体来说，首先对深度图中的相似块进行聚类，再对这些相似块进行加权平均，并使用图对均值块的相邻像素关系进行描述；然后，将相似的块变换到相同的图变换域；最后，使用迭代阈值法来增强组间的稀疏性。Elad等人提出了一种基于字典学习的图像去噪方法，该方法使用过完备字典对原图和降质图进行稀疏表示来实现图像去噪。Habib等人提出了基于小波变换的图像去噪方法，该方法将无偏风险估计和线性扩张阈值理论相结合来实现快速的图像去噪。虽然这些传统的图像去噪方法能够提高深度图的准确度，但它们往往很难通过GPU和TPU等硬件进行加速，这将极大地限制了它们在计算机视觉任务上的广泛应用。

不同于传统的图像去噪方法，基于深度学习的图像去噪方法取得了飞跃式的发展。它的优势在于能够实现实时的图像去噪，同时能更好地保留图像的细节纹理信息。例如，Viren Jain等人提出一种适合自然图像去噪的神经网络模型，该神经网络模型能够降低计算的复杂度。Yu等人提出了一种面向压缩伪影去除的卷积神经网络方法(ARCNN)，该方法能够处理各种压缩伪影如：块伪像、振铃效果和模糊。在该方法的基础上，这些研究者还设计了一种新的卷积神经网络结构，并把它命名为FastARCNN。该结构的特点是在第一个层使用下采样卷积来降低模型的复杂度，同时在最后一层使用上采样卷积来将特征图的尺寸恢复到原始分辨率。与ARCNN相比，FastARCNN的速度提升了7.5倍，同时仍然保持良好的性能。Zhang等人提出了一种深层的图像去噪网络(DnCNN)，该方法采用了残差学习和批归一化技术来加速神经网络的训练并提升去噪的性能，该方法适用于各种图像去噪任务。Sterzentsenko等人提出了一种自监督的全卷积去噪自编码器方法，该方法解决了深度图训练数据不足的问题。Laina等人提出了一种全卷积残差网络去噪方法，该方法充分地利用了彩色图像和深度图之间的模糊映射关系对图像去噪进行建模来提高图像的去噪性能。Li等人提出了一种基于卷积神经网络的联合滤波方法，该方法能够将彩色图和深度图的一致性结构信息自适应地迁移到深度图，从而解决了图像联合滤波器的纹理拷贝现象。Xin等人提出了一种轻量化的卷积神经网络方法，该方法采用高维投影、缺失数据填补和图像重建技术来实现图像去噪。虽然这些深度学习图像去噪方法的性能远远超过传统的图像去噪方法，但是这些深度学习去噪方法的模型复杂度往往过高，使得其无法应用于低配置的边缘设备。

发明内容

本发明能够使带有噪声的深度图经过分解、融合和重建生成高质量的深度图。本发明所提网络包括基于高斯滤波的高低频分解模块、基于多尺度两级融合策略的特征提取模块、高低频合并重建模块，使用这些模块对输入的带有噪声的深度图进行了分解、融合和重建，并定义损失函数对所提网络给予更多的约束，使得训练后的网络可以很好地处理带有噪声的深度图。

为了实现上述目的，本发明通过以下技术方案予以实现。

一种结合高低频分解和两级融合策略的深度图去噪方法，包括以下步骤：

步骤1)训练数据构建

在网络训练前，选择三个数据集来构建本发明的训练数据集。具体来说，首先第一个是MPI Sintel深度数据集，它包括58个单深度图，第二个是包含34个单深度图的Middlebury数据集，其中包括2001年数据集的6张图像和2006年数据集的10张图像，以及2014年数据集的18张图像，第三个数据集是合成训练数据，图像的总数量为62，采用已经填补空洞的MiddleburyRGBD数据集C来评估不同深度图去噪方法的性能；

步骤2)基于高斯滤波的高低频分解模块

使用基于高斯滤波的高低频分解模块将含有噪声的深度图分成两个部分：深度图的低频分量X_low和深度图的高频分量X_high＝X-X_low，并将它们作为基于多尺度两级融合策略的特征提取模块中两个支路的输入。这两个支路分别是低频特征提取自编码器网络和高频特征提取自编码器网络；

步骤3)基于多尺度两级融合策略的特征提取模块

在基于多尺度两级融合策略的特征提取模块中，低频特征提取自编码器网络的下采样支路包括四个阶段，第一阶段使用一个序列化的操作CSC去提取深度图低频分量的低级特征，CSC包括卷积层、Swish激活函数和卷积层，然后，利用一个残差卷积ResConv进一步提取深度图低频分量的特征以获得

在第二阶段中，首先，使用最大池化层Avgpool对

进行下采样来降低特征图的分辨率，其次，使用一个序列化地操作包括卷积层、Swish激活函数和卷积层，去提取深度图低频分量的低级特征，然后，利用一个残差卷积进一步提取深度图低频分量的特征以获得

按照第二阶段相同操作，在下采样支路中低频特征提取自编码器网络的第三阶段和第四阶段的输出

和

在低频特征提取自编码器网络的上采样支路中，第一阶段首先使用一个序列化的操作TCS包括一个转置卷积层、一个卷积层和一个Swish激活函数对

进行上采样来提升特征图的分辨率，其次，通过跳跃连接将上采样之后的

与下采样支路中第三阶段获得的

合并，即将这些特征图沿着通道维度进行串联，该操作可以表示为Concat，然后，采用一个残差卷积ResConv进一步提取特征，接下来，将残差卷积输出的特征输入到一个序列化的模块CSC，该模块含有两个卷积层和一个激活函数Swish，它的输出为

以此类推，在低频特征提取自编码器网络的上采样支路中，第二阶段输入为

合并的是下采样支路中第二阶段获得的

最终输出为

第三阶段输入为

合并的是下采样支路中第二阶段获得的

最终输出为

基于多尺度两级融合策略的特征提取模块的高频特征提取自编码器网络拓扑结构与低频特征提取自编码器网络结构一样，它们的差异之处在于

替换成

步骤3)多尺度两级融合策略

为了充分地利用高频分量和低频分量的互补特性，提出了一种互补的特征加权融合机制，并且在该机制下构建了一种多尺度两级融合策略，最后，利用高频和低频增强特征进行残差预测，再将其与输入图相融合得到高质量的深度图。具体而言，在高频和低频特征提取自编码器网络的下采样支路中，第一级融合通过该机制将高频的不同尺度特征和低频的不同尺度特征进行聚合，得到低级的高低频互补增强特征，在下采样支路第一阶段的尾端，将获得的

和

进行融合，以获得融合特征图F¹，以此类推，在下采样支路第二阶段的尾端、第三阶段的尾端和第四阶段的尾端，将深度图高频分量特征和低频分量特征进行加权融合，以获得融合特征图F²、F³和F⁴；

同样，在低频特征提取自编码器网络上采样支路中，第二级融合通过采用互补的特征加权融合机制将高级的低频特征与高低频互补增强特征进行合并，在

输入到上采样支路第一阶段之前将

和F⁴进行融合，以获得融合特征图

接下来，将

和

相加融合获得低频特征提取自编码器网络上采样支路第一阶段的输入

以此类推，在低频特征提取自编码器网络的上采样支路中可得到

和

高频特征提取自编码器网络第二级融合拓扑结构和低频特征提取自编码器网络第二级融合拓扑结构一样，它们的差异之处在于

替换成

步骤5)高低频合并重建模块

在高低频合并重建模块中，首先将低频特征提取自编码器网络和高频特征提取自编码器网络输出的高低频增强特征相加融合，其次，采用一个残差卷积和一个输出卷积层来重建残差图像，最后，将输入图与重建的残差图像相加融合，即可获得最终的输出图Y；

步骤6)损失函数

一般来说，图像去噪任务往往使用均方误差(MSE)损失函数对图像去噪网络进行约束。然而在PSNR和SSIM度量方面，用L₁范数约束的损失函数训练的图像去噪网络比L₂范数约束的损失函数获得更好的性能，为此，本发明提出的结合图像高低频分解和多尺度两级融合策略的深度图去噪方法采用L₁范数约束的损失函数。采用L₁范数约束的损失函数对图像去噪网络进行约束。

进一步的，步骤1)采用深度学习框架PyTorch来实现所提的方法，选择Adam优化器训练所提出的网络模型，并且将其学习率设置为2e-4，优化器的参数beta1等于0.9，beta2等于0.999，优化器更新一次所使用图像的总数为16张，每张图像的大小为128*128，当训练完成后，采用经过空洞填充的Middlebury RGBD数据集C来评估所提方法的性能。

进一步的，所述步骤3)基于多尺度两级融合策略的特征提取模块对输入的深度图高频分量和低频分量进行特征的多尺度特征提取，具体公式如下：

a.低频特征提取自编码器网络下采样支路

b.高频特征提取自编码器网络下采样支路

c.低频特征提取自编码器网络上采样支路

d.高频特征提取自编码器网络上采样支路

进一步的，所述步骤4)中采用互补的特征加权融合机制的多尺度两级融合策略，来实现深度图高频和低频分量的互补融合，具体融合公式如下：

a.第一级融合

其中，X_c(i,j)代表X在第c个通道位置(i，j)上的特征值，H_p是全局平均池化操作，该操作将特征图的尺寸从C×H×W变为C×1×1，为了增加非线性表达能力，采用一个序列化的操作：卷积层、Swish激活层、卷积层和Sigmoid层，这里依次使用σ、δ和R_Fuse表示Sigmoid函数、Swish函数和加权融合过程，最后，我们沿着通道维度使用权重ω对输入

和

进行加权融合，可获得F¹，以此类推，可获得到低级的高低频互补增强特征F²、F³和F⁴；

b.第二级融合

通过采用互补的特征加权融合机制将低频特征与高低频互补增强特征进行合并，得到特征图

接下来，将

和

和

替换成

进一步的，所述步骤6)将输入的带有噪声的深度图所对应的标签图与本方法所预测的深度图进行比较，得到所提方法的深度图重建损失，具体公式如下

其中||·||₁表示L₁范数。Y_i表示所提方法的去噪图像的第i个像素的预测值，而X_i表示该像素所对应的真实值。

与现有技术相比，本发明提出了结合图像高低频分解和多尺度两级融合策略的深度图去噪方法，它是由三个部分组成：基于高斯滤波的高低频分解模块、基于多尺度两级融合策略的特征提取模块、高低频合并重建模块。该网络能够很好地实现图像的分解、融合和重建，并且能够得到令人满意的高质量深度图。

附图说明

图1为本发明的结合图像高低频分解和多尺度两级融合策略的深度图去噪方法示意图(使用不同的虚线来区分不同的数据流)。

图2为在本发明中互补的特征加权融合机制的示意图。

图3为本发明方法在数据集C上测试时，对加入σ＝25高斯白噪声的深度图Cones和经过四种去噪方法的视觉质量对比图，依次为噪声图、ARCNN方法、DnCNN方法、Fast ARCNN方法和本文方法

图4为本发明方法在数据集C上测试时，对加入σ＝25高斯白噪声的深度图Tsukuba和经过四种去噪方法的视觉质量对比图，依次为噪声图、ARCNN方法、DnCNN方法、FastARCNN方法和本文方法

具体实施方式

下面结合附图和实施例对本发明作进一步的详细描述。为了更好的理解本发明的图像增强方法，先对本发明网络结构做详细介绍。

如图1所示，所提结合图像高低频分解和多尺度两级融合策略的深度图去噪方法总共有三个模块：基于高斯滤波的高低频分解模块、基于多尺度两级融合策略的特征提取模块、高低频合并重建模块。所提方法其实现步骤如下所示：

步骤1)训练数据构建

在所提的网络训练前，首先选择三个数据集构建训练数据集。然后将这些数据集依次通过一个高斯滤波器，实现对输入图像的预处理(如图1所示)。采用已经填补空洞的Middlebury RGBD数据集C来评估不同深度图去噪方法的性能。

步骤2)基于高斯滤波的高低频分解模块

使用基于高斯滤波的高低频分解模块将含有噪声的深度图分成两个部分：深度图的低频分量X_low和深度图的高频分量X_high＝X-X_low，并将它们作为基于多尺度两级融合策略的特征提取模块中两个支路的输入，即低频特征提取自编码器网络和高频特征提取自编码器网络；

步骤3)基于多尺度两级融合策略的特征提取模块

如图1所示，基于多尺度两级融合策略的特征提取模块的右半部分是高频特征提取自编码器网络，基于多尺度两级融合策略的特征提取模块的左半部分是低频特征提取自编码器网络。下面将着重介绍基于多尺度两级融合策略的特征提取模块。在基于多尺度两级融合策略的特征提取模块中，低频特征提取自编码器网络的下采样支路包括四个阶段，第一阶段使用一个序列化的操作CSC去提取深度图低频分量的低级特征，CSC包括卷积层、Swish激活函数和卷积层，然后，利用一个残差卷积ResConv进一步提取深度图低频分量的特征以获得

在第二阶段中，首先，使用最大池化层Avgpool对

和

与下采样支路中第三阶段获得的

合并的是下采样支路中第二阶段获得的

最终输出为

第三阶段输入为

合并的是下采样支路中第二阶段获得的

最终输出为

替换成

步骤3)多尺度两级融合策略

如图2所示，为了充分地利用高频分量和低频分量的互补特性，提出了一种互补的特征加权融合机制，并且在该机制下构建了一种多尺度两级融合策略。最后，利用高频和低频增强特征进行残差预测，再将其与输入图相融合得到高质量的深度图。具体而言，在高频和低频特征提取自编码器网络的下采样支路中，第一级融合通过该机制将高频的不同尺度特征和低频的不同尺度特征进行聚合，得到低级的高低频互补增强特征，在下采样支路第一阶段的尾端，将获得的

和

同样地，在低频特征提取自编码器网络上采样支路中，第二级融合通过采用互补的特征加权融合机制将高级的低频特征与高低频互补增强特征进行合并，在

输入到上采样支路第一阶段之前将

和F⁴进行融合，以获得融合特征图

接下来，将

和

和

替换成

步骤5)高低频合并重建模块

步骤6)损失函数

一般来说，图像去噪任务往往使用均方误差(MSE)损失函数对图像去噪网络进行约束。然而在PSNR和SSIM度量方面，用L₁范数约束的损失函数训练的图像去噪网络比L₂范数约束的损失函数获得更好的性能。使用带有噪声的深度图所对应的标签图与本发明提出的结合图像高低频分解和多尺度两级融合策略的深度图去噪方法所增强的深度图来计算深度图的重建损失。

结合图像高低频分解和多尺度两级融合策略的深度图去噪网络的训练过程如下：

a、网络训练参数配置

在训练网络时，选择Adam优化器训练所提出的网络模型，并且将其学习率设置为2e-4。本发明采用深度学习框架PyTorch来实现所提的方法，选用Adam优化器来训练我们所提出的网络模型，优化器的参数beta1等于0.9，beta2等于0.999，网络参数更新的学习率为2e-4。图像批大小为16，每张图像的大小为128*128。

b、网络训练中间环节

在网络训练过程中，对基于高斯滤波的高低频分解模块、基于多尺度两级融合策略的特征提取模块和高低频合并重建模块输出的结果进行记录分析，不难发现网络对输入原图的训练效果不断提高。如图3和图4展示了带有噪声的深度图通过本发明的网络后的输出结果，AWGN噪声方差σ的取值为10、15、20、25和30。

结合图像高低频分解和多尺度两级融合策略的深度图去噪方法的测试

a、网络测试结果的视觉质量对比

为了验证本专利方法的有效性，对本发明提出的结合图像高低频分解和多尺度两级融合策略的深度图去噪方法与DnCNN、ARCNN和FastARCNN进行了比较。我们选择了该数据集的深度图Cones和Tsukuba来比较各个方法在图像细节方面的处理效果。图3和图4展示了在两个深度图像上噪声图和四种去噪算法处理后深度图像的视觉对比图。从这两个图中可以明显看出，利用本发明的方法增强后的深度图边缘更加清晰，表面更加光滑。本专利的去噪效果远远超其他的三种深度图去噪方法，进一步验证了本专利所提出方法的有效性。

b、网络测试结果的客观质量对比

为了客观地描述去噪网络对带有噪声深度图的增强效果，选用了图像质量的客观评价指标PSNR、RMSE和SSIM以及网络总参数量来评估这些方法，并对深度图的质量做定量分析。PSNR表示图像峰值信噪比，它是评价算法去噪性能的主要指标，数值越大表示失真越小。RMSE是用来衡量观测值与真实值之间的偏差，通常将其用作深度模型预测结果衡量的指标，数值越小表示越接近真实值。SSIM表示结构相似比，数值越接近1表示去噪方法的性能越好。采用已经填补空洞的Middlebury RGBD数据集C来评估不同深度图去噪方法的性能。在不同的噪声方差下，表1列出了未去噪深度图和四种去噪方法PSNR、RMSE和SSIM的客观质量结果，而表2对比了四种去噪方法的总参数量。经过不同方法的对比可知：本发明方法得到了令人满意的结果，不仅网络总参数量远小于其他三种最新方法，而且在PSNR指标上比DnCNN上提升1.02dB，比ARCNN提升1.44dB，比FastARCNN上提升1.96dB。在RMSE和SSIM两个指标上也都实现了不同大小的增益。这些实验结果展示了本专利的方法在深度图去噪任务上具有明显的优势。

表一

表二

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种结合高低频分解和两级融合策略的深度图去噪方法，其特征在于：包括以下步骤：

步骤1)训练数据构建

步骤2)基于高斯滤波的高低频分解模块

步骤3)基于多尺度两级融合策略的特征提取模块

在第二阶段中，首先，使用最大池化层Avgpool对

和

与下采样支路中第三阶段获得的

合并的是下采样支路中第二阶段获得的

最终输出为

第三阶段输入为

合并的是下采样支路中第二阶段获得的

最终输出为

替换成

步骤4 )多尺度两级融合策略

在高频和低频特征提取自编码器网络的下采样支路中，第一级融合通过互补的特征加权融合机制将高频的不同尺度特征和低频的不同尺度特征进行聚合，得到低级的高低频互补增强特征，在下采样支路第一阶段的尾端，将获得的

和

输入到上采样支路第一阶段之前将

和F⁴进行融合，以获得融合特征图

接下来，将

和

和

替换成

步骤5)高低频合并重建模块

在高低频合并重建模块中，首先将低频特征提取自编码器网络和高频特征提取自编码器网络输出的高低频增强特征相加融合，其次，采用一个残差卷积和一个输出卷积层重建残差图像，最后，将输入图与重建的残差图像相加融合，即可获得最终的输出图Y；

步骤6)损失函数

采用L₁范数约束的损失函数对图像去噪网络进行约束。

2.根据权利要求1所述的一种结合高低频分解和两级融合策略的深度图去噪方法，其特征在于：步骤1)采用深度学习框架PyTorch来实现所提的方法，选择Adam优化器训练所提出的网络模型，并且将其学习率设置为2e-4，优化器的参数beta1等于0.9，beta2等于0.999，优化器更新一次所使用图像的总数为16张，每张图像的大小为128*128，当训练完成后，采用经过空洞填充的Middlebury RGBD数据集C来评估所提方法的性能。

3.根据权利要求1所述的一种结合高低频分解和两级融合策略的深度图去噪方法，其特征在于：所述步骤3)基于多尺度两级融合策略的特征提取模块对输入的深度图高频分量和低频分量进行特征的多尺度特征提取，具体公式如下：

a.低频特征提取自编码器网络下采样支路