CN114140353B

CN114140353B - 一种基于通道注意力的Swin-Transformer图像去噪方法及系统

Info

Publication number: CN114140353B
Application number: CN202111414625.9A
Authority: CN
Inventors: 张莉; 代强; 赵雷; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-04-07
Anticipated expiration: 2041-11-25
Also published as: US20240193723A1; CN114140353A; WO2023092813A1

Abstract

本发明涉及一种基于通道注意力的Swin‑Transformer图像去噪方法及系统。本发明通过向训练优化后的去噪网络模型输入一张噪声图像，去噪网络模型中的浅层特征提取网络首先提取噪声图像的噪声、通道等浅层特征信息，然后将提取到的浅层特征信息输入到去噪网络模型中的深层特征提取网络用以获取到深层特征信息，之后将浅层特征信息和深层特征信息输入到去噪网络模型的重建网络进行特征融合，即可获得纯净图像，克服了现有技术中基于深度卷积神经网络的图像去噪方法易失去输入噪声图像细节且导致高计算内存和时间消耗的问题。

Description

一种基于通道注意力的Swin-Transformer图像去噪方法及系统

技术领域

本发明涉及图像处理技术领域，尤其是指一种基于通道注意力的Swin-Transformer图像去噪方法及系统。

背景技术

图像去噪是一项重要的底层计算机视觉任务，它在摄影、医学成像、生物学和其他许多领域都有广阔的发展前景。图像去噪的目的是将有噪声的图像恢复为干净的、无噪声的图像。近年来，由于深度学习在计算机视觉领域的巨大成功，卷积神经网络(convolutional neural network，CNN)已被应用于图像去噪任务，并取得了令人印象深刻的性能。目前，最先进的图像去噪方法大多是基于CNN的，并取得了令人满意的结果。比如，残差非局部注意力网络(Residual non-local attention networks，RIDNet)被提出用于解决真实图像的去噪问题。RIDNet是一个带有特征关注的单阶段去噪网络。然而，RIDNet缺乏对图像内容的适应性，总是导致去噪后的图像出现过度平滑的假象。基于注意力引导的去噪卷积神经网络(An attention-guided denoising convolutional neural network，ADNet)，主要包括一个稀疏块、一个特征增强块、一个注意力块和一个重建块用于图像去噪。多层级的小波去噪卷积神经网络(Multi-level wavelet convolutional neuralnetwork，MWCNN)，可以更好地权衡感受野大小和计算效率，显著地提升了图像去噪任务的有效性。

最近，Transformer在计算机视觉领域有很好的表现，其中的Swin Transformer显示出了巨大的应用前景，因为它整合了CNN和Transformer的优点。一方面，由于局部注意机制，它具有CNN处理大尺寸图像的优势，另一方面，它具有Transformer的优势，可以通过移位窗口方案建立长距离的依赖关系。虽然基于深度卷积神经网络的图像去噪方法在性能上有了明显的提高，但它们也存在一些局限性。比如，图像和卷积核之间的相互作用是与内容无关的，卷积对于长距离的依赖性建模并不有效。而且，在大多数基于卷积神经网络的去噪方法中，所有的信道特征都是平等处理的，没有根据其重要性进行调整。然而，有些噪声比其他噪声更重要，应该赋予它们更多的权重。此外，基于卷积神经网络的去噪方法总是导致过度平滑的假象，并失去输入噪声图像的许多细节，因为它们无法获得纹理和边缘。这些方法还导致了高计算内存和时间消耗，从而导致它们不能在实践中应用。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中基于深度卷积神经网络的图像去噪方法易失去输入噪声图像细节且导致高计算内存和时间消耗的问题。

为解决上述技术问题，本发明提供了一种基于通道注意力的Swin-Transformer图像去噪方法，包括如下步骤：

步骤S1：获取原始高清图片数据集，对原始高清图片数据集进行预处理，得到用于去噪网络模型训练的有噪图像和高清图像的训练数据集；

步骤S2：将有噪图像输入至去噪网络模型中的浅层特征提取网络中提取特征信息，得到浅层特征图；

步骤S3：将所述浅层特征图作为去噪网络模型中的深层特征提取网络的输入，进行特征提取后得到深层特征图，所述深层特征提取网络包括多个CARSTB模块和一个卷积层，其中，CARSTB模块包括一个残差块和若干个通道注意力Swin-Transformer层，通道注意力Swin-Transformer层通过在Swin-Transformer层中的每个MSA和MLP模块中分别加入通道注意力模块而得到；CARSTB模块对浅层特征图进行特征信息的提取并对提取的信息进行重要性区分后，通过卷积层后得到深层特征图；

步骤S4：将浅层特征图和深层特征图进行特征融合，得到重建图像；

步骤S5：利用损失函数约束重建图像与高清图像之间的差异，不断调整去噪网络模型的参数，直到去噪网络模型收敛，完成去噪网络模型的训练。

在本发明的一种实施方式中，步骤1中，所述对原始高清图像添加噪声并进行预处理，得到多对用于去噪网络模型的有噪图像和高清图像的训练数据集的方法为：对原始高清图像添加高斯噪声，生成含有噪图像和高清图像，将所有图像从RGB颜色空间转换到YCbCr颜色空间，仅保留图像YCbCr中的Y通道，并进一步对图像进行包括旋转、翻转、缩小的操作进行数据扩充。

在本发明的一种实施方式中，采用双三次插值法对数据集中的图像缩小为原来的0.5和0.7倍。

在本发明的一种实施方式中，步骤S2中，所述将有噪图像输入至去噪网络模型中的浅层特征提取网络中提取特征信息，得到浅层特征图的方法为：将有噪图像输入至一个3x3深度卷积层，得到浅层特征图。

在本发明的一种实施方式中，步骤S3中，所述深层特征提取网络中的一个卷积层为3x3卷积层。

在本发明的一种实施方式中，步骤S5中，所述损失函数为：

其中

表示重建图像I中的第i行第j列的像素值，I(i,j)表示高清图像I中的第i行第j列的像素值，M和N分别表示图像的宽度和高度，B代表输入数据集的批次大小，ε是Charbonnier惩罚系数。

在本发明的一种实施方式中，步骤S5后，还包括：对测试集中的有噪图像与对应的重建图像进行峰值信噪比指标的评估。

在本发明的一种实施方式中，所述峰值信噪比指标的评估公式为：

其中MSE表示均方误差，n代表图像的色彩深度。

在本发明的一种实施方式中，所述MSE为：

其中

表示重建图像I中的第i行第j列的像素值，I(i,j)表示高清图像I中的第i行第j列的像素值，M和N分别表示图像的宽度和高度。

本发明还提供一种基于通道注意力的Swin-Transformer图像去噪系统，包括：

数据准备模块，用于获取原始高清图片数据集，对原始高清图片数据集进行预处理，得到用于去噪网络模型训练的有噪图像和高清图像的训练数据集；

浅层特征提取模块，用于将有噪图像输入至去噪网络模型中的浅层特征提取网络中提取特征信息，得到浅层特征图；

深层特征提取模块，用于将所述浅层特征图作为去噪网络模型中的深层特征提取网络的输入，进行特征提取后得到深层特征图，所述深层特征提取网络包括多个CARSTB模块和一个卷积层，其中，CARSTB模块包括一个残差块和若干个通道注意力Swin-Transformer层，通道注意力Swin-Transformer层通过在Swin-Transformer层中的每个MSA和MLP模块中分别加入通道注意力模块而得到；CARSTB模块对浅层特征图进行特征信息的提取并对提取的信息进行重要性区分后，通过卷积层后得到深层特征图；

图像重建模块，用于将浅层特征图和深层特征图进行特征融合，得到重建图像；

训练模块，用于利用损失函数约束重建图像与高清图像之间的差异，不断调整去噪网络模型的参数，直到去噪网络模型收敛，完成去噪网络模型的训练。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的一种基于通道注意力的Swin-Transformer图像去噪方法及系统，通过向训练优化后的去噪网络模型输入一张噪声图像，去噪网络模型中的浅层特征提取网络首先提取噪声图像的噪声、通道等浅层特征信息，然后将提取到的浅层特征信息输入到去噪网络模型中的深层特征提取网络用以获取到深层特征信息，之后将浅层特征信息和深层特征信息输入到去噪网络模型的重建网络进行特征融合，即可获得纯净图像，克服了现有技术中基于深度卷积神经网络的图像去噪方法易失去输入噪声图像细节且导致高计算内存和时间消耗的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明的基于通道注意力残差Swin-Transformer去噪网络模型的结构图。

图2是本发明的通道注意力残差Swin-Transformer模块结构图。

图3是本发明的通道注意力Swin-Transformer层结构图。

图4是本发明的Swin-Transformer层结构图。

图5为通道注意力机制图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

本实施例提供一种基于通道注意力的Swin-Transformer图像去噪方法，包括如下步骤：

步骤S1：获取原始高清图片数据集，对原始高清图片数据集进行预处理，得到多对用于去噪网络模型的有噪图像和高清图像的训练数据集。

具体地，本发明在图像去噪训练数据集DIV2K的800张训练图像上进行训练，并在图像去噪公开的基准数据集BSD68和Set12进行了测试。DIV2K是一个具有高质量(2K分辨率)的图片数据集，由800张训练图像、100张验证图像和100张测试图像构成。Set12有12张不同的场景噪声图像，BSD68有68张不同的自然场景的噪声图像。

对DIV2K中的800张高清图像添加高斯噪声，生成800对noise/clear图像作为原始训练集D。将所有图片从RGB(红(R)、绿(G)、蓝(B))颜色空间转换到YCbCr(Y是指亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量)颜色空间，仅保留图像YCbCr中的Y通道并将其输入到模型中。此外，实验还对图像进行了旋转和翻转，并且采用双三次插值法对数据集中的图像缩小为原来的0.5和0.7以进行数据扩充，最终得到一个新的大规模训练数据集D′。本次试验将训练图像预先裁剪为128x128大小，并将其输入到训练网络模型中，网络模型包括浅层特征提取网络、深层特征提取网络和图像重建网络。

步骤S2：将有噪图像输入至去噪网络模型中的浅层特征提取网络中提取特征信息，得到浅层特征图。

具体地，在浅层特征提取网络上，输入的有噪图像首先经过浅层特征提取网络中的一个3x3深度卷积层，以此来初步提取输入有噪图像的特征信息，所述特征信息包括图像中的噪声信息，通道信息等。

步骤S3：将所述浅层特征图作为去噪网络模型中的深层特征提取网络的输入，进行特征提取后得到深层特征图。

具体地，浅层特征提取网络的输出(即上述特征信息)是深层特征提取网络的输入。在深层特征提取网络，有多个CARSTB模块(通道注意力残差Swin-Transformer模块，Channel Attention residual Swin Transformer blocks)和一个3x3卷积层。

单个的CARSTB模块如图2所示，包括一个残差块和若干个通道注意力Swin-Transformer层(CA-STL)。深层特征提取网络处理图像数据的过程包括：首先通过CARSTB模块对从浅层特征提取模块输入的浅层特征图进行特征信息的提取，之后使用通道注意力机制对提取的信息进行重要性区分，最后将通道数降为输入通道数大小，重复上述步骤若干次，通过卷积层后得到深层特征信息。

其中，通道注意力Swin-Transformer层如图3所示，通道注意力Swin-Transformer层是基于Swin-Transformer中的Swin-Transformer层修改而来的，在Swin-Transformer层中的每个MSA(多头注意力，Multi-head Attention)和MLP(多层感知机，Multi-layerperceptron)模块中分别加入通道注意力模块(Channel Attention，CA)用以构建通道注意力Swin-Transformer层。

Swin-Transformer层如图4所示，Swin-Transformer层由一个基于移位窗的多头注意(MSA)模块和是一个多层感知机(MLP)模块组成，在二者之间使用高斯误差线性单元(GELU)作为激活函数。此外，在每个MSA模块和每个MLP之前，使用一个LayerNorm(LN)层进行归一化。

通道注意力机制通过自学习机制增加去噪网络中的重要的图像通道而压缩对网络没用的图像通道，这有效减少了网络参数，使得网络更容易被训练。如图5所示，图像在经过第一个卷积层后，特征图被压缩到全局池化层(Global Pooling)中，之后一个1x1卷积层(Conv)首先将通道数压缩到原始特征图的1/16，另一个1x1卷积层(Conv)将通道数扩增到原始特征图的通道数相同，两个1x1卷积层(Conv)中还有一个ReLU的激活层，这两个1x1卷积层会产生一个bottleneck结构。最后，使用Sigmoid激活函数对特征图进行规范化并产生输出，该输出用于对原始输出进行加权以形成自学习的通道注意力机制。

步骤S4：将从深层特征提取网络提取到的深层特征图和从浅层特征提取网络提取到的浅层特征图输入到图像重建网络中进行特征融合，然后得到干净无噪声的重建图像。

本发明利用Charbonnier损失函数约束去噪后的图像与原始高清无噪声图像之间的差异，不断调整模型的参数，直到模型收敛，完成模型的训练。训练过程如下：先初始化网络的权重，采用新训练集D′对该网络进行训练，每批次训练取B，使得下面的损失函数最小：

其中

表示重建图像I中的第i行第j列的像素值，I(i,j)表示高清图像I中的第i行第j列的像素值，M和N分别表示图像的宽度和高度，B代表输入数据集的批次大小，在训练时设为100，ε是Charbonnier惩罚系数，在本实例中，ε＝0.001。

本发明使用DIV2K验证集中的10张图像作为验证集，根据验证结果对模型训练模块中训练后得到的模型权重进行微调，不断重复这一过程，直到优化出最优的去噪网络模型。

综上所述，本发明通过向训练优化后的去噪网络模型输入一张噪声图像X，去噪网络模型中的浅层特征提取网络首先提取噪声图像的噪声、通道等浅层特征信息，然后将提取到的浅层特征信息输入到去噪网络模型中的深层特征提取网络用以获取到深层特征信息，之后将浅层特征信息和深层特征信息输入到去噪网络模型的重建网络进行特征融合，即可获得其clear图像X_clear。克服了现有技术中基于深度卷积神经网络的图像去噪方法易失去输入噪声图像细节且导致高计算内存和时间消耗的问题。

本发明的效果可以通过如下实验验证：

在80张测试图像上，重复步骤三的图像重建，可以获得80张clear图像。对测试的噪声图像与对应的clear图像进行峰值信噪比指标的评估，即

其中n代表图像的色彩深度,本实验中，n＝8；

与其他已有方法在相同的数据集上进行对比，实验结果如表1和表2所示。从表1和表2可以发现，本发明的峰值信噪比取得令人满意的结果。

表1.在Set12数据集上各方法的性能对比

表2.在BSD68数据集上各方法的性能对比

实施例二

基于同一发明构思，本实施例提供了一种基于通道注意力的Swin-Transformer图像去噪系统，其解决问题的原理与所述xx方法类似，重复之处不再赘述。

本实施例提供了一种基于通道注意力的Swin-Transformer图像去噪系统，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，包括如下步骤：

步骤S3：将所述浅层特征图作为去噪网络模型中的深层特征提取网络的输入，进行特征提取后得到深层特征图，所述深层特征提取网络包括多个CARSTB模块和一个卷积层，其中，CARSTB模块包括一个残差块和若干个通道注意力Swin-Transformer层，通道注意力Swin-Transformer层通过在Swin-Transformer层中的每个MSA和MLP模块中分别加入通道注意力模块而得到；CARSTB模块对浅层特征图进行特征信息的提取并对提取的信息进行重要性区分后，通过卷积层后得到深层特征图；其中，所述通道注意力模块形成的方法为：浅层特征图在经过一个卷积层后得到特征图，特征图被压缩到全局池化层中，之后第一1x1卷积层将特征图通道数压缩到浅层特征图的1/16，第二1x1卷积层将特征图通道数扩增到浅层特征图的通道数相同，所述第一1x1卷积层和第二1x1卷积层中包括ReLU的激活层；最后，使用Sigmoid激活函数对特征图进行规范化并产生输出，并将产生的输出和浅层特征图进行加权；

2.根据权利要求1所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，步骤S1中，所述对原始高清图片数据集进行预处理，得到用于去噪网络模型训练的有噪图像和高清图像的训练数据集的方法为：对原始高清图片添加高斯噪声，生成有噪图像和高清图像，将所有图像从RGB颜色空间转换到YCbCr颜色空间，仅保留图像YCbCr中的Y通道，并进一步对图像进行包括旋转、翻转、缩小的操作进行数据扩充。

3.根据权利要求2所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，采用双三次插值法对数据集中的图像缩小为原来的0.5和0.7倍。

4.根据权利要求1所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，步骤S2中，所述将有噪图像输入至去噪网络模型中的浅层特征提取网络中提取特征信息，得到浅层特征图的方法为：将有噪图像输入至一个3x3深度卷积层，得到浅层特征图。

5.根据权利要求1所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，步骤S3中，所述深层特征提取网络中的一个卷积层为3x3卷积层。

6.根据权利要求1所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，步骤S5中，所述损失函数为：

其中

7.根据权利要求1所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，步骤S5后，还包括：对测试集中的有噪图像与对应的重建图像进行峰值信噪比指标的评估。

8.根据权利要求7所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，所述峰值信噪比指标的评估公式为：

其中MSE表示均方误差，n代表图像的色彩深度。

9.根据权利要求8所述的一种基于通道注意力的Swin-Transformer图像去噪方法，其特征在于，所述MSE为：

其中

10.一种基于通道注意力的Swin-Transformer图像去噪系统，其特征在于，包括：

深层特征提取模块，用于将所述浅层特征图作为去噪网络模型中的深层特征提取网络的输入，进行特征提取后得到深层特征图，所述深层特征提取网络包括多个CARSTB模块和一个卷积层，其中，CARSTB模块包括一个残差块和若干个通道注意力Swin-Transformer层，通道注意力Swin-Transformer层通过在Swin-Transformer层中的每个MSA和MLP模块中分别加入通道注意力模块而得到；CARSTB模块对浅层特征图进行特征信息的提取并对提取的信息进行重要性区分后，通过卷积层后得到深层特征图；其中，所述通道注意力模块形成的方法为：浅层特征图在经过一个卷积层后得到特征图，特征图被压缩到全局池化层中，之后第一1x1卷积层将特征图通道数压缩到浅层特征图的1/16，第二1x1卷积层将特征图通道数扩增到浅层特征图的通道数相同，所述第一1x1卷积层和第二1x1卷积层中包括ReLU的激活层；最后，使用Sigmoid激活函数对特征图进行规范化并产生输出，并将产生的输出和浅层特征图进行加权；