CN113808032B

CN113808032B - 多阶段渐进式的图像去噪算法

Info

Publication number: CN113808032B
Application number: CN202110892066.6A
Authority: CN
Inventors: 刘美琴; 白羽; 林春雨; 赵耀
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-12-15
Anticipated expiration: 2041-08-04
Also published as: CN113808032A

Abstract

本发明为一种多阶段渐进式的图像去噪算法，构建多阶段渐进式的去噪网络；每个阶段开始前使用卷积层和CAB模块提取含噪图像的浅层特征；第一阶段的浅层特征经过级联的CAB处理得到局部空间特征，经过U‑Net网络处理得到上下文语义信息；采用特征融合模块对局部空间特征和语义信息进行融合，得到第一阶段融合后的特征；第一阶段融合后的特征与第二阶段的浅层特征进行相加，相加后的特征经过级联的CAB处理得到局部空间特征，经过U‑Net网络处理得到语义信息；采用特征融合模块对局部空间特征和上下文语义信息进行融合，得到第二阶段融合后的特征；重复上述操作，得到第n阶段融合后的特征，然后经过卷积层处理后得到清晰图像。

Description

多阶段渐进式的图像去噪算法

技术领域

本发明涉及图像去噪技术领域，具体涉及一种多阶段渐进式的图像去噪算法。

背景技术

数字图像在获取、处理和传输阶段，受到采集设备性能的限制、信道宽度的影响，会不可避免地引入随机信号的干扰而产生不同程度的图像噪声，极大地降低了图像的视觉质量和计算机视觉任务的性能。因此，如何有效去除图像噪声是计算机视觉领域的热点研究问题之一。

传统的图像去噪方法主要分为基于稀疏表示的方法和基于自相似性的滤波方法。K-SVD是一种经典的基于稀疏表示的图像去噪方法，其采用过完备字典将图像块编码为该字典的稀疏线性组合，并利用噪声和信息的不同稀疏表示实现噪声分离，取得了良好的去噪效果。然而，字典学习是大规模的求解非凸问题的过程，计算复杂度高。文献：Ravishankar S,BreslerY.LearningSparsifyingTransforms[J].IEEE Transactions onSignal Processing,2013,61(5):1072-1086使用变换矩阵将图像信号近似稀疏化，大大减少了字典学习的计算量。基于图像自相似度的图像去噪算法充分利用了图像相邻区域的相似性，在去噪的同时保留了图像的纹理细节。其中，NLM和BM3D取得了突出的图像保真度效果。然而，传统的图像去噪方法大多是在已知噪声分布特性(如加性高斯白噪声)的前提下去除噪声，相对而言真实环境下的噪声复杂度高，其未必服从某一特定的分布，因此传统算法对图像真实噪声的去噪能力非常有限。

随着深度卷积网络技术的兴起，基于学习的图像去噪算法发展迅速。Jain和Seung首次提出了利用CNN去噪，证明了CNN的表示能力优于马尔科夫随机场(Markov RandomField,MRF)模型。Zhang等人将残差学习和批量标准化应用到前馈卷积神经网络当中，加速了网络训练并减轻了内部协变量位移的问题。考虑到深度网络模型长程依赖问题，Tai等人提出了一种基于残差连接的端到端记忆网络MemNet(Memory Network)，融合了长短期记忆来捕捉不同层次的信息；Anwar等人提出基于注意力机制的真实图像去噪网络RIDnet(realimage denoising network)，充分利用通道间的依赖关系，有效去除真实图像中的噪声。Yue等人提出了一种变分去噪网络VDN(variationaldenoising network)，将噪声估计和图像去噪结合到一个独特的贝叶斯框架中，用于盲图像去噪。Chang等基于编码解码结构提出了一种新的空间自适应去噪网络SADnet(spatial-adaptive denoising network)，引入可形变卷积对空间相关特征进行采样，有效去除单张图像的盲噪声。Zamir等人提出了一种名为MPRnet的多阶段的去噪网络，将图像去噪分解成多个子任务。与传统的算法相比，基于深度学习的图像去噪算法能够较好地拟合图像中的噪声分布，尤其是残差策略的应用，进一步扩大网络规模并提高网络学习能力。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种多阶段渐进式的图像去噪算法，其解决的技术问题如下：

(1)传统的图像去噪方法大多是在已知噪声分布特性(如加性高斯白噪声)的前提下去除噪声，相对而言真实环境下的噪声复杂度高，其未必服从某一特定的分布，因此传统算法对图像真实噪声的去噪能力非常有限。本发明针对真实噪声，提出一种高效的去除真实噪声的方法。

(2)大多数基于深度学习的去噪网络分为基于编码解码的多尺度网络结构和单一尺度的网络结构。前者首先将输入逐渐映射到低分辨率表示的特征，然后逐步应用反向映射恢复原始分辨率的图像。虽然这些模型可以有效地编码多尺度信息，但由于重复使用降采样操作，容易忽略空间细节。相比之下，在单尺度特征上去噪的方法可以生成具有良好空间细节的图像。然而，由于单尺度方法感受野有限，其语义的表达不健壮。为了充分利用这两种设计的优点，本发明提出了一个多阶段框架，每个阶段包括基于编码-解码的U-Net网络和级联的CAB网络。基于编码解码结构的U-Net网络由于其巨大的感受野，融合了广泛的背景信息。级联的CAB采用单一尺度的卷积核用于对图像空间细节的恢复。

(3)基于transformer的全局注意力机制广泛应用在图像处理任务当中，但很少应用于在图像去噪任务。本发明引入基于十字交叉的全局注意力机制，大大降低了全局注意力提取过程所需的显存消耗。

为达到以上目的，本发明采取的技术方案是：

一种多阶段渐进式的图像去噪算法，包括以下步骤：

步骤S1、构建多阶段渐进式的去噪网络，所述去噪网络包括：n个去噪阶段，n∈[3，5]，每个去噪阶段均包括：特征提取模块和基于十字交叉注意力的特征融合模块，所述特征提取模块包括：级联的CAB模块和基于编码解码结构的U-Net网络；

步骤S2、在每个去噪阶段开始前，均使用卷积层和CAB模块提取含噪图像Y的浅层特征F，如下式所示：

F＝CAB(W₅*Y+b) (6)

其中，CAB()为CAB模块，W₅为卷积核参数，b为卷积核偏置项；

步骤S3、第一去噪阶段的浅层特征F经过级联的CAB模块处理得到图像的局部空间特征(空间细节信息)，第一去噪阶段的浅层特征F经过基于编码解码结构的U-Net网络处理得到图像的全局上下文语义信息；

步骤S4、采用基于十字交叉注意力的特征融合模块对局部空间特征和全局上下文语义信息进行融合，得到第一去噪阶段融合后的特征；

步骤S5、第一去噪阶段融合后的特征与第二去噪阶段的浅层特征F进行相加，相加后的特征经过级联的CAB模块处理得到图像的局部空间特征，相加后的特征经过基于编码解码结构的U-Net网络处理得到图像的全局上下文语义信息；

步骤S6、采用基于十字交叉注意力的特征融合模块对局部空间特征和全局上下文语义信息进行融合，得到第二去噪阶段融合后的特征；

步骤S7、重复上述操作，直至得到第n去噪阶段融合后的特征，第n去噪阶段融合后的特征经过卷积层处理后得到清晰图像X_n。

在上述方案的基础上，所述级联的CAB模块包括：m个CAB模块，每个CAB模块依次包括卷积-Relu激活函数-卷积组合操作、全局平均池化操作、卷积-Relu激活函数-卷积组合操作、Sigmoid激活函数和加权操作，

每个CAB模块的具体操作为：

首先使用卷积-Relu激活函数-卷积组合操作提取输入特征图f的初始特征h，如下式所示：

h＝W₂*(δ(W₁*f+b₁))+b₂ (1)

其中，W₁，W₂表示卷积核参数，b₁,b₂表示卷积核偏置项，*表示卷积操作，δ表示Relu激活函数，表示特征图的维度，C表示特征图的通道数，H表示特征图的高度，W表示特征图的宽度；

然后在每一个通道对初始特征h进行全局平均池化操作，如下式所示：

其中，GAP代表全局平均池化操作，h_c代表第c个通道的特征，h_c∈h，h_c(i,j)表示第c个通道坐标为(i,j)的特征值，z_c表示第c个通道的特征统计量，其中c∈{0,1…,C}；

然后将所有通道的特征统计量级联，应用卷积-Relu激活函数-卷积组合操作和Sigmoid激活函数提取通道注意力权重s，如下式所示：

z＝[z₁,z₂,…,z_C] (3)

s＝σ(W₄*(δ(W₃*z+b₃))+b₄) (4)

其中，[]代表级联操作，σ表示Sigmoid函数，W₃和W₄分别表示卷积核参数，b₃和b₄分别表示卷积核偏置，*表示卷积操作，δ表示Relu激活函数；

最后，使用通道注意力权重s对初始特征h进行加权得到f_CAB，f_CAB作为CAB模块的输出，如下式所示：

f_CAB＝s·h (5)

其中，·表示元素乘操作；

综上，每个CAB模块的处理过程表示为：f_CAB＝CAB(f)；

第一个CAB模块的输入为浅层特征F，经过上述运算得到第一个CAB模块的输出，第一个CAB模块的输出作为第二个CAB模块的输入，循环上述操作，最后得到级联的CAB模块的输出，如下式所示：

F_d＝CAB_m(CAB_m-1(…CAB₁(F))) (7)

其中，F_d代表级联的CAB模块提取到的图像局部空间特征，CAB₁()代表第1个CAB模块，CAB_m-1()代表第m-1个CAB模块，CAB_m()代表第m个CAB模块。

在上述方案的基础上，所述基于编码解码结构的U-Net网络的具体步骤为：

在特征图下采样阶段，首先使用最大池化操作实现特征图尺寸的缩小，然后使用卷积操作实现特征图通道数目的翻倍，公式如下式所示：

其中，x_k表示经过k次下采样后的特征图，MaxPool表示最大池化操作，表示经过k次下采样后又经过池化操作后的中间特征，H_k+1表示第k+1次下采样中的卷积操作，x_k+1表示经过k+1次下采样后的特征图，k∈{0,1,2,3}，在编码阶段输入特征x₀，其中x₀＝F，经过4次下采样得到x₄，得到编码部分的输出；

解码部分首先融合编码阶段的多尺度特征，然后使用反卷积实现特征图尺寸的放大，公式如下式所示：

其中，y_k′表示第k′次上采样之后的特征图，表示第k′次上采样中的反卷积操作，Padding表示边缘填充操作，[]表示级联操作，x_4-k′表示x₀经过4-k′次下采样后的特征图，y_k′-1表示第k′-1次上采样之后的特征图，其中，k′∈{1,2,3,4}，注意当k′＝1时，上式中的y₀＝x₄，在解码阶段y₀经过4次上采样得到y₄，y₄＝F_s，得到解码部分的输出；

综上，上述过程用以下公式表示：

F_s＝Unet(F) (11)

其中，Unet()表示基于编码解码结构的U-net网络，F_s表示提取到的图像的上下文语义信息，F为含噪图像Y的浅层特征。

在上述方案的基础上，所述基于十字交叉注意力的特征融合模块的具体步骤为：

首先将F_s和F_d进行级联得到特征图I，特征图然后使用两个1×1的卷积层提取特征图Q和K，其中/> 表示特征图Q和K的维度，其中C′小于C，然后利用Q和K生成十字交叉的稀疏注意力图A，其中/> 表示稀疏注意力图A的维度，对于Q中的每一个位置u，从K的相应十字交叉的行列位置得到一个集合ω_u，/> 表示集合ω_u的维度，然后进行每个位置u的相似度计算：

其中，ω_a,u代表ω_u中的第a个元素，T代表转置，Q_u代表Q中位置u的特征向量，d_a,u代表Q_u和ω_a,u的相关度，是D中的一个元素，

表示D的维度，然后对D进行softmax操作得到特征注意力图A；

采用另外的一个1×1卷积层从特征图I中获取特征图V，对于V中的每个位置u，从V的十字交叉的行列位置得到一个集合φ，/>表示集合φ的维度，最终得到输出特征图I′每个位置的特征向量，进而得到输出特征图I′，由以下公式得到：

其中，I′_u代表输出特征图I′位置u的特征向量，A_a,u是A中坐标为(a,u)的一个常量值，φ_a,u是φ中坐标为(a,u)的一个特征向量，I_u为I中位置u的特征向量。

在上述方案的基础上，所述CAB模块为基于通道注意力机制的CAB模块。

在上述方案的基础上，第一去噪阶段、第二去噪阶段、……、第n-1去噪阶段的末端均能够使用卷积层分别对各个去噪阶段融合后的特征进行处理，得到各个去噪阶段对应的清晰图像X₁、清晰图像X₂、……、清晰图像X_n-1；清晰图像X₁、清晰图像X₂、……、清晰图像X_n-1、清晰图像X_n的清晰度逐渐上升。

本发明的有益效果：

1、本发明提出了一个多阶段框架，将图像去噪任务分解成多个子任务。用户也可以根据自己的实际需求选择使用几个阶段实现去噪，阶段数越多，去噪效果越好。

2、充分利用基于编码解码网络结构和单尺度网络结构的优点，使得提取的特征在融合多尺度信息的同时兼顾对图像细节的处理。

3、利用基于transformer的十字交叉全局注意力机制融合两种网络提取的特征，复原高质量的去噪图像。

附图说明

本发明有如下附图：

图1多阶段渐进式去噪网络的整体框架图。

图2CAB模块结构图。

图3基于编码解码结构的U-net网络结构示意图。

图4基于十字交叉注意力的特征融合模块(CC-Block)示意图。

图5BSD68彩色图像的去噪样例(σ＝50)示意图。

图6去噪图像的主观质量对比结果(SIDD数据集)示意图。

具体实施方式

以下结合附图1-6对本发明作进一步详细说明。

本发明提出多阶段渐进式的去噪网络MSPNet(Multi-Stage ProgressiveNetwork)，如图1所示。网络分为三个阶段，用户可以根据自己的实际需求选择使用几个阶段实现去噪。每个阶段包括特征提取模块和特征融合模块。在每个阶段中，噪声图像Y首先经过基于通道注意力机制的CAB(ChannelAttentionBlock)模块提取浅层特征；然后，使用特征提取模块提取图像局部特征和健壮的语义特征(全局上下文语义信息)，特征提取模块包括两部分：级联的CAB模块和基于编码解码结构的U-Net网络。级联的CAB模块用于提取图像潜在的局部特征，这有利于图像局部空间细节的恢复。基于编码解码结构的U-net网络充分利用图像的多尺度信息提取丰富的语义特征；最后，使用基于十字交叉注意力的特征融合模块实现对两种特征的增强，提高图像的重建质量。

特征提取模块

为了在保持图像的空间细节的同时使特征融合图像广泛的背景信息，本发明提出并行的特征提取模块，提取丰富的局部特征和健壮的语义特征。级联的CAB模块采取单一尺度的感受野，更加关注图像的局部信息，有利于图像边缘细节的恢复。基于编码解码结构的U-net网络对图像的全局特征更加敏感，充分利用了图像各个像素之间的依赖，提高了对强噪声的去除能力。下面详细介绍级联的CAB模块和基于编码解码结构的U-Net网络。

级联的CAB模块

基于通道注意力机制的CAB(Channel Attention Block)模块的结构图如图2所示，首先使用卷积-Relu激活函数-卷积组合提取初始特征h，如下式所示：

h＝W₂*(δ(W₁*f+b₁))+b₂ (1)

然后在每一个特征通道对初始特征h进行全局平均池化操作，如下式所示：

其中，GAP代表全局平均池化(Global Average Pooling)操作，h_c代表第c个通道的特征h_c∈h，h_c(i,j)表示第c个通道坐标为(i,j)的特征值，z_c表示第c个通道的特征统计量，其中c∈{0,1…,C}。

然后先将所有通道的特征统计量级联，应用卷积-Relu激活函数-卷积组合操作和Sigmoid激活函数提取通道注意力权重s，如下式所示：

z＝[z₁,z₂,…,z_C] (3)

s＝σ(W₄*(δ(W₃*z+b₃))+b₄) (4)

其中，[]代表级联操作，σ表示Sigmoid函数，W₃和W₄分别表示卷积核参数，b₃和b₄分别表示卷积核偏置，*表示卷积操作，δ表示Relu激活函数，

最后，使用通道注意力权重s对初始特征h进行加权得到f_CAB，f_CAB作为CAB的输出，如下式所示：

f_CAB＝s·h (5)

其中，·为表示元素乘操作。

在每个去噪阶段的开始，本发明首先使用卷积层和CAB模块提取含噪图像Y的浅层特征F，如下式所示：

F＝CAB(W₅*Y+b) (6)

其中，CAB()为CAB模块，W₅为卷积核参数，b为卷积核偏置项。

CAB模块在处理图像的过程中没有造成图像尺寸的变化，所以其主要关注单一尺度的特征，有利于对图像空间细节的恢复。本发明在提取局部特征时采用多个CAB模块级联的网络，进一步提高模型的去噪能力，公式如下式所示：

F_d＝CAB_m(CAB_m-1(…CAB₁(F))) (7)

基于编码解码结构的U-Net网络

为了提取丰富的语义特征，本发明设计了基于编码解码结构的U-Net网络，充分利用图像的全局特征，具体结构如图3所示(设输入特征图大小为64×64)，在特征图下采样阶段，首先使用最大池化操作实现特征图尺寸的缩小，然后使用卷积操作实现特征图通道数目的翻倍以降低下采样中信息衰减的影响，公式如下式所示：

其中，x_k表示经过k次下采样后的特征图，MaxPool表示最大池化操作，表示经过k次下采样后又经过池化操作后的中间特征，H_k+1表示第k次下采样之后的卷积操作，x_k+1表示经过k+1次下采样后的特征图，k∈{0,1,2,3}。在编码阶段输入特征x₀，其中x₀＝F，经过4次下采样得到x₄，即为编码部分的输出。

其中，y_k′表示第k′次上采样之后的特征图，表示第k′次上采样中的反卷积操作，Padding表示边缘填充操作，[]表示级联操作，x_4-k′表示x₀经过4-k′次下采样后的特征图，y_k′-1表示第k′-1次上采样之后的特征图。其中，k′∈{1,2,3,4}。注意当k′＝1时，上式中的y₀＝x₄，表示编码部分的输出即为解码部分的输入。可以看出，在解码阶段y₀经过4次上采样得到y₄，y₄＝F_s，即为解码部分的输出。

边缘填充操作的目的是增加低分辨率特征的尺寸，使之能和高分辨率特征级联。本发明采取四次下采样，充分利用图像的上下文信息，获得丰富的全局特征，然后使用四次上采样操作恢复原始图像分辨率。

提取丰富上下文语义信息的过程的可以用以下公式表示：

F_s＝Unet(F) (11)

其中，Unet()表示基于编码解码结构的U-net网络，F_s表示提取到的图像的上下文语义信息，F为含噪图像Y的浅层特征，同时也是基于编码解码结构的Unet网络的输入。

基于十字交叉注意力(Criss-Cross Attention)的特征融合模块

为了实现级联的CAB模块提取的局部特征和基于编码解码结构的Unet网络提取的语义特征的融合，本发明首先将F_s和F_d进行级联特征I，然后使用全局注意力捕获丰富的上下文信息，但普通Non-local注意力权重提取过程占用显存太大，对设备性能的要求太高。

为解决以上问题，本发明使用基于十字交叉注意力的特征融合模块获得近似的Non-local注意力权重，以此来降低模型的空间复杂度。具体框架图如图4所示，特征图首先使用两个1×1的卷积层提取特征图Q和K，其中/>表示特征图Q和K的维度，其中C′小于C，然后利用Q和K生成十字交叉的稀疏注意力图A，其中表示稀疏注意力图A的维度，对于Q中的每一个位置u，从K的相应十字交叉的行列位置得到一个集合ω_u，/> 表示集合ω_u的维度，然后进行每个位置u的相似度计算：

表示D的维度，然后对D进行softmax操作得到特征注意力图A；

显然，通过循环操作即叠加十字交叉注意力模块((Criss-Cross Attention)即可捕获所有像素的远程依赖关系。

为了验证MSPNet的有效性，本发明完成了图像合成噪声和真实噪声的去噪对比实验。合成噪声去噪实验使用的训练集是DIV2K中分辨率为2K的800张高清图像、加入噪声等级(用噪声标准差σ表示)为50的高斯白噪声所合成的数据集。真实噪声去噪实验使用的训练集是SIDD Medium Dataset采用随机裁剪方式增强的数据集。

在每个训练批次中，合成噪声去噪实验输入16个大小为64×64的图像块；真实噪声去噪实验输入16个大小为128×128的图像块。本发明使用ADAM算法优化网络参数，设置历史梯度的指数衰减率β₁＝0.9，历史梯度平方的指数衰减率β₂＝0.999，模糊因子∈＝10^-8；初始的学习率设为10^-4、并使用余弦退火策略稳定的下降到10^-6；在PyTorch框架下，本发明采用的GPU型号为TeslaV100，显存为32G；峰值信噪比(PSNR)和结构相似性(SSIM)值评估去噪性能，次最优结果和最优结果分别用下划线和粗体表示。

模型分析

为对比不同阶段的去噪结果，本发明在SIDD数据集上进行了对比实验，实验结果如表1所示。MSPNet-1，MSPNet-2和MSPNet-3分别表示阶段数为1，2，3的去噪模型。可以看出：MSPNet-1的去噪能力有限，但模型更为轻量。MSPNet-3虽然参数量较大，但去噪能力强。用户可以根据自己的实际需求选择使用几个阶段实现去噪。

表1：不同阶段的去噪结果(SIDD数据集)

合成噪声去噪实验

合成噪声去噪实验的测试集采用彩色图像BSD68和Kodak24数据集，并在原清晰图像中添加噪声等级σ＝50的高斯白噪声得到含噪图像。

在对合成噪声去噪实验中，本发明分别与传统算法BM3D，基于深度学习的算法DnCNN、FFDNet和RIDNet等进行比较。基于深度学习的算法效果远好于传统算法BM3D，其中RIDNet通过进一步引入注意力机制，在合成噪声的去噪实验中取得较突出的效果。如表2所示，在彩色数据集Kodak24上，MSPNet的平均PSNR值比RIDNet高0.51dB；在彩色数据集BSD68上，MSPNet的平均PSNR值比RIDNet高0.31dB。显然，MSPNet的去噪性能最优。

在“BSD68：163085”中，BM3D还原的图像非常模糊，主体边缘被过度平滑；DnCNN和FFDnet还原的小鸡的羽绒不够逼真，主体的边缘也产生了大量伪影；MSPNet还原的小鸡的羽毛非常逼真，未出现模糊现象，主观感受最好。

表2：彩色图像的去噪结果(σ＝50)

真实噪声去噪实验

真实噪声去噪实验的测试集采用SIDDsRGB validation dataset和DnD数据集。SIDD validation dataset包含1280张256×256真实噪声图像和所对应的清晰图像；DnD包含50张真实噪声图像。

在对真实噪声去噪实验中，本发明分别与传统算法CBM3D、MCWNNM，基于深度学习的算法RIDnet、SADnet和MPRnet等进行比较。由于真实噪声的复杂度较高，其不一定服从某一特定的分布特性，传统算法的去噪效果不佳。RIDnet在深度残差网络的基础上引入注意力机制，SADnet和MIRnet融合了多尺度特征，均取得了较好的实验结果。

在数据集SIDD和DnD上的测试结果如表3所示：其中，Blind方法指使用单一模型来去除不同等级的噪声，Non-blind方法在去噪之前需要手动设置噪声等级。在测试集SIDD中，MSPNet的平均PSNR值比RIDNet高1.07dB，比SADNet高0.32dB；在测试集DnD中，MSPNet的平均PSNR值比RIDNet高0.49dB，比SADNet高0.16dB；在真实噪声上的去噪性能比在合成噪声上的去噪性能更佳。

图6为各算法在数据集SIDD上的主观对比结果。CBM3D虽然取得了一定的效果，但在主体边缘处仍存在大量噪声；CBDnet还原的文字非常模糊，图像纹理被破坏；RIDnet比CBDnet的图像更加清晰，却在字母和背景之间产生了伪影；SADNet还原的图像较为清晰，但仍有模糊产生。MSPNet恢复图像非常清晰，保留了字母的纹理细节，主观感受最好。

表3：SIDD和DnD数据集的客观结果

本发明的关键点和欲保护点：

1、本发明提出了一个多阶段框架，将图像去噪任务分解成多个子任务。

2、每个阶段包括基于编码-解码结构的U-Net网络和级联的CAB网络。基于编码解码结构的U-Net网络由于其巨大的感受野，融合了广泛的背景信息。级联的CAB采用单一尺度的卷积核用于对图像空间细节的恢复。

3、基于transformer的全局注意力机制融合两种网络提取的特征。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种多阶段渐进式的图像去噪算法，其特征在于，包括以下步骤：

F＝CAB(W₅*Y+b) (6)

其中，CAB()为CAB模块，W₅为卷积核参数，b为卷积核偏置项；

步骤S3、第一去噪阶段的浅层特征F经过级联的CAB模块处理得到图像的局部空间特征，第一去噪阶段的浅层特征F经过基于编码解码结构的U-Net网络处理得到图像的全局上下文语义信息；

步骤S7、重复上述操作，直至得到第n去噪阶段融合后的特征，第n去噪阶段融合后的特征经过卷积层处理后得到清晰图像X_n；

所述级联的CAB模块包括：m个CAB模块，每个CAB模块依次包括卷积-Relu激活函数-卷积组合操作、全局平均池化操作、卷积-Relu激活函数-卷积组合操作、Sigmoid激活函数和加权操作，

每个CAB模块的具体操作为：

h＝W₂*(δ(W₁*f+b₁))+b₂ (1)

其中，GAP代表全局平均池化操作，h_c代表第c个通道的特征，h_c∈h，h_c(i，j)表示第c个通道坐标为(i，j)的特征值，z_c表示第c个通道的特征统计量，其中c∈{0，1…，C}；

z＝[z₁，z₂，…，z_C] (3)

s＝σ(W₄*(δ(W₃*z+b₃))+b₄) (4)

f_CAB＝s·h (5)

其中，·表示元素乘操作；

综上，每个CAB模块的处理过程表示为：f_CAB＝CAB(f)；

F_d＝CAB_m(CAB_m-1(…CAB₁(F))) (7)

其中，F_d代表级联的CAB模块提取到的图像局部空间特征，CAB₁()代表第1个CAB模块，CAB_m-1()代表第m-1个CAB模块，CAB_m()代表第m个CAB模块；

所述基于编码解码结构的U-Net网络的具体步骤为：

其中，x_k表示经过k次下采样后的特征图，MaxPool表示最大池化操作，表示经过k次下采样后又经过池化操作后的中间特征，H_k+1表示第k+1次下采样中的卷积操作，x_k+1表示经过k+1次下采样后的特征图，k∈{0，1，2，3}，在编码阶段输入特征x₀，其中x₀＝F，经过4次下采样得到x₄，得到编码部分的输出；

其中，y_k′表示第k′次上采样之后的特征图，表示第k′次上采样中的反卷积操作，Padding表示边缘填充操作，[]表示级联操作，x_4-k′表示x₀经过4-k′次下采样后的特征图，y_k′-1表示第k′-1次上采样之后的特征图，其中，k′∈{1，2，3,4}，当k′＝1时，上式中的y₀＝x₄，在解码阶段y₀经过4次上采样得到y₄，y₄＝F_s，得到解码部分的输出；

综上，上述过程用以下公式表示：

F_s＝Unet(F) (11)

2.如权利要求1所述多阶段渐进式的图像去噪算法，其特征在于，所述基于十字交叉注意力的特征融合模块的具体步骤为：

首先将F_s和F_d进行级联得到特征图I，特征图然后使用两个1×1的卷积层提取特征图Q和K，其中/> 表示特征图Q和K的维度，其中C′小于C，然后利用Q和K生成十字交叉的稀疏注意力图A，其中/> 表示稀疏注意力图A的维度，对于Q中的每一个位置u，从K的相应十字交叉的行列位置得到一个集合ω_u，/>表示集合ω_u的维度，然后进行每个位置u的相似度计算：

其中，ω_a，u代表ω_u中的第a个元素，T代表转置，Q_u代表Q中位置u的特征向量，d_a，u代表Q_u和ω_a，u的相关度，是D中的一个元素，表示D的维度，然后对D进行softmax操作得到特征注意力图A；

其中，I′_u代表输出特征图I′位置u的特征向量，A_a，u是A中坐标为(a,u)的一个常量值，φ_a，u是φ中坐标为(a,u)的一个特征向量，I_u为I中位置u的特征向量。

3.如权利要求1所述的多阶段渐进式的图像去噪算法，其特征在于，所述CAB模块为基于通道注意力机制的CAB模块。

4.如权利要求1所述的多阶段渐进式的图像去噪算法，其特征在于，第一去噪阶段、第二去噪阶段、……、第n-1去噪阶段的末端均能够使用卷积层分别对各个去噪阶段融合后的特征进行处理，得到各个去噪阶段对应的清晰图像X₁、清晰图像X₂、……、清晰图像X_n-1；清晰图像X₁、清晰图像X₂、……、清晰图像X_n-1、清晰图像X_n的清晰度逐渐上升。