CN114820341A

CN114820341A - 一种基于增强Transformer的图像盲去噪方法及系统

Info

Publication number: CN114820341A
Application number: CN202210265938.0A
Authority: CN
Inventors: 田春伟; 郑梦华; 张璇昱
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-07-29

Abstract

本发明公开了一种基于增强Transformer的图像盲去噪方法及系统，采用动态卷积层与增强Transformer模块相结合，自适应地对多个模块通过加权的方式进行特征融合；引入动态卷积层，在不增加额外的网络深度和宽度的情况下，自适应调整参数，极大提升模型的表达能力；在Transformer模块内部加入残差学习操作，解决Transformer模块难训练的问题，更有效地提取全局特征和语义信息，提升去噪效果；采用残差学习操作，分别融合由卷积层、动态卷积层、增强Transformer模块获得的层次特征，传递网络各层的记忆能力；采用连接操作融合增强后的卷积层、动态卷积层、增强Transformer模块的特征，随后经Softmax获得权重，以注意力方式实现特征的二次提取，进一步获得显著性特征。本发明在图像盲去噪任务上获得不错的效果。

Description

一种基于增强Transformer的图像盲去噪方法及系统

技术领域

本发明属于图像处理、深度学习和计算机视觉技术领域，具体涉及一种基于增强Transformer的图像盲去噪方法及系统。

背景技术

近年来，随着移动设备的高速发展，因其便携性，对于数字图像越来越容易获得，物理世界中的数字图像数量急剧增长，图像处理的应用越来越广泛。

但是移动设备由于其体积小，舍弃了大的感光元件，这是限制清晰成像的关键因素。并且由于移动设备的便携性，人们在拍照时很少会携带专业摄影辅助设备，如：三脚架、稳定器等。这些原因都会造成拍摄出来的图像含有一定的噪声。通过数学建模，可以将噪声图像看作y＝x+μ，y是噪声图像，x是干净图像，μ是噪声。图像去噪技术主要是将含有噪声的图片中的噪点还原成原来的像素值，从而获得干净、清晰的图像。传统去噪方法可以分为空域像素特征去噪方法和变换域去噪方法。空域像素特征去噪方法主要关注某个或某些像素的领域内的统计特征，并对其进行一定的空间变换。变换域去噪方法与空域像素特征去噪方法不同，通过数学变换，在变换域上把信号和噪声分离，从频率上将噪声分为高中低频噪声，然后对噪声进行抑制，剩下的就是信号。之后进行逆变换将信号从变换域转换到原始空间域，最终达到去除图像噪声的目的。虽然这些方法在某些场景下，已经取得了不错的性能，但是这些方法仍然面临着以下挑战：

(1)有些方法泛化性能较差，只能适应某种或某几种噪声，只能在某个场景下使用。

(2)有些方法性能很好，但是由于其高复杂度，限制了其应用场景。

深度学习起源于上世纪60年代，但由于算法的高复杂度且没有强大的计算资源。近年来，计算设备，尤其是图像处理单元(Graphic Processing Unit，GPU)的高速发展和大数据的使用越来越成熟。这些使得深度学习重新焕发了活力。在数字图像处理领域，卷积神经网络(Convolutional Neural Network，CNN)是目前最流行的技术。CNN依靠GPU能够快速处理数据的优势，结合神经网络的强大的学习能力，不需要手动调参、具有平移不变性和共享权重的特性，大大减少了参数量的同时又可以很好地提取局部特征，所以在图像去噪上也有广泛的应用。例如，《Beyond a Gaussian Denoiser:Residual Learning of Deep CNNfor Image Denoising》首次将CNN用到图像去噪。具体为，该方法通过堆叠卷积层、激活函数ReLU和批标准化(Batch Normalization，BN)层来提升去噪网络的性能。快速灵活的去噪方法(Fast and Flexible Denoising Network，FFDNet)将噪声和噪声图共同作为网络输入，能高效进行图像去噪。虽然上述方法拥有好的去噪性能，但是仍然有以下挑战尚未解决：

(1)以上所涉及方法是靠加深网络层数来提升性能，但是无限提升网络的层数并不能得到最优的模型。由于卷积操作提取特征能力有限，所以这些方法并不能很好地应用于盲去噪问题；

(2)以上所涉及到方法不能用一个模型处理真实噪声以及盲噪声等任务。

在2017年，Transformer完全抛弃RNN(Recurrent Neural Network)和CNN架构，仅采用了自注意力机制(Self-Attention)，就在机器翻译任务中取得了很好的效果。Transformer解决了RNN架构并行度极差的问题，并在接下来的几年中，在自然语言处理领域迅速流行。在2020年，首次将Transformer引入计算机视觉领域，将图像平均地划分为若干图像块作为Transformer的输入，由于其出色的提取全局特征的能力，同样取得了不错的效果；随后计算机视觉领域对Transformer展开了更广泛的研究。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于增强Transformer的图像盲去噪方法及系统，将卷积神经网络中的部分普通卷积层替换为动态卷积层，并且在动态卷积层后加入增强Transformer块来提升全局特征提取的能力，并且自适应地对多个模块通过加权的方式进行特征融合，提升了盲去噪的效果。本发明对于现实中医疗诊病、遥感定位与人像美颜等应用具有重要意义。

本发明采用以下技术方案：

一种基于增强Transformer的图像盲去噪方法，包括以下步骤：

S1、将噪声图像分割为若干图像块；

S2、构建基于增强Transformer的去噪网络，通过残差学习操作、连接操作和注意力机制等操作融合去噪网络中的卷积层、动态卷积层和增强Transformer模块的特征；

S3、将S1中分割后的噪声图像块输入步骤S2构建好的去噪网络中，获得去噪网络输出的图像块，把同一张图像的图像块拼接起来，得到一张干净图像。

具体的，步骤S2中去噪网络包括8层结构，具体为：

第1层、第2层和第3层均由卷积层和激活函数ReLU组成；第4层和第5层均由动态卷积层和激活函数ReLU组成；第6层为增强Transformer模块，第7层由卷积层和激活函数ReLU组成；第8层由卷积层组成；其中，第1层和第8层卷积层中的卷积核大小为3×3，第2层、第3层和第7层卷积层中的卷积核大小为5×5；第3层、第5层和第6层的输出通过残差学习操作、连接操作、注意力机制等操作进行特征融合后，作为第7层的输入。

进一步的，动态卷积层具体为：

先通过池化操作将输入特征从C×M×M压缩至C×1×1，再通过两个1×1的卷积层将C×1×1大小的特征压缩至4×1×1，C表示特征的通道数，再通过SoftMax函数计算出4个权重；随后，通过4个卷积核乘以对应的权重求和，得到最终的卷积核，即为动态卷积层的卷积核；动态卷积层的卷积操作和卷积层的卷积操作相同，具体如下：

w₁,w₂,w₃,w₄＝softmax(con_1×1(ReLU((conv_1×1(P(input_dynamic)))))

K_dynamic＝w₁K_comm1+w₂K_comm2+w₃K_comm3+w₄K_comm4

Out_dynamic＝f_dynamic(input_dynamic)

其中，w₁,w₂,w₃,w₄分别为四个卷积核对应的权重，K_dynamic为动态卷积核；input_dynamic为输入特征，Out_dynamic为输出特征；P(*)为池化操作；Conv_1×1(*)为1×1的卷积层，ReLU(*)为ReLU激活函数，softmax(*)为SoftMax函数，K_comm1,K_comm2,K_comm3,K_comm4分别表示四个卷积核；f_dynamic表示卷积操作。

进一步的，增强Transformer模块包括编码器Block1和解码器Block2，编码器Block1和解码器Block2均设置5层；增强Transformer模块的输入和第1层、第2层以、第3层及第4层编码器Block1的输出通过残差学习操作进行特征融合，特征融合后的特征作为第5层编码器的输入；第5层编码器Block1的输出作为第1层解码器Block2的输入；此外，第5层编码器Block1的输出还以Memory的方式输入到所有解码器Block2中。

更进一步的，增强Transformer模块具体为：

where

where

其中，

分别为第i层编码器Block1和第i层解码器Block2的输出，i∈{1,2,3,4,5}；input_transformer为增强Transformer模块的输入，Out_transformer为增强Transformer模块的输出；Memory为解码器Block2的第二个输入；

为第i层编码器Block1的输出，

为增强Transformer模块的输入、第1层、第2层、第3层以及第4层编码器Block1的输出通过残差学习操作融合后的特征；

表示第i层编码器Block1，

表示第i层解码器Block2，i∈{1,2,3,4,5}；

更进一步的，编码器Block1如下：

Out_MSA＝f_MSA(LN(input_En),LN(input_En),LN(input_En))

Out_En＝f_FC(LN(input_En+Out_MSA))+input_En+Out_MSA

其中，input_En为编码器Block1的输入，Out_MSA为多头注意力的输出，Out_En为编码器Block1的输出，LN(*)为层归一化函数，f_MSA(*)为多头注意力，f_FC(*)为全连接前馈网络；

解码器Block2如下：

where

其中，input_De为解码器Block2的输入，

为第一个多头注意力的输出，

为第二个多头注意力的输出，Memeory为第5层编码器Block1的输出，Out_Decoder为解码器Block2的输出，LN(*)为层归一化函数，f_MSA(*)为多头注意力，f_FC(*)为全连接前馈网络；

再进一步的，多头注意力如下：

where Q＝W_Q*input_Q，K＝W_K*input_K，V＝W_V*input_V

f_MSA(input_Q,input_K,input_V)＝Cat(head₁,...,head₁₂)W^O

where head_i＝f_SA(input_Q,input_K,input_V)

其中，input_Q,input_K,input_V分别为多头注意力的三个输入；f_SA(*)为自注意力层；f_MSA(*)为多头注意力；softmax(*)为SoftMax函数；Q、K、V分别为input_Q,input_K,input_V，与权重矩阵W_Q、W_K、W_V相乘得到的中间变量；W^O为权重矩阵；d为归一化参数，head_i为第i个自注意力层的输出，i∈{1,...,12}；Cat(*)为拼接函数；

全连接前馈网络如下：

f_FC(input_FC)＝W₂*ReLU(W₁*input_FC)

其中，input_FC为全连接前馈网络的输入，ReLU(*)为ReLU激活函数，W₁、W₂分别为权重矩阵；

层归一化函数如下：

Y′＝LN(Y)

y_i∈R^l×1、Y、Y′∈R^l×s

其中，Y,Y′分别为层归一化的输入和结果，Y、Y′∈R^l×s(Y、Y′都是一个l行，s列的矩阵)，y_i、y′_i分别为Y、Y′的第i个分量，i∈{1,...,s}，LN(*)为层归一化函数，μ_i ^l为Y第1维的均值，i∈{1,...,s}，σ_i ^l为Y第1维的标准差，i∈{1,...,s}。

具体的，步骤S2中，通过残差学习操作、连接操作和注意力机制等操作进行特征融合过程，具体为：

使用注意力机制计算权重：将去噪网络中的第3层的输出特征、第5层的输出特征和第6层的输出特征在通道维度上进行拼接，并通过池化操作将特征压缩至C×1×1，C表示特征的通道数量；再通过1×1的卷积层在通道维度上进行降维；随后，通过SoftMax函数计算出每一部分特征相对应的权重；最后每一部分特征乘以相对应的权重(注意力机制)，求和得到融合后的特征，具体如下：

W₁,W₂,W₃＝SoftMax(Conv_1×1(P(Cat(F₃,F₅,F₆))))

F＝W₁*F₃+W₂*F₅+W₃*F₆

其中，W₁,W₂,W₃分别为每一部分特征相对应的权重，Cat(*)为将三个特征在通道维度上连接起来的操作，P(*)为池化操作，Conv_1×1(*)为1×1的卷积层，F₃,F₅,F₆,F分别为第3层输出的特征、第5层输出的特征、第6层输出的特征和加权融合后的特征。

具体的，步骤S3中，去噪网络的输入大小为3×M×M，输出大小为3×M×M，3×M×M代表图像块输入通道和输出通道为3，图像块的高度和宽度为M。

本发明的另一技术方案是，一种基于增强Transformer的图像盲去噪系统，包括：

分割模块，将噪声图像分割为若干图像块；

构建模块，构建基于增强Transformer模块的去噪网络，使用残差学习操作、连接操作和注意力机制等操作融合去噪网络中卷积层、动态卷积层和增强Transformer模块的特征；

去噪模块，利用分割模块将噪声图像分割成图像块，将分割后的图像块输入构建模块构建好的去噪网络中，获得去噪网络输出的图像块，拼接属于同一张图像的图像块，得到完整的干净图像。

与现有技术相比，本发明至少具有以下有益效果：

一种基于增强Transformer的图像盲去噪方法，采用动态卷积层与增强Transformer块相结合的方法，并且自适应地对多个模块通过加权的方式进行特征融合；再将图片分割后输入去噪网络中，不仅可以提高网络的训练效率，并且可以极大减少网络运行所需要的存储空间。

进一步的，去噪网络将5层卷积层和2层动态卷积层提取的局部特征，1层增强Transformer模块提取的全局特征相结合，有效提升了去噪的效果。

进一步的，动态卷积层根据输入的数据调整卷积核的权重，使得动态卷积层不再是一个线性映射，提升了模型的表达能力。

进一步的，在增强Transformer模块中，通过残差学习操作融合前4层编码器Block1的输出特征，在训练时减少梯度消失带来的影响，避免增强Transformer模块的退化问题。

进一步的，在增强Transformer模块中，5层串联的编码器Block1将输入序列转化成固定长度向量进行处理，再输入每一个解码器Block2中，引导解码器Block2提取更鲁棒的全局特征。

进一步的，编码器Block1将提取的全局特征转化为固定长度向量，引导之后的解码器Block2，解码器Block2由两个多头注意力级联，能够更好地提取全局特征。

进一步的，多头注意力通过并行处理所有词向量，计算各个词向量之间的权重，是提取全局特征的核心模块，在多头注意力后级联全连接前馈网络，进一步增强模块的表现能力。进一步的，通过在Transformer模块中加入层归一化函数，有利于稳定模型的训练。

进一步的，通过残差学习操作、连接操作和注意力机制等操作进行特征融合不仅避免梯度消失，便于去噪网络的训练，通过调整权重来减少冗余特征的影响，使网络有更强的表达能力。

进一步的，将图片分割成图像块进行训练，既不需要过大的运行空间，同时还能增加训练样本。

综上所述，将卷积层、动态卷积层和增强Transformer模块结合，有效提取了图像中的局部特征和全局特征，使用残差学习操作、连接操作和注意力机制等操作进行特征融合，有效地提升了去噪网络的性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明流程图；

图2为去噪网络的结构图；

图3为动态卷积层的结构图；

图4为增强Transformer模块的结构图；

图5为编码器Block1结构图；

图6为解码器Block2结构图；

图7为，其中，(a)为原噪声图像，(b)为基于增强Transformer模块的去噪网络提取的噪声，(c)为原噪声分块图像中2块图，(d)为增强Transformer模块的去噪网络提取的2块噪声块，(e)为干净图像2块图像；

图8为本发明测试的整幅图，其中，(a)为原图像，(b)为本发明方法恢复的干净图像。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于增强Transformer的图像盲去噪方法，采用动态卷积层与增强Transformer块相结合的方法，并且对残差学习操作和连接操作进行改进，不再采用简单的相加的模式对数据进行融合，而是采用注意力机制计算各个模块的权重，然后自适应地对多个模块通过加权的方式进行特征融合。本发明实现的去噪网络分为8层，具体包括：前3层均为卷积层和激活函数ReLU；接下来2层均为动态卷积层和激活函数ReLU；第6层为增强Transformer模块，第7层为卷积层和激活函数ReLU，第8层为卷积层。卷积层能够有效提取局部特征，并且通过叠加卷积层的层数来提升感受野，动态卷积层在不增加额外的网络深度和宽度的情况下，自适应地调整参数，极大地提升了模型的表达能力。因为增强Transformer块有非常强大的提取全局特征的能力，所以在动态卷积层后加入了增强Transformer块来提取全局特征。本发明在Transformer内部加入残差学习来增强Transformer块。同时本发明通过注意力机制计算出各个模块的权重，各个模块乘以相对应的权重，求和进行特征融合。本发明在图像盲去噪任务上取得了不错的效果。

请参阅图1，本发明一种基于增强Transformer的图像盲去噪方法，包括以下步骤：

S1、对噪声图像进行预处理，将噪声图像分割为若干图像块；

将每张噪声图像随机划分出若干图像块用于模型训练和测试；

S2、构建8层结构的去噪网络；

通过残差学习操作、连接操作和注意力机制等操作融合去噪网络中的卷积层、动态卷积层和增强Transformer模块的特征；

请参阅图2，去噪网络中的第1～3层均由卷积层和激活函数ReLU组成；第4～5层均由动态卷积层和激活函数ReLU组成，第6层为增强Transformer模块，第7层由卷积层和激活函数ReLU，第8层由卷积层组成，其中第3层的输出、第5层的输出和第6层的输出通过通过残差学习操作、连接操作和注意力机制等操作进行特征融合后，作为第7层的输入。

请参阅图2，通过残差学习操作、连接操作和注意力机制等操作来对多个模块的特征进行融合。首先使用注意力机制计算权重：把第3层输出的特征、第5层输出的特征和第6层输出的特征在通道维度上进行拼接，并通过池化操作将特征压缩；再经过1×1的卷积层在通道维度上进行降维，随后通过SoftMax函数计算出相对应的权重；最后每一部分特征乘以相对应的权重，求和得到融合后的特征；具体如下：

W₁,W₂,W₃＝SoftMax(Conv_1×1(P(Cat(F₃,F₅,F₆))))

F＝W₁*F₃+W₂*F₅+W₃*F₆

其中，W₁,W₂,W₃分别为每一部分特征相对应的权重，Cat(*)表示将三个特征在通道维度上连接起来操作；P(*)表示池化操作；Conv_1×1(*)表示1×1的卷积层；F₃,F₅,F₆,F分别表示第3层输出的特征、第5层输出的特征、第6层输出的特征和加权融合后的特征。

去噪网络的输入大小为3×M×M，输出大小为3×M×M，3×M×M代表输入通道和输出通道为3，高度和宽度为M，第1层和第8层卷积核大小为3×3，第2层、第3层和第7层的卷积核大小为5×5。

请参阅图3，动态卷积层(Dynamic Convolution Layer)具体为：

w₁,w₂,w₃,w₄＝softmax(con_1×1(ReLU((conv_1×1(P(input_dynamic)))))

K_dynamic＝w₁K_comm1+w₂K_comm2+w₃K_comm3+w₄K_comm4

Out_dynamic＝f_dynamic(input_dynamic)

请参阅图4，增强Transformer模块包括编码器Block1和解码器Block2；编码器Block1和解码器Block2均设置5层，增强Transformer模块的输入和第1～4层编码器Block1的输出通过残差学习操作进行特征融合；第5层编码器Block1的输出作为第1层解码器Block2的输入；此外，第5层编码器Block1的输出还以Memory的方式输入到所有解码器Block2中。

具体公式如下：

where

where

其中，

为第i层编码器Block1的输出，

表示第i层编码器Block1，

表示第i层解码器Block2，i∈{1,2,3,4,5}；

请参阅图5，编码器Block1的公式如下：

Out_MSA＝f_MSA(LN(input_En),LN(input_En),LN(input_En))

Out_En＝f_FC(LN(input_En+Out_MSA))+input_En+Out_MSA

请参阅图6，解码器Block2的公式如下：

where

其中，input_De为解码器Block2的输入，

为第一个多头注意力的输出，

为第二个多头注意力的输出，Memeory为第5层编码器Block1的输出，Out_Decoder为解码器Block2的输出，LN(*)为层归一化函数，f_MSA(*)为多头注意力，f_FC(*)为全连接前馈网络。

图5和图6涉及到的多头注意力的公式如下：

where Q＝W_Q*input_Q，K＝W_K*input_K，V＝W_V*input_V

f_MSA(input_Q,input_K,input_V)＝Cat(head₁,...,head₁₂)W^O

where head_i＝f_SA(input_Q,input_K,input_V)

其中，input_Q,input_K,input_V分别为多头注意力的三个输入；f_SA(*)为自注意力层；f_MSA(*)为多头注意力；softmax(*)为SoftMax函数；Q、K、V分别为input_Q,input_K,input_V，与权重矩阵W_Q、W_K、W_V相乘得到的中间变量；W^O为权重矩阵；d为归一化参数，head_i为第i个自注意力层的输出，i∈{1,...,12}；Cat(*)为拼接函数。

图5和图6涉及到的全连接前馈网络如下：

f_FC(input_FC)＝W₂*ReLU(W₁*input_FC)

图5和图6涉及到的层归一化函数如下：

Y′＝LN(Y)

y_i∈R^l×1、Y、Y′∈R^l×s

S3、将步骤S1分割后边长s的图像块输入经过S2构建好的去噪网络，输出边长为M的图像块，获得去噪网络输出的图像块，拼接属于同一张图像的图像块，得到完整的干净图像。

在测试或者使用去噪网络时，通过分割，将一整幅噪声图像输入去噪网络中，输出若干M×M大小的图片块，通过拼接将若干M×M图像块恢复成完整的干净图像。

本发明除能处理盲噪声外，还能处理固定高斯噪声以及真实噪声。

本发明再一个实施例中，提供一种基于增强Transformer的图像盲去噪系统，该系统能够用于实现上述基于增强Transformer的图像盲去噪方法，具体的，该基于增强Transformer的图像盲去噪系统包括分割模块、构建模块以及去噪模块。

其中，分割模块，将噪声图像分割为若干图像块；

构建模块，构建基于增强Transformer模块的去噪网络，通过使用残差学习操作、连接操作和注意力机制等操作融合去噪网络中的卷积层、动态卷积层和增强Transformer模块的特征；

去噪模块，利用分割模块将噪声图像分割成图像块，将分割后边的图像块输入构建模块构建好的去噪网络中，获得去噪网络输出的图像块，拼接属于同一张图像的图像块，得到完整的干净图像。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于增强Transformer的图像盲去噪方法，在模型中加入了动态卷积层和增强Transformer模块提升了提取特征的能力，自适应地对多个模块通过加权的方式进行特征融合。

本发明以40级别的盲高斯噪声为例，在训练构建模块时，Batch size设置为64；一共训练了120个周期；初始学习率设置为1×10^-3；并在第30周期、60周期和90周期时，学习率下降为原来的十分之一。在去噪模块中，以恢复图8(a)为例，通过去噪网络获得的干净图像，请参阅图8(b)，其亮度和对比度与噪声图像一致，并且恢复了如水面的波纹等细节纹理。

请参阅图7，图7(a)是完整的噪声图像；图7(b)是去噪网络识别出来的完整噪声；以图7(c)为例，图7(c)为图7(a)中分割出来的两个图像块(从图7(a)中分割出来的其余图像块的去噪过程与图7(c)相同，未在说明书中显示)；图7(d)是从图7(c)中识别出的两个噪声块；图7(e)是图7(c)经过去噪网络得到的干净图像块；将图7(e)和从图7(a)中分割出来的去噪后的其余图像块进行重组得到图8(a)。

请参阅图8，图8(a)是完整的噪声图像；图8(b)是图8(a)经过去噪网络得到的完整干净图像。

从图7和图8中可以看出，通过去噪网络得到的干净图像，其亮度和对比度与噪声图像一致，并且恢复了如水面的波纹等细节纹理。

综上所述，本发明一种基于增强Transformer的图像盲去噪方法及系统，本发明在原有的CNN模型中加入了增强Transformer块来增强模型对全局特征的提取，与卷积层提取的局部特征相融合，极大地增强了模型性能。此外，本发明用动态卷积层代替部分卷积层，提升了去噪网络的表达能力，并提升模型的泛化性；通过采用残差学习操作、连接操作和注意力机制等操作促进各层的特征融合，以增强网络性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于增强Transformer的图像盲去噪方法，其特征在于，包括以下步骤：

S1、将噪声图像分割为若干图像块；

2.根据权利要求1所述的基于增强Transformer的图像盲去噪方法，其特征在于，步骤S2中去噪网络包括8层结构，具体为：

3.根据权利要求2所述的基于增强Transformer的图像盲去噪方法，其特征在于，动态卷积层具体为：

w₁,w₂,w₃,w₄＝softmax(con_1×1(ReLU((conv_1×1(P(input_dynamic)))))

K_dynamic＝w₁K_comm1+w₂K_comm2+w₃K_comm3+w₄K_comm4

Out_dynamic＝f_dynamic(input_dynamic)

4.根据权利要求2所述的基于增强Transformer的图像盲去噪方法，其特征在于，增强Transformer模块包括编码器Block1和解码器Block2，编码器Block1和解码器Block2均设置5层；增强Transformer模块的输入和第1层、第2层以、第3层及第4层编码器Block1的输出通过残差学习操作进行特征融合，融合后的特征作为第5层编码器的输入；第5层编码器Block1的输出作为第1层解码器Block2的输入；此外，第5层编码器Block1的输出还以Memory的方式输入到所有解码器Block2中。

5.根据权利要求4所述的基于增强Transformer的图像盲去噪方法，其特征在于，增强Transformer模块具体为：

其中，

为第i层编码器Block1的输出，

表示第i层编码器Block1，

表示第i层解码器Block2，i∈{1,2,3,4,5}。

6.根据权利要求4所述的基于增强Transformer的图像盲去噪方法，其特征在于，编码器Block1如下：

Out_MSA＝f_MSA(LN(input_En),LN(input_En),LN(input_En))

Out_En＝f_FC(LN(input_En+Out_MSA))+input_En+Out_MSA

解码器Block2如下：

其中，input_De为解码器Block2的输入，

为第一个多头注意力的输出，

7.根据权利要求6所述的基于增强Transformer的图像盲去噪方法，其特征在于，多头注意力如下：

where Q＝W_Q*input_Q，K＝W_K*input_K，V＝W_V*input_V

f_MSA(input_Q,input_K,input_V)＝Cat(head₁,...,head₁₂)W^O

where head_i＝f_SA(input_Q,input_K,input_V)

全连接前馈网络如下：

f_FC(input_FC)＝W₂*ReLU(W₁*input_FC)

层归一化函数如下：

Y′＝LN(Y)

y_i∈R^l×1、Y、Y′∈R^l×s

其中，Y,Y′分别为层归一化的输入和结果，Y、Y′∈R^l×s(Y、Y′都是一个l行，s列的矩阵)，y_i、y_i′分别为Y、Y′的第i个分量，i∈{1,...,s}，LN(*)为层归一化函数，μ_i ^l为Y第1维的均值，i∈{1,...,s}，σ_i ^l为Y第1维的标准差，i∈{1,...,s}。

8.根据权利要求1所述的基于增强Transformer的图像盲去噪方法，其特征在于，步骤S2中，通过残差学习操作、连接操作和注意力机制等操作进行特征融合的过程，具体为：

W₁,W₂,W₃＝SoftMax(Conv_1×1(P(Cat(F₃,F₅,F₆))))

F＝W₁*F₃+W₂*F₅+W₃*F₆

9.根据权利要求1所述的基于增强Transformer的图像盲去噪方法，其特征在于，步骤S3中，去噪网络的输入大小为3×M×M，输出大小为3×M×M，3×M×M代表图像块输入通道和输出通道为3，图像块的高度和宽度为M。

10.一种基于增强Transformer的图像盲去噪系统，其特征在于，包括：

分割模块，将噪声图像分割为若干图像块；

去噪模块，利用分割模块将噪声图像分割成图像块，将分割后的图像块输入构建模块构建好的去噪网络中，获得去噪网络输出的图像块，把同一张图像的图像块拼接起来，得到一张干净图像。