CN116012266A

CN116012266A - 图像去噪方法、系统、设备及存储介质

Info

Publication number: CN116012266A
Application number: CN202310318242.4A
Authority: CN
Inventors: 金�一; 王建锋; 陈怀安; 范鑫; 谭晓; 单亦萌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-04-25
Anticipated expiration: 2043-03-29
Also published as: CN116012266B

Abstract

本发明公开了一种图像去噪方法、系统、设备及存储介质，它们是一一对应的方案，方案中：通过使用双注意力Transformer模块在空间和通道维度上充分挖掘图像特征，提高网络对图像纹理和结构的重建和增强效果，保证了复原图像（去噪后的图像）的质量。经过图像去噪处理的图像有助于在图像识别，检测和分割等高级计算机视觉任务中发挥更好的成效。

Description

图像去噪方法、系统、设备及存储介质

技术领域

本发明涉及图像去噪技术领域，尤其涉及一种图像去噪方法、系统、设备及存储介质。

背景技术

随着多媒体技术的发展，数字图像在航天航空，卫星遥感，安全监控等领域发挥重要作用。然而受环境光照、量化误差、设备约束等因素限制，图像在采集过程中不可避免地被噪声污染，严重影响后续对图像的处理与分析。因此，图像去噪技术具有非常重要的研究意义。

目前，图像去噪技术主要分为：传统图像去噪技术和基于神经网络的图像去噪技术。

传统图像去噪技术根据处理方式可进一步分为空间域方法和变换域方法两类，其中空间域方法直接对图像像素值进行处理实现去噪，而变换域方法则通过域转化方式将图像变换到新特征空间进行降噪处理。然而，这些方法一般对干净图像和噪声进行先验假定，不适用于噪声类型复杂多样的真实场景，难以实现高质量的去噪效果。

基于神经网络的图像去噪技术利用神经网络强大的建模和拟合能力，直接从大规模数据中学习噪声图像到干净图像的映射关系。目前，具备全局交互、动态权重和位置表示能力的Transformer（变换器）网络在图像去噪任务上占据领先地位，但是仅在空间或通道一个维度上使用自注意力机制，未能充分提取特征将噪声和图像原有信息分离，限制了复原图像（去噪后的图像）的质量。

发明内容

本发明的目的是提供一种图像去噪方法、系统、设备及存储介质，可以实现在滤除图像噪声的同时保留住图像锐利的边缘和精细的纹理结构，从而保证了复原图像的质量。

本发明的目的是通过以下技术方案实现的：

一种图像去噪方法，包括：

通过输入层对输入图像进行卷积，再通过编码器对卷积后的输入图像进行多尺度特征图的提取，所述编码器包括依次设置的多个编码层，每一编码层设有双注意力Transformer模块，并通过下采样输出相应尺度的特征图；其中，Transformer模块表示变换器模块；

通过基于双注意力Transformer模块实现的瓶颈层从编码器输出的特征图中提取包含高级语义信息的特征；其中，高级语义信息是指除去颜色、几何与纹理信息以外的信息；编码器输出的特征图是指最后一个编码层输出的特征图；

通过解码器利用编码器提取的多尺度特征图以及瓶颈层的输出，获得解码输出特征图；所述解码器包括依次设置的多个解码层，每一解码层设有双注意力Transformer模块，双注意力Transformer模块的输出特征图即为所属解码层的输出特征图，第一个解码层的输入包括：瓶颈层的输出以及最后一个编码层中未经过下采样的特征图，之后每一个解码层的输入包括：上一个解码层的输出特征图以及相应编码层中未经过下采样的特征图，最后一个解码层的输出特征图即为解码输出特征图；

通过输出层将所述解码输出特征图进行卷积获得残差图，再结合所述输入图像获得去噪后的图像。

一种图像去噪系统，包括：由输入层、编码器、瓶颈层、解码器与输出层组成的图像去噪模型；其中，

输入层对输入图像进行卷积，再通过编码器对卷积后的输入图像进行多尺度特征图的提取，所述编码器包括依次设置的多个编码层，每一编码层设有双注意力Transformer模块，并通过下采样输出相应尺度的特征图；其中，Transformer模块表示变换器模块；

基于双注意力Transformer模块实现的瓶颈层从编码器输出的特征图中提取包含高级语义信息的特征；其中，高级语义信息是指除去颜色、几何与纹理信息以外的信息；编码器输出的特征图是指最后一个编码层输出的特征图；

解码器利用编码器提取的多尺度特征图以及瓶颈层的输出，获得解码输出特征图；所述解码器包括依次设置的多个解码层，每一解码层设有双注意力Transformer模块，双注意力Transformer模块的输出特征图即为所属解码层的输出特征图，第一个解码层的输入包括：瓶颈层的输出以及最后一个编码层中未经过下采样的特征图，之后每一个解码层的输入包括：上一个解码层的输出特征图以及相应编码层中未经过下采样的特征图，最后一个解码层的输出特征图即为解码输出特征图；

输出层将所述解码输出特征图进行卷积获得残差图，再结合所述输入图像获得去噪后的图像。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过使用双注意力Transformer模块在空间和通道维度上充分挖掘图像特征，提高网络对图像纹理和结构的重建和增强效果，保证了复原图像（去噪后的图像）的质量。经过图像去噪处理的图像有助于在图像识别，检测和分割等高级计算机视觉任务中发挥更好的成效。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种图像去噪方法的流程图；

图2为本发明实施例提供的一种图像去噪模型的示意图；

图3为本发明实施例提供的空间自注意力模块的原理图；

图4为本发明实施例提供的通道自注意力模块的原理图；

图5为本发明实施例提供的卷积前馈网络的原理图；

图6为本发明实施例提供的本发明与主流方法在LIVE1数据集上的定性比较结果的示意图；

图7为本发明实施例提供的本发明与主流方法在SIDD验证集集上的定性比较结果的示意图；

图8为本发明实施例提供的一种图像去噪系统的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种图像去噪方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

如图1所示，一种图像去噪方法，主要包括如下步骤：

步骤1、通过输入层对输入图像进行卷积，再通过编码器对卷积后的输入图像进行多尺度特征图的提取；所述编码器包括依次设置的多个编码层，每一编码层设有双注意力Transformer模块，并通过下采样输出相应尺度的特征图；其中，Transformer模块表示变换器模块。

步骤2、通过基于双注意力Transformer模块实现的瓶颈层从编码器输出的特征图中提取包含高级语义信息的特征。

本发明实施例中，所述编码器输出的特征图是指最后一个编码层输出的特征图。

本领域技术人员可以理解，高级语义信息是本领域的专有名词，它是指除去颜色、几何、纹理等低级信息以外的信息。

步骤3、通过解码器利用编码器提取的多尺度特征图以及瓶颈层的输出，获得解码输出特征图；所述解码器包括依次设置的多个解码层，每一解码层设有双注意力Transformer模块，双注意力Transformer模块的输出特征图即为所属解码层的输出特征图，第一个解码层的输入包括：瓶颈层的输出以及最后一个编码层中未经过下采样的特征图，之后每一个解码层的输入包括：上一个解码层的输出特征图以及相应编码层中未经过下采样的特征图，最后一个解码层的输出特征图即为解码输出特征图。

步骤4、通过输出层将所述解码输出特征图进行卷积获得残差图，再结合所述输入图像（即将残差图与输入图像相加）获得去噪后的图像。

本领域技术人员可以理解，图像中的噪声是指信号中的干扰，表现为图像像素值的随机增减。本发明学习的是噪声图像偏离干净图像的残差图，可能存在部分像素信息缺失需要填补，部分像素的数值变大需要减小的情况，因此，可以将残差图与输入图像相加获得去噪后的图像，当然也可以采用相减的方式，无论是相加或相减不影响模型的学习难度和表现性能。

本发明实施例中，所述双注意力Transformer模块中使用了空间自注意力机制和通道自注意力机制，能够在空间和通道维度上充分挖掘图像特征，提高网络对图像纹理和结构的重建和增强效果。经过图像去噪处理的图像有助于在图像识别，检测和分割等高级计算机视觉任务中发挥更好的成效。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、网络结构。

本发明实施例中，图1所示步骤中的输入层、编码器、瓶颈层、解码器与输出层组成图像去噪模型。通过编码器的下采样操作和解码器的上采样操作学习图像的多尺度特征。编码器，瓶颈层和解码器均采用多个双注意力Transformer模块（Dual AttentionTransformer Block，简写为DATA）代替传统的卷积层对图像特征进行编码和解码从而分离噪声和图像原有信息。图2展示了图像去噪模型的结构示例。

下面针对输入层、编码器、瓶颈层、解码器与输出层分别进行介绍。

1、输入层。

本发明实施例中，输入层可以为一个卷积层，对输入图像进行卷积，示例性的，卷积可以为3×3卷积。

2、编码器。

本发明实施例中，编码器包含多个编码层，每一编码层中包括：多个堆叠设置的双注意力Transformer模块与下采样层；其中，最后一个双注意力Transformer模块的输出特征图输入至下采样层，以及经卷积前馈网络处理后输入至相应的解码层；下采样层负责对最后一个双注意力Transformer模块的输出特征图进行下采样输出相应尺度的特征图，并作为所属编码层的输出特征图。

示例性的，下采样可以通过步长为2的3×3卷积处理来实现。

3、瓶颈层。

本发明实施例中，瓶颈层包括：多个堆叠设置的双注意力Transformer模块。瓶颈层负责进一步分离最后一个编码层输出特征图中的图像特征和噪声特征，从而提取出包含高级语义信息的特征。

4、解码器。

本发明实施例中，解码器包含多个解码层，所述每一解码层中包括：上采样层（例如，亚像素卷积层）、拼接模块以及多个堆叠设置的双注意力Transformer模块；所述上采样层所属解码层为第一个解码层时，其输入为瓶颈层的输出，所述上采样层所属解码层不为第一个解码层时，其输入为上一个解码层的输出特征图；所述上采样层负责对瓶颈层的输出或者上一个解码层的输出特征图进行上采样，获得上采样特征图；所述拼接模块负责将上采样特征图与外部输入的特征图拼接，获得拼接特征图；所述外部输入的特征图是指通过卷积前馈网络对相应编码层中未经过下采样的特征图进行处理后得到的特征图；所述拼接特征图作为第一个双注意力Transformer模块的输入，最后一个双注意力Transformer模块的输出特征图即为所属解码层的输出特征图。

本发明实施例中，除了最后一个解码层外，其余解码层中的拼接特征都需要进行卷积（例如，1×1卷积）处理再输入至所属解码层的第一个双注意力Transformer模块。

5、输出层。

本发明实施例中，输出层可以为一个卷积层，对解码输出特征图进行卷积；示例性的，卷积可以为3×3卷积。

本发明实施例中，编码器与解码器是对称结构，解码层的数目与编码层的数目相同，且二者一一对一的连接，设解码层与编码层的数目均为N，则第n个编码层与倒数第n个解码层连接，n=1,2,…,N，N为整数，可根据实际情况或者经验设定数值大小。如图2所示，展示了编码器中包含三个编码层的示例，同样的，解码层与编码层是对称结构，解码器中包含三个解码层，第一个编码层中最后一个双注意力Transformer模块的输出特征图经卷积前馈网络处理后输入至第三个解码层，第二个编码层中最后一个双注意力Transformer模块的输出特征图经卷积前馈网络处理后输入至第二个解码层，第三个编码层中最后一个双注意力Transformer模块的输出特征图经卷积前馈网络处理后输入至第一个解码层。

图2中双注意力Transformer模块右下角的乘号表示堆叠设置双注意力Transformer模块，L₁~L₄表示数值，即堆叠设置的双注意力Transformer模块的数目，具体数值大小不做限定，用户可根据实际情况或者经验设定数。特别的，设置最后一个解码层中堆叠设置的双注意力Transformer模块的数目大于第一个编码层（比如，大于4个），其余的，一对一的解码层与编码层中堆叠设置的双注意力Transformer模块的数目相同。

图2中，H×W×C表示特征图的维度，H为高度，W为宽度，C为通道数目，©表示特征图通道拼接。

本发明实施例中，上述编码器、瓶颈层与解码器中设置的双注意力Transformer模块结构相同，所述双注意力Transformer模块包含空间自注意力模块，通道自注意力模块和卷积前馈网络，具体的，图2瓶颈层内部展示了单个双注意力Transformer模块的结构，其包括：空间自注意力模块，通道自注意力模块，以及设置于空间自注意力模块与通道自注意力模块之间与设置于通道自注意力模块输出端的卷积前馈网络。

（1）空间自注意力模块。

图3展示了空间自注意力模块的主要原理，空间自注意力模块中的处理流程包括：空间自注意力模块的输入为特征图A，通过层归一化（Layer Normalization）处理特征图A，再通过卷积（例如，1×1卷积）与深度卷积（例如，3×3深度卷积）提取出空间自注意力机制计算所需的查询向量（Query）、键值向量（Key）与实值向量（Value）V₁，并使用旋转位置编码将每个像素点的空间位置信息编码到查询向量与键值向量中，得到旋转位置编码后的查询向量Q₁与键值向量，然后进行空间自注意力机制的计算再经过卷积处理（1×1的卷积映射）后作为空间自注意力模块的第一部分计算结果，具体可以先将实值向量，以及进行旋转位置编码后的查询向量与键值向量划分成不重叠的窗口，在窗口内进行自注意力机制的计算，例如窗口大小可以为8×8；并且，将所述特征图A经卷积后作为空间自注意力模块的第二部分计算结果（此部分可看作门控分支的处理），将第一部分计算结果与第二部分计算结果融合（即计算二者的哈达玛积）后，与所述特征图A进行残差连接，作为空间自注意力模块的输出，即捕获了空间依赖关系的特征图。

本发明实施例中，旋转位置编码的空间位置是对查询向量和键值向量划分窗口前，查询向量和键值向量中每个像素的空间坐标。在旋转位置编码中，查询向量和键值向量的空间位置信息实质上与特征图A的空间位置信息是等价的。

图3中，为矩阵乘法，⊙为哈达玛积，⊕为逐像素相加，T是矩阵转置符号，h₁×w₁×c₁为特征图A的维度，h₁为高度，w₁为宽度，c₁为通道数目，P为窗口大小（例如前文提到的8×8）。

本领域技术人员可以理解，卷积与深度卷积均为行业专有名词，其中：卷积是指标准卷积；深度卷积（Depthwise Convolution）是将卷积层的分组数设置成输入张量通道数的一种特例情况。介绍卷积与深度卷积时提及的1×1与3×3均表示卷积核的尺寸。

（2）通道自注意力模块。

图4展示了空间自注意力模块的主要原理，通道自注意力模块中的处理流程包括：通道自注意力模块的输入为设置于空间自注意力模块与通道自注意力模块之间的卷积前馈网络的输出，记为特征图B；通过层归一化处理特征图B，再通过卷积与深度卷积提取出通道自注意力机制计算所需的查询向量、键值向量与实值向量，并进行L2范数归一化处理与变形转置（包含向量变形和矩阵转置两个步骤），得到对应的查询向量Q₂、键值向量与实值向量V₂，然后进行通道自注意力机制的计算（通道维度上计算），捕获图像特征在通道上的依赖关系，再经过卷积处理后，作为通道自注意力模块第一部分计算结果；并且，将所述特征图B经卷积后作为通道自注意力模块的第二部分计算结果（此部分可看作门控分支的处理），将第一部分计算结果与第二部分计算结果融合后，与所述特征图B进行残差连接，作为通道自注意力模块的输出。

图4中，h₂×w₂×c₂为特征图B的维度，h₂为高度，w₂为宽度，c₂为通道数目。

（3）卷积前馈网络。

本发明实施例中，在多层感知机（Multilayer Perception）的两层全连接层中间添加深度卷积层来增强对图像局部关系建模能力。此外，引入门控分支自适应地调整图像上不同噪声强度污染区域的去噪力度，避免图像原有信息在网络去噪过程中被过度破坏。如图5所示，所述卷积前馈网络包括两个支路，两个支路的输入均为卷积前馈网络的输入；第一支路对卷积前馈网络的输入进行卷积后作为第一支路的输出；第二支路中依次设有层归一化层与两个全连接层，以及设置在两全连接层之间的深度卷积层，后一个全连接层的输出即为第二支路的输出；第二支路的输出与第一支路的输出融合后与卷积前馈网络的输入进行残差连接，作为卷积前馈网络的输出。

二、模型训练与测试。

本发明实施例中，图像去噪模型通过训练数据集进行训练，训练数据集中包含多个图像对，每一图像对包含噪声图像与干净图像，所述干净图像是指不含噪声的图像，采用残差学习策略（即不直接拟合干净图像，而是拟合噪声图像到干净图像的残差图）学习噪声图像和干净图像间的残差图从而降低模型拟合的难度；训练时，将噪声图像作为输入图像输入至图像去噪模型，将干净图像作为训练的真值标签，利用图像去噪模型输出的去噪后的图像（通过前述图1所示流程实现）与干净图像的差异构建训练损失函数（例如，L1损失函数），通过所述训练损失函数优化图像去噪模型。

本发明实施例中，预先设置了模型的参数初始化方式，初始学习率，学习率调整策略，模型迭代训练次数以及损失函数。将训练数据集按设定批量大小分组输入网络，采用AdamW（Adaptive Moment Estimation with decoupled weight decay，解耦权重衰减的自适应矩估计优化器）优化器对图像去噪模型参数（包含输入层、编码器、瓶颈层、解码器与输出层的参数）进行优化。

示例性的，可以采用智能手机降噪任务SIDD数据集（智能手机图像去噪数据集）中的噪声/干净图像对作为训练数据集，其中包含320对噪声/干净图像对（一张噪声图像对应一张相同场景和相同相机参数的干净图像。为加快图像读取速度和减少训练耗时，采用滑动窗口的方式以256像素的步长将训练集中的图像裁剪成512×512分辨率的小图像块。

本发明实施例中，在型号为RTX 3090Ti 的GPU（图形处理器）上运行的Pytorch（一个开源的机器学习库）框架来实现本发明所提出的图像去噪模型。对训练图像进一步随机裁剪为256×256像素大小的图像块并进行随机翻转和旋转实现数据增强，按照批量尺寸（Batch Size）为组合输入到网络，采用AdamW优化器最小化L1损失函数进行反向传播更新网络模型参数。示例性的，初始学习率设置为0.001，共进行400000次迭代，前4000次迭代采用线性热启动方法（linear warm-up）对学习率进行预热，后续使用余弦退火策略调整学习率。

本发明实施例提供的上述图像去噪方法在图像去噪任务上达到先进水平，下面通过对比实验来说明本发明的优越性。

对比实验中使用了在三个合成噪声图像数据集Set5、LIVE1与BSD68，以及一个真实噪声图像数据集SIDD。Set5数据集指由5张图像构成的集合；数据集LIVE1的LIVE是发布该数据集的实验室名称——图像和视频工程实验室（Laboratory for Image and VideoEngineering），1为数据集编号；BSD68数据集为伯克利分割数据集（The BerkeleySegmentation Dataset）中的68张图像。

参与对比实验的现有方案包括：传统去噪算法BM3D（三维块匹配协同滤波算法），当前主流的八种图像去噪网络模型：多阶段渐进图像复原网络（MPRNet）、半实例归一化网络（HINet）、无非线性激活函数网络（NAFNet）、U形变换器（Uformer）和图像复原变换器（Restormer）。

本发明与上一参与对比实验的各现有方案相比，PSNR（峰值信噪比）指标和SSIM（结构相似性）指标值均位列第一；具体的：

1）合成噪声图像数据集上的结果。在Set5，LIVE1和BSD68测试数据集上分别添加两种在空间维度上噪声水平非独立同分布高斯噪声以及三种不同噪声水平的高斯白噪声对现行最先进的方法和本发明方法进行测试。

表1给出各去噪方法在合成噪声数据集上的定量结果（每项比较指标的最好值用黑体显示），图6为高斯白噪声标准差为50的条件下，不同方法的去噪结果对比，图6中的数字表示相应图像的峰值信噪比（PSNR）指标，数值越大，表示图像越接近给定的干净图像。Reference是指噪声图像对应的参考无噪声真值图像，其PSNR指标无穷大，一般不列出，向上的箭头表示该数值越大图像质量越高。

表1：在合成噪声图像数据集上与主流方法的定量结果比较

表1中的案例1与案例2表示两种不同分布的非独立同分布高斯噪声，σ表示高斯噪声分布的标准差。

从定量结果来看，传统去噪算法BM3D虽然在给定输入图像噪声水平的条件下进行非盲去噪，但其去噪效果仍比其余进行盲去噪的深度学习方法差，PSNR指标最低。在深度学习方法中，MPRNet和HINet均采用多阶段渐进恢复的策略，通过叠加多个卷积网络的结果提升去噪质量。但是受限于卷积的归纳偏置，这些基于卷积网络的去噪方法无法在测试推理时依据不同图像块的噪声强度动态调整卷积核权重，从而限制网络去噪性能的进一步提高。基于Transformer的Restormer模型和本发明提供的图像去噪模型（称为Daformer模型）的去噪效果普遍优于其余基于卷积的对比方法，证明了Transformer在图像去噪任务中的应用潜力。其中，Daformer模型在不同噪声类型以及噪声强度条件下的去噪性能均优于Restormer模型，验证了本发明方法的有效性以及优越性。

此外，从图6中可以看出，相比仅使用通道自注意力机制的Restormer网络，本发明额外使用空间自注意力机制，增强了图像去噪模型对细节特征的提取能力，更好地复原了雕塑的下巴和头发等复杂区域的纹理信息，生成在主观视觉感知上更清晰的去噪结果。

2）真实噪声图像数据集上的结果。

本发明的方法和当前主流方法在SIDD验证集和测试集的定量比较结果显示在表2中，定性比较结果显示在图7，图7中的数字表示相应图像的峰值信噪比（PSNR）指标，数值越大，表示图像越接近给定的干净图像。

表2：在真实噪声图像数据集上与主流方法的定量结果比较结果

表2中，Param指模型参数量，M表示计量单位为百万(Million)；从定量比较结果来看，本发明提供的Daformer模型在SIDD验证集和测试集的PSNR指标和SSIM指标上均取得了最优值。其中，本发明提供的Daformer模型仅使用Uformer模型不到50%的参数量在PSNR指标上取得0.21dB的提升。相较于当前最优的卷积去噪模型NAFNet和基于Transformer的Restormer模型，Daformer模型使用更少的参数量在PSNR值上分别取得接近0.14dB和0.1dB的提升。从图7所示的定性比较结果来看，本发明方法复原的图像保持了更多的结构和细节信息，轮廓边缘更锐利清晰，最接近标签干净图像。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种图像去噪系统，其主要基于前述实施例提供的方法实现，该系统主要包括：由输入层、编码器、瓶颈层、解码器与输出层组成的图像去噪模型，结构可参见前述图2；其中，

基于双注意力Transformer模块实现的瓶颈层从编码器输出的特征图中提取包含高级语义信息的特征；其中，高级语义信息是指除去颜色、几何与纹理信息以外的信息；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图8所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种图像去噪方法，其特征在于，包括：

2.根据权利要求1所述的一种图像去噪方法，其特征在于，每一编码层中包括：多个堆叠设置的双注意力Transformer模块与下采样层；其中，最后一个双注意力Transformer模块的输出特征图输入至下采样层，以及经卷积前馈网络处理后输入至相应的解码层；下采样层负责对最后一个双注意力Transformer模块的输出特征图进行下采样输出相应尺度的特征图，并作为所属编码层的输出特征图。

3.根据权利要求1所述的一种图像去噪方法，其特征在于，每一解码层中包括：上采样层、拼接模块以及多个堆叠设置的双注意力Transformer模块；

所述上采样层所属解码层为第一个解码层时，其输入为瓶颈层的输出，所述上采样层所属解码层不为第一个解码层时，其输入为上一个解码层的输出特征图；所述上采样层负责对瓶颈层的输出或者上一个解码层的输出特征图进行上采样，获得上采样特征图；

所述拼接模块负责将上采样特征图与外部输入的特征图拼接，获得拼接特征图；所述外部输入的特征图是指通过卷积前馈网络对相应编码层中未经过下采样的特征图进行处理后得到的特征图；

所述拼接特征图作为第一个双注意力Transformer模块的输入，最后一个双注意力Transformer模块的输出特征图即为所属解码层的输出特征图。

4.根据权利要求1~3任一项所述的一种图像去噪方法，其特征在于，所述双注意力Transformer模块包括：空间自注意力模块，通道自注意力模块，以及设置于空间自注意力模块与通道自注意力模块之间与设置于通道自注意力模块输出端的卷积前馈网络；

其中，所述卷积前馈网络包括两个支路，两个支路的输入均为卷积前馈网络的输入；第一支路对卷积前馈网络的输入进行卷积后作为第一支路的输出；第二支路中依次设有层归一化层与两个全连接层，以及设置在两全连接层之间的深度卷积层，后一个全连接层的输出即为第二支路的输出；第二支路的输出与第一支路的输出融合后与卷积前馈网络的输入进行残差连接，作为卷积前馈网络的输出。

5.根据权利要求4所述的一种图像去噪方法，其特征在于，所述空间自注意力模块中的处理流程包括：

空间自注意力模块的输入为特征图A，通过层归一化处理特征图A，再通过卷积与深度卷积提取出空间自注意力机制计算所需的查询向量、键值向量与实值向量，并使用旋转位置编码将每个像素点的空间位置信息编码到查询向量与键值向量中，然后进行空间自注意力机制的计算再经过卷积处理后作为空间自注意力模块的第一部分计算结果；

并且，将所述特征图A经卷积后作为空间自注意力模块的第二部分计算结果，将第一部分计算结果与第二部分计算结果融合后，与所述特征图A进行残差连接，作为空间自注意力模块的输出。

6.根据权利要求4所述的一种图像去噪方法，其特征在于，所述通道自注意力模块中的处理流程包括：

通道自注意力模块的输入为设置于空间自注意力模块与通道自注意力模块之间的卷积前馈网络的输出，记为特征图B；通过层归一化处理特征图B，再通过卷积与深度卷积提取出通道自注意力机制计算所需的查询向量、键值向量与实值向量，并进行L2范数归一化处理与变形转置，然后进行通道自注意力机制的计算再经过卷积处理后作为通道自注意力模块第一部分计算结果；

并且，将所述特征图B经卷积后作为通道自注意力模块的第二部分计算结果，将第一部分计算结果与第二部分计算结果融合后，与所述特征图B进行残差连接，作为通道自注意力模块的输出。

7.根据权利要求1所述的一种图像去噪方法，其特征在于，所述输入层、编码器、瓶颈层、解码器与输出层组成图像去噪模型；所述图像去噪模型通过训练数据集进行训练，训练数据集中包含多个图像对，每一图像对包含噪声图像与干净图像，所述干净图像是指不含噪声的图像；

训练时，将噪声图像作为输入图像输入至图像去噪模型，将干净图像作为训练的真值标签，利用图像去噪模型输出的去噪后的图像与干净图像的差异构建训练损失函数，通过所述训练损失函数优化图像去噪模型。

8.一种图像去噪系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：由输入层、编码器、瓶颈层、解码器与输出层组成的图像去噪模型；其中，

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。