CN114359109A

CN114359109A - 一种基于Transformer的孪生网络图像去噪方法、系统、介质及设备

Info

Publication number: CN114359109A
Application number: CN202210032943.7A
Authority: CN
Inventors: 田春伟; 马英鹏; 张璇昱; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-15
Anticipated expiration: 2042-01-12
Also published as: CN114359109B

Abstract

本发明公开了一种基于Transformer的孪生网络图像去噪方法、系统、介质及设备，设计两个孪生的网络提取互补的特征，使获得的去噪器鲁棒性更强。将Transformer应用到孪生网络中，提取显著性特征，将前景和背景进行分离，移除噪声，预测干净图像；设计交叉交互机制提高深度网络的记忆能力，并提高去噪的性能；将批量归一化、层归一化、实例归一化、Swish函数和线性整流函数激活函数组件用到孪生网络中，提高去噪网络的学习能力，有利于提取多样化的特征，增强去噪效果并提高去噪效率。此外，仅通过12层的网络进行去噪，极大地减少网络的计算代价，非常满足移动设备的要求。能根据不同的场景自适应地提取显著性的特征，具有盲去噪功能和较强的实际应用价值。

Description

一种基于Transformer的孪生网络图像去噪方法、系统、介质及设备

技术领域

本发明属于深度学习、图像复原与计算机视觉技术领域，具体涉及一种基于Transformer的孪生网络图像去噪方法、系统、介质及设备。

背景技术

随着当今信息时代的快速发展，数字图像设备已广泛地应用在如无人机灾难救援、人脸识别、海洋探测等多个领域，但在捕获图像的过程中常受到如抖动、噪声、拍摄环境等干扰而使收集到的图像带有噪声。因此，图像去噪技术具有重要的现实应用价值。

卷积神经网络(Convolutional Neural Network，CNN)由于超强的学习能力已被广泛应用在图像去噪中，但大部分CNN仅依靠端到端的网络结构，提取有效特征，完成图像去噪任务，这会增大训练网络的复杂度。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于Transformer的孪生网络图像去噪方法及系统，提取互补的信息，使提取的特征更具有表达能力，将Transformer融合到孪生网络中，提取显著性特征，从复杂的背景中提取噪声信息，高效地完成图像去噪任务，适合解决复杂场景的图像去噪问题。

本发明采用以下技术方案：

一种基于Transformer的孪生网络图像去噪方法，其特征在于，构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；然后将受损图像输入基于Transformer的孪生图像去噪网络中；通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；将受损图像的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得两个显著性特征；随后将两个显著性特征经过增强机制融合，然后经过2个卷积层进行特征提纯，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

具体的，孪生的子网络的结构如下：

第1层由卷积层、层归一化操作LN和激活函数ReLU组成；第2层由卷积层和激活函数ReLU组成；第3层由卷积层、实例归一化操作IN和激活函数PReLU组成；第4层为单一的卷积层；第5层、6层和7层由Transformer模块组成；第8层由卷积层、批量归一化操作BN和激活函数Swish组成；第9层由卷积层和激活函数ReLU组成；第10层由单一的卷积层组成；第11层由卷积层和激活函数ReLU组成；第12层由单一的卷积层组成，两个孪生的子网络共用第11层和第12层。

进一步的，层归一化操作LN表示如下：

其中，μ为平均值，N表示节点数，a表示经过激活函数前的值，σ是标准差；

实例归一化操作IN表示如下：

其中，y_i为数据重构，x_i为输入值，σ²为方差，ε是极小的正值；

批量归一化操作BN表示如下：

其中，

为标准化特征，γ为缩放参数，β为偏移参数。

进一步的，激活函数ReLU为：

φ(x)＝max(0,x)

激活函数PReLU为：

f(x)＝max(0,x)+amin(0,x)

激活函数Swish为：

f(x)＝x·Sigmoid(βx)

其中，β为常数或可训练的参数。

具体的，Transformer模块具体为：

MultiHeadAttention(Q,K,V)＝Concat(head₁,...,head_h)W^o

where head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，MultiHeadAttention为多头注意力层，Q,K,V分别为Query、Key和Value，Concat(head₁,...,head_h)为将注意力机制重复h次，对每次得到的结果进行Concat操作后拼接起来，W为权重，Attention为注意力层。

具体的，Transformer模块的编码器采用3个Block叠加组成，每一个Block包含多头注意力层和前馈神经网络层，编码器中的残差机制为：将多头注意力层的输入和输出以及前馈神经网络层的输出进行一次残差操作；Transformer模块的解码器采用3个Block叠加组成，每一个Block包含多头注意力层、遮挡多头注意力层和前馈神经网络层，解码器中的残差机制为：将遮挡多头注意力层的输入和输出，以及多头注意力层的输出和前馈神经网络层的输出进行一次残差操作。

具体的，受损图像的显著性特征具体为：

通过残差学习操作将两个孪生子网络第7层分别输出的特征相加得到特征F1，再通过残差学习操作将特征F1分别和每个孪生子网络第10层输出的特征相融合，得到特征F2和特征F3，再通过残差学习将特征F2和特征F3相融合得到受损图像的显著性特征，将受损图像的显著性特征经过两个孪生子网络共用的第11层和第12层后得到受损图像的噪声特征，通过将受损图像与受损图像的噪声特征进行残差操作后得到干净图像。

本发明的另一个技术方案是，一种基于Transformer的孪生网络图像去噪系统，包括：

孪生图像去噪网络模块，构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；

显著性信息提取模块，将受损图像输入基于Transformer的孪生图像去噪网络中，通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；

增强模块，将受损图像的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得两个显著性特征；

重构模块，将获得的两个显著性特征经过增强机制融合，然后经过2个卷积层进行特征提纯，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行基于Transformer的孪生网络图像去噪方法。

本发明的另一个技术方案是，一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行基于Transformer的孪生网络图像去噪方法中的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于Transformer的孪生网络图像去噪方法，通过两个孪生的网络，提取互补的特征(噪声)，能对复杂场景下的受损图像进行去噪，使获得的去噪器鲁棒性更强；通过将Transformer应用到孪生网络中，提取显著性特征，将前景和背景进行分离，移除噪声，预测干净图像，以更好地应对复杂的图像背景对噪声的掩盖；通过设计一种增强机制，提高深度网络的记忆能力，并提高去噪的性能，进一步提取更鲁棒的结构特征。

进一步的，孪生的子网络可以用来提取互补的特征(噪声)，使获得的去噪器更鲁棒；将BN、LN、IN、Swish函数和ReLU激活函数等组件用到孪生网络中，提高去噪网络的学习能力，有利于提取多样化的特征，增强去噪效果并提高去噪效率，以获得复杂分布类型的噪声。通过两个结构相同的子网络提取互补的特征(噪声)，经过训练之后得到各自的参数，在经过增强机制之后，权重进行共享，使获得的去噪器更鲁棒。

进一步的，BN可以将每层神经网络任意神经元输入值的分布拉回到均值为0、方差为1的标准正态分布，使得激活输入值落在非线性函数对输入比较敏感的区域，从而使梯度变大，避免梯度消失，同时梯度变大也意味着学习收敛速度快，能大大加快收敛速度；IN可以保留原有的像素规律，在小批量的图片上进行归一化，防止因为BN的归一化而使得每个样本独特细节的丢失；LN可以将数据分布拉到激活函数的非饱和区，具有权重伸缩不变性的特点，可以起到缓解梯度消失、爆炸问题，以及加速训练的效果。

进一步的，PReLU的优点在于不会过拟合，计算简单有效，收敛更快；Swish激活函数具备无上界有下界、平滑、非单调的特性，可以看作是介于线性函数与ReLU函数之间的平滑函数，无界性有助于防止慢速训练期间，梯度逐渐接近0并导致饱和，平滑度在优化和泛化中起了重要作用。

进一步的，设置Transformer模块，Transformer具有通用的建模能力，可以视为一种图建模方法：图上的每一个节点的关系都可以通过深度网络来学习到，可以用节点来表示任意概念，并用节点之间的边来表示概念之间的关系。由于这种通用的建模能力，Transformer可以被应用在图像处理的任务中，可以学习像素与像素之间、像素与物体之间、物体与物体之间的关系；Transformer可以和卷积神经网络形成互补，因为卷积是一种局部操作，通常只建模相邻的像素之间的关系。而Transformer可以进行全局操作，进行所有像素之间关系的建模，与卷积层相互补充。

进一步的，编码器主要对物体信息进行解析，编码器本质就是一连串的卷积网络，负责获取图像局域特征，即对图像的低级局域像素值进行归类与分析，从而获得高阶信息。

进一步的，解码器将解析后的信息对应成最终的图像形式；解码器收集这些高阶信息，并将高阶信息解码为像素值对应到图像中，将空值填补成适当的特征值。

进一步的，操作显著性信息经过增强机制，两个子网络各得到一个显著性信息，这两个显著性信息是互补的。这两个显著性信息经过增强机制最后得到的特征就是处理后的噪声特征；利用交互特征的增强机制可以提高网络的记忆能力，进一步提取更鲁棒的结构特征，并提高去噪的性能。

进一步的，256*1*40*40为输入的批量大小为256，设置为256可以加快训练的速度；1代表着通道数量，1即为黑白图像，若为3即为彩色图像。40*40即为输入图像的尺寸大小。因为去噪网络只是对受损图像进行处理得到干净图像，不改变图像的尺寸大小、通道数，所以输出大小也为256*1*40*40。卷积大小设置为3*3，相比更大尺寸的卷积，使得网络层数增加了，从而增加了网络的非线性表达能力；另外使参数变少，减少了模型大小。

综上所述，本发明方法能根据不同的场景自适应地提取显著性的特征，具有盲去噪功能，具有较强的实际应用价值。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明流程图；

图2为STDN网络结构图；

图3为改进后的Transformer网络结构；

图4为受损图像；

图5为孪生网络提取到的显著性信息，其中，(a)为其中一个子网络得到的显著性信息，(b)为另一个子网络得到的显著性信息；

图6为融合后的噪声特征图；

图7为STDN预测的干净图像；

图8为图像去噪示意图，其中，(a)为DnCNN，(b)为FFDNet，(c)为IRCNN；

图9为干净图像的局部放大示意图，其中，(a)为STDN，(b)为DnCNN，(c)为FFDNet，(d)为IRCNN。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于Transformer的孪生网络图像去噪方法，不同于只针对特定场景的图像有效的深度去噪网络，本发明提出的基于Transformer的去噪方法和系统能对复杂场景下的受损图像进行去噪。本发明设计了两个孪生的网络，提取互补的特征(噪声)，使获得的去噪器鲁棒性更强。为了更好地应对复杂的图像背景对噪声的掩盖，本发明将Transformer应用到孪生网络中，提取显著性特征，将前景和背景进行分离，移除噪声，预测干净图像；为了进一步提取更鲁棒的结构特征，本发明设计一种交叉交互机制，提高深度网络的记忆能力，并提高去噪的性能；为了获得复杂分布类型的噪声，本发明将批量归一化(Batch normalization，BN)、层归一化(Layer normalization，LN)、实例归一化(Instancenormalization，IN)、Swish函数和线性整流函数(Rectified Linear Unit，ReLU)激活函数等组件用到孪生网络中，提高去噪网络的学习能力，有利于提取多样化的特征，增强去噪效果并提高去噪效率。此外，本发明仅通过12层的基于Transformer的孪生图像去噪网络来进行去噪，极大地减少网络的计算代价，非常满足移动设备的要求。本发明方法能根据不同的场景自适应地提取显著性的特征，使得它具有盲去噪功能，具有较强的实际应用价值。

请参阅图1，本发明一种基于Transformer的孪生网络图像去噪方法，包括以下步骤：

S1、将受损图像作为基于Transformer的孪生图像去噪网络(SiameseTransformer Denoising Network，STDN)的输入，输入到基于Transformer的孪生图像去噪网络中；

请参阅图2，STDN网络由两个12层的相同结构孪生子网络组成，能提取噪声的互补信息，两个孪生的子网络共用第11层和第12层。

12层的STDN网络具体结构如下：

第1层由卷积层、LN和激活函数ReLU组成；

第2层由卷积层和激活函数ReLU组成；

第3层由卷积层、IN和激活函数PReLU组成；

第4层为单一的卷积层；

第5～7层由改进后的Transformer模块组成；

第8层由卷积层、BN和激活函数Swish组成；

第9层由卷积层和激活函数ReLU组成；

第10层由单一的卷积层组成；

第11层由卷积层和激活函数ReLU组成；

第12层由单一的卷积层组成。

STDN网络的输入大小为256×1×40×40，STDN网络的输出大小为256×1×40×40，卷积大小为3×3，其中256×1×40×40代表批量大小为256，输出通道为1，宽度和高度皆为40。

Transformer部分的具体公式如下：

FFN(x)＝Relu(xW₁+b₁)W₂+b₂ (2)

H(x)＝F(x)+x (3)

公式(1)为Multi-Head Attention的表达式，Q代表Query，K代表Key，V代表Value，W代表权重；公式(2)是Feed Forward层的表达式，公式(3)为残差连接操作的表达式。

为了加快基于Transformer模块的孪生图像去噪网络在训练过程中收敛速度，本发明添加了LN、IN、BN、Swish、PReLU组件，具体表示如下：

层归一化操作LN表示如下：

其中，μ为平均值，N表示节点数，σ是标准差，a表示经过激活函数前的值，即a＝w×x。

实例归一化操作IN表示如下：

其中，y_i为数据重构，x_i为输入值，σ²为方差，l为x_i所在的列，m为x_i所在的行，ε是极小的正值(为了避免方差为0导致的计算无效化)，H是高度，W是宽度。

批量归一化操作BN表示如下：

其中，μ_β为x_i的平均值，

为方差，ζ为极小的正值(为了避免方差为0导致的计算无效化)，

为标准化特征，γ为缩放参数，β为偏移参数。

激活函数ReLU用于把线性的数据转化为非线性的数据，具体表达式为：

φ(x)＝max(0,x)

激活函数PReLU为：

f(x)＝max(0,x)+amin(0,x)

激活函数Swish表示为：

f(x)＝x·Sigmoid(βx)

其中，β是个常数或可训练的参数；Swish激活函数具备无上界有下界、平滑、非单调的特性，看作是介于线性函数与ReLU函数之间的平滑函数。

S2、将受损图像输入基于Transformer的孪生图像去噪网络中，通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；

Transformer模块是一种编码器-解码器结构。

编码器主要对物体信息进行解析，解码器将解析后的信息对应成最终的图像形式。

编码器本质就是一连串的卷积网络，负责获取图像局域特征，即对图像的低级局域像素值进行归类与分析，从而获得高阶信息。

而解码器收集这些高阶信息，并将高阶信息解码为像素值对应到图像中，将空值填补成适当的特征值。

通过编码-解码的过程，将输入信息提取出特征信息，作为显著性信息。

改进过的Transformer提取显著性特征以应对复杂的图像背景对噪声的掩盖，将受损图像的前景和背景相分离，移除噪声，获得干净图像。

请参阅图3，改进的Transformer是一种编码器(Encoder)-解码器(Decoder)模型。传统Transformer的Encoder由6个结构相同的块(Block)叠加组成，但是它们不共享权重，每一个Block都包含两个子层，分别是多头注意力(Multi-Head Attention)层和前馈神经网络(Feed Forward)层。

Decoder也由6个结构相同的Block叠加组成，且不共享权重，每一个Block除了上述的两个层，还有一个遮挡多头注意力(Masked Multi-Head Attention)层，用来帮助Decoder关注Encoder输入的相关部分。

在原有Transformer的基础上，本发明将原本的6个Block改为3个，并对残差机制进行改进，具体为：

Encoder中的残差机制为：将Multi-Head Attention层的输入和输出以及FeedForward层的输出进行一次残差操作；

Decoder中的残差机制为：将Masked Multi-Head Attention层的输入和输出，以及Multi-Head Attention层的输出和Feed Forward层的输出进行一次残差操作；在最大程度上保留效率的同时大大减少计算代价。

S3、对受损图像的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得显著性特征；

请参阅图2，提取显著性特征一共包括三个阶段：

第一阶段，两个孪生子网络的第7层各自输出的显著性信息经过残差学习(相加)操作得到特征F1；

第二阶段，将第一阶段获得的特征F1分别与每个孪生子网络的第10层输出通过残差学习(相加)融合，得到特征F2和特征F3；

第三阶段，将第二阶段获得的特征F2和特征F3通过残差学习(相加)相融合得到受损图像的显著性特征。

两个孪生子网络通过增强机制(Augmented Mechanism)，提高网络的记忆能力。

S4、将显著性特征输入基于Transformer的孪生图像去噪网络中得到噪声特征，最后将受损图像与得到的噪声特征进行残差操作(相减)后获得干净图像。

将获得的显著性特征经基于Transformer模块的孪生图像去噪网络的11层和12层后得到噪声特征，将受损图像与得到的噪声特征相减后获得干净图像。

本发明除了能处理盲噪声外，还能处理固定高斯噪声以及真实噪声，对盲噪声尤其有效。

本发明再一个实施例中，提供一种基于Transformer的孪生网络图像去噪系统，该系统能够用于实现上述基于Transformer的孪生网络图像去噪方法，具体的，该基于Transformer的孪生网络图像去噪系统包括孪生图像去噪网络模块、显著性信息提取模块、增强模块以及重构模块。

其中，孪生图像去噪网络模块，构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；

重构模块，将获得的两个显著性特征经过增强机制融合，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于Transformer的孪生网络图像去噪方法的操作，包括：

构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；然后将受损图像输入基于Transformer的孪生图像去噪网络中；通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；将获得的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得两个显著性特征；随后将两个显著性特征经过增强机制融合后经过2个卷积层进行特征提纯，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于Transformer的孪生网络图像去噪方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；然后将受损图像输入基于Transformer的孪生图像去噪网络中；通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；对受损图像的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得两个显著性特征；将获得的两个显著性特征经过增强机制融合后经过2个卷积层进行特征提纯，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于Transformer的孪生图像去噪网络方法，能对复杂场景下的受损图像进行去噪。考虑到复杂场景中捕获的图像破坏程度较大，本发明提出一种孪生图像去噪网络，提取互补的信息，使提取的特征更具有表达能力。本发明将Transformer融合到CNN中提取显著性特征，将图像的前景和背景分离开，遏制噪声，加快网络训练效率。本发明还设计一种增强机制提取更鲁棒的结构特征。此外，考虑到训练过程中数据分布不均匀，本发明将多种归一化方法融合到CNN中，统一数据的分布，提升去噪性能。本发明在真实噪声图像、盲噪声图像的去噪上都获得良好的性能。

本发明以高斯噪声级别25的受损图像为例，图4为需要进行处理的受损图像。

首先将受损图像作为STDN网络的输入，输入的图像会经过两个孪生网络提取到互补的信息。这两个孪生网络通过两个Transformer提取到显著性信息，将之可视化，如图5(a)、图5(b)所示，分别是两个孪生子网络得到的显著性信息，可以看到，虽然两个孪生子网络的结构是相同的，但是得到了两个不同的显著性信息，这说明这两个孪生子网络关注到了图像中不同的特征信息，因此把这两个显著性信息经过融合即可以得到互补的信息，鲁棒性更强。

随后，通过增强机制(Augmented Mechanism)，融合两个子网络获得的特征，可视化特征如图6所示，从图中可以看出，经过神经网络最终得到了噪声特征。最后只需要将初始的受损图像减去噪声特征，即可以得到预测出的干净图像。如图7所示，为本发明最终得到的干净图像，将其与下面几个通过其他方法得到的干净图像局部放大，可以看到本发明得到的图7性能更好。

同时，采取另外几种经典的图像去噪方法(DnCNN、FFDNet、IRCNN)，分别得到了如图8(a)、图8(b)、图8(c)所示的干净图像以便进行对照。通过局部放大之后可以明显看到，STDN预测得到的干净图像如图9(a)所示，具有相对较好的性能。图9(b)、图9(c)、图9(d)分别为对应的其他经典方法预测得到的干净图像的局部放大。

本发明首先设计了两个互补的孪生网络，由此得到一个鲁棒性很强的去噪器，在不同的场景下均具有很好的提取特征能力；其次通过将Transformer应用到孪生网络中，提取显著性特征，以将复杂场景下的图像中的前景与背景分离，这样即可以有效降低图像背景对噪声的掩盖影响，在不同场景下都能高效率地提取噪声；最后本发明通过多个组件来提高去噪网络的学习能力，可以提取多样化地结构特征，达到在不同的场景中都能自适应地提取特征的目的。

综上所述，本发明一种基于Transformer的孪生网络图像去噪方法、系统、介质及设备，能够更好的针对复杂场景下的受损图像进行去噪，达到先进的去噪水平，并对盲去噪尤其有效，因而具有很强的实际应用价值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于Transformer的孪生网络图像去噪方法，其特征在于，构建基于Transformer的孪生图像去噪网络，基于Transformer的孪生图像去噪网络包括两个孪生的子网络；然后将受损图像输入基于Transformer的孪生图像去噪网络中；通过两个孪生的子网络对应的Transformer模块得到受损图像的显著性信息；将受损图像的显著性信息以及两个孪生的子网络第10层的输出经过增强机制，获得两个显著性特征；随后将两个显著性特征经过增强机制融合，然后经过2个卷积层进行特征提纯，获得处理后的噪声特征，利用残差操作从受损图像中移除处理后的噪声特征，获得干净的图像。

2.根据权利要求1所述的基于Transformer的孪生网络图像去噪方法，其特征在于，孪生的子网络结构如下：

3.根据权利要求2所述的基于Transformer的孪生网络图像去噪方法，其特征在于，层归一化操作LN表示如下：