CN114936979B

CN114936979B - 一种模型训练方法、图像去噪方法、装置、设备及存储介质

Info

Publication number: CN114936979B
Application number: CN202210638012.1A
Authority: CN
Inventors: 胡雨轩; 田春伟; 张师超; 章成源
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-05-30
Anticipated expiration: 2042-06-07
Also published as: CN114936979A

Abstract

本申请提供了一种模型训练方法、图像去噪方法、装置、设备及存储介质；针对训练集较难获取的问题，引入自监督学习的方法，将添加两次模拟噪声的图像集合和仅添加一次模拟噪声的图像集合作为配对的训练集，极大地降低了主去噪网络训练集的获取成本。此外，采用不同尺寸的卷积层构建主去噪网络，可以提取多样化特征，提高去噪效果；采用两种跳跃连接操作来协同增强模型的记忆能力，提高学习效果；采用增强Transformer层提取显著性特征，增加模型的鲁棒性。通过上述多项改进可以实现对主去噪网络的有效训练，训练完成的主去噪网络具备较好的去噪性能。

Description

一种模型训练方法、图像去噪方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是一种模型训练方法、图像去噪方法、装置、设备及存储介质。

背景技术

图像去噪的方法可分为硬件去噪和软件去噪。硬件去噪就是对成像设备内部的图像算法进行设计，使成像设备在自动完成对焦、曝光、白平衡等动作的同时提高图像识别的能力。但受限于成像设备自身的分辨率，这种通过硬件对图像进行去噪的方法有很大的局限性，因此，软件去噪的方法顺势蓬勃发展起来。传统软件去噪方法大体分为两种，即空域像素特征去噪算法和变换域去噪算法。前者在图像空间域中直接对像素进行处理，后者则是将图像空间域的信息转换到其他域，间接地在其他域对像素进行处理。目前，传统去噪算法中效果最好的是结合空域像素特征去噪算法中非局部均值去噪算法(Non-Local Means，NLM)和小波变换域去噪方法的块匹配三维协同滤波(Block-Matching and 3D Filtering，BM3D)，它可以恢复更多的图像细节和得到最高的峰值信噪比。然而，这种传统的图像去噪方法通常假设噪声是均匀的高斯分布的，从图像像素分布或者图像内在结构信息出发，忽略了实际环境中噪声是不同来源的复合体，并且算法复杂度较高，需要手动调节参数，在实际生活生产中不具备应用的广泛性。

随着电子技术的不断发展，2008年，Jain等人首次提出一种基于卷积神经网络(Convolutional Neural Network，CNN)的图像去噪方法，如图1所示，包括依次设置的多个隐藏层，该方法利用卷积神经网络处理自然图像的去噪问题。与传统的图像去噪方法(例如基于马尔可夫随机场或小波变换的去噪方法)相比，该方法不强烈依赖于噪声的概率分布，其具有强大的学习表征能力，能够更好地捕获图像特征以重构图像纹理和结构信息，解决了传统的图像去噪方法依赖先验知识、需要优化模型、手工计算设计、只针对单一去噪任务等问题。

卷积神经网络一般由若干个卷积层和池化层叠加而成。受深度学习思想的影响，人们普遍认为卷积层和池化层的层数叠加越多，对输入图片的特征抽象层次越深，学习效果越好。然而，随着卷积层和池化层的不断叠加，反而出现了梯度消失和梯度爆炸现象，卷积神经网络的去噪效果反而越来越差。并且，在卷积神经网络中，除第一层卷积层，其他卷积层基本都是使用的小卷积核，导致卷积神经网络的感受野有限，在聚合长距离空间信息方面上有一定的困难。此外，在利用卷积神经网络对图像进行去噪操作的时候，通常需要大量的含噪-干净图像样本对进行训练。然而，干净图像往往是很难甚至是无法获得的，例如，在摄影过程中，如果不考虑温度因素，在基底噪声(Noise Floor)很大的情况下，选择低感光度(ISO)以及长曝光时间可以在一定程度上抑制基底噪声，但是会造成固定模式噪声(Fixed Pattern Noise,FPN)明显；选择高感光度和短曝光时间虽然可以很好地抑制固定模式噪声，但对于基底噪声的抑制效果较差。

发明内容

鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种模型训练方法、图像去噪方法、装置、设备及存储介质，包括：

一种基于自监督学习的模型训练方法，包括：

获取样本图像集合；

依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；

依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对对主去噪网络进行训练，获得训练完成的主去噪网络。

优选的，所述主去噪网络包括依次连接的二十四个处理层；其中，第一、四、七、十、十三、十六、十九和二十二处理层分别包括一个卷积核大小为3×3的卷积层和一个激活函数层；第二、五、八、十一、十四、十七和二十处理层分别包括一个卷积核大小为13×13的卷积层和一个激活函数层；第三、六、九、十二、十五、十八和二十一处理层分别包括一个卷积核大小为1×1的卷积层和一个激活函数层；第二十三处理层为增强Transformer层；第二十四处理层包括一个卷积核大小为3×3的卷积层。

优选的，第一和第四处理层的输出通过通道拼接的方式连接；第七和第十处理层的输出通过通道拼接的方式连接；第十三和第十六处理层的输出通过通道拼接的方式连接；第十九和第二十二处理层的输出通过通道拼接的方式连接。

优选的，第二、五、八、十一、十四、十七处理层的输出分别与第二十处理层的输出通过残差连接的方式连接；所述主去噪网络的输入与第二十四处理层的输出通过残差连接的方式连接。

优选的，所述增强Transformer层包括依次连接的六个编码模块；每个所述编码模块分别包括依次连接的第一子编码层和第二子编码层；所述第一子编码层包括依次连接的归一化层和多头注意力层；所述第二子编码层包括依次连接的归一化层和多层感知机层。

优选的，所述增强Transformer层的输入分别与每个所述编码模块的输出通过残差连接的方式连接；每个所述第一子编码层中，所述归一化层的输入与所述多头注意力层的输出通过残差连接的方式连接；每个所述第二子编码层中，所述归一化层的输入与所述多层感知机层的输出通过残差连接的方式连接。

一种图像去噪方法，包括：

获取待处理的目标图像；

将所述目标图像作为如上述任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

一种基于自监督学习的模型训练装置，包括：

样本获取模块，用于获取样本图像集合；

自监督处理模块，用于依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；

模型训练模块，用于依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对所述主去噪网络进行训练，获得训练完成的主去噪网络。

一种图像去噪装置，包括：

目标获取模块，用于获取待处理的目标图像；

模型处理模块，用于将所述目标图像作为如上述任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

一种计算机设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的模型训练方法和图像去噪方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的模型训练方法和图像去噪方法的步骤。

本申请具有以下优点：

本申请根据图像去噪任务的属性，引入自监督学习方式，在不需要干净图像的前提下即可获得所述配对训练集合，极大地降低了所述配对训练集合的获取成本；此外，采用不同尺寸的卷积层构建所述主去噪网络，可以提取多样化特征，提高去噪效果；引入通道拼接操作，将不同处理层提取的特征进行拼接，可以促进特征在层间流动，解决梯度消失问题；引入残差连接操作，可以解决随着网络层数的加深而出现的梯度弥散问题，同时加快模型训练速度；采用增强Transformer层提取显著性特征，增加模型的鲁棒性。通过上述多项改进可以实现对所述主去噪网络的有效训练，训练完成的所述主去噪网络具备较好的去噪性能。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请背景技术提供的一种卷积神经网络的结构示意图；

图2是本申请一实施例提供的一种模型训练方法的步骤流程图；

图3是本申请一实施例提供的一种主去噪网络的结构示意图；

图4是本申请一实施例提供的一种主去噪网络中增强Transformer层的结构示意图；

图5是本申请一实施例提供的一种主去噪网络中增强Transformer层的另一结构示意图；

图6是本申请一实施例提供的一种主去噪网络中增强Transformer层中编码模块的结构示意图；

图7是本申请一具体实现提供的一种图像去噪方法的步骤流程图；

图8是本申请一具体实现提供的一种第一噪声图像；

图9是本申请一具体实现提供的一种第二噪声图像；

图10是本申请一具体实现提供的一种卷积核为3×3的第一卷积层提取到的噪声特征图像；

图11是本申请一具体实现提供的一种卷积核为13×13的第二卷积层提取到的噪声特征图像；

图12是本申请一具体实现提供的一种卷积核为1×1的第三卷积层提取到的噪声特征图像；

图13是本申请一具体实现提供的一种增强Transformer层提取到的噪声特征图像；

图14是本申请一具体实现提供的另一种第二噪声图像；

图15是本申请一具体实现提供的一种目标去噪图像；

图16是本申请一实施例提供的一种模型训练装置的结构框图；

图17是本申请一实施例提供的一种图像去噪装置的结构框图；

图18是本申请一实施例提供的一种计算机设备的结构示意图。

说明书附图中的附图标记如下：

12、计算机设备；14、外部设备；16、处理单元；18、总线；20、网络适配器；22、I/O接口；24、显示器；28、内存；30、随机存取存储器；32、高速缓存存储器；34、存储系统；40、程序/实用工具；42、程序模块。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图2，示出了本申请一实施例提供的一种图像去噪的方法，包括：

S110、获取样本图像集合；

S120、依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；

S130、依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对和预先构建的损失函数对所述主去噪网络进行训练，获得训练完成的主去噪网络。

需要说明的是，在图像复原任务中，输入图像的噪声数据的期望正是需要复原的数据，这说明，用两张内容一样的含噪图片训练去噪神经网络可以达到获得干净图像的效果，且大幅降低了去噪成本。因此，可以根据统计学中点估计的方法，通过对含噪图像对的学习，均值化噪声从而达到去噪的效果。本申请根据图像去噪任务的属性，引入自监督学习方式，在不需要干净图像的前提下获得用于训练所述主去噪网络的所述配对训练集合，极大地降低了所述配对训练集合的获取成本，且获得的所述配对训练集合可靠性高。

下面，将对本示例性实施例中一种图像去噪的方法作进一步地说明。

如所述步骤S110和S120所述，获取样本图像集合，并依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合。

所述样本图像集合包含若干样本图像；所述样本图像为通过自然方式获取的存在随机噪声(例如基底噪声和固定模式噪声)的图像；按照预设的噪声模拟方式为每一所述样本图像添加两次独立同分布的模拟噪声，生成第一噪声图像集合；所述第一噪声图像集合包含若干第一噪声图像；并按照预设的噪声模拟方式为每一所述样本图像添加一次独立同分布的模拟噪声，生成第二噪声图像集合；所述第二噪声图像集合包含若干第二噪声图像。

所述噪声模拟方式包括以下一种或多种：基于图像色差变化进行噪声模拟、基于局部光照变化进行噪声模拟和基于图像压缩损失进行噪声模拟。为便于理解，以下针对上述三种噪声模拟方式分别进行说明：

所述基于图像色差变化进行噪声模拟包括：获取所述样本图像中指定区域的像素值；示例性地，该指定区域包括边角区域；依据指定区域的像素值生成多个像素值组；其中，每个像素值组包含两个指定区域的像素值；在实际应用中，可以从指定区域的像素值中随机选取多个像素值，任意两个像素值即可组成一个像素值组，由此可以得到多个像素值组；计算每个像素值组中的两个像素值之间的差值，得到所述样本图像中的多个像素值差值；根据每个像素值组相对应的差值对所述样本图像进行噪声模拟，以为所述样本图像添加用于表征图像色差变化的模拟噪声。不同像素值组对应的像素差值不同，基于像素差值来模拟所述样本图像中的图像色差变化，可以使所述样本图像有效模拟现实场景中底色/色差的变化。

所述基于局部光照变化进行噪声模拟包括：从所述样本图像中随机选取局部平面，示例性地，可以在所述样本图像中随机选取三个点，基于选取的三个点即可确定局部平面；利用高斯模糊算法以及伽马变换算法(也即，幂律变换算法)对局部平面进行噪声模拟，以给所述样本图像添加用于表征局部光照变化的模拟噪声。高斯模糊算法和伽马变换算法具体可参照相关现有技术，在此不再赘述，本实施例通过对局部平面进行高斯模糊算法以及伽马变换算法，可较好实现所述样本图像中局部平面的随机光照变化效果，从而模拟现实场景中局部阴影或者局部过亮等情形。

所述基于图像压缩损失进行噪声模拟包括：对所述样本图像进行有损压缩处理，以给所述样本图像添加用于表征图像压缩损失的模拟噪声；示例性地，由于相机拍照所得的实际图像往往存在图像压缩损失，因此，可以对所述样本图像进行有损压缩处理，经有损压缩处理后的所述样本图像即可认为被添加了表征图像压缩损失的模拟噪声。

在实际应用中，可以采用上述任一种噪声模拟方式为所述样本图像集合添加一次独立同分布的模拟噪声，生成所述第二噪声图像集合，再为所述第二噪声图像集合添加一次独立同分布的模拟噪声，生成所述第一噪声图像集合。具体可根据实际需求选用任一类型的噪声模拟方式为所述样本图像集合添加模拟噪声，本申请对此不作限制。

如所述步骤S130所述，依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对所述主去噪网络进行训练，获得训练完成的主去噪网络。

传统的去噪神经网络可以拟合含噪输入图片

与干净输出图片y_i之间的映射，并最小化经验风险，其训练目标为：

而本申请中引入自监督学习方式，使得所述主去噪网络的训练目标为：

其中，L为所述主去噪网络的损失函数，θ为所述去噪神经网络的权重参数。根据贝叶斯公式，上式可转换为：

如果将条件分布p(y|x)替换为其它任意分布，但条件期望不变，则不影响上式结果。因此对y添加一个均值为0的噪声扰动转换为另一个随机含噪数据

且满足条件

再对f_θ进行训练，则式(3)可转化为

上述即为所述主去噪网络的训练目标。

依据所述第一噪声图像集合和所述第二噪声图像集合，构建若干含噪-含噪图像(第一噪声图像-第二噪声图像)样本对，所述配对训练集合包括全部所述含噪-含噪图像样本对。

依据所述配对训练集合和预先构建的所述损失函数对所述主去噪网络进行训练；具体地，所述主去噪网络的输入为所述第一噪声图像集合，输出为对所述第一噪声图像集合去噪后的期望去噪图像集合，所述期望去噪图像集合包含若干期望去噪图像；将所述期望去噪图像及其对应的所述第二噪声图像代入所述损失函数，计算得到所述主去噪网络的损失值；依据所述损失值对所述主去噪网络进行训练，直至所述损失值小于预设值时停止训练，获得训练完成的所述主去噪网络。

在本申请一实施例中，所述主去噪网络是包含三种尺寸的卷积层的异构神经网络，包括依次连接的二十四个处理层；其中，第一、四、七、十、十三、十六、十九和二十二处理层分别包括一个卷积核大小为3×3的卷积层和一个激活函数层；第二、五、八、十一、十四、十七和二十处理层分别包括一个卷积核大小为13×13的卷积层和一个激活函数层；第三、六、九、十二、十五、十八和二十一处理层分别包括一个卷积核大小为1×1的卷积层和一个激活函数层；第二十三处理层为增强Transformer层；第二十四处理层包括一个卷积核大小为3×3的卷积层。

具体的，所述激活函数层采用的激活函数为ReLU函数。所述主去噪网络的整体结构如图3所示，第一、四、七、十、十三、十六、十九和二十二处理层分别包括依次连接的卷积核大小为3×3的卷积层(3×3Conv)和激活函数层(ReLU)；第二、五、八、十一、十四、十七和二十处理层分别包括依次连接的卷积核大小为13×13的卷积层(13×13Conv)和激活函数层(ReLU)；第三、六、九、十二、十五、十八和二十一处理层分别包括卷积核大小为1×1的卷积层(1×1Conv)和激活函数层(ReLU)；第二十三处理层为增强Transformer层(Transformer Block)；第二十四处理层包括一个卷积核大小为3×3的卷积层(3×3Conv)。

通过在所述主去噪网络中引入不同大小的卷积核组成异构卷积结构，可以有效扩大所述主去噪网络的感受野，提取多样化的特征，在降低计算成本的同时有效地提高去噪性能。其中，13×13的大卷积核的加入有利于捕获异样特征，为所述主去噪网络带来更多的纹理偏置，同时大幅提升感受野，有利于重建图像的纹理和结构信息；1×1的小卷积核的加入有利于再次进行特征提取，去掉冗余特征，解决随着所述主去噪网络深度的加深，特征图的维度也随之增大的问题，大大减少了计算量。

在本申请一实施例中，提出两种协同增强的方式：

方式其一在于，第一和第四处理层的输出通过通道拼接(Concat)的方式连接；第七和第十处理层的输出通过通道拼接的方式连接；第十三和第十六处理层的输出通过通道拼接的方式连接；第十九和第二十二处理层的输出通过通道拼接的方式连接。

通过引入上述通道拼接操作，强化了图像梯度的传递，并且以融合特征图信息的方式促进数据在不同处理层间的流通，重复利用特征，减少了所述主去噪网络的参数，甚至减轻了深层神经网络在小样本数据集上的过拟合问题。

方式其二在于，第二、五、八、十一、十四、十七处理层的输出分别与第二十处理层的输出通过残差连接(Residual Connect)的方式连接；所述主去噪网络的输入与第二十四处理层的输出通过残差连接的方式连接。

通过将第二、五、八、十一、十四、十七处理层的输出分别与第二十处理层的输出通过残差连接的方式连接，可以协同增强所述主去噪网络的特征记忆，从而提高信息利用率，进而有效提升所述主去噪网络的学习效率；此外，通过将主去噪网络的输入与第二十四处理层的输出通过残差连接的方式连接，可以避免梯度弥散和消失的问题，同时加快训练速度。

在本申请一实施例中，所述增强Transformer层包括依次连接的六个编码模块；每个所述编码模块分别包括依次连接的第一子编码层和第二子编码层；所述第一子编码层包括依次连接的归一化层和多头注意力层；所述第二子编码层包括依次连接的归一化层和多层感知机层。

所述增强Transformer层的整体结构如图4-6所示，包括依次连接的六个编码模块(Encoder)；每个所述编码模块分别包括依次连接的第一子编码层和第二子编码层；所述第一子编码层包括依次连接的归一化层(Norm)和多头注意力层(Multi-Head Attention)；所述第二子编码层包括依次连接的归一化层(Norm)和多层感知机层(MultilayerPerceptron，MLP)。

通过叠加六个所述编码模块可以提取显著性特征，挖掘特征间的长距离依赖，增强特征的表达能力，提高所述主去噪网络的鲁棒性；并且所述编码模块中的所述归一化层是采用层归一化(Layer Normalization，LN)的方式对每个样本做归一化，在样本长度不一的情况下，LN方式比批量归一化(Batch Normalization，BN)方式更加稳定，避免了计算时均值和方差的抖动，同样可以很好地解决梯度消失和梯度爆炸问题，更易于模型训练与收敛。

传统的Transformer模型是基于编码器-解码器(Encoder-Decoder)架构，其中，编码器部分是由六个结构相同的块叠加而成，块与块间不共享权重，且每个块都包含两个子层，第一个子层是先通过多头注意力层，再通过归一化层，第二个子层是先通过前馈神经网络层(Feed Forward)也就是多层感知机层再通过归一化层。解码器的结构与编码器的结构类似，也是由六个结构相同的块叠加而成，块与块间不共享权重，每个块都包含三个子层，第一个子层是先通过遮挡多头注意力层，再通过归一化层，第二、三子层结构与编码的结构一样。本实施例仅保留了传统Transformer模型的编码器部分对图像局部特征进行提取和分析，并对其子层做细微调整：所述第一子编码层先通过归一化层，再通过多头注意力层；所述第二子编码层先通过归一化层，再通过多层感知机层。

在本申请一实施例中，每个所述第一子编码层中，所述归一化层的输入与所述多头注意力层的输出通过残差连接的方式连接；每个所述第二子编码层中，所述归一化层的输入与所述多层感知机层的输出通过残差连接的方式连接；此外，所述增强Transformer层的输入分别与每个所述编码模块的输出通过残差连接的方式连接。

通过引入上述残差操作，将图像特征从浅层存到深层，可以提升所述主去噪网络的记忆能力，从而达到增强所述主去噪网络的学习能力的目的。

参照图7，在本申请一实施例中，还提供一种图像去噪方法，包括：

S210、获取待处理的目标图像；

S220、将所述目标图像作为如上述任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

所述主去噪网络训练完毕后，将任意含有噪声的所述目标图像输入所述主去噪网络即可得到去除噪声后的所述目标干净图像，从而实现图像去噪的目的。

在本申请一具体实现中，获取添加两次同类型的独立同分布的模拟噪声的第一噪声图像(如图8所示)和仅添加一次独立同分布的模拟噪声的第二噪声图像(如图9所示)，将上述两种噪声图像作为所述主去噪网络的训练样本对。

所述主去噪网络包括依次连接的二十四个处理层；其中，第一、四、七、十、十三、十六、十九和二十二处理层分别包括一个卷积核大小为3×3的卷积层和一个激活函数层；第二、五、八、十一、十四、十七和二十处理层分别包括一个卷积核大小为13×13的卷积层和一个激活函数层；第三、六、九、十二、十五、十八和二十一处理层分别包括一个卷积核大小为1×1的卷积层和一个激活函数层；第二十三处理层为增强Transformer层；第二十四处理层包括一个卷积核大小为3×3的卷积层。

在训练阶段，将所述第一噪声图像作为所述主去噪网络的输入，其中，卷积核大小为3×3的卷积层提取到的噪声特征如图10所示，卷积核大小为13×13的第二卷积层提取到的噪声特征如图11所示，卷积核大小为1×1的第三卷积层提取到的噪声特征如图12所示，可以看出，不同大小的卷积核提取到的特征不同，所述增强Transformer层提取到的噪声特征如图13所示，可以看出，所述主去噪网络已经提取到完整的噪声特征，将输入的所述第一噪声图像减去完整的噪声特征，得到期望干净图像；依据所述期望干净图像和所述第二噪声图像对所述主去噪网络进行训练，获得训练完成的所述主去噪网络。

在测试阶段，将待处理的目标图像(如图14所示)输入所述主去噪网络，得到目标干净图像(如图15所示)。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图16，示出了本申请一实施例提供的一种基于自监督学习的模型训练装置，包括：

样本获取模块310，用于获取样本图像集合；

自监督处理模块320，用于依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；

模型训练模块330，用于依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对所述主去噪网络进行训练，获得训练完成的主去噪网络。

参照图17，示出了本申请一实施例提供的一种图像去噪装置，包括：

目标获取模块410，用于获取待处理的目标图像；

模型处理模块420，用于将所述目标图像作为如上述任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

参照图18，示出了本申请的一种计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，内存28，连接不同系统组件(包括内存28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线18，微通道体系结构(MAC)总线18，增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

内存28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图16中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图16所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图16中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在内存28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的模型训练方法和图像去噪方法。

也即，上述处理单元16执行上述程序时实现：获取样本图像集合；依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对对主去噪网络进行训练，获得训练完成的主去噪网络；获取待处理的目标图像；将所述目标图像作为所述训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

在本申请一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的模型训练方法和图像去噪方法。

也即，给程序被处理器执行时实现：获取样本图像集合；依据所述样本图像集合，生成添加两次同类型的独立同分布的模拟噪声的第一噪声图像集合和仅添加一次独立同分布的模拟噪声的第二噪声图像集合；依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对对主去噪网络进行训练，获得训练完成的主去噪网络；获取待处理的目标图像；将所述目标图像作为所述训练完成的主去噪网络的输入，获得去除噪声后的目标干净图。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像去噪的方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于自监督学习的模型训练方法，其特征在于，包括：

获取样本图像集合；

依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对对主去噪网络进行训练，获得训练完成的主去噪网络；其中，所述主去噪网络包括依次连接的二十四个处理层；其中，第一、四、七、十、十三、十六、十九和二十二处理层分别包括一个卷积核大小为3×3的卷积层和一个激活函数层；第二、五、八、十一、十四、十七和二十处理层分别包括一个卷积核大小为13×13的卷积层和一个激活函数层；第三、六、九、十二、十五、十八和二十一处理层分别包括一个卷积核大小为1×1的卷积层和一个激活函数层；第二十三处理层为增强Transformer层；第二十四处理层包括一个卷积核大小为3×3的卷积层；第一和第四处理层的输出通过通道拼接的方式连接；第七和第十处理层的输出通过通道拼接的方式连接；第十三和第十六处理层的输出通过通道拼接的方式连接；第十九和第二十二处理层的输出通过通道拼接的方式连接；第二、五、八、十一、十四、十七处理层的输出分别与第二十处理层的输出通过残差连接的方式连接；所述主去噪网络的输入与第二十四处理层的输出通过残差连接的方式连接。

2.根据权利要求1所述的模型训练方法，其特征在于，所述增强Transformer层包括依次连接的六个编码模块；每个所述编码模块分别包括依次连接的第一子编码层和第二子编码层；所述第一子编码层包括依次连接的归一化层和多头注意力层；所述第二子编码层包括依次连接的归一化层和多层感知机层；

所述增强Transformer层的输入分别与每个所述编码模块的输出通过残差连接的方式连接；每个所述第一子编码层中，所述归一化层的输入与所述多头注意力层的输出通过残差连接的方式连接；每个所述第二子编码层中，所述归一化层的输入与所述多层感知机层的输出通过残差连接的方式连接。

3.一种图像去噪方法，其特征在于，包括：

获取待处理的目标图像；

将所述目标图像作为如权利要求1-2任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

4.一种基于自监督学习的模型训练装置，其特征在于，包括：

样本获取模块，用于获取样本图像集合；

模型训练模块，用于依据由所述第一噪声图像集合和所述第二噪声图像集合构成的配对训练集合对主去噪网络进行训练，获得训练完成的主去噪网络；其中，所述主去噪网络包括依次连接的二十四个处理层；其中，第一、四、七、十、十三、十六、十九和二十二处理层分别包括一个卷积核大小为3×3的卷积层和一个激活函数层；第二、五、八、十一、十四、十七和二十处理层分别包括一个卷积核大小为13×13的卷积层和一个激活函数层；第三、六、九、十二、十五、十八和二十一处理层分别包括一个卷积核大小为1×1的卷积层和一个激活函数层；第二十三处理层为增强Transformer层；第二十四处理层包括一个卷积核大小为3×3的卷积层；第一和第四处理层的输出通过通道拼接的方式连接；第七和第十处理层的输出通过通道拼接的方式连接；第十三和第十六处理层的输出通过通道拼接的方式连接；第十九和第二十二处理层的输出通过通道拼接的方式连接；第二、五、八、十一、十四、十七处理层的输出分别与第二十处理层的输出通过残差连接的方式连接；所述主去噪网络的输入与第二十四处理层的输出通过残差连接的方式连接。

5.一种图像去噪装置，其特征在于，包括：

目标获取模块，用于获取待处理的目标图像；

模型处理模块，用于将所述目标图像作为如权利要求1-2任一项所述的训练完成的主去噪网络的输入，获得去除噪声后的目标干净图像。

6.一种计算机设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法。