CN113962895B

CN113962895B - 一种自适应生成对抗网络图像降噪方法

Info

Publication number: CN113962895B
Application number: CN202111270671.6A
Authority: CN
Inventors: 汪洪桥; 赵玉清; 付光远; 伍明; 岳敏
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Filing date: 2021-10-29
Publication date: 2024-06-28
Anticipated expiration: 2041-10-29

Abstract

本发明公开了一种自适应生成对抗网络图像降噪方法，将任意噪声图像分别送入到生成器G1和G2中，生成器G1对给定噪声图像中的噪声建模，以便可以学习从噪声图像中提取噪声图；通过将提取的噪声图添加真实的无噪声图像来构建图像对生成噪声图像，用原带噪声的图像减去提取的噪声图得到降噪的图像；将生成的噪声图像与真实的有噪声图像一起送到鉴别器D1中并鉴别真假；有噪声的图像被送到生成器G2后，G2的任务是尝试学会从有噪声的图像中生成干净的降噪图像ID2，通过将生成的干净降噪图像ID2、之前得到的降噪图像ID1和真实的无噪声图像送入到鉴别器D2中，在迭代中不断提升鉴别器的判定真假能力和生成器生成逼真图像的能力。

Description

一种自适应生成对抗网络图像降噪方法

技术领域

本发明涉及图像降噪技术领域，具体是一种自适应生成对抗网络图像降噪方法。

背景技术

红外图像在越来越多的领域得到了应用，受到诸如探测器材料、加工方法以及外界环境等因素的影响，红外图像往往存在严重的噪声。与此同时红外图像的降噪工作也得到了更多的关注。大多数降噪方法依赖于成对的噪声图像与去噪声图像数据集，而现实中这种数据集不容易得到。噪声不仅降低红外图像质量，影响红外图像中有效信息的提取，严重时还将导致目标检测、匹配等高级视觉任务的失败。因此，抑制红外图像噪声是提升红外图像质量必不可少的步骤。在最近的50年中，图像降噪技术引起了广泛的关注。

首先，图像处理开始使用非线性滤波器和非自适应滤波器。非线性滤波器利用原始图像跟模版之间的一种逻辑关系得到结果，如最值滤波器，中值滤波器。非自适应滤波器是一种简单的协议(算法)，它可以应用于信号而不需要计算一些统计信息，自适应与否的问题取决于频率响应(有限与否)。

与线性滤波器不同，非线性滤波器可以保留边缘信息以抑制噪声。随着时间的推移，包括基于稀疏表示算法

稀疏表示算法，用较少的基本信号的线性组合来表达大部分或者全部的原始信号。

之类的机器学习方法开始成功应用于图像降噪技术。非局部集中式稀疏表示(NCSR)方法自然地集成了非局部自相似(NSS)先验和稀疏编码，它是一种简洁但非常有效的稀疏表示模型。为了减少计算成本，采用字典学习方法，字典学习方法旨在从原始数据中找到一组特殊的稀疏信号，在机器视觉中称为视觉单词，这一组稀疏元素能够足够线性表示所有的原始信号。

被用于快速过滤噪声。在前人研究基础上衍生出许多更具竞争力的图像降噪方法，包括马尔可夫随机场(MRF)，加权核范数最小化(WNNM)，细胞神经网络(CENN)主要使用带有模板的节点有效地抑制噪声，学习的同时稀疏编码(LSSC)，可训练的非线性反应扩散(TNRD)和梯度直方图估计和保存(GHEP)等。

尽管上述大多数方法在图像降噪方面都取得了相当不错的性能，但它们仍存在一些缺点，包括需要针对测试阶段的优化方法，手动设置参数以及用于单个降噪任务的特定模型。为了解决这个问题，开发了梯度下降。最近，随着架构变得更加灵活，深度学习技术在很大程度上克服了手动设置参数的问题。在上世纪八十年代便有人开始将深度学习技术用于图像降噪，这是最初的深度学习技术应用于图像处理。随后，为了加速网络收敛同时提高降噪性能，研究者们提出了很多的优化算法。利用拉格朗日对偶性将最大熵模型等价为无约束的最优化问题，这种方法由于其对神经网络的诠释而成为了一种很好的图像去噪方法。接下来神经网络分别将经典异步算法和贪婪算法的思想融入其中，目的是在计算成本和降噪性能之间做出平衡。另外，新的网络体系通过增加深度或更改激活函数，在消除噪声方面取得了很好的成绩。在某种程度上，这些深度技术可以改善降噪性能。但是，这些网络不容易允许添加新的模块，这限制了它们在现实世界中的应用。

基于上述原因，提出了卷积神经网络(CNN)。CNN和LeNet在手写数字识别中都有较好的实际应用。在2012年AlexNet参加了当年的ImageNet大规模视觉识别挑战赛(ILSVRC)之后，深度网络架构(例如，VGG和GoogLeNet)被广泛应用，尤其是低级计算机视觉任务。深度神经网络于2015年首次应用于图像降噪任务。所提出的网络不需要为了消除噪声而手动设置参数。此后，深度网络被广泛应用于语音处理，视频分析和图像恢复。Mao等使用多次卷积和反卷积来抑制噪声并恢复高分辨率图像。为了通过多个模型处理低级计算机视觉任务，提出了反卷积网络(DnCNN)，批量归一化(BN)，整流线性单位(ReLU)和残差学习(RL)等方法用于处理图像降噪，超分辨率和JPEG图像去块。彩色非本地网络(CNLNet)为了平衡降噪性能和计算成本，结合了非本地自相似性(NLSS)和CNN以有效去除彩色图像噪声。

块匹配和3D过滤(Block-Matching and 3D filtering，BM3D)

BM3D主要用到了非局部块匹配的思想，首先找相似块，不同于传统NLM(non-localmean)使用L2距离，它用了硬阈值线性变换降低了L2距离的复杂度；找到相似块后，NLM做了一个均值处理，而BM3D则是将相似块进行域转换，提出协同过滤来降低相似块自身含有的噪声(NLM做均值，引入了相似块的噪声)，并在聚合处对相似块加权处理，得到降噪后的目标块。BM3D的复杂之处在于，首先找相似块，其次是采用了两次基于块的估计，复杂度相比NLM翻了1倍，且含有域变换操作。

DnCNN

DnCNN提出了一个前馈降噪卷积神经网络用于图像的降噪，使用了更深的结构、残差学习算法、正则化和批量归一化等方法提高降噪性能。与使用许多残差单元的残差网络不同，DnCNN使用单个残差单元来预测残差图像。干净图片为x，噪声为v，那么噪声图像是y＝x+v。残差学习不是让网络直接根据y预测出干净图像x，而是让残差单元R(y)预测v，那么干净图像就是y-R(y)。另一方面DnCNN结合残差学习和BN可以大幅度提高和加速降噪模型的训练。DnCNN的优势是可以处理未知噪声水平的高斯降噪。

GCBD

GCBD通过统计方法找到平滑图像块(smooth patch)，从中抽取噪声图像块：首先在含有噪声的图像上，以全局步长sg滑动截取全局图像块pi；然后在全局图像块pi上，以局部步长sl滑动截取局部图像块若全局图像块pi中所有的满足如下性质(公式和)，则为平滑图像块(smooth patch)，添加到集合S中：

遍历所有的图像最终得到平滑图像块集合S＝{s₁,s₂,...,s_t}，然后各自减去各自的均值获取噪声块集合：

V＝{v₁,v₂,...,v_t}，v_i＝s_i-Mean(s_i) (3)

最后用WGAN-GP来模拟噪声块集合的噪声分布，从而可以生成更加丰富多样的噪声。

Noise2Noise

在使用深度学习方法进行图像降噪时，通常需要大量的训练图像样本对，即有噪声的图像和降噪的图像，但是降噪的图像往往很难获得，比如在摄影中。长时间曝光才可以得到无噪音的照片。在红外图像中，获得无噪声图像是比较困难的。

Noise2Noise的作者提出了一种不需要无噪声图片作为标签的降噪方法。该方法非常有趣，实现起来也很简单。即：输入和输出都是有噪声的图片(输入噪声是人工加噪，简单的噪声分布开始，0均值的高斯噪声,脉冲噪声，伯努利噪声，蒙特卡洛噪声等)。理论证明在许多图像修复问题中，只需要噪声数据可以恢复出无噪声的数据。

发明内容

本发明的目的在于提供一种自适应生成对抗网络图像降噪方法，主要解决背景技术中存在的技术问题。

为实现上述发明目的，本发明提供的技术方案是：

一种自适应生成对抗网络图像降噪方法，将任意噪声图像分别送入到生成器G1和G2中，生成器G1对给定噪声图像中的噪声建模，以便可以学习从噪声图像中提取噪声图；

通过将提取的噪声图添加真实的无噪声图像来构建图像对生成噪声图像，用原带噪声的图像减去提取的噪声图得到降噪的图像ID1，即去噪图像；

将生成的噪声图像与真实的有噪声图像一起送到鉴别器D1中并鉴别真假；

有噪声的图像被送到生成器G2后，G2的任务是尝试学会从有噪声的图像中生成干净的降噪图像ID2，通过将生成的干净降噪图像ID2、之前得到的降噪图像ID1和真实的无噪声图像送入到鉴别器D2中，在迭代中不断提升鉴别器的判定真假能力和生成器生成逼真图像的能力。

作为进一步优选地，所述生成器G1的模型架构是，第一层：Conv+ReLU，使用大小为3×3×c的64个滤波器生成64个特征图，这里c表示图像通道的数量，即，对于灰度图像，c＝1，对于彩色图像，c＝3；第二层15个残差块ResBlocks：使用大小为3×3×64的64个滤波器，并且在卷积和ReLU之间添加了批量归一化层BN；对于最后一层，使用大小为3×3×64的c个滤波器来重构输出。

作为进一步优选地，所述生成器G2的模型结构，包含三个跨步卷积块，九个残差块ResBlocks和两个转置卷积块，除了残差块外每个卷积模块的卷积层之后都添加了实例化标准化层IN。

Denoising image去噪图像，ResBlocks残差块，Ground Truth无噪声图像，FakeNoise image生成的噪声图像，

作为进一步优选地，所述鉴别器的网络结构，包括五个卷积模块，除了第一个和最后一个模块外，每个卷积层后面都是IN层和LeakReLU层。

在本发明的图像降噪方法中，并不需要成对的有噪声图像和干净图像；相反，生成器G1拥有构建图像对的作用。本发明提出的自适应生成对抗网络的核心思想是：当生成的噪声图像足够干净时，将这个噪声图像添加到任意无噪声的图像时，这个生成的噪声图像与真正的噪声图像应该是同分布的，鉴别器D1无法区分这两类图像。同理，从噪声图像中减去足够干净的噪声图像时，得到的干净图像放入鉴别器D2中时，应该无法被区分。

生成器名词解释：

生成器是一个生成图片的网络，它接收一张噪声图像作为输入，通过网络建立噪声图像与噪声(或无噪声图像)的映射关系。生成器主要用来学习真实图像分布从而让自身生成的图像更加真实，以骗过鉴别器。

通过列表生成式，可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。所以，如果列表元素可以按照某种算法推算出来，那是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，一边循环一边计算的机制，称为生成器(Generator)，要创建一个Generator，有很多种方法，例如只要把一个列表生成式的[]改成()，就创建了一个Generator。

鉴别器名词解释：

鉴别器则需要对接收的图片进行真假判别。对于给定的真实图片(real image)，鉴别器要为其打上标签1；对于给定的生成图片(fake image)，鉴别器要为其打上标签0；对于生成器传给鉴别器的生成图片，生成器希望辨别器打上标签1。在整个过程中，生成器努力地让生成的图像更加真实，而鉴别器则努力地去识别出图像的真假，这个过程相当于一个二人博弈。随着时间推移，生成器和鉴别器不断地进行对抗，最终两个网络达到了一个动态均衡：生成器生成的图像接近于真实图像分布，而鉴别器识别不出真假图像，对于给定图像的预测为真的概率基本接近0.5(相当于随机猜测类别)。

不考虑噪声图像的噪声类型，端到端的降噪体系结构使得本发明所述的方法对于任意噪声都适用。

由于现实原因，很难得到成对的噪声图像与真实干净图像对去进行网络训练，在本发明所述的方法中，可以通过对某类噪声图像的噪声进行学习，并将真实干净图像加入该类噪声得到期待的训练图像对。

为了验证方法的有效性和竞争力，本发明在两个不同数据集上对方法进行了验证，与几种流行的降噪方法进行了比较分析。

与现有技术相比，本发明的有益效果如下：

可对任意类型有噪声的图像进行学习降噪。

附图说明

图1为本发明原理框图；

图2是生成器G1的网络架构；

图3是生成器G2的网络架构；

图4是鉴别器的网络架构；

图5是具有高斯白噪声(标准方差σ＝15)的图像测试集(Flir数据集)的结果；

图6是具有高斯白噪声(标准方差σ＝25)的图像测试集(Flir数据集)的结果；

图7是具有高斯白噪声(标准方差σ＝50)的图像测试集(Flir数据集)的结果；

图8是具有泊松噪声的图像测试集(Flir数据集)的结果；

图9是具有高斯白噪声(标准方差σ＝15)的图像测试集(LTIR数据集)的结果；

图10是具有高斯白噪声(标准方差σ＝25)的图像测试集(LTIR数据集)的结果；

图11是具有高斯白噪声(标准方差σ＝50)的图像测试集(LTIR数据集)的结果；

图12是具有泊松噪声的图像测试集(LTIR数据集)的结果；

图13是通过SIFT算法对降噪图像与无噪声图像进行匹配的结果(左边图像：无噪声图像，右边：降噪图像)；

图14是降噪图像目标检测结果。

图中：1是Conv层是卷积层，2是IN层是实例化标准化层，3是Relu修正线性单元，4是DeConv反卷积层，5是ResBlocks残差块，6是Tanh激活函数，7是BN批量归一化层，8是LeakyRelu带泄露修正线性单元；0urs是指采用本发明的方法进行图像处理。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1-4，本发明提供的详细技术方案是：

通过将提取的噪声图添加真实的无噪声图像来构建图像对生成噪声图像，用原带噪声的图像减去提取的噪声图得到降噪的图像ID1；

有噪声的图像被送到生成器G2后，G2的任务是尝试学会从有噪声的图像中生成干净的降噪图像ID2，通过将生成的干净降噪图像ID2、之前得到的降噪图像ID1和真实的无噪声图像送入到鉴别器D2中，在迭代中不断提升鉴别器的判定真假能力和生成器生成逼真图像的能力；

所述生成器G1的模型架构是，第一层：Conv+ReLU，使用大小为3×3×c的64个滤波器生成64个特征图，这里c表示图像通道的数量，即，对于灰度图像，c＝1，对于彩色图像，c＝3；第二层15个残差块ResBlocks：使用大小为3×3×64的64个滤波器，并且在卷积和ReLU之间添加了批量归一化层BN；对于最后一层，使用大小为3×3×64的c个滤波器来重构输出；

所述生成器G2的模型结构，包含三个跨步卷积块，九个残差块ResBlocks和两个转置卷积块，除了残差块外每个卷积模块的卷积层之后都添加了实例化标准化层IN。

所述鉴别器的网络结构，包括五个卷积模块，除了第一个和最后一个模块外，每个卷积层后面都是IN层和LeakReLU层。

本发明降噪方法使用PyTorch深度学习框架实现了所有模型，使用FLIR_ADAS_1_3数据集和LTIR数据集在具有Intel(R)Core(TM)i7-8700 CPU@3.20GHz(12CPUs)处理器，芯片类型为GeForce GTX 1660Ti，32GiB内存的台式机上进行训练；

使用本发明降噪方法的实验结果如下，并与现有技术中5种主流方法进行了对比比较，结果如下：

Flir数据集

FLIR_ADAS_1_3数据集提供了带注释的热成像数据集和对应的无注释RGB图像，用于训练和验证神经网络。数据是由安装在车上的RGB相机和热成像相机获取的；数据集总共包含14452张红外图像，其中10228张来自多个短视频；4224张来自一个长为144s的视频；所有视频都来自街道和高速路；大多数图片的采样率为1秒两帧，其中视频的帧率为1秒30帧；少数环境中目标较少时，采样率为1秒1帧；在实验中，将10228张8bit的红外图像分为8862张图像训练集和1366张图像的测试集；

表1、高斯白噪声测试图像上降噪图像的平均PSNR值和运行时间

Psnr(15)

Time(15)

Psnr(25)

Time(25)

Psnr(50)

Time(50)

BM3D

30.95dB

27.323s

29.85dB

27.588s

28.28dB

32.451s

DnCNN

27.85dB

0.037s

22.91dB

0.038s

27.86dB

0.037s

Noise2Noise

28.78dB

1.541s

28.58dB

1.562s

17.30dB

1.545s

GCBD

15.05dB

0.360s

15.05dB

0.495s

15.04dB

0.356s

GRDN

30.49dB

0.705s

28.75dB

0.715s

25.56dB

0.711s

Ours

32.76dB

0.049s

30.74dB

0.050s

28.34dB

0.050s

图5显示了具有高斯白噪声(标准方差σ＝15)的图像测试集的结果。图6显示了具有高斯白噪声(标准方差σ＝25)的图像测试集的结果。图7显示了具有高斯白噪声(标准方差σ＝50)的图像测试集的结果。图8展示了具有泊松噪声的图像测试集的结果。从图5-8中可以看出，本发明提出的图像降噪方法在不同级别的噪声图像中，都具有较好的降噪效果。表1展示了不同降噪方法在FLIR数据集上的定量结果比较，本发明提出的图像降噪方法在各个级别的噪声图像降噪工作中都得到了最高的PSNR，这与降噪图像的视觉效果是一致的。

LTIR数据集

LTIR数据集是用于评估短时间内单个对象(STSO)跟踪的热红外数据集。当前，只有一个版本可用，版本1.0：由20个红外热序列组成，平均长度为563帧。该数据集是2015年视觉对象识别(VOT)挑战赛的子挑战。本实验中，我们将其中11262个8bit的图像分为9010张图像的训练集和2252张图像的测试集。

图9显示了具有高斯白噪声(标准方差σ＝15)的图像测试集的结果。图10显示了具有高斯白噪声(标准方差σ＝25)的图像测试集的结果。图11显示了具有高斯白噪声(标准方差σ＝50)的图像测试集的结果。图12展示了具有泊松噪声的图像测试集的结果。从图中可以看出我们提出的方法恢复出的干净图像拥有更好的细节特征。当σ＝50时，大多数方法无法达到降噪的目的，而我们提出的方法还是得到了较好的图像。表2展示了不同降噪方法在ITIR数据集上的定量结果比较。表3展示了在泊松噪声测试图像上降噪图像的平均PSNR和降噪运行时间。从表中可以看出，我们提出方法的运行时间虽然比DnCNN方法长，但从PSNR提高的程度来看，这点时间代价还是值得的。BM3D方法的平均PSNR与我们相近，但它的时间代价要远高于我们。

表2高斯白噪声测试图像上降噪图像的平均PSNR值和运行时间

Psnr(15)

Time(15)

Psnr(25)

Time(25)

Psnr(50)

Time(50)

BM3D

38.60dB

27.552s

35.57dB

27.526s

30.59dB

32.448s

DnCNN

28.53dB

0.034s

23.70dB

0.035s

17.76dB

0.035s

Noise2Noise

29.04dB

1.474s

28.85dB

1.472s

28.88dB

1.480s

GCBD

20.93dB

0.308s

20.92dB

0.306s

20.91dB

0.297s

GRDN

36.72dB

0.731s

33.20dB

0.732s

26.82dB

0.734s

Ours

40.23dB

0.050s

38.06dB

0.050s

34.99dB

0.050s

表3泊松噪声测试图像上降噪图像的平均PSNR值和运行时间

使用高级视觉任务比较降噪结果

包括图像降噪在内的基础视觉任务都是为高级视觉任务服务的，为了进一步验证本发明的图像降噪方法，将几种方法产生的降噪图像与真实的无噪声图像进行匹配。尺度不变特征变换(SIFT)是特征点领域高斯图像梯度统计结果的一种表示，是一种常用图像局部特征提取算法。在匹配结果中，匹配点数量可以作为匹配质量的标准，同时对应的匹配点也可判断出两幅图像局部特征的相似性。图13展示了通过SIFT算法对降噪图像与无噪声图像进行匹配的结果。从数量上可以看出，本发明的图像降噪方法产生的降噪图像获得了比其他方法更多的正确匹配对。

在发明的验证实验中，使用经典的YOLO方法进行降噪图像目标检测，由图13可以看出，本发明的图像降噪方法生成的降噪图像具有更好的检测结果，能检测出更多的目标，如：图14中位于第4列的第3幅图，只有本发明的降噪图像检测出了右下角的自行车。

本发明的图像降噪方法适用于任意噪声图像的自适应生成对抗网络框架，根据红外图像的特殊性，使用了多个残差块构建深度学习模块，使生成的降噪图像获得更多的细节特征。与其他方法相比，本发明的图像降噪方法能够学习噪声本身的信息，达到图像降噪的目的同时还可以对数据集进行增广，从干净的图像生成匹配的具有特定噪声的图像，本发明也从多个角度验证了提出方法的有效性。

上述实施步骤的重新组合都是本发明可以预见的技术效果。

尽管已经示出描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种自适应生成对抗网络图像降噪方法，其特征在于，将任意噪声图像分别送入到生成器G1和G2中，生成器G1对给定噪声图像中的噪声建模，以便可以学习从噪声图像中提取噪声图；

所述生成器G1的模型架构是，第一层：Conv + ReLU，使用大小为3×3×c的64个滤波器生成64个特征图，这里c表示图像通道的数量，即，对于灰度图像，c = 1，对于彩色图像，c =3；第二层15个残差块ResBlocks：使用大小为3×3×64的64个滤波器，并且在卷积和ReLU之间添加了批量归一化层BN；对于最后一层，使用大小为3×3×64的c个滤波器来重构输出；

所述生成器G2的模型结构，包含三个跨步卷积块，九个残差块ResBlocks和两个转置卷积块，除了残差块外每个卷积模块的卷积层之后都添加了实例化标准化层IN；