CN112837232B

CN112837232B - 一种水下图像增强及细节恢复的方法

Info

Publication number: CN112837232B
Application number: CN202110039082.0A
Authority: CN
Inventors: 段利亚; 牛黎明; 董向量; 贾欣鑫; 安逸飞; 巩龙翔
Original assignee: Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Current assignee: Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-10-04
Anticipated expiration: 2041-01-13
Also published as: CN112837232A

Abstract

本发明公开一种水下图像增强及细节恢复的方法，具体步骤为利用不同海域、不同深度的水下图像作为实验数据形成，搭建神经网络模型，利用数据样本训练生成对抗网络，生成对抗网络包括生成器和判别器；训练步骤为：将第一个输入图像与第二个输入图像输入生成器，经过生成器处理生成新的图像，标记为假，将生成器生成的图像与标签图像同时输入判别器，判别器会判断出图像的真假；然后利用目标损失函数反向传播训练网络，从而得到超分辨率的图像。相比于其他深度学习方法，本专利能够同时实现水下图像的增强以及超分辨率并且计算量更小。

Description

一种水下图像增强及细节恢复的方法

技术领域

本申请属于图像处理领域，具体涉及一种水下图像增强及细节恢复的方法。

背景技术

随着技术的进步和人类的发展，水下机器人已经被广泛的应用于海洋生物检测与水下设施检查。水下机器人利用视觉技术指导水下作业，通过图像做出分析与决策。但由于水下环境复杂，特别是近海区域，水中包含着大量的悬浮粒子与泥沙，自然光在水中发生散射现象，使得水下机器人获取的图像模糊化。同时又由于水下地形的限制，机器人无法近距离拍摄目标，或者因为拍摄设备快速的移动，导致图像某些感兴趣区域分辨率低，图像缺少细节，从而使得水下机器人无法作出准确的判断，进而影响作业。此外，海水对自然光有吸收作用，大约在水下5米的地方红色光会消失，随着深度的逐步增加橙色光与黄色光相继被吸收，这会导致水下图像呈现绿色状态，当下潜到30米左右绿色光消失，此时水下图像呈现蓝色状态，所以不同水深处的图像的颜色具有不同偏差。因此，原始拍摄的水下图像在使用之前需要进行包括去噪与颜色校正等功能的图像增强处理与用于细节恢复的超分辨率处理。

现有的实现水下图像增强的方法可分为三类：非基于模型的方法、基于模型的方法和基于深度学习的方法。相比于传统图像处理的方法，基于深度学习的方法具有简单，快速等优点。但是，现有的基于深度学习的方法中大多数只是针对某一问题而设计的，例如水下图像颜色校正，水下图像去噪等，能够同时处理多项任务的方法较少。并且，对于水下图像超分辨率的研究也有很多的不足，还具有大量的提升空间。

发明内容

基于上述问题，本申请提供一种可以实现图像增强和超分辨率的算法，提高水下机器人的作业性能。其优点在于，可以利用一个网络同时实现水下图像的增强与超分辨率，并且采用了GhostNet网络结构，节省了大量的计算资源。同时成功的将SFM技术应用于水下图像的超分辨率，提高了网络的性能。与传统方法相比，该网络实现简单，泛化能力强，不需要参数调节，能够快速的大批量处理水下数据。其技术方案为，

1.一种水下图像增强及细节恢复的方法，包括如下步骤，

S1.数据采集：采集不同海域、不同深度的水下图像作为实验数据；

S2.数据处理：

S21.将采集到的所有的原始水下图像首先进行双三次下采样放缩成低分辨率图像，然后将低分辨率图像进行SFM处理，作为神经网络的第一个输入图像；

S22.将第一个输入图像进行白平衡处理得到第二个输入图像；

S23.对原始水下图像进行增强作为神经网络的标签图像，标记为真，将第一个输入图像、第二个输入图像以及增强后的标签图像组成数据样本；

S3.搭建神经网络模型，对抗网络包含两部分，第一部分是生成器，用于生成图像，第二部分是判别器，用于判别图像；

S4.训练神经网络：将第一个输入图像与第二个输入图像输入生成器，经过生成器处理生成新的图像，标记为假，将生成器生成的图像与标签图像同时输入判别器，判别器会判断出图像的真假；然后利用生成器和判别器各自目标损失函数反向传播训练网络，从而使得图像实现增强，同时实现超分辨率。

进一步的，所述生成器包括图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块；

所述生成器生成新的图像过程为，第一个输入图像与第二个输入图像依次经过图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块后输出新的图像。

进一步的，所述判别器包括多个相同尺寸的卷积，采用PatchGAN网络结构。

进一步的，所述图像融合模块是将相同尺寸的第一个输入图像和第二个输入图像拼接在一起，并将两张图像在通道的维度上进行拼接，拼接后的图像的宽度和高度没有变化，通道数变为了原先单幅图像的2倍。

进一步的，所述特征提取模块用来提取图像不同尺度的信息，具体过程为，

步骤一、将拼接后的图像分别进行K种不同尺寸的卷积运算，不同尺寸的卷积对应着不同的感受视野，因此可以提取不同尺度的信息，每个卷积都将拼接后的图像尺寸由W*H*C映射成尺寸为W*H*2C的特征图，其中H为高度，W为宽度，C为通道数量；

步骤二、将K种不同尺寸卷积后的结果进行通道维度的拼接，拼接成一个为W*H*2CK的特征图，利于融合多尺度信息。

进一步的，所述图像增强模块可以实现图像颜色的校正与增强，包括多个结构相同的GhostNet块，所述GhostNet块由不同的卷积核组成，激活函数使用relu，同时为了减少网络参数，将BN层去掉，节约计算资源。

进一步的，所述超分辨率模块首先利用upsample+3x3卷积的模式将特征图像扩大2倍，然后再次进行upsample+3x3卷积再将特征图像扩大2倍，实现4倍的超分辨率，最后经过卷积后输出图像。

有益效果

本专利是基于深度学习的方法，使用的生成对抗网络融合和了水下白平衡图像特征，生成对抗网络的生成器采用了GhostNet网络结构，该网络结构能够大量减少计算资源，提升计算速度。并且还使用了SFM方法处理图像，提高了图像超分辨率质量。该方法相比于传统方法具有快速、简单等优势，相比于其他深度学习方法，本专利能够同时实现水下图像的增强以及超分辨率并且计算量更小。

概念解释

SFM是一种图像处理方式，该方法在学习阶段随机屏蔽了一些训练图像的高频信息，使得在图像超分辨率任务中能够在给定较低频率信息的情况下改善网络对高频信息的预测。SFM的具体实现过程为：首先利用DCT(Discrete Cosine Transform)将图像变换到频域，然后用随机掩码与变换到频域的图像按通道进行相乘，最后再进行逆DCT，将图像变换回来。

附图说明

图1为根据本发明实施例的数据采集到实现水下图像增强以及超分辨率的具体实施过程，即本发明工作流程图；

图2为根据本发明实施例搭建的神经网络，是一种生成式对抗网络模型，包括生成器G与判别器D两个部分。

图3为本发明图2中生成器G的各层特征以及网络参数图；

图4为本发明图2中判别器D的各层特征以及网络参数图，是将输入图像转化为Patch的整体流程。

图5是本发明s3中GhostNet块的具体实施过程以及网络组成。

图6是本发明与其他相关方法的实验对比图，以及本发明最终的图像增强效果。

具体实施方式

以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。

一种水下图像增强及细节恢复的方法，包括如下步骤，

S1.数据采集：采集不同海域、不同深度的水下图像作为实验数据，因为不同海域的图像浑浊度不一样，因此图像清晰程度不一样，不同深度的图像颜色偏蓝、偏绿的程度不一样，也就是说图像颜色失真程度不一样；而不同海域的水下失真图像差距较大(有的海域水质较为清晰拍摄的图像效果较好，有的海域泥沙颗粒较多拍摄的图像较差)，如果只用采用某一海域的失真图像训练网络，那么会导致网络泛化能力弱。因此，利用水下潜航器在不同海域以及不同深度拍摄多种水下图像数据(因为光的吸收的影响，不同深度拍摄的图像颜色有差异，有的偏绿有的偏蓝)。为了保证采集的水下的图像的多样性，以此来提高网络的泛化能力。

S2.数据处理：

双三次插值是一种复杂的插值方式，通过双三次差值的方式改变图像的大小，下采样就是利用该方法缩小图像；

分辨率的高低是相对的概念，简单的来说可以将任何分辨率的图像进行4倍放大，被放大的图像称之为低分辨率图像，放大后的图像称之为高分辨率图像，本文实验的低分辨率图像是150x105，高分辨率是600x420)。

S22.将第一个输入图像进行白平衡处理得到第二个输入图像；

S23.对原始水下图像进行增强作为神经网络的标签图像(原始水下图像进行双三次下采样放缩成600x420，然后增强作为标签图像)，标记为真，将第一个输入图像、第二个输入图像以及增强后的标签图像组成2000个数据样本；

S3.搭建神经网络模型，利用2000个数据样本生成对抗网络，生成对抗网络包含两部分，第一部分是生成器，用于生成图像，第二部分是判别器，用于判别图像；

所述生成器包括图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块；所述判别器包括多个相同尺寸的卷积，如图4所示。

所述生成器生成新的图像过程为，原始水下图像依次经过图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块图像融合模块后输出新的图像。

图像融合模块用来融合第一个输入图像(水下失真图像)和第二个输入图像(水下白平衡图像)，使两张图像拼接在一起。两张输入图像的尺寸都为150x105x3，其中150x105代表图像的宽度和高度，3代表图像的通道数，利用torch.cat命令将两张图像在通道的维度上进行拼接，拼接后的图像尺寸为150x105x6，宽度和高度没有变化，通道数变为了原先单幅图像的2倍。白平衡是图像增强的一种常见的方法，对水下图像进行白平衡处理可以起到部分校正颜色的作用，因此图像融合模块的目的是希望网络在实现图像增强的过程中，能够利用水下白平衡图像的特征信息，从而提高网络的增强效果。

特征提取模块用来提取图像不同尺度的信息，将融合后的图像分别进行三种不同尺寸的卷积运算，分别为3x3、5x5、7x7卷积运算，不同尺寸的卷积核对应着不同的感受视野，因此可以提取不同尺度的信息，每个卷积都将融合后的图像尺寸由150x105x6映射成尺寸为150x105x12的特征图。最后将三种卷积后的结果进行通道维度的拼接，拼接成一个150x105x36的特征图。利用多种卷积核分别进行卷积可以提取更加丰富的信息，并将特征图拼接到一起，这有利于提高网络的实现效果。

图像增强模块可以实现图像颜色的校正与增强，图像增强模块由12个GhostNet块组成，每个GhostNet块具有相同的结构，如图5所示，GhostNet块包含两个Ghost module，Ghost module主要由1x1和3x3卷积组成，激活函数使用的是relu，同时为了减少网络参数，经试验证明将BN层去掉，不影响实验，还可以节约计算资源。GhostNet块最后将输出与输入进行相加得到最终输出。一般来说更深的网络拥有更好的表现能力，但随着网络的加深，会给网络带来参数过多的问题，使得网络难以训练，而本申请采用的GhostNet块能够在保证结果质量的情况下节约计算资源。经过图像增强模块将输入为150x105x36的特征图，映射为150x105x32。

超分辨率模块用来实现图像的超分辨率，经过图像增强模块的特征图尺寸为150x105x32，首先利用torch.nn.upsample命令将特征图的分辨率扩大为原先的两倍变为300x210x32，然后在不改变特征图尺寸的情况下进行3x3卷积。为了实现4倍超分辨率，再次利用torch.nn.upsample命令将特征图分辨率扩大，同样的再跟一个3x3卷积，最后特征图分辨率变为600x420x32。经过超分辨率后的特征图还需要经过一系列3x3、5x5、1x1卷积，最终输出高分辨率无失真图像。

在本专利提出的方法中，SFM是在整个网络之前进行的，不是所有的图像都需要进行SFM，只是随机的将部分低分辨率图像，即网络的输入图像，进行处理。在训练过程中总共有2000张第一个输入图像，在这2000个“第一个输入图像”中进行随机的SFM处理，超分辨率模块是生成器的一个部分，用来实现超分辨率的，输入网络的图像经过SFM处理后会提升超分辨率的效果。值得注意的是，对于超分辨，SFM实际上是通过随机屏蔽不同的频带来模拟不同模糊核的效果。在图像超分辨率任务中，SFM改进了现有网络的恢复性能，它允许网络更好地恢复频率分量，避免过拟合，提高了图像超分辨率质量。

生成对抗网络的判别器选用的是PatchGAN网络结构。PatchGAN和普通GAN判别器是有区别的，普通的GAN判别器是将输入映射成一个实数，即输入样本为真样本的概率。PatchGAN将输入映射为N*N的patch(矩阵)X，相比于传统判别器，PatchGAN能够更加关注细节信息。图像进入判别器，首先经过四次3x3卷积来减少图像的分辨率，然后利用torch.nn.zeropad2d命令进行零填充，零填充的目的是调整卷积后特征图的分辨率，最后再经过3x3卷积得到patch。判别器不同于生成器，采用的是leakyrelu激活函数，而且加上了BN层。BN为Batch Normalization，其中Normalization是数据标准化(归一化，规范化)，Batch可以理解为批量。BN层可以加快网络的收敛速度并且解决梯度消失的问题，但是在水下图像处理领域，BN层会带来负面影响，所以生成器去掉了BN层。对于判别器BN层不需要去掉，因为它不涉及图像的生成。

S4.训练神经网络：将第一个输入图像与第二个输入图像输入生成器，经过生成器处理生成新的图像，标记为假，将生成器生成的图像与标签图像同时输入判别器，判别器会判断出图像的真假；然后利用各自目标损失函数反向传播训练网络，从而使得图像增强和实现超分辨率。

该网络模型是在pytorch框架下实现的，利用一台CPU为Intel(R)Xeon(R)Gold6138，GPU为RTX2080super的工作站训练网络。训练过程采用的Adam优化器，初始学习率设置为0.0003，在第10个Epoch时衰减为原来的0.5，总共经过20个Epoch完成训练。

生成器训练过程：将第一个输入图像与第二个输入图像输入生成器，经过生成器处理生成新的图像，然后利用损失函数通过反向传播训练生成器(此处损失函数是用来计算生成图像与标签图像之间的差值即损失值，具体的计算方法参照损失函数的公式，例如L1损失函数L₁＝E(x,y)[‖y-G(x)‖₁]

其中，E(·)代表期望；y代表水下高分辨率无失真图像，即标签图像，真值；G(·)代表生成器；x代表水下低分辨率失真图像，即经过生成器处理生成新的图像，标记为假。将水下低分辨率失真图像x输入生成器G得到G(x)，求水下高分辨率无失真图像y与G(x)的绝对值的期望就是得到了损失值，知道损失值后，利用反向传播调整生成器参数，使得生成器生成的图像与标签图像的损失值最小。

判别器训练过程：将生成器生成的图像(假)与标签图像(真)同时输入判别器。生成器生成的图像(假)进入判别器后经过卷积变为尺寸为(1,26,37)的张量(张量概念是矢量概念的推广，零阶张量为标量，第一阶张量为向量，第二阶张量为矩阵)，将它与尺寸为(1,26,37)数值全部由0组成的张量计算均方误差；标签图像(真)进入判别器后经过卷积变为尺寸为(1,26,37)的张量，将它与尺寸为(1,26,37)数值全部由1组成的张量计算均方误差；然后将两张图像计算出的均方误差相加，通过反向传播训练判别器(此处损失函数用来计算判别器生成的张量与给定张量的差值即损失值，知道损失值后利用反向传播调整判别器参数，使得判别器生成的张量与给定张量的损失值最小，通过判别器与生成器的反复迭代训练，从而实现图像增强和超分辨率。

反向传播：反向传播的训练过程就是通过损失函数来实现的。得到损失函数之后，损失函数的值越小越好。这就转化成一个微积分中的优化问题，即，要求在什么情况下损失函数的值最小，也就是求损失函数的最小值。一个函数的导函数，表示函数在某个点上的瞬间变化率，求损失函数对权重矩阵的每一维参数的偏导数，就可以算出这一维参数对损失函数变化的影响效率，用权重参数W-(学习步长)*(影响值)，

如果在某个区间上导函数的值为负，则在这个区间上原函数是单调递减的，相反则原函数是单调递增的。就得到了这一维参数新的值，这样经过反复学习，就可以使损失函数逐步趋于最小值，也就是使网络的估计值更加准确。

S5.测试神经网络：从不同的潜水视频中截取了多张真实水下图像作为测试数据，然后将测试图像输入神经网络得到增强后的图像。为了验证增强后图像的质量，选取了其他方法生成的增强图像进行对比。测算图像的PSNR、SSIM以及UIQM值，定量比较图像的优异。实验表明(表1，图6)，本文所提方法增强后的图像在视觉上更加优异。

表1实验对比数据

对比三个模型，其中FUnIE-GAN只能够实现水下图像的增强，SRDRM-GAN只能够实现水下图像的超分辨率，DeepSESR可以实现水下图像的增强与超分辨率。

PSNR即峰值信噪比，是一种评价图像的客观标准，为了衡量经过处理后的图像质量，通常会参考PSNR值的结果，PSNR值越大效果越好。SSIM(Structural SIMilarity)，结构相似性，是一种衡量两幅图像相似度的指标，SSIM使用的两张图像中，一张为未经压缩的无失真图像，另一张为失真后的图像，因此可以作为超分辨率的评价标准，SSIM取值0-1之间，越接近1效果越好。UIQM是一种基于人眼视觉系统激励的无参考水下图像质量评价指标，其针对水下图像的退化机理与成像特点，采用色彩测量指标(UICM)，清晰度测量指标(UISM)，对比度测量指标(UIConM)作为评价依据，将UIQM表示为三者的线性组合。其值越大，表示图像的颜色平衡、清晰度、对比度越佳。

FUnIE-GAN只有图像增强的功能因此，测试时输入的图像为高分辨率水下失真图像，SRDRM-GAN只有超分辨的功能，因此测试时输入图像为低分辨率水下无失真图像，DeepSESR与本专利的功能相同既能够图像增强又能够超分辨率，因此输入图像为低分辨率水下失真图像。

FUnIE-GAN比本专利在三项指标中得分高是因为输入图像已经是高清图像只需增强即可，相较于本申请，FUnIE-GAN相较于本申请其实现功能较为单一。SRDRM-GAN比本专利在三项指标中得分略高是因为输入图像为无失真图像，只需进行超分辨率即可，因此在评分中更有优势。真正与本专利模型功能相似能形成对比的是DeepSESR。DeepSESR在指标上高于本文提出的模型，但在视觉效果中低于本专利，且DeepSESR处理后的图像有明显的颜色偏差。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于举例，本技术领域的技术人员在本发明的实质范围所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种水下图像增强及细节恢复的方法，其特征在于，包括如下步骤，

S2.数据处理：

SFM的具体实现过程为：首先利用DCT将图像变换到频域，然后用随机掩码与变换到频域的图像按通道进行相乘，最后再进行逆DCT，将图像变换回来；

S22.将第一个输入图像进行白平衡处理得到第二个输入图像；

所述生成器包括图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块；

所述生成器生成新的图像过程为，第一个输入图像与第二个输入图像依次经过图像融合模块、特征提取模块、图像增强模块，以及超分辨率模块后输出新的图像；

所述图像融合模块是将相同尺寸的第一个输入图像和第二个输入图像拼接在一起，并将两张图像在通道的维度上进行拼接，拼接后的图像的宽度和高度没有变化，通道数变为了原先单幅图像的2倍；

所述图像增强模块可以实现图像颜色的校正与增强，包括多个结构相同的GhostNet块，所述GhostNet块由不同的卷积核组成，激活函数使用relu，同时为了减少网络参数，将BN层去掉，节约计算资源；

所述超分辨率模块首先利用upsample+3x3卷积的模式将特征图像扩大2倍，然后再次进行upsample+3x3卷积再将特征图像扩大2倍，实现4倍的超分辨率，最后经过卷积后输出图像；

2.根据权利要求1所述的一种水下图像增强及细节恢复的方法，其特征在于，所述判别器包括多个相同尺寸的卷积，采用PatchGAN网络结构。

3.根据权利要求1所述的一种水下图像增强及细节恢复的方法，其特征在于，所述特征提取模块用来提取图像不同尺度的信息，具体过程为，

步骤二、将K种不同尺寸卷积后的结果进行通道维度的拼接，拼接成一个为W*H*2CK的特征图。