CN117391975B - 一种高效的实时水下图像增强方法及其模型搭建方法 - Google Patents
一种高效的实时水下图像增强方法及其模型搭建方法 Download PDFInfo
- Publication number
- CN117391975B CN117391975B CN202311703528.0A CN202311703528A CN117391975B CN 117391975 B CN117391975 B CN 117391975B CN 202311703528 A CN202311703528 A CN 202311703528A CN 117391975 B CN117391975 B CN 117391975B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- underwater
- loss
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000004936 stimulating effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000016776 visual perception Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000014653 Carica parviflora Nutrition 0.000 description 1
- 241000243321 Cnidaria Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种高效的实时水下图像增强方法及其模型搭建方法,属于水下图像数据处理分析技术领域,以条件生成对抗网络模型cGAN为基础模型,将神经网络中所有层都替换成卷积层,构成全卷积条件生成对抗模型;在给定失真图像的源域X和增强图像的目标域Y的情况下,目标是学习一个映射G:X→Y,以实现自动图像增强;同时将全局相似性、图像内容、局部纹理及风格信息关联到目标函数中,以量化感知图像质量;使用未配对数据集和配对数据集分别进行训练与评估,得到一种高效的水下图像增强模型。可以学会从成对和非成对训练中提高感知图像质量,增强的图像显著提高了水下视觉感知任务的性能,为水下探测图像识别增强工作提供了可行方案。
Description
技术领域
本发明属于水下图像数据处理分析技术领域,尤其涉及一种高效的实时水下图像增强方法及其模型搭建方法。
背景技术
视觉引导的自主水下机器人(AUVs)是一种能够在水下环境中独立导航和执行任务的机器人,它依赖于视觉感知来识别和理解水下世界。这种机器人通常配备了相机或其他视觉传感器,通过拍摄水下图像来获取环境信息。然后,机器人使用这些图像来导航、执行任务和做出决策。这些机器人被广泛用于重要应用领域,如监测海洋物种迁徙和珊瑚礁,检查潜水电缆和残骸,水下场景分析,海床绘图,人机协作等。这些水下机器人面临的一个主要操作挑战是,尽管使用高端摄像头,但视觉感知往往受到能见度差、光线折射、吸收和散射、高度非结构化的场景等问题的严重影响。这些光学异常会在捕捉的图像中触发非线性失真,严重影响了基于视觉的任务的性能,如跟踪、检测和分类、分割和视觉伺服。快速准确的图像增强技术可以通过实时还原受损图像的感知和统计特性,来缓解这些问题。
现有技术中提供了一些底层解决方案,比如基于深度卷积神经网络(CNNs)和生成对抗网络(GANs)的几种模型,提供了学习增强感知图像质量的最新性能,这些模型使用大量成对或非成对数据。对于水下图像,一些基于GAN的模型和基于CNN的残差模型介绍了自动增强颜色、去雾和对比度调整方面的令人鼓舞的进展。然而不同的技术虽各具优势,但也存在一些缺点和挑战:
1.计算复杂性。许多现有的水下图像增强技术依赖于复杂的计算模型,这使得它们在实时应用中表现不佳。高度复杂的算法可能需要大量的计算资源,这对于自主水下机器人的嵌入式系统来说可能是一个挑战。
2.对水下环境的依赖。许多现有的水下图像增强技术对水下环境的特定属性有很强的依赖,如水质、光照条件和水下景观。这限制了它们在不同水下场景中的通用性。
3.有监督学习的需求。一些方法需要大量的有标签的训练数据,这在水下环境中不容易获取。这使得训练有监督学习模型变得困难。
4.滞后性。一些图像增强技术可能会导致图像处理的滞后,这对于需要实时感知的自主水下机器人来说是不可接受的。
5.对硬件要求。某些水下图像增强技术可能需要特殊的硬件或传感器,以便更好地适应水下环境。这可能会增加成本和复杂性。
6.模型泛化问题。一些技术可能在训练数据上表现出色,但在未见过的水下条件下性能不佳。这表明模型泛化能力有限。
发明内容
针对上述问题,本发明第一方面提供了一种高效的实时水下图像增强模型的搭建方法,包括以下过程:
S1,获取水下图像数据集,包括不同类型水域、不同拍摄角度和不同亮度条件下的水下环境图像;
S2,筛选图像并调整图像尺寸保持一致,通过数据增强扩增数据集,对数据集进行预处理获取未配对数据集和配对数据集;
S3,以条件生成对抗网络模型cGAN为基础模型,将神经网络中所有层都替换成卷积层,构成全卷积条件生成对抗模型IEIU-cGAN;在给定失真图像的源域X和增强图像的目标域Y的情况下,目标是学习一个映射G:X→Y,以实现自动图像增强;设定目标函数,同时将全局相似性、图像内容、局部纹理及风格信息关联到目标函数中,以量化感知图像质量;
S4,使用未配对数据集和配对数据集分别进行训练与评估,从而得到实时水下图像增强模型。
优选的,所述S2中未配对数据集是将质量好和质量差的图像分开,构成未配对数据;所述配对数据集是使用未配对的图像数据来训练Cycle GAN模型,使其能够学习好质量图像和差质量图像之间的域转换关系,然后利用已经经过学习的模型,对好质量图像进行一定程度的失真处理,以生成对应的差质量图像,从而形成配对数据。
优选的,所述S3中构建的全卷积条件生成对抗模型IEIU-cGAN,生成器部分采用U-Net架构,网络的输入设置为256×256×3,编码器e1-e5仅学习8×8大小的256个特征图,解码器d1-d5利用特征图和跳过连接的输入来学习生成256×256×3图像作为输出;网络是全卷积的,没有使用全连接层,此外,每个层次都采用4×4的滤波器的2D卷积,并接入Leaky-ReLU非线性激活函数和批归一化BN,同时,每个编码器的输出与对应的解码器相连。
优选的,所述S3中构建的全卷积条件生成对抗模型IEIU-cGAN,鉴别器采用PatchGAN架构;使用四个卷积层,将256×256×6的输入转换为16×16×1的输出,表示鉴别器的平均有效响应,在每个层次中,使用3×3的卷积滤波器,步幅为2;然后采用与生成器相同的方式应用非线性激活和批归一化。
优选的,所述S4中使用未配对数据集进行训练,具体为:
对于未配对训练,不强制执行全局相似性和内容损失的约束,目标是同时学习前向映射生成器GF:{a,c}→b和重构映射生成器GR:{b,c}→a,同时保持循环一致性,即要求原始图像转换后生成的图像再次经转换能变回原始图像;将循环一致性损失公式设定如下:
其中,a、b分别表示源域和目标域,c表示随机噪声;因此,无配对训练优化目标如下:
其中,Db(Da)是与生成器GF(GR)关联的鉴别器,缩放因子是一个经验调整的超参数;此处不强制使用额外的全局相似性损失项,因为/>使用L1范数作为损失的计算。
优选的,所述S4中使用配对数据集进行训练,具体为:
在目标函数中添加内容损失项,通过引导生成器G学习提高感知图像质量,以使生成的图像在全局外观和高级特征表示方面与相应的真实图像接近;另一方面,鉴别器D将丢弃具有局部不一致纹理和风格的生成图像,在配对训练的目标函数中使用以下损失项:
式中,,/>是根据经验调整的缩放因子作为超参数,/>表示某一层的特征图的逐像素损失作为内容损失,即增强图像和目标图像的特征表示之间的欧几里得距离,其表达式如下:
式中,表示图像内容函数,其作为高级特征,该方法是基于从预训练的VGG-19网络的block_conv2层提取得到作为内容损失。
所述S4中设定目标函数具体为:
基础模型cGAN损失函数表达为:
其中,为cGAN的优化目标即完成生成器和鉴别器的极小极大博弈,生成器G完成最小化/>,而鉴别器D完成最大化,E为数学期望,a为真实数据,a~b表示真实数据下的数据特征分布,a~c表示随机噪声的特征分布,D(b)表示鉴别器模型输出的概率,G(a,c)表示生成器输出的数据样本;
在IEIU-cGAN模型中,将三个额外的方面关联到了目标函数中,即全局相似性、图像内容、局部纹理及风格信息,以量化感知图像质量;
全局相似性:引入L1损失函数到目标函数中,以便生成器G能够从全局相似的空间中进行采样;这通过对生成的图像与目标图像之间的L1距离进行度量来实现,L1范式损失在优化过程中不容易引入图像模糊;
图像内容:在目标函数中增加内容损失项,这个损失项旨在激励生成器G生成与目标图像相似的内容,即类似于真实图像的特征表示;为了定义内容损失,使用预先训练的VGG-19网络中block5_conv2层提取的高级特征;
局部纹理和风格:Patch GAN对于捕获与局部纹理和风格相关的高频信息非常有效,因此通过鉴别器D来强制执行局部纹理和风格的一致性,以对抗方式使得生成的图像在局部具有与真实图像类似的纹理和风格特征。
本发明第二方面提供了一种高效的实时水下图像增强方法,其特征在于,包括以下过程:
获取实时水下图像;
将图像输入到如第一方面所述的搭建方法所搭建的水下图像增强模型中;
输出模型增强后的图像结果。
本发明第三方面还提供了一种高效的实时水下图像增强设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的水下图像增强模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,使处理器执行一种高效的水下图像增强方法。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述搭建方法所搭建的水下图像增强模型的计算机执行程序,所述计算机执行程序被处理器执行时,使处理器执行一种高效的水下图像增强方法。
与现有技术相比,本发明具有如下有益效果:
本发明提出的一种用于实时水下图像增强的全卷积条件IEIU-cGAN模型,设定了一个多模态客观函数,通过评估图像的整体内容、颜色、局部纹理和风格信息来训练模型。IEIU-cGAN可以学会从成对和非成对训练中提高感知图像质量,更重要的是,增强的图像显著提高了水下视觉感知任务的性能,例如目标检测、人体姿势估计和显著性预测。解决了背景技术中存在的若干问题,为水下探测图像识别增强工作提供了可行方案。
附图说明
为了更清楚地说明本发明或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述的仅仅是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明全卷积条件IEIU-cGAN模型结构图。
图2为本发明全卷积网络结合生成器中示意图。
图3为本发明中生成器U-Net网络结构图。
图4为本发明中鉴别器网络结构图。
图5为本发明训练生成网络的流程图。
图6为实施例2中水下图像增强设备的简易结构示意图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
本发明采用一种基于全卷积条件GAN的模型,该模型包括生成器和鉴别器,通过对抗训练的方式来学习如何将失真图像映射到增强后的图像。模型的大体搭建过程如下:
S1,获取水下图像数据集,包括不同类型水域、不同拍摄角度和不同亮度条件下的水下环境图像;
S2,筛选图像并调整图像尺寸保持一致,通过数据增强扩增数据集,对数据集进行预处理获取未配对数据集和配对数据集;
S3,以条件生成对抗网络模型cGAN为基础模型,将神经网络中所有层都替换成卷积层,构成全卷积条件生成对抗模型IEIU-cGAN;在给定失真图像的源域X和增强图像的目标域Y的情况下,目标是学习一个映射G:X→Y,以实现自动图像增强;设定目标函数,同时将全局相似性、图像内容、局部纹理及风格信息关联到目标函数中,以量化感知图像质量;
S4,使用未配对数据集和配对数据集分别进行训练与评估,从而得到实时水下图像增强模型。
本实施例结合具体数据,对上述过程展开进一步说明。
1.获取水下图像数据集。
选择适合水下环境的高质量相机,确保能够在水下获取清晰的图像。
选择不同类型的水域,以确保数据集具有多样性。
捕捉不同静态和动态场景的图像。以不同的角度和方向拍摄图像,获取更全面的信息。同时在不同的光照条件下进行拍摄,包括日光、阴天和夜晚。在不同深度采集图像,水下环境中的光照和颜色会随深度变化而不同;同时,可以从公开可用的视频中提取的图像作为数据集的一部分。
2.图像数据集预处理。
检查和移除低质量、模糊或不相关的图像。调整图像尺寸保持输入模型的一致性。对训练数据应用数据增强技术,增加数据的多样性。数据集分为质量差和质量好的图像,经过筛选,涵盖各种自然变化(例如场景、水体类型、光照条件等)。数据集经过如下处理:
对于视频数据,使用OpenCV读取视频文件。设定采样率为每秒提取2帧,利用cv2.VideoCapture逐帧读取视频,将提取的帧保存为图像文件。
对于图像数据,对拍摄到的图像选择需要的水下区域,根据兴趣区域截取图像,确保每个图像包含清晰可见的目标。
将帧提取图像和拍摄的图像混合一起,删除低质量或不清晰的图像,以保持数据集的一致性和高质量。并在部分图像中引入水下失真,如散射、模糊等,增加模型的鲁棒性。同时,对一些图像进行颜色变换,模拟不同水域的颜色特性。共生成数据集图像5000多张。
数据集包含了大量的水下图像,分为未配对数据集和配对数据集。数据集中有超过3000个配对实例和2000个无配对实例。
未配对数据是经过人工参与者预先准备的,将质量好和质量差的图像分开,构成未配对数据。并检查图像的多个属性(例如颜色、对比度和清晰度),同时,考虑场景是否在视觉上可解释,即前景/物体是否可识别。因此,未配对训练支持对水下图像质量的人类感知偏好建模。
在准备配对数据集时,利用基于CycleGAN的模型。在此过程中,使用未配对的图像数据来训练CycleGAN模型,使其能够学习好质量图像和差质量图像之间的域转换关系。然后,利用已经经过学习的模型,对好质量图像进行一定程度的失真处理,以生成对应的差质量图像,从而形成配对数据。此外,为增加数据的多样性,向数据集中添加来自ImageNet数据集和Flickr的一组水下图像。
进一步地,配对数据的生成通过使用CycleGAN来生成将有失真的水下图像(ID)转换成没有失真的图像(IC),得到一组成对图像数据集。假设给定两个数据集A和B,其中A包含没有失真的水下图像,B包含带有失真的图像。CycleGAN学习了一个映射F:A→B,将没有失真的图像映射到带有失真的图像。从这些成对数据中,训练一个生成器G,使其学会将有失真的图像转换成没有失真的图像。
进一步地,在CycleGAN的训练过程中,同时学习了一个映射G:B→A,这与要学习的函数F类似。
3.搭建全卷积条件生成对抗模型。
将水下图像增强问题视为一个图像到图像的映射问题。在这个问题中,有两个图像域,一个是原始失真的图像X,另一个是期望得到的增强后的图像Y,映射关系为:映射G:X→Y,以实现自动图像增强。
本发明以条件生成对抗网络(conditional GAN, cGAN)的模型为基础,在cGAN的基础上将神经网络中所有层都替换成卷积层构成全卷积,得到全卷积条件生成对抗模型(IEIU-cGAN),其模型结构图如图1所示。
全卷积(Fully Convolutional)是一种神经网络结构,其网络的所有层都是卷积层,没有全连接层。这种结构的关键特点在于它接受任意大小的输入,并输出相应大小的输出。
进一步地,全卷积模型由四个卷积块和两个全连接层组成,其中卷积块包含3D卷积层、3D最大池化层、3D批归一化、Leaky ReLU和Dropout,能够提升网络效率。全卷积网络应用于生成器部分的结构图如图2所示。
cGAN模型由生成器和鉴别器两部分构成。生成器的任务是学习如何将失真图像X转化为增强图像Y,而鉴别器的任务是判定一个图像是真实的(来自目标域Y)还是生成的(由生成器生成)。cGAN的目标是最小化生成器和鉴别器间的对抗性损失,基于此设计整体目标函数。生成器任务是将随机噪声和条件信息映射到与真实数据相似的输出。采用U-Net的架构。U-Net是一种编码器-解码器网络,其中编码器部分负责提取图像的特征,而解码器部分则负责将这些特征转化为增强后的图像。
生成器将随机噪声和条件信息传递到编码器,将编码器的输出传递到解码器生成数据。在此过程中,生成器的参数通过最小化对抗性损失和相似性损失进行优化。
U-Net架构是一个编码器-解码器网络(e1-e5,d1-d5),具有镜像层之间的连接,即在(e1,d5),(e2,d4),(e3,d2)和(e4,d4)之间。具体来说,每个编码器的输出与相应的镜像解码器连接在一起。
进一步地,在本发明中使用的IEIU-cGAN模型中,为实现快速推断,采用一个更简单的模型,参数更少。网络的输入设置为256×256×3,编码器(e1-e5)仅学习8×8大小的256个特征图。解码器(d1-d5)利用这些特征图和跳过连接的输入来学习生成256×256×3(增强后的)图像作为输出。网络是全卷积的,没有使用全连接层。此外,每个层次都采用4×4的滤波器的2D卷积,并接入Leaky-ReLU非线性激活函数和批归一化(BN)。
进一步地,在模型中,编码器部分由e1到e5表示,解码器部分由d1到d5表示。这两个部分之间有跳过连接,即每个编码器的输出与对应的解码器相连,这有助于更好地保留图像的细节信息。生成器网络具体结构如图3所示。
鉴别器负责判别生成的样本是真实数据还是生成的数据。鉴别器的输入是真实数据或生成器生成的样本,以及条件信息。鉴别器的输出是一个概率值,表示输入样本是真实数据的概率。
进一步地,本发明在cGAN模型中的鉴别器采用Patch GAN架构,Patch GAN是将输入图像划分为多个小块并为每个块输出一个二进制判别结果的结构,有助于更好地捕获图像的局部结构信息。
进一步地,鉴别器的目标是在对抗生成器的同时,尽量正确地分类真实数据和生成数据。它通过最小化对抗性损失来学习鉴别不同类别的样本。鉴别器网络结构如图4所示。使用四个卷积层,将256×256×6的输入(真实图像和生成的图像)转换为16×16×1的输出,表示鉴别器的平均有效响应。在每个层次中,使用3×3的卷积滤波器,步幅为2;然后采用与生成器相同的方式应用非线性激活和批归一化。
鉴别器的作用是判定输入图像是真实图像还是生成的图像。通过使用Patch GAN架构,能够有效地捕获图像的局部特征,这对于提高图像增强的效果非常重要。
标准的基于cGAN模型学习了一个映射关系为G:{a,c}→b,其中a(b)表示源(期望)域,c表示随机噪声,其优化目标可以表示为一个最大最小的博弈。cGAN损失函数表达为:
其中,为cGAN的优化目标即完成生成器和鉴别器的极小极大博弈,生成器G完成最小化/>,而鉴别器D完成最大化,E为数学期望,a为真实数据,a~b表示真实数据下的数据特征分布,a~c表示随机噪声的特征分布,D(b)表示鉴别器模型输出的概率,G(a,c)表示生成器输出的数据样本。在IEIU-cGAN中,将三个额外的方面关联到了目标函数中,即全局相似性、图像内容和局部纹理和风格信息,以量化感知图像质量。
进一步地,全局相似性:引入L1损失函数到目标函数中,以便生成器G能够从全局相似的空间中进行采样。这是通过对生成的图像与目标图像之间的L1距离进行度量来实现的。L1范式损失在优化过程中不容易引入图像模糊:
进一步地,图像内容:在目标函数中增加内容损失项,这个损失项旨在激励生成器G生成与目标(真实)图像相似的内容,即类似于真实图像的特征表示。为了定义内容损失,使用了预先训练的VGG-19网络中block5_conv2层提取的高级特征。
进一步地,局部纹理和风格:PatchGAN对于捕获与局部纹理和风格相关的高频信息非常有效。因此,通过鉴别器D来强制执行局部纹理和风格的一致性,以对抗方式使得生成的图像在局部具有与真实图像类似的纹理和风格特征。
4.模型训练并完成搭建。
对于配对训练,在目标函数中添加内容损失项,通过引导G学习提高感知图像质量,以使生成的图像在全局外观和高级特征表示方面与相应的真实图像接近。另一方面,D将丢弃具有局部不一致纹理和风格的生成图像。具体来说,在配对训练的目标函数中使用以下损失项:
式中,,/>是根据经验调整的缩放因子作为超参数。/>表示某一层的特征图的逐像素损失作为内容损失,即增强图像和目标图像的特征表示之间的欧几里得距离,其表达式如下:
式中,表示图像内容函数,其作为高级特征,该方法是基于从预训练的VGG-19网络的block_conv2层提取得到作为内容损失。
对于无配对训练,不强制执行全局相似性和内容损失的约束,因为成对的真实数据是不可用的。相反,目标是同时学习前向映射GF:{a,c}→b和重构GR:{b,c}→a,同时保持循环一致性,要求原始图像转换后生成的图像再次经转换能变回原始图像。将循环一致性损失公式制定如下:
其中,a,b分别表示源域和目标域,c表示随机噪声。因此,无配对训练目标如下:
其中,Db(Da)是与生成器GF(GR)关联的鉴别器,缩放因子是一个经验调整的超参数。在本发明中不强制使用额外的全局相似性损失项,因为/>使用L1范数作为损失的计算。
模型网络训练生成器与鉴别器的训练流程如图5所示。
本实施例提供了与目前已有模型的测试结果进行定量性能评估包括峰值信噪比(PSNR)和结构相似性(SSIM)以及对配对和非配对图像的图像质量测量值(UIQM),如表1所示,结果表明,IEIU-cGAN可以学会从成对和非成对训练中提高感知图像质量。
表1 测试数据集在不同模型的定量分析
实施例2:
如图6所示,本发明同时提供了一种高效的实时水下图像增强设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的水下图像增强模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种高效的水下图像增强方法。其中内部总线可以是工业标准体系结构(Industry StandardArchitecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图6是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的水下图像增强模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种高效的水下图像增强方法。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种高效的实时水下图像增强模型的搭建方法,其特征在于,包括以下过程:
S1,获取水下图像数据集,包括不同类型水域、不同拍摄角度和不同亮度条件下的水下环境图像;
S2,筛选图像并调整图像尺寸保持一致,通过数据增强扩增数据集,对数据集进行预处理获取未配对数据集和配对数据集;未配对数据集是将质量好和质量差的图像分开,构成未配对数据;所述配对数据集是使用未配对的图像数据来训练Cycle GAN模型,使其能够学习好质量图像和差质量图像之间的域转换关系,然后利用已经经过学习的模型,对好质量图像进行一定程度的失真处理,以生成对应的差质量图像,从而形成配对数据;
S3,以条件生成对抗网络模型cGAN为基础模型,将神经网络中所有层都替换成卷积层,构成全卷积条件生成对抗模型IEIU-cGAN;在给定失真图像的源域X和增强图像的目标域Y的情况下,目标是学习一个映射G:X→Y,以实现自动图像增强;设定目标函数,同时将全局相似性、图像内容、局部纹理及风格信息关联到目标函数中,以量化感知图像质量;
其中全局相似性:引入L1损失函数到目标函数中,以便生成器G能够从全局相似的空间中进行采样;这通过对生成的图像与目标图像之间的L1距离进行度量来实现,L1损失在优化过程中不容易引入图像模糊,L1范式损失表达式如下:
图像内容:在目标函数中增加内容损失项,这个损失项旨在激励生成器G生成与目标图像相似的内容,即类似于真实图像的特征表示;为了定义内容损失,使用预先训练的VGG-19网络中block5_conv2层提取的高级特征;
局部纹理和风格:Patch GAN对于捕获与局部纹理和风格相关的高频信息非常有效,因此通过鉴别器D来强制执行局部纹理和风格的一致性,以对抗方式使得生成的图像在局部具有与真实图像类似的纹理和风格特征;
S4,使用未配对数据集和配对数据集分别进行训练与评估,从而得到实时水下图像增强模型;
使用未配对数据集进行训练,具体为:
对于未配对训练,不强制执行全局相似性和内容损失的约束,目标是同时学习前向映射生成器GF:{a,c}→b和重构映射生成器GR:{b,c}→a,同时保持循环一致性,即要求原始图像转换后生成的图像再次经转换能变回原始图像;将循环一致性损失公式设定如下:
其中,a、b分别表示源域和目标域,c表示随机噪声;因此,无配对训练优化目标如下:
其中,Db(Da)是与生成器GF(GR)关联的鉴别器,缩放因子是一个经验调整的超参数;此处不强制使用额外的全局相似性损失项,因为/>使用L1范数作为损失的计算;
使用配对数据集进行训练,具体为:
在目标函数中添加内容损失项,通过引导生成器G学习提高感知图像质量,以使生成的图像在全局外观和高级特征表示方面与相应的真实图像接近;另一方面,鉴别器D将丢弃具有局部不一致纹理和风格的生成图像,在配对训练的目标函数中使用以下目标函数:
式中,,/>是根据经验调整的缩放因子作为超参数,/>表示某一层的特征图的逐像素损失作为内容损失,即增强图像和目标图像的特征表示之间的欧几里得距离,其表达式如下:
式中,表示图像内容函数,其作为高级特征,该方法是基于从预训练的VGG-19网络的block_conv2层提取得到作为内容损失。
2.如权利要求1所述的一种高效的实时水下图像增强模型的搭建方法,其特征在于:所述S3中构建的全卷积条件生成对抗模型IEIU-cGAN,生成器部分采用U-Net架构,网络的输入设置为256×256×3,编码器e1-e5仅学习8×8大小的256个特征图,解码器d1-d5利用特征图和跳过连接的输入来学习生成256×256×3图像作为输出;网络是全卷积的,没有使用全连接层,此外,每个层次都采用4×4的滤波器的2D卷积,并接入Leaky-ReLU非线性激活函数和批归一化BN,同时,每个编码器的输出与对应的解码器相连。
3.如权利要求1所述的一种高效的实时水下图像增强模型的搭建方法,其特征在于:所述S3中构建的全卷积条件生成对抗模型IEIU-cGAN,鉴别器采用Patch GAN架构;使用四个卷积层,将256×256×6的输入转换为16×16×1的输出,表示鉴别器的平均有效响应,在每个层次中,使用3×3的卷积滤波器,步幅为2;然后采用与生成器相同的方式应用非线性激活和批归一化。
4.一种高效的实时水下图像增强方法,其特征在于,包括以下过程:
获取实时水下图像;
将图像输入到如权利要求1至3任意一项所述的搭建方法所搭建的水下图像增强模型中;
输出模型增强后的图像结果。
5.一种高效的实时水下图像增强设备,其特征在于,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如权利要求1至3任意一项所述的搭建方法所搭建的水下图像增强模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,使处理器执行一种高效的水下图像增强方法。
6.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有如权利要求1至3任意一项所述搭建方法所搭建的水下图像增强模型的计算机执行程序,所述计算机执行程序被处理器执行时,使处理器执行一种高效的水下图像增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311703528.0A CN117391975B (zh) | 2023-12-13 | 2023-12-13 | 一种高效的实时水下图像增强方法及其模型搭建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311703528.0A CN117391975B (zh) | 2023-12-13 | 2023-12-13 | 一种高效的实时水下图像增强方法及其模型搭建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117391975A CN117391975A (zh) | 2024-01-12 |
CN117391975B true CN117391975B (zh) | 2024-02-13 |
Family
ID=89437813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311703528.0A Active CN117391975B (zh) | 2023-12-13 | 2023-12-13 | 一种高效的实时水下图像增强方法及其模型搭建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117391975B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196423B (zh) * | 2024-05-17 | 2024-07-23 | 山东巍然智能科技有限公司 | 一种用于无人机海岸带图像的去水方法及其模型搭建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062880A (zh) * | 2019-11-15 | 2020-04-24 | 南京工程学院 | 一种基于条件生成对抗网络的水下图像实时增强方法 |
CN115565056A (zh) * | 2022-09-27 | 2023-01-03 | 中国农业大学 | 基于条件生成对抗网络的水下图像增强方法及系统 |
CN116664446A (zh) * | 2023-06-28 | 2023-08-29 | 南京理工大学 | 基于残差密集块的轻量级暗光图像增强方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018053340A1 (en) * | 2016-09-15 | 2018-03-22 | Twitter, Inc. | Super resolution using a generative adversarial network |
EP4060560B1 (en) * | 2021-03-15 | 2024-06-12 | Irdeto B.V. | Systems, methods, and storage media for generating synthesized depth data |
US11580646B2 (en) * | 2021-03-26 | 2023-02-14 | Nanjing University Of Posts And Telecommunications | Medical image segmentation method based on U-Net |
-
2023
- 2023-12-13 CN CN202311703528.0A patent/CN117391975B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062880A (zh) * | 2019-11-15 | 2020-04-24 | 南京工程学院 | 一种基于条件生成对抗网络的水下图像实时增强方法 |
CN115565056A (zh) * | 2022-09-27 | 2023-01-03 | 中国农业大学 | 基于条件生成对抗网络的水下图像增强方法及系统 |
CN116664446A (zh) * | 2023-06-28 | 2023-08-29 | 南京理工大学 | 基于残差密集块的轻量级暗光图像增强方法 |
Non-Patent Citations (2)
Title |
---|
基于条件生成对抗网络的图像去雾算法;梁毓明;张路遥;卢明建;杨国亮;;光子学报;20190327(第05期);全文 * |
多输入融合对抗网络的水下图像增强;林森;刘世本;唐延东;;红外与激光工程;20200525(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117391975A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764091B (zh) | 活体检测方法及装置、电子设备和存储介质 | |
Wan et al. | Region-aware reflection removal with unified content and gradient priors | |
CN108460812B (zh) | 一种基于深度学习的表情包生成系统及方法 | |
CN108566516B (zh) | 图像处理方法、装置、存储介质及移动终端 | |
CN117391975B (zh) | 一种高效的实时水下图像增强方法及其模型搭建方法 | |
US11526704B2 (en) | Method and system of neural network object recognition for image processing | |
CN109658352A (zh) | 图像信息的优化方法及装置、电子设备和存储介质 | |
CN111401246B (zh) | 一种烟雾浓度检测方法、装置、设备及存储介质 | |
Yang et al. | Underwater image enhancement using scene depth-based adaptive background light estimation and dark channel prior algorithms | |
CN112380396B (zh) | 视频处理方法及装置、计算机可读存储介质和电子设备 | |
CN116863286B (zh) | 一种双流目标检测方法及其模型搭建方法 | |
CN111951192A (zh) | 一种拍摄图像的处理方法及拍摄设备 | |
CN111814538B (zh) | 目标对象的类别识别方法、装置、电子设备及存储介质 | |
CN117636341B (zh) | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 | |
CN116452469B (zh) | 一种基于深度学习的图像去雾处理方法及装置 | |
CN111553865B (zh) | 图像修复方法及装置、电子设备和存储介质 | |
CN107295261A (zh) | 图像去雾处理方法、装置、存储介质和移动终端 | |
CN111898525B (zh) | 烟雾识别模型的构建方法、进行烟雾检测的方法及装置 | |
CN116258651A (zh) | 一种图像处理方法及相关装置 | |
CN111507131A (zh) | 活体检测方法及装置、电子设备和存储介质 | |
CN115223018A (zh) | 伪装对象协同检测方法及装置、电子设备和存储介质 | |
CN117671473B (zh) | 基于注意力和多尺度特征融合的水下目标检测模型及方法 | |
CN117150066B (zh) | 汽车传媒领域的智能绘图方法和装置 | |
CN117392527B (zh) | 一种高精度水下目标分类检测方法及其模型搭建方法 | |
Lan et al. | Face Reflection Removal Network Using Multispectral Fusion of RGB and NIR Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |