CN116563147B - 一种水下图像增强系统及方法 - Google Patents

一种水下图像增强系统及方法 Download PDF

Info

Publication number
CN116563147B
CN116563147B CN202310485793.XA CN202310485793A CN116563147B CN 116563147 B CN116563147 B CN 116563147B CN 202310485793 A CN202310485793 A CN 202310485793A CN 116563147 B CN116563147 B CN 116563147B
Authority
CN
China
Prior art keywords
image
module
layer
attention mechanism
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310485793.XA
Other languages
English (en)
Other versions
CN116563147A (zh
Inventor
王金华
徐孙涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN202310485793.XA priority Critical patent/CN116563147B/zh
Publication of CN116563147A publication Critical patent/CN116563147A/zh
Application granted granted Critical
Publication of CN116563147B publication Critical patent/CN116563147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种水下图像增强系统及方法,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;动态特征增强模块用于提高图像特征的表达能力和区别能力;特征融合模块用于提高图像特征的重建能力;特征融合模块还用于进一步增强图像特征的区别能力,完成水下图像的增强。本申请能够恢复水下图片中的真实颜色;并且在海洋探测和资源勘探方面,本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境,从而更好地探索和利用海洋资源。本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。

Description

一种水下图像增强系统及方法
技术领域
本申请属于图像处理领域,具体涉及一种水下图像增强系统及方法。
背景技术
相较于陆地资源探索已充分,海洋资源探索仍初级。海洋资源包括石油、天然气和渔业资源等,对人类发展重要。但由于海洋环境复杂多变,探索开发面临巨大困难。水下图像增强处理可更好了解海洋资源分布、开发难度、潜力和确定开发范围和方案。然而,水下图像常受多种因素影响,如光线传播、悬浮颗粒浓度等,出现模糊、颜色偏差和低对比度问题,需专业技术和设备解决。
水下图像增强技术能够提升能见度、减小色差和提高对比度三个方面,有利于观察、分析水下场景和提高计算机视觉任务性能。传统方法利用CNN和GAN技术实现水下图像增强,只考虑局部信息提取。虽然有一些工作引入视觉注意力机制提取一定的全局信息,但增强效果还有待提高。
发明内容
为解决上述背景中的技术问题,本申请提出一种基于交叉注意力机制的水下图像增强系统及方法。通过块间注意力模块获得局部信息;同时,通过块间注意力机制来获得全局信息进行建模,从而实现更完整的图像增强效果。
为实现上述目的,本申请提供了一种水下图像增强系统,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;
所述交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;
所述动态特征增强模块用于提高所述图像特征的表达能力和区别能力;
所述特征融合模块用于提高所述图像特征的重建能力;所述特征融合模块还用于进一步增强所述图像特征的区别能力,完成水下图像的增强。
优选的,在所述交叉注意力机制模块获取所述图像特征前,应当将待提取的水下图像经过一个重置大小归一化层和一个镜像填充层进行图像大小处理;同时进行线性映射,用以提取所述图像特征。
优选的,所述交叉注意力机制模块包括:块内注意力机制和块间注意力机制;所述交叉注意力机制模块的工作流程包括:
由所述块内注意力机制提取特征图的局部信息;再以所述局部信息为输出,输入到所述块间注意力机制中,提取所述特征图的全局信息;之后,将所述局部信息和所述全局信息进行融合,得到所述图像特征。
优选的,所述动态特征增强模块包括:两个可变形卷积,所述可变性卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。
优选的,所述动态特征增强模块的工作流程包括:所述卷积核通过在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标,用以加强所述图像特征的表达能力和区别能力。
优选的,所述特征融合模块是一种用于融合多个分支的通道注意力机制,由卷积层、池化层以及Softmax操作组成。
优选的,所述特征融合模块的工作流程包括:使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支;以融合原始特征信息和经过多层交叉注意力机制的特征信息,以提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力。
本申请还提供了一种水下图像增强方法,步骤包括:
提取水下图像中的全局信息和局部信息并结合,得到图像特征;
提高所述图像特征的表达能力和区别能力;
提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力,完成水下图像的增强。
与现有技术相比,本申请的有益效果如下:
本申请能够恢复水下图片中的真实颜色;并且在海洋探测和资源勘探方面,本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境,从而更好地探索和利用海洋资源。在水下安全监测和救援方面,本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。此外,在水下文物保护和考古发掘方面,本申请可以帮助文物保护者和考古学家更好地了解水下文化遗产的状况和历史背景,从而更好地保护和挖掘这些宝贵的文化遗产。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的系统结构示意图;
图2为本申请实施例的交叉注意力机制框架图;
图3为本申请实施例的动态特征增强模块示意图;
图4为本申请实施例的特征融合模块框架图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
本实施例提出了一种水下图像增强系统,该系统主要基于Vision Transformer网络模型,包括三个模块:交叉注意力机制模块、动态特征增强模块和特征融合模块。其中,交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成,以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来;动态特征增强模块主要由两个可变形卷积模块组成,以提高特征表达能力和区分能力从而提升模型的性能;特征融合模块主要由卷积组成,以提高特征的表达能力和重建能力;整体框架如图1所示。
在本实施例中,交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息,再以此为输出,输入到块间注意力机制中,提取其全局信息,再输入到块间注意力机制模块,提取一次局部信息。交叉注意力机制框架图如图2所示。
动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量,使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力,其框架图如图3所示。
特征融合模块是一种用于融合多个分支的通道注意力机制,主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支,以融合原始特征信息和经过多层交叉注意力机制的特征信息,然后输出到下一层。特征融合模块框架图如图4所示。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
第一步:首先,将原始的带失真信息的图像作为输入,大小为H×W×3,经过一个重置大小归一化层和一个镜像填充层,使其大小变成2H×2W×3,并进行线性映射,得到一个形状为(batch size,dimension,H,W)的一个张量,记作X。其中batch size和dimension是在训练模型前设置的超参数,batch size主要是单次读入多少张图片进行训练,dimension是训练时张量的维度。
第二步:在本实施例中,将X复制两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到本系统的交叉注意力机制模块中,进行三个阶段的特征提取和融合。
第一阶段:先进行层归一化操作,再使用公式1进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2
其中,Q、K和V分别表示查询(Query)矩阵、键(Key)向量和值(Value)矩阵,是Key向量的维度;softmax函数,又称归一化指数函数,可以讲任意实数向量映射为概率分布向量。
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4
第三阶段:与第一阶段相同,对X4进行层归一化、块内注意力机制和多层感知处理,得到X5
第三步:将第二步中交叉注意力机制模块的输出经过3×3的卷积,将多头注意力机制计算得到的信息进行融合,并与Xhat进行残差连接;然后用一个线形层进行投影,并将其裁剪成原来的大小;最后与经过重置大小的归一化层的原始图像进行残差计算,得到X6
第四步:将X6与原始图像进行残差连接得到X7,并复制两份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X8
第五步:将X8复制一份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X9
第六步:将X9经过上采样操作,使其大小变为并与X8输入到特征融合模块中。流程包括:先将所有输入特征图按照第一个维度拼接起来,并通过重组操作将其尺寸调整为第一个输入特征图的尺寸;在本实施中,通过一个均值池化层和一个多层感知器将其映射到一个特征图上,并提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,并按照第二个维度求和输出,得到X10
第七步:将X10经过上采样操作,使其尺寸变成H×W×3。然后,将X11与经过特征增强模块的X7特征融合模块中进行特征融合。输出的特征图记为X12。接着,将X12输入到交叉注意力机制中,以在图像块内和图像块间提取局部和全局信息。输出的特征图记为X13。最后,将X13经过3×3的卷积,得到最终增强过后的图片。
实施例二
下面将通过本实施例说明上述实施例模型的如何进行训练和实施。
构建2000组图像匹配对作为训练样本。对于损失函数,由于L1损失函数在图像的整体对比度、均匀区域的平滑效果方面表现较好;对比正则化损失函数,可以使得图像在整体对比度上更加趋近参考图像并且远离原始的失真图像;结构损失为了精确地对水下图像进行复原,根据结构相似性原理使用结构损失优化网络。下面将逐个介绍这些损失函数。
逐像素计算损失是图像复原任务地基础损失,均方误差(MSE)或L2损失是单幅图像恢复中应用最广泛的损失函数。然而在峰值信噪比(PSNR)和结构衡量指标(SSIM)方面,许多使用L1损失训练地图像恢复任务比L2损失获得了更好的性能。按照相同的策略,本实施例采用了L1损失。L1损失函数如公式2所示:
式中,τ表示失真图像,即输入数据;y表示参考图像;H(·)表示UWCT,则生成图像为H(τ),w和h分别表示生成图像的宽和高。
对比正则化损失是一种基于对比学习的思想的整体信息比较的损失指构成法。首先构建了两对样本对,一对是由参考图像以及生成图像组成的,另一对是由失真图像以及生成图像组合成的,然后对两组的图像分别求L1损失值,然后进行对比,使得生成图像更加趋向于参考图像,且区别于失真图像。对比正则化损失计算公式如公式3所示:
式中,τ表示失真图像,即输入数据;y表示参考图像;H(·)表示本发明,则生成图像为H(τ),s表示原始的失真图像,w和h分别表示生成图像的宽和高。
结构损失是一种基于结构相似性的一种损失函数。结构相似性度量可以作为图像复原任务的损失,为了提升水下图像增强网络对结构信息的复原能力,将结构相似性度量作为优化目标之一。结构相似性计算公式及结构损失函数如公式4所示:
其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别表示增强后图像和参考图像的方差,σηy表示协方差,C表示常数,p为像素,N为图像块P中的像素数量。
本实施例中,利用L1损失,对比正则化损失和结构损失函数加权平均作为模型的总损失函数,如公式(5)所示:
Ltotal=0.6·L1+0.2·Lcontrastive+0.2·Lssim (5)
实施例三
本实施例提出了一种水下图像增强方法,该方法主要基于Vision Transformer网络模型,具体步骤包括:提取水下图像中的全局信息和局部信息并结合,得到图像特征;提高图像特征的表达能力和区别能力;提高图像特征的重建能力;并进一步增强图像特征的区别能力,完成水下图像的增强。
在本实施例中,通过构建三个模块来实施上述方法,三个模块包括:交叉注意力机制模块、动态特征增强模块和特征融合模块。其中,交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成,以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来;动态特征增强模块主要由两个可变形卷积模块组成,以提高特征表达能力和区分能力从而提升模型的性能;特征融合模块主要由卷积组成,以提高特征的表达能力和重建能力。
在本实施例中,交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息,再以此为输出,输入到块间注意力机制中,提取其全局信息,再输入到块间注意力机制模块,提取一次局部信息。
动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量,使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力。
特征融合模块是一种用于融合多个分支的通道注意力机制,主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支,以融合原始特征信息和经过多层交叉注意力机制的特征信息,然后输出到下一层。
第一步:首先,将原始的带失真信息的图像作为输入,大小为H×W×3,经过一个重置大小归一化层和一个镜像填充层,使其大小变成2H×2W×3,并进行线性映射,得到一个形状为(batch size,dimension,H,W)的一个张量,记作X。其中batch size和dimension是在训练模型前设置的超参数,batch size主要是单次读入多少张图片进行训练,dimension是训练时张量的维度。
第二步:在本实施例中,将X复制两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到本系统的交叉注意力机制模块中,进行三个阶段的特征提取和融合。
第一阶段:先进行层归一化操作,再使用公式6进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2
其中,Q、K和V分别表示查询(Query)矩阵、键(Key)向量和值(Value)矩阵,是Key向量的维度;softmax函数,又称归一化指数函数,可以讲任意实数向量映射为概率分布向量。
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4
第三阶段:与第一阶段相同,对X4进行层归一化、块内注意力机制和多层感知处理,得到X5
第三步:将第二步中交叉注意力机制模块的输出经过3×3的卷积,将多头注意力机制计算得到的信息进行融合,并与Xhat进行残差连接;然后用一个线形层进行投影,并将其裁剪成原来的大小;最后与经过重置大小的归一化层的原始图像进行残差计算,得到X6
第四步:将X6与原始图像进行残差连接得到X7,并复制两份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X8
第五步:将X8复制一份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X9
第六步:将X9经过上采样操作,使其大小变为并与X8输入到特征融合模块中。流程包括:先将所有输入特征图按照第一个维度拼接起来,并通过重组操作将其尺寸调整为第一个输入特征图的尺寸;在本实施中,通过一个均值池化层和一个多层感知器将其映射到一个特征图上,并提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,并按照第二个维度求和输出,得到X10
第七步:将X10经过上采样操作,使其尺寸变成H×W×3。然后,将X11与经过特征增强模块的X7特征融合模块中进行特征融合。输出的特征图记为X12。接着,将X12输入到交叉注意力机制中,以在图像块内和图像块间提取局部和全局信息。输出的特征图记为X13。最后,将X13经过3×3的卷积,得到最终增强过后的图片。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (5)

1.一种水下图像增强系统,其特征在于,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;
所述交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;
所述动态特征增强模块用于提高所述图像特征的表达能力和区别能力;
所述特征融合模块用于提高所述图像特征的重建能力;所述特征融合模块还用于进一步增强所述图像特征的区别能力,完成水下图像的增强;所述特征融合模块是一种用于融合多个分支的通道注意力机制,由卷积层、池化层以及Softmax操作组成;所述水下图像增强系统的构建过程包括:
第一步:将带失真信息,大小为H×W×3的原始图像输入后,先通过一个重置大小归一化层和一个镜像填充层处理,使其大小变为2H×2W×3;然后进行线性映射,得到形状为:batch size,dimension,H,W的张量X;其中,batch size和dimension是在训练模型前设置的超参数;
第二步:复制张量X两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到交叉注意力机制模块中,进行三个阶段的特征提取和融合;
第一阶段:先进行层归一化操作,再进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4
第三阶段:对X4进行层归一化、块内注意力机制和多层感知处理,得到X5
第三步:对交叉注意力机制模块的输出进行3×3的卷积,融合多头注意力机制计算得到的信息,并与Xhat进行残差连接;接着用一个线性层进行投影,并裁剪至原始大小,最后与原始图像进行残差计算,得到X6
第四步:将X6与原始图像进行残差连接,得到X7,并复制两份;一份输入到动态特征增强模块中;另一份经过下采样操作后输入到交叉注意力机制模块中,重复第二步操作,得到X8
第五步:将X8复制一份;一份输入到动态特征增强模块中;另一份经下采样操作后再次输入到交叉注意力机制模块中,重复第二步操作,得到X9
第六步:将X9经过上采样操作后与X8输入到特征融合模块中;此过程包括将所有输入特征图按第一个维度拼接,并通过重组操作调整尺寸;通过均值池化层和多层感知器映射至一个特征图上,提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,按第二个维度求和输出,得到X10
第七步:将X10经过上采样操作,使其尺寸变为H×W×3,得到X11;然后,将X11与经过特征增强模块的X7在特征融合模块中进行特征融合,得到X12;接着,将X12输入到交叉注意力机制中,提取局部和全局信息,得到X13;最后,将X13经过3×3的卷积,得到最终增强过后的图像;
所述交叉注意力机制模块的工作流程包括:
图像输入和预处理
将原始的输入图像复制为两份:一份记为R1,用于后续混合;另一份经过RescaleNorm层处理并复制,一份记为R2,用于混合,另一份进行镜像填充;
交叉注意力机制模块的核心计算
之后,将经过预处理后的图像复制为两份:一份经过线性变换后输入到交叉注意力机制的核心部分,进行交叉注意力计算;另一份也进行线性变换后输入到卷积模块;
此模块的交叉注意力计算分为三个阶段:
第一阶段:层归一化,块内注意力计算,残差连接,层归一化,多层感知(MLP)处理,残差计算;
第二阶段:层归一化,块间注意力计算,残差连接,层归一化,MLP处理,残差计算;
第三阶段:再次进行层归一化,块内注意力计算,MLP处理,得到处理后的特征图;
混合和特征增强
最后,将两条路线所得的图像进行混合,并通过线性变换后裁剪,与R2共同输入Affine模块;
Affine模块输出的结果复制为两份:一份记为R3,用于后续混合;另一份与R1进行混合;
经过两轮线性变换后,与R3进行一次混合,得到最终输出;
将最终输出输入特征融合模块,最后的输出经过上采样,调整至原始尺寸;最终增强的图像通过3×3的卷积处理,完成最终的图像增强输出。
2.根据权利要求1所述的水下图像增强系统,其特征在于,所述动态特征增强模块包括:两个可变形卷积,所述可变形卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。
3.根据权利要求2所述的水下图像增强系统,其特征在于,所述动态特征增强模块的工作流程包括:所述卷积核通过在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标,用以加强所述图像特征的表达能力和区别能力。
4.根据权利要求1所述的水下图像增强系统,其特征在于,所述特征融合模块的工作流程包括:使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支;以融合原始特征信息和经过多层交叉注意力机制的特征信息,以提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力。
5.一种水下图像增强方法,所述方法应用于权利要求1-4任一项所述的水下图像增强系统,其特征在于,步骤包括:
提取水下图像中的全局信息和局部信息并结合,得到图像特征;
提高所述图像特征的表达能力和区别能力;
提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力,完成水下图像的增强;具体方法包括:构建一个特征融合模块,所述特征融合模块是一种用于融合多个分支的通道注意力机制,由卷积层、池化层以及Softmax操作组成;实现水下图像增强的步骤包括:
第一步:将带失真信息,大小为H×W×3的原始图像输入后,先通过一个重置大小归一化层和一个镜像填充层处理,使其大小变为2H×2W×3;然后进行线性映射,得到形状为:batch size,dimension,H,W的张量X;其中,batch size和dimension是在训练模型前设置的超参数;
第二步:复制张量X两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到交叉注意力机制模块中,进行三个阶段的特征提取和融合;
第一阶段:先进行层归一化操作,再进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4
第三阶段:对X4进行层归一化、块内注意力机制和多层感知处理,得到X5
第三步:对交叉注意力机制模块的输出进行3×3的卷积,融合多头注意力机制计算得到的信息,并与Xhat进行残差连接;接着用一个线性层进行投影,并裁剪至原始大小,最后与原始图像进行残差计算,得到X6
第四步:将X6与原始图像进行残差连接,得到X7,并复制两份;一份输入到动态特征增强模块中;另一份经过下采样操作后输入到交叉注意力机制模块中,重复第二步操作,得到X8
第五步:将X8复制一份;一份输入到动态特征增强模块中;另一份经下采样操作后再次输入到交叉注意力机制模块中,重复第二步操作,得到X9
第六步:将X9经过上采样操作后与X8输入到特征融合模块中;此过程包括将所有输入特征图按第一个维度拼接,并通过重组操作调整尺寸;通过均值池化层和多层感知器映射至一个特征图上,提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,按第二个维度求和输出,得到X10
第七步:将X10经过上采样操作,使其尺寸变为H×W×3,得到X11;然后,将X11与经过特征增强模块的X7在特征融合模块中进行特征融合,得到X12;接着,将X12输入到交叉注意力机制中,提取局部和全局信息,得到X13;最后,将X13经过3×3的卷积,得到最终增强过后的图像;
所述交叉注意力机制模块的工作流程包括:
图像输入和预处理
将原始的输入图像复制为两份:一份记为R1,用于后续混合;另一份经过RescaleNorm层处理并复制,一份记为R2,用于混合,另一份进行镜像填充;
交叉注意力机制模块的核心计算
之后,将经过预处理后的图像复制为两份:一份经过线性变换后输入到交叉注意力机制的核心部分,进行交叉注意力计算;另一份也进行线性变换后输入到卷积模块;
此模块的交叉注意力计算分为三个阶段:
第一阶段:层归一化,块内注意力计算,残差连接,层归一化,多层感知(MLP)处理,残差计算;
第二阶段:层归一化,块间注意力计算,残差连接,层归一化,MLP处理,残差计算;
第三阶段:再次进行层归一化,块内注意力计算,MLP处理,得到处理后的特征图;
混合和特征增强
最后,将两条路线所得的图像进行混合,并通过线性变换后裁剪,与R2共同输入Affine模块;
Affine模块输出的结果复制为两份:一份记为R3,用于后续混合;另一份与R1进行混合;
经过两轮线性变换后,与R3进行一次混合,得到最终输出;
将最终输出输入特征融合模块,最后的输出经过上采样,调整至原始尺寸;
最终增强的图像通过3×3的卷积处理,完成最终的图像增强输出。
CN202310485793.XA 2023-05-04 2023-05-04 一种水下图像增强系统及方法 Active CN116563147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310485793.XA CN116563147B (zh) 2023-05-04 2023-05-04 一种水下图像增强系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310485793.XA CN116563147B (zh) 2023-05-04 2023-05-04 一种水下图像增强系统及方法

Publications (2)

Publication Number Publication Date
CN116563147A CN116563147A (zh) 2023-08-08
CN116563147B true CN116563147B (zh) 2024-03-26

Family

ID=87499449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310485793.XA Active CN116563147B (zh) 2023-05-04 2023-05-04 一种水下图像增强系统及方法

Country Status (1)

Country Link
CN (1) CN116563147B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020124959A1 (zh) * 2018-12-21 2020-06-25 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其装置
CN112164011A (zh) * 2020-10-12 2021-01-01 桂林电子科技大学 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN113808032A (zh) * 2021-08-04 2021-12-17 北京交通大学 多阶段渐进式的图像去噪算法
CN114255514A (zh) * 2021-12-27 2022-03-29 厦门美图之家科技有限公司 基于Transformer的人体跟踪系统、方法及摄像装置
CN114742733A (zh) * 2022-04-19 2022-07-12 中国工商银行股份有限公司 云去除方法、装置、计算机设备和存储介质
CN114898106A (zh) * 2022-05-26 2022-08-12 华北水利水电大学 基于rgb-t多源图像数据的显著性目标检测方法
CN114972134A (zh) * 2022-05-11 2022-08-30 重庆理工大学 一种提取并融合局部和全局特征的低光图像增强方法
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
WO2022241995A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉图像增强的生成方法、系统、装置及存储介质
CN115660955A (zh) * 2022-10-20 2023-01-31 安徽理工大学 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质
CN115775350A (zh) * 2022-11-07 2023-03-10 上海理工大学 一种图像增强方法和装置、计算设备
CN115830384A (zh) * 2022-12-09 2023-03-21 华中科技大学 一种基于双判别器生成对抗网络的图像融合方法和系统
CN115861647A (zh) * 2022-11-22 2023-03-28 哈尔滨工程大学 一种基于多尺度全局交叉匹配的光流估计方法
CN116051957A (zh) * 2023-01-03 2023-05-02 东北电力大学 基于注意力机制和多尺度融合的个人防护物品检测网络

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020124959A1 (zh) * 2018-12-21 2020-06-25 平安科技(深圳)有限公司 基于交叉注意力机制的语义相似度匹配方法及其装置
CN112164011A (zh) * 2020-10-12 2021-01-01 桂林电子科技大学 基于自适应残差与递归交叉注意力的运动图像去模糊方法
WO2022241995A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉图像增强的生成方法、系统、装置及存储介质
CN113808032A (zh) * 2021-08-04 2021-12-17 北京交通大学 多阶段渐进式的图像去噪算法
CN114255514A (zh) * 2021-12-27 2022-03-29 厦门美图之家科技有限公司 基于Transformer的人体跟踪系统、方法及摄像装置
CN114742733A (zh) * 2022-04-19 2022-07-12 中国工商银行股份有限公司 云去除方法、装置、计算机设备和存储介质
CN114972134A (zh) * 2022-05-11 2022-08-30 重庆理工大学 一种提取并融合局部和全局特征的低光图像增强方法
CN114898106A (zh) * 2022-05-26 2022-08-12 华北水利水电大学 基于rgb-t多源图像数据的显著性目标检测方法
CN115205730A (zh) * 2022-06-10 2022-10-18 西安工业大学 一种结合特征增强与模板更新的目标跟踪方法
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN115660955A (zh) * 2022-10-20 2023-01-31 安徽理工大学 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质
CN115775350A (zh) * 2022-11-07 2023-03-10 上海理工大学 一种图像增强方法和装置、计算设备
CN115861647A (zh) * 2022-11-22 2023-03-28 哈尔滨工程大学 一种基于多尺度全局交叉匹配的光流估计方法
CN115830384A (zh) * 2022-12-09 2023-03-21 华中科技大学 一种基于双判别器生成对抗网络的图像融合方法和系统
CN116051957A (zh) * 2023-01-03 2023-05-02 东北电力大学 基于注意力机制和多尺度融合的个人防护物品检测网络

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAT:Cross Attention in Vision Transformer;Hezheng Lin等;《arXiv:2106.05786v1》;第1-15页 *
基于位置感知交叉注意力网络的方面情感分析;费文曲;;信息通信(第02期);第59-62页 *

Also Published As

Publication number Publication date
CN116563147A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111754438B (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与系统
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN115497005A (zh) 一种融合特征转移与注意力机制的yolov4遥感目标检测方法
CN110349087B (zh) 基于适应性卷积的rgb-d图像高质量网格生成方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
Feng et al. Multi-scale fractal residual network for image super-resolution
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN111768326B (zh) 一种基于gan扩增图像前景物体的高容量数据保护方法
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
CN114004766A (zh) 一种水下图像增强方法、系统和设备
Esmaeilzehi et al. UPDResNN: A deep light-weight image upsampling and deblurring residual neural network
Zheng et al. Double-branch dehazing network based on self-calibrated attentional convolution
Wang et al. DDistill-SR: Reparameterized dynamic distillation network for lightweight image super-resolution
Xu et al. Multi-scale dehazing network via high-frequency feature fusion
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
Zhang et al. MFFE: multi-scale feature fusion enhanced net for image dehazing
CN116563147B (zh) 一种水下图像增强系统及方法
CN116703750A (zh) 基于边缘注意力和多阶微分损失的图像去雾方法及系统
CN114155560B (zh) 基于空间降维的高分辨率人体姿态估计模型的轻量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant