CN116563147A - 一种水下图像增强系统及方法 - Google Patents
一种水下图像增强系统及方法 Download PDFInfo
- Publication number
- CN116563147A CN116563147A CN202310485793.XA CN202310485793A CN116563147A CN 116563147 A CN116563147 A CN 116563147A CN 202310485793 A CN202310485793 A CN 202310485793A CN 116563147 A CN116563147 A CN 116563147A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- attention mechanism
- enhancement
- underwater
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000010606 normalization Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 2
- 230000009189 diving Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种水下图像增强系统及方法,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;动态特征增强模块用于提高图像特征的表达能力和区别能力;特征融合模块用于提高图像特征的重建能力;特征融合模块还用于进一步增强图像特征的区别能力,完成水下图像的增强。本申请能够恢复水下图片中的真实颜色;并且在海洋探测和资源勘探方面,本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境,从而更好地探索和利用海洋资源。本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。
Description
技术领域
本申请属于图像处理领域,具体涉及一种水下图像增强系统及方法。
背景技术
相较于陆地资源探索已充分,海洋资源探索仍初级。海洋资源包括石油、天然气和渔业资源等,对人类发展重要。但由于海洋环境复杂多变,探索开发面临巨大困难。水下图像增强处理可更好了解海洋资源分布、开发难度、潜力和确定开发范围和方案。然而,水下图像常受多种因素影响,如光线传播、悬浮颗粒浓度等,出现模糊、颜色偏差和低对比度问题,需专业技术和设备解决。
水下图像增强技术能够提升能见度、减小色差和提高对比度三个方面,有利于观察、分析水下场景和提高计算机视觉任务性能。传统方法利用CNN和GAN技术实现水下图像增强,只考虑局部信息提取。虽然有一些工作引入视觉注意力机制提取一定的全局信息,但增强效果还有待提高。
发明内容
为解决上述背景中的技术问题,本申请提出一种基于交叉注意力机制的水下图像增强系统及方法。通过块间注意力模块获得局部信息;同时,通过块间注意力机制来获得全局信息进行建模,从而实现更完整的图像增强效果。
为实现上述目的,本申请提供了一种水下图像增强系统,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;
所述交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;
所述动态特征增强模块用于提高所述图像特征的表达能力和区别能力;
所述特征融合模块用于提高所述图像特征的重建能力;所述特征融合模块还用于进一步增强所述图像特征的区别能力,完成水下图像的增强。
优选的,在所述交叉注意力机制模块获取所述图像特征前,应当将待提取的水下图像经过一个重置大小归一化层和一个镜像填充层进行图像大小处理;同时进行线性映射,用以提取所述图像特征。
优选的,所述交叉注意力机制模块包括:块内注意力机制和块间注意力机制;所述交叉注意力机制模块的工作流程包括:
由所述块内注意力机制提取特征图的局部信息;再以所述局部信息为输出,输入到所述块间注意力机制中,提取所述特征图的全局信息;之后,将所述局部信息和所述全局信息进行融合,得到所述图像特征。
优选的,所述动态特征增强模块包括:两个可变形卷积,所述可变性卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。
优选的,所述动态特征增强模块的工作流程包括:所述卷积核通过在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标,用以加强所述图像特征的表达能力和区别能力。
优选的,所述特征融合模块是一种用于融合多个分支的通道注意力机制,由卷积层、池化层以及Softmax操作组成。
优选的,所述特征融合模块的工作流程包括:使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支;以融合原始特征信息和经过多层交叉注意力机制的特征信息,以提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力。
本申请还提供了一种水下图像增强方法,步骤包括:
提取水下图像中的全局信息和局部信息并结合,得到图像特征;
提高所述图像特征的表达能力和区别能力;
提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力,完成水下图像的增强。
与现有技术相比,本申请的有益效果如下:
本申请能够恢复水下图片中的真实颜色;并且在海洋探测和资源勘探方面,本申请可以帮助科学家和工程师更好地理解海洋生物和地质环境,从而更好地探索和利用海洋资源。在水下安全监测和救援方面,本申请可以帮助救援人员快速准确地发现和定位事故现场、失踪人员和潜水器等。此外,在水下文物保护和考古发掘方面,本申请可以帮助文物保护者和考古学家更好地了解水下文化遗产的状况和历史背景,从而更好地保护和挖掘这些宝贵的文化遗产。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的系统结构示意图;
图2为本申请实施例的交叉注意力机制框架图;
图3为本申请实施例的动态特征增强模块示意图;
图4为本申请实施例的特征融合模块框架图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
本实施例提出了一种水下图像增强系统,该系统主要基于Vision Transformer网络模型,包括三个模块:交叉注意力机制模块、动态特征增强模块和特征融合模块。其中,交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成,以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来;动态特征增强模块主要由两个可变形卷积模块组成,以提高特征表达能力和区分能力从而提升模型的性能;特征融合模块主要由卷积组成,以提高特征的表达能力和重建能力;整体框架如图1所示。
在本实施例中,交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息,再以此为输出,输入到块间注意力机制中,提取其全局信息,再输入到块间注意力机制模块,提取一次局部信息。交叉注意力机制框架图如图2所示。
动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量,使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力,其框架图如图3所示。
特征融合模块是一种用于融合多个分支的通道注意力机制,主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支,以融合原始特征信息和经过多层交叉注意力机制的特征信息,然后输出到下一层。特征融合模块框架图如图4所示。
下面将结合本实施例,详细说明本申请如何解决实际生活中的技术问题。
第一步:首先,将原始的带失真信息的图像作为输入,大小为H×W×3,经过一个重置大小归一化层和一个镜像填充层,使其大小变成2H×2W×3,并进行线性映射,得到一个形状为(batch size,dimension,H,W)的一个张量,记作X。其中batch size和dimension是在训练模型前设置的超参数,batch size主要是单次读入多少张图片进行训练,dimension是训练时张量的维度。
第二步:在本实施例中,将X复制两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到本系统的交叉注意力机制模块中,进行三个阶段的特征提取和融合。
第一阶段:先进行层归一化操作,再使用公式1进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2。
其中,Q、K和V分别表示查询(Query)矩阵、键(Key)向量和值(Value)矩阵,是Key向量的维度;softmax函数,又称归一化指数函数,可以讲任意实数向量映射为概率分布向量。
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4。
第三阶段:与第一阶段相同,对X4进行层归一化、块内注意力机制和多层感知处理,得到X5。
第三步:将第二步中交叉注意力机制模块的输出经过3×3的卷积,将多头注意力机制计算得到的信息进行融合,并与Xhat进行残差连接;然后用一个线形层进行投影,并将其裁剪成原来的大小;最后与经过重置大小的归一化层的原始图像进行残差计算,得到X6。
第四步:将X6与原始图像进行残差连接得到X7,并复制两份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X8。
第五步:将X8复制一份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X9。
第六步:将X9经过上采样操作,使其大小变为并与X8输入到特征融合模块中。流程包括:先将所有输入特征图按照第一个维度拼接起来,并通过重组操作将其尺寸调整为第一个输入特征图的尺寸;在本实施中,通过一个均值池化层和一个多层感知器将其映射到一个特征图上,并提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,并按照第二个维度求和输出,得到X10。
第七步:将X10经过上采样操作,使其尺寸变成H×W×3。然后,将X11与经过特征增强模块的X7特征融合模块中进行特征融合。输出的特征图记为X12。接着,将X12输入到交叉注意力机制中,以在图像块内和图像块间提取局部和全局信息。输出的特征图记为X13。最后,将X13经过3×3的卷积,得到最终增强过后的图片。
实施例二
下面将通过本实施例说明上述实施例模型的如何进行训练和实施。
构建2000组图像匹配对作为训练样本。对于损失函数,由于L1损失函数在图像的整体对比度、均匀区域的平滑效果方面表现较好;对比正则化损失函数,可以使得图像在整体对比度上更加趋近参考图像并且远离原始的失真图像;结构损失为了精确地对水下图像进行复原,根据结构相似性原理使用结构损失优化网络。下面将逐个介绍这些损失函数。
逐像素计算损失是图像复原任务地基础损失,均方误差(MSE)或L2损失是单幅图像恢复中应用最广泛的损失函数。然而在峰值信噪比(PSNR)和结构衡量指标(SSIM)方面,许多使用L1损失训练地图像恢复任务比L2损失获得了更好的性能。按照相同的策略,本实施例采用了L1损失。L1损失函数如公式2所示:
式中,τ表示失真图像,即输入数据;y表示参考图像;H(·)表示UWCT,则生成图像为H(τ),w和h分别表示生成图像的宽和高。
对比正则化损失是一种基于对比学习的思想的整体信息比较的损失指构成法。首先构建了两对样本对,一对是由参考图像以及生成图像组成的,另一对是由失真图像以及生成图像组合成的,然后对两组的图像分别求L1损失值,然后进行对比,使得生成图像更加趋向于参考图像,且区别于失真图像。对比正则化损失计算公式如公式3所示:
式中,τ表示失真图像,即输入数据;y表示参考图像;H(·)表示本发明,则生成图像为H(τ),s表示原始的失真图像,w和h分别表示生成图像的宽和高。
结构损失是一种基于结构相似性的一种损失函数。结构相似性度量可以作为图像复原任务的损失,为了提升水下图像增强网络对结构信息的复原能力,将结构相似性度量作为优化目标之一。结构相似性计算公式及结构损失函数如公式4所示:
其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别表示增强后图像和参考图像的方差,σηy表示协方差,C表示常数,p为像素,N为图像块P中的像素数量。
本实施例中,利用L1损失,对比正则化损失和结构损失函数加权平均作为模型的总损失函数,如公式(5)所示:
Ltotal=0.6·L1+0.2·Lcontrastive+0.2·Lssim (5)
实施例三
本实施例提出了一种水下图像增强方法,该方法主要基于Vision Transformer网络模型,具体步骤包括:提取水下图像中的全局信息和局部信息并结合,得到图像特征;提高图像特征的表达能力和区别能力;提高图像特征的重建能力;并进一步增强图像特征的区别能力,完成水下图像的增强。
在本实施例中,通过构建三个模块来实施上述方法,三个模块包括:交叉注意力机制模块、动态特征增强模块和特征融合模块。其中,交叉注意力机制模块主要由块间注意力机制模块和块内注意力机制模块组成,以最大程度地提取图像之中的全局信息以及局部信息并将其结合起来;动态特征增强模块主要由两个可变形卷积模块组成,以提高特征表达能力和区分能力从而提升模型的性能;特征融合模块主要由卷积组成,以提高特征的表达能力和重建能力。
在本实施例中,交叉注意力机制模块主要由块内注意力机制和块间注意力机制组成。由块内注意力机制提取特征图的局部信息,再以此为输出,输入到块间注意力机制中,提取其全局信息,再输入到块间注意力机制模块,提取一次局部信息。
动态特征增强模块由两个可变形卷积模块组成。可变形卷积在其卷积核的位置引入了一个可学习的偏移量,使得卷积核的采样点可以发生变形。因此卷积核可以在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标。可变形卷积还可以增强网络的转换建模能力。
特征融合模块是一种用于融合多个分支的通道注意力机制,主要由卷积层、池化层以及Softmax操作组成。特征融合模块使用通道注意力来融合动态特征增强过后的分支和交叉注意力机制模块输出分支,以融合原始特征信息和经过多层交叉注意力机制的特征信息,然后输出到下一层。
第一步:首先,将原始的带失真信息的图像作为输入,大小为H×W×3,经过一个重置大小归一化层和一个镜像填充层,使其大小变成2H×2W×3,并进行线性映射,得到一个形状为(batch size,dimension,H,W)的一个张量,记作X。其中batch size和dimension是在训练模型前设置的超参数,batch size主要是单次读入多少张图片进行训练,dimension是训练时张量的维度。
第二步:在本实施例中,将X复制两份,一份直接通过3×3卷积操作,得到Xhat;另一份输入到本系统的交叉注意力机制模块中,进行三个阶段的特征提取和融合。
第一阶段:先进行层归一化操作,再使用公式6进行块内注意力机制的计算,得到特征图,并与输入的X进行残差连接得到X1;然后对X1进行层归一化操作和多层感知处理,得到X2。
其中,Q、K和V分别表示查询(Query)矩阵、键(Key)向量和值(Value)矩阵,是Key向量的维度;softmax函数,又称归一化指数函数,可以讲任意实数向量映射为概率分布向量。
第二阶段:先对X2进行层归一化操作,再进行块间注意力机制的计算,提取全局信息,并与X2进行残差连接得到X3;然后对X3进行层归一化操作和多层感知处理,得到X4。
第三阶段:与第一阶段相同,对X4进行层归一化、块内注意力机制和多层感知处理,得到X5。
第三步:将第二步中交叉注意力机制模块的输出经过3×3的卷积,将多头注意力机制计算得到的信息进行融合,并与Xhat进行残差连接;然后用一个线形层进行投影,并将其裁剪成原来的大小;最后与经过重置大小的归一化层的原始图像进行残差计算,得到X6。
第四步:将X6与原始图像进行残差连接得到X7,并复制两份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X8。
第五步:将X8复制一份。一份输入到动态特征增强模块中;另一份经过下采样操作,使其大小变为并输入到交叉注意力机制模块中,重复第二步中的操作,得到X9。
第六步:将X9经过上采样操作,使其大小变为并与X8输入到特征融合模块中。流程包括:先将所有输入特征图按照第一个维度拼接起来,并通过重组操作将其尺寸调整为第一个输入特征图的尺寸;在本实施中,通过一个均值池化层和一个多层感知器将其映射到一个特征图上,并提供非线性变换和全局信息;最后将输入特征图与映射后的特征图相乘,并按照第二个维度求和输出,得到X10。
第七步:将X10经过上采样操作,使其尺寸变成H×W×3。然后,将X11与经过特征增强模块的X7特征融合模块中进行特征融合。输出的特征图记为X12。接着,将X12输入到交叉注意力机制中,以在图像块内和图像块间提取局部和全局信息。输出的特征图记为X13。最后,将X13经过3×3的卷积,得到最终增强过后的图片。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (8)
1.一种水下图像增强系统,其特征在于,包括:交叉注意力机制模块、动态特征增强模块和特征融合模块;
所述交叉注意力机制模块用于提取水下图像中的全局信息和局部信息并结合,得到图像特征;
所述动态特征增强模块用于提高所述图像特征的表达能力和区别能力;
所述特征融合模块用于提高所述图像特征的重建能力;所述特征融合模块还用于进一步增强所述图像特征的区别能力,完成水下图像的增强。
2.根据权利要求1所述的水下图像增强系统,其特征在于,在所述交叉注意力机制模块获取所述图像特征前,将待提取的水下图像经过一个重置大小归一化层和一个镜像填充层进行图像大小处理;同时进行线性映射,用以提取所述图像特征。
3.根据权利要求1所述的水下图像增强系统,其特征在于,所述交叉注意力机制模块包括:块内注意力机制和块间注意力机制;所述交叉注意力机制模块的工作流程包括:
由所述块内注意力机制提取特征图的局部信息;再以所述局部信息为输出,输入到所述块间注意力机制中,提取所述特征图的全局信息;之后,将所述局部信息和所述全局信息进行融合,得到所述图像特征。
4.根据权利要求1所述的水下图像增强系统,其特征在于,所述动态特征增强模块包括:两个可变形卷积,所述可变性卷积为在普通卷积的卷积核位置引入一个可学习的偏移量。
5.根据权利要求4所述的水下图像增强系统,其特征在于,所述动态特征增强模块的工作流程包括:所述卷积核通过在输入特征图的采样点时发生偏移,集中于感兴趣的区域或者目标,用以加强所述图像特征的表达能力和区别能力。
6.根据权利要求1所述的水下图像增强系统,其特征在于,所述特征融合模块是一种用于融合多个分支的通道注意力机制,由卷积层、池化层以及Softmax操作组成。
7.根据权利要求6所述的水下图像增强系统,其特征在于,所述特征融合模块的工作流程包括:使用通道注意力来融合所述动态特征增强模块的输出分支和所述交叉注意力机制模块的输出分支;以融合原始特征信息和经过多层交叉注意力机制的特征信息,以提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力。
8.一种水下图像增强方法,其特征在于,步骤包括:
提取水下图像中的全局信息和局部信息并结合,得到图像特征;
提高所述图像特征的表达能力和区别能力;
提高所述图像特征的重建能力;并进一步增强所述图像特征的区别能力,完成水下图像的增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485793.XA CN116563147B (zh) | 2023-05-04 | 2023-05-04 | 一种水下图像增强系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485793.XA CN116563147B (zh) | 2023-05-04 | 2023-05-04 | 一种水下图像增强系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116563147A true CN116563147A (zh) | 2023-08-08 |
CN116563147B CN116563147B (zh) | 2024-03-26 |
Family
ID=87499449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485793.XA Active CN116563147B (zh) | 2023-05-04 | 2023-05-04 | 一种水下图像增强系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563147B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020124959A1 (zh) * | 2018-12-21 | 2020-06-25 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其装置 |
CN112164011A (zh) * | 2020-10-12 | 2021-01-01 | 桂林电子科技大学 | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 |
CN113808032A (zh) * | 2021-08-04 | 2021-12-17 | 北京交通大学 | 多阶段渐进式的图像去噪算法 |
CN114255514A (zh) * | 2021-12-27 | 2022-03-29 | 厦门美图之家科技有限公司 | 基于Transformer的人体跟踪系统、方法及摄像装置 |
CN114742733A (zh) * | 2022-04-19 | 2022-07-12 | 中国工商银行股份有限公司 | 云去除方法、装置、计算机设备和存储介质 |
CN114898106A (zh) * | 2022-05-26 | 2022-08-12 | 华北水利水电大学 | 基于rgb-t多源图像数据的显著性目标检测方法 |
CN114972134A (zh) * | 2022-05-11 | 2022-08-30 | 重庆理工大学 | 一种提取并融合局部和全局特征的低光图像增强方法 |
CN115100235A (zh) * | 2022-08-18 | 2022-09-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、系统及存储介质 |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
CN115660955A (zh) * | 2022-10-20 | 2023-01-31 | 安徽理工大学 | 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质 |
CN115775350A (zh) * | 2022-11-07 | 2023-03-10 | 上海理工大学 | 一种图像增强方法和装置、计算设备 |
CN115830384A (zh) * | 2022-12-09 | 2023-03-21 | 华中科技大学 | 一种基于双判别器生成对抗网络的图像融合方法和系统 |
CN115861647A (zh) * | 2022-11-22 | 2023-03-28 | 哈尔滨工程大学 | 一种基于多尺度全局交叉匹配的光流估计方法 |
CN116051957A (zh) * | 2023-01-03 | 2023-05-02 | 东北电力大学 | 基于注意力机制和多尺度融合的个人防护物品检测网络 |
-
2023
- 2023-05-04 CN CN202310485793.XA patent/CN116563147B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020124959A1 (zh) * | 2018-12-21 | 2020-06-25 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其装置 |
CN112164011A (zh) * | 2020-10-12 | 2021-01-01 | 桂林电子科技大学 | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 |
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
CN113808032A (zh) * | 2021-08-04 | 2021-12-17 | 北京交通大学 | 多阶段渐进式的图像去噪算法 |
CN114255514A (zh) * | 2021-12-27 | 2022-03-29 | 厦门美图之家科技有限公司 | 基于Transformer的人体跟踪系统、方法及摄像装置 |
CN114742733A (zh) * | 2022-04-19 | 2022-07-12 | 中国工商银行股份有限公司 | 云去除方法、装置、计算机设备和存储介质 |
CN114972134A (zh) * | 2022-05-11 | 2022-08-30 | 重庆理工大学 | 一种提取并融合局部和全局特征的低光图像增强方法 |
CN114898106A (zh) * | 2022-05-26 | 2022-08-12 | 华北水利水电大学 | 基于rgb-t多源图像数据的显著性目标检测方法 |
CN115205730A (zh) * | 2022-06-10 | 2022-10-18 | 西安工业大学 | 一种结合特征增强与模板更新的目标跟踪方法 |
CN115100235A (zh) * | 2022-08-18 | 2022-09-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、系统及存储介质 |
CN115660955A (zh) * | 2022-10-20 | 2023-01-31 | 安徽理工大学 | 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质 |
CN115775350A (zh) * | 2022-11-07 | 2023-03-10 | 上海理工大学 | 一种图像增强方法和装置、计算设备 |
CN115861647A (zh) * | 2022-11-22 | 2023-03-28 | 哈尔滨工程大学 | 一种基于多尺度全局交叉匹配的光流估计方法 |
CN115830384A (zh) * | 2022-12-09 | 2023-03-21 | 华中科技大学 | 一种基于双判别器生成对抗网络的图像融合方法和系统 |
CN116051957A (zh) * | 2023-01-03 | 2023-05-02 | 东北电力大学 | 基于注意力机制和多尺度融合的个人防护物品检测网络 |
Non-Patent Citations (2)
Title |
---|
HEZHENG LIN等: "CAT:Cross Attention in Vision Transformer", 《ARXIV:2106.05786V1》, pages 1 - 15 * |
费文曲;: "基于位置感知交叉注意力网络的方面情感分析", 信息通信, no. 02, pages 59 - 62 * |
Also Published As
Publication number | Publication date |
---|---|
CN116563147B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344806A (zh) | 一种基于全局特征融合注意力网络的图像去雾方法与系统 | |
CN115497005A (zh) | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN111754438A (zh) | 基于多分支门控融合的水下图像复原模型及其复原方法 | |
CN111553869B (zh) | 一种空基视角下的生成对抗网络图像补全方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN111768326B (zh) | 一种基于gan扩增图像前景物体的高容量数据保护方法 | |
CN116152591B (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN114943893A (zh) | 一种土地覆盖分类的特征增强网络 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质 | |
CN112700426A (zh) | 一种复杂环境下的显著性物体检测方法 | |
CN115272777A (zh) | 面向输电场景的半监督图像解析方法 | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Xu et al. | Multi-scale dehazing network via high-frequency feature fusion | |
CN114202473A (zh) | 一种基于多尺度特征和注意力机制的图像复原方法及装置 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
Pang et al. | PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images | |
CN116563147B (zh) | 一种水下图像增强系统及方法 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
Zhuang et al. | Dimensional transformation mixer for ultra-high-definition industrial camera dehazing | |
Yang et al. | Deep networks for image super-resolution using hierarchical features | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 | |
AU2021104479A4 (en) | Text recognition method and system based on decoupled attention mechanism | |
Feng et al. | Coal mine image dust and fog clearing algorithm based on deep learning network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |