CN117911303A - 一种面向水下弱光场景的图像质量增强方法及装置 - Google Patents
一种面向水下弱光场景的图像质量增强方法及装置 Download PDFInfo
- Publication number
- CN117911303A CN117911303A CN202410295730.2A CN202410295730A CN117911303A CN 117911303 A CN117911303 A CN 117911303A CN 202410295730 A CN202410295730 A CN 202410295730A CN 117911303 A CN117911303 A CN 117911303A
- Authority
- CN
- China
- Prior art keywords
- weak light
- light scene
- underwater
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000009792 diffusion process Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000005286 illumination Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000013459 approach Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005282 brightening Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Processing (AREA)
Abstract
一种面向水下弱光场景的图像质量增强方法及装置,涉及水下机器视觉技术领域,该方法包括:采集水下弱光场景数据;基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像;该方法利用RGB数据,实现一种面向水下弱光场景的图像质量增强方法,重建清晰的水下弱光增强图片,为水下的目标检测、追踪、深度估计等任务提供高质量鲁棒的视觉表达。
Description
技术领域
本发明水下机器视觉技术领域,尤其涉及一种面向水下弱光场景的图像质量增强方法及装置。
背景技术
长期以来,弱光条件下的照明场景一直对计算机视觉提出了巨大的挑战。以往的水下图像增强方法主要包括图像增光、对比度调整和滤波等技术。图像增光方法往往依赖于传感器的灵敏度提高或者外部照明设备的使用,然而,这些方法容易引入图像噪声,尤其在弱光条件下。对比度调整通常采用线性拉伸等传统方法,但这些方法在复杂水下场景中的效果有限。滤波方法虽然能够减少一些噪声,但也会损失图像的细节和清晰度。在水下环境中,光线传播和颜色衰减与陆地环境存在显著不同,导致传统图像增强技术在此处难以发挥最大效果。水的吸收和散射对图像的质量造成了严重影响,加之水下光学系统的特殊性,使得现有技术无法满足对于高质量水下图像的迫切需求。
近年来,随着计算机视觉和深度学习技术的迅猛发展,基于深度学习的方法在弱光成像方面给出了令人兴奋的结果。在水下弱光场景中,传统的图像增强方法难以捕捉复杂的光学特性,而基于深度学习的方法通过学习大量数据和模式,能够更好地理解并处理水下环境中的图像。这些方法采用卷积神经网络来学习从低光域到正常光域的表示和映射。然而,低光的复杂性,如曝光不足和细节丢失,可能会给这些方法带来挑战。此外,用于监督学习的各种弱光视觉数据集的可用性有限,进一步阻碍了这种数据驱动方法的性能。这种情况对于水下勘探、海洋生物学研究等领域构成了严峻的挑战。
因此,如何提供一种面向水下弱光场景的图像质量增强方法,对水下图像进行清晰的重建,成为本领域亟待解决的技术问题。
发明内容
为了解决上述技术问题,本发明提供了一种面向水下弱光场景的图像质量增强方法及装置,实现了对水下弱光场景的图像的外观信息和细节信息的高效提取和有效融合,并在水下弱光场景重建清晰的图像,为水下的检测、追踪和深度估计等任务提供了真实有效的视觉信息。
基于同一发明构思,本发明具有四个独立的技术方案:
1、一种面向水下弱光场景的图像质量增强方法,包括:
采集水下弱光场景数据;
基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
进一步地,采集水下弱光场景数据,包括:
采集正常光照的水下弱光场景数据作为真实图像;
采集低照度的水下弱光场景数据作为低照度图像,并与所述真实图像保持视角对齐;
基于所述真实图像和所述低照度图像构建训练集和测试集,所述训练集和所述测试集中包含图像数量比为9:1。
进一步地,基于Restormer模型对所述弱光场景数据集进行特征提取,包括:
基于Restormer模型的编码器模块在多个尺度上压缩和重建场景信息,得到多尺度通道特征;
基于通道转换器CTrans对所述多尺度通道特征进行交叉融合,再基于Restormer模型的解码器模块解码得到所述外观特征信息。
进一步地,基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,包括:
将低照度图像作为条件向量指导所述扩散模型,并采用U-Net模型作为去噪器进行去噪,得到所述细节特征信息。
进一步地,去噪过程包括计算优化数据分布,计算公式如下:
;
其中,表示条件向量,/>和/>分别表示均值和方差,/>表示给定当前状态/>和控制变量/>的条件下,上一个时间步/>的状态/>的概率密度函数,/>表示/>时刻的状态,/>表示正态分布,/>表示单位矩阵。
进一步地,所述ResNet模型采用两个具有相似编码器结构的分支作为融合模块,第一分支用于融合上下文内容,第二分支用于压缩全局样式特征向量。
进一步地,采用有监督方式训练所述Restormer模型、所述扩散模型以及所述ResNet模型,并使用逐像素的损失函数约束训练。
2、一种面向水下弱光场景的图像质量增强装置,包括:
采集模块,用于采集水下弱光场景数据;
外观建模模块,用于基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
细节增强模块,用于基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
语义融合模块,用于基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
3、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
4、一种电子设备,包括处理器和存储装置,所述存储装置中存有多条指令,所述处理器用于读取所述存储装置中的多条指令并执行上述方法。
本发明提供的面向水下弱光场景的图像质量增强方法及装置,至少包括如下有益效果:
(1)通过使用各种设备采集真实水下弱光场景数据,构建基准图像质量增强数据集。进而,通过本申请提出的一种面向水下弱光场景的图像质量增强方法,针对弱光场景的局限性,对RGB数据以端到端的方式进行水下弱光重建,获得清晰鲁棒的场景图像,为水下其他视觉任务,如水下的目标检测、追踪、深度估计等,提供更好的视觉表达,能够有效提升上述任务的准确率;
(2)采用分层优化策略来训练我们的双流融合网络,首先,我们分别训练两个流网络,然后在训练语义融合网络之前冻结它们的权值。最后,我们执行端到端的关节微调。这种方法在单独的训练期间优化单个网络功能,然后在潜在语义空间内微调整个网络,以最小化局部最优的风险。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的面向水下弱光场景的图像质量增强方法一种实施例的示意图;
图2是基于Restormer模型对所述弱光场景数据集进行特征提取的流程示意图;
图3是基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取的流程示意图;
图4是将外观特征信息和细节特征信息进行语义融合的流程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例一:
参见图1,在一些实施例中,提供一种面向水下弱光场景的图像质量增强方法,通过在弱光场景拍摄的RGB数据作为输入,重建清晰鲁棒的正常光清晰水下视觉场景,适用于水下弱光场景的图像重建。该方法包括如下步骤:
S1、采集水下弱光场景数据;
S2、基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
S3、基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
S4、基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
具体地,步骤S1中,采集水下弱光场景数据,也即通过使用便携式设备(包括相机和智能手机)采集真实水下弱光场景数据,构建基准图像质量增强数据集,保证数据集的真实性和弱光环境,具体包括如下步骤:
S11、采集正常光照的水下弱光场景数据作为真实图像;
S12、采集低照度的水下弱光场景数据作为低照度图像,并与所述真实图像保持视角对齐;
S13、基于所述真实图像和所述低照度图像构建训练集和测试集,所述训练集和所述测试集中包含图像数量比为9:1。
具体地,根据所述的水下弱光场景条件要求,拍摄真实的水下正常光照的RGB图片作为真实图像,并记录拍摄信息;通过控制场景效果、调节曝光时间,采集低照度的水下弱光RGB图片,并与正常光照的RGB图片保持视角对齐;根据上述步骤获得的结果,构建基准训练集和测试集,比例为9:1。
在数据集的采集过程中,使用了各种便携式摄影设备来获得RGB格式的数据,涵盖了大部分的水下弱光场景。通过在水下控制人造光源的开启和关闭以及修改曝光时间等相机参数,来实现弱光和正常光的场景效果,从而构建弱光和正常光配对标签数据。
本实施例中的技术适用于多种设备输入,例如水下相机,手机等便携式设备,输入格式包括:RGB格式、RAW格式等。
最终构建的基准图像质量增强数据集由2500张图像组成,其中2250张在训练集,其余的在测试集。
参见图2,步骤S2中,基于Restormer模型对所述弱光场景数据集进行特征提取,包括:
S21、基于Restormer模型的编码器模块在多个尺度上压缩和重建场景信息,得到多尺度通道特征;
S22、基于通道转换器CTrans对所述多尺度通道特征进行交叉融合,再基于Restormer模型的解码器模块解码得到所述外观特征信息。
针对弱光场景的细节结构模糊问题,使用基于Restormer的外观建模模块作为双流网络结构的第一个流网络,捕获弱光场景结构,增强跨场景的适应性。其中,Restormer充当外观建模模块中的特征提取块,在多个尺度上压缩和重建场景信息。为了实现全局多尺度上下文之间的双向信息交换,引入了通道转换器CTrans,用于指导多尺度通道特征的交叉融合。解决了下采样和上采样之间的语义不一致问题,从而增强了模型的泛化能力,网络组织如下:
;
其中,输入为弱光图像,输出/>为外观特征信息,/>表示基于Restormer的编码器模块,/>表示基于Restormer的解码器模块。
的结构如下:
;
其中,表示第/>层下采样层的输出。/>表示第/>层提取过的全局多尺度上下文双向感知的特征。
步骤S3中,基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,包括:
将低照度图像作为条件向量指导所述扩散模型,并采用U-Net模型作为去噪器进行去噪,得到所述细节特征信息。
针对弱光场景的细节丢失问题,利用带有条件信息的扩散模型的细节增强模块作为双流网络结构的第二个流网络,使用生成模型范式增强图像级细节信息,利用弱光场景作为条件先验指导扩散模型,利用弱光图像作为条件先验来指导扩散模型,有助于在去噪过程中恢复场景纹理细节和色彩空间。采用U-Net模型作为降噪器,使用弱光图像作为指导,网络组织如下:
;
其中,输入为弱光图像,输出/>为细节特征信息,DDPM为采用U-Net模型作为降噪器的降噪扩散模型函数;
作为一种较优的实施方式,本实施例使用创新的生成模型范式增强图像细节。我们利用低光照图像作为条件向量c来指导扩散模型,在去噪过程中帮助恢复场景纹理细节和色彩空间。采用U-Net模型作为去噪器,我们将c作为主导。
去噪过程包括计算优化数据分布,计算公式如下:
;
其中,表示条件向量,/>和/>分别表示均值和方差,/>表示给定当前状态/>和控制变量/>的条件下,上一个时间步/>的状态/>的概率密度函数,/>表示/>时刻的状态,/>表示正态分布,/>表示单位矩阵。
步骤S4中,所述ResNet模型采用两个具有相似编码器结构的分支作为融合模块,第一分支用于融合上下文内容,第二分支用于压缩全局样式特征向量。
利用基于ResNet的语义融合模块在语义空间中合并经过上述双流网络高效提取过的特征输出,并将输出的融合特征在通道维度结合。基于ResNet的语义融合模块在语义空间中合并双流网络的结果,并在像素空间中重建最终图像。使用有两个具有相似编码器结构的分支作为融合模块,第一个用于融合主要内容,第二个用于压缩的全局样式特征向量,该向量增强了视觉质量,有助于训练收敛。将上述融合模块的两个分支的输出在通道维度进行结合,并使用统一的基于ResNet的解码器在像素空间中重建,得到最终的清晰的水下弱光增强图像。
两个编码器输出通过通道拼接组合,并使用统一的解码器在像素空间中重建。简单的过程如下:
;
其中,表示第二个流网络的输出,/>和/>分别表示语义融合模块的两个编码器,/>表示最终的解码器。
作为一种较优的实施方式,采用有监督方式训练所述Restormer模型、所述扩散模型以及所述ResNet模型,并使用逐像素的损失函数约束训练。
实施例二:
在一些实施例中,提供一种面向水下弱光场景的图像质量增强装置,包括:
采集模块,用于采集水下弱光场景数据;
外观建模模块,用于基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
细节增强模块,用于基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
语义融合模块,用于基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
作为一种较优的实施方式,采集水下弱光场景数据,包括:
采集正常光照的水下弱光场景数据作为真实图像;
采集低照度的水下弱光场景数据作为低照度图像,并与所述真实图像保持视角对齐;
基于所述真实图像和所述低照度图像构建训练集和测试集,所述训练集和所述测试集中包含图像数量比为9:1。
作为一种较优的实施方式,基于Restormer模型对所述弱光场景数据集进行特征提取,包括:
基于Restormer模型的编码器模块在多个尺度上压缩和重建场景信息,得到多尺度通道特征;
基于通道转换器CTrans对所述多尺度通道特征进行交叉融合,再基于Restormer模型的解码器模块解码得到所述外观特征信息。
作为一种较优的实施方式,基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,包括:
将低照度图像作为条件向量指导所述扩散模型,并采用U-Net模型作为去噪器进行去噪,得到所述细节特征信息。
作为一种较优的实施方式,去噪过程包括计算优化数据分布,计算公式如下:
;
其中,表示条件向量,/>和/>分别表示均值和方差,/>表示给定当前状态/>和控制变量/>的条件下,上一个时间步/>的状态/>的概率密度函数,/>表示/>时刻的状态,/>表示正态分布,/>表示单位矩阵。
作为一种较优的实施方式,所述ResNet模型采用两个具有相似编码器结构的分支作为融合模块,第一分支用于融合上下文内容,第二分支用于压缩全局样式特征向量。
作为一种较优的实施方式,采用有监督方式训练所述Restormer模型、所述扩散模型以及所述ResNet模型,并使用逐像素的损失函数约束训练。
实施例三:
在一些实施例中,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
实施例四:
在一些实施例中,提供一种电子设备,包括处理器和存储装置,所述存储装置中存有多条指令,所述处理器用于读取所述存储装置中的多条指令并执行上述方法。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
上述实施例提供的面向水下弱光场景的图像质量增强方法及装置,通过使用各种设备采集真实水下弱光场景数据,构建基准图像质量增强数据集。进而,通过本申请提出的一种面向水下弱光场景的图像质量增强方法,针对弱光场景的局限性,对RGB数据以端到端的方式进行水下弱光重建,获得清晰鲁棒的场景图像,为水下其他视觉任务,如水下的目标检测、追踪、深度估计等,提供更好的视觉表达,能够有效提升上述任务的准确率;采用分层优化策略来训练我们的双流融合网络,首先,我们分别训练两个流网络,然后在训练语义融合网络之前冻结它们的权值。最后,我们执行端到端的关节微调。这种方法在单独的训练期间优化单个网络功能,然后在潜在语义空间内微调整个网络,以最小化局部最优的风险。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种面向水下弱光场景的图像质量增强方法,其特征在于,包括:
采集水下弱光场景数据;
基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
2.根据权利要求1所述的方法,其特征在于,采集水下弱光场景数据,包括:
采集正常光照的水下弱光场景数据作为真实图像;
采集低照度的水下弱光场景数据作为低照度图像,并与所述真实图像保持视角对齐;
基于所述真实图像和所述低照度图像构建训练集和测试集,所述训练集和所述测试集中包含图像数量比为9:1。
3.根据权利要求1所述的方法,其特征在于,基于Restormer模型对所述弱光场景数据集进行特征提取,包括:
基于Restormer模型的编码器模块在多个尺度上压缩和重建场景信息,得到多尺度通道特征;
基于通道转换器CTrans对所述多尺度通道特征进行交叉融合,再基于Restormer模型的解码器模块解码得到所述外观特征信息。
4.根据权利要求2所述的方法,其特征在于,基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,包括:
将低照度图像作为条件向量指导所述扩散模型,并采用U-Net模型作为去噪器进行去噪,得到所述细节特征信息。
5.根据权利要求4所述的方法,其特征在于,去噪过程包括计算优化数据分布,计算公式如下:
;
其中,表示条件向量,/>和/>分别表示均值和方差,/>表示给定当前状态和控制变量/>的条件下,上一个时间步/>的状态/>的概率密度函数,/>表示/>时刻的状态,/>表示正态分布,/>表示单位矩阵。
6.根据权利要求1所述的方法,其特征在于,所述ResNet模型采用两个具有相似编码器结构的分支作为融合模块,第一分支用于融合上下文内容,第二分支用于压缩全局样式特征向量。
7.根据权利要求1所述的方法,其特征在于,采用有监督方式训练所述Restormer模型、所述扩散模型以及所述ResNet模型,并使用逐像素的损失函数约束训练。
8.一种面向水下弱光场景的图像质量增强装置,其特征在于,包括:
采集模块,用于采集水下弱光场景数据;
外观建模模块,用于基于Restormer模型对所述弱光场景数据集进行特征提取,得到外观特征信息;
细节增强模块,用于基于带有条件信息的扩散模型对所述弱光场景数据进行特征提取,得到细节特征信息;
语义融合模块,用于基于ResNet模型将所述外观特征信息和所述细节特征信息在语义空间中合并,并将融合特征在通道维度结合,通过所述ResNet模型的解码器在像素空间中重建并输出增强图像。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的方法。
10.一种电子设备,包括处理器和存储装置,其特征在于,所述存储装置中存有多条指令,所述处理器用于读取所述存储装置中的多条指令并执行如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410295730.2A CN117911303A (zh) | 2024-03-15 | 2024-03-15 | 一种面向水下弱光场景的图像质量增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410295730.2A CN117911303A (zh) | 2024-03-15 | 2024-03-15 | 一种面向水下弱光场景的图像质量增强方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117911303A true CN117911303A (zh) | 2024-04-19 |
Family
ID=90692691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410295730.2A Pending CN117911303A (zh) | 2024-03-15 | 2024-03-15 | 一种面向水下弱光场景的图像质量增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117911303A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409733A (zh) * | 2022-09-02 | 2022-11-29 | 山东财经大学 | 一种基于图像增强和扩散模型的低剂量ct图像降噪方法 |
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
CN116071256A (zh) * | 2023-01-09 | 2023-05-05 | 上海人工智能创新中心 | 生成扩散先验的统一图像修复与增强的方法 |
CN117333387A (zh) * | 2023-09-28 | 2024-01-02 | 南京邮电大学 | 基于频域感知及光照自适应的无监督低光图像增强方法 |
CN117391987A (zh) * | 2023-10-23 | 2024-01-12 | 沈阳航空航天大学 | 基于多阶段联合增强机制的暗光图像处理方法 |
CN117670733A (zh) * | 2023-11-30 | 2024-03-08 | 西北工业大学 | 一种基于小波谱学习的低光照图像增强方法 |
-
2024
- 2024-03-15 CN CN202410295730.2A patent/CN117911303A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409733A (zh) * | 2022-09-02 | 2022-11-29 | 山东财经大学 | 一种基于图像增强和扩散模型的低剂量ct图像降噪方法 |
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
CN116071256A (zh) * | 2023-01-09 | 2023-05-05 | 上海人工智能创新中心 | 生成扩散先验的统一图像修复与增强的方法 |
CN117333387A (zh) * | 2023-09-28 | 2024-01-02 | 南京邮电大学 | 基于频域感知及光照自适应的无监督低光图像增强方法 |
CN117391987A (zh) * | 2023-10-23 | 2024-01-12 | 沈阳航空航天大学 | 基于多阶段联合增强机制的暗光图像处理方法 |
CN117670733A (zh) * | 2023-11-30 | 2024-03-08 | 西北工业大学 | 一种基于小波谱学习的低光照图像增强方法 |
Non-Patent Citations (2)
Title |
---|
J. HO, A. JAIN, AND P. ABBEEL: ""Denoising diffusion probabilistic models"", 《ARXIV》, 16 December 2020 (2020-12-16), pages 1 - 25 * |
YUEHANG WANG,YONGJI ZHANG等: ""RNVE: A Real Nighttime Vision Enhancement Benchmark and Dual-Stream Fusion Network"", 《IEEE SIGNAL PROCESSING LETTERS》, 18 December 2023 (2023-12-18), pages 131 - 135 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526995B2 (en) | Robust use of semantic segmentation for depth and disparity estimation | |
Al Sobbahi et al. | Comparing deep learning models for low-light natural scene image enhancement and their impact on object detection and classification: Overview, empirical evaluation, and challenges | |
EP4198875A1 (en) | Image fusion method, and training method and apparatus for image fusion model | |
CN111915526A (zh) | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 | |
Rao et al. | A Survey of Video Enhancement Techniques. | |
CN112598579B (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
Jinno et al. | Multiple exposure fusion for high dynamic range image acquisition | |
Izadi et al. | Image denoising in the deep learning era | |
CN110852961A (zh) | 一种基于卷积神经网络的实时视频去噪方法及系统 | |
Yang et al. | Learning event guided high dynamic range video reconstruction | |
CN115035011B (zh) | 一种融合策略下自适应RetinexNet的低照度图像增强方法 | |
US20240362745A1 (en) | Methods and apparatus for blending unknown pixels in overlapping images | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
Zhang et al. | Deep motion blur removal using noisy/blurry image pairs | |
CN116612015A (zh) | 模型训练方法、图像去摩尔纹方法、装置及电子设备 | |
CN115115516A (zh) | 基于Raw域的真实世界视频超分辨率算法 | |
Chen et al. | End-to-end single image enhancement based on a dual network cascade model | |
Cao et al. | A brightness-adaptive kernel prediction network for inverse tone mapping | |
Kumar et al. | Underwater image enhancement using deep learning | |
Tian et al. | Deformable convolutional network constrained by contrastive learning for underwater image enhancement | |
CN111383188A (zh) | 一种图像处理方法、系统及终端设备 | |
CN115311149A (zh) | 图像去噪方法、模型、计算机可读存储介质及终端设备 | |
CN117611467A (zh) | 一种能同时平衡不同区域细节和亮度的低光图像增强方法 | |
CN116055895B (zh) | 图像处理方法及其装置、芯片系统和存储介质 | |
CN117911303A (zh) | 一种面向水下弱光场景的图像质量增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |