CN117078551A - 结合双分支核自适应和多尺度融合的水下图像增强方法 - Google Patents
结合双分支核自适应和多尺度融合的水下图像增强方法 Download PDFInfo
- Publication number
- CN117078551A CN117078551A CN202311073823.2A CN202311073823A CN117078551A CN 117078551 A CN117078551 A CN 117078551A CN 202311073823 A CN202311073823 A CN 202311073823A CN 117078551 A CN117078551 A CN 117078551A
- Authority
- CN
- China
- Prior art keywords
- underwater
- images
- image
- features
- paired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 24
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 15
- 241000282326 Felis catus Species 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 101100409194 Rattus norvegicus Ppargc1b gene Proteins 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000011084 recovery Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Image Processing (AREA)
Abstract
本发明提出了结合双分支核自适应和多尺度融合的水下图像增强方法,包括:将成对水下原始图像进行数据增强和归一化处理,获得成对水下图像;构建双分支核自适应模块和多尺度融合模块,获得深层次特征并对其进行有效融合;基于双分支核自适应模块和多尺度融合模块,构建水下图像增强的卷积神经网络,输出水下图像;设计目标损失函数;将成对水下图像作为训练集,获得训练后的水下图像增强的卷积神经网络;将待增强的成对水下原始图像进行归一化处理,输入训练完成的水下图像增强模型,得到增强的水下图像。本发明能对水下图像进行增强,有效地解决了色调恢复效果差的问题以及由卷积核引起的欠增强和过增强问题。
Description
技术领域
本发明属于电子通讯与信息工程领域,具体涉及结合双分支核自适应和多尺度融合的水下图像增强方法。
背景技术
水下环境中的水吸收、散射和反射对水下图像有影响。传统的图像处理算法,如白平衡、直方图均衡和灰度边缘假设,构成了早期水下图像增强技术的基础。这些算法可以在一定程度上提高水下照片的质量,但其影响有限,容易受到细节模糊和图像过度增强等问题的影响。近年来,随着基于深度学习的水下图像增强方法吸引了广泛的兴趣和应用,CNN(Convolutional Neural Networks,卷积神经网络)学习在水下图像端到端恢复方面取得了实质性进展。大多数现有的CNN研究方法对退化图像采取固定的卷积方法。Sharma等人发现,将较大的卷积核分配给蓝色通道,将较小的卷积核指定给绿色通道,并进一步减小红色通道的大小,可以获得一定的增强结果。但是单一的分配大卷积核和小卷积核会导致在需要学习全局特征的图像局部上过多的注重细节,从而导致图像过增强或欠增强。
发明内容
本发明所要解决的技术问题是:提出了结合双分支核自适应和多尺度融合的水下图像增强方法,采用了双分支多尺度核卷积自适应和特征融合策略,能够充分地学习颜色上下文和细节信息,够对不同类型的水下图像进行增强,且具有良好的效果。
本发明为解决上述技术问题采用以下技术方案:
结合双分支核自适应和多尺度融合的水下图像他增强方法,包括:
S1、将成对水下原始图像进行数据增强和归一化处理,获得成对水下图像。
S2、构建DBMKA(双分支核自适应模块,Dual branch multi-scale kerneladaptation)模块和MFF(多尺度融合模块,Multi-scale Feature Fusion)模块,获得深层次特征并对其进行有效融合。
S3、基于双分支核自适应模块和多尺度融合模块,构建水下图像增强的卷积神经网络,输出水下图像。
S4、针对步骤S3中的水下图像,设计目标损失函数。
S5、将步骤S1中成对水下图像作为训练集,获得训练后的水下图像增强的卷积神经网络。
S6、将待增强的成对水下原始图像进行归一化处理,输入训练完成的水下图像增强模型,得到输出的增强图像。
进一步的,步骤S2中,获得融合后的深层次特征包括以下子步骤:
S201、将步骤S1中的成对水下图像输入到双分支核自适应模块的前端结构中,利用三个不同大小的卷积核提取不同尺度的特征,具体公式为:
I1=w3×3(input)
I2=concat(w5×5(input),w5×5(I1))
I3=concat(w7×7(input),w7×7(I2))
其中,I1表示成对水下图像经过卷积核3×3下采样后的特征,I2表示成对水下图像与I1分别经过卷积核5×5下采样后叠加得到的特征,I3表示成对水下图像与I2分别经过卷积核7×7下采样后叠加得到的特征,w表示卷积操作,concat表示在通道方向上叠加操作。
S202、将提取的三个不同尺度的特征输入到双分支核自适应模块的中端结构中,经过concat和add操作,再经过一个3×3卷积,得到下采样的叠加特征,再输入到CBAM(卷积块注意模块,Convolutional Block Attention Module)中,得到注意力加权后的特征,具体公式为:
F1=U(I1,input_R),U∈{cat,add}
F2=U(I2,input_G),U∈{cat,add}
F3=U(I3,input_B),U∈{cat,add}
Fci=CBAM(Ii),i∈{1,2,3}
其中,F1表示I1和成对水下图像红色通道的特征经过concat和add操作得到的特征,F2表示I2和成对水下图像绿色通道的特征经过concat和add操作得到的特征,F3表示I3和成对水下图像蓝色通道的特征经过concat和add操作得到的特征,Fci表示Ii经过CBAM得到的注意力加权特征,U表示concat和add操作,input_R表示成对水下图像红色通道的特征,input_G表示成对水下图像绿色通道的特征,input_B表示成对水下图像蓝色通道的特征,cat表示concat,add表示图像对应位置像素点相加操作。
S203、在规模适应部分,主要分为通道启发和熵启发。在通道启发部分,将双分支核自适应模块的前端结构中提取的特征输入到末端结构中进行add运算,经过一个全局平均池和一个1×1的卷积层得到紧凑特征以实现精确和自适应选择的指导,再通过3个并行的1×1×32的卷积层和softmax激活层得到每个分辨流的特征注意向量用于多尺度特征执行自适应校准,具体公式为:
F=I1+I2+I3
Z=w1×1(GAP(F))
Pi=Softmax(w1×1(Z)),i∈{1,2,3}
其中,F表示步骤S201中三个特征相加得到的多尺度特征,Z表示紧凑特征,GAP表示全局平均池,Pi表示经过步骤S201中第i个特征的特征注意向量。
S204、将每个分辨流的特征注意向量输入到双分支核自适应模块末端结构的第二分支中,得到熵启发的加权特征,具体公式为:
yr(k,j)=sigmoid(w3×3(H,1-H))
yg(k,j)=sigmoid(w3×3(H,1-H))
yb(k,j)=sigmoid(w3×3(H,1-H))
Er=exp(yr(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eg=exp(yg(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eb=exp(yb(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
output=Prelu(bn(P1·Fc1·Er+P2·Fc2·Eg+P3·Fc3·Eb+w1×1(I)))
其中,H表示局部熵图像,1-H表示局部熵图像在像素值上取补,yr表示将H和1-H进行下采样和归一化后得到的用于红色通道图像特征,yg表示将H和1-H进行下采样和归一化后得到的用于绿色通道图像特征,yb表示将H和1-H进行下采样和归一化后得到的用于蓝色通道图像特征,yr、yg和yb下采样的参数不共享,sigmoid表示将变量映射到0~1之间的函数,k表示图像矩阵的行数,j表示图像矩阵的列数,Er表示红色通道特征加权系数,Eg表示绿色通道特征加权系数,Eb表示蓝色通道特征加权系数,output表示经过熵启发核自适应后得到的加权特征,Prelu表示激活函数,bn表示batch归一化,Fc1表示I1经过CBAM得到的注意力加权特征,Fc2表示I2经过CBAM得到的注意力加权特征,Fc3表示I3经过CBAM得到的注意力加权特征,I表示输入特征。
局部熵图像的表达式为:
其中,Ek表示期望,pi,j表示图像的局部范围,l表示局部点,t表示循环变量,Nq表示局部上点的总数,pt表示概率值。
S205、多尺度融合模块对输入的特征在通道方向叠加,分别通过两个加权分支分配适当的权重以重新校准特征图,得到融合后的深层次特征,具体公式为:
Y=concat(input_1,input_2,input_3)
Y=Y·sigmoid(linear(GAP(Y)))·sigmoid(linear(GMP(Y)))+Y
其中,input_1、input_2、input_3分别表示输入的三个尺度特征,linear表示全连接层,GMP表示全局最大池化,Y表示融合后的深层次特征。
进一步的,步骤S3中,构建水下图像增强的卷积神经网络包括以下内容:
搭建特征提取网络,该网络的前端结构是三个并行的双分支核自适应模块,中端结构是一个concat层,叠加前端输出的特征,末端是两个并行的双分支核自适应模块DBMKA;搭建特征融合网络,该网络的前端结构是由dconv、bn、prelu组成的block,中端结构是多尺度融合模块,末端结构与前端结构相同;水下图像增强的卷积神经网络包含特征提取网络和特征融合网络。
进一步的,步骤S3中,输出水下图像包括以下子步骤:
S301、将成对水下图像中的待训练图像以及其对应的局部熵图像输入到特征提取网络的前端结构中进行多尺度核自适应的提取,得到三个浅层特征,再将其经过叠加依次输入到串行的两个双分支核自适应模块中进行深层次的提取,得到水下图像的相关特征。
S302、将水下图像的相关特征输入到特征融合网络中,内部依次经过dconv、bn、prelu组成的block、三输入的多尺度融合模块,其内嵌双分支并行注意力进一步融合学习输入的特征,得到水下图像。
进一步的,步骤S4中,设计目标损失函数包括以下子步骤:
S401、基于L2范数,进行最小化操作,具体公式为:
其中,L2(θ)表示均方根误差,N表示像素个数,Il和Ig分别表示增强后的经过处理后的成对水下原始图像、对应的清晰水下图像。
S402、利用基于VGG网络的感知损失对ImageNet数据集进行预训练,具体公式为:
其中,C、W和H分别表示图像的通道、宽度和高度,c、w和h分别表示图像的通道、宽度和高度上求和的循环变量,Ic表示训练图像,Ig表示训练图像对应的真实值。
S403、利用拉普拉斯损失对图像进行卷积操作,具体公式为:
其中,Llap表示拉普拉斯损失,lap()表示用拉普拉斯模板进行卷积操作。
S404、均方根误差、感知损失、SSIM结构相似性损失和拉普拉斯损失构成目标损失函数,具体公式为:
Loss=L2(θ)+λpLperc+λsLssim+λlLlap
其中,Lperc表示感知损失,Lssim表示SSIM结构相似性损失,λp、λs和λl表示损失加权平衡参数。
进一步的,步骤S5中,训练水下图像增强的卷积神经网络包括以下子步骤:
S501、将步骤S1中处理后的成对水下原始图像分为训练集和测试集,并将训练集随机划分多个批次输入到水下图像增强的卷积神经网络中。
S502、根据设计的目标损失函数,使用反向传播方法计算水下图像增强模型中的各个参数梯度,并利用随机梯度下降方法更新水下图像增强模型的参数。
S503、重复设置的批次数量对模型进行训练,直至水下图像增强模型的目标损失函数数值收敛到纳什平衡,保存模型参数,完成对水下图像增强模型的训练。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.本发明建立了一种新的端到端的水下图像增强框架,采取双分支核卷积自适应,以监督颜色通道的退化,聚合特征抑制其不相关的颜色上下文信息,并在图像局部熵的引导下强化学习到的细节信息。对提取的不同尺度特征进行融合,以增强水下图像,有效地解决了色调恢复效果差的问题。
2.本发明所提出的一个具有双分支多尺度核卷积自适应的DBMKA模块,通过对通道的分离和卷积核的两次自适应操作,能够有效学习深度特征和细节信息。在框架最后设计了一个多尺度特征融合模块,其添加了双分支注意力机制,以减少颜色信息的丢失。
3.考虑到单分支通道信息核自适应的不稳定性,本发明将图像局部熵用于引导二次核自适应,能够对图像的细节信息捕捉,丰富了提取的特征信息,能够对不同类型的水下图像进行增强,且具有良好的效果。
附图说明
图1是本发明的整体实施流程图。
图2为本发明双分支核自适应模块结构图。
图3为本发明多尺度融合模块结构图。
图4为本发明的系统整体框架图。
图5为本发明实施例中水下图像增强效果对比图。
图6为本发明实施例中水下图像增强细节效果对比图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明做进一步详细说明。
本发明提出了结合双分支核自适应和多尺度融合的水下图像增强方法,如图1所示,包括:
S1、将成对水下原始图像进行数据增强和归一化处理,获得成对水下图像,包括以下子步骤:
S101、将公开可用的水下图像增强基准数据集UIEB进行缩放,并对缩放后的图像通过随机翻转、裁切组合、变形进行数据增强。
S102、将所有经过数据增强后的成对水下原始图像进行归一化处理,具体公式为:
其中,I(i,j)表示成对水下原始图像,g(i,j)表示成对水下图像,(i,j)表示像素的位置。
S2、构建双分支核自适应模块和多尺度融合模块,具体内容为:
(1)构建双分支核自适应模块
如图2所示,双分支核自适应模块分为前端、中端和末端结构,其前端结构由并行的三个大小分别为3×3、5×5、7×7的卷积核和两个下沉采样卷积核组成;其中端结构为特征跳跃注意力连接运算机制,由运算机制和注意力机制组成;其末端引入双分支核自适应和下采样的结构。
(2)构建多尺度融合模块
如图3所示,多尺度融合模块分为前端、中端和末端结构,其前端结构包含叠加结构;其中端结构是两条并行的尺度融合加权分支,一条分支包括avgpool池化层、fc全连接层、sigmoid激活层,另一条分支包括maxpool池化层、fc全连接层、sigmoid激活层;其末端结构包含加权结构。
获得融合后的深层次特征包括以下子步骤:
S201、将步骤S1中的成对水下图像输入到双分支核自适应模块的前端结构中,利用三个不同大小的卷积核提取不同尺度的特征,具体公式为:
I1=w3×3(input)
I2=concat(w5×5(input),w5×5(I1))
I3=concat(w7×7(input),w7×7(I2))
其中,I1表示成对水下图像经过卷积核3×3下采样后的特征,I2表示成对水下图像与I1分别经过卷积核5×5下采样后叠加得到的特征,I3表示成对水下图像与I2分别经过卷积核7×7下采样后叠加得到的特征,w表示卷积操作,concat表示在通道方向上叠加操作。
S202、将提取的三个不同尺度的特征输入到双分支核自适应模块的中端结构中,经过concat和add操作,再经过一个3×3卷积,得到下采样的叠加特征,再输入到CBAM(卷积块注意模块,Convolutional Block Attention Module)中,得到注意力加权后的特征,具体公式为:
F1=U(I1,input_R),U∈{cat,add}
F2=U(I2,input_G),U∈{cat,add}
F3=U(I3,input_B),U∈{cat,add}
Fci=CBAM(Ii),i∈{1,2,3}
其中,F1表示I1和成对水下图像红色通道的特征经过concat和add操作得到的特征,F2表示I2和成对水下图像绿色通道的特征经过concat和add操作得到的特征,F3表示I3和成对水下图像蓝色通道的特征经过concat和add操作得到的特征,Fci表示Ii经过CBAM得到的注意力加权特征,U表示concat和add操作,input_R表示成对水下图像红色通道的特征,input_G表示成对水下图像绿色通道的特征,input_B表示成对水下图像蓝色通道的特征,cat表示concat,add表示图像对应位置像素点相加操作。
S203、在规模适应部分,主要分为通道启发和熵启发。在通道启发部分,将双分支核自适应模块的前端结构中提取的特征输入到末端结构中进行add运算,经过一个全局平均池和一个1×1的卷积层得到紧凑特征以实现精确和自适应选择的指导,再通过3个并行的1×1×32的卷积层和softmax激活层得到每个分辨流的特征注意向量用于多尺度特征执行自适应校准,具体公式为:
F=I1+I2+I3
Z=w1×1(GAP(F))
Pi=Softmax(w1×1(Z)),i∈{1,2,3}
其中,F表示步骤S201中三个特征相加得到的多尺度特征,Z表示紧凑特征,GAP表示全局平均池,Pi表示经过步骤S201中第i个特征的特征注意向量。
S204、将每个分辨流的特征注意向量输入到双分支核自适应模块末端结构的第二分支中,得到熵启发的加权特征,具体公式为:
yr(k,j)=sigmoid(w3×3(H,1-H))
yg(k,j)=sigmoid(w3×3(H,1-H))
yb(k,j)=sigmoid(w3×3(H,1-H))
Er=exp(yr(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eg=exp(yg(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eb=exp(yb(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
output=Prelu(bn(P1·Fc1·Er+P2·Fc2·Eg+P3·Fc3·Eb+w1×1(I)))
其中,H表示局部熵图像,1-H表示局部熵图像在像素值上取补,yr表示将H和1-H进行下采样和归一化后得到的用于红色通道图像特征,yg表示将H和1-H进行下采样和归一化后得到的用于绿色通道图像特征,yb表示将H和1-H进行下采样和归一化后得到的用于蓝色通道图像特征,yr、yg和yb下采样的参数不共享,sigmoid表示将变量映射到0~1之间的函数,k表示图像矩阵的行数,j表示图像矩阵的列数,Er表示红色通道特征加权系数,Eg表示绿色通道特征加权系数,Eb表示蓝色通道特征加权系数,output表示经过熵启发核自适应后得到的加权特征,Prelu表示激活函数,bn表示batch归一化,Fc1表示I1经过CBAM得到的注意力加权特征,Fc2表示I2经过CBAM得到的注意力加权特征,Fc3表示I3经过CBAM得到的注意力加权特征,I表示输入特征。
局部熵图像的表达式为:
其中,Ek表示期望,pi,j表示图像的局部范围,l表示局部点,t表示循环变量,Nq表示局部上点的总数,pt表示概率值。
S205、多尺度融合模块对输入的特征在通道方向叠加,分别通过两个加权分支分配适当的权重以重新校准特征图,得到融合后的深层次特征,具体公式为:
Y=concat(input_1,input_2,input_3)
Y=Y·sigmoid(linear(GAP(Y)))·sigmoid(linear(GMP(Y)))+Y
其中,input_1、input_2、input_3分别表示输入的三个尺度特征,linear表示全连接层,GMP表示全局最大池化,Y表示融合后的深层次特征。
S3、基于双分支核自适应模块和多尺度融合模块,构建水下图像增强的卷积神经网络,包括以下内容:
搭建特征提取网络,该网络的前端结构是三个并行的双分支核自适应模块,中端结构是一个concat层,叠加前端输出的特征,末端是两个并行的双分支核自适应模块DBMKA;搭建特征融合网络,该网络的前端结构是由dconv、bn、prelu组成的block,中端结构是多尺度融合模块,末端结构与前端结构相同;水下图像增强的卷积神经网络包含特征提取网络和特征融合网络。
输出水下图像包括以下子步骤:
S301、将成对水下图像中的待训练图像以及其对应的局部熵图像输入到特征提取网络的前端结构中进行多尺度核自适应的提取,得到三个浅层特征,再将其经过叠加依次输入到串行的两个双分支核自适应模块中进行深层次的提取,得到水下图像的相关特征。
S302、将水下图像的相关特征输入到特征融合网络中,内部依次经过dconv、bn、prelu组成的block、三输入的多尺度融合模块,其内嵌双分支并行注意力进一步融合学习输入的特征,得到水下图像。
S4、针对步骤S3中的水下图像,设计目标损失函数,包括以下子步骤:
S401、基于L2范数,进行最小化操作,具体公式为:
其中,L2(θ)表示均方根误差,N表示像素个数,Il和Ig分别表示增强后的经过处理后的成对水下原始图像、对应的清晰水下图像。
S402、利用基于VGG网络的感知损失对ImageNet数据集进行预训练,具体公式为:
其中,C、W和H分别表示图像的通道、宽度和高度,c、w和h分别表示图像的通道、宽度和高度上求和的循环变量,Ic表示训练图像,Ig表示训练图像对应的真实值。
S403、利用拉普拉斯损失对图像进行卷积操作,具体公式为:
其中,Llap表示拉普拉斯损失,lap()表示用拉普拉斯模板进行卷积操作。
S404、均方根误差、感知损失、SSIM结构相似性损失和拉普拉斯损失构成目标损失函数,具体公式为:
Loss=L2(θ)+λpLperc+λsLssim+λlLlap
其中,Lperc表示感知损失,Lssim表示SSIM结构相似性损失,λp、λs和λl表示损失加权平衡参数。
S5、将步骤S1中成对水下图像作为训练集,获得训练后的水下图像增强的卷积神经网络,包括以下子步骤:
S501、将步骤S1中成对水下原始图像分为训练集和测试集,其中UIEB[45]数据集包含890对水下图像,设置785对图像进行训练,其余图像用于测试,并将图像大小统一修改为512×512,使用带有ADAM优化器的NVIDIARTX 4090GPU进行训练,学习率设置为0.003,并将训练集随机划分为4个批次输入到水下图像增强的卷积神经网络中。
S502、根据设计的目标损失函数,使用反向传播方法计算水下图像增强模型中的各个参数梯度,并利用随机梯度下降方法更新水下图像增强模型的参数。
S503、重复设置的批次数量对模型进行训练,直至水下图像增强模型的目标损失函数数值收敛到纳什平衡,保存模型参数,完成对水下图像增强模型的训练。
S6、将待增强的成对水下原始图像进行归一化处理,输入训练完成的水下图像增强模型,得到输出的增强图像。
为了验证本发明提出的水下图像增强的卷积神经网络在水下图像颜色校正和保留细节方面的有效性,从测试集中选取了几种水下图像常见的类型,即图5中的(1)、(2)、(3)……(10),包含绿色水下图像、蓝色色下图像、偏黄水下图像以及细节丰富的水下图像,并用不同的方法对图5中的(a)的成对水下原始图像进行处理,获得相应的增强图像,包括图5中的(b)的暗通道先验推广的增强图像、图5中的(c)的基于融合的增强图像、图5中的(d)的基于retinex方法的增强图像、图5中的(e)的基于水下图像增强基准数据集及其应用的增强图像、图5中的(f)的基于介质传输引导的多色空间嵌入的水下图像增强方法的的增强图像、图5中的(g)的基于不确定性的增强图像、图5中的(h)的基于不确定性的增强图像、图5中的(i)的本发明提出的方法的增强图像,并与图5中的(j)的参考图像作对比。暗通道先验的推广法恢复退化图像的能力有限,并导致了一定程度上的色偏,带有偏黄的色调;相较与暗通道先验的推广法,基于融合的方法与水下图像增强基准数据集及其应用的方法能够在一定程度上恢复退化图像,但引入了偏紫和偏红的色调;基于retinex的方法与本发明提出的方法能够较好的保留图像的细节,但基于retinex的方法的恢复图像具有欠饱和的特征,且引入了伪影;基于介质传输引导的多色空间嵌入的水下图像增强法和基于不确定性的水下图像增强法可以很好地去除色偏,然而,都在水下图像的表面保留了一层雾,使得图像的细节不能很好地展示。
图6展示了本发明提出的方法与其他方法在细节保留方面的对比结果,包括图6中的(a)的暗通道先验推广的增强图像、图6中的(b)的基于retinex方法的增强图像、图6中的(c)的基于介质传输引导的多色空间嵌入的水下图像增强方法的增强图像、图6中的(d)的基于不确定性的增强图像、图6中的(e)的本发明提出的方法的增强图像。可以看出,基于融合的方法、基于介质传输引导的多色空间嵌入的水下图像增强法和基于不确定性的水下图像增强法虽然能去除不同类型水下图像的色偏,然而,其一定程度上去除不了水下图像表面的雾,从而影响了对图像细节的保留;retinex-based和我们所提出的方法都能够对细节有很好的保留,但可以看出,retinex-based恢复的水下图像欠饱和,并且有伪影的产生,相比之下,本发明所提出的方法更接近于参考的水下图像,细节更加丰富。
综上所述,本发明能够很好地满足实际应用中的需求,具有良好的效果和可行性。
尽管上面示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。任何根据本发明的技术构思所做出的各种其他相应的改变和变型,均应包含在本发明权利要求的保护范围内。
Claims (7)
1.结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,包括:
S1、将成对水下原始图像进行数据增强和归一化处理,获得成对水下图像;
S2、构建双分支核自适应模块和多尺度融合模块,获得深层次特征并对其进行有效融合;
S3、基于双分支核自适应模块和多尺度融合模块,构建水下图像增强的卷积神经网络,输出水下图像;
S4、针对步骤S3中的水下图像,设计目标损失函数;
S5、将步骤S1中成对水下图像作为训练集,获得训练后的水下图像增强的卷积神经网络;
S6、将待增强的成对水下原始图像进行归一化处理,输入训练完成的水下图像增强模型,得到增强的水下图像;
其中,步骤S2中,构建双分支核自适应模块和多尺度融合模块具体内容为:
(1)构建双分支核自适应模块
双分支核自适应模块分为前端、中端和末端结构,其前端结构由并行的三个大小分别为3×3、5×5、7×7的卷积核和两个下沉采样卷积核组成;其中端结构为特征跳跃注意力连接运算机制,由运算机制和注意力机制组成;其末端引入双分支核自适应和下采样的结构;
(2)构建多尺度融合模块
多尺度融合模块分为前端、中端和末端结构,其前端结构包含叠加结构;其中端结构是两条并行的尺度融合加权分支,一条分支包括avgpool池化层、fc全连接层、sigmoid激活层,另一条分支包括maxpool池化层、fc全连接层、sigmoid激活层;其末端结构包含加权结构。
2.根据权利要求1所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S1中,获得成对水下图像包括以下子步骤:
S101、将所有成对水下原始图像缩放,并对缩放后的图像通过随机翻转、裁切组合、变形进行数据增强;
S102、将所有经过数据增强后的成对水下原始图像进行归一化处理,获得成对水下图像,具体公式为:
其中,I(i,j)表示成对水下原始图像,g(i,j)表示成对水下图像,(i,j)表示像素的位置。
3.根据权利要求1所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S2中,获得融合后的深层次特征包括以下子步骤:
S201、将步骤S1中的成对水下图像输入到双分支核自适应模块的前端结构中,利用三个不同大小的卷积核提取不同尺度的特征,具体公式为:
I1=w3×3(input)
I2=concat(w5×5(input),w5×5(I1))
I3=concat(w7×7(input),w7×7(I2))
其中,I1表示成对水下图像经过卷积核3×3下采样后的特征,I2表示成对水下图像与I1分别经过卷积核5×5下采样后叠加得到的特征,I3表示成对水下图像与I2分别经过卷积核7×7下采样后叠加得到的特征,w表示卷积操作,concat表示在通道方向上叠加操作;
S202、将提取的三个不同尺度的特征输入到双分支核自适应模块的中端结构中,经过concat和add操作,再经过一个3×3卷积,得到下采样的叠加特征,再输入到CBAM中,得到注意力加权后的特征,具体公式为:
F1=U(I1,input_R),U∈{cat,add}
F2=U(I2,input_G),U∈{cat,add}
F3=U(I3,input_B),U∈{cat,add}
Fci=CBAM(Ii),i∈{1,2,3}
其中,F1表示I1和成对水下图像红色通道的特征经过concat和add操作得到的特征,F2表示I2和成对水下图像绿色通道的特征经过concat和add操作得到的特征,F3表示I3和成对水下图像蓝色通道的特征经过concat和add操作得到的特征,Fci表示Ii经过CBAM得到的注意力加权特征,U表示concat和add操作,input_R表示成对水下图像红色通道的特征,input_G表示成对水下图像绿色通道的特征,input_B表示成对水下图像蓝色通道的特征,cat表示concat,add表示图像对应位置像素点相加操作;
S203、将双分支核自适应模块的前端结构中提取的特征输入到末端结构中进行add运算,经过一个全局平均池和一个1×1的卷积层得到紧凑特征,再通过3个并行的1×1×32的卷积层和softmax激活层得到每个分辨流的特征注意向量,具体公式为:
F=I1+I2+I3
Z=w1×1(GAP(F))
Pi=Softmax(w1×1(Z)),i∈{1,2,3}
其中,F表示步骤S201中三个特征相加得到的多尺度特征,Z表示紧凑特征,GAP表示全局平均池,Pi表示经过步骤S201中第i个特征的特征注意向量;
S204、将每个分辨流的特征注意向量输入到双分支核自适应模块末端结构的第二分支中,得到熵启发的加权特征,具体公式为:
yr(k,j)=sigmoid(w3×3(H,1-H))
yg(k,j)=sigmoid(w3×3(H,1-H))
yb(k,j)=sigmoid(w3×3(H,1-H))
Er=exp(yr(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eg=exp(yg(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
Eb=exp(yb(k,j))/exp(yr(k,j))+exp(yg(k,j))+exp(yb(k,j))
output=Prelu(bn(P1·Fc1·Er+P2·Fc2·Eg+P3·Fc3·Eb+w1×1(I)))
其中,H表示局部熵图像,1-H表示局部熵图像在像素值上取补,yr表示将H和1-H进行下采样和归一化后得到的用于红色通道图像特征,yg表示将H和1-H进行下采样和归一化后得到的用于绿色通道图像特征,yb表示将H和1-H进行下采样和归一化后得到的用于蓝色通道图像特征,yr、yg和yb下采样的参数不共享,sigmoid表示将变量映射到0~1之间的函数,k表示图像矩阵的行数,j表示图像矩阵的列数,Er表示红色通道特征加权系数,Eg表示绿色通道特征加权系数,Eb表示蓝色通道特征加权系数,output表示经过熵启发核自适应后得到的加权特征,Prelu表示激活函数,bn表示batch归一化,Fc1表示I1经过CBAM得到的注意力加权特征,Fc2表示I2经过CBAM得到的注意力加权特征,Fc3表示I3经过CBAM得到的注意力加权特征,I表示输入特征;
局部熵图像的表达式为:
其中,El表示期望,pi,j表示图像的局部范围,l表示局部点,t表示循环变量,Nq表示局部上点的总数,pt表示概率值;
S205、多尺度融合模块对输入的特征在通道方向叠加,分别通过两个加权分支分配适当的权重,得到融合后的深层次特征,具体公式为:
Y=concat(input_1,input_2,input_3)
Y=Y·sigmoid(linear(GAP(Y)))·sigmoid(linear(GMP(Y)))+Y
其中,input_1、input_2、input_3分别表示输入的三个尺度特征,linear表示全连接层,GMP表示全局最大池化,Y表示融合后的深层次特征。
4.根据权利要求1所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S3中,构建水下图像增强的卷积神经网络包括以下内容:
搭建特征提取网络,该网络的前端结构是三个并行的双分支核自适应模块,中端结构是一个concat层,叠加前端输出的特征,末端是两个并行的双分支核自适应模块;搭建特征融合网络,该网络的前端结构是由dconv、bn、prelu组成的block,中端结构是多尺度融合模块,末端结构与前端结构相同;水下图像增强的卷积神经网络包含特征提取网络和特征融合网络。
5.根据权利要求4所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S3中,输出水下图像包括以下子步骤:
S301、将成对水下图像中的待训练图像以及其对应的局部熵图像输入到特征提取网络的前端结构中进行多尺度核自适应的提取,得到三个浅层特征,再将其经过叠加依次输入到串行的两个双分支核自适应模块中进行深层次的提取,得到水下图像的相关特征;
S302、将水下图像的相关特征输入到特征融合网络中,内部依次经过dconv、bn、prelu组成的block、三输入的多尺度融合模块,其内嵌双分支并行注意力进一步融合学习输入的特征,得到水下图像。
6.根据权利要求1所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S4中,设计目标损失函数包括以下子步骤:
S401、基于L2范数,进行最小化操作,具体公式为:
其中,L2(θ)表示均方根误差,N表示像素个数,Il和Ig分别表示增强后的经过处理后的成对水下原始图像、对应的清晰水下图像;
S402、利用基于VGG网络的感知损失对ImageNet数据集进行预训练,具体公式为:
其中,C、W和H分别表示图像的通道、宽度和高度,c、w和h分别表示图像的通道、宽度和高度上求和的循环变量,Ic表示训练图像,Ig表示训练图像对应的真实值;
S403、利用拉普拉斯损失对图像进行卷积操作,具体公式为:
其中,Llap表示拉普拉斯损失,lap()表示用拉普拉斯模板进行卷积操作;
S404、均方根误差、感知损失、SSIM结构相似性损失和拉普拉斯损失构成目标损失函数,具体公式为:
Loss=L2(θ)+λpLperc+λsLssim+λlLlap
其中,Lperc表示感知损失,Lssim表示SSIM结构相似性损失,λp、λs和λl表示损失加权平衡参数。
7.根据权利要求1所述的结合双分支核自适应和多尺度融合的水下图像增强方法,其特征在于,步骤S5中,训练水下图像增强的卷积神经网络包括以下子步骤:
S501、将步骤S1中成对水下原始图像分为训练集和测试集,并将训练集随机划分多个批次输入到水下图像增强的卷积神经网络中;
S502、根据设计的目标损失函数,使用反向传播方法计算水下图像增强模型中的各个参数梯度,并利用随机梯度下降方法更新水下图像增强模型的参数;
S503、重复设置的批次数量对模型进行训练,直至水下图像增强模型的目标损失函数数值收敛到纳什平衡,保存模型参数,完成对水下图像增强模型的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311073823.2A CN117078551A (zh) | 2023-08-24 | 2023-08-24 | 结合双分支核自适应和多尺度融合的水下图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311073823.2A CN117078551A (zh) | 2023-08-24 | 2023-08-24 | 结合双分支核自适应和多尺度融合的水下图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078551A true CN117078551A (zh) | 2023-11-17 |
Family
ID=88707664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311073823.2A Pending CN117078551A (zh) | 2023-08-24 | 2023-08-24 | 结合双分支核自适应和多尺度融合的水下图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078551A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690098A (zh) * | 2024-02-01 | 2024-03-12 | 南京信息工程大学 | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 |
-
2023
- 2023-08-24 CN CN202311073823.2A patent/CN117078551A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690098A (zh) * | 2024-02-01 | 2024-03-12 | 南京信息工程大学 | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 |
CN117690098B (zh) * | 2024-02-01 | 2024-04-30 | 南京信息工程大学 | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046962B (zh) | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 | |
CN109711413B (zh) | 基于深度学习的图像语义分割方法 | |
CN108932693B (zh) | 基于人脸几何信息的人脸编辑补全方法及装置 | |
WO2021043273A1 (zh) | 图像增强方法和装置 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
WO2020177607A1 (zh) | 图像去噪方法和装置 | |
CN112085738B (zh) | 一种基于生成对抗网络的图像分割方法 | |
CN111160533A (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN117078551A (zh) | 结合双分支核自适应和多尺度融合的水下图像增强方法 | |
CN112307982A (zh) | 基于交错增强注意力网络的人体行为识别方法 | |
CN116229056A (zh) | 基于双分支特征融合的语义分割方法、装置、设备 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN113920043A (zh) | 基于残差通道注意力机制的双流遥感图像融合方法 | |
CN114549555A (zh) | 一种基于语义分割网络的人耳图像解刨学分割方法 | |
CN115393227A (zh) | 基于深度学习的微光全彩视频图像自适应增强方法及系统 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
CN111260585A (zh) | 基于类凸集投影算法的图像恢复方法 | |
CN111667401B (zh) | 多层次渐变图像风格迁移方法及系统 | |
WO2021051464A1 (zh) | 一种包括周边环境的图像识别方法及装置 | |
CN117115058A (zh) | 基于轻量特征提取和颜色恢复的弱光图像融合方法 | |
CN116957921A (zh) | 图像渲染方法、装置、设备及存储介质 | |
CN116152128A (zh) | 基于注意力机制的高动态范围多曝光图像融合模型及方法 | |
CN113344771B (zh) | 基于深度学习的多功能图像风格迁移方法 | |
CN114881879A (zh) | 一种基于亮度补偿残差网络的水下图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |