一种提取并融合局部和全局特征的低光图像增强方法
技术领域
本发明属于图像处理技术领域,特别是涉及一种提取并融合局部和全局特征的低光图像增强方法。
背景技术
图像在采集过程中,由于各种不可控因素;图像质量被很多因素直接或间接地影响,低光照就是众多因素之一;在夜间等低光照环境中拍摄的图像往往会出现细节信息缺失、对比度比较低等情况;这不仅会影响人类的视觉感知能力,而且会影响后续高级视觉任务的执行,例如目标检测、图像分割和图像分类等任务;
为了提高低光照图像的质量,传统的一些图像增强方法也做了一些尝试;比如:直方图均衡化虽然能有效的提高图像的整体对比度,使得图像较暗区域的细节信息保留的更加完整,最终实现图像增强效果;但是,当待处理的图片整体偏暗,则会使增强后的图像视觉效果极其差,并且会造成图像中的目标信息不能突显出来;增强后的细节不能很好的保留,同时直方图均衡化会使图像的平均亮度保持在像素值的动态范围中间,这会破坏一些场景的整体亮度;再比如Retin-ex图像増强算法,把人们观察到的低光照图像分解为图像的反射分量与光照分量的乘积,即物体本身颜色因素与光照分量是无关的,是由物体表面的反射属性来决定的;因此,意味着从输入图像中去除低光照分量可实现低光照图像增强;但是,Retinex算法本身也存在一些不可免的缺陷,研究者们至今仍在不断努力改进;
例如,单尺度Retinex和多尺度Retinex算法处理之后的图像在明亮区域可能被过度放大,尤其是在图像明暗对比强烈的边缘交界区域,使图像产生光晕伪影现象,导致图像丢失边缘细节信息,并且,图像在低对比度的区域还容易产生“发灰”现象;
近年来,随着深度学习在图像处理领域的快速发展,基于深度学习的低光照图像增强算法大量涌现;其中基于卷积或者自注意力的方法盛行,这些方法能够有效的增强低光照图像的亮度;
基于自注意力的深度神经网络表现出优异的性能;比如由自注意力搭建的Transformer模型最初是为NLP任务而设计的,但目前已经席卷了整个计算机视觉领域;尤其是近几年来,自注意力相关模型在计算机视觉(CV)任务中开始展现实力,自从Dosovitskiy等人开发的ViT将Transformer结构引入计算机视觉,由于其内部自注意力机制强大的建模长距离依赖关系的能力,基于Transformer的骨干网络迅速占据了各种视觉任务的头把交椅,例如图像分类、目标检测和语义分割等,不断刷新各大领域的SOTA性能;然而大部分基于Transformer的深度神经网络,仍然需要大量的GPU资源来训练整个模型,这对大多数研究者来说是不友好的;并且在Transformer结构中,虽然可以通过自注意力模块建立嵌入之间的全局联系,但却欠缺在局部间的特征提取;
而基于卷积神经网络作为一直以来热门的研究点,经过多年的发展,基于卷积的设计和结构层出不穷,适应于各种环境,在各种领域发挥着强大的作用;卷积具有局部性和尺度不变性,在提取边缘和角落等局部特征方面表现良好,具有出色的局部特征提取能力,所以仍然是视觉任务中的主要支柱;然而,卷积神经网络在捕获全局表示,建立视觉元素之间的长距离关系方面存在困难,而全局性的连接对于视觉任务往往是关键的;
当Transformer用于CV任务时,大多只使用编码器模块,这种Transformer可以看作是一种新型的特征提取器;与专注局部特征的CNN相比,Transformer可以捕获长距离特征,可以很容易地获得全局信息;所以Vison Transformer主要分为以下几个部分:特征嵌入Embedding、多头注意力Multi-head attention、前馈网络Feed-Forward Network;ViT模型中对图像进行patch切分之后,将图像块拉伸成向量,通过线性投影压缩维度,添加位置编码后输入到编码器Encoder中;然而这种把图像变成向量token的操作会在图像复原时带来困难,不容易保存图像的结构;线性投影对维度压缩的过程相当于对特征变换与关键特征提取,对于图像复原这种像素级的工作是不合适的,这会导致在初始时就丢失了大量的细节信息和结构信息,在最终的重构图像中造成模糊和伪影。
发明内容
本发明的目的在于提供一种提取并融合局部和全局特征的低光图像增强方法,以解决上述背景技术中提出的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种提取并融合局部和全局特征的低光图像增强方法。
本方法利用搭建的BrightFormer网络结构,有机地统一交叉卷积和自注意力机制,同时兼顾局部提取和全局依赖两大优势,利用特征均衡化融合单元,从空间和通道两个维度对特征进行融合,包括以下步骤:
S1.搭建配对的数据集,所述数据集包括低光照图像和正常光照图像,其中每张低光照图像Ilow对应同一场景的正常光照图像Iref;
S2.输入低光图像Ilow到网络中;
S3.提取低光图像Ilow的浅层特征F0;
S4.通过一个基础的编解码器ill-Net生成图像Ilow的基础光照估计ill-map;
S5.将浅层特征F0和光照估计ill-map通过使用光照门控自注意力块I-GMSA的CTF模块融合;
S6.将融合得到的输入特征继续通过U-Net形式的编解码器结构提取得到深层特征Fd;
S7.采用全局残差学习机制,深层特征Fd通过残差连接与输入图像结合得到恢复图像Ienhance。
进一步地,在S3中,所述浅层特征F0提取使用一个卷积模块,公式如下:
F0=Conv(Ilow)。
进一步地,在S4中,通过一个基础的编解码器ill-Net输出图像的基础光照估计ill-map,作为一个亮度先验加入I-GMSA,使网络更专注对强退化区域的学习,帮助图像进行恢复,加快网络的收敛,
进一步地,在S5中,通过带有光照门控自注意力的CTF模块实现基础光照估计ill-map和浅层特征F0的融合,并且对自注意力模块中间特征K、Q也进行了多头映射,并加入门控G1,G2进一步调节各特征融合的程度,门控参数和多头映射相结合提升了特征表达的灵活性,既可以使网络在局部特征和恢复全局特征间调节;也丰富了特征空间,便于建立更全面的特征联系,其中wq,wk,wv,wm,wn,WX是映射矩阵,G1,G2是门控参数,它们都是通过BrightFormer网络模型学习得到的,通过基础ill-Net获得的光照信息相对粗糙,所以I-GMSA只在还未进行下采样的CTF中使用,之后的CTF块使用的是GMSA注意力模块的分支,公式如下:
Q=wqnorm(x)K=wknorm(x)v=wvnorm(x)
M=wm(QTK)N=wn(QTK)
FIGMSA=WX(softmax((G1MI+G2NI)⊙V))+X。
进一步地,在S6中,所述U-Net形式的编解码器结构提取并融合图像的局部和全局特征,并最终得到深层特征,光照门控自注意力块I-GMSA分支输出图像的全局特征,交叉卷积分支CCB输出图像的局部特征,在双分支模块的尾部通过特征均衡化融合单元输出局部和全局特征融合后的图像,公式如下:
FGMSA=wX(softmax((G1M+G2N)V))+X
Fd=U(F0)
其中,F0表示浅层特征,Fd表示深层特征。
进一步地,在多头注意力的分支基础上增加交叉卷积分支,通过两路并行的非对称卷积对水平与垂直梯度信息进行探索以聚焦于边缘信息挖掘,弥补了局部细节信息在自注意力块阶段的缺失,细化了高频信息,使局部特征可以在整体流程中流畅的进行保持和传递。
进一步地,特征均衡化融合单元FEFU,融合了双分支输出的特征,将两分支的特征进行堆叠,然后输入到特征均衡化融合单元中,以注意力的形式从空间和通道两方面对分支特征进行筛选和组合,以此消除它们之间的语义分歧,这种融合过程极大地提高了特征的全局感知能力和局部细节表现。
进一步地,将融合之后的图像送入深度前馈网络DFN,以编码来自空间相邻像素的信息,学习图像结构,从而进行有效的图像复原,深度前馈网络使用深度卷积编码来自空间相邻像素位置的信息,有益于学习局部图像结构进行图像复原,深度前馈网络的操作类似注意力,被GELU函数激活的支路形成关注被作用在提取的特征上,公式如下:
进一步地,在S7中,为了融合图像的空间细节信息,使用了全局残差结构,将Fd和输入图像进行结合得到最终的恢复图像Ienhance,公式如下:
Ienhance=Fd+Ilow。
进一步地,所述S3步骤中,正常光照图像Iref通过输入构建好的低光照图像,以正常光图像作为真值图像,提取低光图像Ilow的浅层特征F0;
所述S4步骤中,基础的编解码器ill-Net以U-Net作为基础的框架,增加了ill-Net;
所述S5步骤中,CTF模块通过自注意力块和卷积块结合的CTF块替代传统U-Net模型里的卷积块。
本发明具有以下有益效果:
1、本发明通过同时提取并融合图像的局部和全局特征,建立了一个新的低光照图像增强网络模型,所述模型充分结合卷积和自注意力模块学习到的局部细节和全局信息有效增强低光照图像。
2、本发明通过一个新局部-全局特征融合模块,该模块利用交叉卷积分支提取图像局部细节信息,细化高频信息,使局部特征在整个网络流程中持续保持和传递,利用门控机制加自注意力机制来提取图像中远距离像素之间的相关关系,从而得到全局信息。
3、本发明通过特征均衡化融合单元,针对双分支所关注的特征等级的不同,以注意力方式将卷积局部细节与基于自注意力的全局信息相融合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体网络框架示意图;
图2为本发明的CTF(CNN-Tranformer)模块结构图;
图3为本发明的光照门控自注意力和门控自注意力结构图;
图4为本发明所采用的交叉卷积和交叉卷积块结构图;
图5为本发明的特征均衡化融合单元示意图;
图6为本发明所采用的深度前馈网络结构图;
图7为本发明第一次与其他算法增强后的图像对比示意图;
图8为本发明第二次与其他算法增强后的图像对比示意图;
图9为本发明测试集中部分图像的增强结果对比图;
图10为本发明在一些开放的数据集上部分图像的增强效果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
通过基础结构CTF块,提取并融合图像的局部和全局特征,这个模块的设计影响图像最终恢复结果;双分支强化模块是由门控自注意力块分支和交叉卷积分支构成的一个双分支结构,该模块的门控自注意力块分支,有效的利用了自注意力建立特征远距离联系,很容易地获得了图像的全局信息;其中的交叉卷积弥补了局部细节信息在自注意力分支的缺失,细化高频信息,使局部特征可以在整体流程中流畅的进行保持和传递;在增强低光图像时,不仅需要恢复图像的局部特征,使图像局部更加细致,还需要还原图像的全局特征,增加全局像素点之间的关联性;现有的方法难以兼顾局部和全局特征的提取和融合,以致增强后的图像存在图像噪声扩大、整体或局部亮度低、颜色失真等问题;基于这种发现,本发明设计了一种能提取并融合局部和全局特征的低光图像增强方法,请参阅图1-10所示;
具体的请参阅图1,为本发明整体的网络框架示意图;以U-Net作为基础的框架,增加了ill-Net(三层U-Net结构),并用自注意力块和卷积块结合的CTF块替代传统U-Net模型里的卷积块;使用ill-Net生成图像的基础光照估计ill-map作为网络模型的亮度先验,可以使网络更专注对强退化区域的学习,帮助图像进行恢复,加快网络的收敛;提高了网络融合局部和全局特征的能力,以及提高了网络增强低光图像的性能,CTF块在门控自注意力块I-GMSA和交叉卷积后面,增加了一个特征均衡化融合单元(FEFU);以注意力的形式从局部和全局特征进行筛选和组合,以此消除它们之间的语义分歧,提高特征的全局感知能力和局部细节表现;最后,通过编码来自空间相邻像素位置的信息,从而学习图像的局部结构,以进行有效的图像复原;
本发明的整体流程如下:
1.构建配对的数据集;数据集应该由低光照图像和正常光照图像组成,其中每个低光照图像Ilow对应同一场景下的正常光照图像Iref;
2.输入构建好的低光照图像,以正常光图像作为真值图像,提取低光图像Ilow的浅层特征F0;
3.通过基础的编解码器(三层U-Net结构)ill-Net生成图像的基础光照估计ill-map;并把它输入到前几个CTF中,作为一个亮度先验加入I-GMSA,使网络更专注对强退化区域的学习,帮助图像进行恢复,加快网络的收敛;
4.采用一个3×3卷积层提取输入图像的浅层特征F0∈RH×W×C,F0与ill-map作为前几个CTF模块的输入;
F0=Conv(Ilow)
通过带有光照门控自注意力的CTF模块实现基础光照估计ill-map和浅层特征F0的融合,并且对自注意力模块中间特征K、Q也进行了多头映射(M,N),并加入门控G1,G2进一步调节各特征融合的程度,门控参数和多头映射相结合提升了特征表达的灵活性,既可以使网络在局部特征和恢复全局特征间调节;也丰富了特征空间,便于建立更全面的特征联系,其中wq,wk,wv,wm,wn,WX是映射矩阵,G1,G2是门控参数,它们都是通过BrightFormer网络模型学习得到的,通过基础ill-Net获得的光照信息相对粗糙,所以I-GMSA只在还未进行下采样的前几个CTF中使用,之后的CTF块使用的是GMSA注意力模块的分支,
Q=wqnorm(x)K=wknorm(x)v=wvnorm(x)
M=wm(QTK)N=wn(QTK)
FIGMSA=WX(softmax((G1MI+G2NI)⊙V))+X;
5.将提取的浅层特征F0输入到U-Net形式的编解码器网络模型中的CTF块,以提取和融合图像的局部特征和全局特征,进而提取出图像的深层特征Fd;其中U表示经过U型网络中的一系列操作;
Fd=U(F0)
U-Net形式的编解码器结构提取并融合图像的局部和全局特征,并最终得到深层特征,光照门控自注意力块I-GMSA分支输出图像的全局特征,交叉卷积分支CCB输出图像的局部特征,在双分支模块的尾部通过特征均衡化融合单元输出局部和全局特征融合后的图像,
FGMSA=wX(softmax((G1M+G2N)V))+X。
Fd=U(F0)
其中,F0表示浅层特征,Fd表示深层特征。
6.最后通过全局残差学习机制,融合了深层特征Fd和输入图像,得到恢复图像Ienhance:
Ienhance=Fd+Ilow。
在多头注意力的分支基础上增加交叉卷积分支,通过两路并行的非对称卷积对水平与垂直梯度信息进行探索以聚焦于边缘信息挖掘,弥补了局部细节信息在自注意力块阶段的缺失,细化了高频信息,使局部特征可以在整体流程中流畅的进行保持和传递;
特征均衡化融合单元FEFU,融合了双分支输出的特征,将两分支的特征进行堆叠,然后输入到特征均衡化融合单元中,以注意力的形式从空间和通道两方面对分支特征进行筛选和组合,以此消除它们之间的语义分歧,这种融合过程极大地提高了特征的全局感知能力和局部细节表现;
将融合之后的图像送入深度前馈网络DFN,以编码来自空间相邻像素的信息,学习图像结构,从而进行有效的图像复原,深度前馈网络使用深度卷积编码来自空间相邻像素位置的信息,有益于学习局部图像结构进行图像复原,深度前馈网络的操作类似注意力,被GELU函数激活的支路形成关注被作用在提取的特征上,
为了融合图像的空间细节信息,使用了全局残差结构,将Fd和输入图像进行结合得到最终的恢复图像Ienhance,
Ienhance=Fd+Ilow。
7.最后使用L1损失函数进行优化;
在具体实施例中:
本发明基于Python 3.7和Pytorch 1.7.1的环境实现;所有的训练数据经过旋转(图像旋转90°、180°或270°)和翻折等数据增强的操作,输入图像的大小为128×128,在网络的训练过程中使用了AdamW优化器进行优化,动量项β1=0.9,β2=0.999,权值衰减为0.02;初始学习速率设置为2e-4,并且利用余弦衰减策略将学习速率逐步降至1e-6;本文使用常用的PSNR和SSIM指标来评估网络的性能;这些度量是在RGB颜色空间中计算的;本文的实验设备配置为32GB NVIDIA V100 GPU;
为了公平的比对本文所提出算法的有效性,本文使用公开数据集LOL作为训练集;LOL数据集是从真实场景获取的图像对,它包括500对正常光照/低光照图像;本文使用了其中的485对图像作为训练集,剩余的15对低光/正常光照图像作为测试集;本文比较了目前最先进方法的定量和定性性能,包括MSRCR、Dong、BIMEF、LIME、LLNet、RetinexNet、GLAD、MBLLEN、EnlightenGAN、Zero-Dce、KinD、KinD++、TBEFN和U-former;表1展示了本文方法以及对比方法在LOL数据集上的定量结果,可以看出本文所提出的方法达到了出色的性能,在PSNR的指标上达到了第一,SSIM达到了第二;相较于同属于Transformer结构的U-former,本文的PSNR和SSIM都有了较大的提升;
表1在LOL数据集上的定量结果,粗体显示最好的结果
图8和图9展示了测试集中部分图像的增强结果的对比;可以看出LIME增强的图像整体亮度比较低;LLNet处理过的图像出现比较严重的模糊;RetinexNet增强之后的图像颜色失真比较严重;GLAD的画面存在较多的噪声;MBLLEN的颜色稍有偏差;无监督方法EnlightenGAN和ZeroDce对于图像的亮度提升不够;KinD在部分区域出现了过度平滑的现象;KinD++恢复的颜色有些偏失;TBEFN没有较好的提升亮度;整体来看,本文的方法恢复的颜色更为真实,图像上没有明显的噪声,细节的保持相对也比较好;和现有的方法相比,本文所提出的方法具有较强的竞争力;
同时,本文也在一些开放的数据集上测试了算法的性能,部分图像的增强效果展示在图10;可以看出,经过处理之后,山上的岩石十分清晰的展现出来,房间里的书柜和座椅,街道上的行人和车辆的亮度都大幅提升,展现出了真实的颜色还原度,没有产生色彩失真和颜色偏差;
表4.2消融实验,粗体显示最好的结果
通过消融实验证明,当使用交叉卷积分支时,网络中的注意力模块和交叉卷积分支形成双支路结构(当不使用光照门控注意力时,默认使用门控注意力),此时的指标结果PSNR为20.41,SSIM为0.783;当在此基础上继续添加特征均衡化融合模块来对注意力分支和交叉卷积分支的特征进行通道和空间上注意力的筛选,经过这样的融合后,网络的指标PSNR达到了21.46,SSIM达到了0.815;PSNR和SSIM都有非常高的提升,这充分证明了特征均衡化融合单元的有效性;同时,在交叉卷积分支的基础上使用具有光照先验的光照门控注意力,此时网络的PSNR由20.41提升到了20.83,SSIM由0.783提升到了0.792;当网络将所有模块都添加进来时,网络得到了PSNR的最好结果;值得注意的是,通过第三行和第五行的对比可以发现PSNR虽然会随着光照门控注意力的加入有所提升,但是SSIM却有较小的下降;这是由于本文所使用的光照先验只是在网络的前几层进行使用,而光照先验的加入可以使网络更好的学习恢复更真实的颜色,而对于SSIM这种更偏向结构上的指标影响偏小,所以PSNR会有一定的提升,而SSIM稍微有下降。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该本发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。