CN114170095A

CN114170095A - Transformers与CNN结合的低照度图像增强方法

Info

Publication number: CN114170095A
Application number: CN202111388129.0A
Authority: CN
Inventors: 孙帮勇; 赵兴运; 高晓梅; 王宇通; 杨宗辉; 陈金岭; 蔺昊祺; 匡璐璐; 吴晓波
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-11

Abstract

本发明公开了一种Transformers与CNN结合的低照度图像增强方法，步骤包括：步骤1、构建预处理模块，输入为原始低照度图像，输出是特征图I1；步骤2、构建Windown Transformers Block模块，输入数据是步骤1输出的特征图I1，输出是提取后的特征图I2；步骤3、构建特征融合模块，输入数据是步骤2输出的特征图I2，输出为融合后的特征图像I3；步骤4、构建恢复模块，输入数据是步骤3输出的特征图I3，输出是增强后高质量无噪声的输出图像，即成。本发明的方法，针对低照度图像能够有效的提升了图像亮度，抑制图像噪声效果明显并较好的保持了纹理细节和颜色信息。

Description

Transformers与CNN结合的低照度图像增强方法

技术领域

本发明属于图像处理技术领域，属于RGB真彩色图像恢复技术，具体涉及一种Transformers与CNN结合的低照度图像增强方法。

背景技术

在低照度条件下获取图像，多存在低对比度、噪声大、颜色失真等图像缺陷，导致获取图像的视觉感受质量较差，同时也会降低图像分割、目标识别及视频监控等后续图像处理任务的精度。

当前低照度图像提升方法主要分为三类，即基于底层图像处理方法、基于视网膜(Retinex)理论算法和深度学习类的图像提升算法。基于底层图像处理方法主要是以利用直方图均衡化(Histogram Equalization，HE)为代表，直方图均衡化方法是以累计分布函数为基础的直方图修改方法，将图像直方图调整为均衡分布以拉伸图像动态范围，从而提高图像对比度；该类方法操作简单、效率高，但生成的图像易受伪影影响、真实感不强。基于Retinex理论的低照度图像增强方法，通过模拟人视觉中的Retinex理论，将低照度图像分解为照明分量和反射分量，通过调整照明分量提升图像亮度和对比度；但是模型中的参数需人工设定，无法自适应处理图像的多样性，并且针对较高噪声的图像处理效果较差，存在局部细节曝光不足或曝光过度等情况。基于深度学习的低照度图像增强方法，关键是利用大规模训练数据集对最佳网络模型进行学习，建立低照度图像和正常光照图像之间的复杂映射关系；尽管，基于深度学习的方法一定程度上弥补了传统方法的不足，对某一类图像集取得较好的增强效果，但是大多数深度学习微光增强方法严重依赖于数据集质量，且多假定暗光区域没有噪声，或者不考虑噪声在不同照明区域的分布，因此，以上先验知识与真实图像存在偏差，且完备的现实图像数据集获取难度大，这些都导致现有深度学习模型不能有效地抑制真实图像噪声，难以产生令人满意的视觉质量。

发明内容

本发明的目的是提供一种Transformers与CNN结合的低照度图像增强方法，解决了现有技术中存在的低照度图像亮度提升不明显、噪声抑制不够以及保持纹理颜色一致性不足的问题。

本发明所采用的技术方案是，一种Transformers与CNN结合的低照度图像增强方法，按照以下步骤具体实施：

步骤1、构建预处理模块，该预处理模块的输入为原始低照度图像，大小为H*W*3；该预处理模块的输出是特征图I1，大小为H/4*W/4*96；

步骤2、构建Windown Transformers Block模块，该Windown Transformers Block模块的输入数据是步骤1输出的特征图I1，大小为H/4*W/4*96；该WindownTransformersBlock模块的输出是提取后的特征图I2，大小为H/4*W/4*96；

步骤3、构建特征融合模块，该特征融合模块的输入数据是步骤2输出的特征图I2，大小为H/4*W/4*96；该特征融合模块的输出为融合后的特征图像I3，大小为H/4*W/4*96；

步骤4、构建恢复模块，该恢复模块的输入数据是步骤3输出的特征图I3，大小为H/4*W/4*96；该恢复模块的输出是增强后高质量无噪声的输出图像，大小为H*W*3，即成。

本发明的有益效果是，针对低照度图像能够有效的提升了图像亮度，抑制图像噪声效果明显并较好的保持了纹理细节和颜色信息。

附图说明

图1是本发明方法的整体流程简图；

图2是本发明方法中构建的预处理模块的结构流程简图；

图3是本发明方法中构建的Windown Transformers Block的结构流程简图；

图4是本发明方法中构建的特征融合模块的结构流程简图；

图5是本发明方法中构建的恢复模块的结构流程简图。

具体实施方式

下面结合附图和具体实施例方式对本发明进行详细说明。

本发明方法结合了Transformers模型与CNN卷积神经网络的各自优点，首先利用Transformers模型在图像窗口内建立图像特征信息之间的长期依赖关系，充分获取图像特征；然后通过CNN卷积神经网络，对不同窗口之间特征信息融合，保证不同窗口之间信息的交流。采用窗口Transformers模型的目的是为了简化模型复杂度、减少计算量。

本发明方法采用的整体架构包括四个主体模块，分别是预处理模块、WindownTransformers Block模块、特征融合模块以及恢复模块。其中，预处理模块用于实现PatchPartition和Linear Embedding两个操作，主要目的就是对输入图像进行预处理操作，减少输入图像的尺寸并增维。Windown Transformers Block模块用于对图像特征进行划分窗口，并在每个窗口内进行自注意力计算。特征融合模块将经过Windown TransformersBlock模块处理后的窗口特征进行信息融合，保证不同窗口之间信息的交流。恢复模块用于调整图像特征尺寸，压缩特征通道个数，并输出最终的增强结果。

参照图1，本发明的方法是基于Transformers模型与CNN卷积神经网络结合的低照度图像增强网络(以下简称网络)，包括预处理模块、Windown Transformers Block模块(图1中简写为Windown Transformers Block)、特征融合模块及恢复模块；在图1实施例中，Windown Transformers Block模块及特征融合模块均循环三次。

预处理模块由Patch Partition和Linear Embedding组成，Patch Partition主要作用是对输入图像进行尺寸压缩，将输入图像的尺寸压缩为原始尺寸的1/4；LinearEmbedding主要作用是将图像特征映射到不同的维度；实施例中的Linear Embedding映射层数设置为96；

Windown Transformers Block模块主要由Transformers组成，其主要作用是将图像特征进行窗口划分，并在每个窗口到通过自注意力计算来进一步提取图像特征；

特征融合模块的主要作用是通过卷积运算，将不同窗口特征进行信息融合，保证不同窗口之间信息的交流；

恢复模块由Patch Expanding和Linear组成，Patch Expanding的主要作用是恢复图像特征尺寸，保证与原始输入图像具有相同的尺寸；Linear主要作用是将图像特征映射到不同的维度，本发明实施例中的Linear Embedding映射层数设置为3。

本发明的方法，利用上述的网络框架，按照以下步骤具体实施：

步骤1、构建预处理模块，该预处理模块的输入为原始低照度图像，大小为H*W*3；该预处理模块的输出是特征图I1，大小为H/4*W/4*96。

参照图2，预处理模块主要作用就是对原始低照度图像进行数据预处理，预处理模块的流程结构依次为：原始低照度图像(Input_image，H*W*3)作为输入图像→PatchPartition层(Conv4*4*48)→Linear Embedding层(Linear H/4*W/4*96)→输出特征图I1(Output_feature，H/4*W/4*96)。

其中，Patch Partition层为卷积运算，卷积核大小为4*4，卷积步长为4，特征映射总数为48个；Linear Embedding层为线性运算进行特征映射，卷积核大小为H/4*W/4，特征映射总数为96个。

步骤2、构建Windown Transformers Block模块，该Windown Transformers Block模块的输入数据是步骤1输出的特征图I1，大小为H/4*W/4*96；该Windown TransformersBlock模块的输出是提取后的特征图I2，大小为H/4*W/4*96。

Windown Transformers Block模块的主要作用是提取图像特征，建立特征间长期依赖关系。单个Transformers Block模块采用现有技术，其具体内部结构参照论文(https://arxiv.org/abs/2010.11929 Dosovitskiy,et al，An Image is Worth 16x16Words:Transformers for Image Recognition at Scale)。

参照图3，Windown Transformers Block模块的流程结构依次为：步骤1输出的特征图I1(Input_feature，H/4*W/4*96)作为

其中，LN正则化层主要作用是进行LN正则化处理，对输入数据进行归一化处理，将其归到0到1之间，从而保证输入层数据分布是一样的；

是将W-MSA子模块的输出特征与输入数据进行残差连接，主要作用是解决梯度消失和权重矩阵退化问题；前馈网络(即前馈神经网络)包括两层结构，第一层前馈网络先把输入向量从d_model维度映射到4*d_model维度，激活函数为ReLU函数，第二层前馈网络再从4*d_model维度映射回d_model维度，不使用激活函数，

是将前馈网络的输出特征与

的输出数据进行残差连接；

前馈网络的表达式如式(1)所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (1)

其中，x代表前馈网络的输入，W₁代表第一层前馈网络的映射矩阵，W₂代表第二层前馈网络的映射矩阵，b₁代表第一层前馈网络的偏置矩阵，b₂代表第二层前馈网络的偏置矩阵。

W-MSA子模块(图中简写为W-MSA，即窗口多头自注意力层)首先对输入特征进行窗口划分，本发明实施例中设置的划分窗口大小为7*7，在每个划分的小窗口上进行多头自注意力计算。W-MSA子模块将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，W-MSA子模块的表达式见式(2)：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

其中，Q,K,V分别为W-MSA子模块的输入，即查询向量、键向量、值向量；W⁰为连接多个子空间的系数矩阵；W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵，W_i ^V为不同子空间中V的映射矩阵，head_h为第h个子空间内注意力向量的计算，本步骤实施例中设置的子空间的个数h为8；

在一个单独子空间上的注意力向量的计算过程为：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根

得到查询向量Q的分数矩阵，最后通过softmax函数将分数矩阵归一化得到权重矩阵，再乘以值向量V即得到一个子空间的注意力向量，表达式见式(3)：

W-MSA子模块通过将输入特征映射到不同的子空间再计算注意力向量来捕获特征在不同子空间上的依赖关系，最终得到的注意力向量能更立体更全面的捕获特征之间的依赖关系。

步骤3、构建特征融合模块，该特征融合模块的输入数据是步骤2输出的特征图I2，大小为H/4*W/4*96；该特征融合模块的输出为融合后的特征图像I3，大小为H/4*W/4*96。

参照图4，特征融合模块的主要作用是将步骤2提出的特征信息进行不同窗口位置的融合，保证窗口之间的信息交流，特征融合模块的流程结构依次为：步骤2输出的特征图I2(Input_feature，H/4*W/4*96)作为

其中，Conv层为卷积运算，卷积核大小均为3*3，卷积步长均为1，特征映射总数分别为96个；

层是将Conv层的输出特征与输入数据进行残差连接，主要作用是解决梯度消失和权重矩阵退化问题；

是将前馈网络的输出特征与

的输出数据进行残差连接；其他各层均与步骤2(图3所示)相同。

本发明上述实施例中，分别将步骤2、步骤3循环三次，以便保证网络模型拥有更好的模型精度。

步骤4、构建恢复模块，该恢复模块的输入数据是步骤3输出的特征图I3，大小为H/4*W/4*96；该恢复模块的输出是增强后高质量无噪声的输出图像，大小为H*W*3。

恢复模块主要作用就是将特征融合模块融合得到的图像特征恢复至原始输入的微光图像尺寸，输出增强后高质量无噪声的彩色图像。

参照图5，恢复模块的流程结构依次为：步骤3输出的特征图I3作为输入(Input_feature，H/4*W/4*96)→Patch Expanding层(进行Rearrange operation运算)→Linear层(Linear，H*W*3)→输出图像(Output_image，H*W*3)，即成。

其中，Patch Expanding层用于进行rearrange operation运算，将输入特征的分辨率扩大到输入分辨率的4倍，将特征维数降低到输入维数的1/16；Linear层为线性运算进行特征映射，卷积核大小为H*W，特征映射总数为3个。

在训练Transformers与CNN结合的低照度图像增强网络时，考虑到L₁损失函数在目标轮廓的对比度、均匀区域的平滑效果方面表现较好，同时SSIM损失函数引入结构约束能够很好地恢复图像的结构和局部细节，感知损失函数能够约束真实图像和预测图像之间的差异，保持图像感知和细节的保真度。感知颜色损失旨在测量欧几里得空间中两幅图像之间的色差，促使网络生成与参考图像相似的颜色。因此，在本步骤中，将L₁+SSIM损失函数+感知损失函数+感知颜色损失函数组合在一起，作为Transformers与CNN结合的低照度图像增强网络的总损失函数，表达式见式(4)：

L_total＝(1-λ_s-λ_p)L₁+λ_sL_ssim+λ_pL_perc+λ_cL_colour (4)

式(4)中，L₁表示像素级别的L₁范数损失，L_ssim表示结构相似性损失，L_perc表示感知损失，L_colour表示感知颜色损失函数；λ_s、λ_p、λ_c是相对应的系数，取值区间为[0,1]，优选λ_s＝0.2、λ_p＝0.1、λ_c＝0.1；

其中，L₁范数损失的公式为

I_gt代表真实图像，I_h代表预测图像；

代表非零常数，取值为10^-6；

SSIM结构相似性损失的公式为

μ_x、μ_y分别代表图像x、y的像素平均值；σ_xy代表图像x、y乘积的标准差；

分别代表图像x、y的方差；N代表图像样本总数，C₁、C₂为常量；

感知损失函数的公式为

I_gt代表真实图像，I_h代表预测图像，C_j代表通道，H_j和W_j分别代表第j特征图的高度和宽度，

代表在预先训练的VGG16模型中第j卷积层获得的特征图；

感知颜色损失函数的公式为L_colour＝ΔE(I_gt,I_h)，I_gt代表真实图像，I_h代表预测图像，ΔE代表CIEDE2000颜色色差计算。

Claims

1.一种Transformers与CNN结合的低照度图像增强方法，其特征在于，按照以下步骤具体实施：

步骤2、构建Windown Transformers Block模块，该Windown Transformers Block模块的输入数据是步骤1输出的特征图I1，大小为H/4*W/4*96；该Windown Transformers Block模块的输出是提取后的特征图I2，大小为H/4*W/4*96；

2.根据权利要求1所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的预处理模块的作用就是对原始低照度图像进行数据预处理，

预处理模块的流程结构依次为：原始低照度图像作为输入图像→Patch Partition层→Linear Embedding层→输出特征图I1，其中，Patch Partition层为卷积运算，卷积核大小为4*4，卷积步长为4，特征映射总数为48个；Linear Embedding层为线性运算进行特征映射，卷积核大小为H/4*W/4，特征映射总数为96个。

3.根据权利要求1所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的Windown Transformers Block模块的作用是提取图像特征，建立特征间长期依赖关系；

Windown Transformers Block模块的流程结构依次为：

其中，LN正则化层主要作用是进行LN正则化处理，对输入数据进行归一化处理，将其归到0到1之间；

前馈网络包括两层结构，第一层前馈网络先把输入向量从d_model维度映射到4*d_model维度，激活函数为ReLU函数，第二层前馈网络再从4*d_model维度映射回d_model维度，不使用激活函数，

前馈网络的表达式如式(1)所示：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (1)

4.根据权利要求3所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的W-MSA子模块将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，W-MSA子模块的表达式见式(2)：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W⁰

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

其中，Q,K,V分别为W-MSA子模块的输入，即查询向量、键向量、值向量；W⁰为连接多个子空间的系数矩阵；W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵，W_i ^V为不同子空间中V的映射矩阵，head_h为第h个子空间内注意力向量的计算；

5.根据权利要求1所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的特征融合模块的作用是将步骤2提出的特征信息进行不同窗口位置的融合，保证窗口之间的信息交流，

特征融合模块的流程结构依次为：

主要作用是解决梯度消失和权重矩阵退化问题；

其他各层均与步骤2相同。

6.根据权利要求1所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的恢复模块的作用是将特征融合模块融合得到的图像特征恢复至原始输入的微光图像尺寸，输出增强后高质量无噪声的彩色图像；

恢复模块的流程结构依次为：步骤3输出的特征图I3作为输入→Patch Expanding层→Linear层→输出图像，其中，Patch Expanding层用于进行rearrange operation运算，将输入特征的分辨率扩大到输入分辨率的4倍，将特征维数降低到输入维数的1/16；Linear层为线性运算进行特征映射，卷积核大小为H*W，特征映射总数为3个。

7.根据权利要求6所述的Transformers与CNN结合的低照度图像增强方法，其特征在于：所述的恢复模块，在训练Transformers与CNN结合的低照度图像增强网络时，将L₁+SSIM损失函数+感知损失函数+感知颜色损失函数组合在一起，作为Transformers与CNN结合的低照度图像增强网络的总损失函数，表达式见式(4)：