CN116152117B

CN116152117B - 一种基于Transformer的井下低光照图像增强方法

Info

Publication number: CN116152117B
Application number: CN202310412713.8A
Authority: CN
Inventors: 程健; 宋泽龙; 李�昊; 李和平; 闫鹏鹏; 孙大智; 马永壮
Original assignee: Beijing Technology Research Branch Of Tiandi Technology Co ltd; General Coal Research Institute Co Ltd
Current assignee: Beijing Technology Research Branch Of Tiandi Technology Co ltd; General Coal Research Institute Co Ltd
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-21
Anticipated expiration: 2043-04-18
Also published as: CN116152117A

Abstract

本发明公开一种基于Transformer的井下低光照图像增强方法，属于计算机视觉领域。其中，方法包括：首先，获取煤矿井下低光照RGB格式的图像I，将该图像I的格式转化为rawRGB，得到图像I_raw；然后，搭建基于MobileViT模块的两个分支，并采用MobileViT模块的两个分支，基于图像I_raw，预测乘法图M与加法图A；通过Cross Attention模块产生3×3的最终色彩矩阵和参数；最后，根据图像I_raw、乘法图M、加法图A、最终色彩矩阵和参数，建立图像增强网络模型，以得到煤矿井下增强图像，由此，可实现井下低光照图像整体亮度增强的效果，保持图像整体色彩以及保留图像细节信息的目的。

Description

一种基于Transformer的井下低光照图像增强方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于Transformer的井下低光照图像增强方法。

背景技术

Transformer最初应用于自然语言处理任务，受其启发，Transformer被扩展到视觉计算领域。Transformer代替卷积神经网络成为视觉应用的基本组件，并应用到各种视觉计算任务中。Transformer因其优异性能被广泛应用到视觉计算，其主要特点有：（1）强序列建模能力，从空间维度上看，图像在空间上被划分为多个区域（block），将一幅图像转化成一个按照空间顺序排列的 block 集合，保证了不丢失视觉信息；从时间维度上看，视频是由图像帧组成，将每一帧图像看作一个基本单元，根据时间序列把每个基本单元组织起来，应用Transformer进行后续的特征提取。（2）可以感知全局信息，相较于卷积神经网络的感知信息只能从局部开始，Transformer 从输入开始，每一层结构都可以感知所有的信息，建立基本单元之间的关联，意味着Transformer 能够处理更加复杂的问题。

目前，图像增强方法大多针对光源相对良好、质量较高的图像进行增强处理，然而针对井下低光照图像进行图像增强的方法通用性低，泛化能力弱，结构复杂。因此，搭建一个针对井下低光照图像、通用性高、建模能力强、泛化能力好且结构轻量化的图像增强算法模型对监测井下安全有重要意义。

发明内容

本发明的目的是要提供一种针对井下低光照图像进行亮度增强的方法，以克服在进行井下低光照图像增强时容易出现颜色失真、细节丢失等图像问题，并实现模型整体轻量化、通用性强、泛化能力好的算法模型，使对井下低光照图像增强效果得到提高。

为解决上述技术问题，本发明提出一种基于Transformer的井下低光照图像增强方法，其步骤如下：

步骤1）获取煤矿井下低光照红绿蓝RGB格式的图像I，将所述图像I的格式转化为原始rawRGB，得到图像I_raw，其中所述图像I是在所述煤矿井下光照强度小于设定强度阈值的条件下采集得到的；

步骤2）搭建基于移动视觉转换器MobileViT模块的两个分支，并采用所述MobileViT 模块的两个分支，基于所述图像I_raw，预测乘法图M与加法图A；

步骤3) 搭建基于交叉注意力Cross Attention模块的支路，采用所述CrossAttention模块的支路，基于所述图像I_raw，得到3×3的最终色彩矩阵和参数/>；

步骤4）根据所述图像I_raw、所述乘法图M、所述加法图A、所述最终色彩矩阵和所述参数/>，建立图像增强数学模型，以得到增强后的图像。

可选地，rawRGB格式的所述图像I_raw是相机内部最原始的图像，所述图像I_raw中每个像素包括红R、绿G、蓝B中的一种颜色；RGB格式的所述图像I是相机通过内部图像信号处理ISP模块对所述图像I_raw进行计算得到的；所述步骤1）的具体过程为：

步骤11）对于所述图像I，按照设定的映射原则，将所述图像I逆映射为所述图像I_raw；其中，所述映射原则包括：在所述图像I_raw中的第一像素点的颜色为R时，将所述图像I_raw中所述第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的G的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的B的像素值；其中，所述第二像素点的R的像素值与所述第一像素点的R的像素值相同；在所述第一像素点的颜色为G时，将所述图像I_raw中所述第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的R的像素点的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的B的像素值；其中，所述第二像素点的G的像素值与所述第一像素点的G的像素值相同；在所述第一像素点颜色为B时，将所述图像I_raw中所述第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的R的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的G的像素值；其中，所述第二像素点的B的像素值与所述第一像素点的B的像素值相同。

可选地，所述步骤2）的具体过程为：

步骤21）采用3×3的卷积核对所述图像I_raw进行通道维度扩展，以得到扩展通道维度后的图像I_raw；

步骤22）搭建跳跃连接的两个分支，并采用两个所述分支对步骤21）中的所述扩展通道维度后的图像I_raw进行处理，以得到两个所述分支分别输出的特征图，其中，每个所述分支包括三个所述MobileViT模块；

步骤23) 将步骤22）两个所述分支输出的特征图，分别通过一个3×3的卷积核，以得到所述乘法图M和所述加法图A。

可选地，所述步骤3）的具体过程为：

步骤31）通过2个堆叠的3×3的卷积核对所述图像I_raw进行处理，得到编码结果；

步骤32）将步骤31）的所述编码结果，通过所述Cross Attention模块，以得到所述Cross Attention模块输出的3×3的色彩矩阵和参数gamma；

步骤33）将所述色彩矩阵和所述参数gamma分别输入至1×1的卷积核，以得到最终色彩矩阵和参数/>。

可选地，所述步骤4）的具体过程为：

根据所述图像I_raw、所述乘法图M、所述加法图A、所述最终色彩矩阵和所述参数/>，建立图像增强数学模型：

式中：为增强后的图像，/>。

可选地，所述步骤22）的具体过程如下：

步骤221）将所述扩展通道维度后的图像I_raw，作为各所述分支的输入张量，并利用各所述分支中的三个MobileViT模块对所述输入张量的局部信息和全部信息进行建模，以得到各所述分支中所述输入张量的局部特征图和全局特征图；

步骤222）对步骤221）中的各所述分支中所述输入张量的局部特征图和全局特征图进行融合，以得到各所述分支输出的特征图。

可选地，所述乘法图M和所述加法图A是通过两个所述分支中的三个所述MobileViT模块预测得到的图像，所述乘法图M，用于将所述乘法图M与所述图像I_raw进行乘法运算，以将所述乘法图M和所述图像I_raw对应的灰度值或彩色分量进行相乘，用于所述图像I_raw的掩膜处理，抑制所述图像I_raw的部分区域，得到掩膜图像，其中，对于所述图像I_raw中保留下来的第一区域，将所述掩膜图像中所述第一区域的值置为1，对于所述图像I_raw中被抑制的第二区域，将所述掩膜图像中所述第二区域的值置为0；其中，响应于对所述图像I_raw的亮度进行增强，设置所述掩膜图像的值大于1；所述加法图A，用于将所述加法图A与所述图像I_raw与所述乘法图M相乘后得到的图像相加，其中，所述相加的过程为：将所述加法图A与所述相乘后得到的图像中对应像素的灰度值或彩色分量进行相加，以通过叠加相同的图像，对所述图像I_raw进行去噪。

可选地，各所述MobileViT模块中包括Tramsformer子模块，所述Transformer子模块是由编码器Encoder和解码器Decoder组成，Encoder和Decoder主要由自注意力网络SelfAttention和前馈网络两个组件构成；其中，所述Encoder由多头注意力层Multi HeadAttention ->残差&标准化层Add&Norm ->前馈网络->Add&Norm组成，Add&Norm层有经过Multi Head Attention处理和直接输入两个输入路径，其公式如下：LayerNorm(X+MultiHeadAttention(X))；LayerNorm(X+FeedForward(X))；其中，X+MultiHeadAttention(X)和X+FeedForward(X) 是残差网络结构，LayerNorm将每一层的神经元的输入进行均值和方差；其中，所述Decoder包含两个Multi Head Attention层，第一个Multi HeadAttention层采用了掩码Masked操作，第二个Multi Head Attention层的Key矩阵和Value矩阵使用编码器输出的编码信息矩阵进行计算，Query矩阵使用所述第一个Multi HeadAttention层的输出值进行计算，最后采用激活 Softmax 层对所述第二个Multi HeadAttention层的输出值进行激活。

可选地，所述Cross Attention模块是将所述Cross Attention的源端得到的SelfAttention加入到所述Cross Attention的目标端得到的Attention中，所述CrossAttention输入的Query来自所述源端得到的Self Attention的输出，而Key和Value来自Transformer子模块的编码器的输入，并将所述Cross attention作为所述Transformer子模块的解码器。

本发明的技术方案取得了如下有益的技术效果：

本发明方法利用Transformer作为核心模型，在此模型基础上搭建以MobileViT为核心的分支模块，构建了一个轻量级通用且对移动设备友好的网络，使整个算法有优秀的泛化能力和鲁棒性，同时在借鉴目标检测Detection Transformer中动态query学习策略，采用Attention模块获取全局信息产生彩色矩阵以及参数值来完成图像增强任务。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是发明实施例提出的一种基于Transformer的井下低光照图像增强方法的流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1是本发明实施例提出的一种基于Transformer的井下低光照图像增强方法的流程图。

本发明公开一种基于Transformer的井下低光照图像增强方法，对于煤矿井下在低光照环境捕捉到的低光照图像，首先图像逆映射调整步骤对图像数据格式进行转换，获得所需图像数据格式，分别对像素级别的乘法图与加法图进行预测，保持输入图像的分辨率以及保留信息细节，然后针对输入图像获取全局信息产生色彩矩阵和参数值，根据色彩矩阵和参数值对每张图像进行调整。本方法较其他图像增强方法的优势：针对低光照图像进行图像增强，进行图像增强后图像保留原图像的图像细节，保证图像颜色没有大面积失真，整个算法模型轻量化，通用性强。

本发明提出的一种基于Transformer的针对井下低光照图像增强方法，步骤如下：

步骤1）获取煤矿井下低光照红绿蓝RGB格式的图像I，将图像I的格式转化为原始rawRGB，得到图像I_raw，其中，图像I是在煤矿井下光照强度小于设定强度阈值的条件下采集所得到的。

其中，rawRGB格的对图像I_raw是相机内部最原始的图像，图像I_raw每个像素只红R、绿G、蓝B中的一种颜色；

RGB格式的图像I是相机通过内部图像信号处理ISP模块对图像I_raw进行计算所得到的，图像I_raw计算得到图像I的映射原则为：在图像I_raw中的第一像素点的颜色为R时，将图像I_raw中第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的G的像素值（或通道值），将图像I_raw中第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的B的像素值（或通道值）；其中，第二像素点的R的像素值（或通道值）与第一像素点的R的像素值相同；在第一像素点的颜色为G时，将图像I_raw中第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的R的像素点的像素值（或通道值），将图像I_raw中第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的B的像素值（或通道值）；其中，第二像素点的G的像素值（或通道值）与第一像素点的G的像素值相同；在第一像素点颜色为B时，将图像I_raw中第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的R的像素值（或通道值），将图像I_raw中第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为图像I中与第一像素点对应的第二像素点的G的像素值（或通道值）；其中，第二像素点的B的像素值（或通道值）与第一像素点的B的像素值相同。

因此，对于获取的煤矿井下RGB格式的图像I，按照上述映射原则，将RGB格式的图像I逆映射为rawRGB格式的图像Iraw。

步骤2）搭建基于视觉转换器MobileViT模块的两个分支，并采用MobileViT 模块的两个分支，基于图像I_raw，预测乘法图与加法图/>。

具体过程为：

步骤21）采用3×3的卷积核对图像I_raw进行通道维度扩展，以得到扩展通道维度后的图像I_raw；

步骤22）搭建跳跃连接的两个分支，并采用两个分支对步骤21）中的扩展通道维度后的图像I_raw进行处理，以得到两个分支分别输出的特征图，其中，每个分支包括三个MobileViT模块；

步骤23) 将步骤22）两个分支输出的特征图，分别通过一个3×3的卷积核来减低通道数，得到乘法图M和加法图A。

步骤3)搭建基于交叉注意力Cross Attention模块的支路，采用Cross Attention模块的支路，基于图像I_raw，得到3×3的最终色彩矩阵和参数/>。

其中，步骤3）的具体过程为：

步骤31）通过2个堆叠的3×3的卷积核，对图像I_raw进行处理，得到CrossAttention模块输出的3×3的色彩矩阵和参数gamma；

步骤32）将步骤31）的编码结果，通过Cross Attention模块产生3×3的色彩矩阵和参数gamma。

步骤33）将色彩矩阵和参数gamma分别输入至1×1的卷积核，以得到最终色彩矩阵和参数/>。

也就是说，利用两个1×1的卷积核减小色彩矩阵和参数gamma的参数量，得到最终色彩矩阵的和参数/>。

步骤4）根据图像I_raw、乘法图M、加法图A、最终色彩矩阵和参数/>，建立图像增强数学模型，以得到增强后的图像。

步骤4）的具体过程为：

步骤41）根据图像I_raw、乘法图M、加法图A、最终色彩矩阵和参数/>，建立图像增强数学模型，具体过程可表现为如下形式：

；

式中：为增强后的图像，/>。

其中，需要说明的是，基于移动视觉转换器MobileViT 模块的两个分支中的MobileViT结合了卷积神经网络（Convolutional Neural Network，简称CNN）与视觉转换器ViT的优势，构建了一个轻量级通用且对移动设备友好的网络，MobileViT相比于CNN与ViT有更好的性能，更优秀的泛化能力以及更好的鲁棒性。

具体过程为：

步骤221）将扩展通道维度后的图像I_raw，作为各分支的输入张量，并利用各分支中的三个MobileViT模块对输入张量的局部信息和全部信息进行建模，以得到各分支的输入张量的局部特征图和全局特征图；

步骤222）对步骤221）中的各分支中输入张量的局部特征图和全局特征图进行融合，以得到各分支输出的特征图。

其中，每个分支中三个MobileViT模块串联使用，将图像I_raw作为输入张量输入分支中的第一个MobileViT模块，利用分支中的第一个MobileViT模块对输入张量的局部信息和全部信息进行建模，得到输入张量的第一局部特征图和第一全局特征图，将输入张量的第一局部特征图和第一全局特征图进行融合以得到第一特征图，将得到的第一特征图作为输入张量，利用分支中的第二个MobileViT模块对第一个MobileViT模块输出的第一特征图作为输入张量进行局部信息和全部信息建模，得到第二个MobileViT模块的输入张量的第二局部特征图和第二全局特征图，将第二个MobileViT模块的输入张量的第二局部特征图和第二全局特征图进行融合以得到第二特征图，将得到的第二特征图作为输入张量，利用分支中的第三个MobileViT模块对第二个MobileViT模块输出的第二特征图作为输入张量进行局部信息和全部信息建模，以得到第三个MobileViT模块输出的局部特征图和全局特征图，利用三个MobileViT模块串联使用有助于维护图像原始细节；

其中，在采用MobileViT对输入张量的局部信息进行建模的过程中，比如，首个MobileViT对给定的输入张量，通过卷积核为n×n的卷积层实现局部的表征建模，其中，n为大于1的正整数；进而，经过n×n卷积处理得到的结果通过逐点1×1卷积层调整特征图的通道数，以得到第一局部特征图；

其中，采用MobileViT对输入张量的全局信息进行建模主要分为三步：展开，Transformer子模块，折叠；

其中，在展开步骤中利用逐点1×1卷积层通过学习输入通道的线性组合，将输入张量投影到维空间，产生/>；

进一步地，将展开为/>，其中/>，/>为输入张量的图像块patch的数量，/>和/>分别为patch的高度和宽度，使MobileViT学习具有空间归纳偏差的全局表示；

进而，采用Transformer子模块对patch间的关系进行编码：

；

MobileViT既不丢失patch顺序，同时也不丢失每个patch内像素的空间顺序；

进一步地，经过折叠得到/>，并将折叠得到的通过逐点卷积投影到低维（c维）空间，其中，c<d。

为了MobileViT在不进行微调的情况下进行多尺度学习，提高训练效率，将多尺度训练方法扩展成为可变大小的样本量Batch-size。给定一组排序的空间分辨率S={(H₁,W₁),(H₂,W₂),……(H_n,W_n)}和Batch-size b，最大空间分辨率为(H_n,W_n)，在每个GPU上随机采样空间分辨率，同时计算第t次迭代的Batch-size b_t，其公式为：

；

针对较小的空间分辨率（空间分辨率小于设定空间分辨率阈值），大于样本数量阈值的Batch-size具有优势，可减少优化器每个迭代次数epoch的更新，加快训练速度。

此外，还需要说明的是，乘法图M和加法图A的具体内容为：

乘法图M和加法图A是通过两个分支中的三个MobileViT模块预测得到的图像，其中，乘法图M，将乘法图M与图像I_raw进行乘法运算，以将乘法图M和图像I_raw对应的灰度值或彩色分量进行相乘，用于图像I_raw的掩膜处理，抑制图像I_raw的部分区域，得到掩膜图像，其中，对于图像I_raw中保留下来的第一区域，将掩膜图像中第一区域的值置为1，对于图像I_raw中被抑制的第二区域，将掩膜图像中所述第二区域的值置为0；其中，响应于对所述图像I_raw的亮度进行增强，设置所述掩膜图像的值大于1；

加法图A，用于将加法图A与图像I_raw与乘法图M相乘后得到的图像相加，其中，相加的过程为：将加法图A与相乘后得到的图像中对应像素的灰度值或彩色分量进行相加，以通过叠加相同的图像，对图像I_raw进行去噪。

还需要说明的是，各所述MobileViT模块中包括Tramsformer子模块，Transformer子模块可由编码器Encoder和解码器Decoder组成。其中，Encoder和Decoder主要由自注意力网络Self Attention和前馈网络两个组件构成。

其中，Encoder由多头注意力层Multi Head Attention ->残差&标准化层Add&Norm ->前馈网络->Add&Norm组成，Add&Norm层有经过Multi Head Attention处理和直接输入两个输入路径，其公式如下：

LayerNorm(X+MultiHeadAttention(X))；

LayerNorm(X+FeedForward(X))；

其中，X+MultiHeadAttention(X)和X+FeedForward(X) 是残差网络结构，针对网络层数较多（大于设定数量阈值）的网络，可使该网络只关注于当前差异的部分；LayerNorm将每一层的神经元的输入进行均值和方差，进行收敛。

其中， Decoder包含两个Multi Head Attention层。第一个Multi HeadAttention层采用了Masked操作。第二个Multi Head Attention层的Key矩阵和Value矩阵使用编码器的编码信息矩阵进行计算，Query矩阵使用第一个Multi Head Attention层的输出值进行计算，最后，采用激活 Softmax 层对第二个Multi Head Attention层的输出值进行激活。

此外，Cross Attention，具体内容可为：

Cross Attention模块是将Cross Attention的源端得到的Self Attention加入到Cross Attention的目标端得到的Attention中。Cross Attention输入的Query来自源端得到的Self Attention的输出，Key和Value来自Transformer子模块的编码器的输入，并将Cross attention通常作为Transformer子模块的解码器。

Claims

1.一种基于Transformer的井下低光照图像增强方法，其特征在于，所述方法包括：

步骤1）获取煤矿井下低光照红绿蓝RGB格式的图像I，将所述图像I的格式转化为原始rawRGB，得到图像I_raw，其中，所述图像I是在所述煤矿井下光照强度小于设定强度阈值的条件下采集得到的；

步骤2）搭建基于移动视觉转换器MobileViT 模块的两个分支，并采用所述MobileViT模块的两个分支，基于所述图像I_raw，预测乘法图M与加法图A；

步骤3)搭建基于交叉注意力Cross Attention模块的支路，采用所述Cross Attention模块的支路，基于所述图像I_raw，得到3×3的最终色彩矩阵和参数/>；

步骤4）根据所述图像I_raw、所述乘法图M、所述加法图A、所述最终色彩矩阵和所述参数/>，建立图像增强数学模型，以得到增强后的图像；

所述步骤2）的具体过程为：

步骤23)将步骤22）两个所述分支输出的特征图，分别通过一个3×3的卷积核，以得到所述乘法图M和所述加法图A；

所述步骤3）的具体过程为：

2.根据权利要求1所述的基于Transformer的井下低光照图像增强方法，其特征在于，rawRGB格式的所述图像I_raw是相机内部最原始的图像，所述图像I_raw中每个像素包括红R、绿G、蓝B中的一种颜色；RGB格式的所述图像I是相机通过内部图像信号处理ISP模块对所述图像I_raw进行计算得到的；

所述步骤1）的具体过程为：

步骤11）对于所述图像I，按照设定的映射原则，将所述图像I逆映射为所述图像I_raw；

其中，所述映射原则包括：

在所述图像I_raw中的第一像素点的颜色为R时，将所述图像I_raw中所述第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的G的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的B的像素值；其中，所述第二像素点的R的像素值与所述第一像素点的R的像素值相同；

在所述图像I_raw中的第一像素点的颜色为G时，将所述图像I_raw中所述第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的R的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为B的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的B的像素值；其中，所述第二像素点的G的像素值与所述第一像素点的G的像素值相同；

在所述图像I_raw中的第一像素点的颜色为B时，将所述图像I_raw中所述第一像素点的邻域内的颜色为R的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的R的像素值，将所述图像I_raw中所述第一像素点的邻域内的颜色为G的像素点的像素值的平均值，作为所述图像I中与所述第一像素点对应的第二像素点的G的像素值；其中，所述第二像素点的B的像素值与所述第一像素点的B的像素值相同。

3.根据权利要求1所述的基于Transformer的井下低光照图像增强方法，其特征在于，所述步骤4）的具体过程为：

；

其中，为增强后的图像，/>。

4.根据权利要求1所述的基于Transformer的井下低光照图像增强方法，其特征在于，所述步骤22）的具体过程如下：

步骤221）将所述扩展通道维度后的图像I_raw，作为各所述分支的输入张量，并利用各所述分支中的三个MobileViT模块对所述输入张量的局部信息和全部信息进行建模，以得到各所述分支的所述输入张量的局部特征图和全局特征图；

5.根据权利要求1所述的基于Transformer的井下低光照图像增强方法，其特征在于，所述乘法图M和所述加法图A是通过两个所述分支中的三个所述MobileViT模块预测得到的图像，所述乘法图M，用于将所述乘法图M与所述图像I_raw进行乘法运算，以将所述乘法图M和所述图像I_raw对应的灰度值或彩色分量进行相乘，用于所述图像I_raw的掩膜处理，抑制所述图像I_raw的部分区域，得到掩膜图像，其中，对于所述图像I_raw中保留下来的第一区域，将所述掩膜图像中所述第一区域的值置为1，对于所述图像I_raw中被抑制的第二区域，将所述掩膜图像中所述第二区域的值置为0；其中，响应于对所述图像I_raw的亮度进行增强，设置所述掩膜图像的值大于1；

所述加法图A，用于将所述加法图A与所述图像I_raw与所述乘法图M相乘后得到的图像相加，其中，所述相加的过程为：将所述加法图A与所述相乘后得到的图像中对应像素的灰度值或彩色分量进行相加，以通过叠加相同的图像，对所述图像I_raw进行去噪。

6.根据权利要求4所述的基于Transformer的井下低光照图像增强方法，其特征在于，各所述MobileViT模块中包括Tramsformer子模块，所述Transformer子模块是由编码器Encoder和解码器Decoder组成，Encoder和Decoder主要由自注意力网络Self Attention和前馈网络两个组件构成；

其中，所述Encoder由多头注意力层Multi Head Attention ->残差&标准化层Add &Norm ->前馈网络->Add & Norm组成，Add & Norm层有经过Multi Head Attention处理和直接输入两个输入路径，其公式如下：

LayerNorm(X+MultiHeadAttention(X))；

LayerNorm(X+FeedForward(X))；

其中，X+MultiHeadAttention(X)和X+FeedForward(X) 是残差网络结构，LayerNorm将每一层的神经元的输入进行均值和方差；

其中，所述Decoder包含两个Multi Head Attention层，第一个Multi Head Attention层采用了掩码Masked操作，第二个Multi Head Attention层的Key矩阵和Value矩阵使用编码器输出的编码信息矩阵进行计算，Query矩阵使用所述第一个Multi Head Attention层的输出值进行计算，采用激活 Softmax 层对所述第二个Multi Head Attention层的输出值进行激活。

7.根据权利要求1所述的基于Transformer的井下低光照图像增强方法，其特征在于，所述Cross Attention模块是将所述Cross Attention的源端得到的Self Attention加入到所述Cross Attention的目标端得到的Attention中，所述Cross Attention输入的Query来自所述源端得到的Self Attention的输出，而Key和Value来自Transformer子模块的编码器的输入，并将所述Cross attention作为所述Transformer子模块的解码器。