CN116188307A

CN116188307A - 适用于全天的图像低照度增强和语义分割联合方法和系统

Info

Publication number: CN116188307A
Application number: CN202310136152.3A
Authority: CN
Inventors: 刘欣然; 桑农; 高常鑫; 夏惟
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-30

Abstract

本发明公开了适用于全天的图像低照度增强和语义分割联合方法和系统，属于计算机视觉技术领域。本发明首次将低照度增强和语义分割结合在一起，整个网络采用端到端的训练方式，增强任务和分割任务通过分享底部的层学习一些共有的低层次的特征，共享信息，相互补充，提升两者的表现；通过将增强网络和语义分割网络联合优化，增强网络对图像增强的结果会在下游特征提取网络和两任务分支信息的引导下进行重构，同时语义分割网络学习低照度图像增强中恢复的结构细节特征和颜色特征，提高语义分割网络的精度；既能对低光图像进行增强从而辅助驾驶员对低光环境的感知，又能从视觉任务的角度获得语义分割结果，对夜间数据和白天数据同时具有较强的适应性。

Description

适用于全天的图像低照度增强和语义分割联合方法和系统

技术领域

本发明属于计算机视觉技术以及图像处理技术领域，更具体地，涉及适用于全天的图像低照度增强和语义分割联合方法和系统。

背景技术

近年来随着深度学习的发展,人工智能技术在自动驾驶领域的应用也越来越广泛。自动驾驶技术的目标之一是减少交通事故的发生。当前，相当多的交通事故发生的原因是人类驾驶员的操作失误，而使用自动驾驶系统代替人类驾驶员可以有效减少事故的发生。夜间作为车祸事故高发的场景，对自动驾驶技术有更旺盛的需求。因此，对夜间场景城市道路图像进行低照度增强和进行精确的语义分割已经成为当前的研究热点。

低照度图像增强是图像处理技术的核心问题之一，可广泛地应用于语义分割、目标识别、目标检测等高层计算机视觉任务中。低照度图像由于现有视觉成像技术的限制，在夜间等低照度条件下，光线照明不足，导致成像传感器采集的图像严重降质。低照度增强技术则可以将低光图像进行调整获取增强图像，从而极大的提高人对于低光环境的感知，以及辅助语义分割、目标识别、目标检测等高级视觉任务。

语义分割是自动驾驶领域核心问题之一。语义分割可以实时将采集到的道路场景图像中的每个像素划分到对应的类别，实现道路场景图像在像素级别上的分类，从而理解周围环境的语义信息，这对于躲避障碍物、减少车与车或车与人之间的碰撞具有非常重要的现实意义。

深度神经网络在低照度图像增强任务和语义分割任务中达到了目前最先进的水平。与传统方法相比，深度神经网络可以学习到更好的特征表示，从而取得卓越效果。

然而，目前的低照度增强算法主要针对人类视觉而不是高级视觉任务进行设计，一些方法虽然能够提高综合视觉质量，利于人眼对图像的观察，但可能会损害图像的高级语义信息，反而不利于高级视觉任务，比如语义分割、目标检测等。同时，当前的语义分割算法往往要么只针对白天场景，要么只针对夜间场景，适用场景较为单一，缺少同时适用于白天场景和夜间场景的方案。

发明内容

针对现有技术的缺陷，本发明的目的在于提供适用于全天的图像低照度增强和语义分割联合方法和系统，旨在解决现有的语义分割方案基本只针对白天场景数据或者夜间场景数据这种单一场景的问题。

为实现上述目的，第一方面，本发明提供了一种适用于全天的图像低照度增强和语义分割联合方法，该方法包括：

将待处理正常光照图像输入至训练好的多任务联合模型，得到像素级语义分割结果；或者，将待处理低光照度图像输入至训练好的多任务联合模型，得到像素级语义分割结果和低照度增强后的3通道反射图；

所述正常光照图像为在环境光照强度大于等于1Lux情况下拍摄的图像，所述低光照度图像为在环境光照强度小于1Lux情况下拍摄的图像；

所述多任务联合模型采用端到端的训练方式，具体包括：

光强增强网络，用于对对输入的正常光照图像不作任何处理，直接输出至特征提取网络，对输入的低光照度图像进行光强增强，得到3通道反射图和1通道亮度图，输出至特征提取网络；

特征提取网络，用于从正常光照图像或者3通道反射图提取语义特征图输出至语义分割模块，从3通道反射图提取低级特征，与提取到的语义特征图同时输出至低照度增强模块，所述低级特征包括空间特征、纹理特征和颜色特征；

低照度增强模块，用于上采样语义特征图后，再与低级特征融合后和解码，得到增强后的3通道反射图和1通道亮度图；

语义分割模块，用于对输入的语义特征图进行像素级语义分割，得到输入图像每个像素的类别。

优选地，所述光强增强网络包括：

依次串联的9*9卷积层、3*3的第一卷积层和第一Relu激活层、步长为2的3*3的第二卷积层和第二Relu激活层、3*3的第三卷积层和第三Relu激活层、2倍上采样的3*3的第四反卷积层和第四Relu激活层、3*3的第五卷积层和第五Relu激活层、3*3第六卷积层、3*3第七卷积层、Sigmoid层；

其中，9*9卷积层的输入为输入的低光照度图像，第一卷积层和第一Relu激活层、第二卷积层和第二Relu激活层、第三卷积层和第三Relu激活层、第四反卷积层和第四Relu激活层、第五Relu激活层、第七卷积层、Sigmoid层，输入皆为串联关系中前者的输出；

第五卷积层的输入为第四Relu激活层输出和第一Relu激活层输出的拼接；

第六卷积层的输入为第五Relu激活层输出和输入的低光照度图像经过3*3第八卷积层输出的拼接；

所述Sigmoid层输出3通道反射图和1通道亮度图。

需要说明的是，本发明优选上述结构的光强增强网络，通过串联的卷积层提取不同层次的特征，能够有效将低照度图像分解为反射图和亮度图；并且以自监督的方式训练，不需要配对数据；同时参数量较小，运行时占用资源少。

优选地，所述特征提取网络包括：

3*3卷积层，用于从3通道反射图中提取低级特征；

swin transformer编码器，用于从3通道反射图或者正常光照图像中提取语义特征，输出至upernet解码器；

upernet解码器，用于对语义特征进行初步解码，得到原图像1/4分辨率特征图。

需要说明的是，本发明优选上述结构的特征提取网络，swin transformer编码器能够有效提取语义分割分支所需要的语义特征和增强分支恢复图像所需要的语义特征，upernet解码器能够有效对语义特征进行解码，得到利于后续任务的新特征图，同时3*3卷积层提取的低级特征可以为增强分支补充空间纹理等细节特征信息。

优选地，所述低照度增强模块包括：

依次串联的3*3第一反卷积层、第一激活层、3*3第二反卷积层、第二激活层，用于上采样语义特征图；

拼接层，用于拼接低级特征和上采样后的语义特征，得到拼接特征图；

依次串联的3*3卷积层和Sigmoid，用于解码拼接特征图，得到增强后的3通道反射图和1通道亮度图，所述3通道反射图作为低照度增强结果。

需要说明的是，本发明优选上述结构的低照度增强模块，能够以较小的参数量对1/4分辨率特征图进行解码，并且在解码的同时实现与低级特征的信息融合，得到反射图和亮度图，其中反射图可以作为低照度图像增强结果图。

优选地，所述语义分割模块依次包括3*3第一反卷积层、第一激活层、3*3第二反卷积层、第二激活层，用于解码1/4分辨率特征图，得到含有每个像素点类别的语义分割结果图。

需要说明的是，本发明优选上述结构的语义分割模块，能够以较小的参数量有效从1/4分辨率特征图中解码得到原图的语义分割结果图，即原图中每个像素类别的语义分割结果。

优选地，训练时的总损失函数计算公式如下：

L_总＝L₁+L₂+L₃

L₁＝L_re1+αL_R1+βL_I1

L₂＝L_re2+υL_R2+νL_I2

其中，L₁表示光强增强网络的图像增强损失，L₂表示低照度增强模块的图像增强损失，L₃表示语义分割模块的图像语义分割损失，L_re1,L_R1,L_I1分别表示光强增强网络的重建损失、反射损失、光照分量平滑损失，L_re2,L_R2,L_I2分别表示低照度增强模块的重建损失、反射损失、光照分量平滑损失，α,β,υ,ν表示权重参数，M表示类别的数量，y_c表示变量的类别判断，类别相同则为1，不同则为0，p_c表示对于观测样本属于类别c的预测概率。

需要说明的是，本发明中的总损失函数涵盖语义分割损失、低照度增强损失，其中，低照度增强损失又涵盖了重建损失、反射图损失和亮度图平滑损失。语义分割损失为语义分割的预测误差，用于引导网络训练实现更好的语义分割效果。低照度增强损失中，重建损失用于确保分解出的反射图和亮度图符合原图信息；反射图损失中，考虑到F(X)对图像进行直方图均衡化后可大大提高图像的信息熵，因此反射图损失确保反射图的最大通道符合低光图像的最大通道并具有最大熵，使得反射图能够更好的恢复原图信息以及取得更好的视觉效果；亮度图平滑损失用于实现增强网络得到亮度图过程中去除噪声和恢复局部细节。

优选地，所述训练过程使用正常光照语义分割数据集、低光照语义分割数据集和低光照图像增强数据集一起训练，具体方式包括：

训练过程中每一轮迭代的一个batch里固定3张输入图片，分别是来自cityscapes、nightcity和darkface的3张图片，分别代表正常光照语义分割数据集、低光照语义分割数据集和低光照图像增强数据集；

cityscapes数据集数据通过网络后只需要得到语义分割结果图而不需要进行低照度增强，其语义分割结果图用于计算语义分割任务损失；

nightcity数据集数据通过网络同时得到语义分割结果图和低照度增强结果图，语义分割结果图用于计算语义分割任务损失，低照度增强结果图用于计算低照度增强损失；

darkface数据集数据经过网络得到低照度增强结果，用于计算低照度增强损失。

需要说明的是，本发明优选上述的数据集选择方式训练，因为多任务模型的特点使得网络可以同时输入低照度数据集和语义分割数据集进行训练，并对低照度图像增强任务和语义分割任务同时进行优化；其次使用多种不同类型数据集训练可以提升模型的泛化性，使得网络能够同时在正常光照数据和低光照数据的语义分割任务以及低光照数据的低照度增强任务中取得良好效果；并且多种不同类型的数据集同时训练可以更好的对模型最后的多任务目标进行优化。

为实现上述目的，第二方面，本发明提供了一种适用于全天的图像低照度增强和语义分割联合系统，包括：处理器和存储器；所述存储器，用于存储计算机执行指令；所述处理器，用于执行所述计算机执行指令，使得第一方面所述的方法被执行。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提出适用于全天的图像低照度增强和语义分割联合方法和系统，首次将低照度增强任务和语义分割任务结合在一起，整个网络采用端到端的训练方式，增强任务和分割任务通过分享一些底部的层学习一些共有的低层次的特征，通过共享信息，相互补充，提升两者的表现；通过将增强网络和语义分割网络联合优化，增强网络对图像增强的结果会在下游特征提取网络和两任务分支信息的引导下进行重构，同时语义分割网络可以学习低照度图像增强中恢复的结构细节特征和颜色特征，从而提高语义分割网络的精度；既能对低光图像进行增强从而辅助驾驶员对低光环境的感知，又能在高级视觉任务层面获得语义分割结果，对夜间数据和白天数据同时具有较强的适应性。

附图说明

图1是本发明提供的一种适用于全天的图像低照度增强和语义分割联合方法流程图。

图2是本发明提供的光照增强网络结构示意图。

图3是本发明提供的特征提取网络结构示意图。

图4是本发明提供的低光照度增强模块结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种适用于全天的图像低照度增强和语义分割联合方法，具体包括以下步骤：

获取正常光照城市道路数据集和夜间城市道路数据集。

构建光照增强网络，光照增强网络是一种卷积网络，其作用是对低光照图像进行增强，同时本发明可以同时适应正常光照数据，对于正常光照图像，本发明设置正常光照图像经过增强网络后不变的约束。对于低光照图像，得到的增强图为后续的语义分割任务和进一步的低照度增强提供先验信息。

构建特征提取网络，采用swin transformer作为骨干网络，以upernet作为解码器，得到原图像分辨率1/4的特征图。具体来说，本发明对网络结构进行了改进，为了帮助后续的增强任务，本发明在swin transformer网络之前增加一个3*3卷积层提取低级特征，低级特征中含有更多的空间纹理等细节信息，因此将该特征送入后续增强任务分支进行特征融合，就能得到复原效果更好的低照度增强图像。

构建低照度增强和语义分割两任务分支，将特征提取网络得到的1/4特征图经过两个不同的上采样分支，最终得到低照度增强图和语义分割结果图。其中，语义分割分支由两个3*3反卷积层组成，低照度增强分支也含有两个3*3反卷积层，并且在经过这两个反卷积层后得到的特征图与特征提取网络开始的第一个3*3卷积层得到的特征图进行融合，再经过一个卷积层得到最终的增强图。通过设置两任务分支模块，本发明可以同时得到低照度增强图和语义分割结果图。

最终利用基于多任务学习的低光照语义分割模型对输入图像进行低照度增强和语义分割，得到语义分割结果图和低照度增强图。

整个网络采用端到端的训练方式，通过将光照增强网络和语义分割网络联合优化，增强网络对图像增强的结果会在下游特征提取网络和两任务分支信息的引导下进行重构，同时语义分割网络可以学习低照度图像增强中恢复的结构细节特征和颜色特征，从而提高语义分割网络的精度。

由于是多任务学习方式，因此在训练过程中，本发明可以同时使用正常光照图像数据集和低光照图像数据集多个数据集进行网络训练，从而达到提升网络泛化性的效果，使得训练出来的网络能够同时适用于低光照图像和正常光照图像，同时多数据集训练有助于提升增强任务和语义分割任务的效果。

如图1所示，整个架构一共由三个部分组成：1)基于Retinex分解理论的自监督增强网络；2)特征提取网络；3)低照度增强任务和语义分割任务两任务分支。

第一部分是通过增强网络获取对夜间图像增强。它将低光照度图像作为输入，并将其分解成一个反射图和亮度图，并将反射图作为夜间图像增强的结果，若是正常光照图像则不需要进行增强。

第二部分是结合增强网络得到的增强图像，使用语义分割领域性能较好的swintransformer作为编码器，upernet作为解码器，进行图像的特征提取，得到1/4分辨率特征图。

第三部分是通过单独的两个分支对特征图进行解码，分别得到夜间图像增强结果和语义分割结果图，若是正常光照图像则不需要得到低照度增强结果，只需要得到语义分割结果图。

接下来详细说明一下每个部分的网络结构：

增强网络基于Retinex理论构建，经典的Retinex理论建立了人的颜色感知模型，这个理论假设人眼观察到的图像可以分解为反射通道和照明通道两个部分。假设S表示源图像，则可以得到表达式：S＝R°I，其中，R表示反射分量，I表示照明分量，°表示逐元素乘法。

如图2所示，所述光强增强网络包括：依次串联的9*9卷积层、3*3的第一卷积层和第一Relu激活层、步长为2的3*3的第二卷积层和第二Relu激活层、3*3的第三卷积层和第三Relu激活层、2倍上采样的3*3的第四反卷积层和第四Relu激活层、3*3的第五卷积层和第五Relu激活层、3*3第六卷积层、3*3第七卷积层、Sigmoid层；其中，9*9卷积层的输入为输入的低光照度图像，第一卷积层和第一Relu激活层、第二卷积层和第二Relu激活层、第三卷积层和第三Relu激活层、第四反卷积层和第四Relu激活层、第五Relu激活层、第七卷积层、Sigmoid层，输入皆为串联关系中前者的输出；第五卷积层的输入为第四Relu激活层输出和第一Relu激活层输出的拼接；第六卷积层的输入为第五Relu激活层输出和输入的低光照度图像经过3*3第八卷积层输出的拼接；所述Sigmoid层输出3通道反射图和1通道亮度图。

由于夜间城市道路的数据很难获得与之对应的正常光照标签数据，因此很难采用有监督学习的方式，所以本发明采用的是自监督训练的方式，损失函数选用不依赖于标签数据的非参考损失函数。为了确保恢复光照后的图像能够在保留物体边缘信息的同时，也能保留光照信息的平滑过渡，在光照增强网络中使用以下损失函数：

其中，L_re表示重建损失，S表示低照度输入图像，R表示反射图，I表示亮度图。

其中，L_R表示反射损失，F(X)表示图像X的直方图均衡算子。λ是权重参数,ΔR表示反射图的梯度图像。该损失函数意味着反射率的最大通道应符合低光图像的最大通道并具有最大熵。

其中，L_I表示光照分量平滑损失。

低照度增强总损失函数为：

其中，λ₁，λ₂，λ₃，λ₄为权重参数。

其次是特征提取网络，如图3所示，采用当前效果较好的swin transformer，一种基于transformer的深度学习模型，在视觉任务中具有良好的表现，被用作当今许多视觉模型架构的主干。本发明由于网络最后需要构建低照度增强和语义分割两任务分支，其中低照度增强分支对低级特征中蕴含的空间信息有更大的需求，因此网络首先使用一个3*3的卷积，从输入的低照度图像和其增强图像(正常光照图像不需要增强还是使用原图)中提取低级特征，与此同时低照度图像和增强图像也被送入swin transformer网络，这个swintransformer网络与原始swin transformer网络结构相同，最终对输入数据编码得到原图分辨率的1/32的特征图，之后使用upernet解码器将该特征图解码为原图分辨率1/4的特征图，并将该特征图送入后续低照度增强任务分支和语义分割任务分支进行解码。

最后说明低照度增强和语义分割两任务分支，如图1所示，在上一步特征提取网络已经得到了1/4特征图，经过两个不同的上采样分支，最终得到低照度增强图和语义分割结果图。

其中，语义分割分支由两个3*3反卷积层和激活层组成，1/4特征图在通过这两个反卷积层后，得到最后的语义分割结果图。

如图4所示，低照度增强分支也含有两个3*3反卷积层和激活层，1/4特征图在通过这两个反卷积层后，得到与原图分辨率相同的特征图，并且与特征提取网络开始的第一个卷积层得到的低级特征图在通道维度上进行拼接，再经过一个3*3卷积层对特征进行进一步的融合。最后，与基于Retinex分解理论构建的增强网络相同，采用一层Sigmoid层得到最终的反射图和亮度图，其中反射图为复原图像。低照度增强分支损失函数与增强网络相同。

语义分割分支使用交叉熵损失函数：

其中，M表示类别的数量，y_c表示变量的类别判断，类别相同则为1，不同则为0，p_c表示对于观测样本属于类别c的预测概率。

本发明的训练过程同时使用了正常光照数据集、低光照数据集一起训练，目的有两点：

使用多种不同类型的数据集训练可以提升模型的泛化性，使得网络能够同时在正常光照数据和低光照数据的分割任务以及低照度图像增强任务中取得良好效果；

其次，多种不同类型的数据集同时训练可以更好的对模型最后的多任务目标进行优化，对于本发明来说就是对低照度增强任务目标和语义分割任务目标进行优化。

多数据集训练的方式既可以是不同数据集按顺序，比如假设有两个数据集A和B，先训练某个数据集A，A训练完了再训练数据集B；也可以是一个batch里同时使用A、B数据集的数据同时训练。考虑到不想使模型训练过程中偏向某一个任务或者数据集，所以选择用同时用多个数据集的数据训练的方式。

本发明采用的训练方式是一个batch里固定3张输入图片，分别是来自cityscapes、nightcity和darkface的3张图片，其中cityscapes数据集数据通过网络后只需要得到语义分割结果图而不需要进行低照度增强，其语义分割结果图用于计算语义分割任务损失；nightcity数据集数据通过网络同时得到语义分割结果图和低照度增强结果图，语义分割结果图用于计算语义分割任务损失，低照度增强结果图用于计算低照度增强损失；darkface数据集数据经过网络得到低照度增强结果，用于计算低照度增强损失。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于全天的图像低照度增强和语义分割联合方法，其特征在于，该方法包括：

将待处理正常光照图像输入至训练好的多任务联合模型，得到像素级语义分割结果；或者，将待处理低光照度图像输入至训练好的多任务联合模型，得到像素级语义分割结果和低照度增强后的3通道反射图作为增强结果；所述正常光照图像为在环境光照强度大于等于1Lux情况下拍摄的图像，所述低光照度图像为在环境光照强度小于1Lux情况下拍摄的图像；

所述多任务联合模型采用端到端的训练方式，具体包括：

光强增强网络，用于对输入的正常光照图像不作任何处理，直接输出至特征提取网络，对输入的低光照度图像进行光强增强，得到3通道反射图和1通道亮度图，输出至特征提取网络；

语义分割模块，用于对输入的语义特征图进行像素级分割，得到输入图像每个像素的类别。

2.如权利要求1所述的方法，其特征在于，所述光强增强网络包括：

所述Sigmoid层输出3通道反射图和1通道亮度图。

3.如权利要求1所述的方法，其特征在于，所述特征提取网络包括：

3*3卷积层，用于从3通道反射图中提取低级特征；

4.如权利要求1所述的方法，其特征在于，所述低照度增强模块包括：

5.如权利要求1所述的方法，其特征在于，所述语义分割模块依次包括3*3第一反卷积层、第一激活层、3*3第二反卷积层、第二激活层，用于解码1/4分辨率特征图，得到含有每个像素点类别的语义分割结果图。

6.如权利要求1至5任一项所述的方法，其特征在于，训练时的总损失函数计算公式如下：

L_总＝L₁+L₂+L₃

L₁＝L_re1+αL_R1+βL_I1

L₂＝L_re2+υL_R2+νL_I2

其中，L₁表示光强增强网络的图像增强损失，L₂表示低照度增强模块的图像增强损失，L₃表示语义分割模块的图像语义分割损失，L_re1，L_R1，L_I1分别表示光强增强网络的重建损失、反射损失、光照分量平滑损失，L_re2，L_R2，L_I2分别表示低照度增强模块的重建损失、反射损失、光照分量平滑损失，α，β，υ，ν表示权重参数，M表示类别的数量，y_c表示变量的类别判断，类别相同则为1，不同则为0，p_c表示对于观测样本属于类别c的预测概率。

7.如权利要求1所述的方法，其特征在于，所述训练过程使用正常光照语义分割数据集、低光照语义分割数据集和低光照图像增强数据集一起训练，具体方式包括：

darkface数据集数据通过网络得到低照度增强结果，用于计算低照度增强损失。

8.一种适用于全天的图像低照度增强和语义分割联合系统，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机执行指令；

所述处理器，用于执行所述计算机执行指令，使得权利要求1至7任一项所述的方法被执行。