CN113450366B - 基于AdaptGAN的低照度语义分割方法 - Google Patents

基于AdaptGAN的低照度语义分割方法 Download PDF

Info

Publication number
CN113450366B
CN113450366B CN202110806287.7A CN202110806287A CN113450366B CN 113450366 B CN113450366 B CN 113450366B CN 202110806287 A CN202110806287 A CN 202110806287A CN 113450366 B CN113450366 B CN 113450366B
Authority
CN
China
Prior art keywords
convolution
output
channels
layer
kernel size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110806287.7A
Other languages
English (en)
Other versions
CN113450366A (zh
Inventor
江泽涛
张取
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110806287.7A priority Critical patent/CN113450366B/zh
Publication of CN113450366A publication Critical patent/CN113450366A/zh
Application granted granted Critical
Publication of CN113450366B publication Critical patent/CN113450366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于AdaptGAN的低照度语义分割方法,其特征在于,包括如下步骤:1)整合数据集;2)训练光照正则化网络;3)训练语义分割网络;4)训练判别器网络。这种方法能够对低照度的图片进行语义分割,让语义分割的特征图视觉表征能力更强,提高分割精度。

Description

基于AdaptGAN的低照度语义分割方法
技术领域
本发明涉及生成对抗网络GAN(Generative Adversarial Networks,简称GAN)技术、无监督领域自适应技术和图像语义分割技术,具体是一种基于适应性生成对抗网络AdaptGAN(Adaptive Generative Adversarial Networks,简称AdaptGAN)的低照度语义分割方法。
背景技术
语义分割技术具有非常广泛的应用范围,在自动驾驶、人机交互和遥感图像等方面都有非常重要的作用,语义分割技术是计算机视觉领域一个非常重要的研究课题。随着人工智能技术的高速发展,深度学习技术提升了图像语义分割的分割精度和泛化性。
领域自适应技术作为迁移学习中的一种代表性方法,其解决的主要问题是当源域和目标域数据分布不同或存在域漂移时,能够充分利用源域的数据学习到一个目标域上的预测函数,使得该预测函数在目标域上也拥有最小的预测误差。此外,采用生成对抗网络的对抗学习方法能有效的实现领域自适应。
现有的语义分割方法主要是针对正常光照场景下进行设计,但是在夜间驾驶时,由于光照条件差、照度较低,会导致待分割的目标成像较暗、模糊和分辨不清等,最后造成分割精度较低。
发明内容
本发明的目的是为了弥补现有图像语义分割技术的不足,提供了一种基于AdaptGAN的低照度语义分割方法。这种方法能够对低照度的图片进行语义分割,让语义分割的特征图视觉表征能力更强,提高分割精度。
实现本发明目的的技术方案是:
一种基于AdaptGAN的低照度语义分割方法,包括如下步骤:
1)整合数据集:基于公开的Cityscapes数据集,采用模拟低照度环境下的成像特点,得到低照度环境下的数据集Cityscapes-Night,依据领域自适应技术的特点,将Cityscapes数据集作为源域,Cityscapes-Night数据集作为目标域;
2)训练光照正则化网络,包括如下步骤:
1-2)将所有的正常光照图片和低照度图片进行预处理,即将正常光照图片和低照度图片的高度和宽度统一缩放至960×960像素,从而获得更优的精度;
2-2)将正常照度图像和低照度图像输入到光照正则化网络进行处理,首先光照正则化网络从两种不同照度图像的共同潜在空间中提取到目标域和源域的共同表征,然后用光照正则化网络提取到的特征图与输入图像相加得到光照正则化图像;
3-2)计算输入图像与光照正则化图像之间的亮度损失,损失函数如公式(1)所示:
Llight=Ltv+Lssim (1),
其中Llight为亮度损失,Ltv为全变差损失,Lssim为结构相似度损失,全变差损失如公式(2)所示:
Figure BDA0003166707760000021
其中I∈{Is,It}表示输入的图片,Is是源域的输入图片,It是目标域输入图片,R∈{Rs,Rt}表示光照正则化网络的输出,Rs是源域图片对应的输出,Rt是目标域图片对应的输出,N为图片对应的像素点个数,
Figure BDA0003166707760000022
Figure BDA0003166707760000023
分别代表相邻像素之间沿x和y方向的强度梯度,||·||1是L1范数即每个像素点计算得到的值的绝对值求和;
结构相似度损失如公式(3)所示:
Figure BDA0003166707760000024
其中,uI和uR分别表示I和R的均值,σI和σR表示标准差,σIR表示协方差,C1=0.012,C2=0.032
3)训练语义分割网络:
语义分割网络设有顺序连接的高分辨率残差网络、并行的多尺度特征聚合模块及自注意力模块、上采样和分类预测模块,其中,自注意力模块包括并行的通道自注意力模块和空间自注意力模块,过程包括如下步骤:
1-3)训练高分辨率残差网络:将光照正则化图像送入高分辨率残差网络进行特征提取,高分辨率残差网络从源领域和目标领域共同的潜在空间中提取特征;
2-3)训练多尺度特征聚合模块:首先将高分辨率残差网络产生的特征图经过一个1×1卷积块进行通道降维,再将降维后的特征图送入多尺度特征聚合模块进行多尺度上下文特征提取和特征融合;
3-3)训练空间自注意力模块:将高分辨率残差网络的输出特征图送入空间自注意力模块进行空间位置上下文关系建模;
4-3)训练通道自注意力模块:将高分辨率残差网络的输出特征图送入通道自注意力模块进行通道之间上下文关系建模;
5-3)将通道自注意力模块得到的特征图与空间自注意力模块的输出特征图进行相加融合,获得自注意力模块的最终输出特征图,然后用多尺度特征聚合模块的输出特征图与自注意力模块的输出特征图进行通道拼接;
6-3)首先将5-3)过程得到的输出特征图用大小为1×1卷积块进行特征融合,并将输出通道数调整到数据集的类别数,然后对特征图进行上采样,将特征图的分辨率恢复到与输入图片相同,最后采用softmax函数归一化输出,对于每个像素位置,选取softmax后最大概率的那个类别作为预测类别,从而得到最终的语义分割结果;
7-3)计算源域正常照度图像的分割预测结果与源域正常照度图像的标签之间的损失,损失函数如公式(4)所示:
Figure BDA0003166707760000031
其中N是像素点个数,C是类别数,
Figure BDA0003166707760000032
是二值指示器,表示第i个像素点以及第c个类别的真实标签,
Figure BDA0003166707760000033
表示网络的预测值;
4)训练判别器网络:包括:
1-4)将正常照度图像和低照度图像的语义分割结果送入判别器,判别器对输入的分割结果进行识别,判断出结果是正常照度图像还是低照度图像;
2-4)计算判别器的判断结果与输入图像的正确判别标签之间的损失,损失函数如公式(5)所示:
Figure BDA0003166707760000034
其中,D表示判别器,Ps表示源域的预测,Pt表示目标域的预测,r为源域的标签,f为目标域的标签。
步骤2)中所述的光照正则化网设有顺序连接的第一卷积块、第一下采样卷积块、第二下采样卷积块、2个堆叠的残差块、第一转置卷积块、第二转置卷积块、第三卷积块和Tanh激活层,其中,
第一卷积块的卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积之后为批归一化层和ReLU激活层;
第一下采样卷积块的卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1,卷积之后为批归一化层和ReLU激活层;
第二下采样卷积块的卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256,卷积之后为批归一化层和ReLU激活层;
每个残差块设有2个第二卷积块,每个第二卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
第一个转置卷积块的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积块之后为批归一化层和ReLU激活层;
第二转置卷积块的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积块之后为批归一化层和ReLU激活层;
第三卷积块的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3,实现过程为:
4-2)将输入图片读取为RGB的3通道格式,首先经过一个卷积块,卷积块的卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积块之后为批归一化层和ReLU激活层,然后采用卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1的下采样卷积块将特征图分辨率降低为输入图片的一半,卷积之后为批归一化层和ReLU激活层;接着再采用卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256的下采样卷积块将分辨率降低为输入图片的四分之一,卷积之后为批归一化层和ReLU激活层;
5-2)将步骤4-2)的输出特征图传递给2个堆叠的残差块,每个残差块设有2个卷积块,每个卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
6-2)将步骤5-2)得到的低分辨率特征图用2个转置卷积块进行上采样恢复到与输入图片相同的分辨率,第一个转置卷积的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积之后为批归一化和ReLU函数激活;第二个转置卷积的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积后接着采用批归一化层和ReLU激活层;
7-2)将步骤6-2)得到的特征图用卷积层提取特征,卷积层的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3,然后采用Tanh激活函数进行非线性激活得到最终的特征图,最后将最终的特征图与步骤4-2)中3通道的RGB图像逐元素相加,获得光照正则化后的图像。
步骤3)中所述的高分辨率残差网络依次设有:
第四卷积块,第四卷积块包含一个卷积、批归一化层和ReLU激活层,其中卷积的卷积核大小为7x7、输入通道数为3、输出通道数为64、步长为2,第四卷积块之后为最大池化层,最大池化层的池化大小3×3、步长为2、填充为1;
其次设有堆叠的3个卷积组,对于每个卷积组,首先是一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64、步长为1的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1x1、输出特征图通道数为256的卷积核,每一个卷积之后都接批归一化层和ReLU激活层;
然后设有堆叠的4个卷积组,每个卷积组包含3个卷积层,第一个卷积层的卷积核大小为1×1、输出特征图通道数为128、输入通道数为256,第二个卷积层的卷积核大小为3×3、输出通道数为128,第三个卷积层的卷积核大小为1×1、输出通道数为512,每一个卷积之后紧接着用批归一化和ReLU激活层;
接着设有堆叠的23个空洞卷积残差块,每一个空洞卷积残差块包含3个卷积层,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层为卷积核大小为1×1、输出特征图通道数为1024的卷积,在每一个卷积之后都使用批归一化层和ReLU激活层;
最后设有堆叠的3个空洞卷积残差块,对于每一个空洞卷积残差块,首先为一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后为卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后为一个输出通道数为2048、卷积核的大小为1×1的卷积,在每个卷积层之后紧接着设有批归一化层和ReLU激活层,实现过程为:
8-3)将光照正则化后的图像送入一个卷积核大小为7×7、输入通道数为3、输出通道数为64、步长为2的卷积,卷积之后接着为批归一化层和ReLU激活层,卷积后的特征图分辨率降低为输入图片的二分之一,然后采用最大池化层进行下采样,池化大小为3×3、步长为2、填充为1,最大池化后的输出特征图分辨率降低为输入图片的四分之一;
9-3)将步骤8-3)中的输出特征图用堆叠的3个卷积组进行进一步的特征提取,对于每个卷积组,首先是一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1x1、输出特征图通道数为256的卷积,此外,每个卷积之后都接批归一化层和ReLU激活层;
10-3)将步骤9-3)的输出特征图用4个堆叠的卷积组提取特征,从而增强网络的视觉表征能力,每个卷积组包含3个卷积层,第一个卷积层采用卷积核大小为1×1、输出特征图通道数为128、输入通道数为256的卷积,第二个卷积层采用卷积核大小为3×3、输出通道数为128的卷积,第三个卷积层采用卷积核大小为1×1、输出通道数为512的卷积,每一个卷积之后紧接着采用批归一化层和ReLU激活层;此外,通过将第一个卷积组的第二个卷积的卷积步长设置为2,从而将特征图的分辨率降低为输入图片的八分之一;
11-3)将步骤10-3)得到的特征图用堆叠的23个空洞卷积残差块继续进行特征提取,每个空洞卷积残差块由3个卷积层、批归一化层和ReLU激活层构成,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层采用大小为卷积核大小1×1、输出特征图通道数为1024的卷积,在每一个卷积之后都使用批归一化层和ReLU激活;
12-3)最后将步骤11-3)得到的特征图用堆叠的3个空洞卷积残差块进一步提取特征,对于每一个空洞卷积残差块,首先用一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后采用卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后使用一个输出通道数为2048、卷积核的大小为1×1的卷积,每个卷积之后紧接着使用批归一化层和ReLU激活层。
步骤3)中所述的多尺度特征聚合模块设有并行的五个卷积块与一个全局平均池化层,其中第一个卷积层的卷积核大小为1×1、输入通道数和输出通道数都为256;第二个卷积层的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2;第三个卷积层的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256;第四个卷积层的输入通道数以及输出通道数都为256、卷积核大小为3×3、空洞率为8、填充据为8;第五个卷积层的卷积核大小为3×3、空洞率为16、填充为16;然后为卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积层,
实现过程为:
13-3)将高分辨率残差网络得到的特征图送入多尺度特征聚合模块后,多尺度特征聚合模块首先采用并行的五个卷积块与一个全局平均池化层对输入的特征图进行处理,第一个卷积块的卷积核大小为1×1、输入通道数和输出通道数都为256;第二个卷积块的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2;第三个卷积的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256;第四个卷积块的输入通道数和输出通道数都为256、卷积核大小为3×3、空洞率为8、填充为8;第五个卷积块的卷积核大小为3×3、空洞率为16、填充为16;此外,全局平均池化后,再采用双线性插值将池化后的特征图分辨率上采样到与池化前的大小一致;
14-3)首先将步骤13-3)中五个卷积块和全局平均池化层得到的特征图按通道维度进行拼接,然后再使用一个卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积进行通道降维。
步骤3)中所述的空间自注意力模块实现过程为:
15-3)将高分辨率残差网络得到的特征图记为特征图
Figure BDA0003166707760000071
其中C为特征图通道数、H为特征图的高、W为特征图的宽,首先用3个并行的卷积层对特征图A分别进行卷积操作,3个卷积层的超参数相同即输入通道数为2048、输出通道数为512、卷积核大小为1×1,经过卷积处理后得到3个新的输出特征图,分别记为特征图
Figure BDA0003166707760000072
其次将特征图D调整形状变换为矩阵
Figure BDA0003166707760000073
其中N=H×W,再对矩阵K进行转置得到矩阵
Figure BDA0003166707760000074
同时将E调整形状变为矩阵
Figure BDA0003166707760000075
然后用矩阵KT与矩阵Q相乘得到新的矩阵
Figure BDA0003166707760000076
再用softmax函数对矩阵O进行归一化后可得空间注意力矩阵
Figure BDA0003166707760000077
接着将特征图F改变形状变为矩阵
Figure BDA0003166707760000078
用矩阵V与自注意力矩阵S相乘得到矩阵
Figure BDA0003166707760000079
最后将矩阵M调整到与特征图A相同的形状,记为特征图
Figure BDA00031667077600000710
16-3)将特征图A与特征图B对应位置元素相加,再使用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,卷积后的输出特征图为空间自注意力模块的最终输出。
步骤3)中所述的通道自注意力模块实现过程为:
17-3)将高分辨率残差网络得到的特征图记为特征图
Figure BDA0003166707760000081
首先分别对特征图A改变形状后得到3个新的矩阵,分别记为矩阵
Figure BDA0003166707760000082
其中N=H×W;其次将矩阵N转置得矩阵
Figure BDA0003166707760000083
再用矩阵L与矩阵NT相乘得到新的矩阵
Figure BDA0003166707760000084
然后用softmax函数对矩阵U进行归一化后可得通道自注意力矩阵
Figure BDA0003166707760000085
最后用自注意力矩阵Z与矩阵P相乘得到矩阵
Figure BDA0003166707760000086
再将I调整到与特征图A相同的形状,记为特征图
Figure BDA0003166707760000087
18-3)将特征图A与特征图G按对应位置元素进行相加,再将相加的结果用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,把降维后的输出特征图作为通道自注意力模块的最终输出。
步骤4)中所述的判别器网络为:
包括串联的4个卷积层和1个分类器,第一个卷积层的卷积核大小为4×4、步长为2、填充为1、输入通道数为类别数、输出通道数为64;第二个卷积层的卷积核大小为4×4、输入特征图通道数为64、输出特征图通道数为128、步长为2、填充为1;第三个卷积层的卷积核尺寸为4×4、输入通道数为128、输出通道数为256、填充为1、步长为2;第四个卷积层的卷积核大小为4×4、输入通道数和输出通道数都为256、步长为2、填充为1,在每一个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,最后采用一个输出通道数为1、卷积核大小为4×4的卷积作为分类器。
本技术方案解决的是低照度语义分割中,由于低照度环境下,图片对比度和目标可见度低,导致图像分割精度欠佳的问题。在本技术方案中,首先使用光照正则化网络对源域正常照度图片和目标域低照度图片进行亮度等方面的对齐,从而弥补源域与目标域的差距;然后使用语义分割网络对正常照度图片和低照度图片进行语义分割,计算正常照度的分割结果与标签之间的损失;最后将正常照度图片和低照度图片的分割结果输入到判别器,判别器对图片进行识别,区分图片是来自正常照度还是低照度,并计算损失;此外,采用对抗学习方法和随机梯度下降算法来优化网络,进而得到精确的低照度图片语义分割结果。
这种方法能够对低照度的图片进行语义分割,让语义分割的特征图视觉表征能力更强,改善语义分割的分割效果,提高分割精度。
附图说明
图1为实施例中的AdaptGAN网络结构示意图;
图2为实施例中的光照正则化网络结构示意图;
图3为实施例中的语义分割网络结构示意图;
图4为实施例中的多尺度特征聚合模块结构示意图;
图5为实施例中的空间自注意力模块结构示意图;
图6为实施例中通道自注意力模块结构示意图;
图7为实施例中的判别器网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种基于AdaptGAN的低照度语义分割方法,包括如下步骤:
1)整合数据集:基于公开的Cityscapes数据集,采用模拟低照度环境下的成像特点,得到低照度环境下的数据集Cityscapes-Night,依据领域自适应技术的特点,将Cityscapes数据集作为源域,Cityscapes-Night数据集作为目标域;
2)训练光照正则化网络,光照正则化网络使源域和目标域在亮度方面进行领域自适应,将源域和目标域图片映射到一个新的特征空间,弥补源域和目标域图像的差距,降低网络对光照变化的敏感性,从而提升算法对光照条件的鲁棒性,包括如下步骤:
1-2)将所有的正常光照图片和低照度图片进行预处理,即将正常光照图片和低照度图片的高度和宽度统一缩放至960×960像素,从而获得更优的精度;
2-2)将正常照度图像和低照度图像输入到光照正则化网络进行处理,首先光照正则化网络从两种不同照度图像的共同潜在空间中提取到目标域和源域的共同表征,然后用光照正则化网络提取到的特征图与输入图像相加得到光照正则化图像;
3-2)计算输入图像与光照正则化图像之间的亮度损失,损失函数如公式(1)所示:
Llight=Ltv+Lssim (1),
其中Llight为亮度损失,Ltv为全变差损失,Lssim为结构相似度损失,全变差损失如公式(2)所示:
Figure BDA0003166707760000101
其中I∈{Is,It}表示输入的图片,Is是源域的输入图片,It是目标域输入图片,R∈{Rs,Rt}表示光照正则化网络的输出,Rs是源域图片对应的输出,Rt是目标域图片对应的输出,N为图片对应的像素点个数,
Figure BDA0003166707760000102
Figure BDA0003166707760000103
分别代表相邻像素之间沿x和y方向的强度梯度,||·||1是L1范数即每个像素点计算得到的值的绝对值求和;
结构相似度损失的作用是保障光照正则化后产生的图片能够维持原图的结构,结构相似度损失如公式(3)所示:
Figure BDA0003166707760000104
其中,uI和uR分别表示I和R的均值,σI和σR表示标准差,σIR表示协方差,C1=0.012,C2=0.032
3)训练语义分割网络:语义分割网络设有顺序连接的高分辨率残差网络、并行的多尺度特征聚合模块及自注意力模块、上采样和分类预测模块,其中,自注意力模块包括并行的通道自注意力模块和空间自注意力模块,如图3所示,过程包括如下步骤:
1-3)训练高分辨率残差网络:将光照正则化图像送入高分辨率残差网络进行特征提取,高分辨率残差网络从源领域和目标领域共同的潜在空间中提取特征;
2-3)训练多尺度特征聚合模块:首先将高分辨率残差网络产生的特征图经过一个1×1卷积块进行通道降维,再将降维后的特征图送入多尺度特征聚合模块进行多尺度上下文特征提取和特征融合;
3-3)训练空间自注意力模块:将高分辨率残差网络的输出特征图送入空间自注意力模块进行空间位置上下文关系建模;
4-3)训练通道自注意力模块:将高分辨率残差网络的输出特征图送入通道自注意力模块进行通道之间上下文关系建模;
5-3)将通道自注意力模块得到的特征图与空间自注意力模块的输出特征图进行相加融合,获得自注意力模块的最终输出特征图,然后用多尺度特征聚合模块的输出特征图与自注意力模块的输出特征图进行通道拼接;
6-3)首先将5-3)过程得到的输出特征图用大小为1×1卷积块进行特征融合,并将输出通道数调整到数据集的类别数,然后对特征图进行上采样,将特征图的分辨率恢复到与输入图片相同,最后采用softmax函数归一化输出,对于每个像素位置,选取softmax后最大概率的那个类别作为预测类别,从而得到最终的语义分割结果;
7-3)计算源域正常照度图像的分割预测结果与源域正常照度图像的标签之间的损失,损失函数如公式(4)所示:
Figure BDA0003166707760000111
其中N是像素点个数,C是类别数,
Figure BDA0003166707760000112
是二值指示器,表示第i个像素点以及第c个类别的真实标签,
Figure BDA0003166707760000113
表示网络的预测值;
4)训练判别器网络:包括:
1-4)将正常照度图像和低照度图像的语义分割结果送入判别器,判别器对输入的分割结果进行识别,判断出结果是正常照度图像还是低照度图像;
2-4)计算判别器的判断结果与输入图像的正确判别标签之间的损失,损失函数如公式(5)所示:
Figure BDA0003166707760000114
其中,D表示判别器,Ps表示源域的预测,Pt表示目标域的预测,r为源域的标签,f为目标域的标签。
步骤2)中所述的光照正则化网设有顺序连接的第一卷积块、第一下采样卷积块、第二下采样卷积块、2个堆叠的残差块、第一转置卷积块、第二转置卷积块、第三卷积块和Tanh激活层,其中,
第一卷积块的卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积之后为批归一化层和ReLU激活层;
第一下采样卷积块的卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1,卷积之后为批归一化层和ReLU激活层;
第二下采样卷积块的卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256,卷积之后为批归一化层和ReLU激活层;
每个残差块设有2个第二卷积块,每个第二卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
第一个转置卷积块的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积块之后为批归一化层和ReLU函数层;
第二转置卷积块的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积块之后为批归一化层和ReLU激活层;
第三卷积块的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3;
如图2所示,实现过程为:
4-2)将输入图片读取为RGB的3通道格式,首先经过一个卷积块,卷积块的卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积块之后为批归一化层和ReLU激活层,然后采用卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1的下采样卷积块将特征图分辨率降低为输入图片的一半,卷积之后为批归一化层和ReLU激活层;接着再采用卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256的下采样卷积块将分辨率降低为输入图片的四分之一,卷积之后为批归一化层和ReLU激活层;
5-2)将步骤4-2)的输出特征图传递给2个堆叠的残差块,每个残差块设有2个卷积块,每个卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
6-2)将步骤5-2)得到的低分辨率特征图用2个转置卷积块进行上采样恢复到与输入图片相同的分辨率,第一个转置卷积的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积之后为批归一化和ReLU函数激活;第二个转置卷积的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积后接着采用批归一化层和ReLU激活层;
7-2)将步骤6-2)得到的特征图用卷积层提取特征,卷积层的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3,然后采用Tanh激活函数进行非线性激活得到最终的特征图,最后将最终的特征图与步骤4-2)中3通道的RGB图像逐元素相加,获得光照正则化后的图像。
步骤3)中所述的高分辨率残差网络结构如表1所示,依次设有:
第四卷积块,第四卷积块包含一个卷积、批归一化层和ReLU激活层,其中卷积的卷积核大小为7x7、输入通道数为3、输出通道数为64、步长为2;第四卷积块之后为最大池化层,该最大池化层的池化大小3×3、步长为2、填充为1;其次为堆叠的3个卷积组,对于每个卷积组,首先是一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64、步长为1的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1x1、输出特征图通道数为256的卷积核,此外,每一个卷积之后都接批归一化层和ReLU激活层;然后为堆叠的4个卷积组,每个卷积组包含3个卷积层,第一个卷积层的卷积核大小为1×1、输出特征图通道数为128、输入通道数为256,第二个卷积层的卷积核大小为3×3、输出通道数为128,第三个卷积层的卷积核大小为1×1、输出通道数为512,同时,每一个卷积之后紧接着用批归一化和ReLU激活层;接着为堆叠的23个空洞卷积残差块,每一个空洞卷积残差块包含3个卷积层,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层为卷积核大小为1×1、输出特征图通道数为1024的卷积,同时,在每一个卷积之后都使用批归一化层和ReLU激活层;最后为堆叠的3个空洞卷积残差块,对于每一个空洞卷积残差块,首先为一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后为卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后为一个输出通道数为2048、卷积核的大小为1×1的卷积,在每个卷积层之后紧接着为批归一化层和ReLU激活层;
表1高分辨率残差网络
Figure BDA0003166707760000131
实现过程为:
8-3)将光照正则化后的图像送入一个卷积核大小为7×7、输入通道数为3、输出通道数为64、步长为2的卷积,卷积之后接着为批归一化层和ReLU激活层,卷积后的特征图分辨率降低为输入图片的二分之一,然后采用最大池化层进行下采样,池化大小为3×3、步长为2、填充为1,最大池化后的输出特征图分辨率降低为输入图片的四分之一;
9-3)将步骤8-3)中的输出特征图用堆叠的3个卷积组进行进一步的特征提取,对于每个卷积组,首先为一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1×1、输出特征图通道数为256的卷积,每个卷积之后都接批归一化层和ReLU激活层;
10-3)将步骤9-3)的输出特征图用4个堆叠的卷积组提取特征,从而增强网络的视觉表征能力,每个卷积组包含3个卷积层,第一个卷积层采用卷积核大小为1×1、输出特征图通道数为128、输入通道数为256的卷积,第二个卷积层采用卷积核大小为3×3、输出通道数为128的卷积,第三个卷积层采用卷积核大小为1×1、输出通道数为512的卷积,每一个卷积之后紧接着采用批归一化层和ReLU激活层;此外,通过将第一个卷积组的第二个卷积的卷积步长设置为2,从而将特征图的分辨率降低为输入图片的八分之一;
11-3)将步骤10-3)得到的特征图用堆叠的23个空洞卷积残差块继续进行特征提取,每个空洞卷积残差块由3个卷积层、批归一化层和ReLU激活层构成,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层采用大小为卷积核大小1×1、输出特征图通道数为1024的卷积,在每一个卷积之后都使用批归一化层和ReLU激活;
12-3)最后将步骤11-3)得到的特征图用堆叠的3个空洞卷积残差块进一步提取特征,对于每一个空洞卷积残差块,首先用一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后采用卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后使用一个输出通道数为2048、卷积核的大小为1×1的卷积,在每一个卷积之后紧接着使用批归一化层和ReLU激活层。
步骤3)中所述的多尺度特征聚合模块如图4所示为:多尺度特征聚合模块设有并行的5个卷积层与1个全局平均池化层,其中第一个卷积层的卷积核大小为1×1、输入通道数和输出通道数都为256;第二个卷积层的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2;第三个卷积层的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256;第四个卷积层的输入通道数以及输出通道数都为256、卷积核大小为3×3、空洞率为8、填充据为8;第五个卷积层的卷积核大小为3×3、空洞率为16、填充为16;然后为卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积层,
实现过程为:
13-3)将高分辨率残差网络得到的特征图送入多尺度特征聚合模块后,多尺度特征聚合模块首先采用并行的五个卷积块与一个全局平均池化层对输入的特征图进行处理,第一个卷积块的卷积核大小为1×1、输入通道数和输出通道数都为256;第二个卷积块的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2;第三个卷积的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256;第四个卷积块的输入通道数和输出通道数都为256、卷积核大小为3×3、空洞率为8、填充为8;第五个卷积块的卷积核大小为3×3、空洞率为16、填充为16;此外,全局平均池化后,再采用双线性插值将池化后的特征图分辨率上采样到与池化前的大小一致;
14-3)首先将步骤13-3)中五个卷积块和全局平均池化层得到的特征图按通道维度进行拼接,然后再使用一个卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积进行通道降维。
如图5所示,步骤3)中所述的空间自注意力模块实现过程为:
15-3)将高分辨率残差网络得到的特征图记为特征图
Figure BDA0003166707760000151
其中C为特征图通道数、H为特征图的高、W为特征图的宽,首先用3个并行的卷积层对特征图A分别进行卷积操作,3个卷积层的超参数相同即输入通道数为2048、输出通道数为512、卷积核大小为1×1,经过卷积处理后得到3个新的输出特征图,分别记为特征图
Figure BDA0003166707760000152
其次将特征图D调整形状变换为矩阵
Figure BDA0003166707760000153
其中N=H×W,再对矩阵K进行转置得到矩阵
Figure BDA0003166707760000154
同时将E调整形状变为矩阵
Figure BDA0003166707760000155
然后用矩阵KT与矩阵Q相乘得到新的矩阵
Figure BDA0003166707760000156
再用softmax函数对矩阵O进行归一化后可得空间注意力矩阵
Figure BDA0003166707760000157
接着将特征图F改变形状变为矩阵
Figure BDA0003166707760000158
用矩阵V与自注意力矩阵S相乘得到矩阵
Figure BDA0003166707760000159
最后将矩阵M调整到与特征图A相同的形状,记为特征图
Figure BDA0003166707760000161
16-3)将特征图A与特征图B对应位置元素相加,再使用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,卷积后的输出特征图为空间自注意力模块的最终输出。
如图6所示,步骤3)中所述的通道自注意力模块实现过程为:
17-3)将高分辨率残差网络得到的特征图记为特征图
Figure BDA0003166707760000162
首先分别对特征图A改变形状后得到3个新的矩阵,分别记为矩阵
Figure BDA0003166707760000163
其中N=H×W;其次将矩阵N转置得矩阵
Figure BDA0003166707760000164
再用矩阵L与矩阵NT相乘得到新的矩阵
Figure BDA0003166707760000165
然后用softmax函数对矩阵U进行归一化后可得通道自注意力矩阵
Figure BDA0003166707760000166
最后用自注意力矩阵Z与矩阵P相乘得到矩阵
Figure BDA0003166707760000167
再将I调整到与特征图A相同的形状,记为特征图
Figure BDA0003166707760000168
18-3)将特征图A与特征图G按对应位置元素进行相加,再将相加的结果用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,把降维后的输出特征图作为通道自注意力模块的最终输出。
如图7所示,步骤4)中所述的判别器网络为:
包括串联的4个卷积层和1个分类器,第一个卷积层的卷积核大小为4×4、步长为2、填充为1、输入通道数为类别数、输出通道数为64;第二个卷积层的卷积核大小为4×4、输入特征图通道数为64、输出特征图通道数为128、步长为2、填充为1;第三个卷积层的卷积核尺寸为4×4、输入通道数为128、输出通道数为256、填充为1、步长为2;第四个卷积层的卷积核大小为4×4、输入通道数和输出通道数都为256、步长为2、填充为1,在每一个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,最后采用一个输出通道数为1、卷积核大小为4×4的卷积作为分类器。

Claims (7)

1.一种基于AdaptGAN的低照度语义分割方法,其特征在于,包括如下步骤:
1)整合数据集:基于公开的Cityscapes数据集,采用模拟低照度环境下的成像特点,得到低照度环境下的数据集Cityscapes-Night,将Cityscapes数据集作为源域,Cityscapes-Night数据集作为目标域;
2)训练光照正则化网络,包括如下步骤:
1-2)将所有的正常光照图片和低照度图片进行预处理,即将正常光照图片和低照度图片高度和宽度统一缩放至960×960像素;
2-2)将正常照度图像和低照度图像输入到光照正则化网络进行处理,首先光照正则化网络从两种不同照度图像的共同潜在空间中提取到目标域和源域的共同表征,然后用光照正则化网络提取到的特征图与输入图像相加得到光照正则化图像;
3-2)计算输入图像与光照正则化图像之间的亮度损失,损失函数如公式(1)所示:
Llight=Ltv+Lssim (1),
其中Llight为亮度损失,Ltv为全变差损失,Lssim为结构相似度损失,全变差损失如公式(2)所示:
Figure FDA0003166707750000011
其中I∈{Is,It}表示输入的图片,Is是源域的输入图片,It是目标域输入图片,R∈{Rs,Rt}表示光照正则化网络的输出,Rs是源域图片对应的输出,Rt是目标域图片对应的输出,N为图片对应的像素点个数,
Figure FDA0003166707750000012
Figure FDA0003166707750000013
分别代表相邻像素之间沿x和y方向的强度梯度,||·||1是L1范数即每个像素点计算得到的值的绝对值求和,结构相似度损失具体为公式(3)所示:
Figure FDA0003166707750000014
其中,uI和uR分别表示I和R的均值,σI和σR表示标准差,σIR表示协方差,C1=0.012,C2=0.032
3)训练语义分割网络:
语义分割网络设有顺序连接的高分辨率残差网络、并行的多尺度特征聚合模块及自注意力模块、上采样和分类预测模块,其中,自注意力模块包括并行的通道自注意力模块和空间自注意力模块,
实现过程为:
1-3)训练高分辨率残差网络:将光照正则化图像送入高分辨率残差网络进行特征提取,高分辨率残差网络从源领域和目标领域共同的潜在空间中提取特征;
2-3)训练多尺度特征聚合模块:首先将高分辨率残差网络产生的特征图经过一个1×1卷积块进行通道降维,再将降维后的特征图送入多尺度特征聚合模块进行多尺度上下文特征提取和特征融合;
3-3)训练空间自注意力模块:将高分辨率残差网络的输出特征图送入空间自注意力模块进行空间位置上下文关系建模;
4-3)训练通道自注意力模块:将高分辨率残差网络的输出特征图送入通道自注意力模块进行通道之间上下文关系建模;
5-3)将通道自注意力模块得到的特征图与空间自注意力模块的输出特征图进行相加融合,获得自注意力模块的最终输出特征图,然后用多尺度特征聚合模块的输出特征图与自注意力模块的输出特征图进行通道拼接;
6-3)首先将5-3)过程得到的输出特征图用大小为1×1卷积块进行特征融合,并将输出通道数调整到数据集的类别数,然后对特征图进行上采样,将特征图的分辨率恢复到与输入图片相同,最后采用softmax函数归一化输出,对于每个像素位置,选取softmax后最大概率的那个类别作为预测类别,从而得到最终的语义分割结果;
7-3)计算源域正常照度图像的分割预测结果与源域正常照度图像的标签之间的损失,损失函数如公式(4)所示:
Figure FDA0003166707750000021
其中N是像素点个数,C是类别数,
Figure FDA0003166707750000022
是二值指示器,表示第i个像素点以及第c个类别的真实标签,
Figure FDA0003166707750000023
表示网络的预测值;
4)训练判别器网络:包括:
1-4)将正常照度图像和低照度图像的语义分割结果送入判别器,判别器对输入的分割结果进行识别,判断出结果是正常照度图像还是低照度图像;
2-4)计算判别器的判断结果与输入图像的正确判别标签之间的损失,损失函数如公式(5)所示:
Figure FDA0003166707750000024
其中,D表示判别器,Ps表示源域的预测,Pt表示目标域的预测,r为源域的标签,f为目标域的标签。
2.根据权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤2)中所述的光照正则化网络设有顺序连接的第一卷积块、第一下采样卷积块、第二下采样卷积块、2个堆叠的残差块、第一转置卷积块、第二转置卷积块、第三卷积块和Tanh激活层,其中,
第一卷积块卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积之后为批归一化层和ReLU激活层;
第一下采样卷积块卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1,卷积之后为批归一化层和ReLU激活层;
第二下采样卷积块的卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256,卷积之后为批归一化层和ReLU激活层;
每个残差块设有2个第二卷积块,每个第二卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
第一个转置卷积块的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积之后为批归一化层和ReLU激活层;
第二转置卷积块的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积之后为批归一化层和ReLU激活层;
第三卷积块的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3,
实现过程为:
4-2)将输入图片读取为RGB的3通道格式,首先经过一个卷积块,卷积块的卷积核大小为7×7、输入通道数为3、输出通道数为64、填充为3、步长为1,卷积块之后为批归一化层和ReLU激活层,然后采用卷积核大小为3×3、输入通道数为64、输出通道数为128、步长为2、填充为1的下采样卷积块将特征图分辨率降低为输入图片的一半,卷积之后为批归一化层和ReLU激活层;接着再采用卷积核大小为3×3、步长为2、输入通道数为128、输出通道数为256的下采样卷积块将分辨率降低为输入图片的四分之一,卷积之后为批归一化层和ReLU激活层;
5-2)将步骤4-2)的输出特征图传递给2个堆叠的残差块,每个残差块设有2个卷积块,每个卷积块设有大小为3×3、填充为1、输入特征图通道数和输出通道数都为256的卷积,以及批归一化层和ReLU激活层;
6-2)将步骤5-2)得到的低分辨率特征图用2个转置卷积块进行上采样恢复到与输入图片相同的分辨率,第一个转置卷积的卷积核大小为3×3、步长为2、填充为1、输出填充为1、输入通道数为256、输出通道数为128,卷积之后为批归一化和ReLU函数激活;第二个转置卷积的卷积核大小为3×3、输入特征图通道数为128、输出特征图通道数为64、步长为2、填充为1、输出填充为1,卷积后接着采用批归一化层和ReLU激活层;
7-2)将步骤6-2)得到的特征图用卷积层提取特征,卷积层的卷积核大小为5×5、填充为2、输入通道数64、输出通道数为3,然后采用Tanh激活函数进行非线性激活得到最终的特征图,最后将最终的特征图与步骤4-2)中3通道的RGB图像逐元素相加,获得光照正则化后的图像。
3.根据权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤3)中所述的高分辨率残差网络依次设有:
第四卷积块,第四卷积块包含一个卷积、批归一化层和ReLU激活层,其中卷积的卷积核大小为7×7、输入通道数为3、输出通道数为64、步长为2,第四卷积块之后为最大池化层,最大池化层的池化大小3×3、步长为2、填充为1;
堆叠的3个卷积组,对于每个卷积组,首先为一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64、步长为1的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1×1、输出特征图通道数为256的卷积,每一个卷积之后都接批归一化层和ReLU激活层;
堆叠的4个卷积组,每个卷积组包含3个卷积层,第一个卷积层的卷积核大小为1×1、输出特征图通道数为128、输入通道数为256,第二个卷积层的卷积核大小为3×3、输出通道数为128,第三个卷积层的卷积核大小为1×1、输出通道数为512,每一个卷积之后紧接着为批归一化层和ReLU激活层;
堆叠的23个空洞卷积残差块,每一个空洞卷积残差块包含3个卷积层,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层为卷积核大小为1×1、输出特征图通道数为1024的卷积,每一个卷积之后都采用批归一化层和ReLU激活层;
最后设有堆叠的3个空洞卷积残差块,对于每一个空洞卷积残差块,首先为一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后为卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后为一个输出通道数为2048、卷积核的大小为1×1的卷积,在每一个卷积层之后紧接着为批归一化层和ReLU激活层,
实现过程为:
8-3)将光照正则化后的图像送入一个卷积核大小为7×7、输入通道数为3、输出通道数为64、步长为2的卷积,卷积之后接着为批归一化层和ReLU激活层,卷积后的特征图分辨率降低为输入图片的二分之一,然后采用最大池化层进行下采样,池化大小为3×3、步长为2、填充为1,最大池化后的输出特征图分辨率降低为输入图片的四分之一;
9-3)将步骤8-3)中的输出特征图用堆叠的3个卷积组进行进一步的特征提取,对于每个卷积组,首先为一个卷积核大小为1×1、输入特征图通道数为64、输出特征图通道数为64的卷积,然后再接一个卷积核大小为3×3、输出特征图通道数为64的卷积,最后使用卷积核大小为1×1、输出特征图通道数为256的卷积,每个卷积之后都接批归一化层和ReLU激活层;
10-3)将步骤9-3)的输出特征图用4个堆叠的卷积组提取特征,从而增强网络的视觉表征能力,每个卷积组包含3个卷积层,第一个卷积层采用卷积核大小为1×1、输出特征图通道数为128、输入通道数为256的卷积,第二个卷积层采用卷积核大小为3×3、输出通道数为128的卷积,第三个卷积层采用卷积核大小为1×1、输出通道数为512的卷积,每一个卷积之后紧接着采用批归一化层和ReLU激活层;此外,通过将第一个卷积组的第二个卷积的卷积步长设置为2,从而将特征图的分辨率降低为输入图片的八分之一;
11-3)将步骤10-3)得到的特征图用堆叠的23个空洞卷积残差块继续进行特征提取,每个空洞卷积残差块由3个卷积层、批归一化层和ReLU激活层构成,第一个卷积层为输出通道数为256、卷积核大小为1×1的卷积,第二个卷积层为输出通道数为256、卷积核大小为3×3、空洞率为2、填充为2以及步长为1的卷积,第三个卷积层采用大小为卷积核大小1×1、输出特征图通道数为1024的卷积,在每一个卷积之后都使用批归一化层和ReLU激活;
12-3)最后将步骤11-3)得到的特征图用堆叠的3个空洞卷积残差块进一步提取特征,对于每一个空洞卷积残差块,首先用一个卷积核大小为1×1、输出特征图通道数为512的卷积,然后采用卷积核大小为3×3、空洞率为4、填充为4、输出通道数为512的空洞卷积,最后使用一个输出通道数为2048、卷积核的大小为1×1的卷积,在每一个卷积之后紧接着使用批归一化层和ReLU激活层。
4.根据 权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤3)中所述的多尺度特征聚合模块设有并行的五个卷积层与一个全局平均池化层,其中第一个卷积层的卷积核大小为1×1、输入通道数和输出通道数都为256,第二个卷积层的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2,第三个卷积层的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256,第四个卷积层的输入通道数以及输出通道数都为256、卷积核大小为3×3、空洞率为8、填充据为8,第五个卷积层的卷积核大小为3×3、空洞率为16、填充为16;然后为卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积层,
实现过程为:
13-3)多尺度特征聚合模块首先采用并行的五个卷积块与一个全局平均池化层对输入的特征图进行处理,第一个卷积块的卷积核大小为1×1、输入通道数和输出通道数都为256;第二个卷积块的输入特征图通道数和输出特征图通道数为256、卷积核大小为3×3、空洞率为2、填充为2;第三个卷积的卷积核大小为3×3、空洞率为4、填充为4、输入通道数和输出通道数都为256;第四个卷积的输入通道数以及输出通道数都为256、卷积核大小为3×3、空洞率为8、填充据为8;第五个卷积块的卷积核大小为3×3、空洞率为16、填充为16;此外,全局平均池化后,再采用双线性插值将池化后的特征图分辨率上采样到与池化前的大小一致;
14-3)首先将步骤13-3)中五个卷积块和全局平均池化层得到的特征图按通道维度进行拼接,然后再使用一个卷积核大小为1×1、输入通道数为1536、输出通道数为256的卷积进行通道降维。
5.根据权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤3)中所述的空间自注意力模块实现过程为:
15-3)将高分辨率残差网络得到的特征图记为特征图
Figure FDA0003166707750000061
其中C为特征图通道数、H为特征图的高、W为特征图的宽,首先用3个并行的卷积层对特征图A分别进行卷积操作,3个卷积层的超参数相同即输入通道数为2048、输出通道数为512、卷积核大小为1×1,经过卷积处理后得到3个新的输出特征图,分别记为特征图
Figure FDA0003166707750000062
Figure FDA0003166707750000063
其次将特征图D调整形状变换为矩阵
Figure FDA0003166707750000064
其中N=H×W,再对矩阵K进行转置得到矩阵
Figure FDA0003166707750000065
同时将E调整形状变为矩阵
Figure FDA0003166707750000066
然后用矩阵KT与矩阵Q相乘得到新的矩阵
Figure FDA0003166707750000067
再用softmax函数对矩阵O进行归一化后可得空间注意力矩阵
Figure FDA0003166707750000068
接着将特征图F改变形状变为矩阵
Figure FDA0003166707750000069
用矩阵V与自注意力矩阵S相乘得到矩阵
Figure FDA00031667077500000610
最后将矩阵M调整到与特征图A相同的形状,记为特征图
Figure FDA00031667077500000611
16-3)将特征图A与特征图B对应位置元素相加,再使用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,卷积后的输出特征图为空间自注意力模块的最终输出。
6.根据权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤3)中所述的通道自注意力模块实现过程为:
17-3)将高分辨率残差网络得到的特征图记为特征图
Figure FDA00031667077500000612
首先分别对特征图A改变形状后得到3个新的矩阵,分别记为矩阵
Figure FDA00031667077500000613
其中N=H×W;其次将矩阵N转置得矩阵
Figure FDA00031667077500000614
再用矩阵L与矩阵NT相乘得到新的矩阵
Figure FDA00031667077500000615
然后用softmax函数对矩阵U进行归一化后可得通道自注意力矩阵
Figure FDA00031667077500000616
最后用自注意力矩阵Z与矩阵P相乘得到矩阵
Figure FDA00031667077500000617
再将I调整到与特征图A相同的形状,记为特征图
Figure FDA00031667077500000618
18-3)将特征图A与特征图G按对应位置元素进行相加,再将相加的结果用一个卷积核大小为1×1、输出通道数为256的卷积进行通道降维,把降维后的输出特征图作为通道自注意力模块的最终输出。
7.根据权利要求1所述的基于AdaptGAN的低照度语义分割方法,其特征在于,步骤4)所述的判别器网络为:
包括串联的4个卷积层和1个分类器,第一个卷积层的卷积核大小为4×4、步长为2、填充为1、输入通道数为类别数、输出通道数为64;第二个卷积层的卷积核大小为4×4、输入特征图通道数为64、输出特征图通道数为128、步长为2、填充为1;第三个卷积层的卷积核大小为4×4、输入通道数为128、输出通道数为256、填充为1、步长为2;第四个卷积层的卷积核大小为4×4、输入通道数和输出通道数都为256、步长为2、填充为1;在每一个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,最后采用一个输出通道数为1、卷积核大小为4×4的卷积作为分类器。
CN202110806287.7A 2021-07-16 2021-07-16 基于AdaptGAN的低照度语义分割方法 Active CN113450366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110806287.7A CN113450366B (zh) 2021-07-16 2021-07-16 基于AdaptGAN的低照度语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110806287.7A CN113450366B (zh) 2021-07-16 2021-07-16 基于AdaptGAN的低照度语义分割方法

Publications (2)

Publication Number Publication Date
CN113450366A CN113450366A (zh) 2021-09-28
CN113450366B true CN113450366B (zh) 2022-08-30

Family

ID=77816550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110806287.7A Active CN113450366B (zh) 2021-07-16 2021-07-16 基于AdaptGAN的低照度语义分割方法

Country Status (1)

Country Link
CN (1) CN113450366B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657619A (zh) * 2017-10-13 2018-02-02 西安科技大学 一种低照度林火图像分割方法
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN110533045A (zh) * 2019-07-31 2019-12-03 中国民航大学 一种结合注意力机制的行李x光违禁品图像语义分割方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN111199550A (zh) * 2020-04-09 2020-05-26 腾讯科技(深圳)有限公司 图像分割网络的训练方法、分割方法、装置和存储介质
CN111489303A (zh) * 2020-03-27 2020-08-04 武汉理工大学 一种低照度环境下海事图像增强方法
CN111680619A (zh) * 2020-06-05 2020-09-18 大连大学 基于卷积神经网络和双注意力机制的行人检测方法
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN111932471A (zh) * 2020-07-24 2020-11-13 山西大学 用于低照度图像增强的双路曝光度融合网络模型及方法
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN112101456A (zh) * 2020-09-15 2020-12-18 推想医疗科技股份有限公司 注意力特征图获取方法及装置、目标检测的方法及装置
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112634276A (zh) * 2020-12-08 2021-04-09 西安理工大学 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN112686913A (zh) * 2021-01-11 2021-04-20 天津大学 基于边界注意力一致性的目标边界检测和目标分割模型
CN112771581A (zh) * 2018-07-30 2021-05-07 纪念斯隆凯特琳癌症中心 用于对免疫疗法和放射疗法的分割、结果预测和纵向应答监测的多模态、多分辨率深度学习神经网络
CN112927162A (zh) * 2021-03-17 2021-06-08 长春理工大学 一种面向低照度图像的增强方法及系统
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401292B2 (en) * 2011-04-26 2013-03-19 Eastman Kodak Company Identifying high saliency regions in digital images
US11055888B2 (en) * 2019-08-27 2021-07-06 Shenzhen Malong Technologies Co., Ltd. Appearance-flow-based image generation
CN112884772B (zh) * 2019-11-29 2024-03-19 北京四维图新科技股份有限公司 语义分割架构
US11195044B2 (en) * 2020-01-12 2021-12-07 Dalian University Of Technology Fully automatic natural image matting method

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657619A (zh) * 2017-10-13 2018-02-02 西安科技大学 一种低照度林火图像分割方法
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN112771581A (zh) * 2018-07-30 2021-05-07 纪念斯隆凯特琳癌症中心 用于对免疫疗法和放射疗法的分割、结果预测和纵向应答监测的多模态、多分辨率深度学习神经网络
CN110378484A (zh) * 2019-04-28 2019-10-25 清华大学 一种基于注意力机制的空洞卷积空间金字塔池化上下文学习方法
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN110533045A (zh) * 2019-07-31 2019-12-03 中国民航大学 一种结合注意力机制的行李x光违禁品图像语义分割方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111489303A (zh) * 2020-03-27 2020-08-04 武汉理工大学 一种低照度环境下海事图像增强方法
CN111199550A (zh) * 2020-04-09 2020-05-26 腾讯科技(深圳)有限公司 图像分割网络的训练方法、分割方法、装置和存储介质
CN111680619A (zh) * 2020-06-05 2020-09-18 大连大学 基于卷积神经网络和双注意力机制的行人检测方法
CN111932471A (zh) * 2020-07-24 2020-11-13 山西大学 用于低照度图像增强的双路曝光度融合网络模型及方法
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN112101456A (zh) * 2020-09-15 2020-12-18 推想医疗科技股份有限公司 注意力特征图获取方法及装置、目标检测的方法及装置
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN112634276A (zh) * 2020-12-08 2021-04-09 西安理工大学 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN112686913A (zh) * 2021-01-11 2021-04-20 天津大学 基于边界注意力一致性的目标边界检测和目标分割模型
CN112927162A (zh) * 2021-03-17 2021-06-08 长春理工大学 一种面向低照度图像的增强方法及系统

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
"Integrating Semantic Segmentation and Retinex Model for Low-Light Image Enhancement";Minhao Fan等;《The 28th ACM International Conference on Multimedia》;20201030;第2317-2325页 *
"Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation";Jaehoon Choi等;《arXiv》;20190902;第93561-93585页 *
"Semantic Segmentation With Low Light Images by Modified CycleGAN-based Image Enhancement";SE WOON CHO等;《IEEE Access》;20200306(第8期);第1-11页 *
"Small-Object Detection in Remote Sensing Images with End-to-End Edge-Enhance GAN and Object Detector Network";J Rabbi等;《arXiv》;20200428;第1-27页 *
"一种基于U-Net生成对抗网络的低照度图像增强方法";江泽涛等;《电子学报》;20200229;第48卷(第2期);第258-264页 *
"一种融合IFOA和K-Means聚类的低照度图像分割方法";李苏晨等;《现代电子技术》;20210101;第44卷(第1期);第45-48页 *
"含多级通道注意力机制的CGAN遥感图像建筑物分割";余帅等;《中国图象图形学报》;20210331;第26卷(第3期);第0686-0699页 *
"基于域适应的煤矿环境监控图像语义分割";杨潇等;《煤炭学报》;20210128;第1-12页 *
"基于生成对抗网络的低照度图像增强方法研究";覃露露;《中国优秀硕士学位论文全文数据库》;20210415(第4期);第I138-770页 *
"基于生成对抗网络的空间卫星低照度图像增强";陈榆琅等;《中国空间科学技术》;20210630;第41卷(第3期);第16-23页 *
"融合残差块注意力机制和生成对抗网络的海马体分割";张月芳等;《山东大学学报(工学版)》;20201231;第50卷(第6期);第76-81页和第111页 *

Also Published As

Publication number Publication date
CN113450366A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110738697B (zh) 基于深度学习的单目深度估计方法
CN111310862B (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111340738B (zh) 一种基于多尺度渐进融合的图像去雨方法
Zheng et al. Single image cloud removal using U-Net and generative adversarial networks
CN106548169A (zh) 基于深度神经网络的模糊文字增强方法及装置
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN111160205A (zh) 一种交通场景嵌入式多类目标端对端统一检测方法
CN113159043B (zh) 基于语义信息的特征点匹配方法及系统
CN114943893B (zh) 一种土地覆盖分类的特征增强方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN112509021B (zh) 一种基于注意力机制的视差优化方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN116052016A (zh) 基于深度学习的遥感图像云和云影的精细分割检测方法
CN115205672A (zh) 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统
CN112634184A (zh) 基于融合性卷积神经网络的rgb图像光谱反射率重建方法
CN117197763A (zh) 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN112200029B (zh) 基于改进型UNet++网络的遥感图像建筑物提取方法
CN113450366B (zh) 基于AdaptGAN的低照度语义分割方法
CN110020986A (zh) 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210928

Assignee: Guangxi pinri Electronic Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980045442

Denomination of invention: A Low Illumination Semantic Segmentation Method Based on AdaptGAN

Granted publication date: 20220830

License type: Common License

Record date: 20231101

EE01 Entry into force of recordation of patent licensing contract