CN113313180B - 一种基于深度对抗学习的遥感图像语义分割方法 - Google Patents

一种基于深度对抗学习的遥感图像语义分割方法 Download PDF

Info

Publication number
CN113313180B
CN113313180B CN202110623433.2A CN202110623433A CN113313180B CN 113313180 B CN113313180 B CN 113313180B CN 202110623433 A CN202110623433 A CN 202110623433A CN 113313180 B CN113313180 B CN 113313180B
Authority
CN
China
Prior art keywords
remote sensing
module
image
semantic segmentation
sensing image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110623433.2A
Other languages
English (en)
Other versions
CN113313180A (zh
Inventor
郭学俊
刘晓峰
彭赞
陈泽华
赵哲峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202110623433.2A priority Critical patent/CN113313180B/zh
Publication of CN113313180A publication Critical patent/CN113313180A/zh
Application granted granted Critical
Publication of CN113313180B publication Critical patent/CN113313180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于遥感图像语义分割方法技术领域。一种基于深度对抗学习的遥感图像语义分割方法,将遥感数据集划分为训练集和测试集,搭建遥感图像语义分割网络,将训练集遥感图像输入至步骤二中的遥感语义分割网络中,将遥感图像及其对应标签图组成真图像对,遥感图像及其对应生成器输出的预测标签图像组成假图像对,接着将真、假图像对输入判别器模块计算对抗损失函数,计算总损失函数,直到生成器模块达到精准语义分割,将经过预处理的测试集遥感图像输入到精准语义分割的生成器模块,输出遥感图像的精确分割结果。

Description

一种基于深度对抗学习的遥感图像语义分割方法
技术领域
本发明涉及一种基于深度对抗学习的遥感图像语义分割方法,属于遥感图像语义分割方法技术领域。
背景技术
高空间分辨率(以下简称)遥感图像包含了地物丰富的纹理、形状、结构、邻域关系等信息,可以提供更丰富的地表空间及纹理信息,并清楚地表达地物目标的特征分布和空间关联,还可分辨出地物目标内部更为详细的结构组成,进而为解译分析提供良好的条件和基础。因此,遥感大数据是一种重要的地理信息资源,在军事、交通、环境、农林、环境监测、城市建设、灾害评估和预测等领域有着巨大的应用价值。
图像语义分割将遥感图像中的每个像素标注为特定的地物种类,是遥感图像信息理解和提取的基础和重要手段。传统基于对象的语义分割方法,只是使用了人工设计的低级语义特征,由于土地覆盖的多样性和复杂性,这种方法并不能从高分率遥感图像中提取出复杂的语义信息。这就导致了低级特征和高级语义信息之间的“语义鸿沟”。特征提取技术,如“视觉词包”和“语义主题模型”,可以减轻但不能完全消除“语义鸿沟”的影响。
深度卷积神经网络通过多层网络结构和非线性变换可以自动地从遥感图像中获取高级语义特征,在图像分类中展现出良好的性能。基于深度卷积神经网络的全卷积语义分割方法已经成为各个应用领域语义分割的主流研究方法并且取得了巨大的成功。然而,全卷积神经网络模型孤立地对图像中的每个像素进行分类,忽略了像素之间相互联系,因而容易丢失全局和长程信息。这将导致分割结果与真实语义图之间的空间不一致。
条件生成对抗网络模型通过由全卷积组成的生成器模块和由二分类深度卷积神经网络组成的判别器模块之间的相互对抗演化,能够从遥感图像中学习识别特征。该方法通过引入判别器模块进行图像级监督学习进而获取全局和长程信息,并保证分割结果与真实语义图之间的空间一致性。
但是目前的生成条件生成对抗网络在遥感图像上仍不能表现出令人满意的语义分割效果。一方面,有些条件生成对抗网络为了降低模型复杂程度和模型训练难度,其生成器模块和判别器模块往往采用浅层网络结构。而遥感图像的地物具有“类内差别大,类间差异大”的特点,这些浅层网络结构无法学到有效的识别特征。另一方面,即使有的条件生成对抗网络采用了复杂的网络结构增强模型特征表达能力,但其生成器模块和判别器模块往往依赖海量的高精度训练样本或由自然场景海量样本训练所得的预训练模型。然而,遥感图像的像素级标注却往往需要专业知识及经验丰富的专家人工标注,因而训练数据往往非常稀少。同时,由自然图像训练得到的预训练模型与遥感图像因获取视角的差异和类别的不同,分割精度经常差强人意。此外,这些复杂的模型参数量巨大对存储和计算设备均提出了较高要求,训练和应用模型也均非常耗时。这些缺陷极大的限制了遥感大数据的实际应用。
发明内容
本发明为了综合解决现有遥感图像语义分割技术中存在的特征表达能力不足、模型效率低下和训练困难等挑战,本发明提出一种基于深度对抗学习的遥感图像语义分割方法,包括以下步骤:
步骤一:将遥感数据集划分为训练集和测试集,并对训练集和测试集中的遥感图像分别进行预处理;
步骤二:搭建遥感图像语义分割网络,所述遥感图像语义分割网络基于条件生成对抗学习,包括生成器模块和判别器模块;
步骤三:将步骤一中经过预处理的训练集遥感图像输入至步骤二中的遥感语义分割网络中,首先使用He Uniform方法对遥感图像语义分割网络进行初始化,然后利用生成器模块得到预测标签图像并计算L1损失函数,再将遥感图像及其对应标签图组成真图像对,遥感图像及其对应生成器输出的预测标签图像组成假图像对,接着将真、假图像对输入判别器模块计算对抗损失函数,最后由L1损失函数和对抗损失函数计算总损失函数;
步骤四:将步骤三中的L1损失函数和对抗损失函数进行反向传播,更新生成器模块和判别器模块的网络参数;
步骤五:重复步骤三、步骤四;通过生成器模块与判别器模块不断的对抗训练,直到生成器模块达到精准语义分割,此时判别器模块无法判别其输入图像对的真假;
步骤六:将经过预处理的测试集遥感图像输入到步骤五中达到精准语义分割的生成器模块,输出遥感图像的精确分割结果。
所述步骤一中的预处理包括图像人工标注、图像裁剪和数据增强;
所述的图像人工标注具体为:将遥感图像在ArcGIS软件中人工对不同类别的地物用不同的颜色进行像素级语义标注得到带标签的遥感图像;
所述的图像裁剪具体为:将带标签的遥感图像随机裁剪为256像素×256像素的子图像;
所述数据增强包括:将子图像进行图像旋转、图像垂直与水平翻转得到的遥感图像。
所述的步骤二搭建遥感图像语义分割网络的搭建步骤为:
搭建生成器模块,生成器模块由下采样路径、瓶颈层、上采样路径以及下采样路径与上采样路径之间的跳跃连接组成的U型对称结构网络模型构成
下采样路径从输入数据开始,首先通过卷积核大小为3×3、步长为1的卷积层,得到通道数目m为48的取值的语义特征图,随后通过5个连续的下采样单元进行特征提取和下采样;
下采样单元由一对非对称一次聚合模块和下转换模块组成,其中非对称一次聚合模块负责特征提取并将结果特征图通过跳跃连接输出至上采样路径,下转换模块负责下采样;
每个下采样单元中包含的非对称一次聚合模块包含的非对称卷积模块个数n的取值分别为4、5、7、10、12,对应输出的特征图通道数目m的取值分别为112、192、304、464、656;
瓶颈层由一个非对称一次聚合模块构成,其中的非对称卷积模块的数量n的取值为15,最终瓶颈层输出的特征图通道数m的取值为896;
上采样路径依次由5个连续的上采样单元和一个卷积核大小为1×1、步长为1的卷积层组成;
上采样单元由一组上转换模块、通道堆叠层和非对称一次聚合模块组成,其中上转换模块负责接受上一个非对称一次聚合模块的新特征堆叠结果并将其采样,通道堆叠层负责将跳跃连接传递的特征图和上采样所得特征图进行通道堆叠,非对称一次聚合模块负责特征提取;
每个上采样单元中非对称一次聚合模块包含的非对称卷积模块的个数n的取值分别为12、10、7、5、4,输出特征图的通道数m的取值为1088、816、576、384、256;
搭建判别器模块,为深度卷积神经网络,由一个核大小为3×3、步长为1的卷积层、3个连续的下采样单元和一个Sigmoid激活函数层组成;
卷积层输出特征图通道数m的取值为48,每个下采样单元中非对称一次聚合模块包含的非对称卷积模块的个数n的取值均为4,输出特征图的通道数m的取值分别为112、176、240。
所述非对称一次聚合模块的结构如下:特征图I0输入至非对称一次聚合模块后,首先经过n个非对称卷积模块,得到n个新特征图I1,I2…In;然后将输入的特征图I0与n个特征图I1,I2…In进行通道堆叠操作;接下来,将通道堆叠后的特征图C0输入至高效的压缩激励注意力模块,高效的压缩激励注意力模块输出的权重W0将与特征图C0进行元素相乘操作,以得到通道选择后的特征图C1;最后,输入的特征图I0将进行卷积核大小为1×1、步长为1的卷积操作,得到与特征图C1通道数相同的特征图F0,特征图C1与特征图F0进行元素相加操作,得到最终的输出结果;
所述非对称卷积模块,其结构为:将输入的特征图A0并行进行卷积核为1×3、3×3、3×1大小的卷积操作,得到特征图A1、A2、A3;将特征图A1、A2、A3分别进行归一化操作得到特征图A11、A21、A31,再将特征图A11、A21、A31进行元素相加操作得到特征图A4,最后利用激活函数为ReLU的激活层对特征图A4进行处理,得到最终的输出结果;
所述高效的压缩激励注意力模块,其结构依次为:全局平均池化层,全连接层,激活函数为Sigmoid的激活层。
所述下转换模块的结构依次为:批量归一化层,激活函数为Leaky ReLU的激活层,卷积核大小为1×1、步长为2的卷积层,概率为0.2的Dropout层;
所述上转换模块的结构为:卷积核大小为3×3、步长为2的转置卷积;
所述步骤三中的对抗损失函数的计算公式为:
LCGAN=Ex,y[logD(x,y)]+Ex[log(1-D(x,G(x)))]
上式中:LCGAN为训练过程中条件生成对抗网络的对抗损失函数,Ex,y为对真图像对输入判别器模块得到的对抗损失求数学期望,Ex为对假图像对输入判别器模块得到的对抗损失求数学期望,x为训练集中的遥感图像,y为训练集中遥感图像x对应的标签图(又称真标签图),G(x)为生成器模块所生成的标签图(又称假标签图),D(x,y)、D(x,G(x))为判别器模块模型对于真、假图像对的判别输出;
所述步骤三中的L1损失函数的计算公式为:
LL1=Ex,y[||y-G(x)||1]
上式中:
Figure BDA0003100358760000051
为真标签图与生成的标签图的损失函数,Ex,y为对真假标签数据图像之间的L1损失求数学期望,||·||1表示L1距离。
所述步骤三中的总损失函数计算公式为:
Figure BDA0003100358760000052
上式中:L是总损失函数,λ是一个正则化参数,取值为100。
本发明相对于现有技术具备的有益效果为:
1)本发利用深度条件生成对抗网络模型进行语义分割。条件生成对抗网络通过增加生成器模块和判别器模块的网络深度强化网络多层次特征提取能力,并引入判别器模块进行图像级别的监督学习进而获取全局和长程信息,增强了分割结果与真实语义图之间的空间一致性以及网络特征表达能力;
2)本发明在生成器模块和判别器模块中使用了非对称一次聚合模块来提升模型的性能。非对称一次聚合模块并没有采用过多的密集连接来对多次卷积后的特征图进行融合,而是采用一次性聚合的方式来对多次非对称卷积后的特征图进行聚合,所以相较于语义分割模型中常用的密集连接块有着更好的训练效率和多层次特征学习能力。非对称一次聚合模块中的非对称卷积模块利用并行的三个大小分别为1×3、3×3、3×1的卷积核对特征图进行卷积,并对三个分支的输出结果通过相加的方式进一步增强了卷积核中心骨架位置的权重,使得模型的特征表现能力进一步增强,提升了模型对于旋转畸变图像的鲁棒性,这一点对于不同视角下的遥感图像的语义分割起着至关重要的作用。非对称卷积这种加性特性使得转换后的模型与转换前的模型具有相同的输出,不会引入额外的超参数,实现比较简单,且相较于原始网络,无需额外推理耗时,同时可以明显的提升模型的性能。为了缓解神经网络深度增加所带来的梯度消失的问题,并增强模型的表征学习能力,非对称一次聚合模块利用残差连接的方式,将输入的特征图与即将输出的结果进行特征融合。非对称一次聚合模块中高效的压缩激励注意力模块,使得模型可以自动学习特征图通道之间的相关性,关注信息量最大的通道特征,而抑制那些不重要的通道特征;
3)本发明的生成器模块采用了U型结构。下采样路径与上采样路径之间的跳跃连接为语义信息在低级和高级特征之间的传递提供了便捷的路径。这有助于将低级语义特征与高级语义特征结合起来,以更好的提升模型的语义分割精度;
4)本发明的判别器模块采用Patch GAN结构,语义分割网络总体架构类似Pix2pix架构。这些设计使得模型结构简单、易于训练,可有效缓解现有遥感图像语义分割网络参数量巨大、训练困难、及像素级标注样本稀缺的问题。
本发明通过以上的有益效果,综合解决了现有遥感图像语义分割技术中存在的特征表达能力不足、模型效率低下和训练困难的问题。
附图说明
图1为本发明方法中构建的遥感图像语义分割方法的一种具体实施流程图;
图2为本发明方法中构建的遥感图像语义分割网络中生成器模块与判别器模块的组成结构示意图;
图3为本发明方法中构建的遥感图像语义分割网络中下采样单元与上采样单元的结构组成示意图;
图4为本发明方法中构建的遥感图像语义分割网络中的非对称一次聚合模块的结构组成示意图;
图5为本发明方法中构建的遥感图像语义分割网络的组成结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
如图1-5所示,本发明涉及一种基于深度对抗学习的遥感图像语义分割方法,如图1流程图所示,包括以下步骤:
步骤一:对遥感数据集划分为训练集和测试集,并对训练集和测试集中的遥感图像分别进行预处理;
预处理包括图像人工标注、图像裁剪和数据增强;
首先将的遥感图像在ArcGIS软件人工进行像素级语义标注得到遥感图像的标签图(带标签的遥感图像),然后将遥感图像和标签图随机裁剪为256像素×256像素的子图像,最后将遥感图像及标签图经过图像剪切后得到子图像进行随机角度图像旋转、图像垂直与水平翻转,得到数据增强的遥感图像。
步骤二:搭建遥感图像语义分割网络,该网络中主要由生成器模块和判别器模块组成,其搭建步骤如下:
构建生成器模块,如图2所示:生成器模块由下采样路径、瓶颈层、上采样路径以及下采样路径与上采样路径之间的跳跃连接组成U型对称结构网络模型,其具体结构为:
下采样路径从输入数据开始,首先通过卷积核大小为3×3、步长为1的卷积层得到通道数m的取值为48的语义特征图,随后又通过5个连续的下采样单元进行特征提取和下采样;瓶颈层由一个非对称一次聚合模块构成,上采样路径依次由5个连续的上采样单元和一个卷积核大小为1×1、步长为1的卷积层组成;
图3显示了下采样单元和上采样单元的结构:下采样单元由非对称一次聚合模块和具有下采样功能的下转换模块组成,其中非对称一次聚合模块负责特征提取并将结果特征图通过跳跃连接输出至上采样路径,下转换模块负责下采样;相比之下,上采样单元包括具有上采样功能的上转换模块、通道堆叠操作和非对称一次聚合模块组成,其中上转换模块负责接受上一个非对称一次聚合模块的新特征堆叠结果并将其采样,通道堆叠层负责将跳跃连接传递的特征图和上采样所得特征图进行通道堆叠,非对称一次聚合模块负责特征提取;
每个下采样单元中非对称一次聚合模块中包含的非对称卷积模块的个数n的取值分别为4、5、7、10、12,输出的特征图通道数目m的取值分别为112、192、304、464、656;瓶颈层中的非对称卷积模块的数量n的取值为15,最终瓶颈层输出的特征图通道数m的取值为896;每个上采样单元中的一次聚合模块中包含的非对称卷积模块的个数n分别为的取值12、10、7、5、4,输出特征图的通道数m的取值为1088、816、576、384、256;
搭建深度卷积神经网络作为判别器模块,其结构由一个核大小为3×3、步长为1的卷积层、3个连续的下采样单元组成和一个Sigmoid激活函数层依次组成;
卷积层输出特征图通道数m的取值为48,每个下采样单元中的非对称卷积模块的个数n的取值均为4,输出特征图的通道数m的取值分别为112、176、240;
如图4所示,非对称一次聚合模块的结构如下:特征图I0输入至非对称一次聚合模块后,首先经过n个非对称卷积模块,得到n个新特征图I1,I2…In;然后将输入的特征图I0与n个特征图I1,I2…In进行通道堆叠操作;接下来,将通道堆叠后的特征图C0输入至高效的压缩激励注意力模块,高效的压缩激励注意力模块输出的权重W0将与特征图C0进行元素相乘操作,以得到通道选择后的特征图C1;最后,输入的特征图I0将进行卷积核大小为1×1、步长为1的卷积操作,得到与特征图C1通道数相同的特征图F0,特征图C1与特征图F0进行元素相加操作,得到最终的输出结果。非对称一次聚合模块较常用的密集连接块有着更少的密集连接操作,因此可减少计算冗余,提高网络整体的分割性能。
非对称卷积模块,其结构为:将输入的特征图A0并行进行卷积核为1×3、3×3、3×1大小的卷积操作,得到特征图A1、A2、A3;将特征图A1、A2、A3分别进行归一化操作得到特征图A11、A21、A31,再将特征图A11、A21、A31进行元素相加操作得到特征图A4,最后利用激活函数为ReLU的激活层对特征图A4进行处理,得到最终的输出结果。注意,此过程我们并没有设置改变特征图分辨率的操作,为了保证元素相加操作的正常进行,我们在每个非对称卷积均为设置了16个卷积核来保证各特征图的通道数相同。非对称卷积模块相较于传统的方框卷积模块有着明显的优势,三分支的卷积后的结果通过相加的方式丰富了特征空间,明显的提升了模型的性能。
高效的压缩激励注意力模块,由三部分组成,其结构依次为:全局平均池化层,全连接层,激活函数为Sigmoid的激活层。通过该模块的引入,模型可自动学习特征图通道之间的相关性,使其更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。
下转换模块,结构依次为批量归一化层,激活函数为Leaky ReLU的激活层,卷积核大小为1×1、步长为2的卷积层,概率为0.2的Dropout层;
上转换模块,它的结构只有一层,由卷积核大小为3×3、步长为2的转置卷积层组成。
步骤三:将步骤一中经过预处理的训练集数据输入至步骤二中的遥感语义分割网络中,首先使用He Uniform方法对遥感图像语义分割网络进行初始化,然后利用生成器模块得到预测标签图并计算L1损失函数:
LL1=Ex,y[||y-G(x)||1]
上式中:
Figure BDA0003100358760000091
为真标签图与生成的标签图的损失函数,Ex,y为对真假标签数据图像之间的L1损失求数学期望,||·||1表示L1距离;再将真假图像对分别输入判别器模块计算对抗损失函数:
LCGAN=Ex,y[logD(x,y)]+Ex[log(1-D(x,G(x)))]
上式中:LCGAN为训练过程中条件生成对抗网络的对抗损失函数,Ex,y为对真图像对输入判别器模块得到的对抗损失求数学期望,Ex为对假图像对输入判别器模块得到的对抗损失求数学期望,x为训练集中的遥感图像,y为训练集中遥感图像x对应的标签图(又称真标签图),G(x)为生成器模块所生成的标签图(又称假标签图),D(x,y)、D(x,G(x))为判别器模块模型对于真、假图像对的判别输出,遥感图像x及其对应真标签图y组成真图像对,遥感图像x及其对应假标签图G(x)组成假图像对;
最后由L1损失函数和对抗损失函数计算总损失函数;
Figure BDA0003100358760000101
上式中:λ是一个正则化参数,取值为100;
大致流程如图5所示:整体的流程类似于Pix2pix网络的训练流程,将原始图像与生成器模块预测的标签作为假图像对,将原始图像与其对应标签作为真图像对,并将它们分别输入判别器模块进行判别真假。
步骤四:将步骤三得到的损失进行反向传播,更新生成器模块和判别器模块的网络参数。
步骤五:重复步骤三、步骤四;通过生成器模块与判别器模块不断的对抗训练,它们的能力将不断增强,直到生成器模块达到精准语义分割,判别器模块判别不出其输入图像对的真假。
步骤六:将测试集数据输入到步骤五中已经训练好的生成器模块,输出遥感图像的精确分割结果。
本发明涉及一种基于非对称一次聚合模块和条件生成对抗网络的高效遥感图像语义分割方法,所述的遥感图像语义分割方法包括以下步骤:1)获取训练数据和测试数据;2)搭建基于条件生成对抗网络的遥感图像语义分割模型;3)对遥感图像语义分割网络进行初始化,将训练集输入语义分割网络并计算损失;4)将损失进行反向传播,更新模型的参数;5)重复步骤3、步骤4,使遥感图像语义分割模型中的判别器模块无法判别其输入图像对的真假;6)将测试集数据输入到步骤5中已经训练好的生成器模块,输出遥感图像的精确分割结果。本发明在条件生成对抗网络Pix2pix模型中加入了非对称一次聚合模块并加深生成器模块和判别器模块,综合解决了现有遥感图像语义分割技术中存在的特征表达能力不足、模型效率低下和训练困难的问题,提高了遥感图像语义分割模型的性能。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、连接方式除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的已公开专利、已公开的期刊论文、或公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:包括如下步骤:
步骤一:将遥感数据集划分为训练集和测试集,并对训练集和测试集中的遥感图像分别进行预处理;
步骤二:搭建遥感图像语义分割网络,所述遥感图像语义分割网络基于条件生成对抗学习,包括生成器模块和判别器模块;
步骤三:将步骤一中经过预处理的训练集遥感图像输入至步骤二中的遥感语义分割网络中,首先使用He Uniform方法对遥感图像语义分割网络进行初始化,然后利用生成器模块得到预测标签图像并计算L1损失函数,再将遥感图像及其对应标签图组成真图像对,遥感图像及其对应生成器模块输出的预测标签图像组成假图像对,接着将真、假图像对输入判别器模块计算对抗损失函数,最后由L1损失函数和对抗损失函数计算总损失函数;
步骤四:将步骤三中的L1损失函数和对抗损失函数进行反向传播,更新生成器模块和判别器模块的网络参数;
步骤五:重复步骤三、步骤四;通过生成器模块与判别器模块不断的对抗训练,直到生成器模块达到精准语义分割,此时判别器模块无法判别其输入图像对的真假;
步骤六:将经过预处理的测试集遥感图像输入到步骤五中达到精准语义分割的生成器模块,输出遥感图像的精确分割结果;
所述的步骤二搭建遥感图像语义分割网络的搭建步骤为:
搭建生成器模块,生成器模块由下采样路径、瓶颈层、上采样路径以及下采样路径与上采样路径之间的跳跃连接组成的U型对称结构网络模型构成
下采样路径从输入数据开始,首先通过卷积核大小为3×3、步长为1的卷积层,得到通道数目m的取值为48的语义特征图,随后通过5个连续的下采样单元进行特征提取和下采样;
下采样单元由一对非对称一次聚合模块和下转换模块组成,其中非对称一次聚合模块负责特征提取并将结果特征图通过跳跃连接输出至上采样路径,下转换模块负责下采样;
每个下采样单元中包含的非对称一次聚合模块包含的非对称卷积模块个数n的取值分别为4、5、7、10、12,对应输出的特征图通道数目m的取值分别为112、192、304、464、656;
瓶颈层由一个非对称一次聚合模块构成,其中的非对称卷积模块的数量n为15,最终瓶颈层输出的特征图通道数m的取值为896;
上采样路径依次由5个连续的上采样单元和一个卷积核大小为1×1、步长为1的卷积层组成;
上采样单元由一组上转换模块、通道堆叠层和非对称一次聚合模块组成,其中上转换模块负责接受上一个非对称一次聚合模块的新特征堆叠结果并将其采样,通道堆叠层负责将跳跃连接传递的特征图和上采样所得特征图进行通道堆叠,非对称一次聚合模块负责特征提取;
每个上采样单元中非对称一次聚合模块包含的非对称卷积模块的个数n的取值分别为12、10、7、5、4,输出特征图的通道数m的取值为1088、816、576、384、256;
搭建判别器模块,为深度卷积神经网络,由一个核大小为3×3、步长为1的卷积层、3个连续的下采样单元和一个Sigmoid激活函数层组成;
卷积层输出特征图通道数m的取值为48,每个下采样单元中非对称一次聚合模块包含的非对称卷积模块的个数n的取值均为4,输出特征图的通道数m的取值分别为112、176、240;
所述非对称一次聚合模块的结构如下:特征图I0输入至非对称一次聚合模块后,首先经过n个非对称卷积模块,得到n个新特征图I1,I2…In;然后将输入的特征图I0与n个特征图I1,I2…In进行通道堆叠操作;接下来,将通道堆叠后的特征图C0输入至高效的压缩激励注意力模块,高效的压缩激励注意力模块输出的权重W0将与特征图C0进行元素相乘操作,以得到通道选择后的特征图C1;最后,输入的特征图I0将进行卷积核大小为1×1、步长为1的卷积操作,得到与特征图C1通道数相同的特征图F0,特征图C1与特征图F0进行元素相加操作,得到最终的输出结果;
所述非对称卷积模块,其结构为:将输入的特征图A0并行进行卷积核为1×3、3×3、3×1大小的卷积操作,得到特征图A1、A2、A3;将特征图A1、A2、A3分别进行归一化操作得到特征图A11、A21、A31,再将特征图A11、A21、A31进行元素相加操作得到特征图A4,最后利用激活函数为ReLU的激活层对特征图A4进行处理,得到最终的输出结果;
所述高效的压缩激励注意力模块,其结构依次为:全局平均池化层,全连接层,激活函数为Sigmoid的激活层。
2.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述步骤一中的预处理包括图像人工标注、图像裁剪和数据增强;
所述的图像人工标注具体为:将遥感图像在ArcGIS软件中人工对不同类别的地物用不同的颜色进行像素级语义标注得到带标签的遥感图像;
所述的图像裁剪具体为:将带标签的遥感图像随机裁剪为256像素×256像素的子图像;
所述数据增强包括:将子图像进行随机角度图像旋转、图像垂直与水平翻转得到的遥感图像。
3.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述下转换模块的结构依次为:批量归一化层,激活函数为Leaky ReLU的激活层,卷积核大小为1×1、步长为2的卷积层,概率为0.2的Dropout层。
4.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述上转换模块的结构为:卷积核大小为3×3、步长为2的转置卷积。
5.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述步骤三中的对抗损失函数的计算公式为:
LCGAN=Ex,y[logD(x,y)]+Ex[log(1-D(x,G(x)))]
上式中:LCGAN为训练过程中条件生成对抗网络的对抗损失函数,Ex,y为对真图像对输入判别器模块得到的对抗损失求数学期望,Ex为对假图像对输入判别器模块得到的对抗损失求数学期望,x为训练集中的遥感图像,y为训练集中遥感图像x对应的真标签图,G(x)为生成器模块所生成的假标签图,D(x,y)、D(x,G(x))为判别器模块模型对于真、假图像对的判别输出。
6.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述步骤三中的L1损失函数的计算公式为:
Figure FDA0003702216600000041
上式中:
Figure FDA0003702216600000042
为真标签图与生成的标签图的损失函数,Ex,y为对真假标签数据图像之间的L1损失求数学期望,||·||1表示L1距离。
7.根据权利要求1所述的一种基于深度对抗学习的遥感图像语义分割方法,其特征在于:所述步骤三中的总损失函数计算公式为:
Figure FDA0003702216600000043
上式中:L是总损失函数,λ是一个正则化参数,取值为100。
CN202110623433.2A 2021-06-04 2021-06-04 一种基于深度对抗学习的遥感图像语义分割方法 Active CN113313180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623433.2A CN113313180B (zh) 2021-06-04 2021-06-04 一种基于深度对抗学习的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623433.2A CN113313180B (zh) 2021-06-04 2021-06-04 一种基于深度对抗学习的遥感图像语义分割方法

Publications (2)

Publication Number Publication Date
CN113313180A CN113313180A (zh) 2021-08-27
CN113313180B true CN113313180B (zh) 2022-08-16

Family

ID=77377622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623433.2A Active CN113313180B (zh) 2021-06-04 2021-06-04 一种基于深度对抗学习的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113313180B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989405B (zh) * 2021-12-27 2022-04-08 浙江大学 一种基于小样本持续学习的图像生成方法
CN115035295B (zh) * 2022-06-15 2024-04-30 湖北工业大学 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法
CN117351520B (zh) * 2023-10-31 2024-06-11 广州恒沙数字科技有限公司 基于生成网络的前背景图像混合生成方法及系统
CN117974508B (zh) * 2024-03-28 2024-06-07 南昌航空大学 基于生成对抗网络用于不规则遮挡的虹膜图像修复方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767384B (zh) * 2017-11-03 2021-12-03 电子科技大学 一种基于对抗训练的图像语义分割方法
CN108550118B (zh) * 2018-03-22 2022-02-22 深圳大学 运动模糊图像的模糊处理方法、装置、设备及存储介质
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN110321925B (zh) * 2019-05-24 2022-11-18 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110490081B (zh) * 2019-07-22 2022-04-01 武汉理工大学 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法
CN110490884B (zh) * 2019-08-23 2023-04-28 北京工业大学 一种基于对抗的轻量级网络语义分割方法
CN111008570B (zh) * 2019-11-11 2022-05-03 电子科技大学 一种基于压缩-激励伪三维网络的视频理解方法
CN111553403B (zh) * 2020-04-23 2023-04-18 山东大学 基于伪3d卷积神经网络的烟雾检测方法及系统
CN112396089B (zh) * 2020-10-20 2023-04-07 中国地质大学(武汉) 基于lfgc网络和压缩激励模块的图像匹配方法
CN112884893A (zh) * 2021-03-15 2021-06-01 南京邮电大学 基于非对称卷积网络和注意力机制的跨视角图像生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN113313180A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN115797931B (zh) 一种基于双分支特征融合的遥感图像语义分割方法及设备
CN113313180B (zh) 一种基于深度对抗学习的遥感图像语义分割方法
Wang et al. Ultra-dense GAN for satellite imagery super-resolution
CN113160234B (zh) 基于超分辨率和域自适应的无监督遥感图像语义分割方法
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN114187520B (zh) 一种建筑物提取模型的构建及应用方法
Zhao et al. Bilateral U‐Net semantic segmentation with spatial attention mechanism
CN115601236A (zh) 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法
CN117058367A (zh) 高分辨率遥感影像建筑物语义分割方法及装置
CN115713529A (zh) 基于高效注意力的轻量级光学遥感图像变化检测方法
Hu et al. Hyperspectral image super-resolution based on multiscale mixed attention network fusion
CN116863347A (zh) 一种高效率和精度的遥感图像语义分割方法及应用
CN117252936A (zh) 一种适配多种训练策略的红外图像彩色化方法及系统
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
Wang et al. Road extraction based on improved DeepLabv3 plus in remote sensing image
Wang et al. SSCFNet: A spatial-spectral cross fusion network for remote sensing change detection
Li et al. Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network
CN117351360A (zh) 一种基于注意力机制改进的遥感图像道路提取方法
Sun et al. ESinGAN: Enhanced single-image GAN using pixel attention mechanism for image super-resolution
CN114266955A (zh) 一种遥感影像场景分类方法
CN111967516A (zh) 一种逐像素分类方法、存储介质及分类设备
Pang et al. PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images
CN116402995A (zh) 基于轻量级神经网络的古建筑点云语义分割方法及系统
Jiang et al. Semantic segmentation of remote sensing images based on dual‐channel attention mechanism
He et al. Remote Sensing Image Scene Classification Based on ECA Attention Mechanism Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant