CN111259906B - 含多级通道注意力的条件生成对抗遥感图像目标分割方法 - Google Patents

含多级通道注意力的条件生成对抗遥感图像目标分割方法 Download PDF

Info

Publication number
CN111259906B
CN111259906B CN202010057802.1A CN202010057802A CN111259906B CN 111259906 B CN111259906 B CN 111259906B CN 202010057802 A CN202010057802 A CN 202010057802A CN 111259906 B CN111259906 B CN 111259906B
Authority
CN
China
Prior art keywords
network
image
segmentation
channel
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010057802.1A
Other languages
English (en)
Other versions
CN111259906A (zh
Inventor
汪西莉
余帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010057802.1A priority Critical patent/CN111259906B/zh
Publication of CN111259906A publication Critical patent/CN111259906A/zh
Application granted granted Critical
Publication of CN111259906B publication Critical patent/CN111259906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种含多级通道注意力的条件生成对抗遥感图像目标分割方法,包括如下步骤:S100:对作为分割的主干网络进行改进,其中,所述主干网络包括生成网络和判别网络,所述改进具体为:S101:生成网络由含有多级通道注意力的分割网络构成;S102:判别网络由跨步卷积和泄露型修正线性单元构成;S200:采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割;S300:输出遥感图像的分割结果。该方法使用具有多级通道注意力的条件生成对抗的图像分割网络,在提升多尺度目标信息的同时也提供了更真实的生成图像,解决了小目标漏分问题,提升分割结果边界准确性及平滑性。

Description

含多级通道注意力的条件生成对抗遥感图像目标分割方法
技术领域
本公开属于遥感图像处理技术领域,特别涉及一种含多级通道注意力的条件生成对抗遥感图像目标分割方法。
背景技术
遥感图像中的建筑物分割在城市规划、变化检测及GIS信息构建等方面具有至关重要的作用,日渐成为学术界和工业界的研究热点之一。但是,遥感图像的建筑物对象具有许多复杂的特性,如多变的尺度、密集的分布、多样的拓扑形状、复杂的背景、存在遮挡与阴影等。传统的建筑物分割算法主要基于人工构造的特征,这类算法只能提取到建筑物目标的浅层特征,不能充分的表达其高层语义信息,准确率低,鲁棒性差。近年来,深度卷积网络在自然图像的像素级分类中表现出卓越的性能,各种基于FCN(Fully ConvolutionalNetworks)的图像分割模型不断提出,这些模型在提取特征之后大都使用反卷积或双线性插值进行特征上采样,通过逐像素分类实现对输入图像的分割,利用高度的非线性映射及大量数据训练,提取出建筑物的深层特征,较好地克服了传统算法的缺陷。但由于深度卷积网络模型存在重复的卷积与池化操作,上采样不能完全弥补由此带来的信息丢失问题,因此产生的预测结果较为粗糙,小目标信息丢失及目标边缘信息较难提取。同时在遥感领域,公共数据集非常少,难以训练出优秀的深层卷积网络,网络鲁棒性有待进一步提高。
针对上述问题,现有的研究方法提供了一些解决手段,主要可分为两类:第一:改进卷积网络的内部结构。第二:增加全卷积网络的外部结构,将GAN(Generative AdversialNetworks)引入到图像分割之中。在语义分割任务中引入GAN可以增强空间长距离的连续性,与非对抗训练相比,可以获得更准确、更平滑的结果。但是,生成模型仍然使用较低级的特征来生成分割图,面对复杂的遥感建筑物对象,有待进一步提升提取特征的能力。
现阶段,主流的卷积神经网络在遥感建筑物对象分割中展现出优秀的性能。但仍存在小目标漏分,边界不准确、不平滑等问题。
发明内容
为了解决上述问题,本公开提供了一种含多级通道注意力的条件生成对抗遥感图像目标分割方法,包括如下步骤:
S100:对作为分割的主干网络进行改进,其中,所述主干网络包括生成网络和判别网络,所述改进具体为:
S101:生成网络由含有多级通道注意力的分割网络构成;
S102:判别网络由跨步卷积和泄露型修正线性单元构成;
S200:采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割;
S300:输出遥感图像的分割结果。
通过上述技术方案,首先,提出新的语义分割网络作为GAN的生成器,通过多级注意力机制的信息融合,以应对复杂的遥感目标对象特征提取。其次,判别器将原始图与分割图或标签图进行合并判别,更好地保留了原始特征,并使用strided convolutions和leakyReLU构建判别网络,增强梯度的传播。最后,利用标记图作为条件,使GAN训练可控,加快收敛速度,缩短网络训练时间,并带来边缘细节更平滑、完整的分割结果图,提升了分割网络性能。
附图说明
图1是本公开一个实施例中所提供的一种含多级通道注意力的条件生成对抗遥感图像目标分割方法的流程示意图;
图2是本公开一个实施例中生成网络的结构示意图;
图3是本公开一个实施例中通道注意力模块示意图;
图4是本公开一个实施例中判别网络的结构示意图;
图5是本公开一个实施例中在WHU building dataset上各深度网络的分割结果对比图;
图6是本公开一个实施例中在WHU building dataset训练集上Loss变化曲线、测试集上F1-score变化曲线;
图7是本公开一个实施例中在Satellite dataset II(East Asia)上各深度网络的分割结果对比图;
图8是本公开一个实施例中在Satellite dataset II(East Asia)训练集上Loss变化曲线、测试集上F1-score变化曲线。
具体实施方式
在一个实施例中,如图1所示,公开了一种含多级通道注意力的条件生成对抗遥感图像目标分割方法,包括如下步骤:
S100:对作为分割的主干网络进行改进,其中,所述主干网络包括生成网络和判别网络,所述改进具体为:
S101:生成网络由含有多级通道注意力的分割网络构成;
S102:判别网络由跨步卷积和泄露型修正线性单元构成;
S200:采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割;
S300:输出遥感图像的分割结果。
就该实施例而言,含多级通道注意力的条件生成对抗遥感图像目标分割方法(Remote senSing image object segmentation by cGAN with multilevel channelattention,Ra-cGAN),包括生成网络G和判别网络D。G是具有通道注意力机制的多级特征融合网络,该网络通过自学的方式来构建通道注意力机制,并充分融合包含注意力的浅层局部信息与深层语义信息,增强各个尺度上特征的信息量,应对不同大小目标的分割问题,尤其是小目标信息的保持,G产生的分割结果作为D的输入;D是由五层strided convolutions和组成的分类网络,通过判断其输入是来自真实标签图还是生成器生成的图像,帮助G产生更加精准的生成图像。该方法使用具有多级通道注意力的条件生成对抗的图像分割网络,在提升多尺度目标信息的同时也提供了更真实的生成图像,解决了小目标漏分问题,提升分割结果边界准确性及平滑性。
在另一个实施例中,所述步骤S101中的生成网络主要包括两个组件:编码器与解码器。
就该实施例而言,生成网络是含有多级通道注意力的分割网络,如图2所示,主要包括两个组件,编码器与解码器,分别用于特征提取和类别预测。
在另一个实施例中,所述编码器包括5组卷积块、通道注意力层和Maxpooling层;所述解码器包括卷积层、反卷积层和通道注意力层。
就该实施例而言,编码器包括5组卷积块,以及为增强特征图上每一个像素的全局信息,提升网络对复杂背景下目标信息的获取而加入的通道注意力层,对应图2中Attention block,最后使用Maxpooling层进行特征降维,依次减小特征图的尺寸。解码器为还原特征图原有尺寸,生成与输入图像分辨率一致的预测图像,同时减小特征层深度。
在另一个实施例中,所述5组卷积块,每组由2个卷积核尺寸为3的卷积层、批归一化层、ReLU激活函数组成;所述Maxpooling层设置为大小为2,步长为2;所述反卷积层设置为步长为2,卷积核尺寸为2。
就该实施例而言,如此设置可以提取到更充分的特征信息,包含浅层细节信息和深层语义信息。
在另一个实施例中,所述的通道注意力层进一步包括:
首先将经过卷积操作得到的特征图U按空间维度进行全局平均池化,每个二维的特征通道都变成一个实数,这个实数具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,都为c;
其次,引入了两个全连接层,第一个全连接层中r为一个缩放参数,后经过ReLU函数激活,第二个全连接层升回之前的维度,再通过Sigmoid层获得归一化的通道权重;
最后,将提取到的通道权重,加权到特征图U的每个通道上,得到具有通道注意力的特征图Ua
就该实施例而言,通道注意力模块如图3所示,对应图2中Attention block。首先将经过卷积操作得到的特征图U按空间维度进行全局平均池化,每个二维的特征通道都变成一个实数,这个实数具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,都为c。为全面获得通道之间动态、非线性的依赖关系,限制模型的复杂度,让网络可以自发更新通道权重,引入了两个全连接层,第一个全连接层中r为一个缩放参数,目的是降低计算量,后经过ReLU函数激活,第二个全连接层升回之前的维度,再通过Sigmoid层获得归一化的权重信息。简而言之,这两个全连接层的作用就是融合各通道的特征信息。最后将提取到的通道权重,加权到先前特征图的每个通道上,得到具有通道注意力的特征图Ua
在另一个实施例中,所述步骤S102中的判别网络具体为:前三层卷积步长为2,卷积核大小为4,每经过一次卷积,特征向量的空间维度减少一半,通道数加倍;后两层卷积步长为1,卷积核大小为4,conv5将通道数压缩至1,再经过sigmoid层输出判别网络将输入预测为正类建筑物目标的概率。
就该实施例而言,判别网络的网络结构如图4所示。判别网络的输入为原图与分割图或标签图在通道维度上concatenate后的拼接图,这样做可以更好地保留样本的原始特征。在GAN判别网络中一般不用Max pooling,因为pooling后提供的梯度是稀疏的,不利于指导生成网络的学习,优秀的判别网络不仅应该分类能力强而且应该提供更多的信息给生成网络。激活函数使用LeakyReLU,解决ReLU可能带来梯度消失的问题。ReLU函数会将负值截断为0,而LeakyReLU在输入为负值时,函数值不为0,允许一个小的负值通过。由于判别网络的梯度对生成器来说特别重要,所以在判别网络里,用LeakyReLU代替ReLU、用stridedconvolutions代替Max pooling。
在另一个实施例中,所述步骤S101中的生成网络的输入为原始图像和像素级标签图像。
在另一个实施例中,所述步骤S102中的判别网络的输入为原始图像与所述生成网络生成的分割图像在通道维度上拼接后的拼接图像或原始图像与像素级标签图像在通道维度上拼接后的拼接图像。
就该实施例而言,生成网络G输入原始图像和像素级标签图像。判别网络D的输入有两种组合方式,一种是原始图像和生成网络生成图像的组合,另一种是原始图像和像素级标签图像的组合,训练过程中,原始图像与像素级标签图像作为正样本,原始图像与生成图像作为负样本。
在另一个实施例中,所述解码器使用包含通道注意力的特征图进行跳跃链接,与反卷积得到的信息相融合,进而获得分割图像。
就该实施例而言,为进一步提升网络对多尺度目标,尤其是小目标以及目标边缘信息的获取,使用包含通道注意力的特征图进行跳跃链接,与反卷积得到的信息相融合,以丰富全局语义信息和局部细节信息,从而得到更好的分割结果。
即每经过一次反卷积,就和编码器中通道数相同的注意力特征图进行融合,融合的方式是特征图在通道维度上的拼接。
在另一个实施例中,Ra-cGAN的损失函数为混合型损失函数,其定义式如下:
Figure BDA0002372030350000081
其中N表示训练图像xn的个数,yn表示其对应的标签图像,θG,θD分别表示生成网络和判别网络的参数,G(xn)表示生成网络生成的图像,即像素级的预测图像。式中第一项代表生成网络的损失函数,第二项代表判别网络的损失函数。因Ra-cGAN包括两个子网络,训练过程需两个子网络交替训练来优化整个模型。训练过程如下:
优化判别网络:训练网络之前,首先固定生成网络的参数,优化判别网络,此时判别网络的损失函数定义式如下:
Figure BDA0002372030350000082
两种输入模式,一种为(xn,yn),即原始图像与像素级标签图的拼接图,此时判别网络的标记为真,即1。另一种为(xn,G(xn)),即原始图像与生成网络生成的预测图的拼接图,此时判别网络的标记为假,即0,将以上两种组合分别输入到判别器中,并进行反向传播更新判别器的参数。
优化生成网络:固定判别网络的参数,优化生成网络,此时的判别网络损失函数定义式如下:
Figure BDA0002372030350000091
首先,将原始图像xn输入到生成网络G中,得到生成的像素级预测图G(xn),计算G(xn)与像素级标签图yn的交叉熵损失值,即
Figure BDA0002372030350000092
其次,将G(xn)和原始图像xn经通道维度拼接后输入到判别网络D中,因为生成网络G的目的是生成的像素级预测图G(xn)尽可能地接近真实标签图yn,所以此时判别网络D的损失函数标记为真。经过第一步训练后的判别网络D有能力判断输入图像来自真实标签图还是生成图像,即此刻判别网络D的交叉熵损失值反映输入图像G(xn)与原始图像xn之间的差异,即lCrossD
最后,将
Figure BDA0002372030350000093
和lCrossD同时作为生成网络反向传播的损失函数,即
Figure BDA0002372030350000094
其中λ表示判别网络损失函数的权重系数,用于决定判别网络对生成网络的监督反馈程度,当λ=0时,整个网络等价于传统的语义分割网络训练。最后再使用反向传播算法更新一次生成网络G的参数。
式(3)中,我们通过引入判别网络带来的损失,最小化生成的预测图与真实标签图的损失,根据Goodfellow,将
Figure BDA0002372030350000095
替换成
Figure BDA0002372030350000096
具体含义是目标函数最大化判别网络将G(xn)预测为xn的概率,即使生成网络的生成图像更接近真实标签图。当判别器做出准确的预测时,可以产生更强的梯度信号,实验结果也说明这对于加速网络的收敛,减少训练时间产生了很大的作用。
式(1)(2)(3)中使用的损失函数具体为交叉熵函数,其定义式如下:
Figure BDA0002372030350000101
式(4)中,li为像素点i处的真实标签,pk,i为像素点i输出属于k类的概率,K为类别总数,本文中K=2,N表示全部图像的所有像素点总和,σ(·)为符号函数,当li=k时为1,否则为0。
对于所有训练样本,重复使用前两步交替训练,直至训练达到指定次数,完成训练。
在另一个实施例中,给出实验环境。第一个数据集WHU building dataset,建筑物密集,类型众多,标签经过了重标定,更加准确,对模型的评价能力具有综合性与代表性。第二个更复杂且分割难度较高的数据集Satellite dataset II(East Asia),以往方法在此数据集上的实验指标也都偏低。下面将分别介绍这两个数据集的详细信息。
WHU building dataset包括从新西兰Christchurch地区提取的22万栋建筑物,建筑物空间分辨率为0.075m,覆盖面积共为450km2,该区域包含农村、城镇、文化区工业区,具有不同颜色、大小和用途的多种多样的建筑类型,是评估建筑物提取算法潜力的理想数据集。数据集共有图像8189幅和对应的像素级标签图,分辨率为512pixle×512pixle。其中包括训练集4736幅,验证集1037幅,测试集2416幅。
Satellite dataset II(East Asia)建筑数据集覆盖东亚550km2,地面分辨率为2.7m。该数据集分别包含训练集和测试图的整体图像(训练集2幅图像、测试集1幅图像)以及这些大规模图像裁剪后的小幅图像。所有图像被无缝裁剪成17388幅分辨率为512pixle×512pixle大小的小幅图像,便于训练和测试。其中训练集图像包含13662幅,测试集图像包含3726幅。
实验平台硬件配置为Inter(R)Xeon(R)CPU Silver 4112 2.6GH、内存128G、NVIDIA TITAN Xp显卡,软件配置为Ubuntu16.04系统、Pytorch深度学习框架。训练过程初始Adam学习率设置为0.0002,momentum为0.5,batch_size为12,epoch设为200次,λ设为10。测试阶段可直接输入原始图像,输出像素级分割图。
实验使用以下几种评价指标评估模型在上述两种数据集上的性能,即IOU(Intersection Over Union)、P(Precision)、R(Recall)和F1-score。IOU是语义分割的标准度量,P表示预测正确的正类个数占全部预测为正的比例,R表示预测正确的正类个数占全部正样本的比例,F1-score同时兼顾了分类模型的准确率和召回率。它们的定义分别如下:
Figure BDA0002372030350000111
Figure BDA0002372030350000112
Figure BDA0002372030350000113
Figure BDA0002372030350000121
其中Pgt是真实标记图的像素集合,pm是预测图像的像素集合,“∩”和“∪”分别表示交集和并集操作。|·|表示计算该组中的像素数。TP:true positive正类被判定为正类;FP:false positive负类被判定为正类;FN:false negative正类被判定为负类;TN:truenegative负类被判定为负类。
在另一个实施例中,在WHU building dataset数据集上,对比方法展示Ra-cGAN与U-Net模型、MLCA模型的分割结果。其中U-Net为语义分割经典网络,在病理图像分割和遥感图像分割中,都有着不俗的表现。MLCA模型为Ra-cGAN未加入对抗方法的子模型,也就是Ra-cGAN中单独的生成器模型。
图5从左到右依次为RGB原图,Groundtruth图,U-Net分割结果,MLCA分割结果,Ra-cGAN分割结果。结果图中黑色代表背景,白色代表目标建筑物。
如图5所示,第一列8副图像目标建筑物的光照、颜色、大小、形状、材质都各不相同。小图(1)圆圈标记区域的屋顶存在光照阴影,U-Net存在大量漏分现象,MLCA引入注意力后对漏分现象有一定程度的改善,而Ra-cGAN通过对抗网络的加入,相比前两者对阴影部分的分割更加完整,边缘也更加平滑;小图(2)、(4)、(5)、(6)、(7)包含大量的颜色形状不同的小目标对象,U-Net对其中与地面颜色差别较小,存在阴影的小目标提取能力较差,MLCA有一定的改善,但是仍然存在漏分与误分,Ra-cGAN则分割结果更加令人满意,(2)图像边缘的目标分割完整,(4)不仅解决了漏分前两者的漏分现象,而且地面误分为建筑物的现象也得到了解决,同时分割结果边缘细节更加丰富平滑,接近标签图;小图(3)、(8)包括较大的建筑物目标,且屋顶颜色形状较复杂,周围存在干扰物,分割难度较大,U-Net与MLCA均存在漏分和误分现象,而Ra-cGAN相较前两者对大目标分割更完整,对(8)小圆圈标记的易误分区域,分割更加准确平滑,整体更加接近标签图。
表1列出了所有比较方法在图7中的每副图像以及WHU building dataset测试集所有图像平均的定量结果。
Figure BDA0002372030350000131
表1
由表1可见,与其他方法相比,Ra-cGAN在每幅图像上的每种度量指标都能够达到最高,其中在测试集的平均结果上,相比未加入对抗的模型MLCA,IOU和F1-score两项指标高出1.34%、1.15%,比U-Net高出3.75%、2.52%。在训练时间上,MLCA为21h 42m,Ra-cGAN为18h 04m,Ra-cGAN由于加入对抗训练,相比MLCA收敛速度更快,训练时长更短。测试时间两者基本相同。结合分割图和量化结果来看,Ra-cGAN模型在未增加计算开销的情况下,分割效果更好,准确率更高,这表明含多级通道注意力的对抗网络可以提升遥感目标分割性能。
图6展示了Ra-cGAN在WHU building dataset训练集上loss的变化曲线、在测试集上F1-score的变化曲线。训练集上loss下降稳定,测试实验中F1-score在200个epoch内取得最好结果,并未产生过拟合现象。
在另一个实施例中,在Satellite dataset II(East Asia)数据集上,对比方法展示Ra-cGAN与U-Net模型、MLCA模型的分割结果。
在Satellite dataset II(East Asia)数据集上,图7从左到右依次为RGB原图、Groundtruth图、U-Net分割结果、MLCA分割结果、Ra-cGAN分割结果。结果图中黑色代表背景,白色代表目标建筑物。
如图7所示,第一列7幅图像的分辨率较低、目标大小、光照颜色各不相同,并且存在遮挡现象,分割难度较大。小图(1)(6)中圆圈标记的小目标,U-Net与MLCA不能完整分割出来,存在漏分小目标的现象,而Ra-cGAN的分割结果图对小目标分割更加完整,边缘更加平滑。小图(2)中的圆圈标记区域,尽管U-Net和MLCA都将目标分割了出来,但是分割的目标边缘不平整光滑,相比之下Ra-cGAN得到的结果与标签图更接近,目标分割准确,边缘平整。小图(3)(7)中,U-Net与MLCA将其他对象误判为目标建筑物,存在误检现象,Ra-cGAN结果图中未出现误检现象。数据集中类似小图(4)(5)光照信息的图像数量较少,在这种图像的分割中,MLCA的结果优于U-Net,但是相较其他类型的图像来说,准确率偏低,而加入对抗训练的Ra-cGAN则可以带来更加丰富的信息,分割的准确率也更高,结果更加完整。表2列出了所有比较方法在图7中的每幅图像以及Satellite dataset II(East Asia)测试集所有图像平均的定量结果。
Figure BDA0002372030350000151
表2
由表2所示,与其他方法相比,Ra-cGAN在每幅图像上的每种度量指标都达到最高,其中在测试集的平均IOU、F1-score上,Ra-cGAN比MLCA结果高出1.65%、1.60%,比U-Net高出7.26%、6.68%。在训练时间消耗上,MLCA为11h 37m,Ra-cGAN为9h 12m。结合分割结果图以及量化评价结果来看,Ra-cGAN模型在不增长训练时间的条件下,可以更快的得到最优分割结果,这说明充分包含多级通道注意力的条件对抗模型的有效性。
图8展示了Ra-cGAN在Satellite dataset II(East Asia)训练集上loss的变化曲线以及在测试集上F1-score的变化曲线。训练集上loss下降稳定,测试实验中,并未产生过拟合现象。
在另一个实施例中,Ra-cGAN和其他模型比较分析。
WHU building dataset数据集上Ra-cGAN模型与现有研究成果对比如表3所示。
Figure BDA0002372030350000161
表3
在表3所示的方法中SegNet是编码器为VGG前13层的卷积网络,解码器通过带索引的池化层还原图像尺寸。RefineNet是编码器使用远距离的残差连接,解码器使用一种链式残差池化操作。DeepLab V3+使用可分离卷积在ASPP结构中,是当前语义分割性能最好的模型之一。MLCA-Ksac是在MLCA的基础上加入共享空洞卷积模块,从而提升多尺度目标的分割精度。SiU-Net以原始图像及其下采样图像作为并行网络的输入,并行网络的两个分支共享相同的U型网络结构与权重,然后将分支的输出串联起来作为最终输出,该方法目前在WHU数据集上取得了最优的分割结果。从表3对比结果来看,Ra-cGAN在每一项评价指标上都取得了最高的精度,这表明了Ra-cGAN模型的有效性。
Satellite dataset II(East Asia)数据集上,Ra-cGAN模型与现有研究成果对比如表4所示。
Figure BDA0002372030350000171
表4
表4对比方法中,AugU-Net是对输入图像进行光谱增强操作,扩充其光谱维度的样本空间,即将原始图像重新采样作为新的输入样本。从表4的对比结果来看,Ra-cGAN在每一项评价指标上都取得了最高的精度,充分证明了包含多级通道注意力的条件对抗分割网络Ra-cGAN具有优秀的分割性能,以及应对来自不同的遥感建筑物对象分割任务中具有良好的扩展性与鲁棒性。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (9)

1.一种含多级通道注意力的条件生成对抗遥感图像目标分割方法,包括如下步骤:
S100:对作为分割的主干网络进行改进,其中,所述主干网络包括生成网络和判别网络,所述改进具体为;
S101:生成网络由含有多级通道注意力的分割网络构成;
S102:判别网络由跨步卷积和泄露型修正线性单元构成;
S200:采用改进后的含多级通道注意力的条件生成对抗的图像分割网络进行遥感图像的分割;
S300:输出遥感图像的分割结果。
2.根据权利要求1所述的方法,其中,优选的,所述步骤S101中的生成网络主要包括两个组件:编码器与解码器。
3.根据权利要求2所述的方法,其中,所述编码器包括5组卷积块、通道注意力层和Maxpooling层;所述解码器包括卷积层、反卷积层和通道注意力层。
4.根据权利要求3所述的方法,其中,所述5组卷积块,每组由2个卷积核尺寸为3的卷积层、批归一化层、ReLU激活函数组成;所述Maxpooling层设置为大小为2,步长为2;所述反卷积层设置为步长为2,卷积核尺寸为2。
5.根据权利要求3所述的方法,其中,所述的通道注意力层进一步包括:
首先将经过卷积操作得到的特征图U按空间维度进行全局平均池化,每个二维的特征通道都变成一个实数,这个实数具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,都为c;
其次,引入了两个全连接层,第一个全连接层中r为一个缩放参数,后经过ReLU函数激活,第二个全连接层升回之前的维度,再通过Sigmoid层获得归一化的通道权重;
最后,将提取到的通道权重,加权到特征图U的每个通道上,得到具有通道注意力的特征图Ua
6.根据权利要求1所述的方法,其中,所述步骤S102中的判别网络具体为:前三层卷积步长为2,卷积核大小为4,每经过一次卷积,特征向量的空间维度减少一半,通道数加倍;后两层卷积步长为1,卷积核大小为4,第5个卷积层将通道数压缩至1,再经过sigmoid层输出将生成网络生成的分割图像预测为真实的像素级标签图像的概率。
7.根据权利要求1所述的方法,其中,所述步骤S101中的生成网络的输入为原始图像和像素级标签图像。
8.根据权利要求1所述的方法,其中,所述步骤S102中的判别网络的输入为原始图像与所述生成网络生成的分割图像在通道维度上拼接后的拼接图像或原始图像与像素级标签图像在通道维度上拼接后的拼接图像。
9.根据权利要求3所述的方法,其中,所述解码器使用包含通道注意力的特征图进行跳跃链接,与反卷积得到的信息相融合,进而获得分割图像。
CN202010057802.1A 2020-01-17 2020-01-17 含多级通道注意力的条件生成对抗遥感图像目标分割方法 Active CN111259906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057802.1A CN111259906B (zh) 2020-01-17 2020-01-17 含多级通道注意力的条件生成对抗遥感图像目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057802.1A CN111259906B (zh) 2020-01-17 2020-01-17 含多级通道注意力的条件生成对抗遥感图像目标分割方法

Publications (2)

Publication Number Publication Date
CN111259906A CN111259906A (zh) 2020-06-09
CN111259906B true CN111259906B (zh) 2023-04-07

Family

ID=70948971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057802.1A Active CN111259906B (zh) 2020-01-17 2020-01-17 含多级通道注意力的条件生成对抗遥感图像目标分割方法

Country Status (1)

Country Link
CN (1) CN111259906B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523682B (zh) * 2020-07-03 2020-10-23 支付宝(杭州)信息技术有限公司 训练交互预测模型、预测交互对象的方法及装置
CN112215850A (zh) * 2020-08-21 2021-01-12 天津大学 一种带注意力机制的级联空洞卷积网络脑肿瘤分割方法
CN112085279B (zh) * 2020-09-11 2022-09-06 支付宝(杭州)信息技术有限公司 训练交互预测模型、预测交互事件的方法及装置
CN112215803B (zh) * 2020-09-15 2022-07-12 昆明理工大学 一种基于改进生成对抗网络的铝板电涡流检测图像缺陷分割方法
CN112598650A (zh) * 2020-12-24 2021-04-02 苏州大学 眼底医学影像中视杯视盘的联合分割方法
CN112884773B (zh) * 2021-01-11 2022-03-04 天津大学 基于背景变换下目标注意力一致性的目标分割模型
CN112862831A (zh) * 2021-02-05 2021-05-28 苏州大学 对抗网络生成方法和眼底荧光造影图像无灌注区分割方法
CN113239954B (zh) * 2021-04-01 2022-10-25 河海大学 基于注意力机制的图像语义分割特征融合方法
CN113298825B (zh) * 2021-06-09 2023-11-14 东北大学 一种基于MSF-Net网络的图像分割方法
WO2023062764A1 (ja) * 2021-10-13 2023-04-20 国立大学法人東北大学 生体画像処理プログラム,生体画像処理装置及び生体画像処理方法
CN114240950B (zh) * 2021-11-23 2023-04-07 电子科技大学 一种基于深度神经网络的脑部肿瘤图像生成和分割方法
CN114677514A (zh) * 2022-04-19 2022-06-28 苑永起 一种基于深度学习的水下图像语义分割模型
CN115641512B (zh) * 2022-12-26 2023-04-07 成都国星宇航科技股份有限公司 一种卫星遥感影像道路识别方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN109101975B (zh) * 2018-08-20 2022-01-25 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN110490884B (zh) * 2019-08-23 2023-04-28 北京工业大学 一种基于对抗的轻量级网络语义分割方法

Also Published As

Publication number Publication date
CN111259906A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN113298818B (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN111612008B (zh) 基于卷积网络的图像分割方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN113449594B (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN113239830B (zh) 一种基于全尺度特征融合的遥感图像云检测方法
CN113780296A (zh) 基于多尺度信息融合的遥感图像语义分割方法及系统
Zhong et al. Multiagent object-based classifier for high spatial resolution imagery
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN111652240B (zh) 一种基于cnn的图像局部特征检测与描述方法
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN110543872A (zh) 一种基于全卷积神经网络的无人机影像建筑物屋顶提取方法
CN111738113A (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN113569724B (zh) 基于注意力机制和扩张卷积的道路提取方法及系统
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN112215847A (zh) 基于对抗学习多尺度特征的重叠染色体自动分割方法
CN115049841A (zh) 基于深度无监督多步对抗域自适应的高分辨sar图像地物要素提取方法
CN106504219B (zh) 有约束的路径形态学高分辨率遥感影像道路增强方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113657393B (zh) 一种形状先验缺失的图像半监督分割方法及系统
Pang et al. Multihead attention mechanism guided ConvLSTM for pixel-level segmentation of ocean remote sensing images
CN114241314A (zh) 一种基于CenterNet的遥感影像建筑物变化检测模型及算法
Feng et al. Improved deep fully convolutional network with superpixel-based conditional random fields for building extraction
CN115564982A (zh) 一种基于对抗学习的同域遥感影像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant